DE102005020083A1

DE102005020083A1 - Verfahren und Software zum Extrahieren chemischer Daten

Info

Publication number: DE102005020083A1
Application number: DE102005020083A
Authority: DE
Inventors: Alexander Johnston Lawson; Stefan Roller; Helmut Grotz; Janusz Wisniewski; Libuse Goebels
Original assignee: MDL Information Systems GmbH
Current assignee: Elsevier Information Systems GmbH
Priority date: 2004-04-30
Filing date: 2005-04-29
Publication date: 2005-12-29
Anticipated expiration: 2025-04-30
Also published as: NL1028923C2; US7933763B2; US20050246316A1; EP1615154A2; US20110202331A1; GB2413664A; NL1028923A1; EP1615154A3; DE102005020083B4; GB0508849D0

Abstract

Bevorzugte Ausführungsformen der vorliegenden Erfindung umfassen Verfahren und Software zum Verarbeiten von Textdokumenten und Extrahieren darin enthaltener chemischer Daten. Bevorzugte Verfahrens-Ausführungsformen umfassen: (a) Identifizieren und Markieren von einer oder mehreren chemischen Verbindungen in einem Textdokument; (b) Identifizieren und Markieren von physikalischen Eigenschaften, die sich auf ein oder mehrere dieser Verbindungen beziehen; (c) Übersetzen von einer oder mehreren dieser Verbindungen in eine chemische Struktur; (d) Identifizieren und Markieren von einer oder mehreren chemischen Reaktionsbeschreibungen in dem Textdokument; und (e) Extrahieren von wenigstens einigen der markierten Informationen und deren Speichern in einer Datenbank.

Description

HINTERGRUND
Bezeichnungen, chemische Formeln und Strukturdiagramme sind die Sprache der Chemie. In jedem Fachgebiet, in dem Ziele in einer Reihe von Sprachen ausgedrückt werden können, besteht Interesse und Bedarf an einer Übersetzung zwischen den verschiedenen Ausdrücken, die diese Ziele beschreiben. Ein Bedarf an Nomenklatur entsteht, wenn Chemiker die Informationen über Verbindungen in Sprache und Schrift übermitteln müssen, in letzterem Fall normalerweise dann, wenn ein (unzweideutiges und einzigartiges) strukturelles Diagramm aus irgendeinem Grund ungeeignet ist oder nicht verwendet werden kann.

Die Nomenklatur, die zum Beschreiben chemischer Strukturen verwendet wird, ist eine Sprache und kann daher, wenn sie in eine andere Darstellung übersetzt wird, unter Verwendung von Linguistik-Verfahren ^1–3 bearbeitet werden. Der menschliche geistige Prozess, von einer chemischen Bezeichnung auf die Struktur zu kommen, scheint eine regelbasierte linguistische Methode zu sein. Wie in der Linguistik gibt es eine Auseinandersetzung zwischen Pragmatikern, die jeden Begriff als zufriedenstellend erachten, der die beabsichtigte Bedeutung vermittelt, und den Puristen, die darauf bestehen, dass Regeln eingehalten werden müssen, wobei bedauerlicherweise für den Computer die Pragmatiker die Oberhand behalten. Daher versucht die zweckbestimmte Organisationsgesellschaft Commission on the Nomenclature of Organic Chemistry (CNOC) der International Union of Pure and Applied Chemistry (IUPAC) (http://www.iupac.org), die seit 1938 für die Erarbeitung, Überwachung und Überprüfung der Empfehlungen, die Richtlinien für die systematische Nomenklatur sind, zuständig ist, die Nomenklatur als ein Ganzes zu sehen, wobei bereits bestehende Gepflogenheiten in Regeln kodifiziert und nur sehr selten Neuheiten vorgeschlagen werden. ⁴Obwohl das System über 110 Jahre entwickelt worden ist, (initiiert durch die historische "Genfer Konferenz" von 1892), ist es weit davon entfernt, perfekt zu sein und ist nicht zu einem universellen Standard geworden.⁵

Mittlerweile existiert die CNOC nicht mehr und wurde (im Januar 2002) – ebenfalls innerhalb der IUPAC – durch die Division of Chemical Nomenclature and Structure Representation (http://www.iupac.org/divisions/VIII/) ersetzt, deren Hauptaufgaben darin bestehen, Bemühungen bei der Nomenklatur-Systematisierung zu koordinieren und alle relevanten Aktivitäten und Projekte der chemischen Gemeinschaft zu überwachen, die auf unzweideutige Strukturdarstellung(en) ausgerichtet sind. Typischerweise umfasst dies die Darstellung auf dem Computer ^6–8 für örtliche Berechnung genauso wie für verteilte Berechnung in Intranetzen und im Internet (hauptsächlich Web-basiert).

Zum Zweck der Klarheit bei der Auswahl von bevorzugten Bezeichnungen haben die zwei bedeutendsten Hersteller und Verteiler von chemischen Informationen (Chemical Abstract Service (http://www.cas.org) und Beilstein-Institut (die Beilstein-Datei wird jetzt von MDL bereitgestellt und verwaltet – http://www.mdli.com)) nicht-dokumentierte ad hoc Unterregeln entwickelt, die das Problem der eindeutigen Bezeichnung von organischen Verbindungen nur noch vergrößert haben. Diese Regeln waren erforderlich, weil die IUPAC-Empfehlungen häufig mehr als eine Bezeichnung für eine bestimmte chemische Verbindung zulassen. Demzufolge überprüften beide Einrichtungen das IUPAC-System und erstellten ihre eigenen "systematischen" IUPAC-kompatiblen (statt von der IUPAC gebilligten) Nomenklaturen. Außerdem haben Trivial- und Handelsbezeichnungen, die kürzer und prägnanter sind, die systematischen Bezeichnungen für eine Reihe von Verbindungen erfolgreich ersetzt, die von kommerzieller Bedeutung sind oder Gegenstand des öffentlichen Interesses sind, (beispielsweise Pharmazeutika, Insektizide und Schadstoffe). Sowohl CAS als auch Beilstein beanspruchen Konformität mit den IUPAC-Regeln, und im Allgemeinen ist das richtig. Die IUPAC-Empfehlungen wurden bewusst so formuliert, dass sie in ihrer Anwendung beträchtliche Freiheit lassen, und in vielen Fällen sind sie nicht vollständig bis zu ihrem logischen Endergebnis definiert. In der Praxis bedeutet dies, dass jede vorgegebene Struktur nicht notwendigerweise auf eine eindeutige korrekte Bezeichnung verweist. Daher können die spezifischen "Dialekte", die von CAS und Beilstein unterstützt werden, immer noch eine systematische Nomenklatur darstellen, gleichgültig, wie weit sie auseinander liegen. Dies ist die größte Schwäche der Nomenklatur, soweit die Computernutzung davon betroffen ist.

Der durchschnittliche Benutzer kann keine klar definierten "Dialekte" von IUPAC finden. Dies hat auch eine Lösung der Schwierigkeiten beim Erstellen eines unzweideutigen Nomenklatur-Standards behindert. So lange ein derartiger Standard nicht vorhanden ist, steht der Chemiker in der Praxis in einem hohen Maß von systematischer Nomenklatur befremdet da. Aber selbst, wenn eine Art von Konsens erreicht und ein unzweideutiger Nomenklatur-Standard ausgearbeitet und angenommen wird, so besteht immer noch das Problem einer Nomenklatur-Komplexität. Man ist sich allgemein einig, dass die IUPAC-Nomenklatur schwerfällig ist und eine sehr große Anzahl von Regeln aufweist, die oft sehr schwierig zu befolgen sind. Häufig zulässige Alternativen bei der Bezeichnungs-Zuweisung, widersprüchliche Empfehlungen, das Fehlen von Regeln in gewissen Bereichen und die übertriebene Freiheit bei der Interpretation der Regeln führen zu Vieldeutigkeit und spezifischem Nomenklatur-Chaos.

Ein grundlegendes Problem bei der Benennung ist, dass eine korrekte Bezeichnung nicht notwendigerweise die einzige korrekte Bezeichnung für eine Struktur ist. Um die Angelegenheit weiter zu komplizieren, sind die Regeln, um zu einer korrekten Bezeichnung zu gelangen, wie oben erläutert, komplex, und nur sehr wenige Chemiker können sie bewältigen. Noch schlimmer ist, dass die wichtigen weltweiten Zentren für chemische Dokumentation entweder intern oder extern bei ihrer Anwendung der Regeln nicht einheitlich vorgehen. Dies ist nicht das Ergebnis von Nachlässigkeit oder mangelndem Bemühen; es ist einfach eine Widerspiegelung der Schwierigkeit, sich darauf zu einigen, wie ein mehrdimensionales Problem in eine einzige, universelle Textbeschreibung gezwängt werden kann. Die in 5 gezeigte Struktur veranschaulicht das Problem.

Im Prinzip ist an einer Vielzahl von Bezeichnungen für Strukturen nichts auszusetzen. So lange jede Bezeichnung eine angemessene Darstellung der Struktur ist, gibt es wenige echte Probleme, abgesehen davon, dass sichergestellt wird, dass Chemiker in passivem Sinn mit den Regeln einigermaßen vertraut sind, (d. h. eine Bezeichnung interpretieren können, im Gegensatz zu sie erstellen). Die herkömmliche (versuchte) Verwendung von Nomenklatur war in ihrem Umfang jedoch viel größer. Vor der Computerisierung bestand der Idealfall darin, jede wichtige strukturelle Untereinheit der Struktur unter Verwendung der Nomenklatur zu indizieren. Die Struktur sollte intuitiv in Relevanzbereiche (Acetaldehyd, Benzol, Ethan) aufgeschlüsselt werden, und diese werden unter Verwendung von Einsatzort-Parametern (1, 2, α) in einen Text zusammengebunden. Dieses Verfahren basiert auf chemischen Erfahrungswerten und ist keinesfalls schlecht.

Aber es enthält die Grenzen seiner eigenen Anwendbarkeit insofern, als das verwendete Vokabular in einem streng definierten Sinn nie vollkommen standardisiert worden ist, und die intuitive Unterteilung nie völlig von internen Widersprüchen befreit worden ist. Dies bedeutet, dass die Verwendung von Indices, die auf Bezeichnungen oder Teilen von Bezeichnungen basieren, bis heute ein gewagtes Unterfangen ist. Um das oben genannte Beispiel zu verwenden, ist es für die meisten Chemiker nicht sofort ersichtlich, ob sie unter A (für Acetaldehyd), B (für Benzol) oder E (für Ethan) suchen sollen. Ein Computersystem, das in der Lage ist, Bezeichnungen algorithmisch zu generieren und die gleichen Relevanzregeln zu verwenden, würde immer zu der gleichen Indexbezeichnung führen und damit das Problem ein für alle Mal lösen ⁷. Solche Bezeichnungen könnten dann umkehrbar und unzweideutig in das gleiche strukturelle Diagramm zurück übersetzt werden.

Dies ist leider überhaupt nicht der Fall. Eine systematische Nomenklatur, wie sie von IUPAC empfohlen wurde, konnte sich nicht als Standard etablieren. Wie oben erörtert, ersetzten Trivial- oder Handelsbezeichnungen, die kürzer und prägnanter waren, erfolgreich systematische Bezeichnungen für eine Reihe von chemischen Verbindungen, die von kommerzieller Bedeutung oder der Gegenstand von öffentlichem Interesse sind. Ein umfangreiches Computerprogramm, das so ausgelegt ist, dass es mit realer chemischer Nomenklatur arbeiten kann, muss in der Lage sein, halbsystematische, asystematische, veraltete, vieldeutige oder anderweitig "korrumpierte" Bezeichnungen umzuwandeln, welche die Realität der gegenwärtigen Kommunikation in der Chemie sind.

Die Übersetzung von chemischen Bezeichnungen in Strukturen kann im Allgemeinen als ein Problem der computerisierten syntaktischen und semantischen Analyse von Nomenklatur als einer künstlichen Sprache behandelt werden. Um eine derartige Analyse zu erhalten, muss zuerst eine formale Grammatik der Nomenklatur aus informellen Regeln abgeleitet werden. Vom linguistischen Standpunkt aus ist es eine interessante Beobachtung, dass die grundlegende Sprache aller Benennungssysteme in der organischen Chemie im Wesentlichen die gleiche ist. Obwohl zwei Chemiker die gleiche Verbindung unterschiedlich bezeichnen, sind beide in der Lage, das gleiche strukturelle Diagramm zu zeichnen. In diesem Sinne entspricht die oben genannte Verwendung von unterschiedlichen Benennungspraktiken eher dem Problem der Bearbeitung von Dialekten als der Behandlung von getrennten und verschiedenen Sprachen.

Die Kenntnis einer formalen Grammatik der chemischen Linguistik erfordert die Erstellung eines Wörterbuchs von Fragmenten, (so genannten Morphemen), aus denen die Bezeichnungen aufgebaut werden können, und die Erläuterung von geeigneten Syntax-Regeln, die dieses Gebilde bestimmen. ² Die Fragmente werden dann in nummerierte Klassen gruppiert und Regeln in Begriffen von diesen geschrieben, um Ausdrücke zu definieren, so dass auf jede Regel durch ihre dazugehörige Ausdrucksbezeichnung verwiesen wird. Beispielsweise kann eine Regel gleichzeitig die Fragmente "meth", "eth", "prop" usw. in dem gleichen Kontext berücksichtigen. Die Morpheme müssen dann in einer bereitgestellten Bezeichnung lokalisiert und erkannt werden. Der Prozess umfasst ein erstes Analysieren der Bezeichnung, indem sie in längstmögliche Textfragmente aufgeschlüsselt wird, und das anschließende Übermitteln der Fragmente zur lexikalischen Analyse, um die Fragmente gemäß einer Gruppe von Syntaxregeln unter Verwendung des vordefinierten Wörterbuchs zu identifizieren ⁹. Unter Berücksichtigung der zahlreichen halbsystematischen Fragmente, die von IUPAC gespeichert wurden, (z.B. Essigsäure statt der systematischen Ethansäure), muss ein nur funktionierender Analyse-Algorithmus mit einem extrem großen Wörterbuch von Morphemen arbeiten. Sobald eine gültige Bezeichnung, (das Problem von zulässigen gültigen Bezeichnungen wurde oben bereits erwähnt), erfolgreich analysiert worden ist, müssen geeignete Routinen aufgerufen werden, um die semantischen Informationen zu verarbeiten, wenn jede Syntaxregel befolgt wurde. Die in der Bezeichnung lokalisierten Morpheme werden dann mit entsprechenden strukturellen Fragmenten verknüpft, die in einer kompakten Form als kleine Verbindungstabellen gespeichert werden. Diese werden dann kombiniert und zusammen in die endgültige vollständige Verbindungstabelle (CT) eingeordnet, die der vollständigen Bezeichnung entspricht. Grafikroutinen wandeln die Verbindungstabellen in strukturelle Diagramme um und stellen sie als Ausgabe auf Datenendgeräten oder in gedruckter Form¹⁰ bereit.

Umwandlungen der oben erläuterten Art blicken auf eine lange Tradition zurück. Die erste Verwendung eines computerisierten Grammatikanalyseprozesses mit einem sehr eingeschränktem Wörterbuch von Nomenklaturbegriffen im Vergleich mit der großen Bandbreite von Konstruktionen, die in der IUPAC-Nomenklatur zulässig sind, wurde von Elliot vorgenommen.¹¹ Später wurden praktische betriebsbereite Computerprogramme auf der Basis derartiger Prozeduren durch den CAS ¹² berichtet, wo sie zum Validieren des CAS-Index für die CAS-Index-Datei verwendet wurden. Ungefähr zur gleichen Zeit berichteten Stilwell ¹³ und später Cooke-Fox et al ¹⁴ über eine sehr interessante grammatikbasierte Nomenklatur-Übersetzung für eine Steroid-Nomenklatur. Von einem weiteren System, das jedoch halbsystematische und triviale Fragmente aus dem Morphem-Wörterbuch ausschloss, wurde von Carpenter ¹⁵ berichtet. Die bisher am weitesten entwickelte Forschung zur grammatikbasierten Übersetzung von IUPAC-Nomenklatur in strukturelle Diagramme wurde von dem Team an der University of Hull ^{2,9–10,14,16–17} durchgeführt.

Das erste funktionierende praktische System, (genannt VICA), das Bezeichnungen in Strukturen übersetzte, geht auf das Jahr 1986 zurück und wurde von Domokos und Goebels entwickelt für den IBM-Mainframe-Computer im Beilstein-Institut in Frankfurt/Main, Deutschland. Es wurde bei Beilstein (mit einer Erfolgsquote von bis zu 95%) ausschließlich für die Beilstein-Nomenklatur angewendet und wurde nie außerhalb von Beilstein eingesetzt. Abgesehen von internen Beilstein-Memos und technischen Dokumenten gibt es keine überprüften Veröffentlichungen, auf die man sich beziehen könnte. Das Format der eingegebenen chemischen Bezeichnung, das von VICA akzeptiert wurde, (geschrieben in Pascal- oder Fortran-Programmiersprache), war streng für die Syntax der systematischen Nomenklatur definiert, wie sie im "Beilstein-Dialekt" verwendet wurde (spezifische Begrenzungszeichnen, spezifische Behandlung von nachgestellten Suffixen wie Ester oder Amide, spezifische Syntax von Mehrkomponentenstrukturen usw.).

Ein weiterer interessanter Versuch im Bereich der algorithmischen Bezeichnungs-Umwandlung ist ROXY, ein System, das 1993 von Lawson¹⁸ entwickelt und programmiert wurde. Dieses Visual-Basic-Programm arbeitet mit einem sehr kleinen Wörterbuch (etwa 500 Einträge) von vordefinierten Bezeichnungsfragmenten, generiert sehr erfolgreich miteinander verschmolzene und annellierte Ringsystem-Verbindungstabellen unter Verwendung eines streng algorithmischen Mechanismus (ohne Datenbank-Suchlauf) und erreicht für reale Bezeichnungen eine Erfolgsquote von bis zu 21%.

Vor kurzem kamen ein paar interessante praktische (und im Handel erhältliche) Computersysteme, die Nomenklatur in Verbindungstabellen übersetzen, auf den Markt. Das erste ist von CambridgeSoft Corporation, Cambridge, Mass., USA und ist unter der Bezeichnung "Name=Stru" bekannt. Seine letzte Version ist in dem Strukturbearbeitungs-Paket ChemDraw Ultra und der chemischen Office-Suite ChemOffice Ultra enthalten.¹⁹ Die Erfolgsquote, (Anteil der korrekt generierten Strukturen an der Gesamtanzahl der Strukturen in dem Testmuster), die von Brecher in seinem Papier ²⁰ berichtet wurde, schwankte von hohen 92% bis zu niedrigen 33,5% und hing von der Qualität der Bezeichnungen in der Ausgangs-Testauswahl ab.

Das "Name=Stru"-System weist einige Einschränkungen auf. Die Cahn-Ingold-Prelog- (CIP) Stereochemie (R/S, E/Z) wird nicht unterstützt, und einige Klassen von überbrückten Ringsystemen werden vernachlässigt. Des Weiteren kann das System Bezeichnungen von Polymeren und diejenigen von anorganischen Koordinations-Komplexen nicht verarbeiten. Auch für die subtraktive Nomenklatur (de-, des- usw.) fehlt die Unterstützung völlig.

Das Papier von Brecher enthält eine detaillierte Beschreibung und Klassifizierung von Problemen, auf die jeder trifft, der versucht, einen automatischen Nomenklatur-Umwandler zu entwickeln. Diese Probleme – laut Brecher – ergeben sich vorwiegend aus der Vieldeutigkeit der derzeitigen Nomenklatur-Praktiken.

Advanced Chemistry Development brachte ein weiteres Programm dieser Art auf den Markt (ACD Labs, Toronto, Kanada). Dieses Programm ist in der Lage, in vielen Fällen die Erfolgsquote des "Name=Stru"-Programms zu übertreffen. "ACD/Name to Structure" wird als eine interaktive oder Batch-Version (eine Umwandlungssitzung kann nicht für eine einzelne Bezeichnung, sondern nur für eine Datei von eingegebenen Bezeichnungen gestartet werden) angeboten. Dieses Programm ist nach Aussage von ACD Labs ²¹ in der Lage, chemische Strukturen für Bezeichnungen der meisten Klassen von allgemeinen organischen Verbindungen, viele Derivate von mehr als 150 grundlegenden übergeordneten Naturprodukt-Strukturen und halbsystematische und triviale Bezeichnungen von allgemeinen organischen Verbindungen zu generieren.

Die Batch-Version des Bezeichnungs-Umwandlers von ACD Labs ("Name to Structure Batch") generiert Strukturen aus systematischen und nicht-systematischen chemischen Bezeichnungen von allgemeinen organischen, einigen biochemischen und einigen anorganischen Verbindungen. Die Eingaben für dieses Programm können systemspezifische ACD ChemFolder *.cfd-Formatdateien, reguläre ASCII-Textdateien oder MDL *.db oder *.sdf-Dateien sein. Vor kurzem wurde die Funktionalität des Programms erweitert, und Name to Structure Batch kann auch SMILES-Zeichenketten direkt in chemische Strukturen umwandeln. Das Programm steht auch für UNIX- Plattformen zur Verfügung. Dies ist besonders wichtig, weil die meisten der Intranet-Systeme für kleine chemische Datenbanken auf UNIX-Minicomputern gefahren werden.

Ein weiterer Umwandler von Bezeichnungen in Strukturen stammt von ChemInnovation Software, Inc., eine Gesellschaft mit Sitz in San Diego, Kalifornien. Das Programm heißt NameExpert. Das Programm ist mehr akademischer als praktischer Natur (was hauptsächlich auf eine nicht akzeptable niedrige Erfolgsquote zurückzuführen ist).²² Das Programm versteht strikte systematische organische ICTPAC-Nomenklatur. Für eine eingegebene chemische IUPAC-Bezeichnung erstellt es die entsprechende Struktur in einem der drei Formate: Stenogramm, Kekule oder halbstrukturelle Formel. Außerdem kann es Kennzeichen zu entsprechenden Atomen und Gruppen hinzufügen. Die letzte Version unterstützt jetzt eingeschränkte Stereochemie und umfasst 8000 Arzneimittel-Bezeichnungen und -strukturen.

Um die Liste der verfügbaren Software-Pakete zum Umwandeln von Bezeichnung in Struktur vollständiger zu machen, muss noch ein weiteres Programm erwähnt werden, nämlich IUPAC DrawIt, das von Bio-Rad Laboratories Corporate, Hercules, Ca., USA auf den Markt gebracht wurde. Es kann unter keinen Umständen als Nomenklatur-Werkzeug für den praktischen Einsatz in einem Unternehmen betrachtet werden.²³ Die hauptsächliche Einschränkung ist die maximale Anzahl von Schweratomen, die in der resultierenden Ausgabestruktur zulässig sind, die auf 10 eingestellt ist. Das Programm ist relativ effektiv für streng systematische IUPAC-Bezeichnungen, doch für die allgemeine Nomenklatur, wie diejenige, die in der aktuellen Literatur zu finden ist, kann das Programm nicht mehr als eine einstellige Erfolgsquote vorweisen. Daher kann es unter keinen Umständen als eine Alternative oder Konkurrenz für Name=Stru oder für ACD/Name to Structure betrachtet werden.

Die chemische Nomenklatur, und insbesondere die organische Nomenklatur, die in der Literatur veröffentlicht wird (Zeitschriften, Patente, technische Dokumentationen usw.) ist im Allgemeinen von schlechter Qualität. Veröffentlichte Regeln (z.B. IUPAC) werden im Allgemeinen ignoriert, falsch interpretiert, korrumpiert oder nach Belieben erweitert. Die Nomenklatur, die heute als "systematisch" betrachtet wird, wird durch den Konsens der Ansichten der Anwender definiert. Eine "korrekte Bezeichnung" existiert nicht. Es gibt "vernünftige" Benennungspraktiken, z.B. diejenigen, die auf die Beilstein- oder CAS-"Dialekte" beschränkt sind.

Die bisherige Software zum Extrahieren von Informationen aus Text erzeugte oft nicht akzeptable Resultate hinsichtlich Genauigkeit und Umfang. Um Extraktionen mit akzeptabler Genauigkeit und akzeptablem Umfang zu erzeugen, wurde ein menschlicher Indexierer eingesetzt. Allerdings ist der Einsatz eines menschlichen Indexierers zeitaufwändig und kostspielig.

KURZDARSTELLUNG

Eine bevorzugte Ausführungsform der Erfindung umfasst eine Software, die entwickelt wurde, um chemische Daten automatisch aus Dokumenten zu extrahieren. Die bevorzugte Ausführungsform konzentriert sich, ist aber nicht darauf beschränkt, auf die Identifizierung und das Extrahieren von chemischen Strukturen, Reaktionen und einigen allgemeinen physikalischen Werten aus Patenten.

Der Kern der Software baut vorzugsweise auf einem handelsüblichen Produkt auf (zum Beispiel "Insight Discoverer^TM Extractor" (IDE) von Temis GmbH; siehe http://www.temis-group.com), das eine standardmäßige Informationsextraktions-Technologie verwendet. Während die frühere Technologie typischerweise Abruf- und Präzisionswerte von ungefähr 60% erzielte, erreichen bevorzugte Ausführungsformen der Erfindung bessere Ergebnisse, indem chemisches Wissen, Text-Mining-Verfahren und linguistisches Wissen mit intelligenter Vor- und Nachverarbeitung kombiniert werden, einschließlich, zumindest in einigen Ausführungsformen, Plausibilitätsprüfern. Beispielhafte Ergebnisse umfassen Werte um 70% für Abruf und mehr als 90% für Genauigkeit (siehe unten).

"Genauigkeit" und "Abruf' sind allgemeine Maßeinheiten für den Erfolg von Informationsextraktionsprogrammen. "Abruf' bezieht sich auf die Menge und wird als der Anteil derjenigen Reaktionen definiert, die durch die Software korrekt identifiziert werden im Vergleich mit allen Reaktionen, die durch einen menschlichen Leser identifiziert werden (korrekt identifizierte Reaktionen/alle Reaktionen). "Genauigkeit" gibt einen Messwert für die Qualität der Ergebnisse an und wird als der Anteil derjenigen Reaktionen definiert, die durch die Software korrekt identifiziert werden im Vergleich mit allen Reaktionen, die durch die Software identifiziert werden (korrekt identifizierte Reaktionen/alle identifizierten Reaktionen).

Ein Ziel einer bevorzugten Ausführungsform ist es, chemische Informationen aus Dokumenten zu extrahieren und diese Informationen in einer Datenbank zu speichern, wodurch automatisch ein Index für die zu Grunde liegenden Dokumente erstellt wird. Wichtige Suchbegriffe für Chemiker sind chemische Strukturen in Vektorgrafikform (Verbindungstabelle). Daher werden chemische Bezeichnungen, die in einem Dokument gefunden werden, (z.B. einem Patent), einer Übersetzung der Bezeichnung in eine Struktur unterzogen.

Ein weiteres Ziel ist es, die Qualität der Daten so hoch wie möglich zu halten und die Fehlerquote auf einem Niveau zu halten, das mit demjenigen vergleichbar ist, das durch einen menschlichen Indexierer erzeugt wird.

Zu den Objekten, die eine bevorzugte Ausführungsform identifizieren kann, gehören: (1) bibliografische Angaben; (2) chemische Bezeichnungen; (3) chemische Reaktionsschemata; und (4) physikalische Daten, die mit den Verbindungen verknüpft sind. Die bevorzugte Architektur basiert auf externen Regeln (Konzepten). Dies macht es einfach, den Umfang auf weitere Objekte auszudehnen, was der Fachmann erkennt. Die identifizierten Objekte und Daten werden aus einem Dokument extrahiert und in eine Datenbank geladen.

Bevorzugte Ausführungsformen der vorliegenden Erfindung umfassen Verfahren und Software zum Verarbeiten von Textdokumenten und Extrahieren darin enthaltener chemischer Daten. Bevorzugte Verfahrens-Ausführungsformen umfassen: (a) Identifizieren und Markieren von einer oder mehreren chemischen Verbindungen in einem Textdokument; (b) Identifizieren und Markieren von physikalischen Eigenschaften, die sich auf eine oder mehrere dieser Verbindungen beziehen; (c) Übersetzen von einer oder mehreren dieser Verbindungen in eine chemische Struktur; (d) Identifizieren und Markieren von einer oder mehreren chemischen Reaktionsbeschreibungen in dem Textdokument; und (e) Extrahieren von wenigstens einigen der markierten Informationen und deren Speichern in einer Datenbank.

Eine weitere Ausführungsform umfasst das Identifizieren einer Produktausbeute in einer Reaktion. Eine weitere umfasst das Übersetzen von extrahierten markierten Informationen in ein Format, das zum Speichern in einer Datenbank geeignet ist. Eine weitere Ausführungsform umfasst das Identifizieren und Markieren von atombezogenen Eigenschaften innerhalb eines Textdokuments; optional umfassen die atombezogenen Eigenschaften eines oder mehreres von: Molekularformeln, Zahlen, Reihen von Zahlen, physikalischen Werten, Kennzeichnungen und Verweisen im Text.

In einer Ausführungsform ist das Textdokument ein Dokument des Typs XML; in anderen ist das Textdokument kein XML-Dokument, und das Verfahren umfasst das Analysieren von Text auf der Basis von Zeilenumbrüchen, Nummerierungsschemata und speziellen Schlüsselwörtern.

In verschiedenen anderen Ausführungsformen werden wenigstens einige der chemischen Verbindungen durch ihre Bezeichnungen beschrieben; wenigstens einige der chemischen Verbindungen werden durch Molekularformeln beschrieben; und die chemische Struktur wird durch eine Verbindungstabelle dargestellt. In einer weiteren Ausführungsform umfasst ein Schritt zum Identifizieren und Markieren von einer oder mehreren chemischen Verbindungen in einem Textdokument den Vergleich mit einem Wörterbuch mit Fragmenten von chemischen Bezeichnungen. In einer weiteren Ausführungsform umfasst das Verfahren das Identifizieren und Markieren einer speziellen Regel, die aus einer Gruppe von vordefinierten Regeln für eine identifizierte und markierte Verbindung innerhalb einer identifizierten und markierten Reaktion ausgewählt wurde; optional werden Regeln in Begriffen von Konzepten definierten. Regeln können umfassen: Ausgangsmaterial, Reagenz, Lösungsmittel, Katalysator und Produkt.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

1 stellt den Arbeitsablauf einer ersten bevorzugten Ausführungsform dar;

2 stellt den Arbeitsablauf einer zweiten bevorzugten Ausführungsform dar;

3 zeigt ein markiertes Dokument, in dem die wichtigsten Tags identifiziert sind;

4 zeigt eine Reaktion, die aus einem Patent extrahiert wurde;

5 zeigt die Vieldeutigkeit von chemischer Nomenklatur in einer chemischen Struktur;

6 zeigt Nomenklatur-Formate, die zum Benennen chemischer Strukturen verwendet werden;

7 zeigt die Vieldeutigkeit von chemischen Bezeichnungen, die durch allgemeine Anwendung empirischer Analyse geklärt werden;

8 zeigt die inkonsistente Verwendung von Leerräumen in der Nomenklatur;

9 zeigt ein Beispiel für Zurückverfolgungs- und "Vorschau"-Operationen während der Interpretation eines lokalisierten Fragments in einer chemischen Bezeichnung;

10 zeigt die eingegebene Bezeichnung und daraus resultierende Struktur aus dem Reverse AutoNom-Programm;

11 zeigt die Modularität einer bevorzugten Ausführungsform;

12–15 zeigen ein markiertes Dokument in größerem Detail;

16 stellt den Arbeitsablauf eines NameService dar, wie er in Verbindung mit 1 beschrieben wurde; und

17 stellt eine repräsentative Ausgabe des TEMIS-Programms dar, wie in Verbindung mit 2 beschrieben.

DETAILLIERTE BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUGNSFORMEN
Chemische Bezeichnungen sind komplexe Objekte, die sich aus Bezeichnungsfragmenten, Lokanten, Multiplikatoren, Präfixen, Suffixen und Klammern zusammensetzen. Wie im Folgenden ausführlich beschreiben, identifiziert die Reading Machine (Lesemaschine), (eine bevorzugte Ausführungsform der Erfindung, die hierin auch mit "RM" bezeichnet wird), mit der Hilfe eines Fragment-Wörterbuchs alle Fragmente von chemischen Bezeichnungen in einem Dokument. Die Textumgebung jedes Fragments wird analysiert, um zu bestimmen, welche Fragmente und umgebende Lokanten eine einzelne chemische Bezeichnung bilden. Den gefundenen chemischen Bezeichnungen wird ein Tag (NamTag) zugewiesen.
1 beschreibt den gesamten Datenfluss einer bevorzugten Ausführungsform.
In Schritt 102 werden chemische Daten innerhalb des Texts eines Dokuments identifiziert. In dem Fachgebiet sind viele geeignete Analyseverfahren bekannt, und jedes beliebige oder eine Kombination von diesen kann zum Identifizieren von chemischen Daten in dem Text verwendet werden. Beispielsweise kann eine Datenbank, die eine Liste von chemischen Fragmenten enthält, als die Basis für einen Datenanalysealgorithmus dienen.
Der Analyse-Algorithmus empfängt Text, z.B. ASCII-Zeichen, als Eingabe und analysiert den Text zeichenweise, wobei kurze Zeichenfolgen mit den Fragmenten in der Datenbank verglichen werden. (Als Vorläufer zur Texteingabe kann eine optische Zeichen-Lesevorrichtung verwendet werden, um ein Papier oder ein anderes Dokument zu lesen, um die Zeichen zu generieren).
Chemische Daten umfassen chemische Strukturen, chemische Fragmente, Molekularformeln und "atombezogene Eigenschaften". "Atombezogene Eigenschaften" sind diejenigen Eigenschaften, die markiert werden können, ohne den Kontext der chemischen Daten zu analysieren. Beispielsweise können die folgenden Textelemente atombezogen sein:

• Zahlen oder Reihen von Zahlen
• Physikalische Werte (Zahlen plus physikalische Einheit), z.B. "mp: 100 – 120K"
• Kennzeichnungen und Bezugswerte innerhalb des Texts, z.B. "Beispiel 2a", "3b"
• Summenformeln

12 stellt die Identifizierung einer chemischen Struktur in einem Dokument dar.
13 stellt die Identifizierung von physikalischen Werten in einem Dokument dar.
14 stellt die Identifizierung von chemischen Bezeichnungen und Molekularformeln in einem Dokument dar.
Wie zu erkennen ist, können auch andere chemische Daten in dem Dokument identifiziert werden. Beispielsweise können auch Akronyme, Trivial- oder Handelsbezeichnungen und/oder Formeln (wie im Folgenden beschrieben) in einem Dokumenttext identifiziert werden. Des Weiteren können Rollen von chemischen Daten identifiziert werden, (z.B. Verbindungen, Proteine, Spezies, Krankheiten usw.), sowie Beziehungen zwischen chemischen Daten, (z.B. Produkt, Reagenz, bindet, hemmt, unterdrückt, wirkt sich aus auf, wird verwendet für usw.). Wie des Weiteren zu erkennen ist, können verknüpfte Daten ebenfalls für Zwecke der relationalen Datenbank identifiziert werden, (z.B. Firmennamen, Erfinder, Ursprungsdokument(e) oder beliebige andere gewünschte Daten).
Die identifizierten chemischen Daten werden in Schritt 104 ausgewertet, und wenn ein chemisches Fragment identifiziert wird, fährt der Arbeitsablauf mit Schritt 106 fort. Wenn jedoch eine Molekularformel identifiziert wird, fährt der Arbeitsablauf mit Schritt 110 fort. Des Weiteren fährt der Arbeitsablauf für identifizierte atombezogene Eigenschaften und dazugehörige Daten mit Schritt 114 fort.
In Schritt 106 wird ein Wörterbuch herangezogen, um zu überprüfen, ob das identifizierte Fragment korrekt ist. In einer bevorzugten Ausführungsform verursacht diese Überprüfung, dass der Arbeitsablauf mit Schritt 108 fortfährt. In anderen bevorzugten Ausführungsformen werden syntaktische Informationen in Bezug auf das Fragment aus dem Wörterbuch abgerufen. Diese Informationen können das Fragment weiter identifizieren. Beispielsweise können die Informationen angeben, dass das Fragment eine Bezeichnung für sich sein kann, oder dass das Fragment nur am Anfang/in der Mitte/am Ende einer chemischen Bezeichnung zulässig ist.
In Schritt 108 wird der Kontext, der das Fragment umgibt, identifiziert, indem vorzugsweise diejenigen Fragmente identifiziert werden, die durch eine Gruppe von zulässigen Zeichen in einer chemischen Bezeichnung verbunden sind. Beispiele für potenziell zulässige Zeichen umfassen Klammern, Zahlen, Primzahlen, griechische Buchstaben, einzelne Zeichen, Gedankenstriche, Kommata, Punkte, Strichpunkte, Doppelpunkte, Leerzeichen und Wörter oder Ausdrücke aus einer vordefinierten Liste (z.B. "das Salz", "Anion" usw.). Kombinationen dieser Zeichen sind gemäß vordefinierten Regeln zulässig. In einer bevorzugten Ausführungsform werden IUPAC-Regeln befolgt (z.B. ist ein einzelnes "e" zulässig, nicht jedoch "ee"). In anderen Ausführungsformen können andere standardisierte Regeln befolgt werden. In weiteren Ausführungsformen können die Regeln proprietär sein oder eigens zu diesem Zweck erstellt werden.
Wenn in einer bevorzugten Ausführungsform der Kontext des Fragments identifiziert worden ist, fährt der Arbeitsablauf mit Schritt 110 fort. In anderen bevorzugten Ausführungsformen kann das Wörterbuch von Schritt 106 nochmals herangezogen werden, um zu überprüfen, ob jedes Fragment einschließlich des umgebenden Kontexts immer noch gültig ist.
In Schritt 110 können die Molekularformel oder das Fragment und umgebender Text verwendet werden, um eine chemische Bezeichnung zu generieren. Wie im Folgenden ausführlicher beschrieben wird, können verschiedene Benennungskonventionen unterschiedliche Bezeichnungen ergeben. Diese Benennungskonventionen können standardisiert sein, (beispielweise IUPAC-Benennung), oder, wie in dem Fachbereich bekannt, kann eine Bezeichnung für eine Struktur exakt eine Struktur beschreiben, ohne mit irgendeiner Konvention genau übereinzustimmen. In einer bevorzugten Ausführungsform wird nur eine Benennungskonvention verwendet, um nur eine Bezeichnung zu generieren. In einer anderen Ausführungsform werden zwei Benennungskonventionen verwendet, um zwei oder mehrere chemische Bezeichnungen zu generieren. In noch einer anderen Ausführungsform wird eine Kombination von Benennungskonventionen verwendet, um eine Gruppe von Bezeichnungen zu generieren. Wie im Folgenden beschrieben, können alle der Bezeichnungen trotz des Vorhandenseins einer Reihe von konventionell (oder nicht-konventionell) generierten Bezeichnungen für eine Struktur sich zu einer eindeutigen chemischen Struktur auflösen. Wie beispielsweise veranschaulichend in den 5 und 6 gezeigt ist, stellt eine Gruppe von "vieldeutigen" chemischen Bezeichnungen die gleiche chemische Struktur dar.
In Schritt 112 werden gefundene chemische Bezeichnungen, die in Schritt 110 generiert wurden, vorzugsweise in chemische Strukturen umgewandelt. In einer bevorzugten Ausführungsform verwendet die Übersetzung einer chemischen Bezeichnung in eine chemische Struktur Reverse AutoNom, das im Folgenden im Detail unter dem Abschnitt mit der Überschrift "Reverse AutoNom" beschrieben wird. In einer anderen Ausführungsform verwendet die Übersetzung eine Datenbank, die Beziehungen von Bezeichnung zu Struktur enthält, (wie beispielsweise Database ACD, ein Produkt von MDL Inc., das alle im Handel erhältlichen Chemikalien mit Strukturen und chemischen Bezeichnungen enthält; http://www.mdli.com). In noch einer anderen Ausführungsform wird das Programm NameToStructure (ACD Labs; http://www.acdlabs.com) verwendet, um Bezeichnungen in chemische Strukturen umzuwandeln. Wie zu erkennen ist, können auch andere Programme in diesem Schritt verwendet werden.
Diese Quellen werden zusammengebündelt, um einen "NameService" auszubilden, einen Dienst mit einer SOAP-Schnittstelle, der chemische Bezeichnungen in chemische Strukturen übersetzt und die Koordinaten (mit der Hilfe des Programms Cheshire, einem Produkt von MDL) berechnet. Ein veranschaulichendes Beispiel eines NameService ist in 16 gezeigt.
NameService bietet: (a) Übersetzung in eine chemische Struktur über einen Algorithmus der "besten Quelle"; (b) Verbesserung der Koordinaten; und (c) Berechnung von Metadaten (Summenformel, eindeutige Registrierungs-Zeichenkette ("RegString")). Der "RegString" ist eine binäre Zeichenkette, die eine Verbindung eindeutig identifiziert. Dabei bedeutet es, wenn zwei Verbindungen identische RegStrings aufweisen, dass sie identisch sind, und umgekehrt, dass sie nicht identisch sind, wenn sie verschiedene RegStrings aufweisen.
In noch einer anderen bevorzugten Ausführungsform können eine oder mehrere dieser Quellen zusammengebündelt werden, um einen "NameService" auszubilden. Der NameService ist vorzugsweise ein Dienst mit einer SOAP-Schnittstelle und umfasst: Übersetzung von Bezeichnung in Struktur, Koordinatenberechnung (über das Programm Cheshire^® von MDL Information Systems – http://www.mdli.com) und Berechnung von Metadaten (z.B. (Summenformel, eindeutige Registrierungs-Zeichenkette usw.). Wie zu erkennen ist, kann der NameService jede Kombination von diesen Funktionen umfassen oder eine andere damit in Beziehung stehende Funktionalität enthalten. Des Weiteren kann der NameService mit der RM über alle akzeptablen Programmiermittel eine Schnittstelle bilden.
In Schritt 114 werden die gefundenen chemischen Bezeichnungen in dem Dokument markiert. In einer bevorzugten Ausführungsform stehen diese Tags im XML-Format. In anderen bevorzugten Ausführungsformen stehen diese Tags in HTML-, SGML-, anderen standardisierten Formaten oder proprietären Markierungsformaten.
In Schritt 116 wird jede der chemischen Informationen in einer Datenbank gespeichert. Beispielsweise werden in einer bevorzugten Ausführungsform die chemische Bezeichnung und Struktur in der Datenbank gespeichert. In anderen bevorzugten Ausführungsformen können die Metadaten, Koordinaten, chemischen Bezeichnungen, chemischen Strukturen und/oder beliebige andere Informationen aus den Schritten 102–116 in der Datenbank gespeichert werden.
Normalisierung von Dokumenten
In einer bevorzugten Ausführungsform verarbeiten die Schritte 102–116 von 1 vorzugsweise Dokumente im XML-Format. In einer anderen bevorzugten Ausführungsform werden andere Formate, (z.B. SGML, HTML,...) vorher in XML umgewandelt. In noch einer anderen bevorzugten Ausführungsform wird das Dokument ohne jede Umwandlung verarbeitet. In noch einer anderen Ausführungsform wird ein Format in ein anderes Format zur Verarbeitung umgewandelt (z.B. optischer Zeichenerkennungstext (OCR) wird in HTML umgewandelt). Wenn ein Quellendokument umgewandelt werden muss, weist jeder Dokumenttyp vorzugsweise eine Dokumentartdefinitions- (DTD) Datei auf, die das Umwandlungsverfahren auflistet. In dem Fall, in dem ein Dokument beispielsweise eine formale Struktur aufweist, (d. h. einen bestimmten Dokumenttyp), gibt eine DTD vorzugsweise an, wie Strukturen, (z.B. markierte Strukturen), in dem Quellendokumente umzuwandeln sind. In anderen Fällen, in denen das Quellendokument keine formale Struktur aufweist, kann eine DTD angeben, dass nur ein Stammknoten erstellt werden muss, der den gesamten ursprünglichen Text enthält.
2 veranschaulicht den Arbeitsablauf einer weiteren bevorzugten Ausführungsform.
Reaktionsidentifizierung
In Schritt 202 werden chemische Reaktionen in dem Text eines Dokuments identifiziert. In einer bevorzugten Ausführungsform wird die Dokumentstruktur, (z.B. XML- oder eine andere formale Struktur), analysiert, um den Anfang und das Ende einer Reaktion zu identifizieren. In einer anderen bevorzugten Ausführungsform können Dokument-Kopfdaten den Anfang und das Ende einer Reaktion identifizieren. In noch einer anderen bevorzugten Ausführungsform können atombezogene Eigenschaften den Anfang und das Ende einer Reaktion bezeichnen (z.B. Beispiel 2a). Wie oben beschrieben, kann die Dokumentnormalisierung des Weiteren eine Struktur bereitstellen, um den Anfang und das Ende einer chemischen Reaktion zu bestimmen. In einer bevorzugten Ausführungsform können der Anfang und das Ende einer Reaktion auf der Basis der Sequenz von gefundenen und markierten Informationen erstellt oder modifiziert werden. Beispielsweise identifiziert ein Abschnitt einer chemischen Verarbeitung, auf den ein Edukt folgt, den Anfang einer neuen Reaktion oder eines neuen Reaktionsschritts.
Rollenerkennung (Grammatik)
Der nächste Schritt (204) besteht darin, die Rolle einer Verbindung in einer Reaktion zu identifizieren. In einer bevorzugten Ausführungsform kann die Rolle sein; (a) Edukt (Ausgangsmaterial); (b) Produkt; (c) Reagenz; (d) Katalysator; oder (e) Lösungsmittel. Die Identifizierung der Rollen erfolgt vorzugsweise unter Verwendung von lizenzierten Programmen anderer Anbieter. Ein derartiges Programm ist "Insight Discoverer^TM Extractor" (IDE) von TEMIS. IDE verfügt über eine integrierte Bibliothek, die eine linguistische Analyse des Texts durchführt, (XELDA-Software von XEROX), und den Text mit dem gefundenen Sprachteil für jedes Wort, (z.B. Verb, Substantiv, Adjektiv usw.) und dessen Grundform markiert. Beispielsweise ist Test die Grundform des Worts getestet. Jedes Wort mit dieser Information wird markiert.
Dieser markierte Text wird unter Verwendung von "Konzepten" analysiert, die vordefinierte Regeln sind, die als reguläre Ausdrücke ausgedrückt werden. Jedes Konzept ist eine Gruppe von sprachlich ähnlichen Begriffen; grundlegendere Konzepte werden in komplexeren Konzepten kombiniert. Ein Konzept (oder Muster) ist eine Regel, die Beziehungen zwischen Wörtern, Ausdrücken oder anderen Konzepten in einem Text definiert. Wenn ein Konzept mit Text "übereinstimmt", dann enthält dieses Textstück die Informationen, die von dem Konzept ausgedrückt werden. Der Sinn jedes Satzes wird durch die entsprechenden Konzepte erfasst. Text wird mit seinem/seinen entsprechenden Konzepten) markiert. Wie im Folgenden ausführlicher beschrieben wird, kann Text mit mehr als einem Konzept markiert werden. Ein veranschaulichendes Beispiel von markiertem Text ist in 17 gezeigt.
Beispielsweise wird ein Satz wie "Phenol wurde mit Natriumalanat in Hexan gemischt" zuerst mit Bezeichnungen markiert, was "NamTag wurde mit NamTag in NamTag gemischt" ergibt. Das geeignete Konzept zum Extrahieren des Lösungsmittels würde lauten:
Dieses Konzept sucht ein NamTag nach dem Wort "in" und weist die Rolle des Lösungsmittels zu diesem NamTag zu. Wenn sich ein NamTag vor dem "in" befindet, erhält dieser NamTag die Rolle "Reagenz". Als ein weiteres Beispiel definiert der Ausdruck "....ergab <namtag>" <namtag> als ein Produkt
Regeln werden durch Analysieren eines Stapels von Dokumenten definiert, um alle relevanten Verben zu finden, die ein Produkt definieren. Beispielsweise veranschaulicht Tabelle 1 einige der verschiedenen Wortformen, die ein Produkt definieren würden.
TABELLE 1
Wie des Weiteren in Anhang A dargestellt ist, wird vorzugsweise eine Anzahl von "Konzepten" definiert, wobei jedes Konzept eine Möglichkeit beschreibt, die Rolle einer Verbindung auszudrücken (z.B. Edukt, Produkt usw.). Wie in Anhang A gezeigt, wird eine Sequenz der Konzept-Dateien in der Datei MDLProdReact.scp definiert. Alle Konzepte der Ebene 0 werden auf einen vorgegebenen Text angewendet, wobei jedes Konzept einen Teil des Texts markiert. Wenn zwei markierte Textfragmente sich überlappen, wird das äußerste linke und längste Fragment für die weitere Analyse verwendet. Die gleichen Schritte werden für die nächste Ebene bis zu einer höchsten Ebene 4 wiederholt.
Anapherauflösung
Eine "Anapher" ist ein linguistischer Verweis auf ein anderes Objekt. Beispiele sind "das erhaltene Salz", (das auf die chemische Bezeichnung des Salzes hinweist), "das Produkt von Beispiel 2b", (das auf die chemische Bezeichnung für das Produkt des Beispiels hinweist), "der Alkohol wurde hinzugefügt", (was auf die chemische Bezeichnung für den Alkohol hinweist) usw. In Schritt 206 werden Anaphern als Anaphern markiert, aber sie werden auch mit der chemischen Bezeichnung markiert. d. h. die Anapher selbst behält ihre Rolle als chemische Bezeichnung, und das Ziel wird innerhalb des vorgegebenen Kontexts bestimmt. Die Identifizierung einer Anapher ist in 15 dargestellt.
Validierung von Ergebnissen
Die Ergebnisse in einer Reaktion werden vorzugsweise validiert auf der Basis einer berechneten Qualitätsebene (Schritt 208). In diesem Schritt wird die Qualitätsebene der erhaltenen Ergebnisse mit einigen pragmatischen Parametern verglichen (z.B. (a) Anzahl der Edukte; (b) Anzahl der Produkte; (c) Anzahl der nicht identifizierten Verbindungen). Reaktionen mit einer Qualitätsebene unter einem pragmatisch definierten Schwellenwert werden verworfen. Beispielsweise haben Reaktionen, bei denen keine oder zu viele Produkte gefunden werden, eine niedrige Qualitätsebene und werden verworfen. In Fällen, in denen eine Anzahl von Edukten zu einer akzeptablen Anzahl von Produkten führt, kann die Reaktion eine hohe Qualitätsebene aufweisen und würde dementsprechend akzeptiert werden.
Nach diesem Schritt sind alle relevanten Objekte in dem Dokument markiert. 3 stellt eine markierte Reaktion dar, wobei die relevantesten Tags optisch hervorgehoben sind.
4 stellt eine Reaktion dar, die aus einem Patent und dem relevanten Patenttext extrahiert wurde. Wie in 4 gezeigt, stellt der Teil 402 die extrahierten Daten dar. Beispielsweise stellt das Produkt PRN das Produkt dar, das aus dem Patenttext extrahiert wurde (Teil 406). Der Teil 404 stellt die damit verbundene Struktur und das Reaktionsschema dar. Der Teil 408 identifiziert das Bezugspatent, das zum Extrahieren der relevanten Daten verwendet wurde.
Extraktion
In Schritt 210 (siehe 2) werden gefundene Objekte vorzugsweise aus dem Dokument extrahiert. In einer bevorzugten Ausführungsform werden die extrahierten Objekte in XML-Format umgewandelt. In einer anderen bevorzugten Ausführungsform werden die extrahierten Objekte in ein proprietäres Format umgewandelt (z.B. PEP-Format). Wie zu erkennen ist, können die extrahierten Daten in jedes gewünschte Format (ASCII, binär, HTM usw.) umgewandelt werden.
Plausibilitätsprüfungen
Wie in Schritt 212 gezeigt, werden die gefundenen Reaktionen auf ihre chemische Plausibilität überprüft. Dies geschieht vorzugsweise durch Erfassen der Reaktionszentren und Zuordnen der Atome des Ausgangsmaterials/der Ausgangsmaterialien zu den Atomen des Produkts/der Produkte ^**. Weil alle verfügbaren Zuordnungswerkzeuge ihre Stärken und Schwächen haben, verwendet eine bevorzugte Ausführungsform zwei oder mehr verschiedene Werkzeuge. Zum Beispiel "Classify" von InfoChem und "Cheshire", ein im Handel erhältliches Produkt von MDL. In dieser Ausführungsform werden Reaktionen, die beispielsweise 2 der 3 Plausibilitätsprüfungen bestehen, akzeptiert und in einer Datenbank gespeichert (Schritt 214). In einer anderen bevorzugten Ausführungsform wird nur eines dieser Zuordnungswerkzeuge verwendet. In noch einer weiteren bevorzugten Ausführungsform kann jede Kombination dieser Werkzeuge verwendet werden.
In wenigstens einer Ausführungsform wird eine Reaktion auf der Basis einer Zuordnungsquelle akzeptiert. Abhängig von dem Prozentsatz der akzeptablen Zuordnungen kann eine Zuordnungsauswertung durch eines oder mehrere der oben genannten Werkzeuge angegeben werden. Wenn die Auswertung einen Schwellenwertpegel überschreitet, wird die Reaktion akzeptiert. In dieser Ausführungsform können spezielle chemische Regeln ausgewertet werden, um den Prozentsatz der akzeptablen Zuordnungen zu bestimmen (z.B. Grad der Überlappung, sinnvolle Abschlussgruppen, ist die Ebene der Einsatzstoff-Ausgewogenheit sinnvoll, sind die Valenzen aller Atome plausibel). Jede akzeptable Zuordnung besitzt einen Punktwert. Wie vom Fachmann zu erkennen ist, kann jede Kombination dieser Regeln oder können zusätzliche Regeln verwendet werden, um den Prozentsatz von akzeptablen Zuordnungen zu bestimmen. Wenn die Reaktion in diesen Ausführungsformen besteht (plausibel ist), wird sie in einer Datenbank (Schritt 214) gespeichert. Wenn die Reaktion nicht besteht, wird sie verworfen. Des Weiteren können inhärent unplausible Reaktionen verworfen werden (z. B. kann eine Reaktion unplausibel sein auf Grund von Fehlern in dem Dokument (Fehler des Autors, OCR-Fehler), vieldeutigen Bezeichnungen, Fehlinterpretationen von Bezeichnungen oder aus anderen Gründen, die mit der Reaktion selbst nicht in Beziehung stehen).
Wenn die Reaktion in einer Ausführungsform nicht besteht, kann eine zweite Plausibilitätsprüfung unter Verwendung einer anderen Ausführungsform versucht werden. Wie zu erkennen ist, kann jede Kombination der oben genannten Zuordnungswerkzeuge, oder können zusätzliche Zuordnungswerkzeuge verwendet werden, um die chemische Plausibilität zu überprüfen. Wie des Weiteren zu erkennen ist, kann jede Kombination der oben genannten Ausführungsformen verwendet werden, um die Plausibilitätsprüfung zu überprüfen.
MODULARITÄT
In einer bevorzugten Ausführungsform ist die Software aus Modulen aufgebaut, wobei jedes Modul fähig ist, einen oder mehrere Schritte auszuführen (siehe 11). Der Vorteil einer derartigen Modularität wird vom Fachmann geschätzt.
ERGEBNISSE
Die folgende Tabelle 2 stellt die Abruf- und Genauigkeitsquoten der RM dar. Mindestens 10.000 Patente wurden verarbeitet, und anschließend wurde eine manuelle Qualitätssicherung an einigen tausend Reaktionen durchgeführt.
Tabelle 2
Mehr als 80% aller Reaktionen wurden mit korrekten Edukten und Produkten gefunden. Die Übersetzung von Bezeichnungen in Strukturen ist der größte Engpass, dennoch weisen ungefähr 50% aller Reaktionen zugewiesene Strukturen auf und sind von guter Qualität.
TECHNISCHE DETAILS
Tabelle 3 gibt technische Details einer Lesemaschine RM an. Weitere bevorzugte Ausführungsformen können durch Hinzufügen oder Entfernen von Elementen erstellt werden. Des Weiteren kann jede beliebige Anzahl von Elementen aus Tabelle 3 kombiniert werden, um zusätzliche Ausführungsformen auszubilden. Beispielsweise kann die RM in einer Ausführungsform nur das Betriebssystem Windows^® von Microsoft unterstützen. In einer anderen Ausführungsform kann die RM sowohl Windows^® als auch AIX von IBM unterstützen. Der Fachmann erkennt, dass Tabelle 3 eine Anzahl von bevorzugten Ausführungsformen basierend auf der Kombination von Elementen bereitstellt. Der Fachmann erkennt des Weiteren, dass andere Betriebssysteme, Funktionsweisen, unterstützte Eingabe- und Ausgabe-Formate und eingebettete Produkte verwendet werden können, und dass diejenigen, die in Tabelle 3 aufgelistet sind, eine eher veranschaulichende als umfassende Liste darstellen.
Tabelle 3
Reverse AutoNom
Das Computerprogramm Reverse AutoNom beruht nicht auf dem Konzept einer so genannten "korrekten Bezeichnung". Wie für den Fachmann zu erkennen ist, können Reverse AutoNom-Algorithmen die "schlimmsten anzunehmenden Fälle" berücksichtigen, soweit dies Syntax und Semantik der eingegebenen Bezeichnungen betrifft. Es soll davon ausgegangen werden, dass jede "systematische Nomenklatur" nur eine ungenaue Feststellung von Akademikern ist und in der Praxis nicht befolgt wird.
Reverse AutoNom geht davon aus, dass so genannte systematische Bezeichnungen selten sind, und daher tut Reverse AutoNom sein Bestes, um jede als Eingabe dargestellte Bezeichnung umzuwandeln.
ALLGEMEINER AUFBAU
Obwohl der Name "Reverse AutoNom" auf "AutoNom" verweist, haben die zwei Programme eigentlich sehr wenig gemeinsam. Der AutoNom- (von Automatische Nomenklatur) Nomenklaturgenerator war das erste bahnbrechende Programm im Bereich einer rechnergestützten organischen Nomenklatur, die Strukturdiagramme direkt in chemische Bezeichnungen übersetzte ^24–28. Die Verwendung des Begriffs "AutoNom" mit vorangestelltem "Reverse" ist nur beschreibend und wurde ausgewählt, um einem potenziellen Benutzer anzugeben, welche Umwandlung er oder sie von dem Programm erwarten kann.
In einer Übersetzung von Bezeichnung in Struktur ist die vieldeutige und in hohem Maße undefinierte oder verschwommene Eingabe die Bezeichnung mit all ihren möglichen "Dialekten", zulässigen Darstellungsarten und ungenauer Syntax. Die Ausgabe – das strukturelle Diagramm – ist andererseits absolut eindeutig und bis in die letzten Details definiert.
Das Programm Reverse AutoNom wurde entwickelt, indem die Linguistik der Bezeichnungen des allgemeinen Sprachgebrauchs berücksichtigt wurde. Der "allgemeine Sprachgebrauch" ist im Fachbereich wohlbekannt. Als eine Grundlage für die Qualitätsanalyse wurden über 8 Millionen veröffentlichte Bezeichnungen aus europäischen, amerikanischen und japanischen Patentveröffentlichungen aus den Jahren 1980–2000 durchsucht, um eine Zufallsauswahl von 1130 Bezeichnungen zu erzeugen, die dann manuell durch einen Spezialisten für chemische Nomenklatur analysiert wurden. Es wurden die folgenden Ergebnisse erhalten:
Tabelle 4 Qualität von Bezeichnungen für eine Auswahl von 1130 Bezeichnungen, die auf willkürlicher Basis aus Patentveröffentlichungen extrahiert wurden, die zwischen den Jahren 1980–200 erschienen
Die oben genannten Statistiken wurden dann durch die Leistungsergebnisse ⁷ von AutoNom erweitert, die für eine willkürlich gewählte Auswahl von über 63.000 Strukturen aus der Beilstein-Datenbank für die letzte Version des Programms (AutoNom 2000 und AutoNom TT) gemessen wurden. Da beide dieser Daten zur Verfügung standen, war es möglich, eine Gruppe von relevanten Richtlinien zu formulieren, die befolgt werden sollten, wenn ein Bezeichnung-zu-Struktur-Algorithmus in einem sinnvollen Ausmaß erfolgreich sein könnte:
1) IUPAC-Regeln oder -Empfehlungen werden normalerweise ignoriert, verletzt oder gebrochen.
Die Annahme, dass die chemische Gemeinschaft "Die Regeln" kennt, ist falsch. Die meisten Chemiker, wenn überhaupt, versuchen, entweder mit CAS- oder Beilstein- Nomenklatursystem konform zu gehen. Sehr häufig mischen sie sie in einer einzigen Bezeichnung zusammen. Die Adamantan- (bei IUPAC beibehalten – bei CAS verboten – bei Beilstein zulässig) Ringbezeichnung als Entsprechung zur systematischen von Baeyer-Bezeichnung Tricyclo[3.3.1.1^3,7]decan tritt sehr oft als Fragment in einer einzigen Bezeichnung zusammen mit anderen Fragmenten auf, wie beispielsweise 3,1-Benzoxazin (zulässig bei IUPAC – verboten bei Beilstein – zulässig bei CAS). Wie in 6 gezeigt, traten alternative Bezeichnungen (für die gleiche Struktur) in der Testauswahl auf..
Reverse AutoNom wandelt jede der Bezeichnungen aus 6 in die korrekte Struktur um.
2) IUPAC-Regeln oder -Empfehlungen werden normalerweise nach Belieben erweitert.
Die Bezeichnung "2-(2,2-Diphenylethylamino)-1,4,5,6,7-pentahydro-1,3-diazepinhydrochlorid" wurde in einer der getesteten Auswahlen gefunden. Einigen Nomenklaturspezialisten kann diese Bezeichnung unerhört erscheinen. Dies ist offensichtlich eine falsche Bezeichnung. Die ungerade Anzahl von "Hydro"-Präfixen (pentahydro) ist in allen Nomenklatursystemen oder -praktiken streng untersagt. Die Anzahl muss gerade sein (tetrahydro), und es sollte ein zusätzlich angegebenes Wasserstoff-Präfix (1H) verwendet werden. Andererseits ist dem Autor dieser Bezeichnung diese Regel wahrscheinlich unbekannt oder zu eingeschränkt, und er bzw. sie sieht nichts Falsches in ihrer Erweiterung. Beide, Chemiker und Computerprogramm, können sie leicht in die korrekte Struktur umwandeln. Eine solche Annäherung an "Die Regeln" ist in der chemischen Gemeinschaft recht weit verbreitet.
Es ist (für Chemiker) nichts dabei, eine unbegrenzte Substitution bei Kohlenstoffen in Trivialbezeichnungen (beibehalten bei IUPAC) zuzulassen, wie beispielsweise Myristin-, Stearin- oder Laurinsäure (IUPAC und CAS gestatten sie nur bei der Zwei-Kohlenstoff-Essigsäure). Aceton ist bei IUPAC zulässig, aber Trivialbezeichnungen wie beispielsweise Butyron, Valeron, Stearon usw. für längere Ketone sind verboten (CAS und Beilstein folgen IUPAC in diesem Fall). Für Chemiker wird die "Keton-Regel" von Aceton für andere Ketone frei erweitert.
In ähnlicher Weise scheint das bekannte Hantzsch-Widman-System zur Benennung von monozyklischen Ringen mit Heteroatom-Ersetzungen nach Belieben erweitert zu werden. Die letzte vordefinierte IUPAC-Liste²⁹ von zulässigen 19 (das Blaue Buch von 1979 gibt eine Liste von 22 Atomen⁶ an) Heteroatomen für derartige Ersetzungen scheint für Chemiker nicht verpflichtend zu sein. Wenn 1,3-Oxathiolan zulässig ist, warum dann nicht auch 1,3-Oxapolonal? An dieser willkürlichen Vorgehensweise ist nichts Ungewöhnliches, wenn man berücksichtigt, dass sogar Beilstein und CAS nur teilweise mit dieser IUPAC-Empfehlung konform gehen. Beilstein verwendet die ursprüngliche erweiterte Liste von 22 Atomen, während CAS nur 14 Atome aus der Liste mit 19 Atomen verwendet und alle Halide und Quecksilber weglässt.
Ein weiteres Beispiel einer ziemlich seltsamen Interpretation von IUPAC-Regeln wird durch die Bezeichnung "1,4-Dihydrobenzol" veranschaulicht, die in einer der Testauswahlen auftrat. Die Verwendung des "Hydro"-Präfixes zur Angabe eines hinzugefügten Wasserstoffatoms (additive Nomenklatur) ist in Bezug auf den Benzolring absolut verboten. IUPAC empfiehlt die Verwendung der subtraktiven Nomenklatur ("-en" und "yn") für die Cycloalkane. In diesem speziellen Fall lautet die korrekte Bezeichnung "Cyclohexa-1,3-dien". Andererseits fehlen in der exotischen Bezeichnung "1,4-Dihydrobenzol" keine Informationen, so dass die Bezeichnung durch das Programm Reverse AutoNom in die korrekte Struktur umgewandelt wird.
3) Vieldeutigkeit in Bezeichnungen verbreitet und kann nur durch empirische Verfahren gelöst werden.
Die veröffentlichten Bezeichnungen sind vieldeutig, und damit muss man sich abfinden. Andererseits ist es durch detaillierte und oft sehr anstrengende Analyse des allgemeinen Sprachgebrauchs möglich, (unter der Vorraussetzung, das man zu statistisch repräsentativen Mustern moderner Nomenklatur Zugang hat), eine Art Logik in der Vieldeutigkeit von Bezeichnungen zu bestimmen.
Die erste Phase des Reverse AutoNom-Projekts konzentrierte sich ausschließlich auf eine derartige Analyse (siehe Tabelle 4). Bezeichnungen aus Zeitschriften und aus Datenbanken von hoher Qualität (z.B. die Beilstein-Datei) wurden im Allgemeinen ignoriert, seit durch das erwartete redaktionelle Eingreifen per Definition die Häufigkeit von Vieldeutigkeit reduziert worden ist. Statt dessen wählten wir eine Auswahl von über 8 Millionen Bezeichnungen aus europäischen, amerikanischen und japanischen Patentveröffentlichungen aus den Jahren 1980–2000. Sie wurden aus den ursprünglichen Patentmeldungen durch Scannen der Papier-Druckdokumente und unter Verwendung von OCR (optische Zeichenerkennung) extrahiert, um eine Eingabe für weitere komplexe rechnerbasierte Verarbeitung durch ein spezielles Programm zu kompilieren, das als Lesemaschine bezeichnet wird. Die Ausgabe aus der Lesemaschine lieferte unter anderem die Zeichenketten aller chemischen Bezeichnungen, die in den Quellendokumenten gefunden wurden. Nach dem Abrufen der Auswahl konnten die Bezeichnungen analysiert und die Prinzipien des allgemeinen Sprachgebrauchs für das Reverse AutoNom-Projekt formuliert werden.
Zum Veranschaulichen des Problems der Vieldeutigkeit können zwei einfache Bezeichnungen, (wie in 7 gezeigt), betrachtet werden. In dem Fall des "Dimethylacetamids" kann der Standardlokant für mehrfaches Methyl entweder der Stickstoff des nachgestellten Amid-Suffixes oder der Kohlenstoff an Position 2 der Ethankette in dem "acet"-Teil sein. Der allgemeines Sprachgebrauch weist in den meisten Fällen auf Stickstoff auf Amid hin.
In dem letzteren Fall von Pyrazol mit Carboxamid-Suffix gibt es zwei Wahlmöglichkeiten für die Interpretation des Stickstoff-Lokanten "N" in der Bezeichnung: entweder als Position auf Amid oder auf das niedrigstmögliche N auf Pyrazol. Die Analyse des allgemeinen Sprachgebrauchs zeigt, dass das Amid-Stickstoffatom normalerweise bevorzugt wird.
Selbst die allgemeinste Betrachtung von chemischen Bezeichnungen, wie sie tatsächlich in den Dokumenten veröffentlicht werden, zeigt, dass sie eine "lexografische Überholung" benötigen. Interpunktion und Großschreibung tritt in allen möglichen Varianten auf. Leerräume, (die zur Erkennung von Bezeichnungen mit Mehrfachkomponenten wichtig sind), und andere Begrenzungszeichen, (die z.B. für Ester, Ether oder Anionen wichtig sind), werden vollkommen falsch verwendet. Die Bezeichnungen wie "4-Acetyl-2-(6-oxo-pentadecyl)-phenoxazin-10-carboxylicacid ethylester" sind genau so häufig wie ihre noch schlimmeren Entsprechungen ""4-Acetyl-2-(6-oxo-pentadecyl)-phenoxazin-10-carboxylic-acid-ethyl-ester", was das Gleiche bedeuten soll.
Nach dem Einrichten der oben genannten Prinzipien wurde eine bevorzugte Ausführungsform von Reverse AutoNom entwickelt. Der Algorithmus führt vorzugsweise die folgenden Schritte aus:

• lexografische Bearbeitung (und automatische Korrektur) der eingegebenen Bezeichnung;
• Bezeichnungs-Aufspaltung und -Analyse;
• Interpretation von erkannten Fragmenten: Stamm, Suffixe, Präfixe, Einfügungen und Post-Suffixe;
• Fragmentanordnung in so genannte Ebenen der Bezeichnung; und
• Fragmentbezeichnungs-Zusammensetzung

Während der ersten vier Phasen erstellt und identifiziert eine bevorzugte Ausführungsform des Algorithmus Objekte und erstellt wechselseitige Beziehungen zwischen ihnen. Danach werden sie entsprechend geordnet und während der letzten Phase der Umwandlung in die vollständige Struktur kompiliert.
In dem ersten Prototyp von Reverse AutoNom fehlten die lexografische Bearbeitung (und die automatische Korrektur) der eingegebenen Bezeichnung. Es wurde angenommen, dass Bezeichnungen vieldeutig sein konnten, echte Fehler enthalten oder in ihrer Grammatik unzulänglich sein konnten. Die beiden Letzteren würden den Algorithmus bereits in der Analysephase stoppen. Erstere konnten zur Bearbeitung in die Interpretations- und Ordnungsschritte des Algorithmus weitergeleitet werden. Allerdings musste diese Annahme kurz nach der Kompilierung und detaillierten syntaktischen Analyse der repräsentativen Pilot-Testauswahl von Bezeichnungen, die aus den Patentdokumenten extrahiert wurden, nachgewiesen werden.
Die Statistik zeigte, dass eingehende Bezeichnungen eine schlampige Syntax aufwiesen, insbesondere in den Bereichen Interpunktion, Leerräume und Großschreibung. Die meisten derartigen Bezeichnungen verwendeten das, was die Autoren für das CAS-Format hielten, in Wirklichkeit aber mit den Standards sehr wenig zu tun hatte, die durch das Handbuch ACS Style Guide³⁰ definiert werden. Bezeichnungen, die in dem "Beilstein-Dialekt" der Nomenklatur veröffentlicht wurden, waren von viel besserer Qualität, aber auch in diesem Fall wurden die Richtlinien von Beilstein³¹ oft ignoriert oder falsch interpretiert..
Die alphabetische Anordnung von Substituenten, (wie von IUPAC, CAS und Beilstein gefordert), wurde häufig ignoriert. Die (nicht englische) Muttersprache der Autoren beeinflusste die Syntax der veröffentlichten Bezeichnungen sichtbar, und daher wurde oft "sulphonyl", "alkohol", "alfa" oder "gama" verwendet statt des korrekten "sulfonyl", "alcohol", "alpha" und "gamma".
Begrenzungszeichen (Bindestriche, Kommata, Strichpunkte, Punkte usw.) wurden inkonsistent verwendet. Kohlenwasserstoff-Ringverbunde, überbrückte Kohlenwasserstoffe (von Baeyer-Systeme) und Spiro-Kohlenwasserstoff-Klassen sind hier die besten Beispiele. Die extremen Fälle umfassen: "<1-1'><3'-1''>-ter-cyclo-octan" für das korrekte (IUPAC/CAS) "1,1';3',1''-tercyclooctan (oder [1,1';3',1'']tercyclooctyl von Beilstein), "tricyclo(5,4,0,0-2_9)-undecan" für das korrekte "tricyclo[5,4,0,0 ^2,9]undecan" (Kommata statt Punkte, Bindestrich und Unterstrich in der sekundären Brückenspezifikation statt Hochstellung und Komma).
Der Leerraum als das harte Begrenzungszeichen ist in der Nomenklatur extrem wichtig. Fragmente zu beiden Seiten eines solchen Leerraums können nur dann als zwei (disjunkte) Komponenten der selben Struktur interpretiert werden, wenn bestimmt wird, dass der Leerraum richtig verwendet worden ist. Normalerweise ist es unmöglich, eine solche Feststellung vor Abschluss der Interpretation und Anordnung von Fragmenten in Bezeichnungsteilen zu beiden Seiten eines solchen Leerraum-Zeichens zu treffen. Um das Problem zu veranschaulichen, ist es interessant anzumerken, dass für eine einzige Struktur (wie in 8 gezeigt) keine der 5 Bezeichnungen korrekt war, die sich in der Testauswahl befanden.
Als ein Ergebnis der Betrachtung der eingegebenen Bezeichnungen wurde bemerkt, dass die Aufnahme eines intelligenten lexografischen Präprozessors in den Algorithmus als der erste Schritt die Qualität der Bezeichnungen, (offensichtlich ohne ihre Bedeutung zu verändern), in einem solchen Ausmaß verbessert, dass sich die geschätzte Erfolgsquote um 4,5 und 7,8% steigern würde für zwei willkürliche Auswahlen von jeweils ungefähr 6.500 Bezeichnungen. Ein derartiger Präprozessor wurde programmiert und implementiert. Er enthält insgesamt 10 verschiedene Routinen zum Korrigieren der Bezeichnungen, bevor er sie zum Analysieren und Aufspalten sendet, was in dem anschließenden Schritt des Algorithmus ausgeführt wird. Er eliminiert bereits in dieser frühen Verarbeitungsphase die Bezeichnungen, die definitiv nicht mit den vordefinierten Standards des Reverse AutoNom-Programms konform sind.
Der lexografische Präprozessor enthält auch eine zweckgebundene Routine, die globale Variablen einstellt (und entsprechende Informationsdaten sammelt), wenn solche Merkmale der eingegebenen Bezeichnung auftreten wie das Vorhandensein von funktionalen, aber Nicht-CT-Fragmenten, wie beispielsweise Ester, Amide oder Oxime.
Eine weitere wichtige Routine prüft eine eingegebene Bezeichnung und streift die expliziten Stereo-Deskriptoren, wie beispielsweise E/Z, R/S, trans/cis, racem, (+/–) usw. davon ab. Eine Ausführungsform des Reverse AutoNom unterstützt Stereochemie nur bedingt, d. h. nur, wo sie durch die Teilbezeichnungen (im Allgemeinen trivial) von potenziellen sterischen Fragmenten impliziert wird, die sich in der vollständigen Bezeichnung befinden. Daher kann ein Benutzer erwarten, sterische Strukturen für Bezeichnungen zu erhalten, die derartige Fragmente enthalten wie z.B. Fumarsäure (E), Maleinsäure (Z) oder Nikotin (S) usw. Eine derartige Struktur erfordert eine Stereochemie-Interpretation, um irgendeine Bedeutung zu haben.
Die abschließende Aufgabe, die in der lexografischen Vorverarbeitung ausgeführt wird, ersetzt paarweise runde, eckige und geschweifte Klammern ({, [, (,), ], }) durch ein vereinheitlichtes Paar: < zum Öffnen und > zum Schließen. Sie werden von dem Algorithmus als absolute Begrenzungszeichen behandelt und dienen zum Öffnen und Schließen der Sequenz von Bezeichnungsfragmenten, die zu einer einzigen Ebene gehören. Die bevorzugten anschließenden Schritte des Algorithmus bestehen darin, danach rekursiv alle verschachtelten Ebenen zu verarbeiten.
Reverse AutoNom implementiert einfaches Analysieren und Aufspalten. Es teilt Bezeichnungen in erkannte Fragmente mit maximaler Länge, beginnend mit dem ersten Zeichen, und fährt dann der Reihe nach fort. Dieser Prozess wird durch eine Tabelle gesteuert, (die als eine ASCII-Datei gespeichert ist, bzw. ein so genanntes Wörterbuch), die Zeichenketten von chemischen Begriffen enthält, die als Morpheme indexiert sind. Zu diesem Zeitpunkt enthält das Wörterbuch 34.498 Begriffe, die durch den Nomenklatur-Spezialisten bei MDL sorgfältig ausgewählt wurden. Jeder Begriff in dem Wörterbuch ist mit seinem entsprechenden Kurzcode verknüpft (ebenfalls einer ASCII-Zeichenfolge), die seine Funktionalität angibt. Die Begriffe und ihre Codes werden in getrennte Tabellen geladen, die in dem Rechnerspeicher beim Initialisierungszyklus des Reverse AutoNom-Programms reserviert werden. Danach fragt der Algorithmus (während des Aufspaltens und Analysierens) diese Tabellen ab, um die eingegebene Bezeichnung in erkennbare Fragmente aufzugliedern.
Dieses syntaxbezogene Analysieren erfolgt unter Berücksichtigung syntaktischer Klassen (Lokant, Separator, Substituent, Ring, Kette, Suffix, Post-Suffix, Modifikator usw.) und durch die vordefinierte Hierarchie dieser Klassen. Die Bezeichnungseinheiten, die sich aus dem Analysieren ergeben, werden als zu einer bestimmten Klasse zugehörig erklärt, und jede von ihnen erhält einen "Hierarchiestempel" (übergeordneter Wert der Bezeichnung, Präfix für den übergeordneten Wert, Ebenenstamm, Präfix für den Ebenenstamm, Suffix, Post-Suffix, Lokant, Separator innerhalb der Ebene des übergeordneten Werts, Modifikator innerhalb der Nicht-Ebene usw.). Es gibt keine Veröffentlichungen, die eine derartige vollständige Hierarchie beschreiben. Für den Zweck des Reverse AutoNom-Projekts wurde diese Hierarchie empirisch erstellt, wobei teilweise Fachwissen und Erfahrung aus der Vergangenheit genutzt wurden (AutoNom-Projekt).
Nach dem Erstellen dieser Hierarchie gliedert das Bezeichnungs-Aufspalten und -Analysieren eine Bezeichnung nicht nur in Fragmente auf, sondern setzt sie unmittelbar mit dem in Beziehung, was als "Bedeutung" beschrieben werden kann. Die parallele Tabelle der vorher erwähnten Codes stellt die Bedeutung bereit. Dies kann eine einzelne ganze Zahl, (beispielsweise, um den Wert des multiplizierenden Begriffs, die Länge der Kohlenwasserstoffkette oder den Multiplikationsfaktor für einen Ringverbund, den Ungesättigtheit-Faktor anzugeben), ein Indexverweis auf eine vollständige getrennte Verbindungstabelle, (wie im Fall verschmolzener Ringsysteme), oder textliche kurze Mnemonikzeichen sein, welche die Art des Vorgangs beschreiben, (der normalerweise als einzelne Funktion im Programm implementiert ist), der an dem folgenden oder vorhergehenden Fragment ausgeführt werden soll (Hydrierung oder angegebener Wasserstoff, Cyclo, Ungesättigtheit, Ladungen usw.).
In der Interpretations- und Ordnungsphase von erkannten Fragmenten findet der gesamte nomenklaturbasierte Interpretationsprozess statt. Die meisten der von IUPAC/CAS/Beilstein erstellten trivialen Nomenklatur-Regeln, Empfehlungen und Ausnahmen, die sich über die Jahre entwickelt haben, müssen berücksichtigt werden (und als Routinen oder Funktionen in dem Umwandlungsprogramm implementiert werden).
Vorzugsweise werden alle Fragmente als zu einer der folgenden Nomenklaturklassen-Einheiten zugehörig interpretiert:

• Stamm (übergeordneter Wert in dem Fall der höchsten "0" Ebene; steht in Beziehung zu einer Verbindungstabelle)
• CT-Präfix (steht in Beziehung zu einer Verbindungstabelle)
• Funktions-Präfix (steht in Beziehung zur Funktion, z.B. "aza" als die heterozyklische Ersetzung)
• Hydrierungs-Präfix (z.B. "hydro", angegebenen H-Deskriptor; steht zu einer Vorwärtsfunktion in Beziehung)
• Suffix (steht in Beziehung zu einer Verbindungstabelle)
• Post-Suffix (z.B. Ester, Amid, Oxim, Ion usw.; steht in Beziehung zu einer Funktion)
• Radikalsuffix ("-yl", "-yliden", "-ylidyn"; steht zu einer Rückwärtsfunktion in Beziehung)
• Ungesättigtheit- und Sättigungs-Deskriptor ("-en", "-yn", "an-"; steht zu einer Rückwärtsfunktion in Beziehung)
• Multiplikator ("di-", "tri-", "bis-", "tris-", "bi-", "tert-" usw.; steht zu einer Funktion in Beziehung)
• Vorwärtsfunktions-Präfix ("cyclo-", "bicyclo[-", "tricyclo[-", "spiro[-", "dispiro[-" usw., steht zu einer Funktion in Beziehung)
• Informations-Container (z.B. "4.4.1.1^1,5" für sekundäre Brückenspezifikation in von Baeyer-Systemen, oder "5.1.7.2" für Dispiro-Unterringgrößen-Spezifikation)
• Lokant (z.B. "1,2-", "meta"", "N-", "C-", "alpha-", "(1)-")
• Stereo-Deskriptor (z.B. "(E)-", "(R)-", "racem."," alpha-D")
• Separator (Bindestrich, Komma, Punkt, Strichpunkt, geschweifte Klammern, eckige Klammern, runde Klammern usw.)

Die zu einer Verbindungstabelle (CT) in Beziehung stehenden Fragmente sind Ringe, Ketten oder Funktionsgruppen. Die Letzteren sind die Fragmente, die in der resultierenden endgültigen Struktur als azyklische Teile von Hetero-Atom-Anordnungen mit ungesättigten Bindungen dargestellt sind (können auch einzelne Hetero-Atome sein, wie z.B. Chalcogene in den Alkoholen, Thioalkoholen usw. Die Gerüstteile, die zu den CT-Fragmenten in Beziehung stehen, werden entweder direkt von einer zweckgebundenen Datenbank abgerufen, die zum Reverse AutoNom-Programm gehört, oder "fliegend" durch den Algorithmus selbst aufgebaut. Dies ist beispielweise der Fall für alle von Baeyer-überbrückten Kohlenwasserstoff- und Heterozyklen. Das Fragment "3,6,8-Trioxabicyclo[3.2.2]non-7-yl" wird aufgespalten in:

3,6,8-	Lokant
tri	Multiplikator
oxa	Vorwärtsfunktions-Präfix ("Ersetzung")
bicyclo[	Vorwärtsfunktions-Präfix ("bizyklisch")
3.2.2]	Informations-Container (sekundäre Brücken-Spezifikation)
non	CT-Präfix (Kette)
-7	Lokant
-yl	Radikalsuffix

Der Algorithmus legt das Kernfragment "non" vorzugsweise als die Hauptkette (9 Kohlenstoffatome) fest und arbeitet dann unter Verwendung von Zurückverfolgungs-Techniken in Rückwärtsrichtung, um die Informationen zu sammeln, die dem Ketten-Deskriptor vorausgehen. Der Informations-Container "3.2.2]" direkt links daneben sowie das Vorwärtsfunktions-Präfix "bicyclo[" gestatten es, sicherzustellen, dass es sich um das von Baeyer-Ringsystem handelt. Nach der Interpretation dieser Information generiert der Algorithmus (fliegend) die Verbindungstabelle des Bicyclo[3.2.2]nonan-Ringsystems. Danach fährt es mit der Zurückverfolgung fort, um an dem Lokanten "3,6,8" zu stoppen.
Da die "oxa"-Vorwärts-Ersetzungsfunktion festgelegt ist, wird sie sofort auf der Verbindungstabelle von Bicyclo[3.2.2]nonan verwendet, um die Kohlenstoffe an den Positionen 3, 6 und 8 mit Sauerstoffatomen auszutauschen. Zum Abschließen der Verarbeitung der generierten CT wird die "Vorschau"-Routine aufgerufen. Das Radikalsuffix "-yl" wird interpretiert und der Lokant "-7" wird gefunden. Das Atom an Position "7" des Bicyclo[3.2.2]nonan wird mit dem Kennzeichen "obere Verbindung" versehen. Das gesamte Fragment "3,6,8-Trioxabicyclo[3.2.2]non-7-yl" ist damit verarbeitet, und alle seine untergeordneten Teile sind als interpretiert gekennzeichnet (wie in 9 gezeigt).
Nach der Interpretation werden in dem folgenden Schritt des Algorithmus alle erkannten Fragmente mit einem so genannten Ebenen-Index entsprechend der Bezeichnungsebene gekennzeichnet, auf der sie gefunden wurden: [0, 1₀...N₀] für die übergeordnete Ebene, [0, 1, 1₁...M₁] für die höchste Substituenten-Ebene, die direkt mit der übergeordneten verbunden ist, [0, 1, 2, 2₁,...K₂] für die nächste Substituenten-Ebene, die direkt mit der höchsten nicht-übergeordneten verbunden ist und so weiter. Am Ende des Prozesses wird die eingegebene Bezeichnung vollständig als eine Baumstruktur aller lokalisierten Bezeichnungsfragmente dargestellt, und ihre wechselseitigen Beziehungen werden in einer so genannten Bezeichnungsmatrix, einer multidimensionalen Anordnung von Indices [0, [1₁,...,M₁], [2₁,..., K₂]...] aufgezeichnet. Diese Struktur wird dann als eine doppelt verknüpfte Liste von Verweisen auf dynamisch zugewiesene und freigegebene Varianten-Datensätze in einem Format implementiert, das auf einem geordneten binären Baum³² basiert. Eine derartige Implementierung ermöglicht das vollständige Abbilden der eingegebenen Bezeichnung in der endgültigen chemischen Struktur, sobald der Baum von der Wurzel des Baums bis zu allen seinen Blättern abgearbeitet worden ist.
Diese zwei Schritte, das Erkennen von Fragmenten und ihr Ordnen, bilden die Kernarbeitsvorgänge des Reverse AutoNom-Algorithmus. Sie wurden in ungefähr 25000 Zeilen von C++-Code, unterteilt in 88 verschiedene Funktionen, programmiert.
Auf einer bevorzugten Fragment-Bezeichnungszusammensetzungsstufe des Reverse AutoNom-Verfahrens werden für die erkannten und geordneten Bezeichnungsfragmente deren Verbindungstabellen zugeordnet, (die der vordefinierten Datenbank entnommen oder "fliegend" algorithmisch generiert werden, wie beispielsweise für Kohlenwasserstoffketten), oder interpretiert (wie für Multiplikatoren wie "penta" oder "tert"). Die Fragmente stellen bei dieser Algorithmus-Phase vollständige Liganden oder Kerngruppen dar. Während mit dem höchsten (Wurzel = übergeordnet) Knoten des aufgebauten geordneten binären Baums, der die eingegebene Bezeichnung (und die darunterliegende Struktur) darstellt, begonnen und der Bezeichnungsbaum von oben nach unten abgearbeitet wird, werden die Teil-Verbindungstabellen konsolidiert. Um die Übersicht über den Pfad und die Reihenfolgenordnung der Knoten zu behalten, die auf dem Weg von einen bestimmten Knoten zu der Wurzel (übergeordneten CT) abgearbeitet werden, wird auf die Bezeichnungsmatrix zugegriffen, welche die Knoten-Indices enthält. Da die durch die Bezeichnungsmatrix indexierten Fragmente sich in einer strengen Reihenfolgenordnung befinden, ist es möglich, das Speichern und Abrufen der Teil-CTs in einer "FiLo"-Stapeldatenstruktur zu programmieren.
Bei Mehrkomponenten-Bezeichnungen, (normalerweise Salze, pseudo-ionische Verbindungen, manchmal mit großen organischen Substitutionen), erhält jede Komponente ihre eigene getrennte Bezeichnungsmatrix. Auf sie wird dann während des Konsolidierungsprozesses zugegriffen, und alle Arbeitsvorgänge werden (rekursiv) für alle Fragmente in dieser Komponente wiederholt ausgeführt. Danach wird die vollständige, daraus resultierende CT für die Komponente in der CT zusammengeführt, die bisher für alle vorherigen Komponenten zusammengesetzt wurde.
Der Fragment-Bezeichnungszusammensetzungsprozess wird vorzugsweise von Anfang an durchgehend durch intelligente so genannte "Illegitimitäts-"Controller-Routinen überwacht. Der Controller, (der als eine Sammlung von mehr als 30 C++-Funktionen implementiert wird), ist für die Verfolgung von definiten Fehlern zuständig, die im Rahmen von tolerierter Vieldeutigkeit und/oder standardmäßigen Chemie-Regeln nicht behoben werden können. Ein typisches Beispiel für derartige Fehler ist das explizite Aufeinandertreffen mit Valenzkonventionen. Offensichtliche Fehler in Bezeichnungen wie "tetrachloressigsaure Säure" oder "Fluorcyclopropyn" und weniger offenkundige wie in "1-(3-Methyl-butyl)-4-nitro-1H-pyrrol-2-carboxylsäure [2-(1,4,5,6-Tetrahydropyrimidin-3-yliden)-ethyl]-amid" werden durch den Illegitimitäts-Controller zurückgewiesen (überschrittene Valenz am Stickstoffatom von Pyrimidin an der Radikalsuffixposition von "-3-yliden").
In der Bezeichnung "1-(3,7,11-Trimethyloctyl)azacycloheptan-2-on" weist der Controller den nicht existierenden Lokanten "11" als Position für eine der drei Methyl-Substitutionen auf der Octylkette (nur acht Kohlenstoffatome) zurück.
Ein weiterer Fall für den Controller ist die Identifizierung von falschen Daten, die durch die Informations-Container-Fragmente geliefert werden. Die Zwei-Komponenten-Bezeichnung "6,8-Diazoniadispiro[5.1.6.3]hexadecandichlorid" wird zurückgeweisen, nachdem die Illegitimität des Informations-Container-Präfixes "5.1.6.3", (das die Größen der Endringe und die Längen der Brücken zwischen beiden Spiro-Atomen in den drei Kohlenwasserstoffringen angibt, die an der Dispiro-Verbindung beteiligt sind), im Vergleich mit zulässigen Werten geprüft wurde. Der berechnete Wert von 17 (5 + 1 + 6 + 3 + 2) überschreitet den Wert der Länge des darunterliegenden unverzweigten Ketten-Kohlenwasserstoffs (16, d. h. Hexadecan) um eins, was zur Zurückweisung einer derartigen Bezeichnung führt.
Der Prozess der Fragment-Bezeichnungszusammensetzung endet mit dem Zusammenführen aller Komponenten-CTs, (falls mehr als eine Komponente vorhanden ist), in ein einziges endgültiges Strukturdiagramm, das als Ausgabe von dem Reverse AutoNom-Programm bereitgestellt wird. Die Ausgabe wird als eine MolFile-Format-Verbindungstabelle³² generiert, (genehmigtes Standardformat für Struktur-Editoren, das heutzutage weltweit erhältlich ist), und zusammen mit der eingegebenen Bezeichnung angezeigt (wie in 10 gezeigt).
Die Leistung des Programms wurde in verschiedenen Kontexten und unter Verwendung von Testauswahlen gemessen, die ein breites Spektrum von Nomenklatur-Formaten darstellten, die in der heutigen Nomenklatur-Praxis verwendet werden.
Zu Beginn des Reverse AutoNom-Projekts wurden zwei so genannte Bezugsauswahlen zusammengestellt. Die erste, der die Bezeichnung "Dog Food Sample" (DF-S) gegeben wurde, enthielt eine Auswahl von streng an AutoNom gebundenen Bezeichnungen, die willkürlich aus der Beilstein-Datei extrahiert wurden. Der Inhalt der Auswahl von über 1000 Bezeichnungen wurde festgelegt und während des Projekts niemals verändert. Es wurde verlangt, dass das Programm (als Umkehrung zu seinem Struktur-zu-Bezeichnungs-Vorgänger AutoNom) als absolute Mindestleistung in der Lage sein sollte, die systematische computergenerierte Bezeichnung vollständig umzuwandeln; daher die Bezeichnung "Dog Food". Eine weitere Bezugsauswahl der Bezeichnung, die so genannte "1312 Sample " (1312-S) wurde unter Verwendung von Bezeichnungen zusammengestellt, die willkürlich aus Zeitschriftenveröffentlichungen ausgewählt wurden (vieldeutige Nicht-AutoNom-Bezeichnungen, jedoch mit geschätzter redaktioneller Qualität). Diese zwei Auswahlen, DF-S und 1312-S, wurden während der Entwicklung bei jedem größeren Upgrade des Reverse AutoNom-Programms als (nie geänderte) Bezugsdateien für Testläufe verwendet. Außerdem wurde dadurch die Beobachtung und Messung des Fortschritts im Verlauf der Programmierung erleichtert.
Die umfangreichsten Tests konzentrierten sich jedoch auf reale Bezeichnungen, die aus der Auswahl von über 8 Millionen Einträgen extrahiert wurden, die in europäischen, amerikanischen und japanischen Patentmeldungen in den Jahren von 1980–2000 veröffentlicht wurden. Ihre Qualität wurde zu Beginn des Projekts geschätzt, (siehe Tabelle 4), und diese Schätzwerte wurden dann mit den endgültigen statistischen Daten verglichen, die sich aus der Verarbeitung der gesamten Auswahl von über 8 Milllionen Bezeichnungen ergaben.
Reverse AutoNom ist ein Erfolgsquoten-Programm, und es wurde nie erwartet, dass es alle Bezeichnungen umwandeln würde, die ihm als Eingaben vorgeschlagen wurden. Mit einigen Bezeichnungen sind einfach keine Strukturen verbunden, auch nicht mit den kompliziertesten Algorithmen. Das Programmieren eines Nomenklatur-Umwandlers ist möglich, aber nur unter der Voraussetzung, dass die vorhandenen Einschränkungen von veröffentlichter Nomenklatur berücksichtigt werden Bezeichnungen, die durch Reverse AutoNom nicht interpretiert werden können, sind in den folgenden allgemeinen Klassen gruppiert:

1. vollkommen nicht-analysierbare Bezeichnungen: Es gibt eine Gruppe von Bezeichnungen, die nur nach Meinung ihrer Autoren als chemische Nomenklatur behandelt werden können. Bezeichnungn wie "D(1)(4)-Pregnan-Derivat", "#2-RE-Rose Bengal", "D(1)(4)-Demethylase-Enzym", "D(6)-Palmitoyl-Acyl-Trägerproteinrezeptur" oder "1,25-dihydriertes Vitamin D(3)" haben nur in einem sehr engen Kontext des Autors eine Bedeutung.
2. vollkommen asystematische Bezeichnungen: Hierzu gehören beispielsweise Bezeichnungen mit Trivial- oder katalogbasierter Nomenklatur sowie eine riesige Gruppe von Handelsbezeichnungen. Bezeichnungen wie "Linopiridin", "Sevin", "Carbaryl", "Fluctin" oder "Dyren" beziehen sich auf spezifische Substanzen; die einzig denkbare Lösung für ihre Interpretation wäre über einen direkten Zeichen-Zeichen-Datenbankabruf. Dieses Verfahren wurde allgemein für die aktuelle Version des Reverse AutoNom-Algorithmus nicht in Betracht gezogen.
3. Bezeichnungen von Naturprodukten
4. Makromoleküle
5. Bezeichnungen von rein anorganischen Strukturen: ausgenommen für zweite (oder höhere) Komponenten (als Zusatz zu der ersten organischen Komponente), die als anorganische Salze, pseudo-ionisch usw. dargestellt sind.

Die Tests wurden an Bezeichnungen, wie sie "der Reihe nach" in den ursprünglichen Dokumenten auftraten, durchgeführt, die aus der Auswahl von mehr als 8 Millionen Einträgen extrahiert wurden, die in europäischen, amerikanischen und japanischen Patentmeldungen in den Jahren von 1980–2000 veröffentlicht wurden. An diesen Bezeichnungen wurde vorher keinerlei redaktionelle Bearbeitung vorgenommen. Die gesamte Sammlung von Bezeichnungen wurde in 17 Auswahl-Textdateien mit jeweils ungefähr 500000 Bezeichnungen aufgeteilt. Der folgende Abruf (Anzahl von ausgegebenen CTs zu Anzahl von eingegebenen Bezeichnungen) wurde berechnet (Tabelle 5).
Tabelle 5 Leistung des Reverse AutoNom-Programms, gemessen für eine Reihe von Bezeichnungsauswahlen
Die Ergebnisse für die ersten zwei Bezugsauswahlen (DF-S und 1312-S) sind hier angegeben, um zu veranschaulichen, um wie viel effektiver der Algorithmus sein könnte, wenn die Bezeichnungen streng unzweideutig systematisch (DF-S) oder wenigstens vieldeutig systematisch (1312-S) wären. Die Statistik für die Auswahlen 0001.nam bis 0017.nam werden in Tabelle 5 in aufsteigender Reihenfolge des Werts des berechneten Abrufs dargestellt. Es war aus offensichtlichen Gründen nicht möglich, eine vollständige Überprüfung aller Bezeichnungen in den Auswahlen zu versuchen, sondern nur eine oberflächliche Prüfung, die ihre abnehmende Qualität (mehr vollkommen nichtanalysierbare oder asystematische Bezeichnungen) bei abnehmenden Wert des Abrufs bestätigte.
Interessanter als der Abruf selbst war die Analyse der Richtigkeit des Algorithmus und damit der Zuverlässigkeit. Sie konnte nur manuell überprüft werden.
Eine willkürliche Auswahl von 6182 Bezeichnungen wurde dem Reverse AutoNom-Programm als Eingabe vorgeschlagen. Jedes der 1383 daraus resultierenden ausgegebenen strukturellen Diagramme (Abruf von 22,37%) wurde dann im Vergleich zu dem Verweis-Strukturdiagramm geprüft, das als korrekt bestimmt worden war. Die Anzahl der nicht korrekt umgewandelten Bezeichnungen ergab die Fehlerquote von 0,72%, d. h. relevant weniger als 1 Prozent.
QUELLENANGABEN

(1) Garfield, E. Chemico-Linguistics: Computer Translation of Chemical Nomenclature. Nature 1961, 192, 196.
(2) Kirby, G. H.; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 1. Introduction and Background to a Grammar-Based Approach. J. Chem. Inf. Comput. Sci. 1989, 29, 101–105.
(3) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. From Names to Diagrams – by Computer. Chem. Br.. 1985, 21, 467–471.
(4) International Union of Pure and Applied Chemistry. Nomenclature of Organic Chemistry, Abschnitt A–F und H, Pergamon, Oxford, U. K., 1979
(5) Smith Jr, H. A. The Centenial of Systematic Organic Nomenclature. J. Chem. Edu. 1992, 69, 863–865.
(6) International Union of Pure and Applied Chemistry. "Current projects: IUPAC chemical identifier (IChI), http://www.iupac.org/divisions/VIII/cp8.html, (abgerufen im Januar 2004).
(7) Wisniewski, J L. Chemical Nomenclature and Structure Representation: Algorithmic Generation and Conversion. Im Handbook of Chemoinformatics: From Data to Knowledge in 4 Volumes, Gesteiger, J., Ed. Willey-VCH, Weinheim, 2003, Vol. 1, pp 51–79.
(8) Kirby, G. H.; Polton, D. J. Systematic Chemical Nomenclature in the Computer Age. J. Chem. Inf. Comput. Sci. 1993, 33, 560–563.
(9) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 2. Development of a Formal Grammar. J. Chem. Inf Comput. Sci. 1989, 29, 106–112.
(10) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 4. Concise Connection Tables to Structure Diagrams. J. Chem. Inf. Comput. Sci. 1990, 30, 122–127.
(11) Elliot, P. M. Translation of Chemical Nomenclature by Syntax Controlled Techniques. Ohio State University, 1969.
(12) Van der Stouw, G. G.; Elliot, P. M.; Isenberg, A. C. Automated Conversion of Chemical Substances Names to Atom Bond Connection tables. J. Chem. Doc. 1974, 14, 185–193
(13) Stilwell, R. W. Computer Translation of Systematic Chemical Nomenclature to Structural Formulas – Steroids. J. Chem. Doc. 1973, 13, 107–109.
(14) Cooke-Fox, D. I.; Kirby, G. H..; Lord, M. R.; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 5. Steroid Nomenclature. J. Chem. Inf Comput. Sci. 1990, 30, 128–132.
(15) Carpenter, N. Syntax Directed Translation of Organic Chemical Formulae into Their 2-D Representation. Comput. Chem. 1975, 1, 25–28.
(16) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 3. Syntax Analysis and Semantic Processing. J. Chem. Inf. Comput. Sci. 1989, 29, 112–118.
(17) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 6. (Semi)Automatic Name Correction. J. Chem. Inf. Comput. Sci. 1991, 31, 153–160.
(18) Lawson, A. Internal communictation, MDL Information Systems GmbH, Frankfurt am Main, Deutschland, 2003.
(19) CambridgeSoft Corporation, Cambridge, MA. USA, http://products.cambridgesoft.com/Prodlnfo.cfm?pid=295, (abgerufen im Januar 2004).
(20) Brecher, J. Name=Stru: A Practical Approach to the Sorry State of Real-Life Chemical Nomenclature. J. Chem. Inf. Comput. Sci. 1999, 39, 943–950.
(21) ACD Labs. Produkte: ACD/Name, http://www.acdlabs.com/products/name_lab/nam/ (abgerufen im Januar 2004).
(22) ChemInnovation Software Inc. CA, USA, http://www.cheminnovation.com/products/nameexpert.asp, (abgerufen im Januar 2004).
(23) Bio-Rad Laboratories Corporate, Hercules, Ca., USA, htt://www.chemwindow.com, (abgerufen im Januar 2004).
(24) Wisniewski, J. L. AUTONOM: System for Computer Translation of Structural Diagrams into IUPAC-Compatible Names. 1. General Design. J. Chem. Inf. Comput. Sci., 1990, 30, 324–332.
(25) Goebels, L., Lawson, A. J., Wisniewski, J. L.: AUTONOM: System for Computer Translation of Structural Diagrams into IUPAC-Compatible Names. 2. Nomenclature of Chains and Rings. J. Chem. Inf Comput. Sci., 1991, 31, 216–225.
(26) Wisniewski, J. L. Autonom- A Chemist's Dream: System for (Micro) Computer Generation of IUPAC-Compatible Names from Structural Input. In Chemical Structures 2, Warr, W. A., Ed. Springer-Verlag, Berlin, Heidelberg, 1993, S. 55–63.
(27) Wisniewski, J. L. AutoNom. In The Beilstein System: Strategies for Effective Searching, Heller, S. R, Ed. American Chemical Society, Washington, DC, 1997, S. 161–197.
(28) Wisniewski, J. L. Nomenclature: Automatic Generation and Conversion. In Encyclopedia of Computational Chemistry, von Rague Schleyer, P.; Allinger, N. L.; Clark, T.; Gesteiger, J.; Kollman, P. A.; Schaefer III, H. F.; Schreiner, P. R., Eds. John Wiley & Sons Ltd., Chichester, 1998, Bd. 3, S. 188–202.
(29) International Union of Pure and Applied Chemistry. A Guide to IUPAC Nomenclature of Organic Chemistry, Recommendations 1993; Panico, R., Powell, W. H., Richer, J. C., Eds.; Blackwell Science, Oxford, U. K., 1993; Recommendations R-2.3.3.1.3; S. 2591–2601.
(30) The ACS Style Guide: A Manual for Authors and Editors, 2^nd ed.; Dodd, J. S., Ed.; American Chemical Society, Washington, DC, 1997, S. 56–67.
(31) Prefix List: Beilstein Handbook of Organic Chemistry, Springer-Verlag, Heidelberg, 1990, S. LV–CXXXV
(32) Hubbard, J. R. Data Structures with C++. McGraw-Hill, New York, 2000, S. 174–182.
(33) Dalby, A., Nourse, J. G., Hounshell, W. D., Gushurst, A. K. I., Grier, D. L., Leland, B. A., Laufer, J.: Description of Several Chemical Structure File Formats Used by Computer Programs Developed at Molecular Design Limited. J. Chem. Inf. Comput. Sci., 19921, 32, 244–255.

Anhang A
Das Konzept ~NAME umkapselt verschiedene Darstellungen einer Verbindung.
Beispielsweise wird das Konzept ~ NAME im Konzept ~ TechnicalMention verwendet:
Das Konzept ~YieldAct erfasst das Verb yield (ergeben) in seiner aktiven Form:
Alle aktiven Verben eines potenziellen Produktkontexts werden zu Clustern in einem Konzept zusammengefasst:
PRODUCT_Contexts.scp
PRODUCT_CompoundMention.spc
PRODUCT_Constituent.scp
PRODUCT_GrammaticalConstituent.scp
PRODUCT_REACTANT_What.scp
PRODUCT_Extraction.scp
REACTANT_CompoundMention.scp
REACTANT_Extraction.scp
Obwohl die hierin gezeigten und beschriebenen Ausführungsformen völlig in der Lage sind, die Aufgaben der Erfindung zu erfüllen, sollte klar sein, dass diese Ausführungsformen nur zu Veranschaulichungszwecken und nicht zum Zweck einer Einschränkung gezeigt werden, und dass für den Fachmann unter Bezug auf die vorhergehende Beschreibung Variationen offenkundig sind.

^*(Seite 13, Zeile 2) Der Analyse-Algorithmus empfängt Text, d. h. ASCII-Zeichen als Eingabe und analysiert den Text zeichenweise, wobei kurze Zeichensequenzen mit den Fragmenten in der Datenbank verglichen werden. (Als ein Vorläufer zur Texteingabe kann eine optischen Zeichenlesevorrichtuing verwendet werden, um ein Papier oder ein anderes Dokument zu lesen, um die Zeichen zu generieren.)
^** (Seite 20, Zeile 31) Zum Erfassen von Reaktionszentren kann auf ein Programm mit dem Namen "Classify" verwiesen werden, das von InfoChem GmbH, Dr. Troll-Str., 81241 Gröbenzell, Deutschland erhältlich ist, das jeder verarbeiteten Reaktion eine Gruppe von numerischen Werten (ClassCodes) zuweist, mit denen die chemische Umwandlung gekennzeichnet wird, die in der Reaktion auftritt. Das Programm bestimmt zuerst Atomzuordnungen und Reaktionszentren (Reaktionsstellen) und verwendet diese Informationen zum Definieren der stattfindenden Reaktionsumwandlung. Informationen zu der chemischen Umwandlungen werden auf drei verschiedenen Präzisionsebenen generiert. Ein Paar von ClassCodes wird für jede Präzisionsebene erzeugt.

Für die erste Ebene verwendet das Programm nur Informationen über die Atome und Bindungen des Reaktionszentrums (Reaktionsstelle) und verschlüsselt sie in den ersten ClassCode. Eine Klassifizierung von Reaktionen auf der Basis dieser Ebene von ClassCodes führt zu einer breiten Auswahl, d. h. alle Reaktionen, die nur gleiche Reaktionszentrums-Atome aufweisen, werden zu einer Gruppe zusammengefasst. Die zweite Ebene umfasst Informationen über Atome und Bindungen des Reaktionszentrums (Reaktionsstelle) und zusätzlich über die zu jedem Reaktionszentrum benachbarten Atome. Diese kombinierten Daten werden in den zweiten ClassCode verschlüsselt. Diese ClassCodes ergeben eine mittlere Auswahl, indem alle Reaktionen mit gleichen Reaktionszentrums-Atomen und gleichen unmittelbaren Nachbar-Atomen ausgewählt werden. Für die dritte Ebene verschlüsselt das Programm Informationen über die Atome und Bindungen des Reaktionszentrums (Reaktionsstelle), ihre unmittelbaren Nachbar-Atome und zu den Nachbar-Atomen benachbarte Atome. Dieses Verfahren führt zu einem dritten ClassCode. Unter Verwendung dieser Classcodes wird die Reaktionsauswahl eng, da alle ausgewählten Reaktionen die Reaktionszentrums-Atome und zwei Sphären von benachbarten Atomen gemeinsam haben müssen.
Auf den mittleren und begrenzten Ebenen werden Informationen über benachbarte Atome aufgenommen, die "Atom-Cluster" bilden. Die daraus resultieren "Atom-Cluster" von Reaktant und Produkt-Reaktionsstelle werden verwendet, um die ClassCodes für den Reaktionstyp zu generieren.

Claims

Verfahren zum Verarbeiten von Textdokumenten und Extrahieren darin enthaltener chemischer Daten, umfassend: Identifizieren und Markieren von einer oder mehreren chemischen Verbindungen in einem Textdokument; Identifizieren und Markieren von physikalischen Eigenschaften, die sich auf eine oder mehrere dieser Verbindungen beziehen; Übersetzen von einer oder mehreren dieser Verbindungen in eine chemische Struktur; Identifizieren und Markieren von einer oder mehreren chemischen Reaktionsbeschreibungen in dem Textdokument; und Extrahieren von wenigstens einigen der markierten Informationen und deren Speichern der extrahierten markierten Informationen in einer Datenbank.
Verfahren nach Anspruch 1, wobei wenigstens einige der chemischen Verbindungen durch ihre Bezeichnungen beschrieben werden.
Verfahren nach Anspruch 1, wobei wenigstens einige der chemischen Verbindungen durch ihre Molekularformeln beschrieben werden.
Verfahren nach Anspruch 1, wobei der Schritte des Identifizierens und Markierens von einer oder mehreren chemischen Verbindungen in einem Textdokument den Vergleich mit einem Wörterbuch von Fragmenten von chemischen Bezeichnungen umfasst.
Verfahren nach Anspruch 1, wobei die chemische Struktur durch eine Verbindungstabelle dargestellt wird.
Verfahren nach Anspruch 1, des Weiteren umfassend das Identifizieren und Markieren einer spezifischen Regel, die aus einer Gruppe von vordefinierten Regeln ausgewählt wird, für eine identifzierte und markierte Verbindung innerhalb einer identifizierten und markierten Reaktion.
Verfahren nach Anspruch 6, wobei die Regeln in Form von Konzepten definiert werden.
Verfahren nach Anspruch 6, wobei die Regeln umfassen: Ausgangsmaterial, Reagenz, Lösungsmittel, Katalysator und Produkt.
Verfahren nach Anspruch 1, des Weiteren umfassend das Identifizieren einer Produktausbeute innerhalb einer Reaktion.
Verfahren nach Anspruch 1, des Weiteren umfassend das Übersetzen der extrahierten markierten Informationen in ein Format, das zum Speichern der extrahierten markierten Informationen in der Datenbank geeignet ist.
Verfahren nach Anspruch 1, des Weiteren umfassend das Identifizieren und Markieren von atomistischen Eigenschaften innerhalb des Textdokuments.
Verfahren nach Anspruch 11, wobei die atomistischen Eigenschaften eine oder mehrere Molekularformeln, Zahlen, Reihen von Zahlen, physikalische Werte, Kennzeichnungen und Verweise im Text umfassen.
Verfahren nach Anspruch 1, wobei das Textdokument ein Dokument des Typs XML ist.
Verfahren nach Anspruch 1, wobei das Textdokument kein Dokument des Typs XML ist.
Verfahren nach Anspruch 14, des Weiteren umfassend das Analysieren von Text auf der Basis von Zeilenumbrüchen, Nummerierungsschemata und speziellen Schlüsselwörtern.
Computerprogramm-Produkt, umfassend Computerprogrammcode, der so ausgelegt ist, dass er das Verfahren nach einem der Ansprüche 1 bis 16 durchführt, wenn er durch einen Rechner ausgeführt wird.
Vorrichtung zum Verarbeiten von Textdokumenten und Extrahieren darin enthaltener chemischer Daten, umfassend: Mittel zum Identifizieren und Markieren von einer oder mehreren chemischen Verbindungen in einem Textdokument; Mittel zum Identifizieren und Markieren von physikalischen Eigenschaften, die sich auf eine oder mehrere dieser Verbindungen beziehen; Mittel zum Übersetzen von einer oder mehreren dieser Verbindungen in eine chemische Struktur; Mittel zum Identifizieren und Markieren von einer oder mehreren chemischen Reaktionsbeschreibungen in dem Textdokument; und Mittel zum Extrahieren von wenigstens einigen der markierten Informationen und deren Speichern in einer Datenbank.