DE60213409T2

DE60213409T2 - Erstellung von strukturierten daten aus unformatiertem text

Info

Publication number: DE60213409T2
Application number: DE60213409T
Authority: DE
Inventors: Alexander El Cerrito SALDANHA; C. Patrick Orinda MCGEER; Luca Berkeley CARLONI
Original assignee: Softface Inc
Current assignee: Softface Inc
Priority date: 2001-01-08
Filing date: 2002-01-07
Publication date: 2007-07-19
Anticipated expiration: 2022-01-08
Also published as: ATE334449T1; WO2002056196A3; US7324936B2; DE60213409D1; AU2002246981A1; US20080126080A1; US20040172237A1; US6714939B2; WO2002056196A2; US20030167266A1; EP1399842B1; EP1399842A2

Description

Ein Abschnitt der Offenbarung dieses Patentdokuments enthält Material, das dem Urheberrechtsschutz unterliegt. Der Urheberrechtsbesitzer hat keine Bedenken gegen die Faksimilereproduktion des Patentdokuments oder der Patentoffenbarung, wie sie in der Patent- und Handelsmarkenamt-Patentdatei oder in Datensätzen erscheint, durch irgendjemanden, bewahrt sich jedoch ansonsten wie auch immer alle Urheberrechte.
Bezug zu einem Computerprogrammlisting-Anhang
In Anhang C ist ein Computerprogrammlisting-Anhang enthalten.
HINTERGRUND
A. Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf die Erzeugung strukturierter Daten aus Klartext, und insbesondere auf die Erzeugung strukturierter Daten aus Klartext auf der Grundlage von Attributen oder Parametern eines Inhalts oder von Produkten eines Internetangebots (Web-Site).
B. Hintergrund der Erfindung
In den letzten Jahren ist das Internet mit explosionsartiger Geschwindigkeit gewachsen. Immer mehr Informationen, Güter und Dienste werden über das Internet angeboten. Diese Zunahme an Daten, die über das Internet verfügbar sind, hat es zunehmend wichtig gemacht, dass Benutzer fähig sind, Unmengen an Material zu durchsuchen, um Informationen zu finden, die für ihre Interessen und Anforderungen relevant sind.
Das Suchproblem kann auf wenigstens zwei Ebenen beschrieben werden:
Suchen über eine Vielzahl von Internetangeboten; und Suchen innerhalb eines gegebenen Internetangebots. Die erste Ebene der Suche wird häufig von "Suchmaschinen", wie z. B. Google^TM oder Altavista^TM, von Verzeichnissen, wie z. B. Yahoo^TM, bewerkstelligt. Die zweite Ebene, die für den Inhalt eines Internetangebots spezifisch ist, wird typischerweise von Kombinationen von Suchmaschinen und Datenbanken gehandhabt. Dieser Lösungsansatz war nicht vollständig erfolgreich darin, dem Benutzern einen effizienten Zugang zu dem Inhalt eines Internetangebots zur Verfügung zu stellen.
Das Problem beim Durchsuchen eines Internetangebots oder eines anderen Dienstes auf Informationstechnikbasis umfasst zwei Teilprobleme: erstens, das Indexieren oder Kategorisieren des zu durchsuchenden Körpers (Materialkörper) (d. h. eine Inhaltssynthese), und zweitens, das Interpretieren einer Suchanfrage und das Ausführen derselben in Bezug auf den Körper (d. h. Inhaltsbeschaffung). Im Allgemeinen besteht der zu durchsuchende Körper typischerweise aus unstrukturierten Informationen (Textbeschreibungen) über Gegenstände. Für Elektronikhandel-Internetangebote kann der Körper der Katalog von Gegenständen sein, die über das Internetangebot erhältlich sind. Zum Beispiel kann der Katalogeintrag für eine Beschreibung der Satz "aqua cashmere v-neck, available in small, medium, large, and extralarge" sein. Ein solcher Eintrag kann nicht anhand des Gegenstandtyps oder des Attributs beschafft werden, da die Tatsachen, dass der V-Ausschnitt (v-neck) ein Stil oder eine Strickjacke ist, Kaschmir eine Form von Wolle ist, und Wasser (aqua) eine Schattierung von Blau ist, aktuellen Katalogen oder Suchmaschinen unbekannt sind. Um die Information zu beschaffen, dass dieser Gegenstand verfügbar ist, anhand des Gegenstandtyps und/oder des Attributs, muss diese Beschreibung in eine beigemessene, kategorisierte Beschreibung konvertiert werden. In diesem Beispiel kann eine solche beigemessene, kategorisierte Beschreibung eine geeignete Kategorisierung des Gegenstands als eine Strickjacke enthalten, wobei die verschiedenen Attribute extrahiert werden und deren Werte gekennzeichnet werden. Ein Beispiel einer solchen Beschreibung ist in Tabelle 1 gezeigt.
Tabelle 1
Die derzeitige Technik erlaubt solche Darstellungen in Datenbanken. Für viele Standardgegenstände sind ferner numerische Codes zugewiesen, um die Aufgabe der Suche und der Repräsentation einfacher zu machen. Ein solcher Code ist der UN-Standardprodukte- und Dienste-Code (UN/SPSC), der jedem menschlichen Produkt oder Dienst einen achtstelligen Standardcode zuweist.
Während jedoch die Taxonomien und die Technik zur Darstellung der Taxonomien bestehen können, sind herkömmliche Systeme unfähig, die taxonomische und beigemessene Repräsentation für ein Objekt aus seiner Textbeschreibung zu erzeugen. Dies führt zu dem ersten der zwei Probleme, die oben erwähnt worden sind: dem Inhaltssyntheseproblem. Genauer ist dies das Problem, wie Klartext in strukturierte Objekte zu konvertieren ist, die für eine automatisierte Suche und andere rechnergestützte Dienste geeignet sind.
Das zweite Problem ist eines der erfolgreichen Beschaffung von Daten; sobald die Daten erzeugt und beigemessen worden sind, müssen sie zugänglich sein. Internetangebote für Elektronikhandel und parametrischem Inhalt stehen einer einzigartigen Herausforderung gegenüber, da sie Suchlösungen anbieten müssen, die nur diejenigen Produkte, Inhalte oder Dienste aufzeigen, die exakt mit den Spezifikationen eines Kunden übereinstimmen. Heute verwenden mehr als 50 % der Besucher die Suche als ihr bevorzugtes Verfahren zum Auffinden gewünschter Güter und Dienste. Elektronikhandel-Internetangebote bieten jedoch weiterhin ihren Kunden eine unpassend vielfältige, kategorie-basierte Navigation von Elektronikhandel-Internetangeboten ("virtuelle Gänge"), die zunehmend komplex und unangemessen geworden sind. Insbesondere sind viele Internetangebote, die einen großen Katalog von Produkten anbieten, häufig unfähig, Produkte mit genauen oder stark parametrisierten Spezifikationen zu finden, und erfordern stattdessen, dass der Benutzer dutzende von Produkten durchsieht, die möglicherweise diesen Spezifikationen entsprechen.
Etwas Statistik hilft, die Bedeutung einer guten Suchmöglichkeit hervorzuheben. Ein wichtiges Maß, das die Konversionsrate von Besuchern von Elektronikhandel-Internetangeboten in Käufer misst, ist das Buchen/Betrachten-Verhältnis. Der industrielle Mittelwert ist, dass nur 27 von 1.000 Besuchern einen Kauf tätigen. Der größte Beitrag zu diesem miserablen Verhältnis ist die fehlgeschlagene Suche. Forrester Research berichtet, dass 92 % alter Elektronikhandel-Suchvorgänge fehlschlägt. Bedeutende Internetangebote berichten, dass 80 % der Kunden das Internetangebot nach einer einzigen fehlgeschlagenen Suche verlassen. Die Verbesserung der Suchmöglichkeit auf einem Internetangebot erhöht daher direkt das Einkommen durch zunehmende Kundenakquisition, Kundenbindung und Verkäufe.
Obwohl alle Internetangebote eine bestimmte Form dieser Suchprobleme bis zu einem gewissen Maß feststellen, ist das Problem für Internetangebote mit einer tiefen und reichen Vielfalt von Inhalten oder Produkten besonders heftig. Beispiele sind elektronische Beschaffungsnetzwerke, finanzielle Internetangebote, Sportgüterläden, Lebensmittel-Internetangebote, Bekleidungs-Internetangebote, Elektronik-, Software- und Computer-Internetangebote, und andere. Eine weitere Klasse von Internetangeboten mit einem tiefgreifenden Suchproblem umfasst diejenigen, die stark konfigurierbare Produkte führen, wie z. B. Reise- und Automobil-Internetangebote. Ironischerweise gilt als Faustregel, dass mit zunehmendem Angebot eines Internetangebots das Risiko steigt, dass Kunden das Internetangebot auf Grund einer fehlgeschlagenen Suche verlassen.
Wenn ein Kunde körperlich ein großes Kaufhaus betritt, kann er einen Angestellten fragen, wo er das findet, was er sucht. Die "Suche" des Angestellten ist insofern flexibel, als dieser die Frage des Kunden verstehen kann, nahezu unabhängig davon, wie sie formuliert ist. Außerdem ist die "Suche" des Angestellten im Allgemeinen genau, da der Angestellte häufig ein Produkt spezifisch identifizieren kann, oder eine anfängliche Menge von Produkten, die der Kunde benötigt. Suchvorgänge auf Internetangeboten müssen gleichermaßen flexibel und genau sein. Um dies zu bewerkstelligen, muss eine Besucheranfrage nicht nur hinsichtlich der Produkte verstanden werden, sondern auch hinsichtlich der Parameter oder der Eigenschaften der Anfrage. Herkömmliche Informationsbeschaffungssysteme für Internetangebotsinhalt waren jedoch unfähig, dies zu leisten.
Einige der herkömmlich verwendeten Verfahren, die zum Auffinden von Gütern und Diensten auf Internetangeboten verwendet werden, und einige Probleme mit diesen herkömmlichen Verfahren werden im Folgenden umrissen:
1. SCHLÜSSELWORT-BASIERTE SUCHE:
Bei diesem Verfahren tippen die Benutzer eine Menge von Wörtern oder Phrasen, die beschreiben, was sie wünschen, in einen Textkasten ein, typischerweise auf der Hauptseite des Internetangebots. Ein Programm auf dem Internetangebot nimmt anschließend jedes individuelle Wort, das eingegeben worden ist (manchmal werden "störende" Wörter, wie z. B. Präpositionen und Konjunktionen verworfen), und durchsucht alle Seiten und Produktbeschreibungen, um Objekte zu finden, die irgendeine Kombination der Wörter enthalten. Wenn ein englischer Satz oder eine Phrase gegeben ist, gibt dieses Verfahren entweder viel zu viele Ergebnisse oder zu wenige zurück. Wenn z. B. ein Kunde fragt "show me men's blue wool sweaters", könnte die Suche aus den folgenden Gründen erfolglos sein. Sie würde entweder nur diejenigen Seiten zurückgeben, die alle Wörter in dieser Anfrage enthalten, oder eine beliebige Seite zurückgeben, die irgendein einzelnes Wort in der Suche enthält. Im ersteren Fall würden keine Objekte gefunden, obwohl viele Produkte mit diesen Eigenschaften zum Verkauf vorhanden sein könnten. Zum Beispiel ist es möglich, dass aqua cashmere cardigan nicht passen würde, da dies keines der Schlüsselwörter enthält. Im letzteren Fall würde eine große Anzahl von Objekten gefunden, von denen die meisten für den Kunden nicht von Interesse sind. Zum Beispiel kann fälschlicherweise blue wool slack passen, da dies die Schlüsselwörter "blue" und "wool" enthält. Einige schlüsselwort-basierte Suchvorgänge gewichten Ergebnisse auf der Grundlage der Anzahl der übereinstimmenden Schlüsselwörter.
Schlüsselwort-basierte Lösungsansätze sind in medizinischen Abschriftsanwendungen, dem Datenbankzugriff, der Sprachpostkontrolle und der Web- Suche weit verbreitet. Nahezu alle kommerziellen Produkte mit Natursprachenschnittstelle verwenden diesen Lösungsansatz. Bei diesem Lösungsansatz werden bestimmte Wörter als bedeutungsvoll betrachtet, während die restlichen als bedeutungslose "Klebe"-Wörter betrachtet werden. Somit können z. B. in dem Satz "show all books written by Squigglesby" die Wörter "show", "book" und "written" als Schlüsselwörter betrachtet werden, während das Wort "by" als bedeutungsloses Klebewort betrachtet wird und das Wort "Squigglesby" als ein Argument betrachtet wird. Die Anfrage würde dann auf der Theorie formuliert, dass ein Buchautor namens Squigglesby angefragt wurde.
In solchen Systemen sind Schlüsselwörter im Allgemeinen einige von gewöhnlichen Nomen, Verben, Adverben und Adjektiven, und Argumente sind maßgebende Nomen und Zahlen. Es gibt jedoch Ausnahmen. Präpositionen werden gewöhnlich als Klebewörter betrachtet, werden jedoch unter bestimmten Umständen und in bestimmten Systemen als Schlüsselwörter betrachtet. Dies liegt im Allgemeinen an der menschlichen Neigung, Wörter in Sätzen wegzulassen, im Jargon als "Ellipsen" bekannt. Der Satz " show all books by Squigglesby" ist ein Beispiel hierfür, wo das Verb "written" weggelassen ist. Um diesem gerecht zu werden, machen bestimmte schlüsselwort-basierte Systeme "by" zu einem Schlüsselwort.
Es gibt einige spezialisierte Fälle oder Variationen von Schlüsselwortsuchvorgängen. Datenbank-Lösungsansätze sind ein Beispiel einer weit verbreiteten Variante von schlüsselwort-basierten Lösungsansätzen. In diesen Systemen assoziiert der Datenbankentwickler Schlüsselwörter oder Identifizierer mit spezifischen Datenbankfeldern (Spalten in spezifischen Tabellen). Verschiedene Wörter, insbesondere Interrogativpronomen und Adjektive, einige Verben und einige Präpositionen, haben feste Bedeutungen für das Datendankabfrageprogramm. Alle anderen Wörter können als Schlüsselwörter für ein vorlagenbasiertes Erkennungssystem verfügbar sein. In Reaktion auf einen Satz des Benutzers kann das Schnittstellensystem den Satz des Benutzers mit einer Vorlagenmenge abgleichen, die aus den Informationen des Datenbankentwicklers über die Datenbankstruktur und Identifizierer aufgebaut ist, sowie dessen eingebaute Interpretation seiner festgelegten Schlüsselwörter. Eine SQL-Anweisung (SQL, Structured Query Langua ge = strukturierte Abfragesprache) würde dann erzeugt, die die Bedeutung des Satzes des Benutzers wie vom Schnittstellensystem interpretiert codiert.
Ein weiteres Beispiel einer Spezialisierung des schlüsselwort-basierten Lösungsansatzes ist ein katalog-basierter Lösungsansatz. Kataloge sind Datenbanken von Produkten und Diensten. Eine "Kategorie" ist der Name einer Tabelle: die Attribute der Kategorie sind bestimmte Spalten der Tabelle. Bei diesem Lösungsansatz wird eine Frage zuerst mittels eines Kategoriewortes durchsucht, wobei anschließend der Rest der Frage als Schlüsselwörter zum Suchen nach passenden Objekten innerhalb der Kategorie verwendet wird. Zum Beispiel würde "blue woolen sweater" zuerst nach "blue", "woolen" und "sweater" als Schlüsselwörter suchen, die eine Kategorie anzeigen, und anschließend (unter der Annahme, dass "sweater" als Kategorieschlüsselwort erfolgreich war und die andere nicht) nach "blue" und "woolen" als Schlüsselwörter innerhalb der Kategorie sweater. Die Schwierigkeit bei diesem Lösungsansatz besteht darin, dass Kreuzstrategieanfragen fehlschlagen, da in solchen Fällen keine einzelne Kategorie verfügbar ist, die übereinstimmt. Ferner werden Parameter, die in den Produktbeschreibungen in der Kategorie nicht vorhanden sind, nicht verwendet.
Einige der zentralen Einschränkungen schlüsselwort-basierter Systeme werden im Folgenden beschrieben:
Bedeutungen von Wörtern sind fest, unabhängig vom Zusammenhang. In schlüsselwort-basierten Systemen haben Schlüsselwörter eine feste Semantik. Dies ist eine deutliche Abweichung vom Gebrauch der normalen Sprache durch Menschen. Wörter in der natürlichen Sprache leiten ihre Bedeutung durch eine Kombination von "Symbol" (das Wort selbst) und "Kontext" (der umgebende Text und Hintergrundwissen) ab. Das hervorstechendste Beispiel sind Präpositionen bei Anwesenheit von Ellipsen. Zum Beispiel kann "by" das Subjekt nahezu eines beliebigen transitiven Verbs anzeigen, ebenso wie physikalische Nähe, oder kann ein Objekt oder ein Verfahren anzeigen, das zum Bewältigen einer bestimmten Aufgabe zu verwenden ist. Ein weiteres Beispiel von Bedeutung, die vom Kontext abhängt, ist, dass "green" sich auf eine Farbe, einen Zustand der Frische oder Neuheit, oder geringschätzig auf Unerfahrenheit beziehen kann. Ein kurzer Blick auf irgendeine Seite irgendeines Wörterbuches wird zeigen, dass die meisten Wörter mehrere und häufig nicht verwandte Bedeutungen aufweisen, und dass es der Kontext ist, der diese unterscheidet. Im Gegensatz zu dieser abgestuften Verwendung von Wörtern wählen schlüsselwort-basierte Lösungsansätze im Allgemeinen eine einzelne Bedeutung für jedes Wort aus und wenden diese Bedeutung konsistent in allen Suchvorgängen an. Dieses Problem ist in diesen Systemen grundsätzlich nicht behebbar: um einem Wort eine Kontextsemantik hinzuzufügen, ist eine starke Satzanalysetechnik erforderlich, wobei ein Mittel zum Spezifizieren eines Wortes im Kontext gefunden werden muss, das für ein Programm ausreicht, um die Kontextbedeutung zu verstehen.

– Streng gebunden an eine Anwendung. Da die Bedeutungen von Wörtern so streng fixiert sein müssen, haben diese Systeme die Schnittstelle streng an die (und im Allgemeinen untrennbar von der) Anwendung gebunden. Es gibt keinen Werkzeugsatz, der mit geläufigen Werkzeugsätzen einer graphischen Benutzerschnittstelle ("GUI") vergleichbar ist, um eine schlüsselwort-basierte Natursprachenschnittstelle für eine willkürliche Anwendung zu bilden.
– Vermisste Bedeutungen, die Klebewörtern anhaften, insbesondere Präpositionen. Eine Annahme hinter den schlüsselwort-basierten Lösungsansätzen ist, dass Klebewörter keine Bedeutung und keinen semantischen Inhalt führen. Unglücklicherweise gibt es in der Praxis einige wenige Wörter, deren Bedeutungen immer unwichtig sind. Diese Wörter, die als Klebewörter gewählt werden, sind diejenigen, deren Bedeutung meist kontextunabhängig ist, und deren semantischer Inhalt somit weitgehend fehlt.
– Hohe Fehlerraten, keine Robustheit. Da Bedeutungen den Wörtern unabhängig vom Kontext anhaften, können Bedeutungen häufig falsch geraten werden. Zum Beispiel vertreibt ein Lieferant auf diesem Gebiet, Linguistic Technology Corporation, ein Produkt ("EnglishWizard"), das Datenbankbenutzern erlaubt, einer Datenbank Fragen zu stellen. Es wird eine Demonstration mit einer Datenbank von Verkäufern, Angestellten, Vertrieben und Produkten angegeben. In dieser Beispieldatenbank beziehen sich Zahlen immer auf die Zahlen der Angestellten. Dies erzeugt eine Folge, bei der dann, wenn ein Benutzer fragt "who purchased exactly two items", die Antwort "no one" ist. Wenn jedoch ein Benutzer fragt, wie viele Gegenstände ein bestimmtes Individuum gekauft hat, ist die Antwort "two". Der Grund für die Diskrepanz könnte sein, dass EnglishWizard die Frage nicht wirklich verstanden hat. Stattdessen wurde die erste Benutzerfrage auf eine Frage über Angestellte abgebildet, da sie eine Zahl enthielt.

2. FREIFORM-SCHLÜSSELWORTSUCHE:
Diese Kategorie ersetzt Schlüsselwörter durch im Voraus gefragte Fragen und die "richtigen" Antworten, und gibt die Antworten auf die eingetippte Frage zurück. Beispiele solcher Systeme sind genauer beschrieben im US-Patent Nr. 5.309.359, mit dem Titel "Method and Apparatus for Generating and Utilizing Annotations to Facilitate Computer Text Retrieval", erteilt am 3. Mai 1994 an Katz u. a., und im US-Patent Nr. 5.404.295, mit dem Titel " Method and Apparatus for Utilizing Annotations to Facilitate Computer Retrieval of Database Material", erteilt am 4. April 1995 an Katz u. a. In Systemen, die eine Freiform-Schlüsselwortsuche verwenden, sind Fragen und Antworten als Mengen gespeichert. Die Frage ist typischerweise in einer kanonischen Form gespeichert, wobei eine Umschreibemaschine versucht, die Benutzertrage in diese Form umzuschreiben. Wenn die Benutzerfrage in eine vorgegebene Frage abgebildet wird, für die die Antwort bekannt ist, wird anschließend die Antwort vom System zurückgegeben. Ein solcher Lösungsansatz wird von http://www.AskJeeves.com für Web-Suchanwendungen und für Nachschlagevorgänge für häufig gefragte Fragen (FAQs, Frequent Asked Questions) verwendet.
Solche Systeme weise schwerwiegende Einschränkungen auf, einschließlich der Folgenden:

– Eine relativ kleine Anzahl von Fragen kann beantwortet werden: Die Anzahl der Fragen, die beantwortet werden kann, ist linear proportional zur Anzahl der gespeicherten Fragen – somit kann dieses Verfahren nur verwendet werden, wenn es akzeptabel ist, eine relativ kleine Anzahl von Fragen zu haben, die vom System beantwortet werden kann.
– Es kann nicht direkt auf eine Benutzerfrage geantwortet werden: Da ein solches System eine Benutzerfrage in toto verarbeitet und nicht versucht, diese zu analysieren oder Informationen aus den Teilen zu extrahieren, kann es nicht verwendet werden, wenn die Lösung der Benutzerfrage die Verwendung eines Parameterwertes erfordert, der aus der Frage extrahiert werden kann. Zusammengefasst, das System kann lediglich dem Benutzer eine Seite zeigen, wo seine Frage beantwortet werden kann – es kann nicht direkt die Benutzerfrage beantworten.

3. VERSTÄNDNIS-BASIERTE SUCHVORGÄNGE:
Systeme, die verständnisbasierte Suchvorgänge enthalten, versuchen, die wirkliche Bedeutung einer Benutzeranfrage zu verstehen, einschließlich gesellschaftlicher und hintergründiger Informationen. Ein Beispiel für ein solches System ist Wilensky's UNIX-basiertes Hilfesystem UC. UC weist ein eingebautes einfaches Verständnis der globalen Ziele eines Benutzers auf. Wilensky erläutert, dass eine Konsequenz davon, kein solches tiefes Verständnis zu haben, war, dass das System Beratung anbieten kann, die die unmittelbare Frage des Benutzers buchstäblich in einer Weise angeht, die mit den globalen Zielen des Benutzers in Konflikt steht. Ein spezifisches Beispiel ist, dass eine Anfrage für mehr Plattenspeicherplatz zum Entfernen aller Dateien des Benutzers führen kann – ein Vorgang, der die unmittelbare Anforderung erfüllt, jedoch wahrscheinlich nicht in einer Weise, die der Benutzer als angemessen empfinden würde.
Verständnis-basierte Systeme sind im Allgemeinen auf Konversationspartner, Hilfesysteme und einfache Übersetzungsprogramme beschränkt. Im Allgemeinen ist zu beachten, dass die zugrundeliegende Anwendung sehr trivial ist; tatsächlich ist die Schnittstelle die Anwendung. Verschiedene spezialisierte Systeme wurden ebenfalls erstellt, um spezifische Klassen von Dokumenten zu analysieren. Ein gutes Beispiel ist der Lebenslaufanalysator von Junglee. Forscher auf diesem Gebiet haben nun diesen Lösungsansatz weitgehend fallen lassen. In der Tat ist der akademische Konsens, dass vollständiges Verständnis "KI-komplett" ist. Ein Problem, das das vollständige Kontext- und Gesellschaftsverständnis eines Menschen erfordert.
Es gab zahlreiche vorherige Versuche, natürliche Sprache als ein Werkzeug zum Kontrollieren der Suche und von Computerprogrammen zu verwenden. Ein Beispiel hierfür ist Terry-Winograd's "Planner"-System, das in seiner Doktorarbeit 1972 beschrieben wurde. Winograd entwickelte eine abstrakte Domäne für sein Programm, als "Blockwelt" bezeichnet. Die Domäne bestand aus einer Menge abstrakter dreidimensionaler Festkörper, "Blöcke" genannt, und einer Menge von "Plätzen", auf denen die Blöcke ruhen konnten. Verschiedene Blöcke konnten auch oben auf anderen Blöcken ruhen. Der Planer würde eine Vielfalt von Befehlen in natürlicher Sprache akzeptieren, die den gewünschten Zuständen des Systems entsprechen (z. B. "Setze die Pyramide auf den kleinen Würfel"), und würde anschließend geeignete Maßnahmen ergreifen, um den gewünschten Zustand des Systems herzustellen. Winograd's System akzeptierte nur eine stark stilisierte Form von Englisch, wobei seine Natursprachfähigkeiten vollständig auf die Blockdomäne beschränkt waren. Der Schwerpunkt im System war die Herleitung der geeigneten Folge von Maßnahmen, um das gewünschte Ziel zu erreichen, nicht das Verständnis und die Analyse eines unbeschränkten Englisch.
Eine Vielfalt von Programmen wurde in den 1980iger Jahren herausgegeben, um englischsprachige Anfragen für Datenbanken zu erlauben. EasyAsk bietet ein repräsentatives Programm. In diesem System wird die Organisation oder das Schema der Datenbank als ein Rahmen für die zu fragenden Fragen verwendet. Die Tabellen der Datenbank werden als Objekte der Anwendung betrachtet, die Spalten als deren Attribute, und der Wortschatz für jedes Attribut als die Wörter innerhalb der Spalte. Wörter, die innerhalb der Spalte nicht erscheinen, einschließlich bestimmter Präpositionen, werden als "störende" Wörter betrachtet und in einer Anfrageverarbeitung verworfen.
Solche verständnis-basierten Systeme weisen eine Vielfalt von Problemen auf, einschließlich der Folgenden:

– Ignorierte vitale Beziehungen: Datenbankschemen sind für eine schnelle Verarbeitung von Datenbankanfragen konzipiert, nicht für semantische Informationen bezüglich der Datenbanken. Beziehungen zwischen Datenbanktabellen werden durch Importieren von Anzeigern von einer Tabelle in eine weitere ("Fremdschlüssel" genannt) angegeben. Die Verwendung der Beziehungen in den Schemen als Rahmen für Anfragen ignoriert bestimmte vitale Beziehungen (da die Beziehung nicht explizit durch die Schlüsselim portierung angegeben wird).
– Verlorene semantische Information: Präpositionen und andere "störende" Wörter tragen häufig signifikante semantische Informationen, die kontextabhängig sind. Zum Beispiel kann in einer Datenbank für Bücher, Autoren und Verlage die Präposition "by" entweder einen Verlag oder einen Autor bezeichnen, und kann den Akt der Veröffentlichung oder der Entwicklung eines Buches bezeichnen.

Zusätzlich zu den Problemen, die oben mit Bezug auf einige der verschiedenen Lösungsansätze beschrieben worden sind, die derzeit für die Beschaffung von Daten bestehen, teilen alle obigen Lösungsansätze die Einschränkung, dass die Natursprachen-Schnittstelle ("NL"-Schnittstelle) für jede Anwendung handgefertigt werden muss; es gibt keine Trennung zwischen dem NL-Analysator und der Schnittstelle, sowie der Anwendung selbst. Ferner erfordert die Entwicklung der Schnittstelle häufig mehr Aufwand als für die Anwendung selbst verwendet wird. Keiner der derzeit bestehenden Lösungsansätze für NL-Schnittstellen ist über Anwendungen und Plattformen hinweg portabel. Es gibt werde einen NL-Werkzeugsatz analog zu Windows API/Java AWT für GUIs, noch ein konkretes Verfahren zum Abbilden von Konstrukten in NL auf Konstrukte in Softwareprogrammen.
Es besteht somit Bedarf an einem System und einem Verfahren zum Erzeugen strukturierter parametrischer Daten aus Klartext, sowohl für Zwecke der Inhaltssynthese als auch für Zwecke der Datenbeschaffung. Ferner sollte ein solches System über Anwendungen und Plattformen hinweg portabel sein. Außerdem sollte ein solches System fähig sein, Suchvorgänge nach irgendwelchen relevanten Kriterien zu unterstützen, die für die Besucher eines Internetangebots von Interesse sein können, bei einem willkürlichen Wertebereich irgendwelcher Parameter. Ferner besteht Bedarf an einem System, das nahtlos, unsichtbar und schnell aktualisiert wird, um eine Änderung aufzunehmen, wenn ein Internetangebot angebotene Produkte hinzufügt oder modifiziert.
"Rapper: A Wrapper Generator with Linguistic Knowledge" von Mattox u. a., in Proceedings of the Second International Workshop on Web Information and Data Management, 2. November 1999, S. 6-11, beschreibt einen Lösungsansatz zum automatischen (oder halbautomatischen) Extrahieren von graphisch strukturierten Daten aus einer halbstrukturierten Datenquelle, der ein Informationsextraktionssystem auf einer Natursprachenbasis enthält, das in englischsprachigen Text eingebettete relevante Fakten findet. Es wird eine tiefe Syntaxanalyse des Quelltextes erzeugt.
ÜBERBLICK ÜBER DIE ERFINDUNG
In einem ersten Aspekt schafft die vorliegende Erfindung ein computerbasiertes Verfahren nach Anspruch 1.
In einem zweiten Aspekt schafft die vorliegende Erfindung ein computerimplementiertes System nach Anspruch 8.
Ausführungsformen der vorliegenden Erfindung schaffen ein System und ein Verfahren zum Empfangen unstrukturierten Textes und zum Konvertieren desselben in strukturierte Daten. In einer Ausführungsform wird dies bewerkstelligt durch Abbilden der grammatikalischen Syntaxanalyse eines Satzes auf einen Instanzenbaum von Anwendungsdomänenobjekten. Außerdem sind die Ausführungsformen der vorliegenden Erfindung über verschiedene Anwendungsdomänen hinweg portabel.
Ein System, das die vorliegende Erfindung verkörpert, kann zum Erzeugen strukturierter Daten aus Klartext verwendet werden, um eine effiziente Speicherung dieser strukturierter Daten in einer Datenbank zu erlauben. Zum Beispiel können von der freien Textbeschreibung einer Anzahl von Produkten die strukturierten Daten (die ein extrahiertes Objekt und dessen Attribute sein können) verwendet werden, um individuelle Einträge in einer Produktdatenbank zu erzeugen, und somit Inhalt für ein Elektronikhandel-Internetangebot oder einen Internetmarktplatz zu erzeugen. Alternativ oder zusätzlich kann ein solches System verwendet werden, um strukturierte Daten aus einer Klartextanfrage zu erzeugen, um diese strukturierten Daten zum Beschaffen relevanter Daten aus einer Datenbank zu verwenden. Zum Beispiel kann eine Freitextanfrage eines Benutzers in eine Datenbankanfrage konvertiert werden, die den Objekten der Datenbank und deren Attributen entspricht. Ein solches System überwindet die Einschränkungen herkömmlicher Suchmaschinen durch Akzeptieren eines freiformulierten Textes und Abbilden desselben genau auf eine strukturierte Suchanfrage.
Ausführungsformen der vorliegenden Erfindung erkennen, dass das Verstehen natürlicher Sprache beim Erzeugen strukturierter Daten weder erforderlich noch erwünscht ist; stattdessen ist die Fähigkeit gewünscht, natürliche Sprache auf eine Programmstruktur abzubilden. Ferner besteht eine natürliche Beziehung zwischen der Syntaxanalyse des Satzes, wie sie in einem Syntaxbaum ausgedrückt ist, und einem Komponentenbaum in einem Programm. Der Natursprachensatz wird somit verstanden als Befehle zum Erstellen eines Komponentenbaums. Eine Inhaltsmaschine empfängt einen Natursprachensatz und erzeugt einen Programmkomponentenbaum. Der Komponentenbaum wird anschließend weiter vereinfacht, bevor er zur Ausführung an ein Programm übergeben wird.
Wie oben erwähnt worden ist, kann ein System, das die vorliegende Erfindung verkörpert, über verschiedene Anwendungen hinweg verwendet werden. In den verschiedenen Ausführungsformen der vorliegenden Erfindung hängt die Bedeutung eines Wortes nur von der Anwendung und der Rolle des Wortes im Satz ab. Die Definition eines Wortes ist somit größtenteils das Aufgabengebiet des Anwendungsentwicklers. Kurz, Wörter dienen als Identifizierer für Komponenten. Ein Wort in einem Satz dient als ein Identifizierer für Programmobjekte. Wie oben diskutiert worden ist, weisen viele Wörter im Englischen oder einer anderen natürlichen Sprache vielfache Bedeutungen auf, wobei die Bedeutungen vom Zusammenhang (Kontext) abhängig sind. In ähnlicher Weise kann für Ausführungsformen der vorliegenden Erfindung ein Wort als ein Identifizierer für mehrere Objekte verwendet werden.
In einer Ausführungsform transformiert die vorliegende Erfindung einen englischen Satz in eine Menge von Softwareobjekten, die anschließend zur Ausführung an die gegebene Anwendung weitergeleitet werden. Einer der Vorteile dieses Lösungsansatzes ist die Fähigkeit, eine Natursprachenschnittstelle zu irgendeiner Softwareanwendung mit minimalem Entwickleraufwand hinzuzufügen. Die Objekte des Anwendungsbereichs werden in einer Ausführungsform unter Verwendung der natürlichen Auszeichnungssprache ("NML", Natura) Markup Language) erfasst. Die resultierende Schnittstelle ist robust und intuitiv, da der Benutzer nun mit einer Anwendung interagiert, indem er normale englische Sätze eingibt, welche anschließend vom Programm ausgeführt werden. Eine Anwendung, die mit der vorliegenden Erfindung aufgewertet ist, steigert außerdem deutlich die Funktionalität, die für einen Benutzer verfügbar ist.
Wenn ein gegebener Klartextsatz in einer natürlichen Sprache gegeben ist, führt ein System gemäß einer Ausführungsform der vorliegenden Erfindung folgende Schritte aus:

(i) Ein Syntaxanalysealgorithmus wendet eine formale kontextfreie Grammatik für die natürliche Sprache an, um alle Syntaxanalysen eines gegebenen Satzes herzuleiten. Zum Zweck der Diskussion wird Englisch als ein Beispiel der natürlichen Sprache des Klartextes verwendet. Es ist jedoch klar, dass Ausführungsformen der vorliegenden Erfindung für eine beliebige natürliche Sprache verwendet werden können. In einer Ausführungsform werden alle Syntaxanalysen des Satzes in der Zeit hergeleitet, die zum Herleiten einer einzelnen Syntaxanalyse erforderlich ist (z. B. gleichzeitig). Alle Syntaxanalysen werden vorzugsweise in einer einzigen Datenstruktur gespeichert, deren Größe erheblich kleiner ist als die Anzahl individueller Syntaxbäume, häufig lediglich einen konstanten Faktor größer als die Größe, die erforderlich ist, um einen einzelnen Syntaxbaum zu speichern. Es ist zu beachten, dass in einer Ausführungsform die korrekte Abbildung eines Satzes nur bekannt ist, nachdem alle möglichen Syntaxanalysen versucht worden sind.
(ii) Ein Abbildungsalgorithmus verwendet anschließend die Struktur jedes Syntaxbaumes für einen gegebenen Satz, um zu versuchen, eine Objektdarstellung des Satzes innerhalb der interessierenden Domäne auf der Grundlage des anwendungsspezifischen NML-Modells herzuleiten. Mit anderen Worten, der Abbildungsalgorithmus bildet jede vom Syntaxanalysator ausgegebene Syntaxanalyse auf einen Instanzenbaum von Objekten ab. In einer Ausführungsform wird dies bewerkstelligt durch Erzeugen von Instanzenbäumen, Abbilden jeder Syntaxanalayse auf einen Instanzenbaum, Beschneiden der erzeugten Instanzenbäume, und anschließendes Anwenden eines Beste-Anpassung-Algorithmus auf die beschnittenen Bäume, um die beste Anpassung auszuwählen.
(iii) eine reduzierte Form der NML-Objektbeschreibungsinstanz wird als eine Instanz einer Domänen-Auszeichnungssprache ("DML") erzeugt. Diese DML wird zur Ausführung an das Anwendungsprogramm weitergeleitet.

Die Merkmale und Vorteile, die in diesem Überblick und in der folgenden genauen Beschreibung beschrieben werden, sind nicht allumfassend, wobei insbesondere viele zusätzliche Merkmale und Vorteile für Fachleute hinsichtlich der Zeichnungen, der Beschreibung und der Ansprüche hierfür deutlich werden. Außerdem ist zu beachten, dass die in der Beschreibung verwendete Sprache hauptsächlich der Lesbarkeit und der Lehre halber gewählt worden ist, wobei die Ansprüche heranzuziehen sind, um den Erfindungsgegenstand zu bestimmen, für welchen Schutz begehrt wird.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist eine Darstellung der Architektur eines Systems gemäß einer Ausführungsform der vorliegenden Erfindung.
2 ist ein Blockdiagramm der Komponenten der Inhaltsmaschine.
3A ist ein Beispiel eines Syntaxbaums für "abb" unter Verwendung einer ersten Grammatik.
3B ist ein Beispiel zweier verschiedener Syntaxbäume für "abb" unter Verwendung einer zweiten Grammatik.
3C zeigt, wie verschiedene Syntaxbäume als ein einzelner Syntax-DAG dargestellt werden können.
4 ist ein Flussdiagramm, das die Funktionalität der Inhaltsmaschine zeigt.
5A zeigt einen möglichen Syntaxbaum für den Satz "the boy helped the girl with the suitcase".
5B zeigt ein weiteres Beispiel eines Syntaxbaums für den Satz "the boy helped the girl with the suitcase".
5C zeigt, wie die verschiedenen Syntaxbäume für den Satz "the boy helped the girl with the suitcase" in einem einzigen Syntax-DAG dargestellt werden können.
6 ist ein Flussdiagramm, das die Erzeugung von Instanzenbäumen durch die Abbildungsvorrichtung zeigt.
7 zeigt das Beschneiden ungültiger Instanzenbäume, nachdem alle Instanzenbäume von der Abbildungsvorrichtung erzeugt worden sind.
8 zeigt eine Kostenfunktion, die von der Abbildungsvorrichtung verwendet wird, um gemäß einer Ausführungsform der vorliegenden Erfindung die beste Abbildung aus den gültigen Instanzenbäumen auszuwählen.
9 ist ein Flussdiagramm, das die DML-Erzeugung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Die Figuren zeigen eine bevorzugte Ausführungsform der vorliegenden Erfindung lediglich zu Darstellungszwecken. Ein Fachmann wird leicht anhand der folgenden Beschreibung erkennen, dass alternative Ausführungsformen der Strukturen und Verfahren, die hier gezeigt sind, verwendet werden können, ohne von den hier beschriebenen Prinzipien der Erfindung abzuweichen.
GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
I. SYSTEMARCHITEKTUR
1 zeigt einen Überblick über die Architektur eines Systems gemäß einer Ausführungsform der vorliegenden Erfindung. Das System umfasst eine Inhaltsmaschine 110, ein Online-Wörterbuch 120, ein Domänen-Wörterbuch 130, ein Natur-Auszeichnungssprache-("NML")-Modul 140, ein Vertikaldomänenkonzeptmodul 150, ein Kunde-Client-Spezifikationsmodul 160, einen Grammatikspeicher 170 und ein Client-Datenmodul 182.
Die Inhaltsmaschine 110 empfängt als Eingabe Klartext, analysiert diesen, und bildet die Syntaxanalysen auf Instanzenbäume ab. Wie aus 1 deutlich wird, empfängt die Inhaltsmaschine 110 in einer Ausführungsform der vorliegenden Erfindung Eingaben sowohl von einem Online-Wörterbuch 120 (das Wörter in einer natürlichen Sprache enthält) als auch von einem Domänen-Wörterbuch 130 (das für eine Domäne spezifische Ausdrücke enthält).
Außerdem empfängt die Inhaltsmaschine 110 Eingaben vom NML-Modul 140, das ein für die Anwendung oder die Domäne, für die das System verwendet wird, spezifisches NML-Modell enthält. Die anwendungsspezifische NML wird in einer Anordnung unter Verwendung einer Kombination aus automatischem und manuellem Editieren aus vertikalen Domänenkonzepten erzeugt, die vom Vertikaldomänenkonzeptmodul 150 erhalten werden, und der Kunde-Client-Spezifikationen, die aus dem Kunde-Client-Spezifikationsmodul 160 erhalten werden. Die vorliegende Erfindung wird auf eine vertikale Domäne 150 der Anwendung maßgeschneidert, indem ein objektorientiertes Datenmodell erzeugt wird, das die beabsichtigte Funktionalität des Einsatzortes repräsentiert. Ein Beispiel der vertikalen Domänenkonzepte 150 ist die Taxonomie, wie z. B. der Standardprodukt- und Dienstleistungscode der Vereinten Nationen (UN/SPSC). Ein weiteres Beispiel der vertikalen Domänenkonzepte 150 ist die Menge von Konzepten, die für Finanzinformationen für ein Unternehmen sachdienlich ist, wie z. B. Unternehmensname, Ort, leitende Angestellte, Produkte, Wettbewerber, jährliche Umsätze, Einkommen, Angestellte und dergleichen. Ein Beispiel von Kunde-Client-Spezifikationen 160 ist eine Sammlung von Konzepten ähnlich den vertikalen Domänenkonzepten 150, jedoch spezifisch für ein Internetangebot (d. h. nicht auf allen Internetangeboten zu finden, die sich in der gleichen Domäne befinden können).
Außerdem wird eine Eingabe in die Inhaltsmaschine 110 auch vom Grammatikspeicher 170 bereitgestellt. Der Grammatikspeicher 170 speichert eine Grammatik für eine bestimmte Sprache. In einer Anordnung speichert der Grammatikspeicher 170 eine vollständig kontextfreie Grammatik für die englische Sprache. Ein Beispiel einer solchen Grammatik ist im Anhang A enthalten. Die im Anhang A gezeigte Grammatik hat das Startsymbol <Paragraph>. Die Regeln zeigen, dass ein <Paragraph> aus einen oder mehreren Symbolen <Sentence> getrennt durch <Terminator> besteht. In ähnlicher Weise besteht ein <Sentence> aus einer <Clause> und dergleichen. Grammatiken werden im Folgenden genauer diskutiert.
Die Inhaltsmaschine 110 hat ferner Zugriff auf ein Modul, das Client-Daten 182 enthält. Diese Daten werden für einen client-spezifischen oder dynamischen Wortschatz verwendet, der nicht über Client-Orte oder Anwendungen übertragen wird. Beispiele eines solchen Wortschatzes enthalten Handels- oder Markennamen (z. B. "Explorer", "Expedition" oder "Exkursion" für Ford-Sportgeländewagen, oder Namen von Konfektionen, die vom Lebensmittelunternehmen Hershey hergestellt werden).
2 zeigt die Architektur der Inhaltsmaschine 110 in einer Ausführungsform der vorliegenden Erfindung. Wie aus 2 deutlich wird, umfasst die Inhaltsmaschine 110 einen Analysator 210, eine Abbildungsvorrichtung 220 und einen Domänen-Auszeichnungssprache-("DML")-Generator 230.
Der Analysator 210 analysiert den vom Benutzer eingegebenen Text in alle möglichen Syntaxanalysen auf der Grundlage der im Grammatikspeicher 170 gespeicherten Grammatik. In einer Ausführungsform wendet der Analysator 210 eine formale kontextfreie Grammatik für die Sprache an, in der der Benutzer arbeitet, um alle Syntaxanalysen eines gegebenen Satzes herzuleiten. In einer Anordnung werden alle Syntaxanalysen in der Zeit hergeleitet, die erforderlich ist, um eine einzelne Syntaxanalyse herzuleiten. In einer bevorzugten Ausführungsform werden alle Syntaxanalysen in einer einzigen Datenstruktur mit einer Größe äquivalent zu derjenigen, die zum Speichern eines einzigen Syntaxbaumes erforderlich ist, gespeichert. Der Analysator 210 kann bedeutungslose Syntaxanalysen erzeugen, jedoch ist dies akzeptabel, da, wie im Folgenden diskutiert wird, diese bedeutungslosen Syntax analysen keine gültigen Abbildungen auf die NML liefern und automatisch während des Abbildungsprozesses aus der Betrachtung verworfen werden. Die Funktionalität des Analysators 210 wird im Folgenden genauer diskutiert.
Die Abbildungsvorrichtung 220 greift auf alle Syntaxanalysen des vom Benutzer eingegebenen Textes zu, die von dem Analysator 210 erzeugt worden sind. Die Abbildungsvorrichtung 220 verwendet ihrerseits die Struktur jedes Syntaxbaumes für einen gegebenen Satz, um zu versuchen, eine Objektdarstellung des Satzes innerhalb der interessierenden Domäne auf der Grundlage des vom NML-Modul 140 bereitgestellten anwendungsspezifischen NML-Modells herzuleiten. Mit anderen Worten, die Abbildungsvorrichtung 220 bildet jede von dem Analysator 210 ausgegebene Syntaxanalyse auf einen Instanzenbaum von Objekten ab. Die Funktionalität der Abbildungsvorrichtung 220 wird im Folgenden genauer diskutiert.
In einer Ausführungsform ist das Ergebnis der Abbildungsvorrichtung 220 nicht das endgültige Ergebnis der Inhaltsmaschine 110. Ein weiterer Schritt verbleibt: der DML-Generator 230 reduziert die von der Abbildungsvorrichtung 220 erzeugte Struktur auf eine einfachere Form. Die Erzeugung der DML wird in einer Ausführungsform durch DML_ELEMENT-Deklarationen angewiesen, die in dem vom NML-Modul 140 bereitgestellten NML-Modell enthalten sind. Das Ergebnis dieses Prozesses, im Folgenden genauer beschrieben, ist, ein Dokument in der Domänen-Auszeichnungsprache ("DML") zu erzeugen. Die DML-Beschreibung kann anschließend als eine Eingabe in die darunterliegende Anwendung (in den Figuren nicht gezeigt) weitergeleitet werden. In einer Ausführungsform nimmt die Anwendung die DML-Eingabe an und verwendet diese, um eine Datenbank zu belegen, wobei jeder Instanzenbaum als Beschreibung einer Entität (und deren Attributen) in der Anwendungsdomäne verwendet wird, und wobei die geeigneten Einträge in der Datenbank erzeugt werden. In einer weiteren Ausführungsform nimmt die Anwendung die DML-Eingabe an und verwendet diese als eine Anfrage für eine darunterliegende Datenbank, um Einträge (z. B. Produkte) wiederzugewinnen, die die Anfrage befriedigen, und somit zu den Interessen des Benutzers passen (soweit ein solches Interesse in der ursprünglichen Texteingabe gut ausgedrückt ist).
II. SYSTEMFUNKTIONALITÄT
A. Hintergrundinformation
Bevor die Funktionalität einer Ausführungsform eines Systems gemäß der vorliegenden Erfindung beschrieben wird, ist es nützlich, zu diskutieren, was Grammatik ist, was NML ist, und was DML ist.
1. Grammatik
Sprachen, sowohl natürliche als auch Computersprachen, sind mittels einer "Grammatik" definiert. Eine Grammatik ist eine Reihe mathematischer Objekte, "Darstellungen" genannt, die mathematisch die wohlformulierten "Sätze" der Grammatik beschreiben.
Ein einfaches Beispiel einer Grammatik "Grammatik 1" ist folgendes:
S ⇒ AB
A ⇒ aA
A ⇒ a
B ⇒ bB
B ⇒ b
Die Symbole "S", "A" und "B" werden als "Nicht-Endelemente" oder "Phrasen" bezeichnet. Sie repräsentieren rein abstrakte Objekte, die nicht in irgendeinem Satz in der Sprache erscheinen, jedoch eine Gruppe von Symbolen eines Sprachsatzes repräsentieren. Die Symbole "a" und "b" repräsentieren Wörter in der Sprache und werden als "Endelemente" oder "Wörter" bezeichnet. Durch Vereinbarung weist jede Grammatik eine Phrase "S" für "Satz" auf, die allein auf der linken Seite einer Darstellung erscheint. Eine Darstellung wird angewendet durch Ersetzen der linken Seite der Darstellung durch die rechte Seite in einer Kette.
Eine Folge α von Endelementen wird als aus einem Satz γ von Nicht-Endelementen und Endelementen hergeleitet bezeichnet, wenn α durch Anwenden einer Folge von Darstellungen der Grammatik in γ transformiert werden kann. Zum Beispiel kann für die Grammatik 1 "aabb" aus "aAbB" hergeleitet werden, da die Regeln A ⇒ a und B ⇒ b auf aAbB angewendet aabb ergeben. Die Folge von Endelementen, oder ein "Satz", wird als in der Sprache der Grammatik vorliegend bezeichnet, wenn er aus dem Startsymbol S hergeleitet werden kann. Zum Beispiel liegt für Grammatik 1 die Folge "abb" in der Sprache der Grammatik vor, da S ⇒ AB ⇒ aB ⇒ abB ⇒ abb. Im Gegensatz hierzu liegt "abab" nicht in der Sprache vor, da keine Folge von Darstellungen verwendet werden kann, um "abab" aus S herzuleiten.
Im Englischen und in anderen natürlichen Sprachen entsprechen die Nicht-Endelemente und die Endelemente intuitiv den Standard-Grammatikobjekten, die von einem Schulkind gelernt werden. Die Endelemente sind einfach die Wörter und Interpunktionssymbole der Sprache; die Nicht-Endelemente sind die Standard-Phrasenkonstrukte und Worttypen, die in der Grundschule gelernt werden: Nomen, Verb, Nomenphrase, Verbphrase und dergleichen. Die Menge der Nicht-Endelemente in menschlichen Sprachen ist tendenziell ziemlich begrenzt; die Menge der Endelemente und der Darstellungen variieren stark, wobei in deren Varianz die reiche Vielfältigkeit menschlicher Sprache liegt. Im Allgemeinen kann eine beliebige Folge von Nicht-Endelementen und Endelementen auf jeder Seite einer Grammatikregel erscheinen. Grammatiken jedoch, die diese Freiheit nutzen, sind rechnerisch schwer zu bewältigen. Somit werden der Form der linken Seite und den Darstellungen häufig verschiedene Beschränkungen auferlegt, die die Syntaxanalyse dieser beschränkten Grammatiken rechnerisch lenkbar machen.
Von besonderem Interesse sind "kontextfreie Grammatiken", die dadurch ausgezeichnet sind, dass die linke Seite jeder Darstellung auf ein einzelnes Nicht-Endelement beschränkt ist. Die Grammatik 1, die oben angegeben ist, ist kontextfrei. Tatsächlich weist sie einen etwas stärker eingeschränkten Typ auf: "regelmäßig".
Wie im Folgenden genauer erläutert wird, bietet die kontextfreie Grammatik, die in einer Ausführungsform von der Inhaltsmaschine 110 verwendet wird, die minimale Menge an grammatischer Information, die notwendig ist, um die korrekte Syntaxanalyse irgendeines grammatikalisch korrekten englischen Satzes zu erfassen. Der Hauptzweck der Grammatik ist, die korrekte Syntaxanalyse eines Satzes zu erfassen, ohne die Bedeutung (oder die Semantik) des Satzes zu verstehen. Die Grammatik wird daher erzeugt, um jede korrekte Syntaxanalyse jedes Satzes in der Sprache einzuschließen. Selbstverständlich führt dies für irgendeinen einzelnen Satz zu mehreren mehrdeutigen Syntaxanalysen, von denen nur eine die (semantisch) korrekte Syntaxanalyse des gegebenen Satzes ist.
Ein Fachmann wird erkennen, dass die vom Grammatikspeicher 170 bereitgestellte Grammatik in einer Anordnung im Wesentlichen aus einer vollständigen Grammatik der englischen Sprache verdichtet werden kann, um somit die Kürze der Grammatik zu fördern. Zum Beispiel ignoriert die in Anhang A gezeigte Grammatik umfassend grammatische Merkmale wie Verbkonjugationen, mehrere Nomen, die Zeitform, das Aktiv oder das Passiv und dergleichen. Dies ist akzeptabel, da diese Merkmale für die Syntaxanalyse eines Satzes irrelevant sind und nur benötigt würden, wenn die Semantik eines Satzes genauer zu analysieren wäre.
In der grammatikalischen Analyse wird die bestimmte Folge von Umschreiberegeln, die zum Herleiten des Satzes verwendet werden, gewöhnlich als Syntaxanalyse des Satzes bezeichnet. In einer kontextfreien Grammatik kann die Syntaxanalyse eines bestimmten Satzes mathematisch als "Syntaxbaum" dargestellt werden.
3A zeigt ein Beispiel eines Syntaxbaumes für "abb" unter Verwendung der obigen Grammatik 1. Für eine beliebige Grammatik braucht eine Syntaxanalyse nicht eindeutig sein. Es sei z. B. nun Grammatik 2 betrachtet.
S ⇒ AB
S ⇒ CB
C ⇒ a
A ⇒ aA
A ⇒ a
B ⇒ bB
B ⇒ b
Auf der Grundlage von Grammatik 2 würde die Kette "abb" zwei unterschiedliche Syntaxanalysen aufweisen, wie durch die zwei separaten in 3B gezeigten Syntaxbäume dargestellt ist.
Eine solche Grammatik, die zu mehreren Syntaxbäumen für eine Kette führen kann, wird als "mehrdeutig" bezeichnet. Die meisten Grammatiken für menschliche Sprachen sind im genauen technischen Sinne mehrdeutig, aus dem einfachen Grund, dass menschliche Sprache selbst mehrdeutig ist. Zum Beispiel kann in dem Satz "the boy helped the girl with the suitcase" der Modifikator "with the suitcase" entweder auf das Mädchen oder den Vorgang des Helfens Bezug nehmen. Im Allgemeinen kann ein Modifikator irgendeinen Teil des Satzes modifizieren. Die Auflösung von Mehrdeutigkeiten ist ein wichtiges Problem in der Syntaxanalyse und wird im Folgenden diskutiert.
Wie in 3B gezeigt ist, ist zu beachten, dass herkömmlicherweise unterschiedliche Syntaxanalysen zu unterschiedlichen Syntaxbäumen führen. Gemäß einer Ausführungsform der vorliegenden Erfindung können jedoch alle Syntaxanalysen eines gegebenen Satzes als ein gerichteter azyklischer Graph ("DAG") 300 einer einzelnen Syntaxanalyse dargestellt werden. Dies ist in 3C für den Satz "abb" gezeigt.
Die gestrichelten Kanten 310 des DAG 300 repräsentieren optionale Syntaxanalysen; eine Auswahl einer Menge umschließt einen gültigen Syntaxbaum. Durch Untersuchen der 3B und 3C wird deutlich, dass die zwei Bäume in 3B insgesamt 14 Knoten und 12 Kanten aufweisen. Im Gegensatz hierzu weist der in 3C gezeigte Syntaxanalyse-DAG insgesamt nur acht Knoten und acht Kanten auf. Die Raum- und Zeiteinsparungen, die durch die Verwendung des Syntaxanalyse-DAG repräsentiert werden, sind drastisch, wenn Hunderte oder Tausende von Syntaxanalysen vorhanden sind, wie es für englische Sätze typisch ist. Der Raum und die Zeit, die zum Konstruieren des Syntaxanalyse-DAG erforderlich ist, ist proportional zur Anzahl der ausgeprägten Knoten in den Komponentensyntaxbäumen, während der Raum und die Zeit, die von herkömmlichen Algorithmen benötigt werden, proportional zur Anzahl der Knoten der Syntaxbäume sind.
2. Natürliche Auszeichnungssprache ("NML")
Der Lösungsansatz der vorliegenden Erfindung beruht auf der Beschreibung der Menge von Konzepten eines spezifischen Anwendungsbereiches oder einer Domäne als eine Menge von Objekten. Objekte werden in zwei fundamentale Klassen eingeteilt:

(i) Aufzählungen: Dies sind Objekte, die durch einzelne Wörter oder feste Phrasen im Englischen über die gegebene Domäne definiert sind. Ein einfaches Beispiel einer Aufzählung (Enumeration) ist das Objekt Color, das durch die Farbwörter (z. B. red, blue, mauve) der alltäglichen Erfahrung definiert ist.
(ii) Verbunde: Dies sind Objekte, die als Sammlungen von Unterobjekten definiert sind. Die Unterobjekte eines Verbundes werden als dessen "Attribute" bezeichnet. Ein Beispiel eines Verbunds ist das Objekt Desk, das die Attribute PrimitiveDeskWord (z. B. das aufgezählte Objekt bestehend aus dem Wort desk und seinen Synonymen besteht), PedestalType (z. B. ein Verbund, der beschreibt, ob dieser Schreibtisch einen rechten, einen linken oder einen doppelten Sockel hat), Dimension (z. B. ein Verbund, der die Höhe, Breite und Tiefe des Schreibtischs angibt), Use (z. B. eine Aufzählung, die executive, computer, student, secretary umfasst) sowie verschiedene andere Attribute aufweisen kann, die das Material, die Oberflächenbearbeitung und optionale Merkmale des Schreibtisches angeben.

NML ist eine Sprache zum Deklarieren von Objekten, Aufzählungen und den Beziehungen zwischen Objekten. In einer Anordnung deklariert der NML-Programmierer die Verbunde und Aufzählungen der Domäne. In einer Anordnung beruht NML auf dem XML-Standard (XML = erweiterbare Auszeichnungssprache). Es ist zu beachten, dass die NML-Beschreibung einer Domäne einen Graphen von Objekten beschreibt, wobei die Senken des Graphen (die Knoten ohne abgehende Kanten) die Aufzählungen der Domäne sind.
Wie oben mit Bezug auf 1 diskutiert worden ist, bietet das NML-Modul 140 eine anwendungsspezifische NML für die Inhaltsmaschine 110. NML ist ein Werkzeug zum Beschreiben einer Anwendungsobjekthierarchie und des Wortschatzes, mit dem die Hierarchie in der natürlichen Sprache für die Inhaltsmaschine 110 herangezogen wird. Da die Bedeutungen der Wörter selbst für die wirkliche Implementierung eines Systems nicht relevant sind, kann die vorliegende Erfindung für viele unterschiedliche Anwendungen verwendet werden. Ein NML-Dokument kann für jede Anwendung erzeugt werden, wobei typischerweise eine kleine spezielle Auszeichnungssprache für die Domäne selbst erzeugt werden kann. Die Auszeichnungssprache und das NML-Dokument stehen in enger Beziehung. Ein NML-Dokument erfasst die Konzepte einer Anwendungsdomäne, während die Auszeichnungssprache dafür entwickelt ist, die Werte für diese Konzepte für eine bestimmte Anfrage zu halten.
Ein Beispiel eines solchen Auszeichnungssprachendokuments (von der Auszeichnungssprache "CompanyProfileAPT") ist unten gezeigt, entsprechend den Werten der Anfrage "who is the director of human resources for Microsoft in the United Kingdom?"
In diesem Beispiel wird deutlich, dass die Morphologie und, in bestimmten Fällen, die wirklichen Wörter der Anfrage eliminiert worden sind; stattdessen wurden die Konzepte und Werte in das Dokument eingesetzt, und, ob die Benutzeranfrage angefordert ist oder der spezifische Wert gesetzt ist. In diesem Fall wurde der volle Name der Person angefordert, wobei die gegebene Identifizierungsinformation das Unternehmen war, für das sie gearbeitet hat, das Land, in dem sie gearbeitet hat, ihr konzeptioneller Titel ("Chef') und ihre Abteilung ("Personalabteilung"). Dies sind ausreichende Informationen, um eine Anfrage zum Erfüllen der Benutzeranfrage zu starten, jedoch wurde das gesamte Wissen des wirklichen Englisch, das er beim Formulieren dieser Anfrage verwendet hat (und alle Anforderungen zum Analysieren derselben) eliminiert.
Wie oben erwähnt worden ist, ist in einer Anordnung der vorliegenden Erfindung NML eine Erweiterung der erweiterbaren Auszeichnunssprache (XML). Kurz, XML ist der Kern aller kennzeichenbasierten Auszeichnungssprachen. Sie wird nahezu niemals alleinstehend verwendet, sondern wird zu einer anwendungsspezifischen, kennzeichenbasierten Auszeichnungssprache konfiguriert. Beispiele solcher Sprachen sind die mathematische Auszeichnungssprache MML und die Commerce-One's-Produktaustauschsprache.
Ein XML-Dokument besteht aus einem Satz von "Elementen". Ein Element ist ein Stück eines Dokuments, das zwischen einem HTML-Stil-Kennzeichen und seinem passenden Schließkennzeichen enthalten ist. Anders als HTML weist jedoch XML keine eingebauten Kennzeichen auf – vielmehr ist die Menge der Kennzeichen für ein spezifisches Dokument durch dessen Dokumenttypdefinition, oder DTD, definiert. Die Unterscheidung zwischen zwei separaten XML-Erweiterungssprachen liegt typischerweise in deren DTDs.
Nun sei NML mit einem Programm "Hello, world" eingeführt. Anders als die meisten Programmiersprachen ist jedoch NML nicht gut zum Ausdrucken von "hello, world"; vielmehr ist sie gut für die Erkennung "hello, world". Das Programm, das "hello, world" erkennt, erscheint unten im Programm 1.
Das obige Programm 1 ist extrem einfach; es erkennt lediglich ein Objekt, das durch die Kette "hello, world" indiziert ist, und bildet dieses auf das Objekt "HelloWorld" ab. Das Element IDENTIFIER innerhalb des Elements ENUMERATION zeigt an, dass das Argument LITERAL, wenn es im Text vorkommt, eine Instanz der relevanten ENUMERATION erzeugt. Somit erzeugt die Phrase "hello, world" eine Instanz des Objekts HelloWorld, wobei dies die exakte Phrase abbildet. Dieses Programm, da es einfach ist, erkennt nur die exakte Phrase "hello, world" mit verschiedenen Großschreibungen. Ein einfaches Programm, das nur diese exakte Phrase erkennt, hätte ebenfalls gereicht und wäre viel einfacher zu schreiben gewesen. In NML ist jedoch ein Programm, das viel mehr erkennt, nahezu genauso einfach zu schreiben. Dies wird im nächsten Beispiel im Programm 2 gezeigt.
Das obige Programm 2 deklariert ein Objekt HelloWorld mit zwei Unterobjekten oder Attributen: Greeting und World. Greeting ist durch die Literale "hello", "hi", "good morning" und "good afternoon" indiziert; World durch "everyone", "everybody" und "world". Das Argument MIN = 1 für beide Attribute zeigt an, dass irgendein Objekt des Typs HelloWorld sowohl ein Attribut Greeting als auch ein Attribut World aufweisen muss. Der Satz "Hello" passt z. B. nicht, da das Attribut World fehlen würde. In ähnlicher Weise zeigt MAX = 1 an, dass nur ein Attribut jedes Typs vorhanden sein kann: "Hello everyone good afternoon" würde nicht abgebildet, da zwei Objekte Greeting erzeugt würden, die Unterobjekte von HelloWorld sind.
Wenn Programm 2 mittels der Inhaltsmaschine 110 implementiert wird, ist es so beschaffen, dass es die folgenden Phrasen erkennt.
Das Programm 2 arbeitet jedoch nicht richtig, um diese Phrasen zu erkennen. Tatsächlich erkennt das Programm 2 nichts. Das folgende Programm 3, das sich vom Programm 2 durch ein einziges Wort unterscheidet, erkennt stattdessen tatsächlich die obigen Phrasen.
Wie aus Untersuchung von Programm 2 und Programm 3 deutlich wird, liegt die Änderung im Attribut World des Objekts HelloWorld: In Programm 3 ist das Argument INFER auf wahr gesetzt. Die Schlussfolgerung ist, dass die Anwesenheit eines Modifikators die Existenz eines Objekts implizieren kann, selbst wenn das Objekt nicht explizit identifiziert ist. Hier bedeutet dies, dass immer dann, wenn ein Objekt World erzeugt wird, ein Objekt HelloWorld erzeugt wird, das dieses enthält. Dies ist das zweite der zwei Verfahren, mit denen Objekte erzeugt werden: das erste, das bereits beschrieben worden ist, gilt dann, wenn ein IDENTIFIER entdeckt wird. Im Programm 3 wurden die Objekte Greeting und World erzeugt, jedoch kein Objekt HelloWorld; tatsächlich könnte in diesem Programm kein Objekt HelloWorld erzeugt werden, da weder Identifizierer hatte, noch von irgendeinem Attribut abgeleitet wurde.
Der Unterschied im Verhalten zwischen Programm 2 und Programm 3 beruht auf einem anderen Faktor: In Programm 3 müssen alle Nomen und Verben in einem Satz in einem Baum angepasst werden, der in einem einzigen Objekt wurzelt, oder der Satz als Ganzes wird nicht als abgebildet betrachtet.
Wie oben erwähnt worden ist, ist NML das Mittel, mit dem der Anwendungsentwickler die Struktur seiner Anwendung der Inhaltsmaschine 110 beschreibt. Auf vielfältige Weise ist dies äquivalent zum Definieren einer Anwendungsprogrammschnittstelle (API) für die Anwendung, mit einer Schlüsseleigenschaft in einer Anordnung, dass der "Anwendungsprogrammierer" in diesem Fall ein Benutzer ist, der eine spezifische Sprache (z. B. Englisch) spricht. Somit ist die API sehr einfach: sie umkapselt nur diejenigen Objekte und Attribute, die ein Benutzer mit einem einzigen englischen Satz erzeugen kann, und von denen erwartet wird, dass sie die Benutzer der Anwendung kennen. Zum Beispiel würden in einem Möbelkatalog die NML Objekte beschreiben, wie z. B. einen Schreibtisch, der Attribute aufweisen kann, wie z. B. PrimitiveDeskWord (z. B. das nummerierte Objekt bestehend aus dem Wort Schreibtisch und dessen Synonymen), und PedestalType (z. B. eine zusammengesetzte Beschreibung, ob dieser Schreibtisch einen linken, einen rechten oder einen doppelten Sockel aufweist).
In einer Ausführungsform sieht daher eine NML-Datei einer Java-Schnittstellendatei oder einer C++.h-Datei ähnlich: Sie ist eine Beschreibung von Objekten einer Anwendung, ohne deren Implementierung. Die in der NML-Datei beschriebene Objekthierarchie ist in logischer Struktur und Funktion der Objekthierarchie des Programmierers für die Anwendung sehr ähnlich: Einige wenige zusätzliche Objekte sind typischerweise hinzugefügt, um Ziele für die Englischabbildung zu schaffen. Dieser Abschnitt befasst sich selbst mit der Rohstruktur der NML: Das Mittel, mit dem dies in einer Anwendung entwickelt wird, wird im Folgenden gezeigt.
Die einfachste Art, NML zu betrachten, ist, mit ihrer im Folgenden gegebenen Dokumenttypdefinition (DTB) zu beginnen.
Das Element NML_MODEL ist der Stamm der NML-Datei. Diese enthält eine Menge von Importierungen und eine Menge von Objekten. Das Argument DOMAIN des Elements NML_MODEL ist einfach eine Anzeige des Namens der bestimmten Domäne oder der Anwendung, die von der Anhaltsmaschine verarbeitet wird, für die Inhaltsmaschine 110.
Einige Elemente, die in NML verwendet werden können, werden im Folgenden beschrieben.
FILE
Das benötigte Argument FILE enthält einen Pfad der zu importierenden Datei. Eine typische NML-Anwendung enthält eine kleine Menge von Kundenobjekten und eine viel größere Menge, die aus Standardbibliotheken importiert wird. Ein klassisches Beispiel ist das Datumspaket, das gewöhnliche Datumsformulierungen erkennt: Alles von "the last week of the second quarter before last" bis "12/19/98". In einer Anordnung weist das Element IMPORT einen Compiler an, eine Bibliothek aus seinem Argument FILE zu importieren. Zum Beispiel importiert <IMPORT FILE="Utils/Date.nml"> das Datumspaket. Das Element IMPORT kann so aussehen:
COMMENT
In einer Anordnung der vorliegenden Erfindung wird das Element COMMENT verwendet, um eine NML-Komponente (im Gegensatz zu einem allgemeinen XML-Kommentar) zu bezeichnen, und kann an das Modell als Ganzes oder an irgendein einzelnes Objekt angehängt sein. Das Element COMMENT kann so aussehen:
<!ELEMENT COMMENT ANY>
OBJECT
Das Element OBJECT ist das Herz der NML. Es kann so aussehen:
Ein OBJECT kann als ein Typ in einer Programmsprache gedacht werden. Anders als Typen in Programmiersprachen weist jedoch ein Objekt in NML keine reale Implementierung auf. Sein Zweck besteht darin, ein Ziel für die Abbildung eines Wortes, einer Phrase oder eines Satzes durch die Inhaltsmaschine 110 bereitzustellen, sowie eine Quelle für die Domänenhintergrundabbildung auf die Anwendungs-API. Somit muss es lediglich Typeninformationen bereitstellen. Dies ist der Typ, auf den die Phrase und der Satz abgebildet werden. Die Unterstruktur des Objektelements gibt die expliziten Anweisungen für die Abbildung der Phrase.
Es gibt acht Argumente für das Objektelement selbst. Das erste Argument NAME ist erforderlich und gibt den Namen des Objekts an. Alle Referenzen auf das Objekt, speziell diejenigen in den Elementen ATTRIBUTE, werden mittels des NAME des Objekts bewerkstelligt.
Das zweite Argument EXPR bezieht sich auf die Fähigkeit dieses Objekts, Ausdrücke zu bilden – Phrasen die "and", "or", ";", "/" oder "," enthalten. "Monday oder Tuesday" z. B. bildet einen Ausdruck über das Wochentagsobjekt. Solche Ausdrücke werden immer über homogene Objekte gebildet. Daher wurde z. B. " Monday or December 23" keinen Ausdruck über das Wochentagsobjekt bilden, obwohl dies ein Ausdruck über ein etwas abstrakteres Objekt bilden würde.
Die Argumente PRR und DML_ steuern die im Folgenden beschriebene DML-Erzeugung.
Das Argument SINGLETON zeigt an, dass irgendeine Instanz dieses Objekts nur ein einziges Attribut annehmen kann. Dies wird verwendet, wenn ein Objekt logisch eine abstrakte Superklasse mehrerer Objekte ist, von denen nur eines repräsentiert werden kann. Die MAX-Attributdeklaration (siehe unten) ist nicht angemessen zum Steuern dieses Falls, da die MAX-Attributdeklaration die Anzahl der Instanzen eines einzelnen Attributobjekts steuert: dies steuert die Anzahl der Attributobjekte.
Das Argument ROOT zeigt an, ob eine Instanz dieses Objekts sich am Stamm eines Instanzen-NML-Baums befinden kann. Ein Objekt enthält einen optionalen Kommentar (siehe oben) und eine Menge von Attributen. Wenn OBJECT zu einem Typ in einer Programmiersprache analogisiert wird, ist ATTRIBUTE analog zu einem Element dieses Typs. Referenz wird anhand des Namens bewerkstelligt. Die Deklaration
zeigt an, dass das Objekt HelloWorld ein Element vom Typ (Objektnamen) Greeting aufweist. Es ist zu beachten, dass keine Unterscheidung zwischen Attributnamen, Typnamen und Elementnamen gemacht wird – alles bezieht sich einfach auf den Objektnamen des Attributs.
Wie oben erwähnt worden ist, deklariert ATTRIBUTE ein Unterobjekt oder Element eines Objekts. Somit sagt ID="Greeting", dass dieses Objekt ein Begrüßungsobjekt als Unterobjekt enthält. NML-Programmieranfänger kommentieren häufig, dass kein Unterschied zwischen dem Elementnamen und dem Typ vorhanden ist, im Gegensatz zu den meisten Programmiersprachen. Um dies zu erkennen, sei die Java-Klasse Hello World betrachtet:
Im Gegensatz hierzu das NML-Äquivalent
würde entsprechen:
Um zu sehen, warum dies wahr ist, sei berücksichtigt, dass das NML-Objekt ein Ziel für die Abbildung bereitstellt, und dass Elementnamen, die sich von Typen unterscheiden, nur nützlich sind, wenn mehr als ein Objekt eines spezifischen Typs als ein Element vorhanden ist. Wenn dies in NML der Fall wäre, würde die Inhaltsmaschine 110 unfähig sein, zu wissen, welches Objekt auf welches Attribut abzubilden ist. In einer Anordnung kann dieses Problem gelöst werden, indem mehrere Attribute eines spezifischen Typs zugelassen werden, und indem man den Nachrechner deren Rollen im Satz aussortieren lässt.
ATTRIBUTE
Das Element ATTRIBUTE ist leer und hat die folgenden Argumente:

– ID: Dieses Argument bezieht sich auf den Objektnamen des Attributs und muss vorhanden sein. Wenn der Name einfach ist (ein einzelnes Wort), bezieht er sich auf ein Objekt im aktuellen NML_MODEL. Wenn er qualifiziert ist, bezieht er sich auf ein Objekt aus einem importierten Modell. Somit bezieht sich z. B. ID="Date.Date" auf das Datumsobjekt des (importierten) NML_MODEL Date. In einer Anordnung müssen aus importierten Dateien referenzierte Objekte den qualifizierten Namen verwenden, auch wenn keine Konflikte vorliegen. Selbst wenn daher z. B. keine "Date"-Objekte vorhanden sind, mit der Ausnahme im NML_MODEL "Date", müssen die Attribut-IDs in irgendeiner Datei, die "Utils/Date.nml" importiert hat, das Datumsobjekt als "Date.Date" referenzieren. Qualifikationen dieser Form referenzieren letztendlich nicht die Verzeichnisstruktur: selbst wenn "Utils/Date.nml" in der IMPORT-Deklaration erscheint, würde "Date.Date" und nicht "Utils/Date.Date" die Attribut-ID des Datumsobjekts sein. Schließlich sind Qualifikationen immer einfach geschichtet: "Utils.Date.Date" ist keine gültige Attribut-ID.
– INFER: Dieses Argument weist die Inhaltsmaschine 110 dann, wenn es wahr ist, an, immer dann sofort dieses OBJECT zu erstellen, wenn ein Objekt des in ID benannten Typs erstellt wird. In dem Beispiel:
wird immer dann, wenn ein Everyone-Objekt erstellt wird, auch ein Objekt HelloWorld erzeugt, das dieses als ein Attribut enthält. Im Gegensatz hierzu zieht die Erzeugung eines Objekts Greeting nicht die Erzeugung des HelloWorld nach sich. Der Vorgabewert für INFER ist falsch.
– MIN: Dieses Argument zeigt die minimale Anzahl der Attribute dieser ID an, die dieses Objekt aufweisen muss. In dem Beispiel muss ein Objekt HelloWorld wenigstens ein Attribut Greeting und ein Attribut Everyone aufweisen. Die Werte von MIN können 0,1 oder 2 sein, wobei ein Vorgabewert 0 ist. Die Menge an möglichen Werten kann erweitert werden, wenn jemals Bedarf besteht. Häufig ist die minimale Kardinalität eines Objekts bekannt. Zum Beispiel muss ein Buch einen Titel aufweisen. Dies kann im Abbildungsprozess ausgenutzt werden, indem Objekte gelöscht werden, die nicht die minimale Kardinalität für ein Attribut erreichen.
– MAX: Dieses Argument zeigt die maximale Anzahl von Attributen dieser ID an, die dieses Objekt aufweisen muss. In dem Beispiel muss das Objekt HelloWorld wenigstens ein Attribut Greeting und ein Attribut Everyone aufweisen. Die Werte von MAX können 1, 2 oder viele sein, wobei ein Vorgabewert viele ist. Die Menge möglicher Werte kann erweitert werden, wenn jemals Bedarf besteht. Häufig ist die maximale Kardinalität eines Objekts bekannt. Zum Beispiel kann ein Buch nur einen Titel aufweisen. Dies kann im Abbildungsprozess ausgenutzt werden, in dem Objekte gelöscht werden, die die maximale Kardinalität für ein Attribut überschreiten.

Ein Beispiel unter Verwendung von NML ist in Anhang B gegeben.
3. DML
Das NML-Dokument, das die Abbildungsvorrichtung 220 erzeugt hat, kann jedoch für eine einfache Verarbeitung zu schwerfällig sein. In einer Ausführungsform erzeugt der im Folgenden genauer beschriebene Abbildungsalgorithmus einen Knoten im NML-Instanzenobjekt für jede erfolgreich abgebildete Phrase. Einige dieser Phrasen weisen keine semantische Signifikanz im Satz auf. Außerdem können viele separate Formulierungen verwendet werden, um das gleiche logische Objekt zu erzeugen. Da die NML-Objekte eng an die verwendeten Formulierungen gebunden sind, werden mehrere mögliche NML-Objekte verwendet, um das gleiche logische Objekt zu bezeichnen. Eine weitere semantische Verarbeitung der NML-Instanz ist erforderlich, bevor die Ergebnisse verwendet werden können, um eine Datenbank zu belegen oder eine Suchanfrage auszulösen.
Es seien die NML-Modelle betrachtet, die ein Objekt "ElectricalCurrent" erkennen. Es gibt viele Möglichkeiten im Englischen, den elektrischen Strom einer Vorrichtung zu spezifizieren. Man kann auf current oder amperage zurückgreifen; man kann auf den Wert als englische Zeichenkette ("forty-five" oder "one hundred and seventy five") oder als Zahl (45 oder 175) zurückgreifen; die Einheiten implizit anhängen ("amperage 65") oder explizit ("current 65 amps"); oder an den Wert anhängen ("65A"); und dergleichen. Jede dieser Variationen ist in einem NML-Modell als ein separates Objekt erfasst; jedoch ist eine Anwendung nur von der Tatsache abhängig, dass Strom spezifiziert wird, die Einheiten spezifiziert werden und der Wert spezifiziert wird. Im Idealfall wird dies als ein XML-Element in einem Dokument erfasst:
<CURRENT UNIT=Amp VALUE=65/>
Dieses Element ist ein Element einer Domänen-Auszeichnungssprache, die für elektrische Vorrichtungen entwickelt worden ist. Es wird automatisch aus einer NML-Instanz extrahiert, die einem Textfragment entspricht, das die logische Entität "65 amps" beschreibt.
Die Domänen-Auszeichnungssprache, die einem NML-Modell entspricht, ist im NML-Modell selbst spezifiziert mit einem spezifischen NML-Element und drei Attributdeklarationen. Diese werden hier beschrieben:
Dieses Element weist den DML-Generator 230 an, immer dann eine neue DML-Instanz mit einem Stammelement zu beginnen, dessen Name das benötigte Attribut von DML_CALL ist, wenn ein NML-Element, dessen Name einem TRIGGER entspricht, in der NML-Instanz entdeckt wird. Zum Beispiel weist
den DML-Generator an, eine neue DML-Instanz mit dem Stammelement CURRENT immer dann zu beginnen, wenn eine Instanz entweder eines SimpleAmparageObject oder eines SimpleCurrentObject in der NML-Instanz entdeckt wird.
Die folgenden drei Attribute hängen an jedem NML-Objekt ENUMERATION, CALLBACK, PATTERN oder ATTRIBUTE und steuern die Erzeugung der DML-Elemente und Attribute, und (optional) setzen die Werte der DML-Attribute. Sie werden im Folgenden beschrieben.
DML-ELEMENT
Dieses Attribut erscheint optional mit einem Namen (z. B. DML_ELEMENT="Current"). Falls abwesend, wird als Name der Name des NML-Objekts, ENUMERATION, PATTERN oder CALLBACK oder die ID des NML-ATTRIBUTE angenommen. Es weist die Erzeugung eines DML-Elements des Typnamens immer dann an, wenn die entsprechende NML-Struktur in der NML-Instanz entdeckt wird. Dies weicht von DML_CALL insofern ab, als das DML-Element nicht als Stamm einer neuen DML-Struktur erzeugt wird; stattdessen wird das neue Element als Unterobjekt irgendeines umschließenden DML-Elements eingebettet. Dies wird im Folgenden genauer erläutert, wenn der DML-Algorithmus erklärt wird.
Beispiele:

<OBJECT NAME="Current"DML_ELEMENT="CURRENT"> weist die Erzeugung eines DML-Elements mit dem Namen CURRENT immer dann an, wenn ein NML-Objekt namens Current im NML-Instanzenbaum entdeckt wird. Genau die gleichen Deklarationen würden für ENUMERATION, CALLBACK oder PATTERN mit genau der gleichen Wirkung gelten.

Diese Deklaration weist die Erzeugung eines DML-Elements mit dem Namen CURRENT immer dann an, wenn ein NML-Objekt namens Current im NML-Instanzenbaum entdeckt wird. Wenn außerdem das Objekt Current ein Unterobjekt AmpDeclaration aufwies, dann wurde ein DML_ELEMENT Amperage als ein Unterelement von CURRENT erzeugt, wie im Folgenden zu sehen ist:
DML-ATTRIBUT
Dieses Attribut erscheint optional mit einem Namen (z. B. DML_ATTRIBUTE="Current"). Falls abwesend, wird als Name der Name des NML-Objekts, ENUMERATION, PATTERN oder CALLBACK oder die ID des NML-ATTRIBUTE angenommen. Es weist die Erzeugung eines DML-Attributs des Typnamens immer dann an, wenn die entsprechende NML-Struktur in der NML-Instanz entdeckt wird. Das neue Attribut wird als ein Attribut des nächstliegenden umfassenden DML-Elements angehängt, das entweder aus einer DML_CALL- oder DML_ELEMENT-Deklaration erzeugt worden ist. Dies wird im Folgenden genauer erläutert, wenn der DML-Erzeugungsalgorithmus erklärt wird.
Beispiele:
Der obige Code weist die Erzeugung eines DML-Attributs mit dem Namen VoltUnit immer dann an, wenn ein NML-Objekt mit dem Namen VoltWord im NML-Instanzenbaum entdeckt wird. Der Wert des Attributs, sofern nicht anders direkt durch eine DML_VALUE-Deklaration (siehe unten) spezifiziert, wird gleich dem Literal angenommen, das das Objekt VoltWord erzeugt hat, und somit erzeugt
das DML-Attribut und den Wert VoltUnit="gigavolt". Dies wird an das umschließende DML_ELEMENT angehängt, z. B.
Gekoppelt mit der obigen Deklaration VoltWord ergibt sich die folgende NML-Instanz und DML-Instanz für das Wort "gigavolt", wie im Folgenden gezeigt wird:
DML-WERT
DML_VALUE ist ein optionaler Zusatz zu DML_ATTRIBUTE und erlaubt einem NML-Programmierer, den Vorgabewert, der einem Attribut von der DML-Erzeugungsprozedur zugewiesen worden ist, zu überschreiben. Dies wird meist verwendet, wenn Synonyme oder mehrere Formulierungen erscheinen können und ein normalisierter Wert gewünscht ist.
B. FUNKTIONALITÄT DER INHALTSMASCHINE
4 ist ein Flussdiagramm, das die Funktionalität der Inhaltsmaschine 110 gemäß einer Ausführungsform der vorliegenden Erfindung darstellt. Wie aus 4 deutlich wird, empfängt die Inhaltsmaschine 110 die Eingabe 410 und wandelt diese in Token um. Der Analysator 210 erzeugt anschließend 420 alle Syntaxbäume, die auf der in Token umgesetzte Eingabe und der Grammatik aus dem Grammatikspeicher 170 beruhen. Anschließend erzeugt 430 die Abbildungsvorrichtung 220 für jeden Syntaxbaum einen Instanzenbaum auf der Grundlage der anwendungsdomänenspezifischen NML, die vom NML-Modellmodul 140 bereitgestellt wird. Die Abbildungsvorrichtung 220 beschneidet 440 anschließend ferner die Instanzenbäume und wählt 450 anschließend die beste Abbildung aus. Schließlich verwendet der DML-Generator 230 diese beste Abbildung, um die angemessene DML zu erzeugen 460. Diese Schritte werden im Folgenden genauer diskutiert.
Die Funktionalität der Inhaltsmaschine 110, die in 4 umrissen ist, kann sowohl für die Inhaltsynthese als auch für die Beschaffung von Daten verwendet werden. Für die Inhaltssynthese kann die Eingabe, die empfangen worden ist 410, z. B. ein Katalog von Gegenständen (und deren Beschreibungen) sein, die von einem Elektronikhandel-Angebot angeboten werden. Für die Beschaffung von Daten kann die Eingabe, die empfangen worden ist 410, z. B. eine Suchanfrage von einem Benutzer sein. Im Fall der Inhaltssynthese kann die DML, die erzeugt worden ist 460, auch verwendet werden, um eine Datenbank zu belegen, während im Fall der Datenbeschaffung die DML, die erzeugt worden ist 460, verwendet werden kann, um eine Datenbank zu durchsuchen, die im Voraus belegt worden ist.
Die Eingabe wird von der Inhaltsmaschine 110 in Token übersetzt 410. In einer Anordnung der vorliegenden Erfindung sind Token einfach die Wörter des eingegebenen Textes. Es können jedoch manchmal mehrere Wörter als einzelne Tokens behandelt werden, z. B. die zwei oder mehr Wörter, die einen Namen bilden, wie z. B. San Francisco oder New York City. Mehrere Wörter, die ein zusammengesetztes Nomen oder andere Konzepte bilden, wie z. B. Daten, Zeiten, Zahlenmuster und dergleichen, können ebenfalls zu einem einzigen Token zusammengefasst werden.
1. Syntaxanalyse
Sobald die Eingabe in Token übersetzt worden ist 410, erzeugt der Analysator 210 Syntaxbäume aus der in Token übersetzten Eingabe auf der Grund lage der vom Grammatikspeicher 170 erhaltenen Grammatik. In einer Ausführungsform erzeugt der Analysator 210 alle möglichen Syntaxbäume.
Der Analysator 210 erzeugt Syntaxbäume, die in der Form dem Syntaxbaum ähnlich sind, der (konzeptionell) von einem Compiler aus einem Pragramm erzeugt wird. Die Blätter dieses Baumes sind die Token (oder Wörter des Eingabetextes); die internen Knoten repräsentieren Phrasen und Untereinheiten des Satzes, während jeder Knoten die Untereinheit repräsentiert, die alle von diesem Knoten abstammenden Token enthält. Der Stammknoten repräsentiert den Satz selbst.
Um genauer zu sehen, wie dies bewerkstelligt wird, sei der mehrdeutige Satz "the boy helped the girl with the suitcase" betrachtet. Dieser Satz führt zu zwei Syntaxbäumen, die durch die Platzierung der Präpositionsphrase "with the suitcase" unterschieden werden. Im ersten Baum modifiziert die Phrase "with the suitcase" das Verb "help". Im zweiten Baum modifiziert die Phrase das Nomen "girl". 5A zeigt den ersten Baum, während 5B den zweiten Baum zeigt. In diesen Beschreibungen markieren die Kästen die erkannten Grammatiksymbole, wie z. B. "SVO" (für Subjekt-Verb-Objekt), "NP" (Nomenphrase) und dergleichen. Die erzeugenden Token befinden sich unterhalb der Kästen der untersten Ebene in der Figur.
Die Betrachtung der 5A und 5B zeigt, dass die Knoten der Bäume gleich sind und nur durch die Kante in den Knoten unterschieden werden, die die Phrase "with the suitcase" repräsentiert. Im ersten Fall verläuft die Kante 510 ausgehend von dem Knoten, der die Verbphrase "helped" repräsentiert; im zweiten Fall verläuft die Kante 520 ausgehend von dem Knoten, der die Phrase "the girl" repräsentiert. Dieser Aspekt führt zu dem Schluss, dass beide Syntaxbäume in einem gerichteten azyklischen Graphen ("DAG", Directed Acyclic Graph) einer Einzelsyntaxanalyse repräsentiert werden können. Der DAG ist in 5C gezeigt. Wie aus 5C deutlich wird, enthält der DAG selbst genau die gleiche Anzahl von Knoten wie jeder der zwei Komponentensyntaxbäume, und nur eine Kante mehr als jeder der zwei Komponentensyntaxbäume.
Der Analysator 220 kann irgendeinen Syntaxanalysealgorithmus verwenden.
In einer Anordnung kann der Syntaxanalysealgorithmus von Cocke-Younger-Kasami verwendet werden. Einzelheiten des Cocke-Younger-Kasami-Algorithmus sind zu finden in Introduction to Formal Language Theory, Harrison, M. A., Addison-Wesley, 1978. Ein Beispiel des Cocke-Younger-Kasami-Algorithmus ist unten in Tabelle 12A-E gezeigt. Während der im Folgenden gezeigte Algorithmus eine einzige Syntaxanalyse eines Satzes bietet, kann er modifiziert werden, um alle Syntaxanalysen des Satzes zu erzeugen.
Der Kern dieses Algorithmus ist eine (n+1)×(n+1)-Tabelle, wobei "n" die Anzahl der Token in der Syntaxanalyse ist. Die Token werden hier mit a₀ ... a_n-1 bezeichnet, während die Tabellenelemente T_0,0,..., T_n,n sind. Die obere Hälfte der Tabelle wird von i, i+1 bis n, n in der im Folgenden gegebenen Reihenfolge gefüllt. Die Elemente unmittelbar oberhalb der Diagonalen werden mit Grammatik-Nicht-Endelementen gefüllt, die direkt das relevante Token herleiten. Die Elemente in den übrigen Token werden wie folgt gefüllt: Ti,j = {A ⇰ BC,B ∈ Ti,k, C ∈ Tk,j, i+1 ≤ k ≤ j-1}.
Das Ergebnis dieser Gleichungen ist, dass bei Abschluss des Algorithmus T_i,j genau die Menge von Nicht-Endelementen enthält, die die Phrase beginnend mit a_i und endend in a_j herleitet. T_0nj enthält dann die Menge von Nicht-Endelementen, die den gesamten Satz herleiten.
Aus dem obigen Pseudocode wird deutlich, dass die Größenordnung der von diesem Syntaxanalysealgorithmus beanspruchten Zeitspanne proportional zu PN³ ist, wobei N die Anzahl der Wörter im Satz ist und P die Anzahl der eindeutigen Syntaxanalysen ist. Der Algorithmus ist auf die Kette aabb unter Vorgabe der Grammatik 3 laufend gezeigt.
S ⇒ AB
S ⇒ PB
P ⇒ AS
A ⇒ a
B ⇒ b.
Die anfängliche Matrix ist im Folgenden gezeigt
Nach der ersten Iteration der Schleife mit der Schleifenvariablen d ist die Matrix:
Nach der letzten Iteration ist die Matrix:
Der Stamm des Syntaxbaumes ist im Element T[0][4] enthalten – mit anderen Worten, in der Zelle in der oberen rechten Ecke der Matrix. Zu diesem Zeitpunkt endet der Syntaxanalysealgorithmus und die korrekten Syntaxanalysen werden aus der oberen rechten Ecke der Matrix gelesen.
2. Abbildung
Wie oben beschrieben worden ist, erzeugt 430 die Abbildungsvorrichtung 220 Bäume für jeden Syntaxbaum auf der Grundlage der vom NML-Modul 140 bereitgestellten anwendungsspezifischen NML. In einer Ausführungsform beschneidet 440 die Abbildungsvorrichtung 230 anschließend diese Instanzenbäume, um ungültige und/oder unvollständige Bäume zu verwerfen. Die Abbildungsvorrichtung wählt 450 anschließend die beste Abbildung aus. Jeder dieser Schritte wird im Folgenden genauer diskutiert.
Ein Objekt im Instanzenbaum wird als einen Knoten des Syntaxbaumes abdeckend bezeichnet (äquivalent wird ein Knoten als auf ein Objekt "abbildend" bezeichnet), wenn die Abbildungsvorrichtung 220 das Objekt mittels der im Folgenden erläuternden Regeln auf den Knoten abgleicht. Das Ziel des Abbildungsalgorithmus ist, ein einzelnes Objekt auf den Stammknoten des Baumes abzubilden. Wenn in einer Anordnung eine einzelne NML-Instanz nicht für einen Satz erhalten werden kann, schaltet das System auf einen weiteren Abbildungsmechanismus um, der versucht, die beste Menge an disjunkten NML-Instanzen zu erhalten, die den gesamten Satz abdecken. Es gibt mehrere verschiedene Verfahren, um eine teilweise Abbildung eines Satzes durchzuführen.
a) Erzeugung von Instanzenbäumen
In einer Anordnung werden Instanzenbäume erzeugt durch Ausgehen von den Blatt-Knoten (oder Endelement-Knoten) eines Syntaxbaumes. Kurz, ein Endknoten wird für jedes Token erzeugt. Bei jedem Endknoten eines Syntaxbaumes werden alle aufgezählten Objekte durch das Endwort indiziert. Ein Herleitungsprozess wird anschließend ausgeführt, um die hergeleiteten Objekte zu erzeugen. Der Algorithmus bewegt sich anschließend den Syntaxbaum nach oben, wobei er ein neues Objekt an jedem Stammknoten erzeugt durch Zusammensetzen der Objekte der Nachkommenknoten bei den Knoten. Bei jedem Knoten befindet sich ein Nachkommenknoten, der als Hauptnachkomme des Knotens vorausbestimmt ist. Der Hauptnachkomme entspricht dem grammatikalischen Objekt, das die zentrale Rolle in der vom Knoten repräsentierten grammatikalischen Struktur bildet. Für eine Nomenphrase ist dies das Hauptnomen, für eine Präpositionsphrase ist dies das Präpositionskomplement, und dergleichen.
Objekte können auf verschiedene Weisen erzeugt werden. Insbesondere können Objekte durch Aufzählung von Identifizierern, Aufzählung von Rückfragen und Aufzählung von Mustern erzeugt werden. Außerdem können Objekte auch aus anderen Objekten hergeleitet werden. Jede von diesen Möglichkeiten wird der Reihe nach betrachtet.
– Aufzählung von Identifizierern:
Eine Aufzählung ist ein Objekt, das durch die Anwesenheit eines einzelnen Wortes oder einer Phrase erzeugt wird.
In einem unten gezeigten Beispiel wird die Aufzählung "Greeting" erzeugt, wenn das Wort "hello" entdeckt wird, aufgrund des Codeschnipsels:
Es ist wichtig, zu beachten, dass eine Aufzählung in jedem Fall identisch mit einem Objekt ist, mit Ausnahme der Tatsache, dass ein Objekt immer von einem existierenden Attribut abgeleitet wird und eine Aufzählung von einem Wort oder einer Phrase abgeleitet wird.
Das Element IDENTIFIER erkennt ein einzelnes Wort, das die Erzeugung des Objekts erzwingt. Das spezifische Wort ist im Argument LITERAL gegeben.
Das Element IDENTIFIER hat keine Unterstruktur und kann die folgenden unten aufgelisteten Argumente annehmen:
LITERAL: Dieses Argument liefert die literale Kette, die auf das Objekt abbildet. Im Allgemeinen sollte nur der Stamm eines spezifischen Verbs oder Nomens im Literalargument erscheinen; die Inhaltsmaschine erkennt Zeitformen, Deklinationen und alle abgeleiteten Formen von Verben und Nomen und bildet diese ab. Zum Beispiel wird <IDENTIFIER LITERAL="have"> "has", "had", "having", "has had" usw. abbilden, während <IDENTIFIER LITERAL="woman"> "woman", "women's", "womanly" abbilden wird, und dergleichen. LITERAL ist das einzige benötigte Argument von IDENTIFIER und wird häufig das einzige Argument sein.
MAP: Gelegentlich werden Synonyme verwendet, um ein einziges Objekt anzugeben, wobei die semantische Verarbeitung des Objekts unabhängig davon ist, welches Synonym verwendet wird. Ein gutes Beispiel ist "stock" und "security". In diesem Fall kann der nachgestellte Code vereinfacht werden, wenn die Synonyme auf einen einzigen kanonischen Fall reduziert werden. MAP tut dies. Wenn MAP erscheint, dann wird das erkannte Literal auf die Kette abgebildet, die als ein Argument für MAP gegeben ist. Der Vorgabewert für MAP ist der Wert des Arguments LITERAL.
TYPE: Dies beschränkt die Abbildung auf den bestimmten Teil der Sprache, der als Argument gegeben ist. Häufig können Wörter mehrere unterschiedliche Teile von Sprache annehmen. Zum Beispiel ist das Wort "green" ein Nomen (das ein Stück grünes Land oder eine Farbe bezeichnet), ein Adjektiv oder ein Verb. Es ist häufig erwünscht, einen IDENTIFIER auf nur eine dieser Rollen zu beschränken. Wenn Verb als Wert von TYPE gegeben ist, dann werden nur Verben auf diesen bestimmten Identifizierer abgebildet. Der Vorgabewert ANY bildet einen beliebigen Teil der Sprache auf diesen IDENTIFIER ab.
– Aufzählung von Rückfragen:
Eine weitere Möglichkeit, wie Objekte erzeugt werden können, ist diejenige von Rückfragen. Das Element CALLBACK (Rückfrage) funktioniert in einer Weise ähnlich der Aufzählung: Es ist ein Mittel zum Abbilden individueller Token in einem Satz auf Objekte. Es ist für den spezifischen Fall entwickelt, wo die Menge von Identifizierern für ein bestimmtes Objekt sehr groß ist, sich dynamisch ändert, oder beides.
Ein gutes Beispiel einer solchen Situation ist die Menge von Aktiensymbolen, die in Tausendern gezählt werden und die sich aufgrund von IPOs, Fusionen und Namens- und Symboländerungen täglich ändern. Für solche Mengen ist die Verwendung von Identifizierern unhandlich: Die NML-Datei würde sehr groß werden und wäre in einem Zustand ständiger Aktualisierung. Eine bessere Lösung ist, eine relationale Standarddatenbank zu verwenden und diese aufzurufen, um ein Aktiensymbol zu erkennen. Das besondere Beispiel für Aktiensymbole ist:
Formal definiert das Element CALLBACK eine Java-Klasse, die wenigstens zwei Verfahren enthält: ein Verfahren, das eine Kette annimmt und einen logischen Ausdruck zurückgibt (dies ist im Argument PARSER benannt), und ein Verfahren, das eine Kette annimmt und eine weitere Kette zurückgibt (dies ist im Argument MAPPER benannt). Obwohl dies spezifisch mit Blick auf eine SQL-Schnittstelle entwickelt worden ist, besteht keine Einschränkung im Code hierfür: jede beliebige Java-Klasse mit dem geeigneten Verfahren bewerkstelligt dies.
In einer Anordnung braucht das Element CALLBACK keine Struktur aufweisen, und weist die folgenden Argumente auf, die alle erforderlich sind:
CLASS: Dies ist der Name der vollständig qualifizierten Java-Klasse, die die zwei obenerwähnten Verfahren enthält. Die Inhaltsmaschine ruft das Verfahren <CLASS>.<PARSER>(token) auf; um das Token zu erkennen und <CLASS>.<MAPPER>(token); (im obigen Beispiel "ecCallback.CompanyFundIndexNameDatabase.isCompanyFundIndexName(token);" für die Erkennung, und "ecCallback.CompanyFundIndexNameDatabase.findCompanyFundIndexSymbol(tok en);" für die Abbildung). Die CLASS muss daher für die Inhaltsmaschine aus der Kette zugänglich sein, wie hier unter Verwendung der Standard-Java-Klassenladerverfahren gegeben ist.
PARSER: Dies ist der Name des Verfahrens innerhalb der CLASS, das zur Durchführung der Erkennung aufgerufen wird: Es sollte ein einzelnes Kettenargument annehmen und einen logischen Ausdruck zurückgeben. Dies funktioniert genau wie das Argument LITERAL für IDENTIFIER; die Inhaltsmaschine leitet die Stammform des Token, nicht das Token selbst, zum Analysator weiter. Somit liefert das Wort "Microsoft's", das in einem Satz erscheint, den Aufruf "ecCallback.CompanyFundIndexNameDatabase.isCompanyFundIndexName(microsoft)". Wenn dies wahr zurückliefert, ist das Verhalten des Compilers exakt identisch mit demjenigen, das erzeugt wird, wenn "microsoft" in einer Liste von Identifizieren für dieses Objekt erschienen wäre.
MAPPER: Dies ist der Name des Verfahrens innerhalb CLASS, das aufgerufen wird, um erkannte Token auf eine kanonische Form abzubilden. Es sollte eine Kette annehmen und eine Kette zurückgeben. Dies funktioniert genau wie das Argument MAP für IDENTIFIER. Wie bei PARSER leitet die Inhaltsmaschine die Stammform des Token, nicht das Token selbst, an die Abbildungsvorrichtung weiter. Um das Vorgabeverhalten von IDENTIFIER zu erhalten, sollte MAPPER einfach sein Argument zurückgeben. Ein reichhaltiges Beispiel ist das Zitierte: ecCallback.CompanyFundIndexNameDatabase.isCompanyFundIndexSymbol gibt das Symbol zurück, das dem Namen zugeordnet ist. Somit gibt z. B. ecCallback.CompanyFundIndexNameDatabase.findCompanyFundIndexSymbol(microsoft) "msft" zurück, ebenso wie ecCallback.CompanyFundIndexNameDatabase.findCompanyFundIndexSymbol(msft).
In einer alternativen Anordnung kann CALLBACK 520 vereinfacht werden, wenn die Inhaltsmaschine 110 ein schnittstellen-basiertes Protokoll für seine Rückfragen annimmt. In diesem Fall verschwinden die Argumente PARSER und MAPPER für CALLBACK, wobei die CALLBACK CLASS benötigt wird, um das Rückfrageprotokoll der Inhaltsmaschine 110 zu implementieren.
- Aufzählung von Mustern
Ein Muster ist das dritte logische Äquivalent zu einer Aufzählung. Dies wird verwendet, wenn eine große Anzahl von Identifizieren durch einen regelmäßigen Ausdruck spezifiziert werden kann. Eine volle Beschreibung regelmäßiger Ausdrucke (formal regelmäßige Sprachen) ist zu finden in Introduction to Automata and Language Theory, Aho, Hopcroft und Ullman, Addison-Wesley, 1978. Das einfachste Beispiel eines regelmäßigen Ausdrucks ist eine Sozialversicherungsnummer, die durch den regelmäßigen Ausdruck ausgedruckt wird:
[1-9][0-9][0-9]-?[0-9][0-9]-?[0-9][0-9][0-9][0-9]
was anzeigt, dass eine Sozialversicherungsnummer eine beliebige Kette ist, die mit einer Ziffer zwischen 1 und 9 beginnt, gefolgt von zwei Ziffern zwischen 0 und 9, einem optionalen Bindestrich, zwei Ziffern zwischen 0 und 9 und einem optionalen Bindestrich, und anschließend vier Ziffern zwischen 0 und 9.
In einer Anordnung akzeptiert die Inhaltsmaschine 110 irgendwelche regelmäßigen Ausdrücke, die durch den PERL5-Compiler spezifiziert sind (siehe http://www.perldoc.com/perl5.6/pod/perlre.html für die aktuelle Spezifikation). Die regelmäßigen Ausdrücke werden im STR-Argument des enthaltenen Elements REGEXP erfasst. Gelegentlich ist es nützlich, mehrfache regelmäßige Ausdrücke im gleichen Muster zu spezifizieren, welche durch ein optionales SEP-Zeichen (Leerzeichen als Vorgabe) getrennt sind.
– Herleitung:
Abgesehen von den oben diskutierten Aufzählungstechniken ist eine weitere Möglichkeit, wie ein Instanzobjekt erzeugt werden kann, die Herleitung. Herleitung ist, wenn die Anwesenheit eines Modifikators die Existenz eines Objekts implizieren kann, auch wenn das Objekt nicht explizit identifiziert ist. Dies kann durch Ellipse stattfinden, oder häufiger, da das zugrundeliegende Objekt abstrakt ist und nicht immer (oder vielleicht niemals) explizit identifiziert wird.
Es sei z. B. das generische Objekt "Weather" betrachtet, das die Attribute "Temperature", "Precipitation", "Outlook" und "Location" aufweist. Obwohl ein solches Objekt explizit identifiziert sein kann (wie z. B. durch das Schlüsselwort "weather"), ist es dies häufig nicht, wie bei der Frage "What is the temperature in San Francisco?". In diesem Fall ist die Anfrage für das Objekt "Weather" aus der Anfrage für dessen Attribut "Temperature" abgeleitet.
Nicht alle Attribute leiten das Vorhandensein eines modifizierten Objekts her. Im obigen Beispiel ist die Stadt San Franzisko ein "Location" für "Weather", leitet jedoch nicht ein Objekt "Weather" her. "Temperature" tut dies jedoch.
Ein Entwickler deklariert, das ein bestimmtes Attribut die Existenz des Objekts herleitet. In der Abbildung werden hergeleitete Objekte unmittelbar zusammen mit dem herleitendem Attribut erzeugt, zusammen mit einem "Hergleitet"-Kennzeichen.
In einer Anordnung der vorliegenden Erfindung bezieht sich die Herleitung auf die Typherleitung in einer objektorientierten Sprache in einer tiefen und nicht-offensichtlichen Weise. Wenn im allgemeinen ein Typ A eine Unterklasse eines Typs B in einer objektorientierten Sprache ist, dann stützt sich die Instanz von A innerhalb derselben auf eine Instanz von B. Besser ausgedrückt, man kann sich A als B mit zusätzlichen Eigenschaften denken. Somit erzwingt die Erzeugung einer Instanz von A die Erzeugung einer Instanz von B. In einem gewissen Sinn ist dann die Deklaration eines Untertyps in einem Programm eine Deklaration eines herleitenden Attributs.
In einer alternativen Anordnung kann das herleitende Attribut direkt das Objekt herleiten, statt das herleitende Attribut in eine Untertypdeklaration einzubetten. In dieser Anordnung kann das Attribut direkt erkannt werden, wobei das hergeleitete Objekt direkt daraus erstellt werden kann.
Wie oben diskutiert worden ist, ist das Element INFER ein Argument eines Attributs, dass dann, wenn es wahr ist, die Inhaltsmaschine 110 anweist, sofort das Objekt zu erstellen, immer dann, wenn ein Objekt des in ID bezeichneten Typs erstellt wird. In dem Beispiel:
wird immer dann, wenn ein Objekt Everyone erstellt wird, häufig ein Objekt HelloWorld, das dieses als Attribut enthält, erstellt. Der Vorgabewert für INFER ist falsch.
Wenn die Objekte erzeugt werden, muss der "Hantierer" des Instanzenbaumes angepasst werden. Es kann nützlich sein, hier eine gewisse Terminolo gie zu definieren. Wenn eine englische Phrase oder ein Satz analysiert wird, gibt es immer ein dominantes Element. Im Fall eines Subjekt-Verb-Objekt-Satzes ist z. B. das dominante Element die Verbphrase; im Fall einer Nomenphrase ist es das Hauptnomen; im Fall einer Adjektivphrase ist es das Adjektiv. Dieses Element wird als Hauptwort oder Hauptphrase der Phrase bezeichnet.
Wenn die Abbildungsvorrichtung 220 fortschreitet, erzeugt sie Bäume von Objekten, die auf Knoten des Syntaxbaumes zentriert sind. Ein solcher Baum von Objekten, der auf einen Knoten des Syntaxbaumes zentriert ist, wird als eine Abbildung des Knotens bezeichnet. Die Verknüpfung zwischen einem Baum von Objekten und dem Syntaxbaum ist ein einzelnes Objekt innerhalb der Abbildung, als Hantierer der Abbildung bezeichnet. Der Hantierer der Abbildung kann als Stamm der Abbildung der Hauptphrase des abgebildeten Knotens im Syntaxbaum gedacht werden. Seine Rolle (und wie sich der Hantierer während des Abbildungsprozesses bewegt) wird im Folgenden erläutert.
Es besteht eine grundsätzliche Äquivalenz zwischen dem Objektattributbaum in einem Programm und der Modifikatorhierarchie in einem Syntaxbaum eines Satzes. Bei der Syntaxanalyse eines Satzes sind verschiedene Wörter die Anker ihrer Phrasen. Zum Beispiel ist in irgendeiner Nomenphrase das Nomen der Anker. Die anderen Unterphrasen sind die Modifizierter. Der Anker der Phrase definiert das Objekt im Komponentenbaum; die Modifikatoren sind Attribute des Objekts. Wenn ein Objekt Girl mit dem Identifizierer "girl" und dem Attribut Carrying mit dem Identifizierer "with" deklariert worden sind, dann würde der Satz "the boy helped the girl with the Suitcase" sein Objekt auf eine Komponente Girl mit dem Attribut Carrying abbilden. Wenn jedoch Girl kein Attribut Carrying hat, dann würde das Objekt auf eine Komponente Girl abgebildet.
Die einfachste Möglichkeit, zu sehen, wie ein Objekt durch Akkumulieren von Attributen wächst, ist, sich zwei Objekte des gleichen Typs vorzustellen, die durch Vereinigung ihrer Attribute in ein einzelnes Objekt zusammengefügt werden. Es sei das folgende Schnipsel aus dem Programm Hello World betrachtet:
In diesem Fall erzeugen sowohl das Objekt Greeting als auch das Objekt Everyone ein Objekt HelloWorld durch den Herleitungsmechanismus. Diese beiden Objekte HelloWorld weisen ein fehlendes benötigtes Attribut auf: sobald sie zu einem einzigen Objekt vereint werden, sind die benötigten Attribute für beide vollständig.
Zwei Objekte, die im Satz nicht in Beziehung stehen, sollten z. B. nicht gebildet werden: sie beziehen sich auf unterschiedliche semantische Entitäten innerhalb des Satzes, sofern nicht eine bestimmte übergeordnete grammatikalische Verknüpfung zwischen diesen besteht. Es sei der Satz "hello, dolly and thanks, everyone" betrachtet. Die Objekte HelloWorld, die von dem Objekt Greeting erzeugt werden, das "hello" enthält, und das Objekt Everyone, das "everyone" enthält, sollten nicht vereint werden. Dies würde implizieren, dass eine einzige Phrase vorlag, die sowohl Greeting als auch Everyone enthält, wobei dies falsch ist. Ein zweites Verfahren, das vorstellbar ist, würde ein Objekt aufweisen, das als Attribute nur die Abbildungen von den Modifikatoren seiner Hauptphrase hinzufügt. Im Englischen enthält jedoch die semantische Analyse eines Satzes häufig Umkehrungen seiner grammatischen Struktur. Zum Beispiel ist in dem Satz "show me the price of Microsoft" das semantische Hauptobjekt "the price of Microsoft", wobei die Werbphrase "show" semantisch ein Modifikator ist. Trotzdem ist in der Syntaxanalyse die Hauptphrase "show", was durch "the price of Microsoft" modifiziert ist.
Die Regel, die von der Inhaltsmaschine 110 verwendet wird, ist sehr einfach. Eine Abbildung kann als ein Attribut hinzugefügt werden:

(1) Die Abbildung eines Modifikators von dessen Hantierer; oder
(2) Die Abbildung einer durch ihren Hantierer modifizierten Phrase.

Im Fall (1) bleibt der Hantierer unverändert. Im Fall (2) bewegt sich der Hantierer zum Attribut, so dass der Hantierer bei der Abbildung der Hauptphrase der Syntaxanalyse verbleibt. In unserem Beispiel sei somit angenommen, dass ein Aktienobjekt für die Phrase "the price of Microsoft" erzeugt worden ist. Der Hantierer dieser Abbildung ist das Aktienobjekt. "the price of Microsoft" modifizierte das Verb "show", so dass unter Regel (2) das Aktienobjekt ein Attribut Show hinzufügen kann. Wenn dies geschieht, bewegt sich der Hantierer der Abbildung zum Attribut Show des Aktienobjekts. Mit anderen Worten, der Stamm der Abbildung ist nicht mehr der Hantierer.
Gelegentlich ist es nützlich, den Hantierer zu zwingen, sich zum Stamm der Abbildung zu bewegen. Dies geschieht, wenn der Programmierer garantieren kann, dass keine weiteren Attribute zu dieser Abbildung von Modifikatoren der Hauptphrase hinzugefügt werden können. Ein gutes Bespiel tritt in dem Fall auf, der im vorangehenden Abschnitt betrachtet worden ist, wo klar ist, dass keine weiteren Modifikator des Verbs "show" Attribute des Stammobjekts Stock (Aktie) werden. Um dies zu erlauben, bewegt die Herleitung den Hantierer der Abbildung zum Stamm der Abbildung. Ein hergeleiteter Objekthantierer ist immer der Stamm der Abbildung.
Einzelheiten des Abbildungsalgorithmus
Weitere Einzelheiten bezüglich der Erzeugung 410 von Instanzenbäumen sind in dem in 6 gezeigten Flussdiagramm umrissen. Auf der Grundlage der vom NML-Modul 140 erhaltenen anwendungsspezifischen NML startet die Abbildungsvorrichtung 220 die Erzeugung 410 von Instanzenbäumen durch Betrachtung eines Prozessknotens 610. Die Abbildungsvorrichtung 220 bestimmt zuerst 602, ob der Knoten, dem sie betrachtet, ein Blattknoten ist. Wenn der Knoten als ein Blattknoten bestimmt wird 602, wird die Objektmatrix mit erzeugten Objekten initialisiert 604.
Sobald die Objektmatrix mit durch Aufzählung erzeugten Objekten initialisiert ist 604, iteriert 606-610 die Abbildungsvorrichtung 220 über alle Objekte in der Matrix. Für jedes solche bestehende Objekt werden alle Objekte, die aus den bestehenden Objekt "hergeleitet" werden können, zur Objektmatrix hinzugefügt 610. "Herleiten" ist die einzige andere Möglichkeit, wie Instanzobjekterzeugt werden können, wie oben beschrieben worden ist. Sobald bestimmt worden ist 606, dass es keine weiteren Objekte in der Matrix gibt, wird die Objektmatrix zurückgegeben 612.
Mit Bezug zurück auf die Bestimmung 602, ob der verarbeitete Knoten ein Blattknoten ist, wird dann, wenn der Knoten kein Blattknoten ist, die Objektmatrix leer initialisiert 614. Die Abbildungsvorrichtung 220 bestimmt 616 anschließend, ob alle Nachfolger des Knotens verarbeitet worden sind. Wenn nicht alle Knoten des Nachfolgers verarbeitet worden sind, wird der nächste Nachfolgeknoten ausgewählt 618 und verarbeitet 620. Die Abbildungen des Nachfolgeknotens werden in die Objektmatrix kopiert 622, wobei der Stamm jedes kopierten Objekts auf den Nachfolgeknoten gesetzt wird 624.
Wenn alle Nachkommen des Knotens verarbeitet worden sind, dann wird das Anbringen der Attribute an den Objekten durchgeführt 626-648. Jedes Objekt der Matrix wird der Reihe nach als Objekt ausgewählt, an das Attribute angefügt werden. Dieses Objekt wird als obj bezeichnet und ist mit der variablen i indiziert. Jedes Objekt der Matrix wird der Reihe nach unter Verwendung des Index j, in 630 auf Null initialisiert, ausgewählt. Das mit j indizierte Objekt wird untersucht 640, und wird fortan als obj1 bezeichnet. Das Ziel der Schritte 640-648 ist, zu bestimmen, ob obj1 als ein Attribut von obj angefügt werden kann, und das Anbringen durchzuführen, falls es möglich ist. Zuerst wird obj untersucht 642, um zu sehen, ob es als Attribut ein Objekt aufweist, dessen Name der Name von obj1 ist. Wenn dies zutrifft, dann wird der zweite Test durchgeführt 644, ob der Hantierer obj1 den Hantierer von obj modifiziert. Trifft dies zu, dann wird obj1 als Attribut von obj angehängt 646. Anschließend, oder wenn einer der Tests 642, 644 fehlschlägt, wird das nächste Element in der Matrix als obj1 ausgewählt 648.
Sobald die Attribute an obj angefügt worden sind, ist der letzte Schritt die Neuzuordnung des Hantierers von obj, Schritte 634-636. Der Hantierer von obj wird auf obj selbst gesetzt, wenn obj hergeleitet worden ist; falls nicht, wird der Hantierer von obj unverändert gelassen.
Beschneiden von Instanzenbäumen
Sobald in einer Ausführungsform die Instanzenbäume erzeugt worden sind 430, wird von der Abbildungsvorrichtung 220 ein Beschneiden 440 durchgeführt, um ungültige/unvollständige Instanzenbäume zu verwerfen. In einer Anordnung wird für jede Abbildung eine Liste der in die Instanz abgebildeten Token aufgezeichnet; ein Instanzenbaum für den Satz, der nicht alle Verben und Nomen abbildet, wird verworfen.
Ein Algorithmus, der für das Beschneiden in einer Anordnung der vorliegenden Erfindung verwendet wird, ist im Flussdiagramm in 7 dargestellt. Das Beschneiden beginnt 701 beim Stamm eines Instanzenbaumes. Eine Matrix wird als Matrix von Objekten (d. h. Komponenten des Instanzenbaumes), die dem Stamm des Syntaxanalyse-DAG zugeordnet sind, zugewiesen 702. Die Inhaltsmaschine bestimmt 704, ob irgendwelche weitere Objekte in der Matrix vorhanden sind. Solange weitere Objekte in der Matrix verbleiben, wird obj den nächsten Objekt in der Matrix zugewiesen 706. Die Inhaltsmaschine bestimmt 708 anschließend, ob obj alle Nomen und Verben im Satz abdeckt. Falls nicht, wird das Objekt aus der Matrix gelöscht 710. Wenn obj alle Nomen und Verben im Satz abdeckt, bestimmt 712 die Inhaltsmaschine, ob die Attribute MIN und MAX des Objekts erfüllt sind. Wenn sie nicht erfüllt sind, wird das Objekt aus der Matrix gelöscht 710. Wenn diese Attribute erfüllt sind, kehrt die Inhaltsmaschine zurück, um zu bestimmen 704, ob irgendwelche weiteren Objekte in der Matrix zurückgeblieben sind. Wenn solche Bestimmungen für alle Objekte in der Matrix durchgeführt worden sind, wird die Matrix zurückgegeben 714. Somit werden nur diejenigen Instanzenbäume behalten, die alle Verben und Nomen des gegebenen Satzes berücksichtigen und die die Attribute MIN und MAX erfüllen.
In einer weiteren Anordnung kann ein anderer Algorithmus verwendet werden, um Instanzenbäume zu verwerfen.
Auswählen der besten Abbildung
Schließlich wird der Instanzenbaum, der die beste Abbildung innerhalb der spezifizierten Domäne reflektiert, ausgewählt 450. 8 zeigt, wie die beste Abbildung in einer Ausführungsform der vorliegenden Erfindung ausgewählt wird 450. Fachleute werden erkennen, dass die "beste" Abbildung auf mehrere verschiedene Arten ausgewählt werden kann 450.
In der in 8 gezeigten Ausführungsform wird eine Kostenfunktion verwendet, um den Abbildungen eines Satzes eine partielle Ordnung aufzuprägen. Die Abbildungen des Satzes, die unter dieser partiellen Ordnung maximal sind, werden als die besten Abbildungen des Satzes ausgewählt und als Ergebnisse) der Abbildungsprozedur zurückgegeben.
Die Kostenfunktion in 8 vergleicht zwei Abbildungen (Abbildung A und Abbildung B) und gibt die zurück, die die überlegene Abbildung ist. Sie umfasst eine Menge von acht Vergleichen 810-880, die der Reihe nach durchgeführt werden. Der k-te Vergleich in der Sequenz wird nur verwendet, wenn die vorangehenden k-1 Vergleiche unentschieden ausgegangen sind; somit ist dies eine Hierarchie von Unentschieden-Brechern. Diese sind der Reihe nach:

– 810: wenn die Anzahl der von den zwei Abbildungen abgedeckten Token nicht identisch ist, ist die überlegene Abbildung die Abbildung, die die meisten Token abdeckt. Der Grund hierfür ist einfach: eine bessere Abbildung deckt mehr Token ab.
– 820: wenn #1 keine bessere Abbildung anzeigt, wird die Abbildung ausgewählt, dessen oberste Ausdruck (Abbildungen, die durch die Wörter "and" oder "or" oder das Interpunktionssymbol "," verknüpft sind) am weitesten vom Stamm der Abbildung entfernt ist. Der Grund hierfür ist, dass eine Konjunktion zwei Phrasen beliebiger Größe verknüpfen kann. Es sei z. B. die Phrase "red feather and gold sheath pen" betrachtet. Diese Phrase ist mehrdeutig. Sie kann sich entweder auf zwei Objekte beziehen (eine rote Feder und einen goldenen Hülsenstift) oder auf ein einzelnes Objekt (einen Stift mit einer roten Feder und mit einer goldenen Hülse). Die zwei Abbildungen würden unterschiedlich sein – die erste Zwei-Objekt-Abbildung hat ihren Ausdruck am Stamm; die zweite, eine Ebene darunter, verknüpft Attribute eines einzelnen Objekts. Diese Regel löst bevorzugt bindende Phrasen auf der niedrigeren der möglichen Ebenen auf, d. h. die Verbindung der kleineren möglichen Einheiten. In diesem Beispiel wird die zweite Abbildung (Stift mit einer roten Feder und einer goldenen Hülse) gegenüber der ersten bevorzugt. Wenn eine Abbildung keine Ausdrücke aufweist, wird der Abstand eines Ausdrucks vom Stamm als unbegrenzt angenommen.
– 830: wenn die Abbildungen unter den Kriterien #1 und #2 gleich sind, wird die Abbildung mit dem geringsten Abstand zwischen den Token ausgewählt. In einem Textfragment mit n Token werden den Token Indizes zugewiesen. Das am weitesten links befindliche Token wird mit dem Index 0 bezeichnet, während das Token unmittelbar rechts des Tokens mit dem Index i mit dem Index i+1 bezeichnet wird. Diese Regel wählt die Abbildung der kleinsten Differenz im Index zwischen dem am weitesten links und dem am weitesten rechts befindlichen Token, die von der Abbildung abgedeckt werden, aus. Somit würde z. B. bei Vorgabe der Phrase "red felt pen tip" mit den Indizes red=0, felt=1, pen=2, tip=3 und der Abbildung A, die "red felt tip" abdeckt, und der Abbildung B, die "felt pen tip" abdeckt, die Abbildung B gewählt, da sie den geringsten Abstand zwischen ihren abgedeckten Token aufweist (3 – 1 = 2, im Vergleich zu 3 – 0 = 3). Der Grund hierfür ist, dass kompakte Abbildungen gegenüber getrennten Abbildungen bevorzugt werden.
– 840: wenn die Abbildungen unter den Kriterien #1-#3 gleich sind, wird die Abbildung mit den wenigeren Objekten, die durch Aufzählungen erzeugt werden, ausgewählt.
– 850: wenn die Abbildungen unter den Kriterien #1-#4 gleich sind, wird die Abbildung mit den wenigeren ungenutzten Primitiven ausgewählt – diese sind Wörter und Phrasen im Textfragment, die von der relevanten Abbildung nicht verwendet werden.
– 860: wenn die Abbildungen unter den Kriterien #1-#5 gleich sind, wird die Abbildung mit den wenigeren Objekten, die durch Datenbanknachschlag erzeugt worden sind, ausgewählt.
– 870: wenn die Abbildungen unter den Kriterien #1-#6 gleich sind, wird die Abbildung mit den wenigeren NML-Objekten ausgewählt.
– 880: wenn die Abbildungen unter den Kriterien #1-#7 gleich sind, wird die Abbildung mit den wenigeren hergeleiteten Objekten ausgewählt.

Wenn die Abbildungen unter allen acht Kriterien gleich sind, dann sind diese unter der partiellen Ordnung unvergleichbar (und somit gleich), und werden als gleichermaßen gültige Abbildungen betrachtet.
Die verschiedenen Kriterien der in 8 dargestellten Kostenfunktion brechen in drei verschiedene Gruppen auf. Die erste Gruppe, die Regeln 1-2 und 5 umfassend, beruht auf der Struktur des Satzes. Abbildungen, die die meisten Token verwenden, die in einer kompakten Gruppe enthalten sind, werden gegenüber Abbildungen bevorzugt, die weniger Token verwenden, die über das Textsegment weiter verteilt sind. Regel 3, wie oben erwähnt ist, löst Mehrdeutigkeiten bezüglich der Ausdrucksphrasen mit Bevorzugung der festest möglichen Bindung auf. Die Regeln 4 und 6-8 umfassen eine weitere Hauptgruppe und wirken zusammen, um Abbildungen zu bevorzugen, die weniger Objekte aufweisen. Gemeinsam können sie als Abbildungen mit einer geringeren Struktur gegenüber Abbildungen mit mehr erzeugter Struktur bevorzugend gelesen werden.
3. DML-Erzeugung
Wie oben diskutiert worden ist, ist die von der Abbildungsvorrichtung 220 erzeugte Datenstruktur eine Instanz der im NML-Dokument beschriebene Domäne. In einer Ausführungsform wird diese Datenstruktur anschließend verwendet, um DML zu erzeugen. Die DML-Erzeugung wird in einer Tiefe-zuerst-Weise gegenüber dem NML-Instanzenbaum bewerkstelligt. 9 ist ein Flussdiagramm, dass die Erzeugung 460 von DML zeigt.
Die Ausgabe der Abbildungsvorrichtung 220, wie oben beschrieben, ist ein Baum von NML-Objektinstanzen mit Aufzählungen in den Blättern (in Wirklichkeit ist sie im allgemeinen eine Sammlung solcher Bäume, da einige Abbildungen für die beste Abbildung "unentschieden" sein können). Jeder Baum wird zuerst beschnitten durch Entfernen von Knoten, die keine Gleichgestellten aufweisen. Solche Knoten können keine DML_ELEMENTS, DML_ATTRIBUTES oder DML_VALUES erzeugen. In einer Anordnung wird bei jedem Knoten im resultierenden beschnittenen NML-Instanzenbaum der folgende Algorithmus ausgeführt:
Der Prozess generateDML wird bei jedem Stammknoten jedes Baumes der Reihe nach aufgerufen. Sobald er bei einem Stammknoten abgeschlossen ist, werden irgendwelche offenen DML-Elemente geschlossen und ausgegeben.
4. DML, die zum Belegen von DBMSs, Beschaffen von Daten und Aufrufen von Programmen verwendet wird
Sobald die DML erzeugt worden ist, kann sie in einer Vielfalt verschiedener Arten verwendet werden, einschließlich dem Belegen eines Datenbanksystems, dem Beschaffen von Daten aus einem Datenbanksystem oder einem anderen Datenspeicher, oder dem Aufrufen eines Programms unter Verwendung der Parameter, die im DML-Dokument als Parameter zum Aufrufen des Programms gespeichert sind. Diese verschiedenen Anwendungen sind in den 10-12 gezeigt. In 10 wird eine Beschreibung eines "black vinyl chair" 1030 in eine strukturierte Beschreibung 1060 konvertiert. Die Be schreibung wird in die Inhaltsmaschine 1020 eingegeben, die ein DML-Dokument 1040 erzeugt. Ein DML-Verarbeitungssystem 1050 erzeugt anschließend die strukturierte Beschreibung 1060. Für Fachleute ist klar, dass die tabellarische Form 1060 für das Einsetzen in irgendein Datenbankmanagementsystem geeignet ist, einschließlich, jedoch nicht hierauf beschränkt, eines relationalen Datenbankmanagementsystems.
In 11 wird eine Natursprachenanfrage für einen "black vinyl chair" 1130 in eine strukturierte Anfrage 1160 konvertiert. Die Beschreibung wird in die Inhaltsmaschine 1120 eingegeben, die ein DML-Dokument 1140 erzeugt. Ein DML-Verarbeitungssystem 1150 erzeugt anschließend die strukturierte Anfrage 1160. Die strukturierte Anfrage ist hier in der Datenbankabfragesprache SQL gezeigt. Für Fachleute ist offensichtlich, dass das DML-Verarbeitungssystem 1150 eine Abfrage in irgendeiner einer Anzahl von Datenbanksprachen erzeugen kann und nicht auf SQL beschränkt ist.
Es ist zu beachten, dass hier das NML-Modell 1110 und das NML-Modell 1110 identisch sind: das gleiche Modell wird sowohl für die Inhaltserzeugung als auch die Inhaltsabfrage verwendet. Dies zeigt die Flexibilität und die Robustheit der vorliegenden Erfindung.
In 12 wird eine Natursprachenanfrage für ein Aktiendiagramm 1230 in einen Programmaufruf 1260 konvertiert. Die Beschreibung wird in die Inhaltsmaschine 1220 eingegeben, die ein DML-Dokument 1240 erzeugt. Ein DML-Verarbeitungssystem 1250 erzeugt anschließend den Programmaufruf 1260. Der Programmaufruf ist hier als eine HTTP-cgi-Anfrage gezeigt. Für Fachleute ist klar, dass das DML-Verarbeitungssystem 1250 einen Programmaufruf in irgendeiner Skript-, Web- oder API-Umgebung erzeugen kann und nicht auf HTTP-Anfragen beschränkt ist.
Die Konstruktion eines DML-Verarbeitungssystems, wie z. B. 1050, 1150 oder 1250, ist angebots- und anwendungsspezifisch. Die Hauptaufgabe ist das Durchlaufen des strukturierten DML-Dokuments 1040, 1140 oder 1240 und das Konvertieren dieser Informationen in die von der Anwendung oder dem Angebot benötigte Form. Das Mittel zum Konstruieren eines solchen Systems ist für Fachleute offensichtlich.
Wie für Fachleute klar ist, kann die Erfindung in anderen spezifischen Formen angeordnet werden. Zum Beispiel ist zu beachten, dass die verschiedenen Algorithmen erläuternd sind und Variationen leicht implementiert werden können. Zum Beispiel kann eine andere Kostenfunktion verwendet werden, um die beste Abbildung zu berechnen. In ähnlicher Weise ist die besondere Großschreibung oder Bezeichnung der Module, Protokolle, Merkmale, Attribute, Datenstrukturen oder irgendeines anderen Aspekts nicht zwingend oder bedeutend, wobei die Einrichtungen, die Ausführungsformen der Erfindung oder deren Merkmale implementieren, verschiedene Namen oder Formate aufweisen könne. Ferner kann die Funktionalität, die als durch ein einziges Modul bereitgestellt beschrieben ist, stattdessen von mehreren verschiedenen Modulen bereitgestellt werden; in ähnlicher Weise kann die von mehreren Modulen bereitgestellte Funktionalität stattdessen von weniger Modulen oder von einem einzigen Modul bereitgestellt werden. Während ferner eine software-basierte Ausführungsform beschrieben worden ist, kann die gleiche Funktionalität insgesamt oder teilweise in verschiedenen Hardwareelementen ausgeführt werden, wie z. B. in anwendungsspezifischen integrierten Schaltungen (ASICs) oder dergleichen. Die bestimmten Beispiele von NML und DML sind erläuternd und nicht einschränkend. Tatsächlich ist klar, dass die NML und DML nicht auf die Beispieldomänen und Anwendungen, die diskutiert worden sind, beschränkt sind, sondern in zahlreichen anderen Domänen und Anordnungen angewendet werden können. Anhang A BEISPIEL EINER KONTEXTFREIEN GRAMMATIK FÜR ENGLISCH
Anhang B
EIN BEISPIEL UNTER VERWENDUNG VON NML
Ein Beispiel für die Inhaltsmaschine in Aktion wird gezeigt, die die Beschreibung "4 × 6 Recycled Spiral Bound Index Cards; White; 50/Pack" verarbeitet. Eine herausgegebene Version von NML-Dateien erscheint hier: die Vollversion erscheint in dem auf der CD enthaltenen Anhang.
Sobald die Maschine konfiguriert worden ist, ist sie bereit, Text zu verarbeiten, und den Satz "4 × 6 Recycled Spiral Bound Index Cards; White; 50/Pack". Das vollständige Logbuch des Durchlaufs ist in dem auf der CD enthaltenen Anhang beigefügt, der hiermit durch Literaturhinweis eingefügt ist. Die Ausgabe der Abbildungsvorrichtung ist eine Datenstruktur, die zum DML-Generator weitergeleitet wird. Die Ausgabe der Abbildungsvorrichtung wird gewöhnlich nicht in Textform erzeugt. Sie kann jedoch als ein Instanz-NML-(iNML)-Dokument dargestellt werden. Das iNML-Dokument entspre chend diesem Satz wird hier wiedergegeben:
Wie aus dem Beispiel deutlich wird, beschreibt das iNML-Dokument einen Baum, von dem jeder Knoten eine Instanz eines NML-Objekts oder eine in der obigen NML-Datei definierte Aufzählung ist. Der Baum ist ziemlich wortreich; der DML-Generator bewirkt eine Reduktion des Ergebnisses auf die hier angegebene kürzere DML-Datei.

Anhang C

Ausgabe

Beispiel

Grammatik

Claims

Rechnergestütztes Verfahren, umfassend: übersetzten einer Klartextbeschreibung in Tokens; Erzeugen von Syntaxbäumen aus der in Tokens übersetzten Klartextbeschreibung basierend auf Grammatik aus einem Grammatikspeicherbereich; Erzeugen eines Instanzenbaumes aus jedem Syntaxbaum basierend auf einer anwendungsdomänenspezifischen natürlichen Auszeichnungssprache, die von einem Modul für ein natürliches Auszeichnungssprachenmodell bereitgestellt wird; Verwerfen jedes ungültigen oder unvollständigen Instanzenbaumes; Auswählen eines Instanzenbaumes aus den übriggebliebenen Instanzenbäumen, der eine beste Abbildung basierend auf einer Kostenfunktion repräsentiert, umfassend: Auswählen einer Abbildung, die die meisten Tokens verwendet; Auswählen einer Abbildung mit dem geringsten Abstand zwischen den Tokens; und Auswählen einer Abbildung, die weniger Objekte aufweist; Verarbeiten der besten Abbildung mit einem Domänen-Auszeichnungssprache-Generator, um eine strukturierte Datendarstellung zu erzeugen.
Rechnergestütztes Verfahren nach Anspruch 1, ferner umfassend: Verwenden der strukturierten Datendarstellung, um eine Datenbank zu bestücken.
Rechnergestütztes Verfahren nach Anspruch 1, ferner umfassend: Verwenden der strukturierten Datendarstellung, um eine Datenbank abzufragen.
Rechnergestütztes Verfahren nach Anspruch 1, ferner umfassend: Verwenden der strukturierten Datendarstellung, um eine Anwendung aufzurufen.
Verfahren nach Anspruch 1, bei dem alle möglichen Syntaxbäume aus dem in Tokens übersetzten Klartext erzeugt werden.
Rechnergestütztes Verfahren nach Anspruch 1, ferner umfassend: Darstellen aller Syntaxbäume in einem einzigen gerichteten, azyklischen Graphen.
Rechnergestütztes Verfahren nach Anspruch 1, bei dem die Grammatik aus dem Grammatikspeicherbereich kontextfrei ist.
Rechnerimplementiertes System, umfassend: einen Syntaxanalysator (210), der dafür ausgelegt ist, alle Syntaxbäume aus einer in Tokens übersetzten Klartextbeschreibung basierend auf Grammatik aus einem Grammatikspeicherbereich (170) zu erzeugen; eine Abbildungseinrichtung (220), die dafür ausgelegt ist, einen Instanzenbaum aus jedem Syntaxbaum basierend auf einer anwendungsdomänenspezifischen natürlichen Auszeichnungssprache, die von einem Modul (140) für ein natürliches Auszeichnungssprachenmodell bereitgestellt wird, zu erzeugen, die Instanzenbäume zu beschneiden, und einen Instanzenbaum aus den übriggebliebenen Instanzenbäumen auszuwählen, der eine beste Abbildung basierend auf einer Kostenfunktion repräsentiert, wobei die Abbildungseinrichtung ferner dafür ausgelegt ist, eine Abbildung auszuwählen, die die meisten Tokens verwendet; eine Abbildung mit dem geringsten Abstand zwischen den Tokens auszuwählen; und eine Abbildung auszuwählen, die weniger Objekte aufweist; einen Domänen-Auszeichnungssprache-Generator (230), der dafür ausgelegt ist, die beste Abbildung zu verarbeiten, um ein Domänen-Auszeichnungssprache-Dokument zu erzeugen.
Rechnerimplementiertes System nach Anspruch 8, ferner umfassend: ein Domänen-Auszeichnungssprache-Verarbeitungssystem (1050), das dafür ausgelegt ist, das Domänen-Auszeichnungssprache-Dokument zu empfangen und eine strukturierte Datendarstellung zu erzeugen.
Rechnerimplementiertes System nach Anspruch 8, ferner umfassend: ein Online-Wörterbuch (120), das Wörter in einer natürlichen Sprache enthält; und ein Domänen-Wörterbuch (130), das Ausdrücke enthält, die für eine Domäne spezifisch sind.