DE69809263T2

DE69809263T2 - Methoden ud system zur wahl von datensets

Info

Publication number: DE69809263T2
Application number: DE69809263T
Authority: DE
Inventors: John Davies; Richard Weeks
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-09-04
Filing date: 1998-08-28
Publication date: 2003-07-10
Anticipated expiration: 2018-08-29
Also published as: AU742831B2; DE69809263D1; JP2001515245A; CA2302264A1; JP4274689B2; AU8876298A; EP1010105A1; CA2302264C; NZ503279A; EP1010105B1; WO1999012108A1; US6353827B1; CN1269897A

Description

Die vorliegende Erfindung bezieht sich auf Verfahren und/oder Systeme für das Auswählen von Datenmengen, die besondere Anwendung beim Auswählen von Dokumenten findet, z. B. aus einer Informationsbank, wie z. B. derjenigen, die unter Verwendung des Internets zugänglich ist.
Das Internet World Wide Web ist ein bekanntes Kommunikationssystem, das auf mehreren getrennten Kommunikationsnetzen basiert, die miteinander verbunden sind. Es schafft eine reiche Quelle an Informationen von vielen verschiedenen Anbietern, sein großer Reichtum schafft jedoch ein Problem beim Zugreifen auf spezifische Informationen, weil es keine zentrale Überwachung und Steuerung gibt.
Im Jahre 1982 verdoppelte sich das Volumen der wissenschaftlichen, firmeninternen und technischen Informationen alle 5 Jahre. Im Jahre 1988 verdoppelte es sich alle 2,2 Jahre und im Jahre 1992 alle 1,6 Jahre. Mit der Ausdehnung des Internets und anderer Netze wird die Rate der Zunahme fortgesetzt zunehmen. Der Schlüssel zur Entwicklungsfähigkeit derartiger Netze wird die Fähigkeit sein, die Informationen zu managen und die Benutzer mit den Informationen, die sie wünschen, zu versehen, wann sie sie wünschen.
Die vorliegende Erfindung betrifft jedoch nicht die Schaffung eines weiteren Werkzeuges zum Durchsuchen von Systemen, wie z. B. dem World Wide Web (W3): es gibt bereits viele von diesen. Sie werden zu häufig bei jeder zunehmenden Überdeckung des Webs und jeder Weiterentwicklung der Suchmaschinen hinzugefügt.
Statt dessen beziehen sich die Ausführungsformen der vorliegenden Erfindung auf das folgende Problem: wenn nützliche Informationen im W3 gefunden worden sind, wie können sie für die leichte Wiedergewinnung gespeichert werden und wie können andere Benutzer, die wahrscheinlich an den Informationen interessiert sind, identifiziert und informiert werden?
Spezifischer schafft WO-A-96/23265 des Anmelders einen Informationswiedergewinnungsagenten, der als JASPER-Agent bekannt ist, der für das Identifizieren und Wiedergewinnen von Informationen aus verteilten Informationssystemen, wie z. B. dem W3, verwendet wird.
Er verwendet Techniken, wie z. B. die hierarchische anhäufende Gruppierung, um Beziehungen zwischen verschiedenen Informationsquellen zu definieren, die im W3 vorhanden sind. Innerhalb dieser definierten Beziehungen können sich jedoch Ungenauigkeiten ergeben. Dies kann dazu führen, daß Dokumente zusammen gruppiert werden, die ein unähnliches Thema besitzen. Die Art der Gruppierungstechnik ist, daß ein ungenau gruppiertes Dokument dann in mehrere vervielfacht werden kann.
Der aus WO-A-88/04454 bekannte Stand der Technik schafft eine Einrichtung, um nach Text zu suchen, dessen Schlüsselwörter zu den Wörtern in einer Suchanforderung eines Benutzers ähnlich sind. Dieser Stand der Technik macht von der tatsächlichen Struktur eines Wortes selbst Gebrauch, in dem er die Gruppen der Buchstaben analysiert, wobei mit Buchstabenpaaren begonnen wird und zu größeren Gruppen weitergegangen wird. In dem Fall des Suchens nach ähnlichen Sätzen anstatt nach ähnlichen Wörtern ist die Technik völlig gleich, mit Ausnahme, daß Wortgruppen anstatt Buchstabengruppen verglichen werden. Im Stand der Technik können die Schlüsselwörter durch den Benutzer definiert werden, der eine Liste hinzuzufügender Schlüsselwörter, zu beseitigender Schlüsselwörter und Abtastwörter, die Schlüsselwörter werden, falls sie automatisch innerhalb der Texte selbst gefunden werden, liefert. Alle in einer Schlüsselwortdatei vorhandenen Schlüsselwörter mit der Ausnahme einer bezeichneten Liste von Wörtern können außerdem als Abtastwörter verwendet werden.
Der aus US-A-5.297.039 bekannte Stand der Technik beurteilt die semantische Ähnlichkeit von Mengen von Schlüsselwörtern und verwandten Wörtern, wie z. B. Synonymen/nahen Synonymen/Thesauri, mittels syntaktischer und semantischer Analyse. Die Schlüsselwörter werden mittels morphologischer Analyse aus wenigstens zwei gegenüberzustellenden Texten extrahiert.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Bestimmen eines Ähnlichkeitsmaßes zwischen wenigstens einer ersten und einer zweiten Datenmenge geschaffen, wobei die Vorrichtung umfaßt:
i) Eingangsmittel, die wenigstens die ersten und zweiten Datenmengen empfangen;
ii) Verarbeitungsmittel, die eine Menge von Schlüsselwörtern wenigstens in der ersten der Datenmenge identifizieren, wobei die Verarbeitungsmittel Zugriff auf wenigstens eine Regelmenge haben und die Menge von Schlüsselwörtern unter Verwendung der wenigstens einen Regelmenge identifizieren, wobei die Verarbeitungsmittel ferner das Ähnlichkeitsmaß bestimmen; und
iii) Ausgabemittel, die das Ähnlichkeitsmaß ausgeben, wobei die Regelmenge eine Regel bezüglich des relativen Ortes der Datenelemente in einer entsprechenden Datenmenge enthält und wobei die Verarbeitungsmittel das Ähnlichkeitsmaß dadurch bestimmen, daß sie wenigstens eine Menge von Schlüsselwörtern, die durch die Verarbeitungsmittel in der ersten Datenmenge identifiziert wird, mit einer Menge von Schlüsselwörtern vergleichen, die in der zweiten Datenmenge enthalten oder aus dieser abgeleitet ist.
Die Ausführungsformen der vorliegenden Erfindung erlauben, daß zwei oder mehr Schlüsselwörter innerhalb einer Datenmenge miteinander in Verbindung gebracht werden, z. B. die Schlüsselwörter, die eine Wortgruppe bilden, mit dem Ergebnis, daß die Genauigkeit beim Vergleich der Ähnlichkeit der Datenmengen verbessert werden kann.
Vorzugsweise umfaßt die Vorrichtung ferner Informationswiedergewinnungsmittel und einen Datenspeicher, wobei die erste Datenmenge Daten umfaßt, die durch die Informationswiedergewinnungsmittel aus einer Informationsbank wiedergewonnen werden, und die zweite Datenmenge eine Menge von im Datenspeicher gespeicherten Schlüsselwörtern umfaßt. Die Schlüsselwortmenge kann z. B. durch einen Benutzer bereitgestellt worden sein oder in einem Benutzerprofil gespeichert sein.
Die Regelmenge kann Mittel bereitstellen, um benachbarte Elemente in der Datenmenge zu identifizieren, die zusammen als ein einziges Schlüsselwort behandelt werden können. Dies erfordert nicht nur Ortsinformationen, sondern außerdem z. B. eine grammatikalische Prüfung an benachbarten Elementen, wie z. B. eines oder mehrere des folgenden:
1) ein Substantiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;
2) ein Verb, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;
3) ein Adjektiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen; und
4) eine vorgegebene Menge von Zeichen, gefolgt von einem Substantiv oder einem Verb oder einer weiteren vorgegebenen Menge von Zeichen.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Bestimmen eines Ähnlichkeitsgrades zwischen ersten und zweiten Datenmengen geschaffen, wobei das Verfahren die folgenden Schritte umfaßt:
i) Anbringen von Identifizierungsmarken an ausgewählten Datenelementen wenigstens in der ersten der Datenmengen in Übereinstimmung mit wenigstens einer ersten Regel;
ii) Identifizieren einer Menge potentieller Schlüsselwörter durch Bezugnahme entweder auf das Vorhandensein oder das Fehlen der Identifizierungsmarken;
iii) Auswählen von Mengen aus zwei oder mehr benachbarten potentiellen Schlüsselwörtern durch Anwenden wenigstens einer zweiten Regel;
iv) Klassifizieren jeder ausgewählten Menge potentieller Schlüsselwörter als ein einziges Schlüsselwort;
v) Erzeugen einer Menge von Schlüsselwörtern, die jede als ein einziges Schlüsselwort klassifizierte Menge potentieller Schlüsselwörter zusammen mit den verbleibenden Schlüsselwörtern aus der identifizierten Menge potentieller Schlüsselwörter enthält; und
vi) Vergleichen der erzeugten Menge von Schlüsselwörtern mit einer Menge von Schlüsselwörtern, die in der zweiten Datenmenge entweder enthalten oder aus dieser abgeleitet ist.
Diese erste Regel kann sich z. B. vorteilhaft wenigstens teilweise auf die grammatikalische Kategorie der Datenelemente beziehen.
Diese wenigstens zweite Regel kann eine oder mehrere Regeln aus der folgenden Menge umfassen:
1) ein Substantiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;
2) ein Verb, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;
3) ein Adjektiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen; und
4) eine vorgegebene Menge von Zeichen, gefolgt von einem Substantiv oder einem Verb oder einer weiteren vorgegebenen Menge von Zeichen.
Das Identifizieren der zugeordneten Schlüsselwörter in Dokumenten und anderen Formen der Informationen, die sich im W3 oder anderen Informationsbanken befinden, schafft im Vergleich mit den Systemen und Verfahren des Standes der Technik Verbesserungen in der Genauigkeit der zwischen diesen Dokumenten und anderen Formen der Informationen definierten Beziehungen.
Ein Verfahren und/oder ein System zum Auswählen von Datenmengen wird nun lediglich beispielhaft unter Bezugnahme auf die beigefügten Figuren beschrieben, worin:
Fig. 1 ein Informationszugriffsystem zeigt, das ein Jasper-Agentensystem enthält;
Fig. 2 den durch das Zugriffssystem angebotenen Speicherprozeß in einem schematischen Format zeigt;
Fig. 3 die Struktur eines intelligenten Seitenspeichers für die Verwendung im Speicherprozeß nach Fig. 1 zeigt;
Fig. 4 die durch das Zugriffssystem angebotenen Wiedergewinnungsprozesse in einem schematischen Format zeigt;
Fig. 5 einen Ablaufplan für den Speicherungsprozeß nach Fig. 2 zeigt;
Fig. 6, 7 und 8 Ablaufpläne für drei Informationswiedergewinnungsprozesse, die ein Jasper-Zugriffssystem verwenden, zeigen;
Fig. 9 ein unter Verwendung einer Gruppierungstechnik erzeugtes Schlüsselwort-Netz für die Verwendung bei der Erweiterung und/oder Anwendung der Benutzerprofile in einem Jasper-System zeigt; und
Fig. 10 einen Teil des Jasper-Agenten nach Fig. 1 zeigt, der verwendet wird, um in Verbindung stehende Schlüsselwörter zu identifiziere.
Die Ausführungsformen der vorliegenden Erfindung schaffen Verbesserungen an Informationszugriffs- und Informationswiedergewinnungssystemen, wie z. B. dem im folgenden beschriebenen JASPER- Agenten. Eine Beschreibung der Ausführungsformen der vorliegenden Erfindung ist anschließend an die Beschreibung dieses JASPER- Agenten bereitgestellt.
Die vorliegende Erfindung ist jedoch nicht auf JASPER-Agenten eingeschränkt. Sie besitzt weitere Anwendung in anderen Bereichen, wie z. B. Informationssystemen, die Benutzerprofiltechniken verwenden, und Informationssystemen, die die Techniken der Schlüsselwort-Wiedergewinnung und Schlüsselwort-Suche verwenden.

Ein Informationszugriffssystem

Die Software-Agenten schaffen einen bekannten Zugang, um mit verteilten anstatt zentralisierten computergestützten Systemen umzugehen. Jeder Agent umfaßt im allgemeinen die Funktionalität, um eine Aufgabe oder Aufgaben im Interesse einer Entität (Mensch oder maschinengestützt) in einer autonomen Weise auszuführen, zusammen mit lokalen Daten oder Mitteln, um auf Daten zuzugreifen, um die Aufgabe oder die Aufgaben zu unterstützen. In der vorliegenden Beschreibung werden die Agenten für die Verwendung beim Speichern oder Wiedergewinnen der Informationen in den Ausführungsformen der vorliegenden Erfindung für die Einfachheit als "Jasper"-Agenten bezeichnet, dies stammt von dem Akronym "Joint Access to Stored Pages with Easy Retrieval".
Unter der Voraussetzung der gewaltigen Menge von Informationen, die im W3 verfügbar ist, ist es bevorzugt, das Kopieren der Informationen von ihrem ursprünglichen Ort auf einen lokalen Server zu vermeiden. Es könnte in der Tat argumentiert werden, daß sich ein derartiger Zugang im Gegensatz zum ganzen Ethos des Webs befindet. Deshalb speichern die Jasper-Agenten nur die relevanten "Metainformationen", anstatt die Informationen zu kopieren. Wie im folgenden zu sehen ist, können diese Metainformationen als eine Ebene oberhalb der Informationen selbst betrachtet werden, die sich über ihnen befindet, anstatt tatsächliche Informationen zu sein. Sie können z. B. Schlüsselwörter, eine Zusammenfassung, den Dokumententitel, den einheitlichen Fundstellenanzeiger (URL) und das Datum und den Zeitpunkt des Zugriffs enthalten. Diese Metainformationen werden dann verwendet, um einen Zeiger auf oder einen "Index in" die tatsächlichen Informationen zu schaffen, wenn eine Wiedergewinnungsanforderung ausgeführt wird.
Die meisten bekannten W3-Clients (z. B. MosaicTM und NetscapeTM) schaffen einige Mittel, um Informationen über die Seiten zur speichern, die für den Benutzer von Interesse sind. Typischerweise wird dies ausgeführt, indem dem Benutzer erlaubt wird, ein (möglicherweise hierarchisches) Menü der Namen zu erzeugen, die speziellen URLs zugeordnet sind. Während dieses Menümerkmal nützlich ist, wird es schnell unhandlich, wenn eine ziemlich große Anzahl von W3- Seiten beteiligt ist. Im Prinzip ist die geschaffene Darstellung nicht reich genug, um die Erfassung all dessen zu erlauben, das über die gespeicherten Informationen erforderlich sein könnte: der Benutzer kann nur eine Zeichenketten-Namensgebung der Seite bereitstellen. Ebenso wie die Tatsache, daß nützliche Metainformationen, wie z. B. das Datum des Zugriffs auf die Seite verloren werden, kann eine einzige Wortgruppe (der Name) nicht ausreichend sein, um eine Seite in allen Zusammenhängen genau zu indexieren.
Als ein einfaches Beispiel werden die Informationen über die Verwendung von wissensbasierten Systemen (KBS) bei der Informationswiedergewinnung von pharmakologischen Daten betrachtet: in den verschiedenen Zusammenhängen kann es entweder das KBS, die Informationswiedergewinnung oder die Pharmakologie sein, das von Interesse ist. Wenn nicht ein Name sorgfältig gewählt wird, um alle drei Aspekte zu erwähnen, werden die Informationen in einem oder mehreren ihrer nützlichen Zusammenhänge vermißt werden. Dieses Problem ist analog zum Problem des Findens von Dateien, die die gewünschten Informationen enthalten, in einem Unix- (oder anderen) Dateisystem, wie es in dem Artikel von Jones, W. P.; "On the applied use of human memory models: the memory extender personal filing system", veröffentlicht in Int. J. Man-Machine Studies, 25, 191-228, 1986, beschrieben ist. In den meisten Ablagesystemen gibt es jedoch wenigstens das Merkmal des Sortierens der Dateien nach dem Erzeugungsdatum.
Die in den Ausführungsformen des JASPER-Agenten übernommene Lösung für dieses Problem besteht darin, dem Benutzer zu erlauben, auf Informationen durch eine viel reichere Menge von Metainformationen zuzugreifen.
In Fig. 1 kann ein Informationszugriffssystem gemäß einer Ausführungsform der vorliegenden Erfindung in einer bekannten Form der Informationswiedergewinnungsarchitektur aufgebaut sein, wie z. B. einer mit dem Internet verbundenen Client-Server-Architektur.
Ausführlicher kann ein Kunde, wie z. B. ein internationales Unternehmen, mehrere Benutzer besitzen, die mit Personal-Computern oder Arbeitsplatzrechnern 405 ausgerüstet sind. Diese können über einen World-Wide-Web-Betrachter (WWW-Betrachter) 400 im Client- Zusammenhang des Kunden mit dem WWW-Datei-Server 410 des Kunden verbunden sein. Der Jasper-Agent 105, der effektiv eine Erweiterung des Betrachters 400 ist, kann tatsächlich im WWW- Datei-Server 410 resident sein.
Der WWW-Datei-Server 410 des Kunden ist in bekannter Weise mit dem Internet verbunden, z. B. über das eigene Netz 415 des Kunden und einen Router 420. Auf die Datei-Server 425 des Diensteanbieters kann dann über das Internet, abermals über Router, zugegriffen werden.
Im Datei-Server 410 des Kunden sind außerdem ein Textzusammenfassungswerkzeug 120 und zwei Datenspeicher, einer enthält die Benutzerprofile (der Profilspeicher 430) und der andere (der intelligente Seitenspeicher 100) enthält vor allem Metainformationen für eine Dokumentensammlung, resident oder durch den Datei-Server 410 des Kunden zugänglich.
In einem jasper-agenten-gestützten System kann der Agent 105 selbst als eine Erweiterung eines bekannten Betrachters, wie z. B. Netscape, aufgebaut sein. Der Agent 105 ist effektiv in den Betrachter 400 integriert, der durch Netscape oder Mosaic usw. bereitgestellt sein könnte, wobei er W3-Seiten aus dem Betrachter 400 extrahieren kann.
Wie oben beschrieben ist, stehen in der Client-Server-Architektur die Textzusammenfassungseinrichtung 120 und das Benutzerprofil beide im Datei-Server 410 des Kunden, in dem der Jasper-Agent resident ist. Der Jasper-Agent 105 könnte jedoch alternativ im Client-Zusammenhang des Kunden erscheinen.
Ein Jasper-Agent, der ein Software-Agent ist, kann im allgemeinen als eine Software-Entität beschrieben werden, die die Funktionalität zum Ausführen einer Aufgabe oder von Aufgaben im Interesse eines Benutzers zusammen mit lokalen Daten oder den Zugriff auf lokale Daten, um die Aufgabe oder die Aufgaben zu unterstützen, enthält. Die in einem Jasper-System relevanten Aufgaben, von denen eine oder mehrere durch einen Jasper-Agenten ausgeführt werden kann bzw. können, sind im folgenden beschrieben. Die lokalen Daten werden normalerweise die Daten aus dem intelligenten Seitenspeicher 100 und dem Profilspeicher 430 enthalten, wobei die durch einen Jasper-Agenten bereitzustellende Funktionalität im allgemeinen Mittel, um ein Textzusammenfassungswerkzeug anzuwenden und die Ergebnisse zu speichern, auf wenigstens ein Benutzerprofil zuzugreifen oder es zu lesen und zu aktualisieren, Mittel, um Schlüsselwortmengen mit anderen Schlüsselwortmengen oder Metainformationen zu vergleichen, und Mittel, um Alarmnachrichten für die Benutzer auszulösen, enthalten wird.
In den bevorzugten Ausführungsformen wird ein Jasper-Agent außerdem mit Mitteln versehen sein, um die Anwendereingaben für die Aufgabe des Auswählens einer zu vergleichenden Schlüsselwortmenge zu überwachen.
In weiteren bevorzugten Ausführungsformen ist ein Jasper-Agent mit Mitteln versehen, um einen Algorithmus in bezug auf erste und zweite Schlüsselwortmengen anzuwenden, um ein Ähnlichkeitsmaß zwischen diesen zu erzeugen. Entsprechend dem Ähnlichkeitsmaß kann entweder die erste oder die zweite Schlüsselwortmenge dann proaktiv durch den Jasper-Agenten aktualisiert werden, oder das Ergebnis des Vergleichs der ersten oder zweiten Schlüsselwortmenge mit einer dritten Schlüsselwortmenge oder mit Metainformationen kann modifiziert werden.
Die Ausführungsformen der vorliegenden Erfindung könnten entsprechend verschiedener Software-Systeme aufgebaut sein. Es könnte z. B. zweckmäßig sein, daß objektorientierte Techniken angewendet werden. In den im folgenden beschriebenen Ausführungsformen wird der Server jedoch Unix-gestützt sein und Con- TextTM, ein bekanntes Verarbeitungssystem für natürliche Sprache, das von der Orakel Corporation angeboten wird, und einen W3- Betrachter ausführen können. Das System könnte im allgemeinen in "C" implementiert sein, obwohl der Client potentiell irgendein Computer sein könnte, der einen W3-Betrachter unterstützen kann.
Im folgenden Abschnitt werden die Merkmale, die die Jasper-Agenten dem Benutzer beim Managen der Informationen bieten, erörtert. Diese können in zwei Kategorien gruppiert werden, die Speicherung und die Wiedergewinnung.

Die Speicherung

Die Fig. 2 und 5 zeigen die Handlungen, die unternommen werden, wenn ein Jasper-Agent 105 die Informationen in einem intelligenten Seitenspeicher (IPS) 100 speichert. Der Benutzer 110 findet zuerst eine W3-Seite, die von ausreichendem Interesse ist, um durch das Jasper-System in einem diesem Benutzer zugeordneten IPS 100 gespeichert zu werden (Schritt 501). Dann sendet der Benutzer 110 an den Jasper-Agenten 105, der im WWW-Datei-Server 410 des Benutzers resident ist, über eine Menüoption im ausgewählten W3- Client 115 (Mosaic und Netscape-Versionen sind gegenwärtig auf allen Plattformen verfügbar) des Benutzers eine 'Speicher'-Anforderung (Schritt 502). Der Jasper-Agent 105 lädt dann den Benutzer 110 ein, einen zugeordneten Kommentar zu liefern, der außerdem zu speichern ist (Schritt 503). Typischerweise könne dies der Grund sein, aus dem der Benutzer an der Seite interessiert ist, wobei er für andere Benutzer sehr nützlich sein kann, um zu entscheiden, welche von dem IPS 100 wiedergewonnenen Seiten zu besuchen sind. (Die gemeinsame Benutzung der Informationen ist im folgenden weiter erörtert.)
Der Jasper-Agent 105 extrahiert als nächstes abermals über den W3- Client 115 im W3 den Quelltext aus der fraglichen Seite (Schritt 504). Der Quelltext wird in einem "Hypertext"-Format bereitgestellt, wobei der Jasper-Agent 105 zuerst die Marken der Hypertext-Auszeichnungssprache (HTML) eliminiert (Schritt 505). Dann sendet der Jasper-Agent 105 den Text zu einer Textzusammenfassungseinrichtung, wie z. B. "ConText" 120 (Schritt 506).
ConText 120 parst zuerst ein Dokument, um die syntaktische Struktur jedes Satzes zu bestimmen (Schritt 507). Der ConText- Parser ist robust und kann mit einem weiten Bereich von syntaktischen Phänomenen umgehen, die in englischen Sätzen auftreten. Nach der Ebene des Parsens auf Satzebene tritt ConText 120 in seine Phase der 'Konzeptverarbeitung' ein (Schritt 508). Unter den gebotenen Merkmalen sind:
- Die Informationsextraktion: ein Hauptindex der Inhalte eines Dokuments wird berechnet, wobei der Index über die Konzepte, Tatsachen und Definitionen im Text gebildet wird.
- Die Inhaltsverringerung: es sind verschiedene Ebenen der Zusammenfassung verfügbar, die von einer Liste der Hauptthemen des Dokuments zu einer Zusammenfassung des ganzen Dokuments reichen.
- Die Diskursverfolgung: Durch die Verfolgung des Diskurses eines Dokuments kann ConText alle Teile eines Dokuments extrahieren, die für ein bestimmtes Konzept besonders relevant sind.
ConText 120 wird durch den Jasper-Agenten 105 in einer Client- Server-Architektur verwendet: nach dem Parsen der Dokumente erzeugt der Server anwendungsunabhängige ausgezeichnete Versionen (Schritt 509). Die Aufrufe vom Jasper-Agenten 105 unter Verwendung einer Anwendungsschnittstelle (API) können dann die Auszeichnungen interpretieren. Unter Verwendung dieser API-Aufrufe werden die Metainformationen aus dem Quelltext erhalten (Schritt 510). Der Jasper-Agent 105 extrahiert zuerst eine Zusammenfassung des Textes der Seite. Die Größe der Zusammenfassung kann durch die zu ConText 120 geleiteten Parameter gesteuert werden, wobei der Jasper-Agent 105 sichert, daß eine Zusammenfassung von 100-150 Wörtern erhalten wird. Unter Verwendung eines weiteren Aufrufs für ConText 120 leitet dann der Jasper-Agent 105 eine Schlüsselwortmenge aus dem Quelltext ab. Danach kann dem Benutzer optional die Möglichkeit geboten werden, weitere Schlüsselwörter über ein HTML-Formular 125 hinzuzufügen (Schritt 511). In dieser Weise können Schlüsselwörter mit besonderer Relevanz für den Benutzer bereitgestellt werden, während der Jasper-Agent 105 eine Menge von Schlüsselwörtern liefert, die für eine weitere Gemeinschaft von Benutzern von größerer Relevanz sein kann.
Am Ende dieses Prozesses hat der Jasper-Agent 105 die folgenden Metainformationen über die W3-Seite von Interesse erzeugt:
- die von ConText gelieferten allgemeinen Schlüsselwörter;
- die benutzerspezifischen Schlüsselwörter;
- die Kommentare des Benutzers;
- eine Zusammenfassung des Inhalt der Seite;
- der Titel des Dokuments;
- der einheitliche Fundstellenanzeiger (URL) und
- das Datum und der Zeitpunkt der Speicherung.
In Fig. 3 fügt der Jasper-Agent 105 dann diese Metainformationen für die Seite zu den Dateien 130 des IPS 100 hinzu (Schritt 512). Im IPS 100 werden die Schlüsselwörter (von beiden Typen) dann verwendet, um die Dateien zu indexieren, die die Metainformationen für andere Seiten enthalten.

Die Wiedergewinnung

Es gibt drei Betriebsarten, in denen die Informationen unter Verwendung eines Jasper-Agenten 105 aus dem IPS 100 wiedergewonnen werden können. Eine ist die Standard-Schlüsselwortwiedergewinnungseinrichtung, während die anderen zwei die gemeinsame Benutzung von Informationen zwischen einer Gemeinschaft von Agenten und ihren Benutzern betreffen. Jede wird in den Abschnitten im folgenden beschrieben.
Wenn ein Jasper-Agent 105 auf einem Computer des Benutzers installiert wird, stellt der Benutzer ein persönliches Profil bereit: eine Menge von Schlüsselwörtern, die die Informationen beschreiben, an deren Erhalt über das W3 der Benutzer interessiert ist. Dieses Profil wird durch den Agenten 105 gehalten oder wenigstens aufrechterhalten, um zu bestimmen, welche Seiten potentiell für einen Benutzer von Interesse sind.

Die Schlüsselwortwiedergewinnung

Wie in den Fig. 4, 6, 7 und 8 gezeigt ist, liefert der Benutzer für die problemlose Schlüsselwortwiedergewinnung eine Menge von Schlüsselwörtern über ein durch den Jasper-Agenten 105 bereitgestelltes HTML-Formular 300 an den Jasper-Agenten 105 (Schritt 601). Dann ruft der Jasper-Agent 105 unter Verwendung eines einfachen Übereinstimmungs- und Punktbewertungsalgorithmus für Schlüsselwörter die zehn am genausten übereinstimmenden Seiten ab, die im IPS 100 gehalten werden (Schritt 602). Den durch den Benutzer bei der Speicherung der Seite gelieferten Schlüsselwörtern kann (im Gegensatz zu denjenigen, die automatisch durch ConText extrahiert wurden) beim Anpassungsprozeß ein zusätzliches Gewicht gegeben werden. Der Benutzer kann im voraus eine Wiedergewinnungsschwelle spezifizieren, unter der die Seiten nicht angezeigt werden. Der Agent 105 konstruiert dann dynamisch ein HTML-Formular 305 mit einer geordneten Liste der Verbindungen zu den wiedergewonnenen Seiten und ihren Zusammenfassungen (Schritt 603). Außerdem wird jeder durch den ursprünglichen Benutzer hinzugefügte Kommentar zusammen mit den Punkteständen jeder wiedergewonnenen Seite gezeigt. Diese Seite wird dann dem Benutzer in seinem W3- Client dargestellt (Schritt 604).

Das "Was-ist-neu?"-Merkmal

Jeder Benutzer kann einen Jasper-Agenten fragen, "Was ist neu?" (Schritt 701). Der Agent 105 fragt dann den IPS 100 ab und ruft die zuletzt gespeicherten Seiten ab (Schritt 702). Dann bestimmt er abermals basierend auf einem einfachen Übereinstimmungs- und Punktbewertungsalgorithmus für Schlüsselwörter, welche dieser Seiten am besten mit dem Profil des Benutzers übereinstimmen (Schritt 703). Dann wird dem Benutzer eine HTML-Seite dargestellt, die eine geordnete Liste der Verbindungen zu den zuletzt gespeicherten Seiten, die am besten mit dem Profil des Benutzers übereinstimmen, und außerdem zu anderen Seiten, die zuletzt im IPS speichert wurden, mit den Kommentaren, wo sie vorgesehen sind, zeigt (Schritt 704). Folglich ist der Benutzer mit einer Ansicht sowohl der zuletzt gespeicherten Seiten, die wahrscheinlich für den Benutzer am meisten von Interesse sind, als auch einer allgemeinerer Auswahl der zuletzt gespeicherten Seiten versehen (Schritt 705).
Ein Benutzer kann das Profil, das sein Jasper-Agent 105 hält, zu irgendeinem Zeitpunkt über ein HTML-Formular aktualisieren, das ihm erlaubt, Schlüsselwörter zum Profil hinzuzufügen und/oder aus dem Profil zu löschen. In dieser Weise kann der Benutzer effektiv verschiedene "Zusammenhänge" auswählen, in denen zu arbeiten ist. Ein Zusammenhang ist durch eine Menge von Schlüsselwörtern definiert (diejenigen, die das Profil bilden oder diejenigen, die in einer Wiedergewinnungsabfrage spezifiziert sind), wobei er als diejenigen Informationstypen betrachtet werden kann, an denen ein Benutzer zu einem gegebenen Zeitpunkt interessiert ist.
Die Idee des Anwendens der Modelle des menschlichen Gedächtnisses auf die Ablage von Informationen wurde in dem Artikel von Jones, auf den oben Bezug genommen wurde, im Zusammenhang mit Computerablagesystemen untersucht. Wie er im Zusammenhang eines herkömmlichen Ablagesystems gezeigt hat, gibt es eine Analogie zwischen einem Verzeichnis in einem Dateisystem und einer durch einen Jasper-Agenten 105 wiedergewonnenen Menge von Seiten. Die Menge der Seiten kann als ein dynamisch konstruiertes Verzeichnis betrachtet werden, das durch den Zusammenhang definiert ist, in dem es wiedergewonnen wurde. Dies ist eine im hohen Grade flexible Idee des 'Verzeichnisses' in zweierlei Hinsicht: erstens können die Seiten, die in dieser Wiedergewinnung auftreten, abhängig vom Zusammenhang selbstverständlich in anderen auftreten; und zweitens gibt es keine scharfe Grenze zum Verzeichnis: die Seiten befinden sich abhängig von ihrer Übereinstimmung mit dem aktuellen Kontext in größerem oder kleineren Ausmaß 'im' Verzeichnis. Im vorliegenden Zugang ist die Anzahl der Arten der Partitionierung der Informationen auf den Seiten folglich nur durch die Mannigfaltigkeit und den Reichtum der Informationen selbst eingeschränkt.

Die Kommunikation mit anderen interessierten Agenten

In Fig. 8 prüft, wenn durch den Jasper-Agenten 105 eine Seite im IPS 100 gespeichert wird (Schritt 801), der Jasper-Agent 105 die Profile der Benutzer der anderen Agenten in seiner 'örtlichen Gemeinschaft' (Schritt 802). Diese örtliche Gemeinschaft könnte irgendeine vorgegebene Gemeinschaft sein. Falls die Seite mit einem Profil des Benutzers mit einem Punktestand über einer bestimmten Schwelle übereinstimmt (Schritt 803), kann durch den Agenten 105 eine Nachricht, z. B. eine "E-Mail"-Nachricht, automatisch erzeugt und an den betroffenen Benutzer geschickt werden (Schritt 804), die ihn von der Entdeckung der Seite informiert.
Der Kopf der E-Mail könnte z. B. im folgenden Format vorliegen:
Jasper KW: (Schlüsselwörter)
Dies erlaubt dem Benutzer vor dem Lesen des Hauptteils der Nachricht, sie als eine Nachricht vom Jasper-System zu identifizieren. Vorzugsweise wird eine Liste von Schlüsselwörtern bereitgestellt, wobei der Benutzer die relative Wichtigkeit der Informationen beurteilen kann, auf die sich die Nachricht bezieht. Die Schlüsselwörter im Kopf der Nachricht variieren von Benutzer zu Benutzer, abhängig von den Schlüsselwörtern von der Seite, die mit den Schlüsselwörtern in ihrem Benutzerprofil übereinstimmen, folglich ist die Nachricht für die Interessen jedes Benutzers personalisiert. Der Hauptteil der Nachricht selbst kann weitere Informationen angeben, wie z. B. den Seitentitel und die URL, wo die Seite gespeichert ist, und irgendeinen Kommentar zur Seite, den der Speichernde bereitgestellt hat.
Der Jasper-Agent 105 und das obenbeschriebene System schaffen die Grundlage für eine äußerst nützliche Art des Zugreifens auf relevante Informationen in einer verteilten Anordnung, wie z. B. dem W3. In einem System können Variationen und Erweiterungen ausgeführt werden, oder vom Umfang der vorliegenden Erfindung abzuweichen. Auf einer relativ einfachen Ebene könnten z. B. verbesserte Wiedergewinnungstechniken verwendet werden. Als Beispiele könnten der Vektorraum und stochastische Modelle verwendet werden, wie sie von G. Salton in "Automatic Text Processing", 1989 von Addison-Wesley in Reading, Massachusetts, USA, veröffentlicht, beschrieben werden.
Alternativ könnte die Indexierung vielseitiger ausgeführt werden, indem die Indexierung außer an Schlüsselwörtern an Metainformationen bereitgestellt wird. Zusätzliche Metainformationen könnten z. B. das Datum der Speicherung einer Seite und der hervorbringende Standort der Seite (die Jasper aus der URL extrahieren kann) sein. Diese zusätzlichen Indizes erlauben den Benutzern (über ein HTML-Formular), Befehle des Typs zu bilden:
Zeige mir alle Seiten, die ich im Jahre 1994 von der Cambridge University über künstliche Intelligenz und Informationswiedergewinnung gespeichert habe.
In einer weiteren alternativen Version könnte durch die Jasper- Agenten 105 ein Thesaurus verwendet werden, um Schlüsselwort- Synonyme auszunutzen. Dies verringert die Wichtigkeit des Eingebens genau der gleichen Schlüsselwörter, wie sie verwendet wurden, als die Seite gespeichert wurde. Es ist in der Tat möglich, die Verwendung eines Thesaurus in einigen anderen Bereichen auszunutzen, einschließlich der persönlichen Profile, die ein Agent 105 für seinen Benutzer hält.

Adaptive Agenten

Die Verwendung von Benutzerprofilen durch die Jasper-Agenten 105, um die für ihre Benutzer relevanten Informationen zu bestimmen, kann verbessert werden, obwohl sie leistungsfähig ist. Wenn der Benutzer den Zusammenhang ändern will (vielleicht um sich von einer Aufgabe auf eine andere oder von Arbeit auf Freizeit neu zu konzentrieren), muß das Benutzerprofil neu spezifiziert werden, indem Schlüsselwörter hinzugefügt und/oder gelöscht werden. Ein besserer Zugang besteht darin, daß der Agent das Profil des Benutzers ändert, wie sich die Interessen des Benutzers während der Zeit ändern. Die Änderung des Zusammenhangs kann in zwei Arten auftreten: es kann ein kurzfristiges Umschalten des Zusammenhangs von z. B. Arbeit zu Freizeit sein. Der Agent kann dies aus einer Liste der aktuellen Zusammenhänge identifizieren, die er für einen Benutzer hält, und in den neuen Zusammenhang wechseln. Diese Änderung könnte z. B. ausgelöst werden, wenn eine neue Seite mit anderen Informationstypen durch den Benutzer besucht wird. Es kann außerdem längerfristige Änderungen in den Zusammenhängen, die der Agent hält, basierend auf den sich entwickelten Interessen des Benutzers geben. Diese Änderungen können durch die Beobachtung des Benutzers durch den Agenten gefolgert werden. Die bekannten Techniken, die in einem adaptiven Agenten verwendet werden könnten, enthalten z. B. genetische Algorithmen, das Lernen aus der Rückkopplung und speichergestütztes Schlußfolgern. Derartige Techniken sind in einem internen Bericht des MIT offenbart, der 1993 durch Sheth, B. u. Maes, P. zugänglich gemacht wurde, genannt "Evolving Agents for Personalised Information Filtering".

Die Integration entfernter und örtlicher Informationen

Eine weitere mögliche Variation des Jasper-Systems würde darin bestehen, das eigene Computerablagesystem des Benutzers mit dem IPS 100 zu integrieren, so daß die im W3 oder auf dem örtlichen Computer gefundenen Informationen dem Benutzer auf der oberen Ebene homogen erscheinen würden. Auf die Dateien könnte ähnlich zu der Art zugegriffen werden, in der die Jasper-Agenten 105 auf W3- Seiten zugreifen, dies befreit den Benutzer von den Einschränkungen der namenorientierten Ablagesysteme und schafft eine inhaltsadressierbare Schnittstelle zu sowohl den örtlichen als auch den entfernten Informationen aller Arten.

Die Gruppierung in Jasper-Systemen

Der Jasper-IPS 100 und die in Verbindung stehenden Dokumente können im Prinzip als eine Sammlung bezeichnet werden; sie ist eine durch Schlüsselwörter indexierte Menge von Dokumenten. Sie unterscheidet sich von einer 'herkömmlichen' Sammlung insofern, als sich die Dokumente typischerweise entfernt vom Index befinden; der Index (der IPS 100) zeigt tatsächlich auf eine URL, die den Ort des Dokuments im Internet spezifiziert. Außerdem sind in einem Jasper- System mit den Dokumenten verschiedene zusätzliche Elemente der Metainformationen verbunden, wie z. B. der Benutzer, der die Seite gespeichert hat, wann sie gespeichert wurde, irgendein Kommentar, den der Benutzer bereitgestellt haben kann, usw.
Ein wichtiger Bereich, in dem sich ein Jasper-System von den meisten Dokumentensammlungen unterscheidet, besteht darin, daß jedes Dokument durch einen Benutzer in den IPS 100 eingegeben wurde, der eine bewußte Entscheidung getroffen hat, um es als ein Informationselement zu markieren, das er und seinesgleichen in der Zukunft wahrscheinlich nützlich finden würden. Dies macht zusammen mit den gehaltenen Metainformationen einen Jasper-IPS 100 zu einer sehr reichen Informationsquelle.
Es ist außerdem untersucht worden, ob bekannte Informationswiedergewinnungstechniken (IR-Techniken) nützlich auf den Jasper-IPS 100 angewendet werden können. Insbesondere ist die Verwendung der Gruppierung untersucht worden.

Die Gruppierung von Dokumenten

Unter Verwendung bekannter IR-Techniken kann die Jasper-Begriff- Dokument-Matrix verwendet werden, um eine Ähnlichkeitsmatrix für die im Jasper-IPS 100 identifizierten Dokumente zu berechnen. Die Ähnlichkeitsmatrix gibt ein Ähnlichkeitsmaß der im Speicher identifizierten Dokumente. Für jedes Dokumentenpaar wird der Vereinzelungskoeffizient berechnet. Für zwei Dokumente Di und Dj gilt
2·[Di Dj]/[Di] + [Dj],
wobei [X] die Anzahl der Begriffe in X ist, während X Y die Anzahl der in X und Y gemeinsam auftretenden Begriffe ist. Dieser Koeffizient liefert eine Zahl zwischen 0 und 1. Ein Koeffizient von null bedeutet, daß die zwei Dokumente keine Begriffe gemeinsam haben, während ein Koeffizient von 1 bedeutet, daß die in jedem Dokument auftretenden Mengen der Begriffe völlig gleich sind. Die Ähnlichkeitsmatrix, genannt Sim, stellt die Ähnlichkeit jedes Dokumentenpaars im Speicher dar, so daß für jedes Dokumentenpaar i und j gilt,
Sim(i, j) = 2·[Di Dj]/[Di] + [Dj].
Diese Matrix kann verwendet werden, um unter Verwendung des hierarchischen anhäufenden Gruppierungsprozesses, der in "Hierarchic Agglomerative Clustering Methods for Automatic Document Classification" von Griffiths, A. u. a. im Journal of Documentation, 40: 3, September 1984, S. 175-205, beschrieben ist, Cluster aus im Zusammenhang stehenden Dokumenten automatisch zu erzeugen. In einem derartigen Prozeß wird jedes Dokument anfangs für sich allein in einem Cluster angeordnet wird, wobei die zwei ähnlichsten derartigen Cluster dann in einen größeren Cluster kombiniert werden, für den die Ähnlichkeiten mit jedem der anderen Cluster dann berechnet werden müssen. Dieser Kombinationsprozeß wird fortgesetzt, bis nur ein einziger Cluster der Dokumente auf der höchsten Ebene verbleibt.
Die Art, in der die Ähnlichkeit zwischen den Clustern (im Gegensatz zu einzelnen Dokumenten) berechnet wird, kann variiert werden. Für einen Jasper-Speicher kann die "Vollverbindungs-Gruppierung" verwendet werden. Bei der Vollverbindungs-Gruppierung wird das am wenigsten ähnliche Dokumentenpaar aus den zwei Clustern als die Cluster-Ähnlichkeit verwendet.
Die resultierenden Cluster-Strukturen des Jasper-Speichers können dann verwendet werden, um unter Verwendung der VRML (Modellierungssprache für die virtuelle Realität) ein dreidimensionales (3D) Vorfeld auf dem Jasper-System zu erzeugen. (VRML ist eine bekannte Sprache für graphische 3D-Räume oder virtuelle Welten, die über das globale Internet vernetzt und innerhalb des World Wide Web mit Hyperlinks verbunden sind.)

Die Gruppierung der Schlüsselwörter

Die Schlüsselwörter (Begriffe), die in bezug auf eine spezielle Jasper- Dokumentsammlung auftreten, können außerdem in einer Weise gruppiert werden, die die obenbeschriebene Technik der Dokumenten-Cluster genau widerspiegelt: es kann eine Ähnlichkeitsmatrix für die Schlüsselwörter im Jasper-Speicher konstruiert werden, die ein Maß der 'Ähnlichkeit' der Schlüsselwörter im Speicher angibt. Für jedes Dokumentenpaar wird der Vereinzelungskoeffizient berechnet. Für zwei Schlüsselwörter Ki und Kj ist der Vereinzelungskoeffizient durch:
2·[Ki Kj]/[Ki] + [Kj]
gegeben, wobei [X] die Anzahl der Dokumente ist, in denen X auftritt, während X Y die Anzahl der Dokumente ist, in denen X und Y gemeinsam auftreten.
Sobald die Ähnlichkeitsmatrix für einen Jasper-Speicher berechnet ist, ist es jedoch nicht notwendig, die Schlüsselwörter zu gruppieren, wie die Dokumente gruppiert wurden. Statt dessen ist es möglich, die Matrix selbst in zwei Arten ausnutzen, wie im folgenden beschrieben ist.
Die erste Art ist die Profilverbesserung. Hier kann das Benutzerprofil unter Verwendung derjenigen Schlüsselwörter verbessert werden, die zu den Schlüsselwörtern im Profil des Benutzers an ähnlichsten sind. Falls z. B. die Wörter virtual, reality und Internet Teil eines Profils eines Benutzers sind, aber VRML es nicht ist, könnte ein verbessertes Profil VRML zum ursprünglichen Profil hinzufügen (vorausgesetzt, daß VRML dicht bei virtual, reality und Internet gruppiert ist). In dieser Weise können Dokumente, die VRML, aber nicht virtual, reality und Internet enthalten; wiedergewonnen werden, wohingegen sie mit dem nicht verbesserten Profil nicht wiedergewonnen worden wären.
Fig. 9 zeigt ein Beispielnetz der Schlüsselwörter 900, das aus der aus einem aktuellen Jasper-Speicher extrahierten Schlüsselwort-Ähnlichkeitsmatrix aufgebaut worden ist. Der Algorithmus ist problemlos: unter der Voraussetzung eines anfänglichen Start-Schlüsselwortes werden die zu ihm ähnlichsten vier Wörter aus der Ähnlichkeitsmatrix festgestellt. Diese vier werden mit dem ursprünglichen Wort verbunden, wobei der Prozeß für jedes der vier neuen Wörter wiederholt wird. Dies kann mehrmals wiederholt werden (in Fig. 9 dreimal). Die doppelten Linien 901 zwischen zwei Wörtern zeigen an, daß beide Wörter in den vier ähnlichsten Schlüsselwörtern des anderen auftreten. Für feinkörnigere Informationen, die den Grad der Ähnlichkeit zwischen den Wörtern betreffen, könnten selbstverständlich bestimmte Ähnlichkeitskoeffizienten an jede Verbindung angefügt werden.
Der zweite Weg ist das proaktive Suchen. Die Schlüsselwörter, die ein Profil des Benutzers umfaßt, können verwendet werden, um proaktiv durch Jasper nach neuen WWW-Seiten zu suchen, die für ihre Interessen relevant sind, wobei Jasper dann eine Liste der neuen Seiten darstellen kann, an denen der Benutzer interessiert sein kann, ohne daß der Benutzer explizit eine Suche ausführen muß. Diese proaktiven Durchsuchungen können in irgendeinem gegebenen Intervall, wie z. B. wöchentlich, durch ein Jasper-System ausgeführt werden. Hier ist die Gruppierung nützlich, weil ein Profil mehr als ein Interesse widerspiegeln kann. Es wird z. B. das folgende Benutzerprofil betrachtet: Internet, WWW, html, football, Manchester, united, linguistics, parsing, pragmatics. Selbstverständlich werden in dem obigen Profil drei getrennte Interessen dargestellt, wobei das Suchen in jedem getrennt wahrscheinlich weit bessere Ergebnisse liefern wird, als lediglich das ganze Profil als eine Abfrage für den gegebenen Benutzer einzugeben. Die Gruppierung der Schlüsselwörter aus der Dokumentensammlung kann den Prozeß der Erzeugung der Abfrage für das proaktive Suchen durch einen Jasper-Agenten des Benutzers automatisieren.
Wenn die Suchergebnisse durch Jasper erhalten werden, können sie zusammengefaßt oder mit dem Profil des Benutzers in der üblichen Weise verglichen werden, um eine priorisierte Liste der neuen URLs zusammen mit den lokal gehaltenen Zusammenfassungen zu liefern.

Verbesserungen am JASPER-System

Die Ausführungsformen der vorliegenden Erfindung schaffen Verbesserungen für das obige JASPER-System. Diese Ausführungsformen werden nun unter Bezugnahme auf Fig. 10 beschrieben, die die Elemente innerhalb des Jasper-Agenten identifiziert, die verwendet werden, um die in Verbindung stehenden Schlüsselwörter innerhalb eines Dokuments zu identifizieren, die die Leistung des obigen Jasper-Systems verbessern können.
Die obigen Gruppierungstechniken können verbessert werden, in dem zwei oder mehr Schlüsselwörter identifiziert werden, die miteinander in Verbindung stehen, z. B. Schlüsselwörter, die eine Wortgruppe bilden. Diese in Verbindung stehenden Schlüsselwörter werden dann in die Dokument-Begriff-Matrix als einzige Begriffe eingegeben.
Eine Standard-Gruppierungstechnik würde z. B. in Betracht ziehen, daß der Ausdruck "Information Technology" zwei getrennte Einträge in einer Dokument-Begriff-Matrix bildet, nämlich die getrennten Einträge "Information" und "Technology". Eine gemäß der Ausführungsformen der vorliegenden Erfindung verbesserte Technik würde erkennen, daß die Wörter "Information" und "Technology" in Verbindung stehen, wobei sie einen einzigen Eintrag in einer Dokument- Begriff-Matrix bilden sollten. Das Ersetzen der zwei Einträge durch einen einzigen Eintrag kann den Wert des für das Messen der Ähnlichkeit zwischen den Dokumenten verwendeten Vereinzelungskoeffizienten signifikant ändern.
Es werden z. B. die folgenden zwei Absätze betrachtet:
1) The people in my company only use the latest information technology when transferring copies of files across our local area network.
2) My company has transferred a lot of people into the latest areas of technology. There is a file on the network with a lot of information in it about the transfers. I also have a local copy of the file.
Selbstverständlich ist das Thema jedes Absatzes verschieden, gleichwohl besitzt jeder Absatz die gleichen Schlüsselwörter, nämlich "people", "company", "latest", "information", "technology", "copy", "transfer", "file", "local", "area" und "network".
Wenn die Schlüsselwörter "information" und "technology" und "local", "area" und "network" als unabhängige Schlüsselwörter behandelt werden (gemäß der Standardgruppierung), dann besitzt der Vereinzelungskoeffizient für die zwei Absätze einen Wert von 1. Gemäß dem folgenden Beispiel wird die Dokument-Begriff-Matrix unter Verwendung der Standard-Gruppierungtechniken wie folgt berechnet:
Die Matrix zeigt hier 11 Begriffe, die beiden Absätzen gemeinsam sind, und daß jeder Absatz 11 Begriffe enthält.
Die Berechnung des Vereinzelungskoeffizienten:
Dice Co-eff = (2 · 11)/(11 + 11)
= 1
Wenn jedoch die Schlüsselwörter "information" und "technology" in Verbindung gebracht werden, um einen einzigen Eintrag in der Dokument-Begriff-Matrix zu bilden, und wenn die Schlüsselwörter "local", "area" und "network" in Verbindung gebracht werden, um einen einzigen Eintrag in der Dokument-Begriff-Matrix zu bilden, dann wird der Vereinzelungskoeffizient für die zwei Absätze als 0,6 neu berechnet. Dieser wird wie folgt berechnet: Verbesserte Dokument-Begriff-Matrix
Hier zeigt die Matrix 6 Begriffe, die beiden Absätzen gemeinsam sind. Der Absatz 1 besitzt 11 Begriffe, während der Absatz 2 8 Begriffe besitzt, demzufolge gilt:
Dice Co-eff = (2 · 6)/(11) + (8)
= 12/20
= 0,6
Ein Vereinzelungskoeffizient von 0,6 kann als eine genauere Widerspiegelung der Ähnlichkeiten und Unterschiede zwischen dem Thema der zwei Absätze betrachtet werden.
Verschiedene Wortgruppen-Strukturen und grammatikalische Strukturen besitzen eine hohe Wahrscheinlichkeit des Identifizierens der Mengen der Schlüsselwörter, die in einer derartigen Weise Verbindung stehen, daß ihre Aufnahme als ein einziger Eintrag in eine Ähnlichkeitsmatrix wahrscheinlich ihr Ergebnis verbessert. Benachbarte Schlüsselwörter, die aus zwei Substantiven bestehen, oder einen Substantiv, gefolgt von einem Verb, sind häufige Beispiele des Typs der grammatikalischen Strukturen, die in einer kurzen Wortgruppe auftreten würden, und die deshalb wahrscheinlich die Qualität einer Ähnlichkeitsmatrix verbessern. Ein Verb, gefolgt von einem Adjektiv, ist eine Kombination, die in einer kurzen Wortgruppe unwahrscheinlich auftritt, wobei es deshalb als unwahrscheinlich betrachtet wird, daß sie die Qualität einer Ähnlichkeitsmatrix verbessert.
Die Ausführungsformen der vorliegenden Erfindung enthalten eine Liste derartiger Wortgruppen-Strukturen und grammatikalischer Strukturen. Der Text eines Dokuments, das analysiert wird, wird nach dem Vorhandensein von Mengen von Schlüsselwörtern untersucht, die derartige Strukturen bilden. Dies erfolgt zusätzlich zum Anfangsprozeß des Identifizierens dieser Schlüsselwörter.
Es wird unter manchen Umständen Ausnahmen geben, wodurch eine spezielle Menge von Schlüsselwörtern, die als einer speziellen grammatischen Struktur entsprechend identifiziert worden sind, das Ergebnis einer Ähnlichkeitsmatrix nicht verbessern wird. Die anderen Mengen von Schlüsselwörtern, die nicht mit einer dieser identifizierten grammatikalischen Strukturen übereinstimmen, werden unter manchen Umständen eine Ähnlichkeitsmatrix verbessern.
Demzufolge müssen die Ausführungsformen der vorliegenden Erfindung einen Kompromiß zwischen dem Identifizieren nur derjenigen grammatikalischen Strukturen, die eine hohe Wahrscheinlichkeit der Verbesserung einer Ähnlichkeitsmatrix aufweisen, und dem Identifizieren zu vieler grammatikalischer Strukturen, die eine niedrigere Wahrscheinlichkeit der Verbesserung einer Ähnlichkeitsmatrix aufweisen, finden.
Fig. 10 ist eine Darstellung der Elemente innerhalb des Jasper- Agenten 105, der verwendet wird, um die in Verbindung stehenden Schlüsselwörter innerhalb eines Dokuments zu identifizieren.
Der Eingangstext 1000 wird aus dem W3-Client 115 in einen Jasper- Agenten 105 heruntergeladen, in dem er durch einen ersten Parser 1005, "Parser 1", geparst wird. Der Parser 1 1005 analysiert den Eingangstext 1000 nach Abkürzungen und Akronymen.
Diese Analyse wird ausgeführt, indem jedes Wort des Eingangstexts 1000 mit einer Datenbank 1010 aus Abkürzungen und Akronymen verglichen wird. Der Parser 1 1005 markiert die identifizierten Abkürzungen und Akronyme.
Sobald die Abkürzungen und Akronyme im Eingangstext 1000 markiert worden sind, wird dann der Eingangstext 1000 abermals durch den Parser 1 1005 geparst, um ihn in die Wortgruppen 1010 aufzuteilen, wie z. B. Sätze, Abschnitte, Überschriften (wie z. B. HTML- Kopfzeilen) oder durch Leerzeilen isolierte Elemente.
Die Marken, die Abkürzungen und Akronyme identifizieren, erlauben, daß der zweite Parsing-Prozeß des Parsers 1 1005 zwischen Punkten, die am Ende einer Abkürzung oder eines Akronyms auftreten, und Punkten am Ende eines Satzes unterscheidet. Dies hilft, die falsche Aufteilung von Wortgruppen 1010 in der Mitte des Satzes zu verhindern, die durch das Vorhandensein eines Punktes am Ende einer Abkürzung oder eines Akronyms verursacht werden kann.
Nachdem die Wortgruppen 1010 zum zweiten Mal durch den Parser 1 1005 geparst geworden sind, werden sie in einen zweiten Parser 1020, "Parser 2" eingegeben. Der Parser 2 1020 führt an jeder Wortgruppe 1010 vier Operationen aus.
Zuerst analysiert der Parser 2 die Wortgruppen 1010 nach Wörtern mit ungewöhnlicher Großschreibung. Derartige Wörter werden oft als der Name einer Entität verwendet, wie z. B. einen firmeninternes Kommunikationsnetz oder Computer-System. Es wird z. B. angenommen, daß ein Unternehmen gewählt hat, eines seiner Computer- Systeme "Over" zu nennen. Es kann in der Mitte eines Satzes als "Over" erscheinen, wobei es in diesem Fall als ein Wort mit einer ungewöhnlichen Großschreibung markiert wird. Andere Variationen dieses Typs, die erwartet werden können, enthalten OvEr, OveR. Die Wörter, die als eine ungewöhnliche Großschreibung besitzend identifiziert worden sind, werden als die "Sperrliste" außer Kraft setzend markiert.
Eine Sperrliste enthält eine Liste von Wörtern, die typischerweise nicht den Informationsinhalt eines Dokuments widerspiegeln, z. B. Wörter wie "as", "is", "are", "the", "they", "where", "my" usw.
Eine Sperrliste kann außerdem eine Liste von Vor- und Nachsilben enthalten. Die Sperrliste arbeitet in diesem Fall, um ein Wort mit einer Vor- oder Nachsilbe oder beidem auf eine Grundform ohne Vor- oder Nachsilbe zu reduzieren. Dies ist als die Bildung des Wortstammes bekannt, wobei "manufacturing", das auf "manufacture", "predetermination", das auf "determine", und "preselect", das auf "select" reduziert wird, Beispiele sind.
Zweitens werden die Wortgruppen 1010 mit einer "Sperrlisten"- Datenbank 1025 verglichen.
Drittens werden die Wörter, die sich nicht in der Sperrliste befänden, und die Wörter, die als die "Sperrliste" außer Kraft setzend markiert sind, als für den Informationsinhalt des Dokuments relevant markiert.
Viertens wird jedes Paar benachbarter Wörter, das als für den Informationsinhalt des Dokuments relevant markiert worden ist, ferner als eine Menge von Schlüsselwörtern markiert, die das Erlebnis einer Ähnlichkeitsmatrix verbessern kann. Vorzugsweise wird jedes Paar aus Wörtern, die als für den Informationsinhalt eines Dokuments relevant markiert sind und die durch Wörter in der Sperrliste getrennt sind, nicht als in Verbindung stehende Schlüsselwörter bildend betrachtet.
Schließlich werden diese Mengen der Schlüsselwörter unter Verwendung eines Wörterbuchs 1030, das die Wörter als Verb/Adverb/Substantiv/Adjektiv kategorisiert, entsprechend ihrer grammatikalischen Strukturen identifiziert. Diese Strukturen sind durch die Kombination der Worttypen in der Schlüsselwortmenge definiert, z. B. kann eine erste Struktur ein Substantiv, gefolgt von einem Verb sein, während eine alternative Struktur ein Adjektiv, gefolgt von einem Substantiv sein kann.
Die Mengen der Schlüsselwörter, die in eine bevorzugte Liste der grammatikalische Strukturen fallen, werden dann für die Aufnahme in eine Ähnlichkeitsmatrix als ein einziger Eintrag anstatt als einzelne Einträge markiert.
Die folgende Liste ist eine Liste der bevorzugten grammatikalischen Strukturen, die als eine Ähnlichkeitsmatrix wahrscheinlich verbessernd betrachtet werden. Liste der in Verbindung stehenden Schlüsselwörter
Dabei stellt ein "?" ein Wort dar, das sich nicht in dem durch den JASPER-Agenten verwendeten Wörterbuch befindet. Alternativ kann "?" außerdem ein Akronym oder ein Wort, das in den Dokument mit einer ungewöhnlichen Großschreibung erscheint, darstellen. Beispiele derartiger Wörter enthalten IT, LAN, WAN, xDSL und OveR.
In diesen Beispielen wird IT typischerweise verwendet, um Information Technology (Informationstechnologie) zu bezeichnen, LAN ist ein Local Area Network (lokales Netz), WAN ist ein Wide Area Network (weiträumiges Netz), xDSL bezieht sich gattungsmäßig auf eine Klasse der Technologie, die als Digital Subscriber Line technology (Technologie für digitale Teilnehmerleitungen) bekannt ist, während OveR ein Name einer firmeninternen Einrichtung sein kann, wie z. B. eines Kommunikationsnetzes.
Diese Strukturen bilden keine endgültige Liste. Andere Strukturen für Mengen aus dreifachen Schlüsselwörter, wie z. B. einem Adjektiv, gefolgt von zwei Substantiven, wie es für Local Area Network der Fall ist, können außerdem definiert werden. Strukturen aus Mengen aus vier und mehr Schlüsselwörtern, die eine Ähnlichkeitsmatrix wahrscheinlich verbessern, können außerdem identifiziert werden, wie z. B. ein Substantiv, gefolgt von einem Adjektiv, gefolgt von zwei Substantiven, wie es für Asymmetric Digital Subscriber Line der Fall ist, obwohl diese weniger häufig als Mengen aus zwei oder drei Schlüsselwörtern sind.
Diese grammatikalischen Strukturen schaffen einen Kompromiß zwischen der Nichtverwendung in Verbindung stehender Schlüsselwörter und der Annahme, daß jedes Paar oder jedes Tripel benachbarter Schlüsselwörter in Verbindung stehende Schlüsselwörter sind. Für spezielle Themen, wie z. B. juristische Artikel, können sich spezielle Kategorien als von größerem Nutzen als für technische Artikel erweisen. Demzufolge können die Kategorien abhängig von dem Typ des Artikels, der durch einen JASPER-Agenten 115 analysiert wird, eingestellt werden.
Da jedes dieser in Verbindung stehenden Schlüsselwörter in den Jasper-Schlüsselwortspeicher als ein einziges komplexes Schlüsselwort eingegeben wird, können sie außerdem in der oben ausführlich beschriebenen Technik der Schlüsselwortgruppierung verwendet werden, die verwendet wird, um die Benutzerprofile zu verbessern. Dies kann die Qualität der durch den JASPER-Agenten 115 ausgeführten proaktiven Suche verbessern. Es kann außerdem durch eine Suchmaschine oder eine ähnliche Vorrichtung verwendet werden, um die Dokumente zu identifizieren, die in Verbindung stehende Schlüsselwörter enthalten, die verwendet worden sind, um die Zielinformationen der Suche zu definieren.
Der Prozeß ist nicht auf Dokumente in englischer Sprache eingeschränkt. Ähnliche Techniken können für andere Sprachen verwendet werden.

Allgemeine Bemerkungen zu den obenbeschriebenen Ausführungsformen

Der ausgebildete Adressat wird beim Betrachten der hierin beschriebenen Ausführungsformen erkennen, daß an Stelle von ConText andere Textzusammenfassungseinrichtungen verwendet werden können. ProSum ist z. B. ein Zusammenfassungswerkzeug, das durch British Telecommunications plc im Internet im BT Labs shop verfügbar gemacht ist, der sich bei http://www.labs.bt.com befindet.
Obwohl die Ausführungsformen der vorliegenden Erfindung in bezug auf das Lokalisieren von Informationen über das Internet beschrieben worden sind, könnten sie für das Lokalisieren von Informationen in anderen Systemen nützlich gefunden werden, wie z. B. Dokumente in den internen Systemen eines Benutzers, die in HyperText vorliegen.

Claims

1. Vorrichtung zum Bestimmen eines Ähnlichkeitsmaßes zwischen wenigstens einer ersten und einer zweiten Datenmenge, wobei die Vorrichtung umfaßt:

i) Eingangsmittel, die wenigstens die ersten und zweiten Datenmengen empfangen;

ii) Verarbeitungsmittel (105, 1005-1030), die eine Menge von Schlüsselwörtern wenigstens in der ersten der Datenmenge identifizieren, wobei die Verarbeitungsmittel Zugriff auf wenigstens eine Regelmenge haben und die Menge von Schlüsselwörtern unter Verwendung der wenigstens einen Regelmenge identifizieren, wobei die Verarbeitungsmittel ferner das Ähnlichkeitsmaß bestimmen; und

iii) Ausgabemittel, die das Ähnlichkeitsmaß ausgeben,

wobei die Regelmenge eine Regel bezüglich des relativen Ortes der Datenelemente in einer entsprechenden Datenmenge enthält und wobei die Verarbeitungsmittel das Ähnlichkeitsmaß dadurch bestimmen, daß sie wenigstens eine Menge von Schlüsselwörtern, die durch die Verarbeitungsmittel in der ersten Datenmenge identifiziert wird, mit einer Menge von Schlüsselwörtern vergleichen, die in der zweiten Datenmenge enthalten oder aus dieser abgeleitet ist.

2. Vorrichtung nach Anspruch 1, die ferner Informationswiedergewinnungsmittel (105, 410) und einen Datenspeicher umfaßt, wobei die erste Datenmenge Daten umfaßt, die durch die Informationswiedergewinnungsmittel aus einer Informationsbank wiedergewonnen werden, und die zweite Datenmenge eine Menge von im Datenspeicher gespeicherten Schlüsselwörtern umfaßt.

3. Vorrichtung nach Anspruch 1, die ferner Informationswiedergewinnungsmittel (105, 410) umfaßt, wobei die ersten und zweiten Datenmengen Daten umfassen, die durch die Informationswiedergewinnungsmittel aus einer Informationsbank wiedergewonnen werden, wobei die Verarbeitungsmittel in jeder der ersten und zweiten Datenmengen eine Menge von Schlüsselwörtern identifizieren und das Ähnlichkeitsmaß bestimmen, indem sie die jeweiligen Mengen von Schlüsselwörtern vergleichen.

4. Vorrichtung nach Anspruch 2, bei der die zweite Datenmenge eine Zieldatenmenge definiert, die bei der Datenwiedergewinnung mittels der Informationswiedergewinnungsmittel aus der Informationsbank verwendet wird, und bei der die erste Datenmenge durch die Verarbeitungsmittel als die Zieldatenmenge enthaltend identifiziert wird, wenn das Ähnlichkeitsmaß eine vorgegebene Schwelle übersteigt.

5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der relative Ort von Datenelementen in einer entsprechenden Datenmenge die zueinander benachbarten Orte wenigstens zweier potentieller Schlüsselwörter in der Datenmenge umfaßt, wobei die Verarbeitungsmittel solche benachbarten potentiellen Schlüsselwörter als zusammen ein einziges Schlüsselwort in einer identifizierten Menge von Schlüsselwörtern ergebend identifizieren.

6. Vorrichtung nach Anspruch 5, bei der die wenig tens eine Regelmenge wenigstens eines der folgenden Kriterien umfaßt:

1) ein Substantiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;

2) ein Verb, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen;

3) ein Adjektiv, gefolgt von einem Substantiv oder einer vorgegebenen Menge von Zeichen; und

4) eine vorgegebene Menge von Zeichen, gefolgt von einem Substantiv oder einem Verb oder einer weiteren vorgegebenen Menge von Zeichen,

wobei die Verarbeitungsmittel benachbarte potentielle Schlüsselwörter nur dann als zusammen ein einziges Schlüsselwort in einer identifizierten Menge von Schlüsselwörtern ergebend identifizieren, wenn sie das wenigstens eine Kriterium erfüllen.

7. Vorrichtung nach einem der Ansprüche 2 bis 6, bei der der Datenspeicher mehrere Schlüsselwortmengen enthält, die von den Verarbeitungsmitteln in mehreren mittels der Informationswiedergewinnungsmittel aus der Informationsbank wiedergewonnenen Datenmengen identifiziert werden, wobei die Verarbeitungsmittel mehrere Beziehungen zwischen den Datenmengen in Abhängigkeit vom Ähnlichkeitsmaß, das für jedes Paar Datenmengen berechnet wird, definieren.

8. Verfahren zum Bestimmen eines Ähnlichkeitsgrades zwischen ersten und zweiten Datenmengen, wobei das Verfahren gekennzeichnet ist durch die folgenden Schritte:

i) Anbringen von Identifizierungsmarken an ausgewählten Datenelementen wenigstens in der ersten der Datenmengen in Übereinstimmung mit wenigstens einer ersten Regel;

ii) Identifizieren einer Menge potentieller Schlüsselwörter durch Bezugnahme entweder auf das Vorhandensein oder das Fehlen der Identifizierungsmarken;

iii) Auswählen von Mengen aus zwei oder mehr benachbarten potentiellen Schlüsselwörtern durch Anwenden wenigstens einer zweiten Regel;

iv) Klassifizieren jeder ausgewählten Menge potentieller Schlüsselwörter als ein einziges Schlüsselwort;

v) Erzeugen einer Menge von Schlüsselwörtern, die jede als ein einziges Schlüsselwort klassifizierte Menge potentieller Schlüsselwörter zusammen mit den verbleibenden Schlüsselwörtern aus der identifizierten Menge potentieller Schlüsselwörter enthält; und

vi) Vergleichen der erzeugten Menge von Schlüsselwörtern mit einer Menge von Schlüsselwörtern, die in der zweiten Datenmenge entweder enthalten oder aus dieser abgeleitet ist.

9. Verfahren nach Anspruch 8, bei dem sich die erste Regel wenigstens teilweise auf die grammatikalische Kategorie der Datenelemente bezieht.

10. Verfahren nach einem der Ansprüche 8 oder 9, bei dem die wenigstens eine zweite Regel eine oder mehrere Regeln aus der folgenden Menge umfaßt:

4) eine vorgegebene Menge von Zeichen, gefolgt von einem Substantiv oder einem Verb oder einer weiteren vorgegebenen Menge von Zeichen.