DE69804821T2

DE69804821T2 - Informationswiedergewinnung

Info

Publication number: DE69804821T2
Application number: DE69804821T
Authority: DE
Inventors: Gerard Rose; Joseph Wyard
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-01-30
Filing date: 1998-01-30
Publication date: 2002-11-28
Anticipated expiration: 2018-01-31
Also published as: GB9701866D0; EP1012750A1; WO1998034180A1; US6167398A; DE69804821D1; EP1012750B1; AU5873698A; JP2001509293A

Description

Die vorliegende Erfindung bezieht sich auf die Informationswiedergewinnung und insbesondere, aber nicht ausschließlich, auf einen Internet-Informationsagenten, der Kandidatendokumente nach Unähnlichkeit mit einem durch einen Anwender des Agenten identifizierten Referenzkörper analysiert.
Im Stand der Technik ist das folgende Dokument bekannt: EP-A-0 687 987 (XEROX CORP), 20. Dezember 1995. In diesem Dokument ist ein Verfahren und eine Vorrichtung zum Wiedergewinnen relevanter Dokumente aus einem Körper aus Dokumenten offenbart. In diesem System ist eine Eingangsabfrage die Grundlage für das selektive Wiedergewinnen von Dokumenten aus einem Körper aus Dokumenten. Für jedes Dokument wird die Berechnung der Dokument-Kontextvektoren und der Korrelationskoeffizienten ausgeführt. Danach wird außerdem eine Einstufung der Dokumente ausgeführt, siehe Fig. 12 dieses Dokuments des Standes der Technik. In der Technik der Informationswiedergewinnung ist es bekannt, daß ein Anwender die Anfangsbedingungen für das Wiedergewinnen mittels einer Gruppe aus Schlüsselwörtern spezifiziert. Verschiedene Suchmaschinen sind bekannt, deren Suchsprachen für eine fortgeschrittene Suche unter Verwendung Boolscher Operatoren zum Kombinieren der Schlüsselwörter angepaßt sind.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Informationswiedergewinnung geschaffen, das die folgenden Schritte umfaßt:
Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals,
Wiedergewinnen eines Kandidatendokuments in Textform,
Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das als Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und
Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein vorgegebener Unähnlichkeitsgrad ist.
Es ist klar, daß der Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes um so größer ist, je größer der Wert des Unähnlichkeitsmaßes ist, oder, umgekehrt, je kleiner der Wert des Unähnlichkeitsmaßes ist, desto kleiner ist der Unähnlichkeitsgrat zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes. Mit anderen Worten, das Unähnlichkeitsmaß wird einen Nullwert besitzen, falls die zwei Dokumente völlig gleich sind.
Die vorliegende Erfindung unterscheidet sich von den obigen Wiedergewinnungstechniken des Standes der Technik insofern, als der Anwender einen Referenzkörper (ein Startdokument) als ein Beispiel des Typs des Dokuments bereitstellt, den der Anwender finden möchte, wobei das Verfahren der Erfindung, wie es durch einen Informationswiedergewinnungsagenten ausgeführt wird, den Referenzkörper in Übereinstimmung mit einem Maßstab oder mehreren Maßstäben aus einem Bereich der Maßstäbe analysiert, wobei sich diese auf die Worthäufigkeit (Ausdruckshäufigkeit) des Titels des Kandidatendokuments, die Zeichenebenen-n-Gramm-Häufigkeit, die Worthäufigkeit des ganzen Textes des Kandidatendokuments und das Wortebenen-n-Gramm-Sprachmodell beziehen. Je größer die Kombination der Maßstäbe, desto besser arbeitet der Agent.
Ein Verfahren der vorliegenden Erfindung kann für die Informationswiedergewinnung auf Anforderung durch einen Anwender verwendet werden, oder es kann verwendet werden, um ein Sprachmodell zu verbessern, das in einer Sprachanwendung verwendet wird, z. B. in einer Spracherkennungsanwendung.
Vorzugsweise ist der analysierte Teil des wiedergewonnenen Textes der Titel des Kandidatendokuments.
Vorzugsweise umfaßt die erste vorgegebene Funktion die folgenden Schritte:
Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus dem wenigstens einen Teil des Referenzkörpers, Gewinnen entsprechender inverser Dokumenthäufigkeiten IDF für die Ausdrücke der ersten TFL und
Erzeugen eines ersten entsprechenden Vektors für die erste TFL, der entsprechende Elemente enthält, wovon jedes die Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist, wobei der erste entsprechende Vektor das erste Ausgangssignal bildet;
und bei dem die zweite vorgegebene Funktion die folgenden Schritte umfaßt:
Erzeugen einer zweiten TFL aus dem wenigsten einen Teil des wiedergewonnenen Tees, ·
Erzeugen eines zweiten entsprechenden Vektors für die zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF eines entsprechenden Ausdrucks der zweiten TFL ist, und
Ableiten eines Maßes der Differenz zwischen dem ersten Vektor und dem zweiterf Vektor, wobei das Differenzmaß ein Unähnlichkeitsriiaß bildet.
Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Zeichenebenen-n-Gramni-Häufigkeitsliste umfaßt, wobei das Log- Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein erstes Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet; und
die zweite vorgegebene Funktion das Erzeugen einer zweiten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n- Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der Wortebenen-n-Gramm-Häufigkeitsliste, wobei das Sprachmodell das Ausgangssignal bildet;
die zweite vorgegebene Funktion das Anwenden des Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines Perplexitätswertes umfaßt, wobei der Perplexitätswert ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der Vektoren gegebenenfalls eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
Wenn das Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt, ist der Schritt des Anlegens entsprechender Gewichte (Wi) an die entsprechenden Komponenten vorzugsweise enthalten.
Vorzugsweise umfaßt die erste vorgegebene Funktion die Schritte des Ausführens einer anfänglichen Auswertung des wenigstens einen Teils des Referenzkörpers und des Setzens der Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom Ergebnis der anfänglichen Auswertung.
Bevorzugter umfaßt der Schritt des Setzens der Anfangswerte für die entsprechenden Gewichte:
(a) den Unterschritt des Teilens des Referenzkörpers in einen Trainingsabschnitt, der den wenigstens einen Teil des Referenzkörpers bildet, und in einen Entwicklungsabschnitt;
(b) den Unterschritt des Analysierens des Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion und des Erzeugens entsprechender Komponenten eines Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt; und
(c) Gewinnen der Anfangswerte für die entsprechenden Gewichte durch Dividieren einer vorgegebenen Konstante durch die entsprechende Komponenten des Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt.
Vorzugsweise sind die Schritte des Bildens eines weiteren Referenzkörpers durch Kombinieren des Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer entsprechenden Wortebenen-n- Gramm-Häufigkeitsliste aus dem weiteren Referenzkörper sowie des Ableitens eines entsprechenden zweiten Rückkopplungs-n-Gramm- Sprachmodells aus der entsprechenden Wortebenen-n-Gramm- Häufigkeitsliste enthalten, wobei das zweite Sprachmodell einen Ersatz für das erste Sprachmodell bildet.
Vorzugsweise umfaßt die erste vorgegebene Funktion:
(a) einen vorhergehenden Unterschritt des Anwendens des ersten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines ersten Perplexitätswertes (PP&sub1;),
(b) einen Unterschritt des Anwendens des zweiten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines zweiten Perplexitätswertes (PP&sub2;),
(c) einen Unterschritt des Modifizierens der Gewichte durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (W&sub1;), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und
(d) einen Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor (1 + ki).
Vorzugsweise enthält der Schritt des Ausführens einer anfänglichen Auswertung wenigstens eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes (WC) des wenigstens eines Teils des Referenzkörpers.
Vorzugsweise kann der Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen eines Homogenitätsmaßes (H) des wenigstens einen Teils des Referenzkörpers enthalten.
Vorzugsweise wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile und durch Ausführen eines rangbasierten Korrelationsprozesses wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das Korrelationsergebnis das Homogenitätsmaß bildet.
Alternativ wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das Homogenitätsmaß bildet.
Wenn jede der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer entsprechenden Wortebenen-n-Gramm-Häufigkeitslisteumfaßt und wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt; dann umfaßt der Schritt des Setzens der Anfangswerte für die Gewichte vorzugsweise die Unterschritte des Berechnens eines Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf null des Wertes des Gewichts, das der entsprechenden Unähnlichkeitskomponente entspricht, die den Wortebenenn-Gramm-Häufigkeitslisten zugeordnet ist.
Es können die Schritte des Darstellens der entsprechenden Unähnlichkeitswerte und entsprechender Verbindungsglieder zu mehreren gespeicherten wiedergewonnenen Texten für jeden der mehreren gespeicherten wiedergewonnenen Texte für einen Anwender, des Empfangens eines zugewiesenen Relevanzwertes in bezug auf einen dargestellten Ähnlichkeitswert vom Anwender und des Modifizierens der Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der zugewiesenen Relevanzwerte enthalten sein.
Vorzugsweise umfaßt der Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu den dargestellten Unähnlichkeitswerten.
Der Anwender kann entsprechende Relevanzwerte in bezug auf mehrere der dargestellten Unähnlichkeitswerte zuweisen, und der Modifizierungsschritt kann das iterative Modifizieren der Gewichte für jeden der entsprechenden Relevanzwerte umfassen.
Vorzugsweise führt der Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit der vorgegebenen Funktion des Relevanzwertes, der dem gespeicherten wiedergewonnenen Text mit dem geringsten Unähnlichkeitsmaß entspricht, aus.
Der Schritt des Modifizierens der Gewichte kann den Unterschritt des Ableitens eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert der niedrigsten und höchsten Relevanzwerte ist, sowie den Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor umfassen.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Informationsagent für die Verwendung in einem Kommunikationsnetz geschaffen, das mehrere Datenbanken umfaßt, wobei der Agent umfaßt: Mittel zum Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals, Mittel zum Wiedergewinnen eines Kandidatendokuments in Textform,
Mittel zum Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
Mittel zum Analysieren wenigstens eines Teils des wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das ein Unähnlichkeitsmaß zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts bildet, und
Mittel zum Speichern des wiedergewonnenen Texts, falls das Unähnlichkeitsmaß kleiner als ein vorgegebener Schwellenwert der Unähnlichkeit ist.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Testen der Eignung eines Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung bei der Informationswiedergewinnung mittels Abfrage durch Beispiel geschaffen, wobei das Verfahren die folgenden Schritte umfaßt:
Empfangen eines möglichen Referenzdokuments;
Analysieren des Inhalts des möglichen Referenzdokuments durch die folgenden Unterschritte:
Unterteilen des möglichen Referenzdokuments in zwei im wesentlichen gleiche Abschnitte,
Gewinnen eines Maßes der linguistischen Unähnlichkeit zwischen den beiden Abschnitten und
Vergleichen des gewonnenen Maßes mit einem vorgegebenen Kriterium, um ein Analyseergebnis zu gewinnen; und
falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche Referenzdokument als der wenigstens eine Teil des Referenzkörpers geeignet ist.
Vorzugsweise umfaßt der Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen Referenzdokuments zu dem einen oder anderen der Abschnitte auf zufälliger Basis.
Alternativ oder zusätzlich umfaßt der Gewinnungsschritt das Erzeugen einer entsprechenden Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines rangbasierten Korrelationsprozesses zwischen den beiden Worthäufigkeitslisten.
Vorzugsweise besteht das vorgegebene Kriterium darin, daß das Ergebnis der Korrelation niedriger als ein vorgegebener Wert ist.
Ein Internet-Informationsagent der vorliegenden Erfindung und zwei Anwendungen, die den Agenten enthalten, werden nun beispielhaft unter Bezugnahme auf die Zeichnung beschrieben, worin:
Fig. 1 ein Informationszugriffsystem zeigt, das ein Informationsagentensystem enthält;
Fig. 2 einen Ablaufplan eines Prozesses der Informationswiedergewinnung des Zugriffsystems nach Fig. 1 zeigt;
Fig. 3 einen Ablaufplan der Unterschritte von einem der Schritte des · Ablaufplans nach Fig. 2 zeigt; und
Fig. 4 einen Ablaufplan der Unterschritte eines anderen der Schritte des Ablaufplans nach Fig. 2 zeigt.
Die folgenden Beschreibung nimmt an, daß ein Fachmann mit der Informationstechnologie, dem Internet, der interaktiven Weise, in der Web-Seiten, die Schaltflächen und Felder enthalten, dem Anwender auf dem Bildschirm eines Computer-Monitors dargestellt werden und in der der Anwender z. B. eine weitere Seite oder einen weiteren Dienst durch das Anklicken der geeigneten Schaltfläche unter Verwendung einer Maus auswählt und Informationen mittels einer Tastatur in Felder eingibt, z. B. das Eingeben einer einheitlichen Ressourcenadresse (URL) in ein Adressenfeld, um die Anzeige einer Seite anzufordern, die der eingegebenen um URL entspricht, vertraut ist.
In Fig. 1 kann ein Informationszugriffsystem gemäß einer Ausführungsform der vorliegenden Erfindung in einer bekannten Form der Informationswiedergewinnungs-Architektur gebaut sein, wie z. B. einer Client-Server-Architektur, die mit dem Internet verbunden ist.
Ausführlicher besitzt ein Kunde, wie z. B. eine internationale Gesellschaft, einen Client-Kontext eines Kunden, der mehrere Anwender umfaßt, die mit Personal-Computern oder Arbeitsplatzrechnern 10 ausgerüstet sind, wobei jeder einen residenten World-Wide-Web- Betrachter (WWW- oder W3-Betrachter) 12 besitzt und mit einem WWW-Dateiserver 14 verbunden ist. Ein Internet-Informationsagent (IIA) 16, effektiv eine Erweiterung des Betrachters 12, ist in der Form einer Software-Entität auf dem WWW-Dateiserver 14 resident. In einer Variante ist der IIA 16, der in dem Dateiserver 14 resident ist, durch einen entsprechenden IIA 16 ersetzt, der in jedem Arbeitsplatzrechner 10 resident ist.
Der WWW-Dateiserver 14 ist in bekannter Weise mit dem Internet verbunden, z. B. über das eigene Netz 20 des Kunden und einen Router 22. Auf den Dateiserver 24 des Dienstanbieters kann dann über das Internet, abermals über Router, zugegriffen werden. Ein Speicher 18 für die aufbewahrten Texte, dessen Verwendung später beschrieben wird, ist außerdem auf dem Dateiserver 14 resident oder durch den Dateiserver 14 zugänglich.
In einem IIA-gestützten System kann der Agent 16 selbst als eine Erweiterung eines bekannten Betrachters, wie z. B. Netscape, aufgebaut sein. Der Agent 16 ist effektiv in den Betrachter 12 integriert, der durch Netscape oder Mosaic usw. bereitgestellt sein kann, wobei er die Anzeige der Seiten und der Suchergebnisse (die außerdem als Suchdokumente bezeichnet werden) steuert.
Wie oben beschrieben ist, steht in der Client-Server-Architektur der Speicher 18 für die aufbewahrten Texte in der Datei im Dateiserver 14, wo der Agent 16 resident ist, in Varianten kann aber der Speicher 18 für die aufbewahrten Texte auf einem Server gespeichert sein, auf den von fern zugegriffen wird.
Ein Agent 16, der ein Softwareagent ist, kann im allgemeinen als eine Software-Entität beschrieben werden, die die Funktionalität des Ausführens einer Aufgabe oder von Aufgaben im Interesse eines Anwenders zusammen mit lokalen Daten oder dem Zugriff auf lokale Daten enthält, um diese Aufgabe oder diese Aufgaben zu unterstützen. Die in einem IIA-System relevanten Aufgaben, von denen eine oder mehrere durch einen Agenten 16 ausgeführt werden können, sind im folgenden beschrieben. Die lokalen Daten werden normalerweise Daten aus dem Speicher 18 für die aufbewahrten Texte enthalten, wobei die durch einen Agenten 16 bereitzustellende Funktionalität im allgemeinen Mittel enthalten wird, um einen Analysealgorithmus anzuwenden und die Ergebnisse zu speichern, und um dem Anwender eine geordnete Liste der Suchergebnisse bereitzustellen.
Die Ausführungsformen der vorliegenden Erfindung könnten entsprechend verschiedenen Software-Systemen gebaut sein. Es könnte z. B. zweckmäßig sein, daß objektorientierte Techniken angewendet werden. In den Ausführungsformen, wie sie im folgenden beschrieben sind, wird der Dateiserver 14 jedoch Unix-gestützt sein. Das System ist in "Perl" implementiert, obwohl der Client irgendeine Maschine sein kann, die einen W3-Betrachter unterstützen kann.
Unter zusätzlicher Bezugnahme auf die Ablaufpläne in den Fig. 2 bis 4 führt eine erste Anwendung des Agenten 16 die Aktivierung der Informationswiedergewinnung (die außerdem als Informationszugriff bekannt ist) durch einen Anwender einer Suchanforderung aus, die im Stand der Technik als "Abfrage durch Beispiel" oder "finde für mich etwas weiteres wie dieses" bekannt ist. In dieser Ausführungsform beginnt der Anwender an einem Arbeitsplatzrechner 10 die Informationswiedergewinnung durch das Klicken auf eine Schaltfläche, die den Agenten 16 auslöst (Schritt 30). Nun wird eine Seite vom Dateiserver 14 zum Arbeitsplatzrechner des Anwenders heruntergeladen, diese Seite besitzt verschiedene Felder, einschließlich eines Feldes für den Eintrag der URLs, und verschiedene Schaltflächen, einschließlich einer "Abfrage durch-Beispiel"-Schaltfläche. Der Anwender positioniert die Schreibmarke des Bildschirms im Feld für die Eingabe der URL in der üblichen Weise, tippt die URL eines Referenzdokuments (Schritt 32) ein und klickt auf die Abfrage durch- Beispiel-Schaltfläche, um den Agenten 16 auszulösen, d. h. zu starten, der das Wiedergewinnen des Referenzdokuments beginnt (Schritt 34).
Dieses Referenzdokument bildet den Referenzkörper für den Agenten 16, aber, wie im folgenden erklärt ist, kann der Referenzkörper aus zwei oder mehr Dokumenten gebildet werden, die gemeinsam genommen werden.
Der Betrieb des Agenten 16 wird zuerst kurz und später ausführlicher beschrieben.
Der Agent 16 verarbeitet das wiedergewonnene Referenzdokument (Schritt 36), um vier Gewichte W&sub1; bis W&sub4; abzuleiten, die den vier Unähnlichkeitsmaßstäben M&sub1; bis M&sub4; entsprechen, diese Unähnlichkeitsmaßstäbe werden auf ein Kandidatendokument angewendet, d. h. auf ein Dokument, das vom Agenten bewertet wird, um die zurückgeschickten Werte RV&sub1; bis RV&sub4; zu erhalten.
Der Agent 16 beginnt mit dem durch die URL gekennzeichneten Kandidatendokument, die in den im folgenden beschriebenen Suchanweisungen enthalten ist. Er wendet auf das Kandidatendokument die vier Unähnlichkeitsmaßstäbe M&sub1; bis M&sub4; an, gewinnt die vier zurückgeschickten Werte RV&sub1; bis RV&sub4;, wie im folgenden beschrieben ist, leitet in Übereinstimmung mit dem Ausdruck
DD = WiRV1 + W1·(1 - RV&sub1;)
eine Unähnlichkeit der Dokumente (DD) ab (Schritt 38) und vergleicht die DD mit einem Unähnlichkeits-Schwellenwert (DT) (Schritt 42), um zu bestimmen, ob das Kandidatendokument in den Speicher 18 für die aufbewahrten Texte zu schreiben ist (und folglich die Notwendigkeit für ein weiteres Herunterladen durch den Anwender in einer späteren Stufe beseitigt wird) und dem Anwender als "ein weiteres wie das Referenzdokument" gemeldet wird, wenn am Ende der Suche eine Liste der Dokumente, die in umgekehrter Reihenfolge der DD geordnet ist, d. h. mit der niedrigsten zuerst, auf dem Arbeitsplatzrechner des Anwenders bereitgestellt wird (Schritt 46). Dieser Ausdruck bildet einen neunten Teil des Analysealgorithmus, wobei später weiter auf ihn Bezug genommen wird.
Die vier Maßstäbe und die Weise, in der sie arbeiten, um die zurückgeschickten Werte zu erhalten, werden nun ausführlicher, beginnend mit dem Maßstab M&sub1;, beschrieben.
Der durch die Anwendung des Unähnlichkeitsmaßstabes M&sub1; auf das Kandidatendokument gewonnene zurückgeschickte Wert RV&sub1; ist ein Maß der Unähnlichkeit der Wörter des Titels des Kandidatendokuments zum Inhalt des Referenzdokuments in der Form seiner Worthäufigkeitsliste. Der Agent 16 unter der Steuerung eines ersten Teils seines Analysealgorithmus, der den Maßstab M&sub1; definiert, erzeugt die Worthäufigkeitsliste des Referenzdokuments (und schließt in Übereinstimmung mit den arideren Teilen des Analysealgorithmus häufig auftretende Wörter, wie z. B. die bestimmten und unbestimmten Artikel, aus). Die Wörter (die außerdem als Ausdrücke bezeichnet werden) sind in der Reihenfolge ihrer Häufigkeit des Auftretens geordnet, d. h. der Ausdruckhäufigkeit, wobei diese Liste außerdem als eine Ausdruckshäufigkeitsliste (TFL) bekannt ist.
Unter der Steuerung dieses ersten Teils des Analysealgorithmus wendet der Agent 16 den Maßstab M&sub1; auf den Titel des Kandidatendokuments an und erzeugt eine Worthäufigkeitsliste. Dann erzeugt der Agent 16 unter Verwendung der zwei Worthäufigkeitslisten den zurückgeschickten Wert RV&sub1; in Übereinstimmung mit einer Version der Technik des Kosinusmaßes, wie sie von Salton entwickelt wurde und in dem Buch "Introduction to Modern Information Retrieval" von G. Salton, veröffentlicht von McGraw Hill, 1983, beschrieben ist. In dieser Version der Technik des Kosinusmaßes nimmt der Agent 16 die Ausdruckshäufigkeit (TF) von jedem Wort der Worthäufigkeitsliste des Referenzdokuments, multipliziert jede TF mit dem Inversen der Anzahl der Dokumente, in denen das Auftreten des entsprechenden Wortes bekannt ist (der inversen Dokumentenhäufigkeit oder IDF), um die Werte zu erzeugen, die im Stand der Technik als TFIDFs oder TFIDFs bekannt sind, wobei er aus diesen TFIDFs einen Vektor erzeugt (der außerdem als ein Vektorraummodell bekannt ist).
Um die IDFs zu gewinnen, verwendet der Agent indirekt, wie im folgenden beschrieben ist, eine Datenbank aus Dokumenten in englischer Sprache (die CELEX-Datenbank), veröffentlicht von CE- LEX, dem Dutch Centre for Lexical Information, Max-Planck-Institut für Psycholinguistik, Nijmegen, Niederlande. Die CELEX-Datenbank (die außerdem als der CELEX-Körper bekannt ist) enthält einige 18 Millionen englischer Wörter und ist auf CD-ROM verfügbar.
Bevor der Agent 16 für die betriebsfähige Verwendung verfügbar ist, wird eine Worthäufigkeitsliste offline aus dieser CD-ROM durch einen Prozeß erzeugt worden sein, der nicht Teil des Agenten 16 ist und der die Worthäufigkeitsliste als eine Datei auf einer Platte im Server 14 gespeichert hat. Der Agent 16 greift für jedes Wort der Worthäuiigkeitsliste des Referenzdokuments auf diese Datei zu, gewinnt eine entsprechende Ausdruckshäufigkeit, erzeugt die erforderliche IDF durch das Bilden des Inversen, d. h. Reziproken, des natürlichen Logarithmus der Ausdruckhäufigkeit und verwendet dieses, um die TFIDF für das Wort zu erzeugen.
Unter der Steuerung des ersten Teils des Analysealgorithmus erzeugt der Agent 16 einen entsprechenden Vektor für die Worthäufigkeitsliste des Titels des Kandidatendokuments, wobei er dann den Kosinus des Winkels zwischen den zwei Vektoren bildet, der den zurückgeschickten Wert RV&sub1; bildet. Der Agent leitet dann den Wert (1 - RV&sub1;) ab, multipliziert diesen Wert mit dem Gewicht W&sub1; und gibt den sich ergebenden Wert W&sub1;·(1 - RV&sub1;) in einen Speicher 23 für die zurückgeschickten Werte des Dokuments im Dateiserver 14 in Verbindung mit der URL des Kandidatendokuments ein.
Dieser erste Teil des Analysealgorithmus bildet eine Komponente der ersten vorgegebenen Funktion der vorliegenden Erfindung, wobei die Worthäufigkeitsliste des Referenzdokuments eine Komponente des ersten Ausgangsignals der vorliegenden Erfindung bildet. In dieser Ausführungsform bildet der erste Teil des Analysealgorithmus außerdem eine Komponente der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei der zurückgeschickte Wert RV1 eine Komponente des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bildet.
Unter Bezugnahme auf die anderen Maßstäbe M&sub2; bis M&sub4; ist der zurückgeschickte Wert RV&sub2; ein Maß der Unähnlichkeit der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments und der Zeichenebenen-n-Gramm-Häufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines zweiten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub2; anwendet; der zurückgeschickte Wert RV&sub3; ist ein Maß der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines dritten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub3; anwendet; und der zurückgeschickte Wert RV&sub4; ist ein Maß der Unähnlichkeit der Wortebenen-n-Gramm des Referenzdokuments und der Wortebenen-n- Gramm des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines vierten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub4; anwendet.
Die zweiten, dritten und vierten Teile des Analysealgorithmus bilden die entsprechenden Komponenten der ersten vorgegebenen Funktion der vorliegenden Erfindung, während die Zeichenebenen-n-Gramm- Häufigkeitsliste des Referenzdokuments, die Worthäufigkeitsliste des Referenzdokuments und die Wortebenen-n-Gramm-Liste des Referenzdokuments die entsprechenden Komponenten des ersten Ausgangssignals der vorliegenden Erfindung bilden. In dieser Ausführungsform bilden die zweiten, dritten und vierten Teile des Analysealgorithmus außerdem die entsprechenden Komponenten der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei die zurückgeschickten Werte RV&sub2;, RV&sub3; und RV&sub4; die entsprechenden Komponenten des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bilden.
In dieser Ausführungsform ist "n" für die Wortebenen-n-Gramme drei und für die Zeichenebenen-n-Gramme fünf; eine Zeichenebenen-n- Gramm-Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Zeichen-Bigramme, die Zeichen-Trigramme, die Zeichen-Tetragramme und die Zeichen-Pentagramme; eine Wortebenen-n-Gramm- Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Wort- Unigramme (einzelne Wörter), die Wort-Bigramme und die Wort- Trigramme, d. h. der Ausdruck "n-Gramm-Häufigkeitsliste" bedeutet in dieser Beschreibung in bezug auf Wörter n - Gramm, während er in bezug auf Ausdrücke n - Gramm bedeutet.
Die obenerwähnte Verarbeitung des Referenzdokuments, um die Gewichte abzuleiten, wird in Übereinstimmung mit den fünften, sechsten und siebenten Teilen des Analysealgorithmus ausgeführt. Die fünften und sechsten Teile gewinnen zwei Messungen, die die Eingangssignale in den siebenten Teil des Analysealgorithmus sind, der die Gewichte W&sub1; bis W&sub4; erzeugt. Die erste Messung bezieht sich auf die Größe des Referenzdokuments, während sich die zweite Messung auf die Menge der linguistischen Variation bezieht.
Bei der ersten Messung führt der Agent 16 in Übereinstimmung mit dem fünften Teil des Analysealgorithmus eine Wortzählung des Textes des Referenzdokuments aus.
Bei der zweiten Messung, die als eine Homogenitätsprüfung vorgestellt werden kann, teilt der Agent 16 unter der Steuerung des sechsten Teils des Analysealgorithmus den Text des Referenzdokuments in zwei im wesentlichen gleiche Abschnitte, wobei jeder Satz dem einen oder dem anderen der zwei Abschnitte auf zufälliger Basis zugewiesen wird (Schritt 36B). Für jeden der zwei Abschnitte erzeugt der Agent 16 eine entsprechende Worthäufigkeitsliste und vergleicht dann die Listen (Schritt 36C), wobei er Wörter findet, die beiden Listen gemeinsam sind, und für jedes derartige Wort das Modul der Differenz ihrer entsprechenden Ränge (R) ableitet, d. h. er führt einen einfachen Korrelationsprozeß an den Listen aus. Falls beispielsweise das Wort "Maßstab" in einer Liste als sechstes (R&sub6;) und in der anderen Liste als achtes (R&sub8;) eingestuft ist, dann wird der abgeleitete Wert zwei sein. Die Summe (H) dieser Differenzen wird gewonnen, wobei sie ein inverses Maß der Homogenität des Referenzdokuments ist. Mit anderen Worten, wenn die zwei Abschnitte völlig gleiche Worthäufigkeitslisten erzeugt haben, dann würden alle entsprechenden Differenzen null sein, wobei die Summe null sein wird (hohe Homogenität). In dem Fall, daß sich ein Wort in einer Liste nicht in der anderen Liste befindet, wird ein Pseudorang "r + 1", d. h. (Rr+1), für den fehlenden Rang vergeben, wobei "r" die Anzahl der Wörter in der anderen Wortliste ist. Für die Zwecke der vorliegenden Erfindung bildet dieser einfache Korrelationsprozeß einen ranggestützten Korrelätionsprozeß.
In einer Variante erzeugt der sechste Teil des Analysealgorithmus einen für die Homogenität repräsentativen Wert, indem er ein Log- WahrscheinlichkeitsmaiS (LL) an den zwei Abschnitten in einer zum Schritt 38C ähnlichen Weise ausführt, die im folgenden in bezug auf die Häufigkeits-Unterlisten des Kandidatendokuments und des Referenzdokuments beschrieben ist.
Der durch den fünften Teil des Analysealgorithmus erzeugte Wortzählwert (WC) und die durch den sechsten Teile des Analysealgorithmus erzeugte Summe (H) werden als Eingangssignale zum siebenten Teil des Analysealgorithmus geliefert, der die Gewichte W&sub1; bis W&sub4; (Schritt 36D) in Übereinstimmung mit einem Vertrauenswert (CV) erzeugt, wobei CV = WC/H gilt.
Für eine spezielle Gruppe von Quelldokumenten, die vom Anmelder verwendet wird, waren die Homogenitätswerte kleiner als hundert, während die Wortzählwerte größer als tausend waren. Für diese Dokumente war der für den CV gewählte Schwellenwert zehn, d. h., ein Referenzdokument, dessen Vertrauenswert wenigstens zehn beträgt, wird als ein hohes Vertrauen besitzend betrachtet, während ein Referenzdolcument, dessen Vertrauenswert unter zehn liegt, als ein niedriges Vertrauen besitzend betrachtet wird. Für Dokumente mit verschiedenem Inhalt und verschiedener Größe des Vokabulars, verglichen mit diesen Quelldokumenten, können die Homogenitätswerte und die Wortzählwerte merklich verschieden sein, wobei gegebenenfalls ein anderer Wert für den Schwellenwert gewählt wird.
Für ein Referenzdokument mit hohem Vertrauen werden die Werte W&sub1; = 1, W&sub2; = 1, W&sub3; = 1 und W&sub4; = 1 verwendet; während für ein Referenzdokument mit niedrigem Vertrauen die Werte W&sub1; = 1, W&sub2; = 10, W&sub3; = 1, W&sub4; = 0,1 verwendet werden, d. h., in diesem letzteren Fall wird der Beitrag des Maßstabs M&sub4; verringert, wobei (aus den obigen Gründen) eine größere Betonung auf den Beitrag des Maßstabs M2 gelegt wird.
In einer Variante ist der CV keine Sprungfunktion, wie oben, wo die Gewichte eine erste Gruppe von Werten besitzen, wenn CV wenigstens zehn ist, und eine zweite Gruppe von Werten, wenn CV kleiner als zehn ist, sondern die Gewichte variieren als eine kontinuierliche Funktion von CV. Für einen sehr niedrigen Wert von CV besitzt W&sub2; einen hohen Wert, W&sub3; besitzt einen mittleren Wert, während W&sub4; einen niedrigen Wert oder Nullwert besitzt. Wenn CV zunimmt, nimmt W&sub2; ab, W&sub3; bleibt konstant (oder, in einer anderen Variante, nimmt zu einem Maximum zu und nimmt dann ab), während W&sub4; zu einer Asymptoten zunimmt.
In einer weiteren Variante sind die Gewichte so gesetzt, daß jeder Wi·RVi etwa den gleichen gemeinsamen Wert besitzt.
In einer noch weiteren Variante besitzen die Gewichte einen minimalen Wert, unter den sie weder durch den siebenten Teil des Analysealgorithmus noch durch den Anwender, falls er die Werte modifiziert, wie später beschrieben ist, gesetzt werden können. In dieser Weise kann ein Gewicht durch den Agenten 16 unter der Steuerung eines zehnten Teils des Analysealgorithmus vergrößert werden, der die Gewichte abhängig von den durch den Anwender gewährten Relevanzwerten einstellt. Dies ist später ausführlicher beschrieben. Im Schritt 36A wendet der Agent 16, wie früher erwähnt ist, die zweiten, dritten und vierten Teile des Analysealgorithmus auf das Referenzdokument an und speichert die Zeichenebenen-n-Gramm- Häufigkeitsliste, die Worthäufigkeitsliste und die Wortebenen-n- Gramm-Häufigkeitsliste, die auf diese Weise gewonnen wurden, in einem Speicher 19 im Dateiserver 14.
In einer Variante erzeugt der dritte Teil des Analysealgorithmus nicht die Worthäufigkeitsliste des Referenzdokuments, sondern diese wird durch den sechsten Teil des Analysealgorithmus aus den entsprechenden Worthäufigkeitslisten für die zwei Abschnitte des Dokuments (aus der Homogenitätsprüfung) erzeugt.
Der Agent 16 zeigt nun auf dem Arbeitsplatzrechner 10 des Anwenders in den entsprechenden Feldern einer Suchinformationsseite die Werte der Gewichte W&sub1; bis W&sub4; und einen vorgegebenen Wert (10.000) für den DT an (Schritt 36F), wobei der Anwender diese Werte durch das Eingeben von Werten von seiner Tastatur in diese Felder modifizieren kann, um die vom Agenten abgleiten Werte zu überschreiben (Schritt 36G).
Wenn der Anwender mit den Werten zufrieden ist, klickt er eine Fortsetzungs-Schaltfläche in der Seite an, damit die Suche durch den Agenten fortgesetzt wird (Schritt 36H).
Der Agent liest nun seine Suchanweisungen aus einer Aufgabendatei 21 im Dateiserver 14 (Schritt 38A). Diese Anweisungen decken derartige Einzelheiten ab, wie:
die Start-URL für die Suche (d. h. das Startdokument);
die Anzahl der zu durchsuchenden Ebenen (diese besitzt ein Minimum von eins, sie ist aber vorzugsweise nicht größer als zehn, um lange Suchzeiten zu vermeiden);
die Grenzen der Suche (einschließlich der Bedingung für den Abschluß der Suche);
die auszuschließenden Verzeichnisse.
Der Agent 16 fährt dann fort, in einer Weise nach Kandidatendokumenten zu suchen, die als Breitensuche bekannt ist, wobei er die Verbindungsglieder untersucht, wie er sie findet.
Der Anwender wird die Start-URL entweder mit einer ".txt"- oder ".html"-Erweiterung spezifiziert haben, wobei der Agent 16 irgendwelche anderen Erweiterungen ignorieren wird, wenn er den Verbindungsgliedern in den Dokumenten folgt.
Wenn der Agent 16 das Start-Kandidatendokument lokalisiert, ruft er es ab, indem er eine Prozedur ausführt, die als http-"Lade"-Operation bekannt ist (Schritt 38B), die das Dokument in einen temporären Dokumentenspeicher 17 setzt, um die Analyse zu unterstützen, wobei er fortfährt, den ersten Maßstab M&sub1; anzuwenden. Der Wert des zurückgeschickten Wertes RV&sub1; wird gewonnen, wobei er vorübergehend in einem Akkumulator 25 im Dateiserver 14 gespeichert wird. Dann wird der Wert von W&sub1;·(1 - RV&sub1;) unter der Steuerung eines achten Teils des Analysealgorithmus gewonnen und in den Speicher 23 für die zurückgeschickten Werte des Dokuments eingegeben. Dieser Speicher wird unter der Steuerung eines neunten Teils des Analysealgorithmus gemanagt, um die Komponenten der DD zu summieren.
Als nächstes fährt der Agent 16 fort, den zurückgeschickten Wert RV&sub2; zu gewinnen, indem er den Maßstab M&sub2; auf das Kandidatendokument anwendet, wie im folgenden beschrieben ist.
Unter der Steuerung des zweiten Teils des Analysealgorithmus (M&sub2;) leitet der Agent 16 nun die Zeichenebenen-n-Gramm-Häufigkeitsunterüsten für das Kandidatendokument ab (Schritt 38C). Ein Log- Wahrscheinlichkeitsmaß (LL) für die Unähnlichkeit zwischen diesen Häufigkeitsunterlisten und denjenigen des Referenzdokuments wird in Übereinstimmung mit der Technik gewonnen (Schritt 38C), die in dem Artikel "Accurate methods for the statistics of surprise and coincidence", von E. Dunning, Computational Linguistics, Bd. 19, Nr. 1, 1993, beschrieben ist. Dieses Maß, das den zurückgeschickten Wert RV&sub2; bildet, wird vorübergehend im Akkumulator 25 gespeichert.
Das LL (der zurückgeschickte Wert RV&sub2;) wird nun unter der Steuerung des achten Teils des Analysealgorithmus mit dem Gewicht W&sub2; multipliziert und kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
In einer Variante wird anstelle des LL eine Rangkorrelationstechnik verwendet. Mit anderen Worten, ein zurückgeschickter Wert RV&sub2; wird durch das Vergleichen des ersten Eintrags der ersten Unterliste (Bigramm, R&sub1;(ref)) der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments mit der entsprechenden Unterliste für das Kandidatendokument gewonnen, wobei, falls eine Übereinstimmung festgestellt wird, das Modul der Differenz in den Rängen ( R&sub1;(ref) - Rmc(can) ) in den Akkumulator 25 eingegeben werden, wobei Rmc(can) der Rang (R) des übereinstimmenden Zeichens (mc) der entsprechenden Unterliste für das Kandidatendokument (can) ist. Falls, wie oben im Zusammenhang mit der Homogenitätsprüfung erklärt ist, keine Übereinstimmung festgestellt wird, wird der Wert R&sub1;(ref) - Rr(can)+1 gespeichert, wobei Rr(can)+1 ein Pseudorang eines weniger als der niedrigste Rang der entsprechenden Kandidaten- Unterliste ist.
Nach dem Speichern der Rangdifferenz für das erste Bigramm im Akkumulator 25 geht der Analysealgorithmus dann zum Bigramm das zweiten Rangs, gibt die entsprechende Rangdifferenz in den Akkumulator 25 ein, usw. Wenn alle Digramme verarbeitet worden sind, werden die anderen Unterlisten der Reihe nach verarbeitet. Die akkumulierte Summe im Akkumulator 25 ist der zurückgeschickte Wert RV&sub2;.
In der spezifischen Ausführungsform wendet der Agent als nächstes (Schritt 38C) den Maßstab M&sub3; (den dritten Teil des Analysealgorithmus) an und gewinnt das LL der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments. Der Agent 16 gewichtet dann unter der Steuerung des achten Teils des Analysealgorithmus das LL (das den zurückgeschickten Wert RV&sub3; bildet) durch das Gewicht W&sub3;, wobei er den Wert W&sub3;·RV&sub3; kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
Als nächstes gewinnt der Agent den zurückgeschickten Wert RV&sub4; (Schritt 38C) unter der Steuerung des vierten Teils des Analysealgorithmus (des Maßstabs M&sub4;) wie folgt.
Der Agent 16 konstruiert ein Rückkopplungs-Trigramm-Sprachmodell (LM) des Referenzdokuments aus den Unterlisten der Wortebenen-n-Gramme (der Häufigkeitsausdrücke) in Übereinstimmung mit dem Prozeß, der in "Estimation of probabilities from sparse data" von S. Katz, IEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-35, 1987, offenbart ist, und speichert den LM im Speicher 19. Der Agent 16 verwendet dann dieses Trigramm-LM, um den Perplexitätswert (PP) zu berechnen, der den zurückgeschickten Wert RV&sub4; des Kandidatendokuments in Übereinstimmung mit dem Prozeß bildet, der in "Self-organised language modelling for speech recognition" von F. Jellinek, in "Readings in Speech Recognition", herausgegeben von A. Waibel und K. Lee, veröffentlicht von Morgan Kaufmann, 1990, offenbart ist, und speichert den PP im Speicher 19. Der Agent 16 multipliziert dann unter der Steuerung des achten Teils des Analysealgorithmus den PP mit dem Gewicht W&sub4; und gibt ihn in den Speicher 23 für die zurückgeschickten Werte des Dokuments ein. Je niedriger der PP ist, desto besser ist das LM beim Vorhersagen der Inhalte des Kandidatendokuments, und folglich ist das Kandidatendokument um so weniger unähnlich zum Referenzdokument.
Es wird selbstverständlich sein, daß in dieser bevorzugten Ausführungsform das LM lediglich am Anfang der Suche aus dem Referenzdokument erzeugt wird, wobei es nicht abermals erzeugt wird.
Der Agent 16 vergleicht nun unter der Steuerung eines elften Teils des Analysealgorithmus den Gesamtwert im Speicher 23 für die zurückgeschickten Werte des Dokuments, d. h. die Unähnlichkeit der Dokumente (die durch das Summieren der Komponenten in Übereinstimmung mit dem Ausdruck des neunten Teils des Analysealgorithmus gewonnen worden ist), mit dem Unähnlichkeits-Schwellenwert DT, wobei er, falls die Unähnlichkeit der Dokumente kleiner als der DT ist, das Dokument im Speicher 18 für die aufbewahrten Texte speichert. Auf jeden Fall wird das Kandidatendokument aus dem temporären Dokumentenspeicher 17 gelöscht, wobei der Akkumulator 25 in Bereitschaft für die Verarbeitung des nächsten Kandidatendokuments auf null zurückgesetzt wird, das der Agent durch das Folgen eines URL-Verbindungsglieds in bekannter Weise vom gerade verarbeiteten Kandidatendokument lokalisiert. Der Agent folgt den Verbindungsgliedern, die entweder eine ".txt"- oder ".html"-Erweiterung besitzen, wobei er die Verbindungsglieder ignoriert, die irgendeine andere Erweiterung besitzen. In einer Variante antwortet Agent 16 auf Verbindungsglieder, die von ".txt" oder ".html" verschiedene Erweiterung besitzen, wobei er eine Validierungsprüfung an diesen Verbindungsgliedern ausführt, wobei er aber nicht versucht, irgendwelche Dateien wiederzugewinnen.
Der Agent 16 bricht jeden Versuch ab, eine einzelne Seite herunterzuladen, falls eine vorgegebene Zeitabschaltung erreicht wird, wobei er dann weitergeht, um ein Herunterladen einer anderen Seite zu versuchen.
Wenn die Suche abgeschlossen ist, d. h., wenn alle Suchanweisungen erfüllt worden sind, sortiert der Agent 16 (aus den Daten im Speicher 23) die URLs, die er besucht hat, in umgekehrte Reihenfolge der Unähnlichkeit der Dokumente, d. h. die niedrigste zuerst, wobei er dann in der üblichen Weise die ersten zehn Dokumenten-URLs und Titel der sortierten Liste (diese Liste wird außerdem als die Suchergebnisse bezeichnet) zusammen mit ihren zugeordneten Unähnlichkeiten der Dokumente als eine erste Seite auf dem Arbeitsplatzrechner 10 des Anwenders darstellt. Der Anwender kann irgendeines dieser Suchdokumente aus der Datei 18 für die aufbewahrten Texte für die unmittelbare Anzeige wiedergewinnen, indem er auf den angezeigten Dokumententitel klickt.
Anstatt daß der Referenzkörper ein einzelnes Referenzdokument ist, das durch eine vom Anwender bereitgestellte URL gekennzeichnet ist, kann der Referenzkörper kann eine vollständige WWW-Site (Web-Site) sein, die außerdem durch eine durch den Anwender bereitgestellte URL gekennzeichnet ist, wobei der Agent 16 die Inhalte der vollständigen Web-Site in einer zum Analysieren eines einzelnen Dokuments ähnlichen Weise analysieren wird, um die entsprechenden Gewichte W&sub1; bis W&sub4; und die entsprechenden Häufigkeitslisten zu erzeugen. In einer Variante kann der Anwender mehrere einzelne Dokumente durch ihre URLs spezifizieren, wobei der Agent diese mehreren Dokumente als einen Referenzkörper behandeln wird.
Die Ergebnisseite enthält ein Relevanz-Piktogramm, das jedem Dokument zugeordnet ist und eine Funktion zum Modifizieren der Gewichte W&sub1; bis W&sub4; darstellt. Der Anwender kann dem Agenten 16 die Relevanz von einem oder mehreren Suchdokumenten angeben. Durch das Klicken auf ein ausgewähltes Piktogramm wird dem Anwender eine Auswahl aus Relevanzebenen (R) von null bis zehn dargestellt, wobei die vorgegebene Ebene null ist. In Varianten gibt es mehrere Relevanz-Piktogramme für ein Dokument, die die direkte Auswahl der entsprechenden Relevanzebene ermöglichen, oder der Anwender kann einen Relevanzwert unter Verwendung eines Schiebebalkens (d. h. einer kontinuierlich veränderlichen Relevanzfunktion) in bekannter Weise einstellen.
Der Anwender kann die Suche nach einer kurzen Zeit anhalten und die Suchergebnisse überprüfen. Falls durch den Agenten 16 zu viele Dokumente gefunden werden, kann der Anwender den Wert für DT auf angenommen 6000 verringern und den Agenten für eine neue Suche auslösen.
Falls der Anwender wünscht, die Suche zu verfeinern, kann der die Relevanz von einem oder mehreren der Suchdokumente angeben und auf eine Schaltfläche für die Verfeinerung der Suche klicken.
Beginnend mit dem Suchdokumenten mit der höchsten Einstufung, d. h. dem Dokument mit der niedrigsten DD, erzeugt der Agent 16 nun modifizierte Gewichte (W&sub1; + ΔW&sub1;) bis (W&sub4; + ΔW&sub4;) unter der Steuerung des zehnten Teils des Analysealgorithmus, der ΔW wie folgt erzeugt:
ΔWi = (k)· (Wi·RVi/DD)·(R - 5)·Wi
wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/50 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt. Mit anderen Worten, ein Gewicht wird modifiziert, indem es mit (1 + K) multipliziert wird, wobei K = (k)·(Wi·RVi/DD) (R - 5) gilt.
Der Agent 16 geht nun zum Suchergebnis mit der zweithöchsten Einstufung, wobei er abermals die Gewichte modifiziert, usw., d. h. iterativ durch die Liste der Suchergebnisse hinunter.
In dieser Ausführungsform fährt der Agent 16 mit einer neuen Suche fort, wenn er seine letzte Gewichtsmodifikation ohne Änderung des Referenzkörpers ausgeführt hat. In Varianten wird der Referenzkörper mit wenigstens dem Suchdokument kombiniert, das die höchste zugewiesene Relevanzebene aufweist.
In alternativen Formen dieser Ausführungsform kombiniert der Agent 16 zuerst den Referenzkörper mit wenigstens dem Suchdokument, das die höchste zugewiesene Relevanzebene aufweist, wobei er die fünften, sechsten und siebenten Teile des Algorithmus wiederholt, um eine neue Gruppe von Gewichten zu erzeugen, anstatt die ursprüngliche Gruppe der Gewichte zu modifizieren.
In einer Variante ignoriert der Agent 16 jedes Suchdokument, für das der Anwender die Relevanz null zugewiesen hat, d. h. der Anwender hat die Relevanzebene auf ihrer vorgegebenen Ebene gelassen.
In einer Variante wird die Anwendung der Relevanz null durch Vorgabe nicht verwendet, wobei der Anwender die Relevanz von allen Suchdokumenten angeben muß, bevor die verfeinerte Suche weitergehen kann.
In der zweiten Ausführungsform der vorliegenden Erfindung ist der Agent 16 für die Verwendung in einem Spracherkennungssystem angepaßt, um ein LM bereitzustellen. In dieser beispielhaften Ausführungsform bezieht sich das LM auf einen Zielbereich, der durch ein Informationssystem für einen Eisenbahnfahrplan gebildet wird, wobei es repräsentativ dafür ist, wie in diesem besonderen Bereich Sprache verwendet wird. Die von einem Anwender des Informationssystems empfangene Sprache wird mit dem LM verglichen, das in der Form eines Rückkopplungs-Trigramm-Sprachmodells vorliegt, damit das Spracherkennungssystem mit einem hohen Grad des Vertrauens das nächste zu empfangende Wort voraussehen kann.
Ein zweckmäßiger Startpunkt sind die Transkriptionen von mehreren gesprochenen Transaktionen im Zielbereich. Diese werden von einem Entwickler des Spracherkennungssystems als ein Referenzkörper für den Agenten 16 durch Aufzeichnen und Umschreiben tatsächlicher Anwenderdialoge im Zielbereich bereitgestellt.
Der Agent 16 teilt zuerst den Referenzkörper in zwei Abschnitte, diese werden als ein Trainingsabschnitt und ein Entwicklungsabschnitt bezeichnet (in diesem Zusammenhang ist ein Abschnitt des Referenzkörpers außerdem als ein Unterkörper bekannt). Wenn der Referenzkörper angemessen groß ist, dann umfaßt der Trainingsabschnitt etwa 50% des Referenzdokuments, für einen kleinen Referenzkörper wird der Trainingsabschnitt aber etwa 80% umfassen. Dann führt der Agent 16 die anfängliche Analyse des Trainingsabschnitts aus, wobei er die Gewichte W&sub1; bis W&sub4; für die Maßstäbe M&sub1; bis M&sub4; in einer ähnlichen Weise zur ersten Ausführungsform und einen vorgegebenen DT wie vorher erzeugt und ein LM in der Form eines Rückkopplungs-Trigramm-Sprachmodells (Maßstab M&sub4;) konstruiert. Die Gewichte W&sub1; bis W&sub4; werden über eine Seite auf dem Arbeitsplatzrechner 10 des Systementwicklers für die Annahme oder Modifikationen durch den Systementwickler angezeigt.
Der Agent 16 wendet nun das LM auf den Entwicklungsabschnitt an und gewinnt den PP des Entwicklungsabschnitts, der als PPold bezeichnet wird.
Der Systementwickler lenkt nun den Agenten 16 zu einer Liste relevanter WWW-Server. In einer Variante wird der Agent 16 zu einer Datenbank aus potentiell nützlichen Dokumenten auf einem lokalen Computer gelenkt.
Der Agent 16 ruft ein erstes Kandidatendokument ab, wendet die Maßstäbe M&sub1; bis M&sub4; mit den Gewichten W&sub1; bis W&sub4; wie in der ersten Ausführungsform an, speichert dieses Kandidatendokument, falls es eine DD kleiner als der DT besitzt, und fährt fort, weitere Dokumente abzurufen.
Der Agent 16 nimmt aus der Datei 18 für die aufbewahrten Texte das Kandidatendokument mit den niedrigsten DD-Wert und kombiniert in Übereinstimmung mit einem neunten Teil des Analysealgorithmus dieses Dokument vorübergehend mit dem Trainingsabschnitt des Referenzkörpers, gewinnt ein neues LM und wendet dieses neue LM auf den Entwicklungsabschnitt an, um einen neuen PP zu gewinnen, der als PPnew bezeichnet wird.
In einer zur ersten Ausführungsform ähnlichen Weise erzeugt der Agent 16 nun modifizierte Gewichte in Übereinstimmung mit dem Ausdruck
ΔWi = (k)·(Wi·RVi/DD)·(PPold - PPnew)·Wi,
wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/2000 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt.
Der Agent 16 wiederholt den Prozeß des neunten Teils des Analysealgorithmus für das Dokument in der Datei 18 für die aufbewahrten Texte mit dem nächstniedrigen DD-Wert, wobei er iterativ die Gewichte weiter modifiziert. Die Modifikation der Gewichte wird angehalten, wenn der Agent 16 eine Modifikation in bezug auf das letzte Dokumente in der Datei 18 für die aufbewahrten Texte ausgeführt hat. Der Agent 16 fährt nun fort, mehr Dokumente wiederzugewinnen und sie unter Verwendung der aktuellen Gruppe der Gewichte zu verarbeiten.
In Varianten führt der Agent 16 die Verarbeitung in Übereinstimmung mit dem neunten Teil des Analysealgorithmus auf einer Grundlage Dokument für Dokument aus, d. h. Wiedergewinnen von Dokumenten, bis ein erstes Dokument gefunden wird, das eine DD kleiner als der DT besitzt, Modifizieren der Gewichte auf der Grundlage dieses ersten gefundenen Dokuments, dann abermals Wiedergewinnen, Finden eines zweiten Dokuments und Modifizieren auf der Grundlage dieses zweiten gefundenen Dokuments, usw. In Varianten werden die aus der Datei 18 für die aufbewahrten Texte wiedergewonnenen Dokumente in diesem neunten Teil des Analysealgorithmus ständig mit dem Trainingsabschnitt kombiniert, der folglich zunehmend größer wird.
Der obenerwähnte Artikel von Katz beschreibt die Verwendung eines LMs in einem Spracherkennungskontext. Diese Verwendung ist per se nicht Teil der vorliegenden Erfindung, wobei sie nicht weiter beschrieben wird.
In Varianten dieses Spracherkennungssystems bezieht sich das LM auf andere Zielbereiche. Das LM kann in anderen auf die Sprache bezogenen Anwendungen verwendet werden, z. B. das Lokalisieren von Wörtern.
Während in den obigen Ausführungsformen die vier Maßstäbe zusammen verwendet werden, erstreckt sich die vorliegende Erfindung auf · Ausführungsformen, in denen lediglich einer der vier Maßstäbe verwendet wird, und auf Ausführungsformen, in denen irgendwelche zwei oder irgendwelche drei der vier Maßstäbe in Kombination verwendet werden. Im allgemeinen ist die Leistung des Agenten 16 um so besser, je mehr Maßstäbe sich in der Kombination befinden.
Die Homogenitätsprüfung des sechsten Teils des Analysealgorithmus kann gemäß einem anderen Aspekt der Erfindung verwendet werden, um die Eignung eines Referenzdokuments für die Verwendung als ein Referenzkörper oder ein Teil davon zu prüfen.

Claims

1. Verfahren zur Informationswiedergewinnung, das die folgenden Schritte umfaßt:

Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals,

Wiedergewinnen eines Kandidatendokuments in Textform,

Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,

Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das als Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und

Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein vorgegebener Unähnlichkeitsgrad ist.

2. Verfahren nach Anspruch 1, bei dem der analysierte Teil des wiedergewonnenen Texts der Titel des Kandidatendokuments ist.

3. Verfahren nach Anspruch 2, bei dem die erste vorgegebene Funktion die folgenden Schritte umfaßt:

Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus dem wenigstens einen Teil des Referenzkörpers,

Gewinnen entsprechender inverser Dokumenthäufigkeiten IDF für die Ausdrücke der ersten TFL und

Erzeugen eines ersten entsprechenden Vektors für die erste TFL, der entsprechende Elemente enthält, wovon jedes die Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist, wobei der erste entsprechende Vektor das erste Ausgangssignal bildet;

und bei dem die zweite vorgegebene Funktion die folgenden Schritte umfaßt:

Erzeugen eines zweiten entsprechenden Vektors für die zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF eines entsprechenden Ausdrucks der zweiten TFL ist, und

Ableiten eines Maßes der Differenz zwischen dem ersten Vektor und dem zweiten Vektor, wobei das Differenzmaß ein Unähnlichkeitsmaß bildet.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:

die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;

die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

5. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:

die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramrn-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Zeichenebene n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;

die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Log- Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:

die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste umfaßt, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;

die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:

die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

8. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:

die erste vorgegebene Funktion das Erzeugen einer ersten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein erstes Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet; und

die zweite vorgegebene Funktion das Erzeugen einer zweiten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n- Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine Komponente des Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

9. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:

die erste vorgegebene Funktion das Erzeugen einer Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Sprachmodell das Ausgangssignal bildet;

die zweite vorgegebene Funktion das Anwenden des Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines Perplexitätswertes umfaßt, wobei der Perplexitätswert ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der Vektoren gegebenenfalls eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.

10. Verfahren nach einem der Ansprüche 4 bis 9, wenn das Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt, umfassend den Schritt des Anlegens entsprechender Gewichte W1 an die entsprechenden Komponenten.

11. Verfahren nach Anspruch 10, bei dem die erste vorgegebene Funktion die Schritte des Ausführens einer anfänglichen Auswertung des wenigstens einen Teils des Referenzkörpers und des Setzens der Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom Ergebnis der anfänglichen Auswertung umfaßt.

12. Verfahren nach Anspruch 11, bei dem der Schritt des Setzens der Anfangswerte für die entsprechenden Gewichte umfaßt:

(a) den Unterschritt des Teilens des Referenzkörpers in einen Trainingsabschnitt, der den wenigstens einen Teil des Referenzkörpers bildet, und in einen Entwicklungsabschnitt;

(b) den Unterschritt des Analysierens des Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion und des Erzeugens entsprechender Komponenten eines Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt; und

(c) Gewinnen der Anfangswerte für die entsprechenden Gewichte durch Dividieren einer vorgegebenen Konstante durch die entsprechende Komponente des Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt.

13. Verfahren nach Anspruch 12, das die Schritte des Bildens eines weiteren Referenzkörpers durch Kombinieren des Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste aus dem weiteren Referenzkörper sowie des Ableitens eines entsprechenden zweiten Rückkopplungs-n-Gramm-Sprachmodells aus der entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das zweite Sprachmodell einen Ersatz für das erste Sprachmodell bildet.

14. Verfahren nach Anspruch 13, bei dem die erste vorgegebene Funktion umfaßt:

(a) einen vorhergehenden Unterschritt des Anwendens des ersten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines ersten Perplexitätswertes (PP1),

(b) einen Unterschritt des Anwendens des zweiten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines zweiten Perplexitätswertes (PP2),

(c) einen Unterschritt des Modifizierens der Gewichte durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und

(d) einen Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor.

15. Verfahren nach einem der Ansprüche 11 bis 14, bei dem der Schritt des Ausführens einer anfänglichen Auswertung wenigstens eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes (WC) wenigstens des Referenzkörpers enthält.

16. Verfahren nach einem der Ansprüche 11 bis 15, bei dem der Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen eines Homogenitätsmaßes (H) des wenigstens einen Teils des Referenzkörpers enthält.

17. Verfahren nach Anspruch 16, bei dem das Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile und durch Ausführen eines rangbasierten Korrelationsprozesses wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das Korrelationsergebnis das Homogenitätsmaß bildet.

18. Verfahren nach Anspruch 16, bei dem das Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens zwischen einem Paar det Worthäufigkeitslisten der anfänglichen Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das Homogenitätsmaß bildet.

19. Verfahren nach einem der Ansprüche 16 bis 18, wenn jede der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste umfaßt und wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt; und bei dem der Schritt des Setzens der Anfangswerte für die Gewichte die Unterschritte des Berechnens eines Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf null des Wertes des Gewichts, das der entsprechenden Unähnlichkeitskomponente entspricht, die den Wortebenen-n-Gramm-Häufigkeitslisten zugeordnet ist, umfaßt.

20. Verfahren nach einem der Ansprüche 10 bis 19, das die Schritte des Darstellens der entsprechenden Unähnlichkeitswerte und entsprechender Verbindungsglieder zu mehreren gespeicherten wiedergewonnenen Texten für jeden der mehreren gespeicherten wiedergewonnenen Texte für einen Anwender, des Empfangens eines zugewiesenen Relevanzwertes in bezug auf einen dargestellten Unähnlichkeitswertes vom Anwender und des Modifizierens der Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der zugewiesenen Relevanzwerte umfaßt.

21. Verfahren nach Anspruch 20, bei dem der Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu den dargestellten Unähnlichkeitswerten umfaßt.

22. Verfahren entweder nach Anspruch 20 oder nach Anspruch 21, bei dem der Anwender entsprechende Relevanzwerte in bezug auf mehrere der dargestellten Unähnlichkeitswerte zuweist und der Modifizierungsschritt das iterative Modifizieren der Gewichte für jeden der entsprechenden Relevanzwerte umfaßt.

23. Verfahren nach Anspruch 22, bei dem der Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit der vorgegebenen Funktion des Relevanzwertes, der dem gespeicherten wiedergewonnenen Text mit dem geringsten Unähnlichkeitsmaß entspricht, ausführt. ·

24. Verfahren nach einem der Ansprüche 20 bis 23, bei dem der Schritt des Modifizierens der Gewichte den Unterschritt des Ableitens eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert der niedrigsten und höchsten Relevanzwerte ist, sowie den Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor umfaßt.

25. Verfahren zum Testen der Eignung eines Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung bei der Informationswiedergewinnung mittels Abfrage durch Beispiel, wobei das Verfahren die folgenden Schritte umfaßt:

Empfangen eines möglichen Referenzdokuments;

Analysieren des Inhalts des möglichen Referenzdokuments durch die folgenden Unterschritte:

Unterteilen des möglichen Referenzdokuments in zwei im wesentlichen gleiche Abschnitte,

Gewinnen eines Maßes der linguistischen Unähnlichkeit zwischen den beiden Abschnitten und

Vergleichen des gewonnenen Maßes mit einem vorgegebenen Kriterium, um ein Analyseergebnis zu gewinnen; und

falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche Referenzdokument als der wenigstens eine Teil des Referenzkörpers geeignet ist.

26. Verfahren nach Anspruch 25, bei dem der Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen Referenzdokuments zu dem einen oder anderen der Abschnitte auf zufähiger Basis umfaßt.

27. Verfahren nach Anspruch 25 oder Anspruch 26, bei dem der Gewinnungsschritt das Erzeugen einer entsprechenden Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines rangbasierten Korrelationsprozesses zwischen den beiden Worthäufigkeitslisten umfaßt.

28. Verfahren nach Anspruch 27, bei dem das vorgegebene Kriterium darin besteht, daß das Ergebnis der Korrelation niedriger als ein vorgegebener Wert ist.

29. Informationsagent für die Verwendung in einem Kommunikationsnetz, das mehrere Datenbanken umfaßt, wobei der Agent die folgenden Schritte umfaßt: Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals 36,

Wiedergewinnen 38 eines Kandidatendokuments in Textform,

Analysieren 38 wenigstens eines Teils des wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals 40, das als ein Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt und

Speichern 44 des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer als ein vorgegebener Unähnlichkeitsgrad ist.

30. Informationszugriffsystem zum Zugreifen auf Informationen, die verteilt und für ein Kommunikationsnetz zugänglich gespeichert sind, wobei das Zugriffssystem wenigstens einen Softwareagenten für die Verwendung beim Zugreifen auf Informationen mittels des Netzes umfaßt, wobei der Agent mit einem Datenspeicher oder mit einem Zugriff auf einen Datenspeicher versehen ist, um wiedergewonnene Teile von Informationen zu speichern, wobei der Agent bei Empfang erster Identifizierungsinformationen auslösbar ist, um einen ersten Informationsteil, der den ersten Identifizierungsinformationen entspricht, wiederzugewinnen und den ersten Informationsteil in den Datenspeicher einzugeben, um den ersten Informationsteil zu analysieren und ein Analyseergebnis zu gewinnen, um einen zweiten Informationsteil, der empfangenen zweiten Identiiizierungsinformationen entspricht, wiederzugewinnen und den zweiten Informationsteil vorübergehend in den Datenspeicher einzugeben, um das Analyseergebnis zu verwenden, um den zweiten Informationsteil mit dem ersten Informationsteil zu vergleichen, und um im Falle eines negativen Ergebnisses eines Unähnlichkeitstests vorhandener Dokumente und eines neu wiedergewonnenen Informationsteils den zweiten Informationsteil aus dem Datenspeicher zu löschen.

31. Dokumentzugriffsystem zum Zugreifen auf Dokumente, die in verteilter Weise und für ein Kommunikationsnetz zugänglich gespeichert sind, wobei das Zugriffsystem wenigstens einen Softwareagenten für die Verwendung beim Zugreifen auf Dokumente mittels des Netzes umfaßt, wobei der Agent umfaßt: Mittel zum Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und zum Erzeugen eines ersten Ausgangssignals,

Mittel zum Wiedergewinnen eines Kandidatendokuments in Textform

Mittel zum Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,

Mittel zum Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und zum Erzeugen eines zweiten Ausgangssignals, wobei das zweite Ausgangssignal als ein Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und

Mittel zum Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer als ein vorgegebener Unähnlichkeitsgrad ist.