DE69804821T2 - Informationswiedergewinnung - Google Patents

Informationswiedergewinnung

Info

Publication number
DE69804821T2
DE69804821T2 DE69804821T DE69804821T DE69804821T2 DE 69804821 T2 DE69804821 T2 DE 69804821T2 DE 69804821 T DE69804821 T DE 69804821T DE 69804821 T DE69804821 T DE 69804821T DE 69804821 T2 DE69804821 T2 DE 69804821T2
Authority
DE
Germany
Prior art keywords
dissimilarity
measure
predetermined function
word
grams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69804821T
Other languages
English (en)
Other versions
DE69804821D1 (de
Inventor
Gerard Rose
Joseph Wyard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69804821D1 publication Critical patent/DE69804821D1/de
Publication of DE69804821T2 publication Critical patent/DE69804821T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf die Informationswiedergewinnung und insbesondere, aber nicht ausschließlich, auf einen Internet-Informationsagenten, der Kandidatendokumente nach Unähnlichkeit mit einem durch einen Anwender des Agenten identifizierten Referenzkörper analysiert.
  • Im Stand der Technik ist das folgende Dokument bekannt: EP-A-0 687 987 (XEROX CORP), 20. Dezember 1995. In diesem Dokument ist ein Verfahren und eine Vorrichtung zum Wiedergewinnen relevanter Dokumente aus einem Körper aus Dokumenten offenbart. In diesem System ist eine Eingangsabfrage die Grundlage für das selektive Wiedergewinnen von Dokumenten aus einem Körper aus Dokumenten. Für jedes Dokument wird die Berechnung der Dokument-Kontextvektoren und der Korrelationskoeffizienten ausgeführt. Danach wird außerdem eine Einstufung der Dokumente ausgeführt, siehe Fig. 12 dieses Dokuments des Standes der Technik. In der Technik der Informationswiedergewinnung ist es bekannt, daß ein Anwender die Anfangsbedingungen für das Wiedergewinnen mittels einer Gruppe aus Schlüsselwörtern spezifiziert. Verschiedene Suchmaschinen sind bekannt, deren Suchsprachen für eine fortgeschrittene Suche unter Verwendung Boolscher Operatoren zum Kombinieren der Schlüsselwörter angepaßt sind.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Informationswiedergewinnung geschaffen, das die folgenden Schritte umfaßt:
  • Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals,
  • Wiedergewinnen eines Kandidatendokuments in Textform,
  • Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
  • Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das als Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und
  • Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein vorgegebener Unähnlichkeitsgrad ist.
  • Es ist klar, daß der Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes um so größer ist, je größer der Wert des Unähnlichkeitsmaßes ist, oder, umgekehrt, je kleiner der Wert des Unähnlichkeitsmaßes ist, desto kleiner ist der Unähnlichkeitsgrat zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes. Mit anderen Worten, das Unähnlichkeitsmaß wird einen Nullwert besitzen, falls die zwei Dokumente völlig gleich sind.
  • Die vorliegende Erfindung unterscheidet sich von den obigen Wiedergewinnungstechniken des Standes der Technik insofern, als der Anwender einen Referenzkörper (ein Startdokument) als ein Beispiel des Typs des Dokuments bereitstellt, den der Anwender finden möchte, wobei das Verfahren der Erfindung, wie es durch einen Informationswiedergewinnungsagenten ausgeführt wird, den Referenzkörper in Übereinstimmung mit einem Maßstab oder mehreren Maßstäben aus einem Bereich der Maßstäbe analysiert, wobei sich diese auf die Worthäufigkeit (Ausdruckshäufigkeit) des Titels des Kandidatendokuments, die Zeichenebenen-n-Gramm-Häufigkeit, die Worthäufigkeit des ganzen Textes des Kandidatendokuments und das Wortebenen-n-Gramm-Sprachmodell beziehen. Je größer die Kombination der Maßstäbe, desto besser arbeitet der Agent.
  • Ein Verfahren der vorliegenden Erfindung kann für die Informationswiedergewinnung auf Anforderung durch einen Anwender verwendet werden, oder es kann verwendet werden, um ein Sprachmodell zu verbessern, das in einer Sprachanwendung verwendet wird, z. B. in einer Spracherkennungsanwendung.
  • Vorzugsweise ist der analysierte Teil des wiedergewonnenen Textes der Titel des Kandidatendokuments.
  • Vorzugsweise umfaßt die erste vorgegebene Funktion die folgenden Schritte:
  • Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus dem wenigstens einen Teil des Referenzkörpers, Gewinnen entsprechender inverser Dokumenthäufigkeiten IDF für die Ausdrücke der ersten TFL und
  • Erzeugen eines ersten entsprechenden Vektors für die erste TFL, der entsprechende Elemente enthält, wovon jedes die Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist, wobei der erste entsprechende Vektor das erste Ausgangssignal bildet;
  • und bei dem die zweite vorgegebene Funktion die folgenden Schritte umfaßt:
  • Erzeugen einer zweiten TFL aus dem wenigsten einen Teil des wiedergewonnenen Tees, ·
  • Erzeugen eines zweiten entsprechenden Vektors für die zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF eines entsprechenden Ausdrucks der zweiten TFL ist, und
  • Ableiten eines Maßes der Differenz zwischen dem ersten Vektor und dem zweiterf Vektor, wobei das Differenzmaß ein Unähnlichkeitsriiaß bildet.
  • Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
  • die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
  • die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Zeichenebenen-n-Gramni-Häufigkeitsliste umfaßt, wobei das Log- Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
  • die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
  • die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein erstes Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet; und
  • die zweite vorgegebene Funktion das Erzeugen einer zweiten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n- Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der Wortebenen-n-Gramm-Häufigkeitsliste, wobei das Sprachmodell das Ausgangssignal bildet;
  • die zweite vorgegebene Funktion das Anwenden des Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines Perplexitätswertes umfaßt, wobei der Perplexitätswert ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der Vektoren gegebenenfalls eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
  • Wenn das Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt, ist der Schritt des Anlegens entsprechender Gewichte (Wi) an die entsprechenden Komponenten vorzugsweise enthalten.
  • Vorzugsweise umfaßt die erste vorgegebene Funktion die Schritte des Ausführens einer anfänglichen Auswertung des wenigstens einen Teils des Referenzkörpers und des Setzens der Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom Ergebnis der anfänglichen Auswertung.
  • Bevorzugter umfaßt der Schritt des Setzens der Anfangswerte für die entsprechenden Gewichte:
  • (a) den Unterschritt des Teilens des Referenzkörpers in einen Trainingsabschnitt, der den wenigstens einen Teil des Referenzkörpers bildet, und in einen Entwicklungsabschnitt;
  • (b) den Unterschritt des Analysierens des Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion und des Erzeugens entsprechender Komponenten eines Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt; und
  • (c) Gewinnen der Anfangswerte für die entsprechenden Gewichte durch Dividieren einer vorgegebenen Konstante durch die entsprechende Komponenten des Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt.
  • Vorzugsweise sind die Schritte des Bildens eines weiteren Referenzkörpers durch Kombinieren des Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer entsprechenden Wortebenen-n- Gramm-Häufigkeitsliste aus dem weiteren Referenzkörper sowie des Ableitens eines entsprechenden zweiten Rückkopplungs-n-Gramm- Sprachmodells aus der entsprechenden Wortebenen-n-Gramm- Häufigkeitsliste enthalten, wobei das zweite Sprachmodell einen Ersatz für das erste Sprachmodell bildet.
  • Vorzugsweise umfaßt die erste vorgegebene Funktion:
  • (a) einen vorhergehenden Unterschritt des Anwendens des ersten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines ersten Perplexitätswertes (PP&sub1;),
  • (b) einen Unterschritt des Anwendens des zweiten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines zweiten Perplexitätswertes (PP&sub2;),
  • (c) einen Unterschritt des Modifizierens der Gewichte durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (W&sub1;), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und
  • (d) einen Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor (1 + ki).
  • Vorzugsweise enthält der Schritt des Ausführens einer anfänglichen Auswertung wenigstens eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes (WC) des wenigstens eines Teils des Referenzkörpers.
  • Vorzugsweise kann der Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen eines Homogenitätsmaßes (H) des wenigstens einen Teils des Referenzkörpers enthalten.
  • Vorzugsweise wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile und durch Ausführen eines rangbasierten Korrelationsprozesses wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das Korrelationsergebnis das Homogenitätsmaß bildet.
  • Alternativ wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das Homogenitätsmaß bildet.
  • Wenn jede der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer entsprechenden Wortebenen-n-Gramm-Häufigkeitslisteumfaßt und wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt; dann umfaßt der Schritt des Setzens der Anfangswerte für die Gewichte vorzugsweise die Unterschritte des Berechnens eines Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf null des Wertes des Gewichts, das der entsprechenden Unähnlichkeitskomponente entspricht, die den Wortebenenn-Gramm-Häufigkeitslisten zugeordnet ist.
  • Es können die Schritte des Darstellens der entsprechenden Unähnlichkeitswerte und entsprechender Verbindungsglieder zu mehreren gespeicherten wiedergewonnenen Texten für jeden der mehreren gespeicherten wiedergewonnenen Texte für einen Anwender, des Empfangens eines zugewiesenen Relevanzwertes in bezug auf einen dargestellten Ähnlichkeitswert vom Anwender und des Modifizierens der Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der zugewiesenen Relevanzwerte enthalten sein.
  • Vorzugsweise umfaßt der Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu den dargestellten Unähnlichkeitswerten.
  • Der Anwender kann entsprechende Relevanzwerte in bezug auf mehrere der dargestellten Unähnlichkeitswerte zuweisen, und der Modifizierungsschritt kann das iterative Modifizieren der Gewichte für jeden der entsprechenden Relevanzwerte umfassen.
  • Vorzugsweise führt der Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit der vorgegebenen Funktion des Relevanzwertes, der dem gespeicherten wiedergewonnenen Text mit dem geringsten Unähnlichkeitsmaß entspricht, aus.
  • Der Schritt des Modifizierens der Gewichte kann den Unterschritt des Ableitens eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert der niedrigsten und höchsten Relevanzwerte ist, sowie den Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor umfassen.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Informationsagent für die Verwendung in einem Kommunikationsnetz geschaffen, das mehrere Datenbanken umfaßt, wobei der Agent umfaßt: Mittel zum Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals, Mittel zum Wiedergewinnen eines Kandidatendokuments in Textform,
  • Mittel zum Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
  • Mittel zum Analysieren wenigstens eines Teils des wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das ein Unähnlichkeitsmaß zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts bildet, und
  • Mittel zum Speichern des wiedergewonnenen Texts, falls das Unähnlichkeitsmaß kleiner als ein vorgegebener Schwellenwert der Unähnlichkeit ist.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Testen der Eignung eines Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung bei der Informationswiedergewinnung mittels Abfrage durch Beispiel geschaffen, wobei das Verfahren die folgenden Schritte umfaßt:
  • Empfangen eines möglichen Referenzdokuments;
  • Analysieren des Inhalts des möglichen Referenzdokuments durch die folgenden Unterschritte:
  • Unterteilen des möglichen Referenzdokuments in zwei im wesentlichen gleiche Abschnitte,
  • Gewinnen eines Maßes der linguistischen Unähnlichkeit zwischen den beiden Abschnitten und
  • Vergleichen des gewonnenen Maßes mit einem vorgegebenen Kriterium, um ein Analyseergebnis zu gewinnen; und
  • falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche Referenzdokument als der wenigstens eine Teil des Referenzkörpers geeignet ist.
  • Vorzugsweise umfaßt der Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen Referenzdokuments zu dem einen oder anderen der Abschnitte auf zufälliger Basis.
  • Alternativ oder zusätzlich umfaßt der Gewinnungsschritt das Erzeugen einer entsprechenden Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines rangbasierten Korrelationsprozesses zwischen den beiden Worthäufigkeitslisten.
  • Vorzugsweise besteht das vorgegebene Kriterium darin, daß das Ergebnis der Korrelation niedriger als ein vorgegebener Wert ist.
  • Ein Internet-Informationsagent der vorliegenden Erfindung und zwei Anwendungen, die den Agenten enthalten, werden nun beispielhaft unter Bezugnahme auf die Zeichnung beschrieben, worin:
  • Fig. 1 ein Informationszugriffsystem zeigt, das ein Informationsagentensystem enthält;
  • Fig. 2 einen Ablaufplan eines Prozesses der Informationswiedergewinnung des Zugriffsystems nach Fig. 1 zeigt;
  • Fig. 3 einen Ablaufplan der Unterschritte von einem der Schritte des · Ablaufplans nach Fig. 2 zeigt; und
  • Fig. 4 einen Ablaufplan der Unterschritte eines anderen der Schritte des Ablaufplans nach Fig. 2 zeigt.
  • Die folgenden Beschreibung nimmt an, daß ein Fachmann mit der Informationstechnologie, dem Internet, der interaktiven Weise, in der Web-Seiten, die Schaltflächen und Felder enthalten, dem Anwender auf dem Bildschirm eines Computer-Monitors dargestellt werden und in der der Anwender z. B. eine weitere Seite oder einen weiteren Dienst durch das Anklicken der geeigneten Schaltfläche unter Verwendung einer Maus auswählt und Informationen mittels einer Tastatur in Felder eingibt, z. B. das Eingeben einer einheitlichen Ressourcenadresse (URL) in ein Adressenfeld, um die Anzeige einer Seite anzufordern, die der eingegebenen um URL entspricht, vertraut ist.
  • In Fig. 1 kann ein Informationszugriffsystem gemäß einer Ausführungsform der vorliegenden Erfindung in einer bekannten Form der Informationswiedergewinnungs-Architektur gebaut sein, wie z. B. einer Client-Server-Architektur, die mit dem Internet verbunden ist.
  • Ausführlicher besitzt ein Kunde, wie z. B. eine internationale Gesellschaft, einen Client-Kontext eines Kunden, der mehrere Anwender umfaßt, die mit Personal-Computern oder Arbeitsplatzrechnern 10 ausgerüstet sind, wobei jeder einen residenten World-Wide-Web- Betrachter (WWW- oder W3-Betrachter) 12 besitzt und mit einem WWW-Dateiserver 14 verbunden ist. Ein Internet-Informationsagent (IIA) 16, effektiv eine Erweiterung des Betrachters 12, ist in der Form einer Software-Entität auf dem WWW-Dateiserver 14 resident. In einer Variante ist der IIA 16, der in dem Dateiserver 14 resident ist, durch einen entsprechenden IIA 16 ersetzt, der in jedem Arbeitsplatzrechner 10 resident ist.
  • Der WWW-Dateiserver 14 ist in bekannter Weise mit dem Internet verbunden, z. B. über das eigene Netz 20 des Kunden und einen Router 22. Auf den Dateiserver 24 des Dienstanbieters kann dann über das Internet, abermals über Router, zugegriffen werden. Ein Speicher 18 für die aufbewahrten Texte, dessen Verwendung später beschrieben wird, ist außerdem auf dem Dateiserver 14 resident oder durch den Dateiserver 14 zugänglich.
  • In einem IIA-gestützten System kann der Agent 16 selbst als eine Erweiterung eines bekannten Betrachters, wie z. B. Netscape, aufgebaut sein. Der Agent 16 ist effektiv in den Betrachter 12 integriert, der durch Netscape oder Mosaic usw. bereitgestellt sein kann, wobei er die Anzeige der Seiten und der Suchergebnisse (die außerdem als Suchdokumente bezeichnet werden) steuert.
  • Wie oben beschrieben ist, steht in der Client-Server-Architektur der Speicher 18 für die aufbewahrten Texte in der Datei im Dateiserver 14, wo der Agent 16 resident ist, in Varianten kann aber der Speicher 18 für die aufbewahrten Texte auf einem Server gespeichert sein, auf den von fern zugegriffen wird.
  • Ein Agent 16, der ein Softwareagent ist, kann im allgemeinen als eine Software-Entität beschrieben werden, die die Funktionalität des Ausführens einer Aufgabe oder von Aufgaben im Interesse eines Anwenders zusammen mit lokalen Daten oder dem Zugriff auf lokale Daten enthält, um diese Aufgabe oder diese Aufgaben zu unterstützen. Die in einem IIA-System relevanten Aufgaben, von denen eine oder mehrere durch einen Agenten 16 ausgeführt werden können, sind im folgenden beschrieben. Die lokalen Daten werden normalerweise Daten aus dem Speicher 18 für die aufbewahrten Texte enthalten, wobei die durch einen Agenten 16 bereitzustellende Funktionalität im allgemeinen Mittel enthalten wird, um einen Analysealgorithmus anzuwenden und die Ergebnisse zu speichern, und um dem Anwender eine geordnete Liste der Suchergebnisse bereitzustellen.
  • Die Ausführungsformen der vorliegenden Erfindung könnten entsprechend verschiedenen Software-Systemen gebaut sein. Es könnte z. B. zweckmäßig sein, daß objektorientierte Techniken angewendet werden. In den Ausführungsformen, wie sie im folgenden beschrieben sind, wird der Dateiserver 14 jedoch Unix-gestützt sein. Das System ist in "Perl" implementiert, obwohl der Client irgendeine Maschine sein kann, die einen W3-Betrachter unterstützen kann.
  • Unter zusätzlicher Bezugnahme auf die Ablaufpläne in den Fig. 2 bis 4 führt eine erste Anwendung des Agenten 16 die Aktivierung der Informationswiedergewinnung (die außerdem als Informationszugriff bekannt ist) durch einen Anwender einer Suchanforderung aus, die im Stand der Technik als "Abfrage durch Beispiel" oder "finde für mich etwas weiteres wie dieses" bekannt ist. In dieser Ausführungsform beginnt der Anwender an einem Arbeitsplatzrechner 10 die Informationswiedergewinnung durch das Klicken auf eine Schaltfläche, die den Agenten 16 auslöst (Schritt 30). Nun wird eine Seite vom Dateiserver 14 zum Arbeitsplatzrechner des Anwenders heruntergeladen, diese Seite besitzt verschiedene Felder, einschließlich eines Feldes für den Eintrag der URLs, und verschiedene Schaltflächen, einschließlich einer "Abfrage durch-Beispiel"-Schaltfläche. Der Anwender positioniert die Schreibmarke des Bildschirms im Feld für die Eingabe der URL in der üblichen Weise, tippt die URL eines Referenzdokuments (Schritt 32) ein und klickt auf die Abfrage durch- Beispiel-Schaltfläche, um den Agenten 16 auszulösen, d. h. zu starten, der das Wiedergewinnen des Referenzdokuments beginnt (Schritt 34).
  • Dieses Referenzdokument bildet den Referenzkörper für den Agenten 16, aber, wie im folgenden erklärt ist, kann der Referenzkörper aus zwei oder mehr Dokumenten gebildet werden, die gemeinsam genommen werden.
  • Der Betrieb des Agenten 16 wird zuerst kurz und später ausführlicher beschrieben.
  • Der Agent 16 verarbeitet das wiedergewonnene Referenzdokument (Schritt 36), um vier Gewichte W&sub1; bis W&sub4; abzuleiten, die den vier Unähnlichkeitsmaßstäben M&sub1; bis M&sub4; entsprechen, diese Unähnlichkeitsmaßstäbe werden auf ein Kandidatendokument angewendet, d. h. auf ein Dokument, das vom Agenten bewertet wird, um die zurückgeschickten Werte RV&sub1; bis RV&sub4; zu erhalten.
  • Der Agent 16 beginnt mit dem durch die URL gekennzeichneten Kandidatendokument, die in den im folgenden beschriebenen Suchanweisungen enthalten ist. Er wendet auf das Kandidatendokument die vier Unähnlichkeitsmaßstäbe M&sub1; bis M&sub4; an, gewinnt die vier zurückgeschickten Werte RV&sub1; bis RV&sub4;, wie im folgenden beschrieben ist, leitet in Übereinstimmung mit dem Ausdruck
  • DD = WiRV1 + W1·(1 - RV&sub1;)
  • eine Unähnlichkeit der Dokumente (DD) ab (Schritt 38) und vergleicht die DD mit einem Unähnlichkeits-Schwellenwert (DT) (Schritt 42), um zu bestimmen, ob das Kandidatendokument in den Speicher 18 für die aufbewahrten Texte zu schreiben ist (und folglich die Notwendigkeit für ein weiteres Herunterladen durch den Anwender in einer späteren Stufe beseitigt wird) und dem Anwender als "ein weiteres wie das Referenzdokument" gemeldet wird, wenn am Ende der Suche eine Liste der Dokumente, die in umgekehrter Reihenfolge der DD geordnet ist, d. h. mit der niedrigsten zuerst, auf dem Arbeitsplatzrechner des Anwenders bereitgestellt wird (Schritt 46). Dieser Ausdruck bildet einen neunten Teil des Analysealgorithmus, wobei später weiter auf ihn Bezug genommen wird.
  • Die vier Maßstäbe und die Weise, in der sie arbeiten, um die zurückgeschickten Werte zu erhalten, werden nun ausführlicher, beginnend mit dem Maßstab M&sub1;, beschrieben.
  • Der durch die Anwendung des Unähnlichkeitsmaßstabes M&sub1; auf das Kandidatendokument gewonnene zurückgeschickte Wert RV&sub1; ist ein Maß der Unähnlichkeit der Wörter des Titels des Kandidatendokuments zum Inhalt des Referenzdokuments in der Form seiner Worthäufigkeitsliste. Der Agent 16 unter der Steuerung eines ersten Teils seines Analysealgorithmus, der den Maßstab M&sub1; definiert, erzeugt die Worthäufigkeitsliste des Referenzdokuments (und schließt in Übereinstimmung mit den arideren Teilen des Analysealgorithmus häufig auftretende Wörter, wie z. B. die bestimmten und unbestimmten Artikel, aus). Die Wörter (die außerdem als Ausdrücke bezeichnet werden) sind in der Reihenfolge ihrer Häufigkeit des Auftretens geordnet, d. h. der Ausdruckhäufigkeit, wobei diese Liste außerdem als eine Ausdruckshäufigkeitsliste (TFL) bekannt ist.
  • Unter der Steuerung dieses ersten Teils des Analysealgorithmus wendet der Agent 16 den Maßstab M&sub1; auf den Titel des Kandidatendokuments an und erzeugt eine Worthäufigkeitsliste. Dann erzeugt der Agent 16 unter Verwendung der zwei Worthäufigkeitslisten den zurückgeschickten Wert RV&sub1; in Übereinstimmung mit einer Version der Technik des Kosinusmaßes, wie sie von Salton entwickelt wurde und in dem Buch "Introduction to Modern Information Retrieval" von G. Salton, veröffentlicht von McGraw Hill, 1983, beschrieben ist. In dieser Version der Technik des Kosinusmaßes nimmt der Agent 16 die Ausdruckshäufigkeit (TF) von jedem Wort der Worthäufigkeitsliste des Referenzdokuments, multipliziert jede TF mit dem Inversen der Anzahl der Dokumente, in denen das Auftreten des entsprechenden Wortes bekannt ist (der inversen Dokumentenhäufigkeit oder IDF), um die Werte zu erzeugen, die im Stand der Technik als TFIDFs oder TFIDFs bekannt sind, wobei er aus diesen TFIDFs einen Vektor erzeugt (der außerdem als ein Vektorraummodell bekannt ist).
  • Um die IDFs zu gewinnen, verwendet der Agent indirekt, wie im folgenden beschrieben ist, eine Datenbank aus Dokumenten in englischer Sprache (die CELEX-Datenbank), veröffentlicht von CE- LEX, dem Dutch Centre for Lexical Information, Max-Planck-Institut für Psycholinguistik, Nijmegen, Niederlande. Die CELEX-Datenbank (die außerdem als der CELEX-Körper bekannt ist) enthält einige 18 Millionen englischer Wörter und ist auf CD-ROM verfügbar.
  • Bevor der Agent 16 für die betriebsfähige Verwendung verfügbar ist, wird eine Worthäufigkeitsliste offline aus dieser CD-ROM durch einen Prozeß erzeugt worden sein, der nicht Teil des Agenten 16 ist und der die Worthäufigkeitsliste als eine Datei auf einer Platte im Server 14 gespeichert hat. Der Agent 16 greift für jedes Wort der Worthäuiigkeitsliste des Referenzdokuments auf diese Datei zu, gewinnt eine entsprechende Ausdruckshäufigkeit, erzeugt die erforderliche IDF durch das Bilden des Inversen, d. h. Reziproken, des natürlichen Logarithmus der Ausdruckhäufigkeit und verwendet dieses, um die TFIDF für das Wort zu erzeugen.
  • Unter der Steuerung des ersten Teils des Analysealgorithmus erzeugt der Agent 16 einen entsprechenden Vektor für die Worthäufigkeitsliste des Titels des Kandidatendokuments, wobei er dann den Kosinus des Winkels zwischen den zwei Vektoren bildet, der den zurückgeschickten Wert RV&sub1; bildet. Der Agent leitet dann den Wert (1 - RV&sub1;) ab, multipliziert diesen Wert mit dem Gewicht W&sub1; und gibt den sich ergebenden Wert W&sub1;·(1 - RV&sub1;) in einen Speicher 23 für die zurückgeschickten Werte des Dokuments im Dateiserver 14 in Verbindung mit der URL des Kandidatendokuments ein.
  • Dieser erste Teil des Analysealgorithmus bildet eine Komponente der ersten vorgegebenen Funktion der vorliegenden Erfindung, wobei die Worthäufigkeitsliste des Referenzdokuments eine Komponente des ersten Ausgangsignals der vorliegenden Erfindung bildet. In dieser Ausführungsform bildet der erste Teil des Analysealgorithmus außerdem eine Komponente der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei der zurückgeschickte Wert RV1 eine Komponente des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bildet.
  • Unter Bezugnahme auf die anderen Maßstäbe M&sub2; bis M&sub4; ist der zurückgeschickte Wert RV&sub2; ein Maß der Unähnlichkeit der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments und der Zeichenebenen-n-Gramm-Häufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines zweiten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub2; anwendet; der zurückgeschickte Wert RV&sub3; ist ein Maß der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines dritten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub3; anwendet; und der zurückgeschickte Wert RV&sub4; ist ein Maß der Unähnlichkeit der Wortebenen-n-Gramm des Referenzdokuments und der Wortebenen-n- Gramm des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines vierten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub4; anwendet.
  • Die zweiten, dritten und vierten Teile des Analysealgorithmus bilden die entsprechenden Komponenten der ersten vorgegebenen Funktion der vorliegenden Erfindung, während die Zeichenebenen-n-Gramm- Häufigkeitsliste des Referenzdokuments, die Worthäufigkeitsliste des Referenzdokuments und die Wortebenen-n-Gramm-Liste des Referenzdokuments die entsprechenden Komponenten des ersten Ausgangssignals der vorliegenden Erfindung bilden. In dieser Ausführungsform bilden die zweiten, dritten und vierten Teile des Analysealgorithmus außerdem die entsprechenden Komponenten der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei die zurückgeschickten Werte RV&sub2;, RV&sub3; und RV&sub4; die entsprechenden Komponenten des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bilden.
  • In dieser Ausführungsform ist "n" für die Wortebenen-n-Gramme drei und für die Zeichenebenen-n-Gramme fünf; eine Zeichenebenen-n- Gramm-Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Zeichen-Bigramme, die Zeichen-Trigramme, die Zeichen-Tetragramme und die Zeichen-Pentagramme; eine Wortebenen-n-Gramm- Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Wort- Unigramme (einzelne Wörter), die Wort-Bigramme und die Wort- Trigramme, d. h. der Ausdruck "n-Gramm-Häufigkeitsliste" bedeutet in dieser Beschreibung in bezug auf Wörter n - Gramm, während er in bezug auf Ausdrücke n - Gramm bedeutet.
  • Die obenerwähnte Verarbeitung des Referenzdokuments, um die Gewichte abzuleiten, wird in Übereinstimmung mit den fünften, sechsten und siebenten Teilen des Analysealgorithmus ausgeführt. Die fünften und sechsten Teile gewinnen zwei Messungen, die die Eingangssignale in den siebenten Teil des Analysealgorithmus sind, der die Gewichte W&sub1; bis W&sub4; erzeugt. Die erste Messung bezieht sich auf die Größe des Referenzdokuments, während sich die zweite Messung auf die Menge der linguistischen Variation bezieht.
  • Bei der ersten Messung führt der Agent 16 in Übereinstimmung mit dem fünften Teil des Analysealgorithmus eine Wortzählung des Textes des Referenzdokuments aus.
  • Bei der zweiten Messung, die als eine Homogenitätsprüfung vorgestellt werden kann, teilt der Agent 16 unter der Steuerung des sechsten Teils des Analysealgorithmus den Text des Referenzdokuments in zwei im wesentlichen gleiche Abschnitte, wobei jeder Satz dem einen oder dem anderen der zwei Abschnitte auf zufälliger Basis zugewiesen wird (Schritt 36B). Für jeden der zwei Abschnitte erzeugt der Agent 16 eine entsprechende Worthäufigkeitsliste und vergleicht dann die Listen (Schritt 36C), wobei er Wörter findet, die beiden Listen gemeinsam sind, und für jedes derartige Wort das Modul der Differenz ihrer entsprechenden Ränge (R) ableitet, d. h. er führt einen einfachen Korrelationsprozeß an den Listen aus. Falls beispielsweise das Wort "Maßstab" in einer Liste als sechstes (R&sub6;) und in der anderen Liste als achtes (R&sub8;) eingestuft ist, dann wird der abgeleitete Wert zwei sein. Die Summe (H) dieser Differenzen wird gewonnen, wobei sie ein inverses Maß der Homogenität des Referenzdokuments ist. Mit anderen Worten, wenn die zwei Abschnitte völlig gleiche Worthäufigkeitslisten erzeugt haben, dann würden alle entsprechenden Differenzen null sein, wobei die Summe null sein wird (hohe Homogenität). In dem Fall, daß sich ein Wort in einer Liste nicht in der anderen Liste befindet, wird ein Pseudorang "r + 1", d. h. (Rr+1), für den fehlenden Rang vergeben, wobei "r" die Anzahl der Wörter in der anderen Wortliste ist. Für die Zwecke der vorliegenden Erfindung bildet dieser einfache Korrelationsprozeß einen ranggestützten Korrelätionsprozeß.
  • In einer Variante erzeugt der sechste Teil des Analysealgorithmus einen für die Homogenität repräsentativen Wert, indem er ein Log- WahrscheinlichkeitsmaiS (LL) an den zwei Abschnitten in einer zum Schritt 38C ähnlichen Weise ausführt, die im folgenden in bezug auf die Häufigkeits-Unterlisten des Kandidatendokuments und des Referenzdokuments beschrieben ist.
  • Der durch den fünften Teil des Analysealgorithmus erzeugte Wortzählwert (WC) und die durch den sechsten Teile des Analysealgorithmus erzeugte Summe (H) werden als Eingangssignale zum siebenten Teil des Analysealgorithmus geliefert, der die Gewichte W&sub1; bis W&sub4; (Schritt 36D) in Übereinstimmung mit einem Vertrauenswert (CV) erzeugt, wobei CV = WC/H gilt.
  • Für eine spezielle Gruppe von Quelldokumenten, die vom Anmelder verwendet wird, waren die Homogenitätswerte kleiner als hundert, während die Wortzählwerte größer als tausend waren. Für diese Dokumente war der für den CV gewählte Schwellenwert zehn, d. h., ein Referenzdokument, dessen Vertrauenswert wenigstens zehn beträgt, wird als ein hohes Vertrauen besitzend betrachtet, während ein Referenzdolcument, dessen Vertrauenswert unter zehn liegt, als ein niedriges Vertrauen besitzend betrachtet wird. Für Dokumente mit verschiedenem Inhalt und verschiedener Größe des Vokabulars, verglichen mit diesen Quelldokumenten, können die Homogenitätswerte und die Wortzählwerte merklich verschieden sein, wobei gegebenenfalls ein anderer Wert für den Schwellenwert gewählt wird.
  • Für ein Referenzdokument mit hohem Vertrauen werden die Werte W&sub1; = 1, W&sub2; = 1, W&sub3; = 1 und W&sub4; = 1 verwendet; während für ein Referenzdokument mit niedrigem Vertrauen die Werte W&sub1; = 1, W&sub2; = 10, W&sub3; = 1, W&sub4; = 0,1 verwendet werden, d. h., in diesem letzteren Fall wird der Beitrag des Maßstabs M&sub4; verringert, wobei (aus den obigen Gründen) eine größere Betonung auf den Beitrag des Maßstabs M2 gelegt wird.
  • In einer Variante ist der CV keine Sprungfunktion, wie oben, wo die Gewichte eine erste Gruppe von Werten besitzen, wenn CV wenigstens zehn ist, und eine zweite Gruppe von Werten, wenn CV kleiner als zehn ist, sondern die Gewichte variieren als eine kontinuierliche Funktion von CV. Für einen sehr niedrigen Wert von CV besitzt W&sub2; einen hohen Wert, W&sub3; besitzt einen mittleren Wert, während W&sub4; einen niedrigen Wert oder Nullwert besitzt. Wenn CV zunimmt, nimmt W&sub2; ab, W&sub3; bleibt konstant (oder, in einer anderen Variante, nimmt zu einem Maximum zu und nimmt dann ab), während W&sub4; zu einer Asymptoten zunimmt.
  • In einer weiteren Variante sind die Gewichte so gesetzt, daß jeder Wi·RVi etwa den gleichen gemeinsamen Wert besitzt.
  • In einer noch weiteren Variante besitzen die Gewichte einen minimalen Wert, unter den sie weder durch den siebenten Teil des Analysealgorithmus noch durch den Anwender, falls er die Werte modifiziert, wie später beschrieben ist, gesetzt werden können. In dieser Weise kann ein Gewicht durch den Agenten 16 unter der Steuerung eines zehnten Teils des Analysealgorithmus vergrößert werden, der die Gewichte abhängig von den durch den Anwender gewährten Relevanzwerten einstellt. Dies ist später ausführlicher beschrieben. Im Schritt 36A wendet der Agent 16, wie früher erwähnt ist, die zweiten, dritten und vierten Teile des Analysealgorithmus auf das Referenzdokument an und speichert die Zeichenebenen-n-Gramm- Häufigkeitsliste, die Worthäufigkeitsliste und die Wortebenen-n- Gramm-Häufigkeitsliste, die auf diese Weise gewonnen wurden, in einem Speicher 19 im Dateiserver 14.
  • In einer Variante erzeugt der dritte Teil des Analysealgorithmus nicht die Worthäufigkeitsliste des Referenzdokuments, sondern diese wird durch den sechsten Teil des Analysealgorithmus aus den entsprechenden Worthäufigkeitslisten für die zwei Abschnitte des Dokuments (aus der Homogenitätsprüfung) erzeugt.
  • Der Agent 16 zeigt nun auf dem Arbeitsplatzrechner 10 des Anwenders in den entsprechenden Feldern einer Suchinformationsseite die Werte der Gewichte W&sub1; bis W&sub4; und einen vorgegebenen Wert (10.000) für den DT an (Schritt 36F), wobei der Anwender diese Werte durch das Eingeben von Werten von seiner Tastatur in diese Felder modifizieren kann, um die vom Agenten abgleiten Werte zu überschreiben (Schritt 36G).
  • Wenn der Anwender mit den Werten zufrieden ist, klickt er eine Fortsetzungs-Schaltfläche in der Seite an, damit die Suche durch den Agenten fortgesetzt wird (Schritt 36H).
  • Der Agent liest nun seine Suchanweisungen aus einer Aufgabendatei 21 im Dateiserver 14 (Schritt 38A). Diese Anweisungen decken derartige Einzelheiten ab, wie:
  • die Start-URL für die Suche (d. h. das Startdokument);
  • die Anzahl der zu durchsuchenden Ebenen (diese besitzt ein Minimum von eins, sie ist aber vorzugsweise nicht größer als zehn, um lange Suchzeiten zu vermeiden);
  • die Grenzen der Suche (einschließlich der Bedingung für den Abschluß der Suche);
  • die auszuschließenden Verzeichnisse.
  • Der Agent 16 fährt dann fort, in einer Weise nach Kandidatendokumenten zu suchen, die als Breitensuche bekannt ist, wobei er die Verbindungsglieder untersucht, wie er sie findet.
  • Der Anwender wird die Start-URL entweder mit einer ".txt"- oder ".html"-Erweiterung spezifiziert haben, wobei der Agent 16 irgendwelche anderen Erweiterungen ignorieren wird, wenn er den Verbindungsgliedern in den Dokumenten folgt.
  • Wenn der Agent 16 das Start-Kandidatendokument lokalisiert, ruft er es ab, indem er eine Prozedur ausführt, die als http-"Lade"-Operation bekannt ist (Schritt 38B), die das Dokument in einen temporären Dokumentenspeicher 17 setzt, um die Analyse zu unterstützen, wobei er fortfährt, den ersten Maßstab M&sub1; anzuwenden. Der Wert des zurückgeschickten Wertes RV&sub1; wird gewonnen, wobei er vorübergehend in einem Akkumulator 25 im Dateiserver 14 gespeichert wird. Dann wird der Wert von W&sub1;·(1 - RV&sub1;) unter der Steuerung eines achten Teils des Analysealgorithmus gewonnen und in den Speicher 23 für die zurückgeschickten Werte des Dokuments eingegeben. Dieser Speicher wird unter der Steuerung eines neunten Teils des Analysealgorithmus gemanagt, um die Komponenten der DD zu summieren.
  • Als nächstes fährt der Agent 16 fort, den zurückgeschickten Wert RV&sub2; zu gewinnen, indem er den Maßstab M&sub2; auf das Kandidatendokument anwendet, wie im folgenden beschrieben ist.
  • Unter der Steuerung des zweiten Teils des Analysealgorithmus (M&sub2;) leitet der Agent 16 nun die Zeichenebenen-n-Gramm-Häufigkeitsunterüsten für das Kandidatendokument ab (Schritt 38C). Ein Log- Wahrscheinlichkeitsmaß (LL) für die Unähnlichkeit zwischen diesen Häufigkeitsunterlisten und denjenigen des Referenzdokuments wird in Übereinstimmung mit der Technik gewonnen (Schritt 38C), die in dem Artikel "Accurate methods for the statistics of surprise and coincidence", von E. Dunning, Computational Linguistics, Bd. 19, Nr. 1, 1993, beschrieben ist. Dieses Maß, das den zurückgeschickten Wert RV&sub2; bildet, wird vorübergehend im Akkumulator 25 gespeichert.
  • Das LL (der zurückgeschickte Wert RV&sub2;) wird nun unter der Steuerung des achten Teils des Analysealgorithmus mit dem Gewicht W&sub2; multipliziert und kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
  • In einer Variante wird anstelle des LL eine Rangkorrelationstechnik verwendet. Mit anderen Worten, ein zurückgeschickter Wert RV&sub2; wird durch das Vergleichen des ersten Eintrags der ersten Unterliste (Bigramm, R&sub1;(ref)) der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments mit der entsprechenden Unterliste für das Kandidatendokument gewonnen, wobei, falls eine Übereinstimmung festgestellt wird, das Modul der Differenz in den Rängen ( R&sub1;(ref) - Rmc(can) ) in den Akkumulator 25 eingegeben werden, wobei Rmc(can) der Rang (R) des übereinstimmenden Zeichens (mc) der entsprechenden Unterliste für das Kandidatendokument (can) ist. Falls, wie oben im Zusammenhang mit der Homogenitätsprüfung erklärt ist, keine Übereinstimmung festgestellt wird, wird der Wert R&sub1;(ref) - Rr(can)+1 gespeichert, wobei Rr(can)+1 ein Pseudorang eines weniger als der niedrigste Rang der entsprechenden Kandidaten- Unterliste ist.
  • Nach dem Speichern der Rangdifferenz für das erste Bigramm im Akkumulator 25 geht der Analysealgorithmus dann zum Bigramm das zweiten Rangs, gibt die entsprechende Rangdifferenz in den Akkumulator 25 ein, usw. Wenn alle Digramme verarbeitet worden sind, werden die anderen Unterlisten der Reihe nach verarbeitet. Die akkumulierte Summe im Akkumulator 25 ist der zurückgeschickte Wert RV&sub2;.
  • In der spezifischen Ausführungsform wendet der Agent als nächstes (Schritt 38C) den Maßstab M&sub3; (den dritten Teil des Analysealgorithmus) an und gewinnt das LL der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments. Der Agent 16 gewichtet dann unter der Steuerung des achten Teils des Analysealgorithmus das LL (das den zurückgeschickten Wert RV&sub3; bildet) durch das Gewicht W&sub3;, wobei er den Wert W&sub3;·RV&sub3; kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
  • Als nächstes gewinnt der Agent den zurückgeschickten Wert RV&sub4; (Schritt 38C) unter der Steuerung des vierten Teils des Analysealgorithmus (des Maßstabs M&sub4;) wie folgt.
  • Der Agent 16 konstruiert ein Rückkopplungs-Trigramm-Sprachmodell (LM) des Referenzdokuments aus den Unterlisten der Wortebenen-n-Gramme (der Häufigkeitsausdrücke) in Übereinstimmung mit dem Prozeß, der in "Estimation of probabilities from sparse data" von S. Katz, IEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-35, 1987, offenbart ist, und speichert den LM im Speicher 19. Der Agent 16 verwendet dann dieses Trigramm-LM, um den Perplexitätswert (PP) zu berechnen, der den zurückgeschickten Wert RV&sub4; des Kandidatendokuments in Übereinstimmung mit dem Prozeß bildet, der in "Self-organised language modelling for speech recognition" von F. Jellinek, in "Readings in Speech Recognition", herausgegeben von A. Waibel und K. Lee, veröffentlicht von Morgan Kaufmann, 1990, offenbart ist, und speichert den PP im Speicher 19. Der Agent 16 multipliziert dann unter der Steuerung des achten Teils des Analysealgorithmus den PP mit dem Gewicht W&sub4; und gibt ihn in den Speicher 23 für die zurückgeschickten Werte des Dokuments ein. Je niedriger der PP ist, desto besser ist das LM beim Vorhersagen der Inhalte des Kandidatendokuments, und folglich ist das Kandidatendokument um so weniger unähnlich zum Referenzdokument.
  • Es wird selbstverständlich sein, daß in dieser bevorzugten Ausführungsform das LM lediglich am Anfang der Suche aus dem Referenzdokument erzeugt wird, wobei es nicht abermals erzeugt wird.
  • Der Agent 16 vergleicht nun unter der Steuerung eines elften Teils des Analysealgorithmus den Gesamtwert im Speicher 23 für die zurückgeschickten Werte des Dokuments, d. h. die Unähnlichkeit der Dokumente (die durch das Summieren der Komponenten in Übereinstimmung mit dem Ausdruck des neunten Teils des Analysealgorithmus gewonnen worden ist), mit dem Unähnlichkeits-Schwellenwert DT, wobei er, falls die Unähnlichkeit der Dokumente kleiner als der DT ist, das Dokument im Speicher 18 für die aufbewahrten Texte speichert. Auf jeden Fall wird das Kandidatendokument aus dem temporären Dokumentenspeicher 17 gelöscht, wobei der Akkumulator 25 in Bereitschaft für die Verarbeitung des nächsten Kandidatendokuments auf null zurückgesetzt wird, das der Agent durch das Folgen eines URL-Verbindungsglieds in bekannter Weise vom gerade verarbeiteten Kandidatendokument lokalisiert. Der Agent folgt den Verbindungsgliedern, die entweder eine ".txt"- oder ".html"-Erweiterung besitzen, wobei er die Verbindungsglieder ignoriert, die irgendeine andere Erweiterung besitzen. In einer Variante antwortet Agent 16 auf Verbindungsglieder, die von ".txt" oder ".html" verschiedene Erweiterung besitzen, wobei er eine Validierungsprüfung an diesen Verbindungsgliedern ausführt, wobei er aber nicht versucht, irgendwelche Dateien wiederzugewinnen.
  • Der Agent 16 bricht jeden Versuch ab, eine einzelne Seite herunterzuladen, falls eine vorgegebene Zeitabschaltung erreicht wird, wobei er dann weitergeht, um ein Herunterladen einer anderen Seite zu versuchen.
  • Wenn die Suche abgeschlossen ist, d. h., wenn alle Suchanweisungen erfüllt worden sind, sortiert der Agent 16 (aus den Daten im Speicher 23) die URLs, die er besucht hat, in umgekehrte Reihenfolge der Unähnlichkeit der Dokumente, d. h. die niedrigste zuerst, wobei er dann in der üblichen Weise die ersten zehn Dokumenten-URLs und Titel der sortierten Liste (diese Liste wird außerdem als die Suchergebnisse bezeichnet) zusammen mit ihren zugeordneten Unähnlichkeiten der Dokumente als eine erste Seite auf dem Arbeitsplatzrechner 10 des Anwenders darstellt. Der Anwender kann irgendeines dieser Suchdokumente aus der Datei 18 für die aufbewahrten Texte für die unmittelbare Anzeige wiedergewinnen, indem er auf den angezeigten Dokumententitel klickt.
  • Anstatt daß der Referenzkörper ein einzelnes Referenzdokument ist, das durch eine vom Anwender bereitgestellte URL gekennzeichnet ist, kann der Referenzkörper kann eine vollständige WWW-Site (Web-Site) sein, die außerdem durch eine durch den Anwender bereitgestellte URL gekennzeichnet ist, wobei der Agent 16 die Inhalte der vollständigen Web-Site in einer zum Analysieren eines einzelnen Dokuments ähnlichen Weise analysieren wird, um die entsprechenden Gewichte W&sub1; bis W&sub4; und die entsprechenden Häufigkeitslisten zu erzeugen. In einer Variante kann der Anwender mehrere einzelne Dokumente durch ihre URLs spezifizieren, wobei der Agent diese mehreren Dokumente als einen Referenzkörper behandeln wird.
  • Die Ergebnisseite enthält ein Relevanz-Piktogramm, das jedem Dokument zugeordnet ist und eine Funktion zum Modifizieren der Gewichte W&sub1; bis W&sub4; darstellt. Der Anwender kann dem Agenten 16 die Relevanz von einem oder mehreren Suchdokumenten angeben. Durch das Klicken auf ein ausgewähltes Piktogramm wird dem Anwender eine Auswahl aus Relevanzebenen (R) von null bis zehn dargestellt, wobei die vorgegebene Ebene null ist. In Varianten gibt es mehrere Relevanz-Piktogramme für ein Dokument, die die direkte Auswahl der entsprechenden Relevanzebene ermöglichen, oder der Anwender kann einen Relevanzwert unter Verwendung eines Schiebebalkens (d. h. einer kontinuierlich veränderlichen Relevanzfunktion) in bekannter Weise einstellen.
  • Der Anwender kann die Suche nach einer kurzen Zeit anhalten und die Suchergebnisse überprüfen. Falls durch den Agenten 16 zu viele Dokumente gefunden werden, kann der Anwender den Wert für DT auf angenommen 6000 verringern und den Agenten für eine neue Suche auslösen.
  • Falls der Anwender wünscht, die Suche zu verfeinern, kann der die Relevanz von einem oder mehreren der Suchdokumente angeben und auf eine Schaltfläche für die Verfeinerung der Suche klicken.
  • Beginnend mit dem Suchdokumenten mit der höchsten Einstufung, d. h. dem Dokument mit der niedrigsten DD, erzeugt der Agent 16 nun modifizierte Gewichte (W&sub1; + ΔW&sub1;) bis (W&sub4; + ΔW&sub4;) unter der Steuerung des zehnten Teils des Analysealgorithmus, der ΔW wie folgt erzeugt:
  • ΔWi = (k)· (Wi·RVi/DD)·(R - 5)·Wi
  • wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/50 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt. Mit anderen Worten, ein Gewicht wird modifiziert, indem es mit (1 + K) multipliziert wird, wobei K = (k)·(Wi·RVi/DD) (R - 5) gilt.
  • Der Agent 16 geht nun zum Suchergebnis mit der zweithöchsten Einstufung, wobei er abermals die Gewichte modifiziert, usw., d. h. iterativ durch die Liste der Suchergebnisse hinunter.
  • In dieser Ausführungsform fährt der Agent 16 mit einer neuen Suche fort, wenn er seine letzte Gewichtsmodifikation ohne Änderung des Referenzkörpers ausgeführt hat. In Varianten wird der Referenzkörper mit wenigstens dem Suchdokument kombiniert, das die höchste zugewiesene Relevanzebene aufweist.
  • In alternativen Formen dieser Ausführungsform kombiniert der Agent 16 zuerst den Referenzkörper mit wenigstens dem Suchdokument, das die höchste zugewiesene Relevanzebene aufweist, wobei er die fünften, sechsten und siebenten Teile des Algorithmus wiederholt, um eine neue Gruppe von Gewichten zu erzeugen, anstatt die ursprüngliche Gruppe der Gewichte zu modifizieren.
  • In einer Variante ignoriert der Agent 16 jedes Suchdokument, für das der Anwender die Relevanz null zugewiesen hat, d. h. der Anwender hat die Relevanzebene auf ihrer vorgegebenen Ebene gelassen.
  • In einer Variante wird die Anwendung der Relevanz null durch Vorgabe nicht verwendet, wobei der Anwender die Relevanz von allen Suchdokumenten angeben muß, bevor die verfeinerte Suche weitergehen kann.
  • In der zweiten Ausführungsform der vorliegenden Erfindung ist der Agent 16 für die Verwendung in einem Spracherkennungssystem angepaßt, um ein LM bereitzustellen. In dieser beispielhaften Ausführungsform bezieht sich das LM auf einen Zielbereich, der durch ein Informationssystem für einen Eisenbahnfahrplan gebildet wird, wobei es repräsentativ dafür ist, wie in diesem besonderen Bereich Sprache verwendet wird. Die von einem Anwender des Informationssystems empfangene Sprache wird mit dem LM verglichen, das in der Form eines Rückkopplungs-Trigramm-Sprachmodells vorliegt, damit das Spracherkennungssystem mit einem hohen Grad des Vertrauens das nächste zu empfangende Wort voraussehen kann.
  • Ein zweckmäßiger Startpunkt sind die Transkriptionen von mehreren gesprochenen Transaktionen im Zielbereich. Diese werden von einem Entwickler des Spracherkennungssystems als ein Referenzkörper für den Agenten 16 durch Aufzeichnen und Umschreiben tatsächlicher Anwenderdialoge im Zielbereich bereitgestellt.
  • Der Agent 16 teilt zuerst den Referenzkörper in zwei Abschnitte, diese werden als ein Trainingsabschnitt und ein Entwicklungsabschnitt bezeichnet (in diesem Zusammenhang ist ein Abschnitt des Referenzkörpers außerdem als ein Unterkörper bekannt). Wenn der Referenzkörper angemessen groß ist, dann umfaßt der Trainingsabschnitt etwa 50% des Referenzdokuments, für einen kleinen Referenzkörper wird der Trainingsabschnitt aber etwa 80% umfassen. Dann führt der Agent 16 die anfängliche Analyse des Trainingsabschnitts aus, wobei er die Gewichte W&sub1; bis W&sub4; für die Maßstäbe M&sub1; bis M&sub4; in einer ähnlichen Weise zur ersten Ausführungsform und einen vorgegebenen DT wie vorher erzeugt und ein LM in der Form eines Rückkopplungs-Trigramm-Sprachmodells (Maßstab M&sub4;) konstruiert. Die Gewichte W&sub1; bis W&sub4; werden über eine Seite auf dem Arbeitsplatzrechner 10 des Systementwicklers für die Annahme oder Modifikationen durch den Systementwickler angezeigt.
  • Der Agent 16 wendet nun das LM auf den Entwicklungsabschnitt an und gewinnt den PP des Entwicklungsabschnitts, der als PPold bezeichnet wird.
  • Der Systementwickler lenkt nun den Agenten 16 zu einer Liste relevanter WWW-Server. In einer Variante wird der Agent 16 zu einer Datenbank aus potentiell nützlichen Dokumenten auf einem lokalen Computer gelenkt.
  • Der Agent 16 ruft ein erstes Kandidatendokument ab, wendet die Maßstäbe M&sub1; bis M&sub4; mit den Gewichten W&sub1; bis W&sub4; wie in der ersten Ausführungsform an, speichert dieses Kandidatendokument, falls es eine DD kleiner als der DT besitzt, und fährt fort, weitere Dokumente abzurufen.
  • Der Agent 16 nimmt aus der Datei 18 für die aufbewahrten Texte das Kandidatendokument mit den niedrigsten DD-Wert und kombiniert in Übereinstimmung mit einem neunten Teil des Analysealgorithmus dieses Dokument vorübergehend mit dem Trainingsabschnitt des Referenzkörpers, gewinnt ein neues LM und wendet dieses neue LM auf den Entwicklungsabschnitt an, um einen neuen PP zu gewinnen, der als PPnew bezeichnet wird.
  • In einer zur ersten Ausführungsform ähnlichen Weise erzeugt der Agent 16 nun modifizierte Gewichte in Übereinstimmung mit dem Ausdruck
  • ΔWi = (k)·(Wi·RVi/DD)·(PPold - PPnew)·Wi,
  • wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/2000 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt.
  • Der Agent 16 wiederholt den Prozeß des neunten Teils des Analysealgorithmus für das Dokument in der Datei 18 für die aufbewahrten Texte mit dem nächstniedrigen DD-Wert, wobei er iterativ die Gewichte weiter modifiziert. Die Modifikation der Gewichte wird angehalten, wenn der Agent 16 eine Modifikation in bezug auf das letzte Dokumente in der Datei 18 für die aufbewahrten Texte ausgeführt hat. Der Agent 16 fährt nun fort, mehr Dokumente wiederzugewinnen und sie unter Verwendung der aktuellen Gruppe der Gewichte zu verarbeiten.
  • In Varianten führt der Agent 16 die Verarbeitung in Übereinstimmung mit dem neunten Teil des Analysealgorithmus auf einer Grundlage Dokument für Dokument aus, d. h. Wiedergewinnen von Dokumenten, bis ein erstes Dokument gefunden wird, das eine DD kleiner als der DT besitzt, Modifizieren der Gewichte auf der Grundlage dieses ersten gefundenen Dokuments, dann abermals Wiedergewinnen, Finden eines zweiten Dokuments und Modifizieren auf der Grundlage dieses zweiten gefundenen Dokuments, usw. In Varianten werden die aus der Datei 18 für die aufbewahrten Texte wiedergewonnenen Dokumente in diesem neunten Teil des Analysealgorithmus ständig mit dem Trainingsabschnitt kombiniert, der folglich zunehmend größer wird.
  • Der obenerwähnte Artikel von Katz beschreibt die Verwendung eines LMs in einem Spracherkennungskontext. Diese Verwendung ist per se nicht Teil der vorliegenden Erfindung, wobei sie nicht weiter beschrieben wird.
  • In Varianten dieses Spracherkennungssystems bezieht sich das LM auf andere Zielbereiche. Das LM kann in anderen auf die Sprache bezogenen Anwendungen verwendet werden, z. B. das Lokalisieren von Wörtern.
  • Während in den obigen Ausführungsformen die vier Maßstäbe zusammen verwendet werden, erstreckt sich die vorliegende Erfindung auf · Ausführungsformen, in denen lediglich einer der vier Maßstäbe verwendet wird, und auf Ausführungsformen, in denen irgendwelche zwei oder irgendwelche drei der vier Maßstäbe in Kombination verwendet werden. Im allgemeinen ist die Leistung des Agenten 16 um so besser, je mehr Maßstäbe sich in der Kombination befinden.
  • Die Homogenitätsprüfung des sechsten Teils des Analysealgorithmus kann gemäß einem anderen Aspekt der Erfindung verwendet werden, um die Eignung eines Referenzdokuments für die Verwendung als ein Referenzkörper oder ein Teil davon zu prüfen.

Claims (31)

1. Verfahren zur Informationswiedergewinnung, das die folgenden Schritte umfaßt:
Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals,
Wiedergewinnen eines Kandidatendokuments in Textform,
Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das als Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und
Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein vorgegebener Unähnlichkeitsgrad ist.
2. Verfahren nach Anspruch 1, bei dem der analysierte Teil des wiedergewonnenen Texts der Titel des Kandidatendokuments ist.
3. Verfahren nach Anspruch 2, bei dem die erste vorgegebene Funktion die folgenden Schritte umfaßt:
Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus dem wenigstens einen Teil des Referenzkörpers,
Gewinnen entsprechender inverser Dokumenthäufigkeiten IDF für die Ausdrücke der ersten TFL und
Erzeugen eines ersten entsprechenden Vektors für die erste TFL, der entsprechende Elemente enthält, wovon jedes die Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist, wobei der erste entsprechende Vektor das erste Ausgangssignal bildet;
und bei dem die zweite vorgegebene Funktion die folgenden Schritte umfaßt:
Erzeugen eines zweiten entsprechenden Vektors für die zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF eines entsprechenden Ausdrucks der zweiten TFL ist, und
Ableiten eines Maßes der Differenz zwischen dem ersten Vektor und dem zweiten Vektor, wobei das Differenzmaß ein Unähnlichkeitsmaß bildet.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
5. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramrn-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Zeichenebene n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Log- Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste umfaßt, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste umfaßt, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
8. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, umfaßt, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein erstes Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet; und
die zweite vorgegebene Funktion das Erzeugen einer zweiten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n- Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine Komponente des Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
9. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:
die erste vorgegebene Funktion das Erzeugen einer Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Sprachmodell das Ausgangssignal bildet;
die zweite vorgegebene Funktion das Anwenden des Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines Perplexitätswertes umfaßt, wobei der Perplexitätswert ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der Vektoren gegebenenfalls eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
10. Verfahren nach einem der Ansprüche 4 bis 9, wenn das Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt, umfassend den Schritt des Anlegens entsprechender Gewichte W1 an die entsprechenden Komponenten.
11. Verfahren nach Anspruch 10, bei dem die erste vorgegebene Funktion die Schritte des Ausführens einer anfänglichen Auswertung des wenigstens einen Teils des Referenzkörpers und des Setzens der Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom Ergebnis der anfänglichen Auswertung umfaßt.
12. Verfahren nach Anspruch 11, bei dem der Schritt des Setzens der Anfangswerte für die entsprechenden Gewichte umfaßt:
(a) den Unterschritt des Teilens des Referenzkörpers in einen Trainingsabschnitt, der den wenigstens einen Teil des Referenzkörpers bildet, und in einen Entwicklungsabschnitt;
(b) den Unterschritt des Analysierens des Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion und des Erzeugens entsprechender Komponenten eines Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt; und
(c) Gewinnen der Anfangswerte für die entsprechenden Gewichte durch Dividieren einer vorgegebenen Konstante durch die entsprechende Komponente des Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt.
13. Verfahren nach Anspruch 12, das die Schritte des Bildens eines weiteren Referenzkörpers durch Kombinieren des Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste aus dem weiteren Referenzkörper sowie des Ableitens eines entsprechenden zweiten Rückkopplungs-n-Gramm-Sprachmodells aus der entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das zweite Sprachmodell einen Ersatz für das erste Sprachmodell bildet.
14. Verfahren nach Anspruch 13, bei dem die erste vorgegebene Funktion umfaßt:
(a) einen vorhergehenden Unterschritt des Anwendens des ersten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines ersten Perplexitätswertes (PP1),
(b) einen Unterschritt des Anwendens des zweiten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines zweiten Perplexitätswertes (PP2),
(c) einen Unterschritt des Modifizierens der Gewichte durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und
(d) einen Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor.
15. Verfahren nach einem der Ansprüche 11 bis 14, bei dem der Schritt des Ausführens einer anfänglichen Auswertung wenigstens eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes (WC) wenigstens des Referenzkörpers enthält.
16. Verfahren nach einem der Ansprüche 11 bis 15, bei dem der Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen eines Homogenitätsmaßes (H) des wenigstens einen Teils des Referenzkörpers enthält.
17. Verfahren nach Anspruch 16, bei dem das Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile und durch Ausführen eines rangbasierten Korrelationsprozesses wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das Korrelationsergebnis das Homogenitätsmaß bildet.
18. Verfahren nach Anspruch 16, bei dem das Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens zwischen einem Paar det Worthäufigkeitslisten der anfänglichen Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das Homogenitätsmaß bildet.
19. Verfahren nach einem der Ansprüche 16 bis 18, wenn jede der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste umfaßt und wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt; und bei dem der Schritt des Setzens der Anfangswerte für die Gewichte die Unterschritte des Berechnens eines Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf null des Wertes des Gewichts, das der entsprechenden Unähnlichkeitskomponente entspricht, die den Wortebenen-n-Gramm-Häufigkeitslisten zugeordnet ist, umfaßt.
20. Verfahren nach einem der Ansprüche 10 bis 19, das die Schritte des Darstellens der entsprechenden Unähnlichkeitswerte und entsprechender Verbindungsglieder zu mehreren gespeicherten wiedergewonnenen Texten für jeden der mehreren gespeicherten wiedergewonnenen Texte für einen Anwender, des Empfangens eines zugewiesenen Relevanzwertes in bezug auf einen dargestellten Unähnlichkeitswertes vom Anwender und des Modifizierens der Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der zugewiesenen Relevanzwerte umfaßt.
21. Verfahren nach Anspruch 20, bei dem der Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu den dargestellten Unähnlichkeitswerten umfaßt.
22. Verfahren entweder nach Anspruch 20 oder nach Anspruch 21, bei dem der Anwender entsprechende Relevanzwerte in bezug auf mehrere der dargestellten Unähnlichkeitswerte zuweist und der Modifizierungsschritt das iterative Modifizieren der Gewichte für jeden der entsprechenden Relevanzwerte umfaßt.
23. Verfahren nach Anspruch 22, bei dem der Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit der vorgegebenen Funktion des Relevanzwertes, der dem gespeicherten wiedergewonnenen Text mit dem geringsten Unähnlichkeitsmaß entspricht, ausführt. ·
24. Verfahren nach einem der Ansprüche 20 bis 23, bei dem der Schritt des Modifizierens der Gewichte den Unterschritt des Ableitens eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert der niedrigsten und höchsten Relevanzwerte ist, sowie den Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor umfaßt.
25. Verfahren zum Testen der Eignung eines Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung bei der Informationswiedergewinnung mittels Abfrage durch Beispiel, wobei das Verfahren die folgenden Schritte umfaßt:
Empfangen eines möglichen Referenzdokuments;
Analysieren des Inhalts des möglichen Referenzdokuments durch die folgenden Unterschritte:
Unterteilen des möglichen Referenzdokuments in zwei im wesentlichen gleiche Abschnitte,
Gewinnen eines Maßes der linguistischen Unähnlichkeit zwischen den beiden Abschnitten und
Vergleichen des gewonnenen Maßes mit einem vorgegebenen Kriterium, um ein Analyseergebnis zu gewinnen; und
falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche Referenzdokument als der wenigstens eine Teil des Referenzkörpers geeignet ist.
26. Verfahren nach Anspruch 25, bei dem der Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen Referenzdokuments zu dem einen oder anderen der Abschnitte auf zufähiger Basis umfaßt.
27. Verfahren nach Anspruch 25 oder Anspruch 26, bei dem der Gewinnungsschritt das Erzeugen einer entsprechenden Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines rangbasierten Korrelationsprozesses zwischen den beiden Worthäufigkeitslisten umfaßt.
28. Verfahren nach Anspruch 27, bei dem das vorgegebene Kriterium darin besteht, daß das Ergebnis der Korrelation niedriger als ein vorgegebener Wert ist.
29. Informationsagent für die Verwendung in einem Kommunikationsnetz, das mehrere Datenbanken umfaßt, wobei der Agent die folgenden Schritte umfaßt: Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals 36,
Wiedergewinnen 38 eines Kandidatendokuments in Textform,
Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
Analysieren 38 wenigstens eines Teils des wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals 40, das als ein Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt und
Speichern 44 des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer als ein vorgegebener Unähnlichkeitsgrad ist.
30. Informationszugriffsystem zum Zugreifen auf Informationen, die verteilt und für ein Kommunikationsnetz zugänglich gespeichert sind, wobei das Zugriffssystem wenigstens einen Softwareagenten für die Verwendung beim Zugreifen auf Informationen mittels des Netzes umfaßt, wobei der Agent mit einem Datenspeicher oder mit einem Zugriff auf einen Datenspeicher versehen ist, um wiedergewonnene Teile von Informationen zu speichern, wobei der Agent bei Empfang erster Identifizierungsinformationen auslösbar ist, um einen ersten Informationsteil, der den ersten Identifizierungsinformationen entspricht, wiederzugewinnen und den ersten Informationsteil in den Datenspeicher einzugeben, um den ersten Informationsteil zu analysieren und ein Analyseergebnis zu gewinnen, um einen zweiten Informationsteil, der empfangenen zweiten Identiiizierungsinformationen entspricht, wiederzugewinnen und den zweiten Informationsteil vorübergehend in den Datenspeicher einzugeben, um das Analyseergebnis zu verwenden, um den zweiten Informationsteil mit dem ersten Informationsteil zu vergleichen, und um im Falle eines negativen Ergebnisses eines Unähnlichkeitstests vorhandener Dokumente und eines neu wiedergewonnenen Informationsteils den zweiten Informationsteil aus dem Datenspeicher zu löschen.
31. Dokumentzugriffsystem zum Zugreifen auf Dokumente, die in verteilter Weise und für ein Kommunikationsnetz zugänglich gespeichert sind, wobei das Zugriffsystem wenigstens einen Softwareagenten für die Verwendung beim Zugreifen auf Dokumente mittels des Netzes umfaßt, wobei der Agent umfaßt: Mittel zum Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und zum Erzeugen eines ersten Ausgangssignals,
Mittel zum Wiedergewinnen eines Kandidatendokuments in Textform
Mittel zum Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
Mittel zum Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und zum Erzeugen eines zweiten Ausgangssignals, wobei das zweite Ausgangssignal als ein Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und
Mittel zum Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer als ein vorgegebener Unähnlichkeitsgrad ist.
DE69804821T 1997-01-30 1998-01-30 Informationswiedergewinnung Expired - Fee Related DE69804821T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB9701866.7A GB9701866D0 (en) 1997-01-30 1997-01-30 Information retrieval
PCT/GB1998/000294 WO1998034180A1 (en) 1997-01-30 1998-01-30 Information retrieval

Publications (2)

Publication Number Publication Date
DE69804821D1 DE69804821D1 (de) 2002-05-16
DE69804821T2 true DE69804821T2 (de) 2002-11-28

Family

ID=10806789

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69804821T Expired - Fee Related DE69804821T2 (de) 1997-01-30 1998-01-30 Informationswiedergewinnung

Country Status (7)

Country Link
US (1) US6167398A (de)
EP (1) EP1012750B1 (de)
JP (1) JP2001509293A (de)
AU (1) AU5873698A (de)
DE (1) DE69804821T2 (de)
GB (1) GB9701866D0 (de)
WO (1) WO1998034180A1 (de)

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6665837B1 (en) * 1998-08-10 2003-12-16 Overture Services, Inc. Method for identifying related pages in a hyperlinked database
JP3344953B2 (ja) * 1998-11-02 2002-11-18 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US6286006B1 (en) * 1999-05-07 2001-09-04 Alta Vista Company Method and apparatus for finding mirrored hosts by analyzing urls
US6615259B1 (en) * 1999-05-20 2003-09-02 International Business Machines Corporation Method and apparatus for scanning a web site in a distributed data processing system for problem determination
US6445822B1 (en) * 1999-06-04 2002-09-03 Look Dynamics, Inc. Search method and apparatus for locating digitally stored content, such as visual images, music and sounds, text, or software, in storage devices on a computer network
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
CA2396573A1 (en) * 2000-01-06 2001-07-12 Igotpain.Com, Inc. System and method of decision making
US8335994B2 (en) 2000-02-25 2012-12-18 Salmon Alagnak Llc Method and apparatus for providing content to a computing device
GB0006159D0 (en) * 2000-03-14 2000-05-03 Ncr Int Inc Predicting future behaviour of an individual
US7428500B1 (en) 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US6865528B1 (en) 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7024418B1 (en) * 2000-06-23 2006-04-04 Computer Sciences Corporation Relevance calculation for a reference system in an insurance claims processing system
JP3567864B2 (ja) * 2000-07-21 2004-09-22 株式会社デンソー 音声認識装置及び記録媒体
US7328211B2 (en) * 2000-09-21 2008-02-05 Jpmorgan Chase Bank, N.A. System and methods for improved linguistic pattern matching
US8272873B1 (en) 2000-10-16 2012-09-25 Progressive Language, Inc. Language learning system
US6968540B2 (en) 2000-10-25 2005-11-22 Opnet Technologies Inc. Software instrumentation method and apparatus
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
DE50112574D1 (de) * 2001-03-23 2007-07-12 Siemens Ag Methode zum Auffinden von Dokumenten
US7039700B2 (en) * 2001-04-04 2006-05-02 Chatguard.Com System and method for monitoring and analyzing communications
US7082416B2 (en) * 2001-04-06 2006-07-25 Karyn Elaine Anderson Method of using prepaid cash card for making purchases on the world wide web
US6643613B2 (en) * 2001-07-03 2003-11-04 Altaworks Corporation System and method for monitoring performance metrics
JP2003029615A (ja) * 2001-07-13 2003-01-31 Nova:Kk ランキングシステム及びランキング方法
WO2003009140A2 (en) 2001-07-20 2003-01-30 Altaworks Corporation System and method for adaptive threshold determination for performance metrics
US7219034B2 (en) * 2001-09-13 2007-05-15 Opnet Technologies, Inc. System and methods for display of time-series data distribution
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
NL1020670C2 (nl) * 2002-05-24 2003-11-25 Oce Tech Bv Het bepalen van een semantische afbeelding.
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
JP3781005B2 (ja) * 2002-12-12 2006-05-31 セイコーエプソン株式会社 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
US7421418B2 (en) 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7289985B2 (en) 2004-04-15 2007-10-30 Microsoft Corporation Enhanced document retrieval
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US7260568B2 (en) 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
US20050234973A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Mining service requests for product support
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
US7610191B2 (en) * 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
US8047228B2 (en) * 2005-02-23 2011-11-01 Exxonmobil Chemical Patents Inc. Metering system and use thereof
US20060200461A1 (en) * 2005-03-01 2006-09-07 Lucas Marshall D Process for identifying weighted contextural relationships between unrelated documents
US20060271538A1 (en) * 2005-05-24 2006-11-30 International Business Machines Corporation Method and system for managing files in a file system
US20070016687A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation System and method for detecting imbalances in dynamic workload scheduling in clustered environments
US20070067157A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation System and method for automatically extracting interesting phrases in a large dynamic corpus
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US20090024598A1 (en) 2006-12-20 2009-01-22 Ying Xie System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20070204001A1 (en) * 2006-02-28 2007-08-30 Hoopes John M Method of evaluating documents
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US20080126331A1 (en) * 2006-08-25 2008-05-29 Xerox Corporation System and method for ranking reference documents
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
WO2008083447A1 (en) * 2007-01-12 2008-07-17 Synetek Systems Pty Ltd Method and system of obtaining related information
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US20080222144A1 (en) * 2007-03-08 2008-09-11 Ab Inventio, Llc Search engine refinement method and system
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
JP5158379B2 (ja) * 2007-04-27 2013-03-06 日本電気株式会社 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム
US7814107B1 (en) 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US8046372B1 (en) * 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7912503B2 (en) * 2007-07-16 2011-03-22 Microsoft Corporation Smart interface system for mobile communications devices
US8165633B2 (en) * 2007-07-16 2012-04-24 Microsoft Corporation Passive interface and software configuration for portable devices
US7988297B2 (en) 2007-10-19 2011-08-02 Look Dynamics, Inc. Non-rigidly coupled, overlapping, non-feedback, optical systems for spatial filtering of fourier transform optical patterns and image shape content characterization
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
MY151173A (en) * 2008-09-12 2014-04-30 Mimos Bhd Method and system for retrieving data and displaying content density of a data storage
US8284418B2 (en) * 2009-01-05 2012-10-09 International Business Machines Corporation Document information acquisition and notification of duplicate document storage
US8468011B1 (en) 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
CN102207968B (zh) * 2011-06-08 2013-11-20 北京百度网讯科技有限公司 一种基于检索结果相关性判断的检索方法及装置
US10169339B2 (en) 2011-10-31 2019-01-01 Elwha Llc Context-sensitive query enrichment
US8719196B2 (en) 2011-12-19 2014-05-06 Go Daddy Operating Company, LLC Methods for monitoring computer resources using a first and second matrix, and a feature relationship tree
US8600915B2 (en) 2011-12-19 2013-12-03 Go Daddy Operating Company, LLC Systems for monitoring computer resources
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US20130173294A1 (en) 2011-12-30 2013-07-04 Elwha LLC, a limited liability company of the State of Delaware Evidence-based healthcare information management protocols
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US9876762B2 (en) 2012-12-31 2018-01-23 Elwha Llc Cost-effective mobile connectivity protocols
US9635605B2 (en) 2013-03-15 2017-04-25 Elwha Llc Protocols for facilitating broader access in wireless communications
US9451394B2 (en) 2012-12-31 2016-09-20 Elwha Llc Cost-effective mobile connectivity protocols
US8965288B2 (en) 2012-12-31 2015-02-24 Elwha Llc Cost-effective mobile connectivity protocols
US9713013B2 (en) 2013-03-15 2017-07-18 Elwha Llc Protocols for providing wireless communications connectivity maps
US9781664B2 (en) 2012-12-31 2017-10-03 Elwha Llc Cost-effective mobile connectivity protocols
US9980114B2 (en) 2013-03-15 2018-05-22 Elwha Llc Systems and methods for communication management
US9832628B2 (en) 2012-12-31 2017-11-28 Elwha, Llc Cost-effective mobile connectivity protocols
US9693214B2 (en) 2013-03-15 2017-06-27 Elwha Llc Protocols for facilitating broader access in wireless communications
US9813887B2 (en) 2013-03-15 2017-11-07 Elwha Llc Protocols for facilitating broader access in wireless communications responsive to charge authorization statuses
US9596584B2 (en) 2013-03-15 2017-03-14 Elwha Llc Protocols for facilitating broader access in wireless communications by conditionally authorizing a charge to an account of a third party
US9781554B2 (en) 2013-03-15 2017-10-03 Elwha Llc Protocols for facilitating third party authorization for a rooted communication device in wireless communications
US9807582B2 (en) 2013-03-15 2017-10-31 Elwha Llc Protocols for facilitating broader access in wireless communications
US9843917B2 (en) 2013-03-15 2017-12-12 Elwha, Llc Protocols for facilitating charge-authorized connectivity in wireless communications
US9706060B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for facilitating broader access in wireless communications
US9866706B2 (en) 2013-03-15 2018-01-09 Elwha Llc Protocols for facilitating broader access in wireless communications
US9706382B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for allocating communication services cost in wireless communications
US9826439B2 (en) 2013-09-30 2017-11-21 Elwha Llc Mobile device sharing facilitation methods and systems operable in network equipment
US9813891B2 (en) 2013-09-30 2017-11-07 Elwha Llc Mobile device sharing facilitation methods and systems featuring a subset-specific source identification
US9740875B2 (en) 2013-09-30 2017-08-22 Elwha Llc Mobile device sharing facilitation methods and systems featuring exclusive data presentation
US9805208B2 (en) 2013-09-30 2017-10-31 Elwha Llc Mobile device sharing facilitation methods and systems with recipient-dependent inclusion of a data selection
US9838536B2 (en) 2013-09-30 2017-12-05 Elwha, Llc Mobile device sharing facilitation methods and systems
US9774728B2 (en) 2013-09-30 2017-09-26 Elwha Llc Mobile device sharing facilitation methods and systems in a context of plural communication records
CN104951435A (zh) * 2015-07-28 2015-09-30 陈包容 聊天过程中智能显示关键词的方法及装置
CN105005555A (zh) * 2015-07-28 2015-10-28 陈包容 基于聊天时间的关键词提取方法及装置
US10467276B2 (en) * 2016-01-28 2019-11-05 Ceeq It Corporation Systems and methods for merging electronic data collections
US9864956B1 (en) 2017-05-01 2018-01-09 SparkCognition, Inc. Generation and use of trained file classifiers for malware detection
US10616252B2 (en) 2017-06-30 2020-04-07 SparkCognition, Inc. Automated detection of malware using trained neural network-based file classifiers and machine learning
US10305923B2 (en) 2017-06-30 2019-05-28 SparkCognition, Inc. Server-supported malware detection and protection
WO2019060645A1 (en) 2017-09-20 2019-03-28 Look Dynamics, Inc. PHOTONIC NEURONAL NETWORK SYSTEM
US11868729B2 (en) 2020-12-29 2024-01-09 International Business Machines Corporation Analyzing and explaining a temporal evolution of policies and suggesting next steps

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same

Also Published As

Publication number Publication date
GB9701866D0 (en) 1997-03-19
EP1012750A1 (de) 2000-06-28
WO1998034180A1 (en) 1998-08-06
US6167398A (en) 2000-12-26
DE69804821D1 (de) 2002-05-16
EP1012750B1 (de) 2002-04-10
AU5873698A (en) 1998-08-25
JP2001509293A (ja) 2001-07-10

Similar Documents

Publication Publication Date Title
DE69804821T2 (de) Informationswiedergewinnung
DE69833238T2 (de) System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69804495T2 (de) Informationsmanagement und wiedergewinnung von schlüsselbegriffen
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE69624985T2 (de) Verfahren und Gerät, um Suchantworten in einem rechnergestützten Dokumentwiederauffindungssystem zu generieren
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE69424902T2 (de) Gerät und Verfahren zur anpassungsfähigen nicht-buchstäblichen Textsuche
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
DE69900854T2 (de) Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät
DE69917250T2 (de) Merkmalübertragung über hyperlinks
US6336112B2 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
DE69809263T2 (de) Methoden ud system zur wahl von datensets
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE112015005839T5 (de) Verwendung von statistischen Flussdaten für Maschinenübersetzungen zwischen verschiedenen Sprachen
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
Chan et al. Automated online news classification with personalization
DE60032258T2 (de) Bestimmen ob eine variable numerisch oder nicht numerisch ist
WO2005057426A1 (de) System und verfahren zur aggregation und analyse von dezentralisiert gespeicherten multimediadaten
WO1999010819A1 (de) Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil
DE112020003024T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
KR20010102687A (ko) 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee