DE69804821T2 - Informationswiedergewinnung - Google Patents
InformationswiedergewinnungInfo
- Publication number
- DE69804821T2 DE69804821T2 DE69804821T DE69804821T DE69804821T2 DE 69804821 T2 DE69804821 T2 DE 69804821T2 DE 69804821 T DE69804821 T DE 69804821T DE 69804821 T DE69804821 T DE 69804821T DE 69804821 T2 DE69804821 T2 DE 69804821T2
- Authority
- DE
- Germany
- Prior art keywords
- dissimilarity
- measure
- predetermined function
- word
- grams
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000003795 chemical substances by application Substances 0.000 claims description 94
- 230000006870 function Effects 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 63
- 238000004458 analytical method Methods 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 27
- 230000014509 gene expression Effects 0.000 claims description 18
- 238000011161 development Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims 2
- 230000000717 retained effect Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 206010000210 abortion Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf die Informationswiedergewinnung und insbesondere, aber nicht ausschließlich, auf einen Internet-Informationsagenten, der Kandidatendokumente nach Unähnlichkeit mit einem durch einen Anwender des Agenten identifizierten Referenzkörper analysiert.
- Im Stand der Technik ist das folgende Dokument bekannt: EP-A-0 687 987 (XEROX CORP), 20. Dezember 1995. In diesem Dokument ist ein Verfahren und eine Vorrichtung zum Wiedergewinnen relevanter Dokumente aus einem Körper aus Dokumenten offenbart. In diesem System ist eine Eingangsabfrage die Grundlage für das selektive Wiedergewinnen von Dokumenten aus einem Körper aus Dokumenten. Für jedes Dokument wird die Berechnung der Dokument-Kontextvektoren und der Korrelationskoeffizienten ausgeführt. Danach wird außerdem eine Einstufung der Dokumente ausgeführt, siehe Fig. 12 dieses Dokuments des Standes der Technik. In der Technik der Informationswiedergewinnung ist es bekannt, daß ein Anwender die Anfangsbedingungen für das Wiedergewinnen mittels einer Gruppe aus Schlüsselwörtern spezifiziert. Verschiedene Suchmaschinen sind bekannt, deren Suchsprachen für eine fortgeschrittene Suche unter Verwendung Boolscher Operatoren zum Kombinieren der Schlüsselwörter angepaßt sind.
- Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Informationswiedergewinnung geschaffen, das die folgenden Schritte umfaßt:
- Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals,
- Wiedergewinnen eines Kandidatendokuments in Textform,
- Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
- Analysieren wenigstens eines Teils des wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das als Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts angibt, und
- Speichern des wiedergewonnenen Texts, falls das zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein vorgegebener Unähnlichkeitsgrad ist.
- Es ist klar, daß der Unähnlichkeitsgrad zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes um so größer ist, je größer der Wert des Unähnlichkeitsmaßes ist, oder, umgekehrt, je kleiner der Wert des Unähnlichkeitsmaßes ist, desto kleiner ist der Unähnlichkeitsgrat zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Textes. Mit anderen Worten, das Unähnlichkeitsmaß wird einen Nullwert besitzen, falls die zwei Dokumente völlig gleich sind.
- Die vorliegende Erfindung unterscheidet sich von den obigen Wiedergewinnungstechniken des Standes der Technik insofern, als der Anwender einen Referenzkörper (ein Startdokument) als ein Beispiel des Typs des Dokuments bereitstellt, den der Anwender finden möchte, wobei das Verfahren der Erfindung, wie es durch einen Informationswiedergewinnungsagenten ausgeführt wird, den Referenzkörper in Übereinstimmung mit einem Maßstab oder mehreren Maßstäben aus einem Bereich der Maßstäbe analysiert, wobei sich diese auf die Worthäufigkeit (Ausdruckshäufigkeit) des Titels des Kandidatendokuments, die Zeichenebenen-n-Gramm-Häufigkeit, die Worthäufigkeit des ganzen Textes des Kandidatendokuments und das Wortebenen-n-Gramm-Sprachmodell beziehen. Je größer die Kombination der Maßstäbe, desto besser arbeitet der Agent.
- Ein Verfahren der vorliegenden Erfindung kann für die Informationswiedergewinnung auf Anforderung durch einen Anwender verwendet werden, oder es kann verwendet werden, um ein Sprachmodell zu verbessern, das in einer Sprachanwendung verwendet wird, z. B. in einer Spracherkennungsanwendung.
- Vorzugsweise ist der analysierte Teil des wiedergewonnenen Textes der Titel des Kandidatendokuments.
- Vorzugsweise umfaßt die erste vorgegebene Funktion die folgenden Schritte:
- Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus dem wenigstens einen Teil des Referenzkörpers, Gewinnen entsprechender inverser Dokumenthäufigkeiten IDF für die Ausdrücke der ersten TFL und
- Erzeugen eines ersten entsprechenden Vektors für die erste TFL, der entsprechende Elemente enthält, wovon jedes die Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist, wobei der erste entsprechende Vektor das erste Ausgangssignal bildet;
- und bei dem die zweite vorgegebene Funktion die folgenden Schritte umfaßt:
- Erzeugen einer zweiten TFL aus dem wenigsten einen Teil des wiedergewonnenen Tees, ·
- Erzeugen eines zweiten entsprechenden Vektors für die zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF eines entsprechenden Ausdrucks der zweiten TFL ist, und
- Ableiten eines Maßes der Differenz zwischen dem ersten Vektor und dem zweiterf Vektor, wobei das Differenzmaß ein Unähnlichkeitsriiaß bildet.
- Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
- die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
- die zweite vorgegebene Funktion das Erzeugen einer zweiten Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Zeichenebenen-n-Gramni-Häufigkeitsliste umfaßt, wobei das Log- Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
- die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Worthäufigkeitsliste, wobei die erste Worthäufigkeitsliste das erste Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet;
- die zweite vorgegebene Funktion das Erzeugen einer zweiten Worthäufigkeitsliste sowie das Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Alternativ oder zusätzlich umfaßt die erste vorgegebene Funktion das Erzeugen einer ersten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein erstes Ausgangssignal oder gegebenenfalls eine Komponente des ersten Ausgangssignals bildet; und
- die zweite vorgegebene Funktion das Erzeugen einer zweiten Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, das Ausführen eines rangbasierten Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n- Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der Vektoren eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Alternativ umfaßt die erste vorgegebene Funktion das Erzeugen einer Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der Wortebenen-n-Gramm-Häufigkeitsliste, wobei das Sprachmodell das Ausgangssignal bildet;
- die zweite vorgegebene Funktion das Anwenden des Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines Perplexitätswertes umfaßt, wobei der Perplexitätswert ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der Vektoren gegebenenfalls eine weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
- Wenn das Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt, ist der Schritt des Anlegens entsprechender Gewichte (Wi) an die entsprechenden Komponenten vorzugsweise enthalten.
- Vorzugsweise umfaßt die erste vorgegebene Funktion die Schritte des Ausführens einer anfänglichen Auswertung des wenigstens einen Teils des Referenzkörpers und des Setzens der Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom Ergebnis der anfänglichen Auswertung.
- Bevorzugter umfaßt der Schritt des Setzens der Anfangswerte für die entsprechenden Gewichte:
- (a) den Unterschritt des Teilens des Referenzkörpers in einen Trainingsabschnitt, der den wenigstens einen Teil des Referenzkörpers bildet, und in einen Entwicklungsabschnitt;
- (b) den Unterschritt des Analysierens des Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion und des Erzeugens entsprechender Komponenten eines Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt; und
- (c) Gewinnen der Anfangswerte für die entsprechenden Gewichte durch Dividieren einer vorgegebenen Konstante durch die entsprechende Komponenten des Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem Entwicklungsabschnitt.
- Vorzugsweise sind die Schritte des Bildens eines weiteren Referenzkörpers durch Kombinieren des Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer entsprechenden Wortebenen-n- Gramm-Häufigkeitsliste aus dem weiteren Referenzkörper sowie des Ableitens eines entsprechenden zweiten Rückkopplungs-n-Gramm- Sprachmodells aus der entsprechenden Wortebenen-n-Gramm- Häufigkeitsliste enthalten, wobei das zweite Sprachmodell einen Ersatz für das erste Sprachmodell bildet.
- Vorzugsweise umfaßt die erste vorgegebene Funktion:
- (a) einen vorhergehenden Unterschritt des Anwendens des ersten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines ersten Perplexitätswertes (PP&sub1;),
- (b) einen Unterschritt des Anwendens des zweiten Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines zweiten Perplexitätswertes (PP&sub2;),
- (c) einen Unterschritt des Modifizierens der Gewichte durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (W&sub1;), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und
- (d) einen Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor (1 + ki).
- Vorzugsweise enthält der Schritt des Ausführens einer anfänglichen Auswertung wenigstens eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes (WC) des wenigstens eines Teils des Referenzkörpers.
- Vorzugsweise kann der Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen eines Homogenitätsmaßes (H) des wenigstens einen Teils des Referenzkörpers enthalten.
- Vorzugsweise wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile und durch Ausführen eines rangbasierten Korrelationsprozesses wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das Korrelationsergebnis das Homogenitätsmaß bildet.
- Alternativ wird das Homogenitätsmaß gewonnen durch Unterteilen des wenigstens einen Teils des Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens zwischen einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das Homogenitätsmaß bildet.
- Wenn jede der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer entsprechenden Wortebenen-n-Gramm-Häufigkeitslisteumfaßt und wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende Komponenten umfaßt; dann umfaßt der Schritt des Setzens der Anfangswerte für die Gewichte vorzugsweise die Unterschritte des Berechnens eines Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf null des Wertes des Gewichts, das der entsprechenden Unähnlichkeitskomponente entspricht, die den Wortebenenn-Gramm-Häufigkeitslisten zugeordnet ist.
- Es können die Schritte des Darstellens der entsprechenden Unähnlichkeitswerte und entsprechender Verbindungsglieder zu mehreren gespeicherten wiedergewonnenen Texten für jeden der mehreren gespeicherten wiedergewonnenen Texte für einen Anwender, des Empfangens eines zugewiesenen Relevanzwertes in bezug auf einen dargestellten Ähnlichkeitswert vom Anwender und des Modifizierens der Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der zugewiesenen Relevanzwerte enthalten sein.
- Vorzugsweise umfaßt der Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu den dargestellten Unähnlichkeitswerten.
- Der Anwender kann entsprechende Relevanzwerte in bezug auf mehrere der dargestellten Unähnlichkeitswerte zuweisen, und der Modifizierungsschritt kann das iterative Modifizieren der Gewichte für jeden der entsprechenden Relevanzwerte umfassen.
- Vorzugsweise führt der Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit der vorgegebenen Funktion des Relevanzwertes, der dem gespeicherten wiedergewonnenen Text mit dem geringsten Unähnlichkeitsmaß entspricht, aus.
- Der Schritt des Modifizierens der Gewichte kann den Unterschritt des Ableitens eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die entsprechende gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert der niedrigsten und höchsten Relevanzwerte ist, sowie den Unterschritt des Multiplizierens jedes Gewichts mit seinem entsprechenden Gewichtungsfaktor umfassen.
- Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Informationsagent für die Verwendung in einem Kommunikationsnetz geschaffen, das mehrere Datenbanken umfaßt, wobei der Agent umfaßt: Mittel zum Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals, Mittel zum Wiedergewinnen eines Kandidatendokuments in Textform,
- Mittel zum Bereitstellen des ersten Ausgangssignals als ein Eingangssignal für eine zweite vorgegebene Funktion,
- Mittel zum Analysieren wenigstens eines Teils des wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen Funktion und Erzeugen eines zweiten Ausgangssignals, das ein Unähnlichkeitsmaß zwischen dem analysierten Teil des Referenzkörpers und dem analysierten Teil des wiedergewonnenen Texts bildet, und
- Mittel zum Speichern des wiedergewonnenen Texts, falls das Unähnlichkeitsmaß kleiner als ein vorgegebener Schwellenwert der Unähnlichkeit ist.
- Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Testen der Eignung eines Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung bei der Informationswiedergewinnung mittels Abfrage durch Beispiel geschaffen, wobei das Verfahren die folgenden Schritte umfaßt:
- Empfangen eines möglichen Referenzdokuments;
- Analysieren des Inhalts des möglichen Referenzdokuments durch die folgenden Unterschritte:
- Unterteilen des möglichen Referenzdokuments in zwei im wesentlichen gleiche Abschnitte,
- Gewinnen eines Maßes der linguistischen Unähnlichkeit zwischen den beiden Abschnitten und
- Vergleichen des gewonnenen Maßes mit einem vorgegebenen Kriterium, um ein Analyseergebnis zu gewinnen; und
- falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche Referenzdokument als der wenigstens eine Teil des Referenzkörpers geeignet ist.
- Vorzugsweise umfaßt der Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen Referenzdokuments zu dem einen oder anderen der Abschnitte auf zufälliger Basis.
- Alternativ oder zusätzlich umfaßt der Gewinnungsschritt das Erzeugen einer entsprechenden Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines rangbasierten Korrelationsprozesses zwischen den beiden Worthäufigkeitslisten.
- Vorzugsweise besteht das vorgegebene Kriterium darin, daß das Ergebnis der Korrelation niedriger als ein vorgegebener Wert ist.
- Ein Internet-Informationsagent der vorliegenden Erfindung und zwei Anwendungen, die den Agenten enthalten, werden nun beispielhaft unter Bezugnahme auf die Zeichnung beschrieben, worin:
- Fig. 1 ein Informationszugriffsystem zeigt, das ein Informationsagentensystem enthält;
- Fig. 2 einen Ablaufplan eines Prozesses der Informationswiedergewinnung des Zugriffsystems nach Fig. 1 zeigt;
- Fig. 3 einen Ablaufplan der Unterschritte von einem der Schritte des · Ablaufplans nach Fig. 2 zeigt; und
- Fig. 4 einen Ablaufplan der Unterschritte eines anderen der Schritte des Ablaufplans nach Fig. 2 zeigt.
- Die folgenden Beschreibung nimmt an, daß ein Fachmann mit der Informationstechnologie, dem Internet, der interaktiven Weise, in der Web-Seiten, die Schaltflächen und Felder enthalten, dem Anwender auf dem Bildschirm eines Computer-Monitors dargestellt werden und in der der Anwender z. B. eine weitere Seite oder einen weiteren Dienst durch das Anklicken der geeigneten Schaltfläche unter Verwendung einer Maus auswählt und Informationen mittels einer Tastatur in Felder eingibt, z. B. das Eingeben einer einheitlichen Ressourcenadresse (URL) in ein Adressenfeld, um die Anzeige einer Seite anzufordern, die der eingegebenen um URL entspricht, vertraut ist.
- In Fig. 1 kann ein Informationszugriffsystem gemäß einer Ausführungsform der vorliegenden Erfindung in einer bekannten Form der Informationswiedergewinnungs-Architektur gebaut sein, wie z. B. einer Client-Server-Architektur, die mit dem Internet verbunden ist.
- Ausführlicher besitzt ein Kunde, wie z. B. eine internationale Gesellschaft, einen Client-Kontext eines Kunden, der mehrere Anwender umfaßt, die mit Personal-Computern oder Arbeitsplatzrechnern 10 ausgerüstet sind, wobei jeder einen residenten World-Wide-Web- Betrachter (WWW- oder W3-Betrachter) 12 besitzt und mit einem WWW-Dateiserver 14 verbunden ist. Ein Internet-Informationsagent (IIA) 16, effektiv eine Erweiterung des Betrachters 12, ist in der Form einer Software-Entität auf dem WWW-Dateiserver 14 resident. In einer Variante ist der IIA 16, der in dem Dateiserver 14 resident ist, durch einen entsprechenden IIA 16 ersetzt, der in jedem Arbeitsplatzrechner 10 resident ist.
- Der WWW-Dateiserver 14 ist in bekannter Weise mit dem Internet verbunden, z. B. über das eigene Netz 20 des Kunden und einen Router 22. Auf den Dateiserver 24 des Dienstanbieters kann dann über das Internet, abermals über Router, zugegriffen werden. Ein Speicher 18 für die aufbewahrten Texte, dessen Verwendung später beschrieben wird, ist außerdem auf dem Dateiserver 14 resident oder durch den Dateiserver 14 zugänglich.
- In einem IIA-gestützten System kann der Agent 16 selbst als eine Erweiterung eines bekannten Betrachters, wie z. B. Netscape, aufgebaut sein. Der Agent 16 ist effektiv in den Betrachter 12 integriert, der durch Netscape oder Mosaic usw. bereitgestellt sein kann, wobei er die Anzeige der Seiten und der Suchergebnisse (die außerdem als Suchdokumente bezeichnet werden) steuert.
- Wie oben beschrieben ist, steht in der Client-Server-Architektur der Speicher 18 für die aufbewahrten Texte in der Datei im Dateiserver 14, wo der Agent 16 resident ist, in Varianten kann aber der Speicher 18 für die aufbewahrten Texte auf einem Server gespeichert sein, auf den von fern zugegriffen wird.
- Ein Agent 16, der ein Softwareagent ist, kann im allgemeinen als eine Software-Entität beschrieben werden, die die Funktionalität des Ausführens einer Aufgabe oder von Aufgaben im Interesse eines Anwenders zusammen mit lokalen Daten oder dem Zugriff auf lokale Daten enthält, um diese Aufgabe oder diese Aufgaben zu unterstützen. Die in einem IIA-System relevanten Aufgaben, von denen eine oder mehrere durch einen Agenten 16 ausgeführt werden können, sind im folgenden beschrieben. Die lokalen Daten werden normalerweise Daten aus dem Speicher 18 für die aufbewahrten Texte enthalten, wobei die durch einen Agenten 16 bereitzustellende Funktionalität im allgemeinen Mittel enthalten wird, um einen Analysealgorithmus anzuwenden und die Ergebnisse zu speichern, und um dem Anwender eine geordnete Liste der Suchergebnisse bereitzustellen.
- Die Ausführungsformen der vorliegenden Erfindung könnten entsprechend verschiedenen Software-Systemen gebaut sein. Es könnte z. B. zweckmäßig sein, daß objektorientierte Techniken angewendet werden. In den Ausführungsformen, wie sie im folgenden beschrieben sind, wird der Dateiserver 14 jedoch Unix-gestützt sein. Das System ist in "Perl" implementiert, obwohl der Client irgendeine Maschine sein kann, die einen W3-Betrachter unterstützen kann.
- Unter zusätzlicher Bezugnahme auf die Ablaufpläne in den Fig. 2 bis 4 führt eine erste Anwendung des Agenten 16 die Aktivierung der Informationswiedergewinnung (die außerdem als Informationszugriff bekannt ist) durch einen Anwender einer Suchanforderung aus, die im Stand der Technik als "Abfrage durch Beispiel" oder "finde für mich etwas weiteres wie dieses" bekannt ist. In dieser Ausführungsform beginnt der Anwender an einem Arbeitsplatzrechner 10 die Informationswiedergewinnung durch das Klicken auf eine Schaltfläche, die den Agenten 16 auslöst (Schritt 30). Nun wird eine Seite vom Dateiserver 14 zum Arbeitsplatzrechner des Anwenders heruntergeladen, diese Seite besitzt verschiedene Felder, einschließlich eines Feldes für den Eintrag der URLs, und verschiedene Schaltflächen, einschließlich einer "Abfrage durch-Beispiel"-Schaltfläche. Der Anwender positioniert die Schreibmarke des Bildschirms im Feld für die Eingabe der URL in der üblichen Weise, tippt die URL eines Referenzdokuments (Schritt 32) ein und klickt auf die Abfrage durch- Beispiel-Schaltfläche, um den Agenten 16 auszulösen, d. h. zu starten, der das Wiedergewinnen des Referenzdokuments beginnt (Schritt 34).
- Dieses Referenzdokument bildet den Referenzkörper für den Agenten 16, aber, wie im folgenden erklärt ist, kann der Referenzkörper aus zwei oder mehr Dokumenten gebildet werden, die gemeinsam genommen werden.
- Der Betrieb des Agenten 16 wird zuerst kurz und später ausführlicher beschrieben.
- Der Agent 16 verarbeitet das wiedergewonnene Referenzdokument (Schritt 36), um vier Gewichte W&sub1; bis W&sub4; abzuleiten, die den vier Unähnlichkeitsmaßstäben M&sub1; bis M&sub4; entsprechen, diese Unähnlichkeitsmaßstäbe werden auf ein Kandidatendokument angewendet, d. h. auf ein Dokument, das vom Agenten bewertet wird, um die zurückgeschickten Werte RV&sub1; bis RV&sub4; zu erhalten.
- Der Agent 16 beginnt mit dem durch die URL gekennzeichneten Kandidatendokument, die in den im folgenden beschriebenen Suchanweisungen enthalten ist. Er wendet auf das Kandidatendokument die vier Unähnlichkeitsmaßstäbe M&sub1; bis M&sub4; an, gewinnt die vier zurückgeschickten Werte RV&sub1; bis RV&sub4;, wie im folgenden beschrieben ist, leitet in Übereinstimmung mit dem Ausdruck
- DD = WiRV1 + W1·(1 - RV&sub1;)
- eine Unähnlichkeit der Dokumente (DD) ab (Schritt 38) und vergleicht die DD mit einem Unähnlichkeits-Schwellenwert (DT) (Schritt 42), um zu bestimmen, ob das Kandidatendokument in den Speicher 18 für die aufbewahrten Texte zu schreiben ist (und folglich die Notwendigkeit für ein weiteres Herunterladen durch den Anwender in einer späteren Stufe beseitigt wird) und dem Anwender als "ein weiteres wie das Referenzdokument" gemeldet wird, wenn am Ende der Suche eine Liste der Dokumente, die in umgekehrter Reihenfolge der DD geordnet ist, d. h. mit der niedrigsten zuerst, auf dem Arbeitsplatzrechner des Anwenders bereitgestellt wird (Schritt 46). Dieser Ausdruck bildet einen neunten Teil des Analysealgorithmus, wobei später weiter auf ihn Bezug genommen wird.
- Die vier Maßstäbe und die Weise, in der sie arbeiten, um die zurückgeschickten Werte zu erhalten, werden nun ausführlicher, beginnend mit dem Maßstab M&sub1;, beschrieben.
- Der durch die Anwendung des Unähnlichkeitsmaßstabes M&sub1; auf das Kandidatendokument gewonnene zurückgeschickte Wert RV&sub1; ist ein Maß der Unähnlichkeit der Wörter des Titels des Kandidatendokuments zum Inhalt des Referenzdokuments in der Form seiner Worthäufigkeitsliste. Der Agent 16 unter der Steuerung eines ersten Teils seines Analysealgorithmus, der den Maßstab M&sub1; definiert, erzeugt die Worthäufigkeitsliste des Referenzdokuments (und schließt in Übereinstimmung mit den arideren Teilen des Analysealgorithmus häufig auftretende Wörter, wie z. B. die bestimmten und unbestimmten Artikel, aus). Die Wörter (die außerdem als Ausdrücke bezeichnet werden) sind in der Reihenfolge ihrer Häufigkeit des Auftretens geordnet, d. h. der Ausdruckhäufigkeit, wobei diese Liste außerdem als eine Ausdruckshäufigkeitsliste (TFL) bekannt ist.
- Unter der Steuerung dieses ersten Teils des Analysealgorithmus wendet der Agent 16 den Maßstab M&sub1; auf den Titel des Kandidatendokuments an und erzeugt eine Worthäufigkeitsliste. Dann erzeugt der Agent 16 unter Verwendung der zwei Worthäufigkeitslisten den zurückgeschickten Wert RV&sub1; in Übereinstimmung mit einer Version der Technik des Kosinusmaßes, wie sie von Salton entwickelt wurde und in dem Buch "Introduction to Modern Information Retrieval" von G. Salton, veröffentlicht von McGraw Hill, 1983, beschrieben ist. In dieser Version der Technik des Kosinusmaßes nimmt der Agent 16 die Ausdruckshäufigkeit (TF) von jedem Wort der Worthäufigkeitsliste des Referenzdokuments, multipliziert jede TF mit dem Inversen der Anzahl der Dokumente, in denen das Auftreten des entsprechenden Wortes bekannt ist (der inversen Dokumentenhäufigkeit oder IDF), um die Werte zu erzeugen, die im Stand der Technik als TFIDFs oder TFIDFs bekannt sind, wobei er aus diesen TFIDFs einen Vektor erzeugt (der außerdem als ein Vektorraummodell bekannt ist).
- Um die IDFs zu gewinnen, verwendet der Agent indirekt, wie im folgenden beschrieben ist, eine Datenbank aus Dokumenten in englischer Sprache (die CELEX-Datenbank), veröffentlicht von CE- LEX, dem Dutch Centre for Lexical Information, Max-Planck-Institut für Psycholinguistik, Nijmegen, Niederlande. Die CELEX-Datenbank (die außerdem als der CELEX-Körper bekannt ist) enthält einige 18 Millionen englischer Wörter und ist auf CD-ROM verfügbar.
- Bevor der Agent 16 für die betriebsfähige Verwendung verfügbar ist, wird eine Worthäufigkeitsliste offline aus dieser CD-ROM durch einen Prozeß erzeugt worden sein, der nicht Teil des Agenten 16 ist und der die Worthäufigkeitsliste als eine Datei auf einer Platte im Server 14 gespeichert hat. Der Agent 16 greift für jedes Wort der Worthäuiigkeitsliste des Referenzdokuments auf diese Datei zu, gewinnt eine entsprechende Ausdruckshäufigkeit, erzeugt die erforderliche IDF durch das Bilden des Inversen, d. h. Reziproken, des natürlichen Logarithmus der Ausdruckhäufigkeit und verwendet dieses, um die TFIDF für das Wort zu erzeugen.
- Unter der Steuerung des ersten Teils des Analysealgorithmus erzeugt der Agent 16 einen entsprechenden Vektor für die Worthäufigkeitsliste des Titels des Kandidatendokuments, wobei er dann den Kosinus des Winkels zwischen den zwei Vektoren bildet, der den zurückgeschickten Wert RV&sub1; bildet. Der Agent leitet dann den Wert (1 - RV&sub1;) ab, multipliziert diesen Wert mit dem Gewicht W&sub1; und gibt den sich ergebenden Wert W&sub1;·(1 - RV&sub1;) in einen Speicher 23 für die zurückgeschickten Werte des Dokuments im Dateiserver 14 in Verbindung mit der URL des Kandidatendokuments ein.
- Dieser erste Teil des Analysealgorithmus bildet eine Komponente der ersten vorgegebenen Funktion der vorliegenden Erfindung, wobei die Worthäufigkeitsliste des Referenzdokuments eine Komponente des ersten Ausgangsignals der vorliegenden Erfindung bildet. In dieser Ausführungsform bildet der erste Teil des Analysealgorithmus außerdem eine Komponente der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei der zurückgeschickte Wert RV1 eine Komponente des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bildet.
- Unter Bezugnahme auf die anderen Maßstäbe M&sub2; bis M&sub4; ist der zurückgeschickte Wert RV&sub2; ein Maß der Unähnlichkeit der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments und der Zeichenebenen-n-Gramm-Häufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines zweiten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub2; anwendet; der zurückgeschickte Wert RV&sub3; ist ein Maß der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines dritten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub3; anwendet; und der zurückgeschickte Wert RV&sub4; ist ein Maß der Unähnlichkeit der Wortebenen-n-Gramm des Referenzdokuments und der Wortebenen-n- Gramm des Kandidatendokuments, wobei er durch den Agenten 16 unter der Steuerung eines vierten Teils des Analysealgorithmus gewonnen wird, der den Maßstab M&sub4; anwendet.
- Die zweiten, dritten und vierten Teile des Analysealgorithmus bilden die entsprechenden Komponenten der ersten vorgegebenen Funktion der vorliegenden Erfindung, während die Zeichenebenen-n-Gramm- Häufigkeitsliste des Referenzdokuments, die Worthäufigkeitsliste des Referenzdokuments und die Wortebenen-n-Gramm-Liste des Referenzdokuments die entsprechenden Komponenten des ersten Ausgangssignals der vorliegenden Erfindung bilden. In dieser Ausführungsform bilden die zweiten, dritten und vierten Teile des Analysealgorithmus außerdem die entsprechenden Komponenten der zweiten vorgegebenen Funktion der vorliegenden Erfindung, wobei die zurückgeschickten Werte RV&sub2;, RV&sub3; und RV&sub4; die entsprechenden Komponenten des Unähnlichkeitsmaßes (des zweiten Ausgangssignals) der vorliegenden Erfindung bilden.
- In dieser Ausführungsform ist "n" für die Wortebenen-n-Gramme drei und für die Zeichenebenen-n-Gramme fünf; eine Zeichenebenen-n- Gramm-Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Zeichen-Bigramme, die Zeichen-Trigramme, die Zeichen-Tetragramme und die Zeichen-Pentagramme; eine Wortebenen-n-Gramm- Häufigkeitsliste umfaßt die entsprechenden Unterlisten für die Wort- Unigramme (einzelne Wörter), die Wort-Bigramme und die Wort- Trigramme, d. h. der Ausdruck "n-Gramm-Häufigkeitsliste" bedeutet in dieser Beschreibung in bezug auf Wörter n - Gramm, während er in bezug auf Ausdrücke n - Gramm bedeutet.
- Die obenerwähnte Verarbeitung des Referenzdokuments, um die Gewichte abzuleiten, wird in Übereinstimmung mit den fünften, sechsten und siebenten Teilen des Analysealgorithmus ausgeführt. Die fünften und sechsten Teile gewinnen zwei Messungen, die die Eingangssignale in den siebenten Teil des Analysealgorithmus sind, der die Gewichte W&sub1; bis W&sub4; erzeugt. Die erste Messung bezieht sich auf die Größe des Referenzdokuments, während sich die zweite Messung auf die Menge der linguistischen Variation bezieht.
- Bei der ersten Messung führt der Agent 16 in Übereinstimmung mit dem fünften Teil des Analysealgorithmus eine Wortzählung des Textes des Referenzdokuments aus.
- Bei der zweiten Messung, die als eine Homogenitätsprüfung vorgestellt werden kann, teilt der Agent 16 unter der Steuerung des sechsten Teils des Analysealgorithmus den Text des Referenzdokuments in zwei im wesentlichen gleiche Abschnitte, wobei jeder Satz dem einen oder dem anderen der zwei Abschnitte auf zufälliger Basis zugewiesen wird (Schritt 36B). Für jeden der zwei Abschnitte erzeugt der Agent 16 eine entsprechende Worthäufigkeitsliste und vergleicht dann die Listen (Schritt 36C), wobei er Wörter findet, die beiden Listen gemeinsam sind, und für jedes derartige Wort das Modul der Differenz ihrer entsprechenden Ränge (R) ableitet, d. h. er führt einen einfachen Korrelationsprozeß an den Listen aus. Falls beispielsweise das Wort "Maßstab" in einer Liste als sechstes (R&sub6;) und in der anderen Liste als achtes (R&sub8;) eingestuft ist, dann wird der abgeleitete Wert zwei sein. Die Summe (H) dieser Differenzen wird gewonnen, wobei sie ein inverses Maß der Homogenität des Referenzdokuments ist. Mit anderen Worten, wenn die zwei Abschnitte völlig gleiche Worthäufigkeitslisten erzeugt haben, dann würden alle entsprechenden Differenzen null sein, wobei die Summe null sein wird (hohe Homogenität). In dem Fall, daß sich ein Wort in einer Liste nicht in der anderen Liste befindet, wird ein Pseudorang "r + 1", d. h. (Rr+1), für den fehlenden Rang vergeben, wobei "r" die Anzahl der Wörter in der anderen Wortliste ist. Für die Zwecke der vorliegenden Erfindung bildet dieser einfache Korrelationsprozeß einen ranggestützten Korrelätionsprozeß.
- In einer Variante erzeugt der sechste Teil des Analysealgorithmus einen für die Homogenität repräsentativen Wert, indem er ein Log- WahrscheinlichkeitsmaiS (LL) an den zwei Abschnitten in einer zum Schritt 38C ähnlichen Weise ausführt, die im folgenden in bezug auf die Häufigkeits-Unterlisten des Kandidatendokuments und des Referenzdokuments beschrieben ist.
- Der durch den fünften Teil des Analysealgorithmus erzeugte Wortzählwert (WC) und die durch den sechsten Teile des Analysealgorithmus erzeugte Summe (H) werden als Eingangssignale zum siebenten Teil des Analysealgorithmus geliefert, der die Gewichte W&sub1; bis W&sub4; (Schritt 36D) in Übereinstimmung mit einem Vertrauenswert (CV) erzeugt, wobei CV = WC/H gilt.
- Für eine spezielle Gruppe von Quelldokumenten, die vom Anmelder verwendet wird, waren die Homogenitätswerte kleiner als hundert, während die Wortzählwerte größer als tausend waren. Für diese Dokumente war der für den CV gewählte Schwellenwert zehn, d. h., ein Referenzdokument, dessen Vertrauenswert wenigstens zehn beträgt, wird als ein hohes Vertrauen besitzend betrachtet, während ein Referenzdolcument, dessen Vertrauenswert unter zehn liegt, als ein niedriges Vertrauen besitzend betrachtet wird. Für Dokumente mit verschiedenem Inhalt und verschiedener Größe des Vokabulars, verglichen mit diesen Quelldokumenten, können die Homogenitätswerte und die Wortzählwerte merklich verschieden sein, wobei gegebenenfalls ein anderer Wert für den Schwellenwert gewählt wird.
- Für ein Referenzdokument mit hohem Vertrauen werden die Werte W&sub1; = 1, W&sub2; = 1, W&sub3; = 1 und W&sub4; = 1 verwendet; während für ein Referenzdokument mit niedrigem Vertrauen die Werte W&sub1; = 1, W&sub2; = 10, W&sub3; = 1, W&sub4; = 0,1 verwendet werden, d. h., in diesem letzteren Fall wird der Beitrag des Maßstabs M&sub4; verringert, wobei (aus den obigen Gründen) eine größere Betonung auf den Beitrag des Maßstabs M2 gelegt wird.
- In einer Variante ist der CV keine Sprungfunktion, wie oben, wo die Gewichte eine erste Gruppe von Werten besitzen, wenn CV wenigstens zehn ist, und eine zweite Gruppe von Werten, wenn CV kleiner als zehn ist, sondern die Gewichte variieren als eine kontinuierliche Funktion von CV. Für einen sehr niedrigen Wert von CV besitzt W&sub2; einen hohen Wert, W&sub3; besitzt einen mittleren Wert, während W&sub4; einen niedrigen Wert oder Nullwert besitzt. Wenn CV zunimmt, nimmt W&sub2; ab, W&sub3; bleibt konstant (oder, in einer anderen Variante, nimmt zu einem Maximum zu und nimmt dann ab), während W&sub4; zu einer Asymptoten zunimmt.
- In einer weiteren Variante sind die Gewichte so gesetzt, daß jeder Wi·RVi etwa den gleichen gemeinsamen Wert besitzt.
- In einer noch weiteren Variante besitzen die Gewichte einen minimalen Wert, unter den sie weder durch den siebenten Teil des Analysealgorithmus noch durch den Anwender, falls er die Werte modifiziert, wie später beschrieben ist, gesetzt werden können. In dieser Weise kann ein Gewicht durch den Agenten 16 unter der Steuerung eines zehnten Teils des Analysealgorithmus vergrößert werden, der die Gewichte abhängig von den durch den Anwender gewährten Relevanzwerten einstellt. Dies ist später ausführlicher beschrieben. Im Schritt 36A wendet der Agent 16, wie früher erwähnt ist, die zweiten, dritten und vierten Teile des Analysealgorithmus auf das Referenzdokument an und speichert die Zeichenebenen-n-Gramm- Häufigkeitsliste, die Worthäufigkeitsliste und die Wortebenen-n- Gramm-Häufigkeitsliste, die auf diese Weise gewonnen wurden, in einem Speicher 19 im Dateiserver 14.
- In einer Variante erzeugt der dritte Teil des Analysealgorithmus nicht die Worthäufigkeitsliste des Referenzdokuments, sondern diese wird durch den sechsten Teil des Analysealgorithmus aus den entsprechenden Worthäufigkeitslisten für die zwei Abschnitte des Dokuments (aus der Homogenitätsprüfung) erzeugt.
- Der Agent 16 zeigt nun auf dem Arbeitsplatzrechner 10 des Anwenders in den entsprechenden Feldern einer Suchinformationsseite die Werte der Gewichte W&sub1; bis W&sub4; und einen vorgegebenen Wert (10.000) für den DT an (Schritt 36F), wobei der Anwender diese Werte durch das Eingeben von Werten von seiner Tastatur in diese Felder modifizieren kann, um die vom Agenten abgleiten Werte zu überschreiben (Schritt 36G).
- Wenn der Anwender mit den Werten zufrieden ist, klickt er eine Fortsetzungs-Schaltfläche in der Seite an, damit die Suche durch den Agenten fortgesetzt wird (Schritt 36H).
- Der Agent liest nun seine Suchanweisungen aus einer Aufgabendatei 21 im Dateiserver 14 (Schritt 38A). Diese Anweisungen decken derartige Einzelheiten ab, wie:
- die Start-URL für die Suche (d. h. das Startdokument);
- die Anzahl der zu durchsuchenden Ebenen (diese besitzt ein Minimum von eins, sie ist aber vorzugsweise nicht größer als zehn, um lange Suchzeiten zu vermeiden);
- die Grenzen der Suche (einschließlich der Bedingung für den Abschluß der Suche);
- die auszuschließenden Verzeichnisse.
- Der Agent 16 fährt dann fort, in einer Weise nach Kandidatendokumenten zu suchen, die als Breitensuche bekannt ist, wobei er die Verbindungsglieder untersucht, wie er sie findet.
- Der Anwender wird die Start-URL entweder mit einer ".txt"- oder ".html"-Erweiterung spezifiziert haben, wobei der Agent 16 irgendwelche anderen Erweiterungen ignorieren wird, wenn er den Verbindungsgliedern in den Dokumenten folgt.
- Wenn der Agent 16 das Start-Kandidatendokument lokalisiert, ruft er es ab, indem er eine Prozedur ausführt, die als http-"Lade"-Operation bekannt ist (Schritt 38B), die das Dokument in einen temporären Dokumentenspeicher 17 setzt, um die Analyse zu unterstützen, wobei er fortfährt, den ersten Maßstab M&sub1; anzuwenden. Der Wert des zurückgeschickten Wertes RV&sub1; wird gewonnen, wobei er vorübergehend in einem Akkumulator 25 im Dateiserver 14 gespeichert wird. Dann wird der Wert von W&sub1;·(1 - RV&sub1;) unter der Steuerung eines achten Teils des Analysealgorithmus gewonnen und in den Speicher 23 für die zurückgeschickten Werte des Dokuments eingegeben. Dieser Speicher wird unter der Steuerung eines neunten Teils des Analysealgorithmus gemanagt, um die Komponenten der DD zu summieren.
- Als nächstes fährt der Agent 16 fort, den zurückgeschickten Wert RV&sub2; zu gewinnen, indem er den Maßstab M&sub2; auf das Kandidatendokument anwendet, wie im folgenden beschrieben ist.
- Unter der Steuerung des zweiten Teils des Analysealgorithmus (M&sub2;) leitet der Agent 16 nun die Zeichenebenen-n-Gramm-Häufigkeitsunterüsten für das Kandidatendokument ab (Schritt 38C). Ein Log- Wahrscheinlichkeitsmaß (LL) für die Unähnlichkeit zwischen diesen Häufigkeitsunterlisten und denjenigen des Referenzdokuments wird in Übereinstimmung mit der Technik gewonnen (Schritt 38C), die in dem Artikel "Accurate methods for the statistics of surprise and coincidence", von E. Dunning, Computational Linguistics, Bd. 19, Nr. 1, 1993, beschrieben ist. Dieses Maß, das den zurückgeschickten Wert RV&sub2; bildet, wird vorübergehend im Akkumulator 25 gespeichert.
- Das LL (der zurückgeschickte Wert RV&sub2;) wird nun unter der Steuerung des achten Teils des Analysealgorithmus mit dem Gewicht W&sub2; multipliziert und kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
- In einer Variante wird anstelle des LL eine Rangkorrelationstechnik verwendet. Mit anderen Worten, ein zurückgeschickter Wert RV&sub2; wird durch das Vergleichen des ersten Eintrags der ersten Unterliste (Bigramm, R&sub1;(ref)) der Zeichenebenen-n-Gramm-Häufigkeitsliste des Referenzdokuments mit der entsprechenden Unterliste für das Kandidatendokument gewonnen, wobei, falls eine Übereinstimmung festgestellt wird, das Modul der Differenz in den Rängen ( R&sub1;(ref) - Rmc(can) ) in den Akkumulator 25 eingegeben werden, wobei Rmc(can) der Rang (R) des übereinstimmenden Zeichens (mc) der entsprechenden Unterliste für das Kandidatendokument (can) ist. Falls, wie oben im Zusammenhang mit der Homogenitätsprüfung erklärt ist, keine Übereinstimmung festgestellt wird, wird der Wert R&sub1;(ref) - Rr(can)+1 gespeichert, wobei Rr(can)+1 ein Pseudorang eines weniger als der niedrigste Rang der entsprechenden Kandidaten- Unterliste ist.
- Nach dem Speichern der Rangdifferenz für das erste Bigramm im Akkumulator 25 geht der Analysealgorithmus dann zum Bigramm das zweiten Rangs, gibt die entsprechende Rangdifferenz in den Akkumulator 25 ein, usw. Wenn alle Digramme verarbeitet worden sind, werden die anderen Unterlisten der Reihe nach verarbeitet. Die akkumulierte Summe im Akkumulator 25 ist der zurückgeschickte Wert RV&sub2;.
- In der spezifischen Ausführungsform wendet der Agent als nächstes (Schritt 38C) den Maßstab M&sub3; (den dritten Teil des Analysealgorithmus) an und gewinnt das LL der Unähnlichkeit der Worthäufigkeitsliste des Referenzdokuments und der Worthäufigkeitsliste des Kandidatendokuments. Der Agent 16 gewichtet dann unter der Steuerung des achten Teils des Analysealgorithmus das LL (das den zurückgeschickten Wert RV&sub3; bildet) durch das Gewicht W&sub3;, wobei er den Wert W&sub3;·RV&sub3; kumulativ zu den Inhalten des Speichers 23 für die zurückgeschickten Werte des Dokuments addiert.
- Als nächstes gewinnt der Agent den zurückgeschickten Wert RV&sub4; (Schritt 38C) unter der Steuerung des vierten Teils des Analysealgorithmus (des Maßstabs M&sub4;) wie folgt.
- Der Agent 16 konstruiert ein Rückkopplungs-Trigramm-Sprachmodell (LM) des Referenzdokuments aus den Unterlisten der Wortebenen-n-Gramme (der Häufigkeitsausdrücke) in Übereinstimmung mit dem Prozeß, der in "Estimation of probabilities from sparse data" von S. Katz, IEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-35, 1987, offenbart ist, und speichert den LM im Speicher 19. Der Agent 16 verwendet dann dieses Trigramm-LM, um den Perplexitätswert (PP) zu berechnen, der den zurückgeschickten Wert RV&sub4; des Kandidatendokuments in Übereinstimmung mit dem Prozeß bildet, der in "Self-organised language modelling for speech recognition" von F. Jellinek, in "Readings in Speech Recognition", herausgegeben von A. Waibel und K. Lee, veröffentlicht von Morgan Kaufmann, 1990, offenbart ist, und speichert den PP im Speicher 19. Der Agent 16 multipliziert dann unter der Steuerung des achten Teils des Analysealgorithmus den PP mit dem Gewicht W&sub4; und gibt ihn in den Speicher 23 für die zurückgeschickten Werte des Dokuments ein. Je niedriger der PP ist, desto besser ist das LM beim Vorhersagen der Inhalte des Kandidatendokuments, und folglich ist das Kandidatendokument um so weniger unähnlich zum Referenzdokument.
- Es wird selbstverständlich sein, daß in dieser bevorzugten Ausführungsform das LM lediglich am Anfang der Suche aus dem Referenzdokument erzeugt wird, wobei es nicht abermals erzeugt wird.
- Der Agent 16 vergleicht nun unter der Steuerung eines elften Teils des Analysealgorithmus den Gesamtwert im Speicher 23 für die zurückgeschickten Werte des Dokuments, d. h. die Unähnlichkeit der Dokumente (die durch das Summieren der Komponenten in Übereinstimmung mit dem Ausdruck des neunten Teils des Analysealgorithmus gewonnen worden ist), mit dem Unähnlichkeits-Schwellenwert DT, wobei er, falls die Unähnlichkeit der Dokumente kleiner als der DT ist, das Dokument im Speicher 18 für die aufbewahrten Texte speichert. Auf jeden Fall wird das Kandidatendokument aus dem temporären Dokumentenspeicher 17 gelöscht, wobei der Akkumulator 25 in Bereitschaft für die Verarbeitung des nächsten Kandidatendokuments auf null zurückgesetzt wird, das der Agent durch das Folgen eines URL-Verbindungsglieds in bekannter Weise vom gerade verarbeiteten Kandidatendokument lokalisiert. Der Agent folgt den Verbindungsgliedern, die entweder eine ".txt"- oder ".html"-Erweiterung besitzen, wobei er die Verbindungsglieder ignoriert, die irgendeine andere Erweiterung besitzen. In einer Variante antwortet Agent 16 auf Verbindungsglieder, die von ".txt" oder ".html" verschiedene Erweiterung besitzen, wobei er eine Validierungsprüfung an diesen Verbindungsgliedern ausführt, wobei er aber nicht versucht, irgendwelche Dateien wiederzugewinnen.
- Der Agent 16 bricht jeden Versuch ab, eine einzelne Seite herunterzuladen, falls eine vorgegebene Zeitabschaltung erreicht wird, wobei er dann weitergeht, um ein Herunterladen einer anderen Seite zu versuchen.
- Wenn die Suche abgeschlossen ist, d. h., wenn alle Suchanweisungen erfüllt worden sind, sortiert der Agent 16 (aus den Daten im Speicher 23) die URLs, die er besucht hat, in umgekehrte Reihenfolge der Unähnlichkeit der Dokumente, d. h. die niedrigste zuerst, wobei er dann in der üblichen Weise die ersten zehn Dokumenten-URLs und Titel der sortierten Liste (diese Liste wird außerdem als die Suchergebnisse bezeichnet) zusammen mit ihren zugeordneten Unähnlichkeiten der Dokumente als eine erste Seite auf dem Arbeitsplatzrechner 10 des Anwenders darstellt. Der Anwender kann irgendeines dieser Suchdokumente aus der Datei 18 für die aufbewahrten Texte für die unmittelbare Anzeige wiedergewinnen, indem er auf den angezeigten Dokumententitel klickt.
- Anstatt daß der Referenzkörper ein einzelnes Referenzdokument ist, das durch eine vom Anwender bereitgestellte URL gekennzeichnet ist, kann der Referenzkörper kann eine vollständige WWW-Site (Web-Site) sein, die außerdem durch eine durch den Anwender bereitgestellte URL gekennzeichnet ist, wobei der Agent 16 die Inhalte der vollständigen Web-Site in einer zum Analysieren eines einzelnen Dokuments ähnlichen Weise analysieren wird, um die entsprechenden Gewichte W&sub1; bis W&sub4; und die entsprechenden Häufigkeitslisten zu erzeugen. In einer Variante kann der Anwender mehrere einzelne Dokumente durch ihre URLs spezifizieren, wobei der Agent diese mehreren Dokumente als einen Referenzkörper behandeln wird.
- Die Ergebnisseite enthält ein Relevanz-Piktogramm, das jedem Dokument zugeordnet ist und eine Funktion zum Modifizieren der Gewichte W&sub1; bis W&sub4; darstellt. Der Anwender kann dem Agenten 16 die Relevanz von einem oder mehreren Suchdokumenten angeben. Durch das Klicken auf ein ausgewähltes Piktogramm wird dem Anwender eine Auswahl aus Relevanzebenen (R) von null bis zehn dargestellt, wobei die vorgegebene Ebene null ist. In Varianten gibt es mehrere Relevanz-Piktogramme für ein Dokument, die die direkte Auswahl der entsprechenden Relevanzebene ermöglichen, oder der Anwender kann einen Relevanzwert unter Verwendung eines Schiebebalkens (d. h. einer kontinuierlich veränderlichen Relevanzfunktion) in bekannter Weise einstellen.
- Der Anwender kann die Suche nach einer kurzen Zeit anhalten und die Suchergebnisse überprüfen. Falls durch den Agenten 16 zu viele Dokumente gefunden werden, kann der Anwender den Wert für DT auf angenommen 6000 verringern und den Agenten für eine neue Suche auslösen.
- Falls der Anwender wünscht, die Suche zu verfeinern, kann der die Relevanz von einem oder mehreren der Suchdokumente angeben und auf eine Schaltfläche für die Verfeinerung der Suche klicken.
- Beginnend mit dem Suchdokumenten mit der höchsten Einstufung, d. h. dem Dokument mit der niedrigsten DD, erzeugt der Agent 16 nun modifizierte Gewichte (W&sub1; + ΔW&sub1;) bis (W&sub4; + ΔW&sub4;) unter der Steuerung des zehnten Teils des Analysealgorithmus, der ΔW wie folgt erzeugt:
- ΔWi = (k)· (Wi·RVi/DD)·(R - 5)·Wi
- wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/50 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt. Mit anderen Worten, ein Gewicht wird modifiziert, indem es mit (1 + K) multipliziert wird, wobei K = (k)·(Wi·RVi/DD) (R - 5) gilt.
- Der Agent 16 geht nun zum Suchergebnis mit der zweithöchsten Einstufung, wobei er abermals die Gewichte modifiziert, usw., d. h. iterativ durch die Liste der Suchergebnisse hinunter.
- In dieser Ausführungsform fährt der Agent 16 mit einer neuen Suche fort, wenn er seine letzte Gewichtsmodifikation ohne Änderung des Referenzkörpers ausgeführt hat. In Varianten wird der Referenzkörper mit wenigstens dem Suchdokument kombiniert, das die höchste zugewiesene Relevanzebene aufweist.
- In alternativen Formen dieser Ausführungsform kombiniert der Agent 16 zuerst den Referenzkörper mit wenigstens dem Suchdokument, das die höchste zugewiesene Relevanzebene aufweist, wobei er die fünften, sechsten und siebenten Teile des Algorithmus wiederholt, um eine neue Gruppe von Gewichten zu erzeugen, anstatt die ursprüngliche Gruppe der Gewichte zu modifizieren.
- In einer Variante ignoriert der Agent 16 jedes Suchdokument, für das der Anwender die Relevanz null zugewiesen hat, d. h. der Anwender hat die Relevanzebene auf ihrer vorgegebenen Ebene gelassen.
- In einer Variante wird die Anwendung der Relevanz null durch Vorgabe nicht verwendet, wobei der Anwender die Relevanz von allen Suchdokumenten angeben muß, bevor die verfeinerte Suche weitergehen kann.
- In der zweiten Ausführungsform der vorliegenden Erfindung ist der Agent 16 für die Verwendung in einem Spracherkennungssystem angepaßt, um ein LM bereitzustellen. In dieser beispielhaften Ausführungsform bezieht sich das LM auf einen Zielbereich, der durch ein Informationssystem für einen Eisenbahnfahrplan gebildet wird, wobei es repräsentativ dafür ist, wie in diesem besonderen Bereich Sprache verwendet wird. Die von einem Anwender des Informationssystems empfangene Sprache wird mit dem LM verglichen, das in der Form eines Rückkopplungs-Trigramm-Sprachmodells vorliegt, damit das Spracherkennungssystem mit einem hohen Grad des Vertrauens das nächste zu empfangende Wort voraussehen kann.
- Ein zweckmäßiger Startpunkt sind die Transkriptionen von mehreren gesprochenen Transaktionen im Zielbereich. Diese werden von einem Entwickler des Spracherkennungssystems als ein Referenzkörper für den Agenten 16 durch Aufzeichnen und Umschreiben tatsächlicher Anwenderdialoge im Zielbereich bereitgestellt.
- Der Agent 16 teilt zuerst den Referenzkörper in zwei Abschnitte, diese werden als ein Trainingsabschnitt und ein Entwicklungsabschnitt bezeichnet (in diesem Zusammenhang ist ein Abschnitt des Referenzkörpers außerdem als ein Unterkörper bekannt). Wenn der Referenzkörper angemessen groß ist, dann umfaßt der Trainingsabschnitt etwa 50% des Referenzdokuments, für einen kleinen Referenzkörper wird der Trainingsabschnitt aber etwa 80% umfassen. Dann führt der Agent 16 die anfängliche Analyse des Trainingsabschnitts aus, wobei er die Gewichte W&sub1; bis W&sub4; für die Maßstäbe M&sub1; bis M&sub4; in einer ähnlichen Weise zur ersten Ausführungsform und einen vorgegebenen DT wie vorher erzeugt und ein LM in der Form eines Rückkopplungs-Trigramm-Sprachmodells (Maßstab M&sub4;) konstruiert. Die Gewichte W&sub1; bis W&sub4; werden über eine Seite auf dem Arbeitsplatzrechner 10 des Systementwicklers für die Annahme oder Modifikationen durch den Systementwickler angezeigt.
- Der Agent 16 wendet nun das LM auf den Entwicklungsabschnitt an und gewinnt den PP des Entwicklungsabschnitts, der als PPold bezeichnet wird.
- Der Systementwickler lenkt nun den Agenten 16 zu einer Liste relevanter WWW-Server. In einer Variante wird der Agent 16 zu einer Datenbank aus potentiell nützlichen Dokumenten auf einem lokalen Computer gelenkt.
- Der Agent 16 ruft ein erstes Kandidatendokument ab, wendet die Maßstäbe M&sub1; bis M&sub4; mit den Gewichten W&sub1; bis W&sub4; wie in der ersten Ausführungsform an, speichert dieses Kandidatendokument, falls es eine DD kleiner als der DT besitzt, und fährt fort, weitere Dokumente abzurufen.
- Der Agent 16 nimmt aus der Datei 18 für die aufbewahrten Texte das Kandidatendokument mit den niedrigsten DD-Wert und kombiniert in Übereinstimmung mit einem neunten Teil des Analysealgorithmus dieses Dokument vorübergehend mit dem Trainingsabschnitt des Referenzkörpers, gewinnt ein neues LM und wendet dieses neue LM auf den Entwicklungsabschnitt an, um einen neuen PP zu gewinnen, der als PPnew bezeichnet wird.
- In einer zur ersten Ausführungsform ähnlichen Weise erzeugt der Agent 16 nun modifizierte Gewichte in Übereinstimmung mit dem Ausdruck
- ΔWi = (k)·(Wi·RVi/DD)·(PPold - PPnew)·Wi,
- wobei k eine Konstante ist, die für diese Ausführungsform einen Wert von 1/2000 besitzt, wodurch der Maximalwert von ΔWi etwa 1/10Wi beträgt.
- Der Agent 16 wiederholt den Prozeß des neunten Teils des Analysealgorithmus für das Dokument in der Datei 18 für die aufbewahrten Texte mit dem nächstniedrigen DD-Wert, wobei er iterativ die Gewichte weiter modifiziert. Die Modifikation der Gewichte wird angehalten, wenn der Agent 16 eine Modifikation in bezug auf das letzte Dokumente in der Datei 18 für die aufbewahrten Texte ausgeführt hat. Der Agent 16 fährt nun fort, mehr Dokumente wiederzugewinnen und sie unter Verwendung der aktuellen Gruppe der Gewichte zu verarbeiten.
- In Varianten führt der Agent 16 die Verarbeitung in Übereinstimmung mit dem neunten Teil des Analysealgorithmus auf einer Grundlage Dokument für Dokument aus, d. h. Wiedergewinnen von Dokumenten, bis ein erstes Dokument gefunden wird, das eine DD kleiner als der DT besitzt, Modifizieren der Gewichte auf der Grundlage dieses ersten gefundenen Dokuments, dann abermals Wiedergewinnen, Finden eines zweiten Dokuments und Modifizieren auf der Grundlage dieses zweiten gefundenen Dokuments, usw. In Varianten werden die aus der Datei 18 für die aufbewahrten Texte wiedergewonnenen Dokumente in diesem neunten Teil des Analysealgorithmus ständig mit dem Trainingsabschnitt kombiniert, der folglich zunehmend größer wird.
- Der obenerwähnte Artikel von Katz beschreibt die Verwendung eines LMs in einem Spracherkennungskontext. Diese Verwendung ist per se nicht Teil der vorliegenden Erfindung, wobei sie nicht weiter beschrieben wird.
- In Varianten dieses Spracherkennungssystems bezieht sich das LM auf andere Zielbereiche. Das LM kann in anderen auf die Sprache bezogenen Anwendungen verwendet werden, z. B. das Lokalisieren von Wörtern.
- Während in den obigen Ausführungsformen die vier Maßstäbe zusammen verwendet werden, erstreckt sich die vorliegende Erfindung auf · Ausführungsformen, in denen lediglich einer der vier Maßstäbe verwendet wird, und auf Ausführungsformen, in denen irgendwelche zwei oder irgendwelche drei der vier Maßstäbe in Kombination verwendet werden. Im allgemeinen ist die Leistung des Agenten 16 um so besser, je mehr Maßstäbe sich in der Kombination befinden.
- Die Homogenitätsprüfung des sechsten Teils des Analysealgorithmus kann gemäß einem anderen Aspekt der Erfindung verwendet werden, um die Eignung eines Referenzdokuments für die Verwendung als ein Referenzkörper oder ein Teil davon zu prüfen.
Claims (31)
1. Verfahren zur Informationswiedergewinnung, das die
folgenden Schritte umfaßt:
Analysieren des Inhalts wenigstens eines Teils eines
Referenzkörpers in Übereinstimmung mit einer ersten vorgegebenen
Funktion und Erzeugen eines ersten Ausgangssignals,
Wiedergewinnen eines Kandidatendokuments in Textform,
Bereitstellen des ersten Ausgangssignals als ein
Eingangssignal für eine zweite vorgegebene Funktion,
Analysieren wenigstens eines Teils des wiedergewonnenen
Texts in Übereinstimmung mit der zweiten vorgegebenen Funktion
und Erzeugen eines zweiten Ausgangssignals, das als
Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad zwischen dem
analysierten Teil des Referenzkörpers und dem analysierten Teil des
wiedergewonnenen Texts angibt, und
Speichern des wiedergewonnenen Texts, falls das zweite
Ausgangssignal einen Unähnlichkeitsgrad angibt, der kleiner als ein
vorgegebener Unähnlichkeitsgrad ist.
2. Verfahren nach Anspruch 1, bei dem der analysierte Teil des
wiedergewonnenen Texts der Titel des Kandidatendokuments ist.
3. Verfahren nach Anspruch 2, bei dem die erste vorgegebene
Funktion die folgenden Schritte umfaßt:
Erzeugen einer ersten Ausdruckshäufigkeitsliste TFL aus
dem wenigstens einen Teil des Referenzkörpers,
Gewinnen entsprechender inverser Dokumenthäufigkeiten
IDF für die Ausdrücke der ersten TFL und
Erzeugen eines ersten entsprechenden Vektors für die erste
TFL, der entsprechende Elemente enthält, wovon jedes die
Ausdruckshäufigkeit TF eines entsprechenden Ausdrucks der ersten
TFL, multipliziert mit ihrer entsprechenden IDF, d. h. TFIDF, ist,
wobei der erste entsprechende Vektor das erste Ausgangssignal
bildet;
und bei dem die zweite vorgegebene Funktion die folgenden Schritte
umfaßt:
Erzeugen eines zweiten entsprechenden Vektors für die
zweite TFL, der entsprechende Elemente enthält, wovon jedes die TF
eines entsprechenden Ausdrucks der zweiten TFL ist, und
Ableiten eines Maßes der Differenz zwischen dem ersten
Vektor und dem zweiten Vektor, wobei das Differenzmaß ein
Unähnlichkeitsmaß bildet.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten
Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist,
umfaßt, wobei die erste Zeichenebenen-n-Gramm-Häufigkeitsliste
das erste Ausgangssignal oder gegebenenfalls eine Komponente des
ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten
Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm, das Ausführen eines rangbasierten
Korrelationsprozesses zwischen der ersten und der zweiten
Zeichenebenenn-Gramm-Häufigkeitsliste sowie das Gewinnen eines
Korrelationsergebnisses umfaßt, wobei das Korrelationsergebnis das
Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des
Unähnlichkeitsmaßes bildet und in diesem letzteren Fall das
Differenzmaß der Vektoren eine weitere entsprechende Komponente des
Unähnlichkeitsmaßes bildet.
5. Verfahren nach einem der Ansprüche 1 bis 3, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten
Zeichenebenen-n-Gramrn-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist,
umfaßt, wobei die erste Zeichenebene n-Gramm-Häufigkeitsliste das
erste Ausgangssignal oder gegebenenfalls eine Komponente des
ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten
Zeichenebenen-n-Gramm-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm sowie das Gewinnen eines
Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten
Zeichenebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Log-
Wahrscheinlichkeitsmaß das Unähnlichkeitsmaß oder gegebenenfalls
eine entsprechende Komponente des Unähnlichkeitsmaßes bildet,
wobei in diesem letzteren Fall das Differenzmaß der Vektoren eine
weitere entsprechende Komponente des Unähnlichkeitsmaßes bildet.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten
Worthäufigkeitsliste umfaßt, wobei die erste Worthäufigkeitsliste das
erste Ausgangssignal oder gegebenenfalls eine Komponente des
ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten
Worthäufigkeitsliste, das Ausführen eines rangbasierten
Korrelationsprozesses zwischen der ersten und der zweiten
Worthäufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses umfaßt,
wobei das Korrelationsergebnis das Unähnlichkeitsmaß oder
gegebenenfalls eine entsprechende Komponente des Unähnlichkeitsmaßes bildet,
wobei in diesem letzteren Fall das Differenzmaß der Vektoren
eine weitere entsprechende Komponente des Unähnlichkeitsmaßes
bildet.
7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten
Worthäufigkeitsliste umfaßt, wobei die erste Worthäufigkeitsliste das
erste Ausgangssignal oder gegebenenfalls eine Komponente des
ersten Ausgangssignals bildet;
die zweite vorgegebene Funktion das Erzeugen einer zweiten
Worthäufigkeitsliste sowie das Gewinnen eines
Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit zwischen der ersten und der zweiten
Worthäufigkeitsliste umfaßt, wobei das Log-Wahrscheinlichkeitsmaß
ein Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende
Komponente des Unähnlichkeitsmaßes bildet, wobei in diesem
letzteren Fall das Differenzmaß der Vektoren eine weitere
entsprechende Komponente des Unähnlichkeitsmaßes bildet.
8. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:
die erste vorgegebene Funktion das Erzeugen einer ersten
Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm, wobei m eine vorgegebene ganze Zahl ist,
umfaßt, wobei die erste Wortebenen-n-Gramm-Häufigkeitsliste ein
erstes Ausgangssignal oder gegebenenfalls eine Komponente des
ersten Ausgangssignals bildet; und
die zweite vorgegebene Funktion das Erzeugen einer zweiten
Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von
Doppelgramm bis m Gramm, das Ausführen eines rangbasierten
Korrelationsprozesses zwischen der ersten und der zweiten Wortebenen-n-
Gramm-Häufigkeitsliste sowie das Gewinnen eines Korrelationsergebnisses
umfaßt, wobei das Korrelationsergebnis das
Unähnlichkeitsmaß oder gegebenenfalls eine Komponente des
Unähnlichkeitsmaßes bildet, und wobei gegebenenfalls das Differenzmaß der
Vektoren eine weitere entsprechende Komponente des
Unähnlichkeitsmaßes bildet.
9. Verfahren nach einem der Ansprüche 1 bis 7, bei dem:
die erste vorgegebene Funktion das Erzeugen einer
Wortebenen-n-Gramm-Häufigkeitsliste mit n Gramm von Doppelgramm bis m
Gramm, wobei m eine vorgegebene ganze Zahl ist, sowie das Ableiten
eines ersten Rückkopplungs-n-Gramm-Sprachmodells aus der
Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das Sprachmodell
das Ausgangssignal bildet;
die zweite vorgegebene Funktion das Anwenden des
Sprachmodells auf den wiedergewonnenen Text sowie das Gewinnen eines
Perplexitätswertes umfaßt, wobei der Perplexitätswert ein
Unähnlichkeitsmaß oder gegebenenfalls eine entsprechende Komponente des
Unähnlichkeitsmaßes bildet und wobei das Differenzmaß der
Vektoren gegebenenfalls eine weitere entsprechende Komponente des
Unähnlichkeitsmaßes bildet.
10. Verfahren nach einem der Ansprüche 4 bis 9, wenn das
Unähnlichkeitsmaß wenigstens zwei entsprechende Komponenten
umfaßt, umfassend den Schritt des Anlegens entsprechender
Gewichte W1 an die entsprechenden Komponenten.
11. Verfahren nach Anspruch 10, bei dem die erste vorgegebene
Funktion die Schritte des Ausführens einer anfänglichen Auswertung
des wenigstens einen Teils des Referenzkörpers und des Setzens der
Anfangswerte für die entsprechenden Gewichte in Abhängigkeit vom
Ergebnis der anfänglichen Auswertung umfaßt.
12. Verfahren nach Anspruch 11, bei dem der Schritt des
Setzens der Anfangswerte für die entsprechenden Gewichte umfaßt:
(a) den Unterschritt des Teilens des Referenzkörpers in
einen Trainingsabschnitt, der den wenigstens einen Teil des
Referenzkörpers bildet, und in einen Entwicklungsabschnitt;
(b) den Unterschritt des Analysierens des
Entwicklungsabschnitts in Übereinstimmung mit der zweiten vorgegebenen Funktion
und des Erzeugens entsprechender Komponenten eines
Unähnlichkeitsmaßes zwischen dem Trainingsabschnitt und dem
Entwicklungsabschnitt; und
(c) Gewinnen der Anfangswerte für die entsprechenden
Gewichte durch Dividieren einer vorgegebenen Konstante durch die
entsprechende Komponente des Unähnlichkeitsmaßes zwischen dem
Trainingsabschnitt und dem Entwicklungsabschnitt.
13. Verfahren nach Anspruch 12, das die Schritte des Bildens
eines weiteren Referenzkörpers durch Kombinieren des
Trainingsabschnitts mit einem gespeicherten wiedergewonnenen Text, dessen
Ähnlichkeitsmaß am geringsten ist, des Gewinnens einer
entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste aus dem weiteren
Referenzkörper sowie des Ableitens eines entsprechenden zweiten
Rückkopplungs-n-Gramm-Sprachmodells aus der entsprechenden
Wortebenen-n-Gramm-Häufigkeitsliste umfaßt, wobei das zweite
Sprachmodell einen Ersatz für das erste Sprachmodell bildet.
14. Verfahren nach Anspruch 13, bei dem die erste vorgegebene
Funktion umfaßt:
(a) einen vorhergehenden Unterschritt des Anwendens des
ersten Sprachmodells auf den Entwicklungsabschnitt und des
Gewinnens eines ersten Perplexitätswertes (PP1),
(b) einen Unterschritt des Anwendens des zweiten
Sprachmodells auf den Entwicklungsabschnitt und des Gewinnens eines
zweiten Perplexitätswertes (PP2),
(c) einen Unterschritt des Modifizierens der Gewichte
durch Ableiten eines entsprechenden Gewichtungsfaktors (1 + ki) für
jedes Gewicht (Wi), wobei ki eine Funktion des Beitrags, den die
entsprechende gewichtete Unähnlichkeitskomponente für das
Unähnlichkeitsmaß bildet, und des Wertes von PP&sub1; - PP&sub2; ist, und
(d) einen Unterschritt des Multiplizierens jedes Gewichts
mit seinem entsprechenden Gewichtungsfaktor.
15. Verfahren nach einem der Ansprüche 11 bis 14, bei dem der
Schritt des Ausführens einer anfänglichen Auswertung wenigstens
eines Teils des Referenzkörpers das Gewinnen eines Wortzählwertes
(WC) wenigstens des Referenzkörpers enthält.
16. Verfahren nach einem der Ansprüche 11 bis 15, bei dem der
Schritt des Ausführens einer anfänglichen Auswertung das Gewinnen
eines Homogenitätsmaßes (H) des wenigstens einen Teils des
Referenzkörpers enthält.
17. Verfahren nach Anspruch 16, bei dem das
Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des
Referenzkörpers in mehrere Teile, durch Gewinnen entsprechender
Worthäufigkeitslisten für die mehreren Teile und durch Ausführen
eines rangbasierten Korrelationsprozesses wenigstens zwischen
einem Paar der Worthäufigkeitslisten der anfänglichen Auswertung,
wobei das Korrelationsergebnis das Homogenitätsmaß bildet.
18. Verfahren nach Anspruch 16, bei dem das
Homogenitätsmaß gewonnen wird durch Unterteilen des wenigstens einen Teils des
Referenzkörpers in mehrere Teile durch Gewinnen entsprechender
Worthäufigkeitslisten für die mehreren Teile, und durch Gewinnen
eines Log-Wahrscheinlichkeitsmaßes der Unähnlichkeit wenigstens
zwischen einem Paar det Worthäufigkeitslisten der anfänglichen
Auswertung, wobei das sich ergebende Log-Wahrscheinlichkeitsmaß das
Homogenitätsmaß bildet.
19. Verfahren nach einem der Ansprüche 16 bis 18, wenn jede
der ersten und zweiten vorgegebenen Funktionen das Erzeugen einer
entsprechenden Wortebenen-n-Gramm-Häufigkeitsliste umfaßt und
wenn das Ähnlichkeitsmaß wenigstens zwei entsprechende
Komponenten umfaßt; und bei dem der Schritt des Setzens der
Anfangswerte für die Gewichte die Unterschritte des Berechnens eines
Vertrauenswertes (CV), wobei CV = WC/H ist, und, falls CV kleiner als
ein vorgegebener Schwellenwert ist, des Setzens im wesentlichen auf
null des Wertes des Gewichts, das der entsprechenden
Unähnlichkeitskomponente entspricht, die den
Wortebenen-n-Gramm-Häufigkeitslisten zugeordnet ist, umfaßt.
20. Verfahren nach einem der Ansprüche 10 bis 19, das die
Schritte des Darstellens der entsprechenden Unähnlichkeitswerte
und entsprechender Verbindungsglieder zu mehreren gespeicherten
wiedergewonnenen Texten für jeden der mehreren gespeicherten
wiedergewonnenen Texte für einen Anwender, des Empfangens eines
zugewiesenen Relevanzwertes in bezug auf einen dargestellten
Unähnlichkeitswertes vom Anwender und des Modifizierens der
Gewichte in Übereinstimmung mit einer vorgegebenen Funktion der
zugewiesenen Relevanzwerte umfaßt.
21. Verfahren nach Anspruch 20, bei dem der
Darstellungsschritt das Darstellen entsprechender Dokumenttitel zugeordnet zu
den dargestellten Unähnlichkeitswerten umfaßt.
22. Verfahren entweder nach Anspruch 20 oder nach Anspruch
21, bei dem der Anwender entsprechende Relevanzwerte in bezug auf
mehrere der dargestellten Unähnlichkeitswerte zuweist und der
Modifizierungsschritt das iterative Modifizieren der Gewichte für
jeden der entsprechenden Relevanzwerte umfaßt.
23. Verfahren nach Anspruch 22, bei dem der
Modifizierungsschritt eine erste Modifikation der Gewichte in Übereinstimmung mit
der vorgegebenen Funktion des Relevanzwertes, der dem
gespeicherten wiedergewonnenen Text mit dem geringsten
Unähnlichkeitsmaß entspricht, ausführt. ·
24. Verfahren nach einem der Ansprüche 20 bis 23, bei dem der
Schritt des Modifizierens der Gewichte den Unterschritt des Ableitens
eines entsprechenden Gewichtungsfaktors (1 + ki) für jedes Gewicht
(Wi), wobei ki eine Funktion des Beitrags, den die entsprechende
gewichtete Unähnlichkeitskomponente für das Unähnlichkeitsmaß
bildet, und des Wertes von R - Rmean ist, wobei Rmean der Mittelwert
der niedrigsten und höchsten Relevanzwerte ist, sowie den
Unterschritt des Multiplizierens jedes Gewichts mit seinem
entsprechenden Gewichtungsfaktor umfaßt.
25. Verfahren zum Testen der Eignung eines
Referenzdokuments wenigstens als Teil eines Referenzkörpers für die Verwendung
bei der Informationswiedergewinnung mittels Abfrage durch Beispiel,
wobei das Verfahren die folgenden Schritte umfaßt:
Empfangen eines möglichen Referenzdokuments;
Analysieren des Inhalts des möglichen Referenzdokuments
durch die folgenden Unterschritte:
Unterteilen des möglichen Referenzdokuments in zwei
im wesentlichen gleiche Abschnitte,
Gewinnen eines Maßes der linguistischen Unähnlichkeit
zwischen den beiden Abschnitten und
Vergleichen des gewonnenen Maßes mit einem
vorgegebenen Kriterium, um ein Analyseergebnis zu
gewinnen; und
falls das Analyseergebnis günstig ist, Annehmen, daß das mögliche
Referenzdokument als der wenigstens eine Teil des Referenzkörpers
geeignet ist.
26. Verfahren nach Anspruch 25, bei dem der
Unterteilungsunterschritt das Zuweisen jedes Satzes des möglichen
Referenzdokuments zu dem einen oder anderen der Abschnitte auf
zufähiger Basis umfaßt.
27. Verfahren nach Anspruch 25 oder Anspruch 26, bei dem der
Gewinnungsschritt das Erzeugen einer entsprechenden
Worthäufigkeitsliste für jeden der beiden Abschnitte und das Ausführen eines
rangbasierten Korrelationsprozesses zwischen den beiden
Worthäufigkeitslisten umfaßt.
28. Verfahren nach Anspruch 27, bei dem das vorgegebene
Kriterium darin besteht, daß das Ergebnis der Korrelation niedriger
als ein vorgegebener Wert ist.
29. Informationsagent für die Verwendung in einem
Kommunikationsnetz, das mehrere Datenbanken umfaßt, wobei der Agent die
folgenden Schritte umfaßt: Analysieren des Inhalts wenigstens eines
Teils eines Referenzkörpers in Übereinstimmung mit einer ersten
vorgegebenen Funktion und Erzeugen eines ersten Ausgangssignals
36,
Wiedergewinnen 38 eines Kandidatendokuments in
Textform,
Bereitstellen des ersten Ausgangssignals als ein
Eingangssignal für eine zweite vorgegebene Funktion,
Analysieren 38 wenigstens eines Teils des
wiedergewonnenen Textes in Übereinstimmung mit der zweiten vorgegebenen
Funktion und Erzeugen eines zweiten Ausgangssignals 40, das als ein
Unähnlichkeitsmaß bezeichnet wird und den Unähnlichkeitsgrad
zwischen dem analysierten Teil des Referenzkörpers und dem
analysierten Teil des wiedergewonnenen Texts angibt und
Speichern 44 des wiedergewonnenen Texts, falls das zweite
Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer als ein
vorgegebener Unähnlichkeitsgrad ist.
30. Informationszugriffsystem zum Zugreifen auf Informationen,
die verteilt und für ein Kommunikationsnetz zugänglich gespeichert
sind, wobei das Zugriffssystem wenigstens einen Softwareagenten für
die Verwendung beim Zugreifen auf Informationen mittels des Netzes
umfaßt, wobei der Agent mit einem Datenspeicher oder mit einem
Zugriff auf einen Datenspeicher versehen ist, um wiedergewonnene
Teile von Informationen zu speichern, wobei der Agent bei Empfang
erster Identifizierungsinformationen auslösbar ist, um einen ersten
Informationsteil, der den ersten Identifizierungsinformationen entspricht,
wiederzugewinnen und den ersten Informationsteil in den
Datenspeicher einzugeben, um den ersten Informationsteil zu
analysieren und ein Analyseergebnis zu gewinnen, um einen zweiten
Informationsteil, der empfangenen zweiten
Identiiizierungsinformationen entspricht, wiederzugewinnen und den zweiten
Informationsteil vorübergehend in den Datenspeicher einzugeben, um das
Analyseergebnis zu verwenden, um den zweiten Informationsteil mit dem
ersten Informationsteil zu vergleichen, und um im Falle eines
negativen Ergebnisses eines Unähnlichkeitstests vorhandener Dokumente
und eines neu wiedergewonnenen Informationsteils den zweiten
Informationsteil aus dem Datenspeicher zu löschen.
31. Dokumentzugriffsystem zum Zugreifen auf Dokumente, die
in verteilter Weise und für ein Kommunikationsnetz zugänglich
gespeichert sind, wobei das Zugriffsystem wenigstens einen
Softwareagenten für die Verwendung beim Zugreifen auf Dokumente
mittels des Netzes umfaßt, wobei der Agent umfaßt: Mittel zum
Analysieren des Inhalts wenigstens eines Teils eines Referenzkörpers
in Übereinstimmung mit einer ersten vorgegebenen Funktion und
zum Erzeugen eines ersten Ausgangssignals,
Mittel zum Wiedergewinnen eines Kandidatendokuments in
Textform
Mittel zum Bereitstellen des ersten Ausgangssignals als ein
Eingangssignal für eine zweite vorgegebene Funktion,
Mittel zum Analysieren wenigstens eines Teils des
wiedergewonnenen Texts in Übereinstimmung mit der zweiten vorgegebenen
Funktion und zum Erzeugen eines zweiten Ausgangssignals, wobei
das zweite Ausgangssignal als ein Unähnlichkeitsmaß bezeichnet
wird und den Unähnlichkeitsgrad zwischen dem analysierten Teil des
Referenzkörpers und dem analysierten Teil des wiedergewonnenen
Texts angibt, und
Mittel zum Speichern des wiedergewonnenen Texts, falls das
zweite Ausgangssignal einen Unähnlichkeitsgrad angibt, der geringer
als ein vorgegebener Unähnlichkeitsgrad ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9701866.7A GB9701866D0 (en) | 1997-01-30 | 1997-01-30 | Information retrieval |
PCT/GB1998/000294 WO1998034180A1 (en) | 1997-01-30 | 1998-01-30 | Information retrieval |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69804821D1 DE69804821D1 (de) | 2002-05-16 |
DE69804821T2 true DE69804821T2 (de) | 2002-11-28 |
Family
ID=10806789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69804821T Expired - Fee Related DE69804821T2 (de) | 1997-01-30 | 1998-01-30 | Informationswiedergewinnung |
Country Status (7)
Country | Link |
---|---|
US (1) | US6167398A (de) |
EP (1) | EP1012750B1 (de) |
JP (1) | JP2001509293A (de) |
AU (1) | AU5873698A (de) |
DE (1) | DE69804821T2 (de) |
GB (1) | GB9701866D0 (de) |
WO (1) | WO1998034180A1 (de) |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6665837B1 (en) * | 1998-08-10 | 2003-12-16 | Overture Services, Inc. | Method for identifying related pages in a hyperlinked database |
JP3344953B2 (ja) * | 1998-11-02 | 2002-11-18 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
US8572069B2 (en) | 1999-03-31 | 2013-10-29 | Apple Inc. | Semi-automatic index term augmentation in document retrieval |
US8275661B1 (en) | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
WO2000058863A1 (en) | 1999-03-31 | 2000-10-05 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
US6286006B1 (en) * | 1999-05-07 | 2001-09-04 | Alta Vista Company | Method and apparatus for finding mirrored hosts by analyzing urls |
US6615259B1 (en) * | 1999-05-20 | 2003-09-02 | International Business Machines Corporation | Method and apparatus for scanning a web site in a distributed data processing system for problem determination |
US6445822B1 (en) * | 1999-06-04 | 2002-09-03 | Look Dynamics, Inc. | Search method and apparatus for locating digitally stored content, such as visual images, music and sounds, text, or software, in storage devices on a computer network |
US6665665B1 (en) * | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6353825B1 (en) * | 1999-07-30 | 2002-03-05 | Verizon Laboratories Inc. | Method and device for classification using iterative information retrieval techniques |
US6718363B1 (en) | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
CA2396573A1 (en) * | 2000-01-06 | 2001-07-12 | Igotpain.Com, Inc. | System and method of decision making |
US8335994B2 (en) | 2000-02-25 | 2012-12-18 | Salmon Alagnak Llc | Method and apparatus for providing content to a computing device |
GB0006159D0 (en) * | 2000-03-14 | 2000-05-03 | Ncr Int Inc | Predicting future behaviour of an individual |
US7428500B1 (en) | 2000-03-30 | 2008-09-23 | Amazon. Com, Inc. | Automatically identifying similar purchasing opportunities |
US6912525B1 (en) | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
US6865528B1 (en) | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US7024418B1 (en) * | 2000-06-23 | 2006-04-04 | Computer Sciences Corporation | Relevance calculation for a reference system in an insurance claims processing system |
JP3567864B2 (ja) * | 2000-07-21 | 2004-09-22 | 株式会社デンソー | 音声認識装置及び記録媒体 |
US7328211B2 (en) * | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
US8272873B1 (en) | 2000-10-16 | 2012-09-25 | Progressive Language, Inc. | Language learning system |
US6968540B2 (en) | 2000-10-25 | 2005-11-22 | Opnet Technologies Inc. | Software instrumentation method and apparatus |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
DE50112574D1 (de) * | 2001-03-23 | 2007-07-12 | Siemens Ag | Methode zum Auffinden von Dokumenten |
US7039700B2 (en) * | 2001-04-04 | 2006-05-02 | Chatguard.Com | System and method for monitoring and analyzing communications |
US7082416B2 (en) * | 2001-04-06 | 2006-07-25 | Karyn Elaine Anderson | Method of using prepaid cash card for making purchases on the world wide web |
US6643613B2 (en) * | 2001-07-03 | 2003-11-04 | Altaworks Corporation | System and method for monitoring performance metrics |
JP2003029615A (ja) * | 2001-07-13 | 2003-01-31 | Nova:Kk | ランキングシステム及びランキング方法 |
WO2003009140A2 (en) | 2001-07-20 | 2003-01-30 | Altaworks Corporation | System and method for adaptive threshold determination for performance metrics |
US7219034B2 (en) * | 2001-09-13 | 2007-05-15 | Opnet Technologies, Inc. | System and methods for display of time-series data distribution |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US20030154071A1 (en) * | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
NL1020670C2 (nl) * | 2002-05-24 | 2003-11-25 | Oce Tech Bv | Het bepalen van een semantische afbeelding. |
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
JP3781005B2 (ja) * | 2002-12-12 | 2006-05-31 | セイコーエプソン株式会社 | 文書抽出装置及び文書抽出プログラム並びに文書抽出方法 |
US7421418B2 (en) | 2003-02-19 | 2008-09-02 | Nahava Inc. | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently |
US7200559B2 (en) | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7206780B2 (en) * | 2003-06-27 | 2007-04-17 | Sbc Knowledge Ventures, L.P. | Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7293019B2 (en) * | 2004-03-02 | 2007-11-06 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
US7289985B2 (en) | 2004-04-15 | 2007-10-30 | Microsoft Corporation | Enhanced document retrieval |
US7305389B2 (en) * | 2004-04-15 | 2007-12-04 | Microsoft Corporation | Content propagation for enhanced document retrieval |
US7428529B2 (en) * | 2004-04-15 | 2008-09-23 | Microsoft Corporation | Term suggestion for multi-sense query |
US7689585B2 (en) * | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
US7260568B2 (en) | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
US20050234973A1 (en) * | 2004-04-15 | 2005-10-20 | Microsoft Corporation | Mining service requests for product support |
US7366705B2 (en) * | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US7610191B2 (en) * | 2004-10-06 | 2009-10-27 | Nuance Communications, Inc. | Method for fast semi-automatic semantic annotation |
US8047228B2 (en) * | 2005-02-23 | 2011-11-01 | Exxonmobil Chemical Patents Inc. | Metering system and use thereof |
US20060200461A1 (en) * | 2005-03-01 | 2006-09-07 | Lucas Marshall D | Process for identifying weighted contextural relationships between unrelated documents |
US20060271538A1 (en) * | 2005-05-24 | 2006-11-30 | International Business Machines Corporation | Method and system for managing files in a file system |
US20070016687A1 (en) * | 2005-07-14 | 2007-01-18 | International Business Machines Corporation | System and method for detecting imbalances in dynamic workload scheduling in clustered environments |
US20070067157A1 (en) * | 2005-09-22 | 2007-03-22 | International Business Machines Corporation | System and method for automatically extracting interesting phrases in a large dynamic corpus |
US7475072B1 (en) * | 2005-09-26 | 2009-01-06 | Quintura, Inc. | Context-based search visualization and context management using neural networks |
US7620607B1 (en) | 2005-09-26 | 2009-11-17 | Quintura Inc. | System and method for using a bidirectional neural network to identify sentences for use as document annotations |
US20090024598A1 (en) | 2006-12-20 | 2009-01-22 | Ying Xie | System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function |
JP4923604B2 (ja) * | 2006-02-13 | 2012-04-25 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US20070204001A1 (en) * | 2006-02-28 | 2007-08-30 | Hoopes John M | Method of evaluating documents |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
JP4251652B2 (ja) * | 2006-06-09 | 2009-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索装置、検索プログラムおよび検索方法 |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8069032B2 (en) * | 2006-07-27 | 2011-11-29 | Microsoft Corporation | Lightweight windowing method for screening harvested data for novelty |
US20080126331A1 (en) * | 2006-08-25 | 2008-05-29 | Xerox Corporation | System and method for ranking reference documents |
US7912707B2 (en) * | 2006-12-19 | 2011-03-22 | Microsoft Corporation | Adapting a language model to accommodate inputs not found in a directory assistance listing |
WO2008083447A1 (en) * | 2007-01-12 | 2008-07-17 | Synetek Systems Pty Ltd | Method and system of obtaining related information |
US7437370B1 (en) * | 2007-02-19 | 2008-10-14 | Quintura, Inc. | Search engine graphical interface using maps and images |
US20080222144A1 (en) * | 2007-03-08 | 2008-09-11 | Ab Inventio, Llc | Search engine refinement method and system |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
JP5158379B2 (ja) * | 2007-04-27 | 2013-03-06 | 日本電気株式会社 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
US7814107B1 (en) | 2007-05-25 | 2010-10-12 | Amazon Technologies, Inc. | Generating similarity scores for matching non-identical data strings |
US7908279B1 (en) | 2007-05-25 | 2011-03-15 | Amazon Technologies, Inc. | Filtering invalid tokens from a document using high IDF token filtering |
US8046372B1 (en) * | 2007-05-25 | 2011-10-25 | Amazon Technologies, Inc. | Duplicate entry detection system and method |
US7912503B2 (en) * | 2007-07-16 | 2011-03-22 | Microsoft Corporation | Smart interface system for mobile communications devices |
US8165633B2 (en) * | 2007-07-16 | 2012-04-24 | Microsoft Corporation | Passive interface and software configuration for portable devices |
US7988297B2 (en) | 2007-10-19 | 2011-08-02 | Look Dynamics, Inc. | Non-rigidly coupled, overlapping, non-feedback, optical systems for spatial filtering of fourier transform optical patterns and image shape content characterization |
US7895225B1 (en) | 2007-12-06 | 2011-02-22 | Amazon Technologies, Inc. | Identifying potential duplicates of a document in a document corpus |
US8180754B1 (en) | 2008-04-01 | 2012-05-15 | Dranias Development Llc | Semantic neural network for aggregating query searches |
MY151173A (en) * | 2008-09-12 | 2014-04-30 | Mimos Bhd | Method and system for retrieving data and displaying content density of a data storage |
US8284418B2 (en) * | 2009-01-05 | 2012-10-09 | International Business Machines Corporation | Document information acquisition and notification of duplicate document storage |
US8468011B1 (en) | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
CN102207968B (zh) * | 2011-06-08 | 2013-11-20 | 北京百度网讯科技有限公司 | 一种基于检索结果相关性判断的检索方法及装置 |
US10169339B2 (en) | 2011-10-31 | 2019-01-01 | Elwha Llc | Context-sensitive query enrichment |
US8719196B2 (en) | 2011-12-19 | 2014-05-06 | Go Daddy Operating Company, LLC | Methods for monitoring computer resources using a first and second matrix, and a feature relationship tree |
US8600915B2 (en) | 2011-12-19 | 2013-12-03 | Go Daddy Operating Company, LLC | Systems for monitoring computer resources |
US10340034B2 (en) | 2011-12-30 | 2019-07-02 | Elwha Llc | Evidence-based healthcare information management protocols |
US10475142B2 (en) | 2011-12-30 | 2019-11-12 | Elwha Llc | Evidence-based healthcare information management protocols |
US10552581B2 (en) | 2011-12-30 | 2020-02-04 | Elwha Llc | Evidence-based healthcare information management protocols |
US10559380B2 (en) | 2011-12-30 | 2020-02-11 | Elwha Llc | Evidence-based healthcare information management protocols |
US10679309B2 (en) | 2011-12-30 | 2020-06-09 | Elwha Llc | Evidence-based healthcare information management protocols |
US20130173294A1 (en) | 2011-12-30 | 2013-07-04 | Elwha LLC, a limited liability company of the State of Delaware | Evidence-based healthcare information management protocols |
US10528913B2 (en) | 2011-12-30 | 2020-01-07 | Elwha Llc | Evidence-based healthcare information management protocols |
US9876762B2 (en) | 2012-12-31 | 2018-01-23 | Elwha Llc | Cost-effective mobile connectivity protocols |
US9635605B2 (en) | 2013-03-15 | 2017-04-25 | Elwha Llc | Protocols for facilitating broader access in wireless communications |
US9451394B2 (en) | 2012-12-31 | 2016-09-20 | Elwha Llc | Cost-effective mobile connectivity protocols |
US8965288B2 (en) | 2012-12-31 | 2015-02-24 | Elwha Llc | Cost-effective mobile connectivity protocols |
US9713013B2 (en) | 2013-03-15 | 2017-07-18 | Elwha Llc | Protocols for providing wireless communications connectivity maps |
US9781664B2 (en) | 2012-12-31 | 2017-10-03 | Elwha Llc | Cost-effective mobile connectivity protocols |
US9980114B2 (en) | 2013-03-15 | 2018-05-22 | Elwha Llc | Systems and methods for communication management |
US9832628B2 (en) | 2012-12-31 | 2017-11-28 | Elwha, Llc | Cost-effective mobile connectivity protocols |
US9693214B2 (en) | 2013-03-15 | 2017-06-27 | Elwha Llc | Protocols for facilitating broader access in wireless communications |
US9813887B2 (en) | 2013-03-15 | 2017-11-07 | Elwha Llc | Protocols for facilitating broader access in wireless communications responsive to charge authorization statuses |
US9596584B2 (en) | 2013-03-15 | 2017-03-14 | Elwha Llc | Protocols for facilitating broader access in wireless communications by conditionally authorizing a charge to an account of a third party |
US9781554B2 (en) | 2013-03-15 | 2017-10-03 | Elwha Llc | Protocols for facilitating third party authorization for a rooted communication device in wireless communications |
US9807582B2 (en) | 2013-03-15 | 2017-10-31 | Elwha Llc | Protocols for facilitating broader access in wireless communications |
US9843917B2 (en) | 2013-03-15 | 2017-12-12 | Elwha, Llc | Protocols for facilitating charge-authorized connectivity in wireless communications |
US9706060B2 (en) | 2013-03-15 | 2017-07-11 | Elwha Llc | Protocols for facilitating broader access in wireless communications |
US9866706B2 (en) | 2013-03-15 | 2018-01-09 | Elwha Llc | Protocols for facilitating broader access in wireless communications |
US9706382B2 (en) | 2013-03-15 | 2017-07-11 | Elwha Llc | Protocols for allocating communication services cost in wireless communications |
US9826439B2 (en) | 2013-09-30 | 2017-11-21 | Elwha Llc | Mobile device sharing facilitation methods and systems operable in network equipment |
US9813891B2 (en) | 2013-09-30 | 2017-11-07 | Elwha Llc | Mobile device sharing facilitation methods and systems featuring a subset-specific source identification |
US9740875B2 (en) | 2013-09-30 | 2017-08-22 | Elwha Llc | Mobile device sharing facilitation methods and systems featuring exclusive data presentation |
US9805208B2 (en) | 2013-09-30 | 2017-10-31 | Elwha Llc | Mobile device sharing facilitation methods and systems with recipient-dependent inclusion of a data selection |
US9838536B2 (en) | 2013-09-30 | 2017-12-05 | Elwha, Llc | Mobile device sharing facilitation methods and systems |
US9774728B2 (en) | 2013-09-30 | 2017-09-26 | Elwha Llc | Mobile device sharing facilitation methods and systems in a context of plural communication records |
CN104951435A (zh) * | 2015-07-28 | 2015-09-30 | 陈包容 | 聊天过程中智能显示关键词的方法及装置 |
CN105005555A (zh) * | 2015-07-28 | 2015-10-28 | 陈包容 | 基于聊天时间的关键词提取方法及装置 |
US10467276B2 (en) * | 2016-01-28 | 2019-11-05 | Ceeq It Corporation | Systems and methods for merging electronic data collections |
US9864956B1 (en) | 2017-05-01 | 2018-01-09 | SparkCognition, Inc. | Generation and use of trained file classifiers for malware detection |
US10616252B2 (en) | 2017-06-30 | 2020-04-07 | SparkCognition, Inc. | Automated detection of malware using trained neural network-based file classifiers and machine learning |
US10305923B2 (en) | 2017-06-30 | 2019-05-28 | SparkCognition, Inc. | Server-supported malware detection and protection |
WO2019060645A1 (en) | 2017-09-20 | 2019-03-28 | Look Dynamics, Inc. | PHOTONIC NEURONAL NETWORK SYSTEM |
US11868729B2 (en) | 2020-12-29 | 2024-01-09 | International Business Machines Corporation | Analyzing and explaining a temporal evolution of policies and suggesting next steps |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5625767A (en) * | 1995-03-13 | 1997-04-29 | Bartell; Brian | Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5873076A (en) * | 1995-09-15 | 1999-02-16 | Infonautics Corporation | Architecture for processing search queries, retrieving documents identified thereby, and method for using same |
US5907839A (en) * | 1996-07-03 | 1999-05-25 | Yeda Reseach And Development, Co., Ltd. | Algorithm for context sensitive spelling correction |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
-
1997
- 1997-01-30 GB GBGB9701866.7A patent/GB9701866D0/en active Pending
-
1998
- 1998-01-30 US US09/068,452 patent/US6167398A/en not_active Expired - Lifetime
- 1998-01-30 DE DE69804821T patent/DE69804821T2/de not_active Expired - Fee Related
- 1998-01-30 JP JP53263898A patent/JP2001509293A/ja active Pending
- 1998-01-30 EP EP98902107A patent/EP1012750B1/de not_active Expired - Lifetime
- 1998-01-30 WO PCT/GB1998/000294 patent/WO1998034180A1/en active IP Right Grant
- 1998-01-30 AU AU58736/98A patent/AU5873698A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
GB9701866D0 (en) | 1997-03-19 |
EP1012750A1 (de) | 2000-06-28 |
WO1998034180A1 (en) | 1998-08-06 |
US6167398A (en) | 2000-12-26 |
DE69804821D1 (de) | 2002-05-16 |
EP1012750B1 (de) | 2002-04-10 |
AU5873698A (en) | 1998-08-25 |
JP2001509293A (ja) | 2001-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69804821T2 (de) | Informationswiedergewinnung | |
DE69833238T2 (de) | System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung | |
DE602004003361T2 (de) | System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen | |
DE69804495T2 (de) | Informationsmanagement und wiedergewinnung von schlüsselbegriffen | |
DE69811066T2 (de) | Datenzusammenfassungsgerät. | |
DE69624985T2 (de) | Verfahren und Gerät, um Suchantworten in einem rechnergestützten Dokumentwiederauffindungssystem zu generieren | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
DE60129652T2 (de) | Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung | |
DE69424902T2 (de) | Gerät und Verfahren zur anpassungsfähigen nicht-buchstäblichen Textsuche | |
DE69731142T2 (de) | System zum Wiederauffinden von Dokumenten | |
DE69900854T2 (de) | Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät | |
DE69917250T2 (de) | Merkmalübertragung über hyperlinks | |
US6336112B2 (en) | Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages | |
DE69809263T2 (de) | Methoden ud system zur wahl von datensets | |
DE60004687T2 (de) | Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine | |
DE112015005839T5 (de) | Verwendung von statistischen Flussdaten für Maschinenübersetzungen zwischen verschiedenen Sprachen | |
DE69933187T2 (de) | Dokumentensuchverfahren und Dienst | |
DE10231161A1 (de) | Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben | |
DE102018007024A1 (de) | Dokumentdurchsuchen mittels grammatischer einheiten | |
Chan et al. | Automated online news classification with personalization | |
DE60032258T2 (de) | Bestimmen ob eine variable numerisch oder nicht numerisch ist | |
WO2005057426A1 (de) | System und verfahren zur aggregation und analyse von dezentralisiert gespeicherten multimediadaten | |
WO1999010819A1 (de) | Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil | |
DE112020003024T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
KR20010102687A (ko) | 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |