DE10125011A1 - Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten - Google Patents

Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten

Info

Publication number
DE10125011A1
DE10125011A1 DE10125011A DE10125011A DE10125011A1 DE 10125011 A1 DE10125011 A1 DE 10125011A1 DE 10125011 A DE10125011 A DE 10125011A DE 10125011 A DE10125011 A DE 10125011A DE 10125011 A1 DE10125011 A1 DE 10125011A1
Authority
DE
Germany
Prior art keywords
base vector
features
extracting
document matrix
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10125011A
Other languages
English (en)
Inventor
Ruck Thawonmas
Akio Sakamoto
Shinji Mizobuchi
Masutatsu Yoshioka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kochi University of Technology
SSR Co Ltd
Original Assignee
Kochi University of Technology
SSR Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kochi University of Technology, SSR Co Ltd filed Critical Kochi University of Technology
Publication of DE10125011A1 publication Critical patent/DE10125011A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Hinsichtlich der Merkmalsextraktion von Dokumenten bei der Textfilterung werden ein Verfahren und eine Vorrichtung zum Extrahieren von Merkmalen geschaffen, die die gleiche Natur wie die der LSA aufweisen, wobei sie einen kleineren Speicherraum und ein einfacheres Programm und eine einfachere Vorrichtung als die Vorrichtung zum Ausführen der LSA erfordern. Die Merkmale jedes Dokuments werden durch die Merkmalsextraktionseinrichtung auf der Grundlage einer Begriff-Dokument-Matrix, die durch die Begriff-Dokument-Aktualisierungseinrichtung aktualisiert wird, und eines Basisvektors, der einen Raum der effektiven Merkmale aufspannt und der durch die Basisvektor-Berechnungseinrichtung berechnet wird, extrahiert. Die Ausführung der entsprechenden Einrichtungen wird wiederholt, bis eine durch einen Anwender gegebene vorgegebene Anforderung erfüllt ist.

Description

HINTERGRUND DER ERFINDUNG GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Textfilterung, um Merkmale aus Dokumenten zu extrahieren. Insbesondere bezieht sich die Erfindung auf ein Verfahren und eine Vorrichtung für die Textfilterung, um Merkmale aus Dokumenten zu extra­ hieren, wobei die Merkmale so extrahiert werden, daß alle wechselseitig zugeordneten Dokumente und Begriffe im Merkmalsraum nahe beieinander angeordnet werden. Die An­ wendungen der Erfindung umfassen die Dokumentensuche und/oder die Netzsuche, die Suche zugeordneter Begriffe und die Klassifizierung von Dokumenten.
BESCHREIBUNG DER VERWANDTEN TECHNIK
Bei der Textfilterung als einer Technologie, um durch das Ausführen einer Analyse der Textdaten das gewünschte Wis­ sen oder die gewünschten Informationen herauszupressen, ist die effektive Merkmalsextraktion aus den Dokumenten eine wichtige Aufgabe für das effiziente Ausführen der Dokumenten- und/oder Netzsuche, das Suchen zugeordneter Begriffe, der Klassifizierung von Dokumenten usw. Als ein typisches Verfahren zum Extrahieren der Merkmale eines Dokumentes wird das Modell des Vektorraums häufig verwen­ det, wie es auf S. 313 in "Automatic Text Processing" (Addison-Wesley, 1989) dargelegt ist.
Im Modell des Vektorraums wird ein Vektor Vi verwendet, so daß er einem Indexbegriff Ti entspricht, um einen t- dimensionalen Vektorraum zu definieren, wenn die Anzahl der Begriffe, die als Indizes in den Dokumenten ausge­ wählt werden, nämlich als Indexbegriffe, wie die Inhalte der Dokumente darstellen, t beträgt. Alle Vektoren, die auf diese Weise den definierten Vektorraum bilden, können als eine Linearkombination aus einer Anzahl t Vektoren ausgedrückt werden, die der Anzahl t der Indexbegriffe entspricht. In diesem Vektorraum wird ein Dokument Dr wie folgt ausgedrückt:
Im vorangehenden Ausdruck (1) ist xir, das auf Vi wirkt, der Beitrag des Indexbegriffs Ti zum Dokument Dr, wobei er ein Merkmal des Dokuments darstellt. Das Merkmal ist eine Menge, die die Begriffshäufigkeit des Indexbegriffs im Dokument darstellt. Ein Vektor [xr1, xr2, . . ., xrt]' aus t × 1 (t Zeilen und eine Spalte) wird ein Merkmals­ vektor des Dokuments Dr. Als der einfachste Fall ist xir auf 1 gesetzt, wenn der Indexbegriff Ti im Dokument Dr auftritt. Wenn der Indexbegriff Ti nicht im Dokument Dr auftritt, wird xir auf 0 gesetzt. In einem komplizierte­ ren Fall, wie er in der obigen Veröffentlichung auf den Seiten 279 bis 280 dargelegt ist, werden zwei Größen ver­ wendet. Diese zwei Größen sind eine Begriffshäufigkeit tfri des Indexbegriffs Ti im Dokument Dr und eine Doku­ mentenhäufigkeit dfi der Dokumente, die den Indexbegriff Ti enthalten, in allen in der Dokumentendatenbank regist­ rierten Dokumenten.
Für die Gruppe der Dokumente, die aus einer Anzahl d Do­ kumenten besteht, kann eine t × d-Begriff-Dokument-Matrix X wie folgt definiert werden:
X = [x1, x2, . . ., xd]
Hier drückt ein t-dimensionaler Vektor xj = [xj1, xj2, . . ., xjt]' den Merkmalsvektor des Dokuments Dj aus, wobei ein ' (Strich) die Inversion der Matrix darstellt.
Fig. 1 ist eine Veranschaulichung, die ein Beispiel von aus japanischen Sätzen übersetzten Dokumenten zeigt, die in einer Dokumentendatenbank registriert sind, wobei "Ro­ nin" ein latinisiertes Wort ist, mit dem Studenten ge­ meint sind, die durch die Aufnahmeprüfung der Universität eines speziellen akademischen Jahrs gefallen sind und die sich auf ein nächstes Jahr vorbereiten. Fig. 2 ist eine Veranschaulichung, die ein Beispiel einer Begriff-Doku­ ment-Matrix zeigt, die die Kanji-Zeichen (die chinesi­ schen Zeichen), die in den in Fig. 1 gezeigten Dokumenten auftreten, als Indexbegriffe verwendet. Die Kanji-Be­ griffe sind in Fig. 1 unterstrichen. In Fig. 2 ist bei einer Zeichenfolge "let me know about", die in allen Do­ kumenten 1 bis 3 auftritt, der Kanji-Begriff "know" aus den Indexbegriffen gestrichen. Fig. 3 ist eine Veran­ schaulichung, die ein Beispiel einer tatsächlich von ei­ nem Anwender eingegebenen, aus dem japanischen übersetz­ ten Frage zeigt, in der die Kanji-Begriffe unterstrichen sind. Falls die Indexbegriffe nach Fig. 2 verwendet wer­ den, um die Frage auszudrücken, kann die Frage mit der in Fig. 4 gezeigten Begriff-Dokument-Matrix ausgedrückt wer­ den.
Wenn das Modell des Vektorraums verwendet wird, kann im allgemeinen die Ähnlichkeit sim(Dr, Ds) von zwei Dokumen­ ten Dr und Ds wie folgt ausgedrückt werden:
Wenn die Ähnlichkeit der Frage mit jedem Dokument nach Fig. 1 auf der Grundlage der Bedeutung der Frage nach Fig. 3 beurteilt wird, ist die Frage nach Fig. 3 am ähn­ lichsten zum Dokument 3 nach Fig. 1. Unter Verwendung der Merkmalsvektoren, wie sie in den Fig. 2 und 4 gezeigten sind, beträgt jedoch die Ähnlichkeit jedes Dokuments nach Fig. 1 mit der Frage nach Fig. 3 jeweils sim(Dokument 1, Frage) = 0,5477, sim(Dokument 2, Frage) = 0,5477, sim(Dokument 3, Frage) = 0,5477. Kurz, alle haben die gleiche Ähnlichkeit.
Als eine Lösung für ein derartiges Problem wurde ein als latente semantische Analyse (LSA) bezeichnetes Verfahren im "Journal of the American Society for Information Science", 1990, Bd. 41, Nr. 6, S. 391 bis 407 vorgeschla­ gen. Dieses Verfahren extrahiert die latente Bedeutung der Dokumente auf der Grundlage des gemeinsamen Auftre­ tens von Begriffen, wobei es hinsichtlich des Suchwir­ kungsgrades signifikant herausragend ist. Hier stellt das "gemeinsame Auftreten von Begriffen" eine Situation dar, in der Begriffe gleichzeitig in den gleichen Dokumen­ ten/Aussagen auftreten.
Die LSA extrahiert eine latente semantische Struktur der Dokumente durch das Ausführen einer Zerlegung nach singu­ lären Werten (SVD) der Begriff-Dokument-Matrix. Im erhal­ tenen Merkmalsraum befinden sich wechselseitig zugeord­ nete Dokumente und Begriffe nahe beieinander. In einem Bericht in "Behavior Research Methods Instruments & Com­ puters", (1991), Bd. 23, Nr. 2, S. 229 bis 236 gibt eine Suche unter Verwendung der LSA ein Ergebnis mit im Ver­ gleich zum Modell des Vektorraums 30% höheren Wirkungs­ grad an. Die LSA wird im folgenden ausführlicher erklärt.
Bei der LSA wird zuerst einer Zerlegung nach singulären Werten für die t × d-Begriff-Dokument-Matrix X ausge­ führt, wie im folgenden dargelegt ist.
X = T0S0D0' (3)
Hier stellt T0 eine orthogonale t × m-Matrix dar, S0 stellt eine quadratische m × m-Diagonalmatrix dar, wobei die m singulären Werte als Diagonalelemente genommen wer­ den, während die anderen Elemente auf 0 gesetzt sind. D0' stellt eine orthogonale m × d-Matrix dar. Es wird außer­ dem angenommen, daß 0 ≦ d ≦ t gilt, und daß die orthogo­ nalen Elemente von S0 in absteigender Reihenfolge ange­ ordnet sind.
Außerdem wird bei der LSA in bezug auf den t × 1-Merkmalsvektor xq eines Dokuments Dq die folgende Umsetzung ausgeführt, um einen n × 1-LSA-Merkmalsvektor yq herzuleiten:
yq = S-1T' xq (4)
Hier ist S eine quadratische n × n-Diagonalmatrix, wobei das erste bis n-te Diagonalelement von S0 genommen wer­ den, während T eine t × n-Matrix ist, die die erste bis n-te Spalte von T0 darstellt.
Als ein Beispiel sind die Ergebnisse der Zerlegung nach singulären Werten der in Fig. 2 gezeigten Begriff-Doku­ ment-Matrix im folgenden gezeigt. Die Matrizen T0, S0 und D0 sind wie folgt ausgedrückt:
Es wird angenommen, daß die Dimension t der LSA-Merkmals­ vektoren 2 beträgt, wobei der obige Ausdruck (4) auf je­ den Merkmalsvektor der Begriff-Dokument-Matrix in Fig. 2 angewendet wird. Dann lauten die LSA-Merkmalsvektoren der Dokumente 1, 2 und 3 jeweils [0,5000, -0,7071]', [0,5000, 0,7071]' und [0,7071, 0,0000]'. Durch das Anwen­ den des obigen Ausdrucks (4) auf den Merkmalsvektor nach Fig. 4 wird außerdem der LSA-Merkmalsvektor der Frage vom Anwender [0,6542, 0]'.
Durch das Anwenden des obigen Ausdrucks (2) auf die wie oben dargelegt erhaltenen LSA-Merkmalsvektoren werden die Ähnlichkeiten der Frage nach Fig. 3 mit jedem Dokument nach Fig. 1 jeweils sim(Dokument 1, Frage) = 0,5774, sim(Dokument 2, Frage) = 0,5774, sim(Dokument 3, Frage) = 1,0000. Folglich kann ein Ergeb­ nis erhalten werden, daß das Dokument 3 die höchste Ähn­ lichkeit mit der Frage aufweist. Wird eine Anwendung als Hilfesystem oder dergleichen betrachtet, die Computer- Netze verwendet, wird eine Antwortaussage des Dokuments 3, das in der Dokumentendatenbank registriert ist, an den Anwender zurückgeschickt, der die Frage nach Fig. 3 ge­ stellt hat.
Für die Zerlegung nach singulären Werten wird häufig ein Algorithmus verwendet, der in "Matrix Computations", The Johns Hopkins University Press, 1996, S. 455 bis 457 vor­ geschlagen wird. In dem oben dargelegten Bericht des "Journal of the American Society for Information Science" gibt es eine Aussage, daß der Wert n der Anzahl der Zei­ len (oder Spalten) der quadratischen Matrix S vorzugs­ weise etwa 50 bis 150 beträgt. Außerdem ist in den obigen Bericht aus "Behavior Research Methods, Instruments, & Computers" angegeben worden, daß durch die Vorverarbei­ tung unter Verwendung der Begriffshäufigkeit oder der Do­ kumentenhäufigkeit anstatt des einfachen Setzens jedes Elements des Merkmalsvektors auf 0 oder 1 vor dem Ausfüh­ ren der LSA ein besserer Wirkungsgrad erreicht werden kann.
Bei dem im obigen "Matrix Computations" vorgeschlagenen Algorithmus für die Zerlegung nach singulären Werten ist jedoch Speicherraum in der Größenordnung des Quadrats der Anzahl der Indexbegriffe t (t2) als Minimum erforderlich. Dies ist so, weil eine t × t-Matrix für die Bidiagonali­ sierung einer Matrix im Prozeß der Berechnung der Basis­ vektoren, die einen Merkmalsraum aufspannen, aus einer gegebenen Begriff-Dokument-Matrix verwendet wird. Der Stand der Technik ist deshalb nicht auf einer Dokumenten­ datenbank anwendbar, die eine sehr große Anzahl an Be­ griffen und Daten enthält. Außerdem erfordert der Stand der Technik unabhängig von der Anzahl der Daten kompli­ zierte Matrixoperationen.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegend Erfindung ist mit Blick auf die oben dar­ gelegten Probleme ausgearbeitet worden. Es ist deshalb eine Aufgabe der vorliegenden Erfindung, ein Verfahren für die Textfilterung zu schaffen, um Merkmale aus Doku­ menten zu extrahieren, das den arithmetischen Prozeß ver­ einfachen, die von dem arithmetischen Prozeß benötigte Speichermenge verringern und die Merkmale effizient ext­ rahieren kann.
Um die obenerwähnte Aufgabe zu lösen, wird in einem ers­ ten Aspekt der vorliegenden Erfindung ein Textfilterungs­ verfahren zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff-Dokument-Matrix geschaf­ fen, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der In­ dexbegriffe zu jedem Dokument auf entsprechende Elemente der Begriff-Dokument-Matrix. Das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech­ nens eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para­ meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs­ schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
In einem zweiten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 1 geschaffen. In dem ge­ schaffenen Verfahren sind die Kosten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument- Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist, definiert.
In einem dritten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 2 geschaffen. Im geschaffe­ nen Verfahren umfaßt der Basisvektor-Berechnungsschritt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Ak­ tualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be­ rechnens eines Variationsgrades des Wertes des Basisvek­ tors;
einen Beurteilungsschritt, in dem unter Verwen­ dung der Variation des Basisvektors eine Beurteilung ge­ troffen wird, ob ein Wiederholungsprozeß abzuschließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie­ derholungsprozesse.
In einem vierten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 3 geschaffen. In dem ge­ schaffenen Verfahren aktualisiert der Basisvektor-Aktua­ lisierungsschritt den Basisvektor unter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument- Matrix und eines Aktualisierungsverhältnisses, das den Aktualisierungsgrad des Basisvektors steuert.
In einem fünften Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 4 geschaffen. In dem ge­ schaffenen Verfahren werden, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Be­ rechnung der Normierungsparameter im Basisvektor-Berech­ nungsschritt und die Ausführung des Merkmalsextraktions­ schritts weggelassen. Außerdem extrahiert der Merkmalsex­ traktionsschritt die Merkmale unter Verwendung der Basis­ vektoren und der Normierungsparameter, die bereits erhal­ ten worden sind.
In einem sechsten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten unter Verwendung einer Begriff-Doku­ ment-Matrix geschaffen, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der Indexbegriffe zu jedem Dokument auf entspre­ chende Elemente der Begriff-Dokument-Matrix. Die Vorrich­ tung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be­ rechnen eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para­ meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein­ richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
In einem siebenten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 13 geschaffen. In der geschaffenen Vorrichtung sind die Kosten als Kosten zwei­ ter Ordnung des Unterschieds zwischen der Begriff-Doku­ ment-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basis­ vektor angewendet ist, definiert.
In einem achten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 14 geschaffen. In der geschaffenen Vorrichtung umfaßt die Basisvektor-Berech­ nungseinrichtung:
eine Initialisierungseinrichtung zum Initialisie­ ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek­ tors;
eine Beurteilungseinrichtung, die unter Verwen­ dung der Variation des Basisvektors eine Beurteilung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
In einem neunten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 15 geschaffen. In der geschaffenen Vorrichtung aktualisiert die Basisvektor-Ak­ tualisierungseinrichtung den Basisvektor unter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Do­ kument-Matrix und eines Aktualisierungsverhältnisses, das den Aktualisierungsgrad des Basisvektors steuert.
In einem zehnten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 16 geschaffen. In der geschaffenen Vorrichtung werden, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merk­ male erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter durch die Basisvek­ tor-Berechnungseinrichtung und die Ausführung der Merk­ malsextraktionseinrichtung weggelassen. Außerdem extra­ hiert die Merkmalsextraktionseinrichtung die Merkmale un­ ter Verwendung der Basisvektoren und der Normierungspara­ meter extrahiert, die bereits erhalten worden sind.
In einem elften Aspekt der vorliegenden Erfindung wird ein Computer-Programmprodukt für die Ausführung in einer Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff-Dokument- Matrix geschaffen, die aus Vektoren besteht, die den In­ dexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der Indexbegriffe auf entsprechende Elemente der Begriff-Dokument-Matrix. Das Computer-Programmprodukt um­ faßt:
einen Basisvektor-Berechnungsschritt des Berech­ nens eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para­ meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs­ schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
Die in dieser Beschreibung offenbarte Merkmalsextrak­ tionsvorrichtung ist durch das Definieren der Kosten als eine Funktion zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, konstruiert. Die Vorrichtung erfordert lediglich die folgenden Einrichtun­ gen:
  • a) eine Basisvektor-Berechnungseinrichtung zum Berechnen eines Basisvektors durch das Anwenden eines Verfahrens des steilsten Abfalls auf die Kosten;
  • b) eine Merkmalsextraktionseinrichtung zum Be­ rechnen eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek­ tors und zum Extrahieren der Merkmale auf der Grundlage des Parameters;
  • c) eine Begriff-Dokument-Matrix-Aktualisierungs­ einrichtung zum Aktualisieren der Begriff-Dokument-Matrix auf den Unterschied zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Be­ griff-Dokument-Matrix, auf die der Basisvektor angewendet ist, um das redundante Extrahieren von Merkmalen zu verhindern; und
  • d) eine Merkmalsextraktions-Steuereinrichtung zum Steuern der Ausführung der entsprechenden Einrichtungen.
Die Basisvektor-Berechnungseinrichtung wiederholt die Be­ rechnung auf der Grundlage der Eingangs-Begriff-Dokument- Matrix, um schließlich einen Basisvektor herzuleiten. Der Wiederholungsprozeß wird abgeschlossen, wenn der Varia­ tionsgrad des Basisvektors kleiner als ein oder gleich einem vorgegebenen Bezugswert wird.
Die Merkmalsextraktionseinrichtung berechnet einen Para­ meter zum Normieren der Merkmale auf der Grundlage des Eingangs-Basisvektors und der Begriff-Dokument-Matrix, wobei sie ein Merkmal für jedes Dokument extrahiert.
Die Begriff-Dokument-Matrix-Aktualisierungseinrichtung aktualisiert die Begriff-Dokument-Matrix auf der Grund­ lage des Eingangs-Basisvektors.
Die Merkmalsextraktions-Steuereinrichtung wiederholt die Ausführung jeder Einrichtung, bis die Anzahl der durch den Anwender definierten Merkmale erfüllt ist. Wenn die Basisvektoren und Normierungsparameter bereits berechnet worden sind, wird die Ausführung der Basisvektor-Berech­ nungseinrichtung und die Berechnung der Normierungspara­ meter in der Merkmalsextraktionseinrichtung weggelassen. Dann kann die Merkmalsextraktion mit der Konstruktion ausgeführt werden, die die bereits erhaltenen Basisvekto­ ren und die Normierungsparameter enthält.
Gemäß der vorliegenden Erfindung umfaßt ein Textfilte­ rungsverfahren zum Extrahieren von Merkmalen aus Dokumen­ ten unter Verwendung einer Begriff-Dokument-Matrix, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen, wobei die Bei­ träge der Indexbegriffe auf entsprechende Elemente der Begriff-Dokument-Matrix wirken, die folgenden Schritte:
  • a) einen Basisvektor-Berechnungsschritt des Be­ rechnens eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
  • b) einen Merkmalsextraktionsschritt des Berech­ nens eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek­ tors und des Extrahierens der Merkmale auf der Grundlage des Parameters;
  • c) einen Begriff-Dokument-Matrix-Aktualisie­ rungsschritt des Aktualisierens der Begriff-Dokument-Mat­ rix auf einen Unterschied zwischen der Begriff-Dokument- Matrix, auf die der Basisvektors nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist; und
  • d) einen Merkmalsextraktions-Steuerschritt des Steuerns der Ausführung der entsprechenden Schritte.
Deshalb können hinsichtlich der Merkmalsextraktion von Dokumenten bei der Textfilterung die Merkmale, die die gleiche Natur wie diejenigen aufweisen, die durch die LSA erhalten werden, mit einem kleineren Speicherraum als mit der Vorrichtung oder dem Verfahren extrahiert werden, die die LSA ausführen. Außerdem kann spezifische Software oder Hardware zum Extrahieren der Merkmale leicht imple­ mentiert werden.
Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus den folgenden Beschrei­ bungen ihrer Ausführungsformen offensichtlich, die im Zu­ sammenhang mit der beigefügten Zeichnung gegeben werden.
KURZBESCHREIBUNG DER ZEICHNUNG
Fig. 1 ist eine Veranschaulichung, die ein Beispiel der Dokumente zeigt, die in einer Dokumentendatenbank regist­ riert sind;
Fig. 2 ist eine Veranschaulichung, die ein Beispiel einer Begriff-Dokument-Matrix zeigt, wobei die Kanji-Begriffe, die in den Dokumenten auftreten, die in Fig. 1 gezeigt sind, als Indexbegriffe genommen sind;
Fig. 3 ist eine Veranschaulichung, die ein Beispiel einer tatsächlich durch einen Anwender eingegebenen Frage zeigt;
Fig. 4 ist eine Veranschaulichung, die eine aus der Frage in Fig. 3 erhaltene Begriff-Dokument-Matrix zeigt;
Fig. 5 ist eine Veranschaulichung, die eine Ausführungs­ form der Merkmalsextraktionsvorrichtung gemäß der vorlie­ genden Erfindung zeigt;
Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer Hardware-Konstruktion zum Implementieren der vorliegenden Erfindung zeigt;
Fig. 7 ist eine Veranschaulichung, die eine Struktur ei­ ner Datendatei für die Begriff-Dokument-Matrizen zeigt;
Fig. 8 ist eine Veranschaulichung, die eine Struktur ei­ ner Datendatei für die Basisvektoren zeigt, in der die berechneten Basisvektoren gespeichert sind;
Fig. 9 ist eine Veranschaulichung, die eine Struktur ei­ ner Datendatei für die Merkmale zeigt;
Fig. 10 ist eine Veranschaulichung, die eine Struktur ei­ ner Datendatei für die Normierungsparameter zeigt;
Fig. 11 ist ein Ablaufplan, der die Berechnung eines Ba­ sisvektors in der Basisvektor-Berechnungseinrichtung zeigt; und
Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei­ nes automatischen Systems für die Klassifizierung von Do­ kumenten zeigt, das eine Ausführungsform der Merkmalsex­ traktionsvorrichtung gemäß der vorliegenden Erfindung verwendet.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Fig. 5 ist eine Veranschaulichung, die eine Ausführungs­ form der Merkmalsextraktionsvorrichtung gemäß der vorlie­ genden Erfindung zeigt. Wie in Fig. 5 gezeigt ist, be­ sitzt die Merkmalsextraktions-Steuereinrichtung 200 eine Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210, eine Basisvektor-Berechnungseinrichtung 220 und eine Merkmalsextraktionseinrichtung 230. Das Bezugszeichen 100 bezeichnet eine Datendatei für die Begriff-Dokument-Mat­ rizen, 300 bezeichnet eine Datendatei für die Basisvekto­ ren, 400 bezeichnet eine Datendatei für die Merkmale und 450 bezeichnet eine Datendatei für die Normierungsparame­ ter. In der Datendatei 100 für die Begriff-Dokument-Mat­ rizen ist eine Begriff-Dokument-Matrix aus gesammelten Daten des Dokuments gespeichert. Die Begriff-Dokument- Matrix-Aktualisierungseinrichtung 210 liest in einem ers­ ten Interationsprozeß die Begriff-Dokument-Matrix aus der Datendatei 100 für die Begriff-Dokument-Matrizen und überträgt die gelesene Begriff-Dokument-Matrix zur Basis­ vektor-Berechnungseinrichtung 220 und zur Merkmalsextrak­ tionseinrichtung 230 ohne die Begriff-Dokument-Matrix zu aktualisieren.
In einem zweiten Interationsprozeß und in den nachfolgen­ den Interationsprozessen wird die Begriff-Dokument-Matrix auf der Grundlage des von der Basisvektor-Berechnungsein­ richtung 220 übertragenen Basisvektors aktualisiert. Das Ergebnis der Aktualisierung wird zur Basisvektor-Berech­ nungseinrichtung 220 und zur Merkmalsextraktionseinrich­ tung 230 übertragen. Die Basisvektor-Berechnungseinrich­ tung 220 berechnet einen Basisvektor durch einen Wie­ derholungsprozeß, der auf der von der Begriff-Dokument- Matrix-Aktualisierungseinrichtung 210 übertragenen Be­ griff-Dokument-Matrix basiert. Dann wird der Grad der Va­ riation des Basisvektors in der jeweiligen Wiederholung überwacht, um den Wiederholungsprozeß abzuschließen, wenn der Grad der Variation kleiner als ein oder gleich einem vorgegebenen Bezugswert wird. Die Basisvektor-Berech­ nungseinrichtung 220 gespeichert den berechneten Basis­ vektor in der Datendatei 300 für die Basisvektoren, wobei sie im Zusammenhang damit den berechneten Basisvektor zur Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 und zur Merkmalsextraktionseinrichtung 230 überträgt. Die Merkmalsextraktionseinrichtung 230 extrahiert auf der Grundlage der von der Begriff-Dokument-Matrix-Aktualisie­ rungseinrichtung 210 übertragenen Begriff-Dokument-Matrix und des von der Basisvektor-Berechnungseinrichtung 220 übertragenen Basisvektors ein Merkmal aus jedem Dokument. Das Ergebnis wird in der Datendatei 400 für die Merkmale gespeichert, wobei außerdem die Parameter zum Normieren der Merkmale in der Datendatei 450 für die Normierungspa­ rameter gespeichert werden.
Die Ausführung der Begriff-Dokument-Matrix-Aktualisie­ rungseinrichtung 210, der Basisvektor-Berechnungseinrich­ tung 220 und der Merkmalsextraktionseinrichtung 230 wird als ein Interationsprozeß genommen. Die Anzahl der Inte­ rationsprozesse wird durch den Zusatz i angegeben, wobei die Anzahl der durch den Anwender bezeichneten Merkmale durch den Zusatz n angegeben wird. Die Merkmalsextrak­ tions-Steuereinrichtung 200 wiederholt den Prozeß, bis eine Bedingung i = n erfüllt ist. In einem Fall, in dem alle erforderlichen Basisvektoren und die erforderlichen Normierungsparameter bereits erhalten worden sind, können andererseits die Ausführung der Basisvektor-Berechnungs­ einrichtung 220 und die Berechnung der Normierungsparame­ ter in der Merkmalsextraktionseinrichtung 230 weggelassen werden. In einem derartigen Fall kann deshalb die Merk­ malsextraktions-Steuereinrichtung 200 mit der Begriff-Do­ kument-Matrix-Aktualisierungseinrichtung 210, die die be­ kannten Basisvektoren und Normierungsparameter enthält, und mit der Merkmalsextraktionseinrichtung 230 kon­ struiert sein.
Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer Hardware-Konstruktion zum Implementieren der vorliegenden Erfindung zeigt. Wie in Fig. 6 gezeigt ist, enthält die Merkmalsextraktionsvorrichtung die folgenden Komponenten:
eine Zentraleinheit (CPU) 10, die die Steuerung für die gesamte Vorrichtung ausführt,
einen Speicher 20 zum Speichern des Programms und zur Schaffung eines temporären Datenspeicherbereiches, der für die Ausführung des Programms erforderlich ist,
eine Tastatur 30 zum Eingeben der Daten, und
eine Anzeige 40 zum Erzeugen eines Anzeigebild­ schirms.
Die durch die Merkmalsextraktions-Steuereinrichtung 200 auszuführenden Programme, die Datendatei 100 für die Be­ griff-Dokument-Matrizen, die Datendatei 300 für die Ba­ sisvektoren, die Datendatei 400 für die Merkmale und die Datendatei 450 für die Normierungsparameter sind im Spei­ cher 20 gespeichert.
Durch die Verwendung dieser Konstruktionen wird die Merk­ malsextraktion durch die CPU 10 ausgeführt, die den Be­ fehl vom Anwender über die Tastatur 30, eine Maus, die auf eine gewünschte Position auf der Anzeige 40 zeigt, oder dergleichen empfängt. Es sollte angemerkt werden, daß in dem in Fig. 5 gezeigten Beispiel die Merkmals­ extraktions-Steuereinrichtung 200 eine eigenständige Kon­ struktion aufweist. Die Merkmalsextraktions-Steuerein­ richtung 200 kann jedoch in andere Systeme eingebaut sein.
Fig. 7 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Begriff-Dokument-Matrizen zeigt. In Fig. 7 entsprechen die Bezugszeichen 101-1, 101-2, . . ., 101-d den t-dimensionalen Begriff-Dokument-Daten A, die aus d Daten bestehen. Hier sind X = [x1, x2, . . ., xd], xj = [xj1, xj2, . . ., xjt]' so definiert, daß sie die Be­ griff-Dokument-Daten A mit einer t × d-Matrix X ausdrü­ cken.
Fig. 8 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Basisvektoren zeigt, die die berechne­ ten Basisvektoren speichert. In Fig. 8 entsprechen die Bezugszeichen 301-1, 301-2, . . ., 301-n den t-dimensiona­ len Basisvektor-Daten B, die aus n Daten bestehen. Das i- te Element 301-i entspricht einem Ausgangswert der Basis­ vektor-Berechnungseinheit 220 im i-ten Interationsprozeß in Fig. 5. In der folgenden Offenbarung wird dieses Ele­ ment durch einen t × 1-Spaltenvektor wi = [wi1, wi2, . . ., wit]' ausgedrückt.
Fig. 9 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Merkmale zeigt. In Fig. 9 entsprechen die Bezugszeichen 401-1, 401-2, . . ., 401-n den d-dimen­ sionalen Merkmalsdaten C, die aus n Daten bestehen. Das i-te Element 401-i entspricht einem Ausgangswert des Merkmals von der Merkmalsextraktionseinrichtung 230 im i- ten Interationsprozeß in Fig. 5. Dieses Element wird durch einen 1 × d-Zeilenvektor yi = [yi1, yi2, . . ., yid] ausgedrückt.
Fig. 10 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Normierungsparameter zeigt. In Fig. 10 entsprechen die Bezugszeichen 451-1, 451-2, . . ., 451-n den Normierungsparameter-Daten D, die aus n Daten beste­ hen. Das i-te Element 451-i entspricht einem Ausgangswert des Normierungsparameters von der Merkmalsextraktionsein­ richtung 230 im i-ten Interationsprozeß in Fig. 5.
Unter Verwendung der obigen Definitionen wird eine Imple­ mentierung der Merkmalsextraktion in der gezeigten Aus­ führungsform erklärt. Die Begriff-Dokument-Matrix-Aktua­ lisierungseinrichtung 210 liest X nur dann aus der Daten­ datei 100 für die Begriff-Dokument-Matrizen aus, wenn i = 1 gilt, nämlich im ersten Interationsprozeß, um in einer t × d-Matrix E zu speichern, ohne irgendeine arith­ metische Operation auszuführen. Demzufolge gilt E = [e1, e2, . . ., ed], ej = [ej1, ej2, . . ., ejt]' = [xj1, xj2, . . ., xjt]'. Um die redundante Extraktion der in den vorherge­ henden Interationsprozessen extrahierten Merkmale zu ver­ hindern, wird E in der i-ten Interation unter Verwendung des aktuellen Werts und des im unmittelbar vorhergehenden Interationsprozeß berechneten Basisvektors aktualisiert. Das Ergebnis der Aktualisierung wird zur Basisvektor-Be­ rechnungseinrichtung 220 übertragen. Ein Wert von E in der i-ten Interation, E(i), wird durch den folgenden Aus­ druck (5) ausgedrückt:
Hier gilt E(i) = [ei(i), e2(i), . . ., ed(i)], wobei jedes Element ej(i) von E(i) durch ej(i) = [ej1(i), ej2(i), . . ., ejt(i)]' definiert ist. Wenn nämlich i ≧ 2 gilt, wird die Begriff-Dokument-Matrix auf eine Differenz aktualisiert, die durch das Subtrahieren der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, von der Begriff- Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, hergeleitet wird.
Fig. 11 ist ein Ablaufplan, der die Berechnung des Basis­ vektors in der Basisvektor-Berechnungseinrichtung zeigt. In Fig. 11 wird ein Wert von wi in der k-ten Wiederholung durch wi(k) = [wi1(k), wi2(k), . . ., wit(k)]' ausgedrückt. Zuerst wird im Schritt S500 der Zusatz k auf 1 initiali­ siert. Anschließend schreitet der Prozeß zum Schritt S510 fort, um das jeweilige Element von wi(1) mit einem belie­ bigen Wert zwischen -C und C zu initialisieren. Hier kann der Wert von C ein positiver kleiner Wert sein, wie z. B. C = 0,01. Im Schritt S520 werden die Kosten zweiter Ord­ nung, die durch den folgenden Ausdruck (6) ausgedrückt sind, bereitgestellt, um den Basisvektor zu berechnen, der einen Merkmalsraum aufspannt, in dem sich wechselsei­ tig zugeordnete Dokumente und Begriffe nahe beieinander befinden.
Hier bedeutet "die Begriffe sind in der Nähe angeordnet", daß die Positionen der Begriffe innerhalb eines Merkmals­ raums nahe beieinander liegen, während "die Dokumente sind in der Nähe angeordnet" bedeutet, daß die Positionen der Begriffe, die in den jeweiligen Dokumenten enthalten sind, im Merkmalsraum dicht liegen. Andererseits ist mit den Kosten ein zu minimierender Gegenstand gemeint. In der gezeigten Ausführungsform sind die Kosten als eine Funktion zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert, wie durch den Ausdruck (6) ausgedrückt ist. Hier ist im m-te Element eines 1 × d-Vektors i, der wie folgt definiert ist:
Für die Kosten wird das Verfahren des steilsten Abfalls angewendet, um den Wert von wi zu aktualisieren, wie durch den folgenden Ausdruck (8) ausgedrückt ist.
Hier ist µi(k) ein Aktualisierungsverhältnis, das den Grad des Aktualisierens in der k-ten Wiederholung steu­ ert, die durch einen positiven kleinen Wert initialisiert wird, wenn k gleich 1 ist, wie z. B. µi (1) = 0,1. Jedes­ mal, wenn k inkrementiert wird, wird der Wert allmählich verkleinert. In der Alternative ist es außerdem möglich, den Wert auf einen konstanten Wert unabhängig von k zu setzen. Andererseits ist zi(k) wie folgt definiert:
zi(k) = wi(k)'E(i) (9)
Im Schritt S530 wird δi(k), das den Grad der Variation von wi angibt, wie folgt hergeleitet:
Im Schritt S540 wird auf der Grundlage des Wertes δi(k) eine Beurteilung getroffen, ob der Prozeß abzuschließen ist. Falls im Ergebnis der Beurteilung der Abschluß be­ stimmt wird, schreitet der Prozeß zum Schritt S560 fort, während ansonsten der Prozeß zum Schritt S550 fortschrei­ tet. Hier in Fig. 11 ist βi ein positiver kleiner Wert, wie z. B. βi = 1 × 10-6.
Im Schritt S550 wird der Wert des Zählers k um 1 inkre­ mentiert. Dann kehrt der Prozeß zum Schritt S520 zurück. Im Schritt S560 wird wi als die i-ten Daten der Datenda­ tei 300 für die Basisvektoren gespeichert. Zum gleichen Zeitpunkt wird wi zur Begriff-Dokument-Matrix-Aktualisie­ rungseinrichtung 210 und zur Merkmalsextraktionseinrich­ tung 230 übertragen. In der Merkmalsextraktionseinrich­ tung 230 werden das Merkmal yi und der Normierungsparame­ ter pi in der folgenden Weise berechnet.
yi = i/pi (11)
Hier ist pi wie folgt definiert:
Das Merkmal yi und der Normierungsparameter pi werden je­ weils in der Datendatei 400 für die Merkmale und in der Datendatei 450 für die Normierungsparameter als die i-ten Daten gespeichert.
Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei­ nes automatischen Systems für die Klassifizierung von Do­ kumenten zeigt, das die gezeigte Ausführungsform der Merkmalsextraktionsvorrichtung verwendet. In Fig. 12 be­ zeichnet das Bezugszeichen 601 die Begriff-Dokument-Mat­ rix-Berechnungseinrichtung, während 602 Klassifizierungs­ einrichtung bezeichnet. Die Klassifizierungseinrichtung 602 kann durch ein Verfahren implementiert sein, das in "Journal of Intelligent and Fuzzy Systems", 1993 veröf­ fentlicht, Bd. 1, Nr. 1, S. 1 bis 25, offenbart ist.
Die in der Dokumentendatenbank E gespeicherten Daten der Dokumente werden in dem automatischen System 600 für die Klassifizierung von Dokumenten genommen. Im automatischen System 600 für die Klassifizierung von Dokumenten wird eine Begriff-Dokument-Matrix in der Begriff-Dokument-Mat­ rix-Berechnungseinrichtung 601 hergeleitet. Das Ergebnis der Berechnung der Begriff-Dokument-Matrix wird zur Merk­ malsextraktions-Steuereinrichtung 200 übertragen. Die Merkmalsextraktions-Steuereinrichtung 200 extrahiert die Merkmale aus der empfangenen Begriff-Dokument-Matrix. Das extrahierte Ergebnis wird an die Klassifizierungseinrich­ tung 602 ausgegeben. In der Klassifizierungseinrichtung 602 wird das Ergebnis der Klassifizierung auf der Grund­ lage der Eingangsmerkmale ausgegeben.
Um die vorliegende Erfindung zu bewerten, wurde die Merk­ malsextraktion von konkreten Daten eines Dokuments in be­ zug auf das System der Aufnahmeprüfung ausgeführt. Es ist bestätigt worden, daß die vorliegende Erfindung die Merk­ male der gleichen Natur wie diejenigen, die unter Verwen­ dung der herkömmlichen LSA extrahiert wurden, extrahieren konnte.
Hinsichtlich der Größe des Speicherraums erfordert in ei­ nem typischen praktischen Fall, in dem die Anzahl der Begriffe t signifikant größer ist als die Anzahl der Do­ kumente d (t » d), die herkömmliche LSA in der Größenord­ nung von t2 des Speicherraums, während die vorliegende Erfindung lediglich Speicherraum in der Größenordnung von t . d zum Berechnen der entsprechenden Basisvektoren er­ fordert. Außerdem ist eine komplizierte Vorrichtung für Matrizenoperationen erforderlich, um den Stand der Tech­ nik zu verwirklichen. Das System gemäß Erfindung kann je­ doch leicht mit einer Vorrichtung verwirklicht werden, die einfache arithmetische Operationen ausführt. Gemäß der vorliegenden Erfindung kann die LSA-Merkmalsextrak­ tion nämlich unter Verwendung eines kleineren Speicher­ raums und eines einfacheren Programms ausgeführt werden. Außerdem kann dieses einfache Programm in einem digitalen Signalprozessor (DSP) geladen werden. Deshalb kann ein spezifischer Chip für die Merkmalsextraktion leicht her­ gestellt werden.
Im folgenden werden die Ergebnisse der jeweiligen Ein­ richtungen, die die gezeigte Ausführungsform der Merk­ malsextraktionsvorrichtung ausführen, für die Dokumente nach Fig. 1 und die Frage nach Fig. 3 gezeigt.
A. Die Dokumente nach Fig. 1
Zuerst bezeichnet X die Begriff-Dokument-Matrix nach Fig. 2.
I. Die erste Iteration in der Merkmalsextraktions-Steuer­ einrichtung 200 (i = 1)
Entsprechend dem obigen Ausdruck (5) gibt die Begriff-Do­ kument-Matrix-Aktualisierungseinrichtung 210 E(1), ausge­ drückt durch den folgenden Ausdruck, an die Basisvektor- Berechnungseinrichtung 220 und die Merkmalsextraktions­ einrichtung 230 aus.
In der Basisvektor-Berechnungseinrichtung 220 wird die Initialisierung mit dem Setzen des Basisvektors w1(1) auf [0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ1 auf einen festen Wert 0,1 und von β1 auf 1 × 10-6 ausgeführt. Die in Fig. 11 gezeigte Berechnung wird 132mal ausge­ führt. Dann wird der Basisvektor w1 = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]' in der Datendatei 300 für die Basisvek­ toren gespeichert und an die Merkmalsextraktionseinrich­ tung 230 und an die Begriff-Dokument-Matrix-Aktualisie­ rungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 1)
Aus dem obigen Ausdruck (8) folgt
w1(2) = [0,0103, -0,0097, 0,0103, 0,0093, 0,0107, -0,0103, 0,0097, -0,0100, 0,0100, -0,0103, 0,0103]'.
w1(2) - w1(1) = 10-3 × [0,3332, 0,3334, 0,3332, 0,6668, 0,6666, -0,3332, -0,3334, 0,0001, -0,0001, -0,3332, 0,3332]'
d1(1) = 0,0103
* Die zweite Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 2)
Aus dem obigen Ausdruck (8) folgt
w1(3) = [0,0107, -0,0093, 0,0107, -0,0085, 0,0115, -0,0107, 0,0093, -0,0100, 0,0100, -0,0107, 0,0107]'.
w1(3) -w1(2) = 10-3 × [0,4110, 0,4112, 0,4110, 0,8001, 0,7998, -0,3665, -0,3668, 0,0224, 0,0221, -0,3665, 0,3887]'
δ1(2) = 0,0015
- gekürzt -
* Die 132. Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 132)
Aus dem obigen Ausdruck (8) folgt
w1(133) = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]'.
w1(133) - w1(132) = 10-6 × [-0,3020, -0,3020, -0,3020, -0,3020, -0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,0000]'
δ1(132) = 9,5500 × 10-7
In der Merkmalsextraktionseinrichtung 230 werden die in den Ausdrücken (11) und (12) gezeigten Operationen ausge­ führt, um:
y1 = [0,5000, 0,5000, 0,7071]
und
p1 = 2,7979
an die Datendatei 400 für die Merkmale und an die Daten­ datei 450 für die Normierungsparameter auszugeben.
II. Die zweite Iteration in der Merkmalsextraktions-Steu­ ereinrichtung 200 (i = 2)
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird aus dem obigen Ausdruck (5) E(2), ausgedrückt wie folgt, an die Basisvektor-Berechnungseinrichtung 220 und die Merkmalsextraktionseinrichtung 230 ausgegeben:
In der Basisvektor-Berechnungseinrichtung 220 wird die Initialisierung mit dem Setzen des Basisvektors w2(1) auf [0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ2 auf einen festen Wert 0,1 und von β2 auf 1 × 10-6 ausgeführt. Die in Fig. 11 gezeigte Berechnung wird 119mal ausge­ führt. Dann wird der Basisvektor w2 = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]' in der Datendatei 300 für die Basisvektoren gespeichert und an die Merkmalsextraktions­ einrichtung 230 und an die Begriff-Dokument-Matrix-Aktua­ lisierungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 1)
Aus dem obigen Ausdruck (8) folgt
w2(2) = [0,0102, -0,0098, 0,0102, -0,0096, 0,0104, -0,0105, 0,0095, -0,0103, 0,0097, -0,0105, 0,0102]'.
w2(2) - w2(1) = 10-3 × [0,2154, 0,2156, 0,2154, 0,3822, 0,3821, -0,4511, -0,4513, -0,2844, -0,2846, -0,4511, 0,1666] '
δ2(1) = 0,0011
* Die zweite Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 2)
Aus dem obigen Ausdruck (8) folgt
w2(3) = [0,0105, -0,0095, 0,0105, -0,0092, 0,0108, -0,0110, 0,0090, -0,0106, 0,0094, -0,0110, 0,0103]'.
w2(3) - w2(2) = 10-3 × [0,2624, 0,2626, 0,2624, 0,4413, 0,4411, -0,5152, -0,5154, -0,3364, -0,3366, -0,5152, 0,1786] '
δ2(2) = 0, 0013
- gekürzt -
* Die 119. Wiederholung in der Basisvektor-Berechnungs­ einrichtung 220 (k = 119)
Aus dem obigen Ausdruck (8) folgt
w2(120) = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]'.
w2(120) - w2(119) = 10-6 × [0,3327, 0,3333, 0,3327, -0,1375, -0,1381, 0,3332, 0,3326, -0,1377, -0,1383, 0,3332, 0,4712]'
δ2(119) = 9, 8141 × 10-7
In der Merkmalsextraktionseinrichtung 230 werden die in den Ausdrücken (11) und (12) gezeigten Operationen ausge­ führt, um:
y2 = [0,7071, -0,7071, -0,0000]
und
p2 = 2,2361
an die Datendatei 400 für die Merkmale und an die Daten­ datei 450 für die Normierungsparameter auszugeben.
Aus den oben dargelegten Ergebnissen folgt, daß die Merk­ malsvektoren der Dokumente 1, 2 und 3 in Fig. 1 jeweils [0,5000, 0,7071]', [0,5000, -0,7071], [0,7071, -0,0000] lauten. Im Vergleich mit den Merkmalen der LSA der ent­ sprechenden Dokumente, die bei der Erklärung des Standes der Technik gezeigt sind, besitzt das zweite Element je­ des Vektors das entgegengesetzte Vorzeichen, es besitzt aber den gleichen Absolutwert. Demzufolge besitzen sie hinsichtlich der Berechnung der Ähnlichkeit im Ausdruck (2) die gleiche Natur wie die Merkmale der LSA.
B. Die Frage nach Fig. 3
Hier werden die in der Datendatei 300 für die Basisvekto­ ren gespeicherten Basisvektoren und die in der Datendatei 450 für die Normierungsparameter speicherten Normierungs­ parameter während der Extraktion der Merkmale aus den Do­ kumenten nach Fig. 1 verwendet. Dadurch wird die Ausfüh­ rung der Basisvektor-Berechnungseinrichtung 220 und die Berechnung der Normierungsparameter in der Merkmalsex­ traktionseinrichtung 230 weggelassen. Bei X die Begriff- Dokument-Matrix nach Fig. 4.
I. Die erste Iteration in der Merkmalsextraktionseinrich­ tung 200 (i = 1)
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird E(1), aus dem obigen Ausdruck (5) ausgedrückt wie folgt, an die Merkmalsextraktionseinrichtung 230 aus­ gegeben.
In der Merkmalsextraktionseinrichtung 230 wird die arith­ metische Operation entsprechend den obigen Ausdrücken (11) und (12) unter Verwendung des Merkmalsvektors w1 und des Normierungsparameters p1, die nach der Extraktion der Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden, ausgeführt, um
y1 = [0,6542]
an die Datendatei 400 für die Merkmale auszugeben.
II. Die zweite Iteration in der Merkmalsextraktions-Steu­ ereinrichtung 200 (i = 2)
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird unter Verwendung des nach der Ausführung der Merkmalsextraktion aus den in Fig. 1 gezeigten Dokumenten erhaltenen Merkmalsvektors w1 aus der obigen Gleichung (5) E(2), ausgedrückt wie folgt, an die Merkmalsextrak­ tionseinrichtung 230 ausgegeben.
In der Merkmalsextraktionseinrichtung 230 wird die arith­ metische Operation entsprechend den obigen Ausdrücken (11) und (12) unter Verwendung des Merkmalsvektors w2 und des Normierungsparameters p2, die nach der Extraktion der Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden, ausgeführt, um
y2 = [-0,0000]
an die Datendatei 400 für die Merkmale auszugeben.
Aus dem oben dargelegten Ergebnis wird der Merkmalsvektor der Frage nach Fig. 3 [0,6542, -0,0000]', wobei im Ver­ gleich zu dem im Stand der Technik erklärten Wert das zweite Element den gleichen Absolutwert aufweist.
Die vorliegende Erfindung ist in bezug auf bevorzugte Ausführungsformen ausführlich beschrieben worden. Aus dem obigen wird nun für die Fachleute offensichtlich sein, daß Änderungen und Modifikationen ausgeführt werden kön­ nen, ohne von der Erfindung in ihrem breiteren Aspekt ab­ zuweichen. Es besteht deshalb die Absicht, daß die offen­ sichtlichen Ansprüche alle derartigen Änderungen und Mo­ difikationen abdecken, wie sie in den wahren Erfindungs­ gedanken der Erfindung fallen.

Claims (25)

1. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten unter Verwendung einer Begriff-Doku­ ment-Matrix, die aus Vektoren besteht, die den Indexbe­ griffen entsprechen, die die Inhalte der Dokumente dar­ stellen, wobei die Beiträge der Indexbegriffe auf ent­ sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech­ nens eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para­ meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs­ schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
2. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 1, wobei die Kosten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert sind.
3. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 2, wobei der Basisvek­ tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be­ rechnens eines Variationsgrades des Wertes des Basisvek­ tors;
einen Beurteilungsschritt, in dem unter Verwen­ dung des Variationsgrades des Basisvektors eine Beurtei­ lung getroffen wird, ob ein Wiederholungsprozeß abzu­ schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie­ derholungsprozesse.
4. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 3, wobei der Basisvek­ tor-Aktualisierungsschritt den Basisvektor unter Verwen­ dung eines aktuellen Wertes des Basisvektors, der Be­ griff-Dokument-Matrix und eines Aktualisierungsverhält­ nisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.
5. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 4, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
6. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 3, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
7. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 2, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
8. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 1, wobei der Basisvek­ tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be­ rechnens eines Variationsgrades des Wertes des Basisvek­ tors;
einen Beurteilungsschritt, in dem unter Verwen­ dung des Variationsgrades des Basisvektors eine Beurtei­ lung getroffen wird, ob ein Wiederholungsprozeß abzu­ schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie­ derholungsprozesse.
9. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 8, wobei der Basisvek­ tor-Aktualisierungsschritt den Basisvektor unter Verwen­ dung eines aktuellen Wertes des Basisvektors, der Be­ griff-Dokument-Matrix und eines Aktualisierungsverhält­ nisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.
10. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 9, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
11. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 8, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
12. Textfilterungsverfahren zum Extrahieren von Merk­ malen aus Dokumenten nach Anspruch 1, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra­ hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
13. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff- Dokument-Matrix, die aus Vektoren besteht, die den Index­ begriffen entsprechen, die die Inhalte des Dokuments dar­ stellen, wobei die Beiträge der Indexbegriffe auf ent­ sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei die Vorrichtung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be­ rechnen eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para­ meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein­ richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
14. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei die Kos­ ten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert sind.
15. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 14, wobei die Ba­ sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie­ ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek­ tors;
eine Beurteilungseinrichtung, die unter Verwen­ dung des Variationsgrades des Basisvektors eine Beurtei­ lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
16. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 15, wobei die Ba­ sisvektor-Aktualisierungseinrichtung den Basisvektor un­ ter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument-Matrix und eines Aktualisierungsver­ hältnisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.
17. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 16, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren des Merkmals erforderlich sind, bereits er­ halten worden sind, die Berechnung der Normierungsparame­ ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor­ mierungsparameter extrahiert, die bereits erhalten worden sind.
18. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 15, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er­ halten worden sind, die Berechnung der Normierungsparame­ ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor­ mierungsparameter extrahiert, die bereits erhalten worden sind.
19. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 14, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er­ halten worden sind, die Berechnung der Normierungsparame­ ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor­ mierungsparameter extrahiert, die bereits erhalten worden sind.
20. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei die Ba­ sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie­ ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek­ tors;
eine Beurteilungseinrichtung, die unter Verwen­ dung des Variationsgrades des Basisvektors eine Beurtei­ lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
21. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 20, wobei die Ba­ sisvektor-Aktualisierungseinrichtung den Basisvektor un­ ter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument-Matrix und eines Aktualisierungsver­ hältnisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.
22. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten bei der Textfilterung nach An­ spruch 21, wobei, wenn alle Basisvektoren und Normie­ rungsparameter, die beim Extrahieren des Merkmals erfor­ derlich sind, bereits erhalten worden sind, die Berech­ nung der Normierungsparameter durch die Basisvektor-Be­ rechnungseinrichtung und die Ausführung der Merkmalsex­ traktionseinrichtung weggelassen werden, wobei die Merk­ malsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra­ hiert, die bereits erhalten worden sind.
23. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 20, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er­ halten worden sind, die Berechnung der Normierungsparame­ ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor­ mierungsparameter extrahiert, die bereits erhalten worden sind.
24. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er­ halten worden sind, die Berechnung der Normierungsparame­ ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor­ mierungsparameter extrahiert, die bereits erhalten worden sind.
25. Computer-Programmprodukt für die Ausführung in einer Textfilterungsvorrichtung zum Extrahieren von Merk­ malen aus Dokumenten unter Verwendung einer Begriff-Doku­ ment-Matrix, die aus Vektoren besteht, die den Indexbe­ griffen entsprechen, die die Inhalte der Dokumente dar­ stellen, wobei die Beiträge der Indexbegriffe auf ent­ sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei das Computer-Programmprodukt umfaßt:
einen Basisvektor-Berechnungsschritt des Berech­ nens eines Basisvektors, der einen Merkmalsraum auf­ spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen­ dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para­ meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs­ schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat­ rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an­ gewendet ist.
DE10125011A 2000-06-29 2001-05-22 Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten Ceased DE10125011A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000197421A JP3524846B2 (ja) 2000-06-29 2000-06-29 テキストマイニングにおける文書の特徴量抽出方法及びその装置

Publications (1)

Publication Number Publication Date
DE10125011A1 true DE10125011A1 (de) 2002-01-24

Family

ID=18695752

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10125011A Ceased DE10125011A1 (de) 2000-06-29 2001-05-22 Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten

Country Status (5)

Country Link
US (1) US6882747B2 (de)
JP (1) JP3524846B2 (de)
CA (1) CA2351211C (de)
DE (1) DE10125011A1 (de)
GB (1) GB2369211B (de)

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7124081B1 (en) * 2001-09-28 2006-10-17 Apple Computer, Inc. Method and apparatus for speech recognition using latent semantic adaptation
US20030115080A1 (en) * 2001-10-23 2003-06-19 Kasra Kasravi System and method for managing contracts using text mining
DE10221606A1 (de) * 2002-05-15 2003-12-04 Georg S Wengler Verfahren und Vorrichtung zur computergestützten Durchführung einer Literaturanalyse
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8272064B2 (en) * 2005-11-16 2012-09-18 The Boeing Company Automated rule generation for a secure downgrader
US8379841B2 (en) 2006-03-23 2013-02-19 Exegy Incorporated Method and system for high throughput blockwise independent encryption/decryption
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US7963442B2 (en) * 2006-12-14 2011-06-21 Simmonds Precision Products, Inc. Spin stabilized projectile trajectory control
JP4781466B2 (ja) * 2007-03-16 2011-09-28 富士通株式会社 文書重要度算出プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
WO2009029842A1 (en) 2007-08-31 2009-03-05 Exegy Incorporated Method and apparatus for hardware-accelerated encryption/decryption
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100114890A1 (en) * 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713053B2 (en) * 2010-03-09 2014-04-29 Cisco Technology, Inc Active tags
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US9208204B2 (en) 2013-12-02 2015-12-08 Qbase, LLC Search suggestions using fuzzy-score matching and entity co-occurrence
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9922032B2 (en) 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
US9177262B2 (en) 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US9542477B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
WO2015084757A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for processing data stored in a database
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US9223833B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Method for in-loop human validation of disambiguated features
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10282468B2 (en) * 2015-11-05 2019-05-07 International Business Machines Corporation Document-based requirement identification and extraction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018119035A1 (en) 2016-12-22 2018-06-28 Ip Reservoir, Llc Pipelines for hardware-accelerated machine learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180189307A1 (en) * 2016-12-30 2018-07-05 Futurewei Technologies, Inc. Topic based intelligent electronic file searching
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5884305A (en) 1997-06-13 1999-03-16 International Business Machines Corporation System and method for data mining from relational data by sieving through iterated relational reinforcement
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6728728B2 (en) * 2000-07-24 2004-04-27 Israel Spiegler Unified binary model and methodology for knowledge representation and for data and information mining
AU2001286689A1 (en) 2000-08-24 2002-03-04 Science Applications International Corporation Word sense disambiguation
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
US6925433B2 (en) * 2001-05-09 2005-08-02 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents

Also Published As

Publication number Publication date
GB2369211B (en) 2002-11-27
GB2369211A (en) 2002-05-22
US20020031260A1 (en) 2002-03-14
JP2002014982A (ja) 2002-01-18
CA2351211A1 (en) 2001-12-29
CA2351211C (en) 2006-10-17
GB0115357D0 (en) 2001-08-15
JP3524846B2 (ja) 2004-05-10
US6882747B2 (en) 2005-04-19

Similar Documents

Publication Publication Date Title
DE10125011A1 (de) Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69908360T2 (de) Rechnersystem und verfahren zur erklärung des verhaltens eines modelles das eingangsdaten auf ausgangdaten abbildet
DE112012005998T5 (de) Vorrichtung, Verfahren und Programm zur Wortsinnschätzung
DE69532307T2 (de) Ausdrucks-Propagierung für hierarchisches Netzlisten
DE4040348A1 (de) Vorrichtung zur designauswertung
DE102019107591A1 (de) Anzeigesystem, programm und speichermedium
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE112016003235T5 (de) Ausgangseffizienzoptimierung in Produktionssystemen
DE69828888T2 (de) Sprecherbeweissystem
DE102018130004B3 (de) Auf einer support vector machine basierende intelligente fahrweise zum passieren von kreuzungen und intelligentes fahrsystem dafür
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
EP1008067A1 (de) Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil
DE112015005501B4 (de) Alterungsprofilbildungsmaschine für physikalische Systeme
DE112020007373T5 (de) Verfahren und Vorrichtung zum intelligenten Vermitteln von Empfehlungen
DE102020129018A1 (de) Tiefe benutzermodellierung durch verhalten
DE112021007611T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
DE102019217595A1 (de) Domänenspezifische vorhersage der prozessschwierigkeit
DE10154200C1 (de) Verfahren zum Erzeugen wenigstens einer Folge von an Zahlenfolgen eines 1/f-Rauschens angenäherten Zufallszahlen
DE102019207059A1 (de) Verfahren zur Validierung von Systemparametern eines Energiesystems, Verfahren zum Betrieb eines Energiesystems sowie Energiemanagementsystem für ein Energiesystem
EP1190383B1 (de) Verfahren zur rechnergestützten ermittlung einer zugehörigkeit einer vorgegebenen eingangsgrösse zu einem cluster
Bach et al. Concurrent Engineering Software Tools–A Trade-Off for efficient Learning in Blended Teaching Scenarios
DE202023102562U1 (de) Ein System zur Analyse von Blattarchitekturen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection