DE10125011A1

DE10125011A1 - Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten

Info

Publication number: DE10125011A1
Application number: DE10125011A
Authority: DE
Inventors: Ruck Thawonmas; Akio Sakamoto; Shinji Mizobuchi; Masutatsu Yoshioka
Original assignee: Kochi University of Technology; SSR Co Ltd
Current assignee: Kochi University of Technology; SSR Co Ltd
Priority date: 2000-06-29
Filing date: 2001-05-22
Publication date: 2002-01-24
Also published as: GB2369211B; GB2369211A; US20020031260A1; JP2002014982A; CA2351211A1; CA2351211C; GB0115357D0; JP3524846B2; US6882747B2

Abstract

Hinsichtlich der Merkmalsextraktion von Dokumenten bei der Textfilterung werden ein Verfahren und eine Vorrichtung zum Extrahieren von Merkmalen geschaffen, die die gleiche Natur wie die der LSA aufweisen, wobei sie einen kleineren Speicherraum und ein einfacheres Programm und eine einfachere Vorrichtung als die Vorrichtung zum Ausführen der LSA erfordern. Die Merkmale jedes Dokuments werden durch die Merkmalsextraktionseinrichtung auf der Grundlage einer Begriff-Dokument-Matrix, die durch die Begriff-Dokument-Aktualisierungseinrichtung aktualisiert wird, und eines Basisvektors, der einen Raum der effektiven Merkmale aufspannt und der durch die Basisvektor-Berechnungseinrichtung berechnet wird, extrahiert. Die Ausführung der entsprechenden Einrichtungen wird wiederholt, bis eine durch einen Anwender gegebene vorgegebene Anforderung erfüllt ist.

Description

HINTERGRUND DER ERFINDUNG GEBIET DER ERFINDUNG

Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Textfilterung, um Merkmale aus Dokumenten zu extrahieren. Insbesondere bezieht sich die Erfindung auf ein Verfahren und eine Vorrichtung für die Textfilterung, um Merkmale aus Dokumenten zu extra hieren, wobei die Merkmale so extrahiert werden, daß alle wechselseitig zugeordneten Dokumente und Begriffe im Merkmalsraum nahe beieinander angeordnet werden. Die An wendungen der Erfindung umfassen die Dokumentensuche und/oder die Netzsuche, die Suche zugeordneter Begriffe und die Klassifizierung von Dokumenten.

BESCHREIBUNG DER VERWANDTEN TECHNIK

Bei der Textfilterung als einer Technologie, um durch das Ausführen einer Analyse der Textdaten das gewünschte Wis sen oder die gewünschten Informationen herauszupressen, ist die effektive Merkmalsextraktion aus den Dokumenten eine wichtige Aufgabe für das effiziente Ausführen der Dokumenten- und/oder Netzsuche, das Suchen zugeordneter Begriffe, der Klassifizierung von Dokumenten usw. Als ein typisches Verfahren zum Extrahieren der Merkmale eines Dokumentes wird das Modell des Vektorraums häufig verwen det, wie es auf S. 313 in "Automatic Text Processing" (Addison-Wesley, 1989) dargelegt ist.

Im Modell des Vektorraums wird ein Vektor V_i verwendet, so daß er einem Indexbegriff T_i entspricht, um einen t- dimensionalen Vektorraum zu definieren, wenn die Anzahl der Begriffe, die als Indizes in den Dokumenten ausge wählt werden, nämlich als Indexbegriffe, wie die Inhalte der Dokumente darstellen, t beträgt. Alle Vektoren, die auf diese Weise den definierten Vektorraum bilden, können als eine Linearkombination aus einer Anzahl t Vektoren ausgedrückt werden, die der Anzahl t der Indexbegriffe entspricht. In diesem Vektorraum wird ein Dokument D_r wie folgt ausgedrückt:

Im vorangehenden Ausdruck (1) ist x_ir, das auf V_i wirkt, der Beitrag des Indexbegriffs T_i zum Dokument D_r, wobei er ein Merkmal des Dokuments darstellt. Das Merkmal ist eine Menge, die die Begriffshäufigkeit des Indexbegriffs im Dokument darstellt. Ein Vektor [x_r1, x_r2, . . ., x_rt]' aus t × 1 (t Zeilen und eine Spalte) wird ein Merkmals vektor des Dokuments D_r. Als der einfachste Fall ist x_ir auf 1 gesetzt, wenn der Indexbegriff T_i im Dokument D_r auftritt. Wenn der Indexbegriff T_i nicht im Dokument D_r auftritt, wird x_ir auf 0 gesetzt. In einem komplizierte ren Fall, wie er in der obigen Veröffentlichung auf den Seiten 279 bis 280 dargelegt ist, werden zwei Größen ver wendet. Diese zwei Größen sind eine Begriffshäufigkeit tfri des Indexbegriffs T_i im Dokument D_r und eine Doku mentenhäufigkeit df_i der Dokumente, die den Indexbegriff T_i enthalten, in allen in der Dokumentendatenbank regist rierten Dokumenten.

Für die Gruppe der Dokumente, die aus einer Anzahl d Do kumenten besteht, kann eine t × d-Begriff-Dokument-Matrix X wie folgt definiert werden:

X = [x₁, x₂, . . ., x_d]

Hier drückt ein t-dimensionaler Vektor x_j = [x_j1, x_j2, . . ., x_jt]' den Merkmalsvektor des Dokuments D_j aus, wobei ein ' (Strich) die Inversion der Matrix darstellt.

Fig. 1 ist eine Veranschaulichung, die ein Beispiel von aus japanischen Sätzen übersetzten Dokumenten zeigt, die in einer Dokumentendatenbank registriert sind, wobei "Ro nin" ein latinisiertes Wort ist, mit dem Studenten ge meint sind, die durch die Aufnahmeprüfung der Universität eines speziellen akademischen Jahrs gefallen sind und die sich auf ein nächstes Jahr vorbereiten. Fig. 2 ist eine Veranschaulichung, die ein Beispiel einer Begriff-Doku ment-Matrix zeigt, die die Kanji-Zeichen (die chinesi schen Zeichen), die in den in Fig. 1 gezeigten Dokumenten auftreten, als Indexbegriffe verwendet. Die Kanji-Be griffe sind in Fig. 1 unterstrichen. In Fig. 2 ist bei einer Zeichenfolge "let me know about", die in allen Do kumenten 1 bis 3 auftritt, der Kanji-Begriff "know" aus den Indexbegriffen gestrichen. Fig. 3 ist eine Veran schaulichung, die ein Beispiel einer tatsächlich von ei nem Anwender eingegebenen, aus dem japanischen übersetz ten Frage zeigt, in der die Kanji-Begriffe unterstrichen sind. Falls die Indexbegriffe nach Fig. 2 verwendet wer den, um die Frage auszudrücken, kann die Frage mit der in Fig. 4 gezeigten Begriff-Dokument-Matrix ausgedrückt wer den.

Wenn das Modell des Vektorraums verwendet wird, kann im allgemeinen die Ähnlichkeit sim(D_r, D_s) von zwei Dokumen ten D_r und D_s wie folgt ausgedrückt werden:

Wenn die Ähnlichkeit der Frage mit jedem Dokument nach Fig. 1 auf der Grundlage der Bedeutung der Frage nach Fig. 3 beurteilt wird, ist die Frage nach Fig. 3 am ähn lichsten zum Dokument 3 nach Fig. 1. Unter Verwendung der Merkmalsvektoren, wie sie in den Fig. 2 und 4 gezeigten sind, beträgt jedoch die Ähnlichkeit jedes Dokuments nach Fig. 1 mit der Frage nach Fig. 3 jeweils sim(Dokument 1, Frage) = 0,5477, sim(Dokument 2, Frage) = 0,5477, sim(Dokument 3, Frage) = 0,5477. Kurz, alle haben die gleiche Ähnlichkeit.

Als eine Lösung für ein derartiges Problem wurde ein als latente semantische Analyse (LSA) bezeichnetes Verfahren im "Journal of the American Society for Information Science", 1990, Bd. 41, Nr. 6, S. 391 bis 407 vorgeschla gen. Dieses Verfahren extrahiert die latente Bedeutung der Dokumente auf der Grundlage des gemeinsamen Auftre tens von Begriffen, wobei es hinsichtlich des Suchwir kungsgrades signifikant herausragend ist. Hier stellt das "gemeinsame Auftreten von Begriffen" eine Situation dar, in der Begriffe gleichzeitig in den gleichen Dokumen ten/Aussagen auftreten.

Die LSA extrahiert eine latente semantische Struktur der Dokumente durch das Ausführen einer Zerlegung nach singu lären Werten (SVD) der Begriff-Dokument-Matrix. Im erhal tenen Merkmalsraum befinden sich wechselseitig zugeord nete Dokumente und Begriffe nahe beieinander. In einem Bericht in "Behavior Research Methods Instruments & Com puters", (1991), Bd. 23, Nr. 2, S. 229 bis 236 gibt eine Suche unter Verwendung der LSA ein Ergebnis mit im Ver gleich zum Modell des Vektorraums 30% höheren Wirkungs grad an. Die LSA wird im folgenden ausführlicher erklärt.

Bei der LSA wird zuerst einer Zerlegung nach singulären Werten für die t × d-Begriff-Dokument-Matrix X ausge führt, wie im folgenden dargelegt ist.

X = T₀S₀D₀' (3)

Hier stellt T₀ eine orthogonale t × m-Matrix dar, S₀ stellt eine quadratische m × m-Diagonalmatrix dar, wobei die m singulären Werte als Diagonalelemente genommen wer den, während die anderen Elemente auf 0 gesetzt sind. D₀' stellt eine orthogonale m × d-Matrix dar. Es wird außer dem angenommen, daß 0 ≦ d ≦ t gilt, und daß die orthogo nalen Elemente von S₀ in absteigender Reihenfolge ange ordnet sind.

Außerdem wird bei der LSA in bezug auf den t × 1-Merkmalsvektor x_q eines Dokuments D_q die folgende Umsetzung ausgeführt, um einen n × 1-LSA-Merkmalsvektor y_q herzuleiten:

y_q = S^-1T' x_q (4)

Hier ist S eine quadratische n × n-Diagonalmatrix, wobei das erste bis n-te Diagonalelement von S₀ genommen wer den, während T eine t × n-Matrix ist, die die erste bis n-te Spalte von T₀ darstellt.

Als ein Beispiel sind die Ergebnisse der Zerlegung nach singulären Werten der in Fig. 2 gezeigten Begriff-Doku ment-Matrix im folgenden gezeigt. Die Matrizen T₀, S₀ und D₀ sind wie folgt ausgedrückt:

Es wird angenommen, daß die Dimension t der LSA-Merkmals vektoren 2 beträgt, wobei der obige Ausdruck (4) auf je den Merkmalsvektor der Begriff-Dokument-Matrix in Fig. 2 angewendet wird. Dann lauten die LSA-Merkmalsvektoren der Dokumente 1, 2 und 3 jeweils [0,5000, -0,7071]', [0,5000, 0,7071]' und [0,7071, 0,0000]'. Durch das Anwen den des obigen Ausdrucks (4) auf den Merkmalsvektor nach Fig. 4 wird außerdem der LSA-Merkmalsvektor der Frage vom Anwender [0,6542, 0]'.

Durch das Anwenden des obigen Ausdrucks (2) auf die wie oben dargelegt erhaltenen LSA-Merkmalsvektoren werden die Ähnlichkeiten der Frage nach Fig. 3 mit jedem Dokument nach Fig. 1 jeweils sim(Dokument 1, Frage) = 0,5774, sim(Dokument 2, Frage) = 0,5774, sim(Dokument 3, Frage) = 1,0000. Folglich kann ein Ergeb nis erhalten werden, daß das Dokument 3 die höchste Ähn lichkeit mit der Frage aufweist. Wird eine Anwendung als Hilfesystem oder dergleichen betrachtet, die Computer- Netze verwendet, wird eine Antwortaussage des Dokuments 3, das in der Dokumentendatenbank registriert ist, an den Anwender zurückgeschickt, der die Frage nach Fig. 3 ge stellt hat.

Für die Zerlegung nach singulären Werten wird häufig ein Algorithmus verwendet, der in "Matrix Computations", The Johns Hopkins University Press, 1996, S. 455 bis 457 vor geschlagen wird. In dem oben dargelegten Bericht des "Journal of the American Society for Information Science" gibt es eine Aussage, daß der Wert n der Anzahl der Zei len (oder Spalten) der quadratischen Matrix S vorzugs weise etwa 50 bis 150 beträgt. Außerdem ist in den obigen Bericht aus "Behavior Research Methods, Instruments, & Computers" angegeben worden, daß durch die Vorverarbei tung unter Verwendung der Begriffshäufigkeit oder der Do kumentenhäufigkeit anstatt des einfachen Setzens jedes Elements des Merkmalsvektors auf 0 oder 1 vor dem Ausfüh ren der LSA ein besserer Wirkungsgrad erreicht werden kann.

Bei dem im obigen "Matrix Computations" vorgeschlagenen Algorithmus für die Zerlegung nach singulären Werten ist jedoch Speicherraum in der Größenordnung des Quadrats der Anzahl der Indexbegriffe t (t²) als Minimum erforderlich. Dies ist so, weil eine t × t-Matrix für die Bidiagonali sierung einer Matrix im Prozeß der Berechnung der Basis vektoren, die einen Merkmalsraum aufspannen, aus einer gegebenen Begriff-Dokument-Matrix verwendet wird. Der Stand der Technik ist deshalb nicht auf einer Dokumenten datenbank anwendbar, die eine sehr große Anzahl an Be griffen und Daten enthält. Außerdem erfordert der Stand der Technik unabhängig von der Anzahl der Daten kompli zierte Matrixoperationen.

ZUSAMMENFASSUNG DER ERFINDUNG

Die vorliegend Erfindung ist mit Blick auf die oben dar gelegten Probleme ausgearbeitet worden. Es ist deshalb eine Aufgabe der vorliegenden Erfindung, ein Verfahren für die Textfilterung zu schaffen, um Merkmale aus Doku menten zu extrahieren, das den arithmetischen Prozeß ver einfachen, die von dem arithmetischen Prozeß benötigte Speichermenge verringern und die Merkmale effizient ext rahieren kann.

Um die obenerwähnte Aufgabe zu lösen, wird in einem ers ten Aspekt der vorliegenden Erfindung ein Textfilterungs verfahren zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff-Dokument-Matrix geschaf fen, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der In dexbegriffe zu jedem Dokument auf entsprechende Elemente der Begriff-Dokument-Matrix. Das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.

In einem zweiten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 1 geschaffen. In dem ge schaffenen Verfahren sind die Kosten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument- Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist, definiert.

In einem dritten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 2 geschaffen. Im geschaffe nen Verfahren umfaßt der Basisvektor-Berechnungsschritt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Ak tualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung der Variation des Basisvektors eine Beurteilung ge troffen wird, ob ein Wiederholungsprozeß abzuschließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.

In einem vierten Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 3 geschaffen. In dem ge schaffenen Verfahren aktualisiert der Basisvektor-Aktua lisierungsschritt den Basisvektor unter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument- Matrix und eines Aktualisierungsverhältnisses, das den Aktualisierungsgrad des Basisvektors steuert.

In einem fünften Aspekt der vorliegenden Erfindung wird ein Textfilterungsverfahren zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 4 geschaffen. In dem ge schaffenen Verfahren werden, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Be rechnung der Normierungsparameter im Basisvektor-Berech nungsschritt und die Ausführung des Merkmalsextraktions schritts weggelassen. Außerdem extrahiert der Merkmalsex traktionsschritt die Merkmale unter Verwendung der Basis vektoren und der Normierungsparameter, die bereits erhal ten worden sind.

In einem sechsten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten unter Verwendung einer Begriff-Doku ment-Matrix geschaffen, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der Indexbegriffe zu jedem Dokument auf entspre chende Elemente der Begriff-Dokument-Matrix. Die Vorrich tung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.

In einem siebenten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 13 geschaffen. In der geschaffenen Vorrichtung sind die Kosten als Kosten zwei ter Ordnung des Unterschieds zwischen der Begriff-Doku ment-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basis vektor angewendet ist, definiert.

In einem achten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 14 geschaffen. In der geschaffenen Vorrichtung umfaßt die Basisvektor-Berech nungseinrichtung:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung der Variation des Basisvektors eine Beurteilung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.

In einem neunten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 15 geschaffen. In der geschaffenen Vorrichtung aktualisiert die Basisvektor-Ak tualisierungseinrichtung den Basisvektor unter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Do kument-Matrix und eines Aktualisierungsverhältnisses, das den Aktualisierungsgrad des Basisvektors steuert.

In einem zehnten Aspekt der vorliegenden Erfindung wird eine Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 16 geschaffen. In der geschaffenen Vorrichtung werden, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merk male erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter durch die Basisvek tor-Berechnungseinrichtung und die Ausführung der Merk malsextraktionseinrichtung weggelassen. Außerdem extra hiert die Merkmalsextraktionseinrichtung die Merkmale un ter Verwendung der Basisvektoren und der Normierungspara meter extrahiert, die bereits erhalten worden sind.

In einem elften Aspekt der vorliegenden Erfindung wird ein Computer-Programmprodukt für die Ausführung in einer Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff-Dokument- Matrix geschaffen, die aus Vektoren besteht, die den In dexbegriffen entsprechen, die die Inhalte der Dokumente darstellen. In der Begriff-Dokument-Matrix wirken die Beiträge der Indexbegriffe auf entsprechende Elemente der Begriff-Dokument-Matrix. Das Computer-Programmprodukt um faßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.

Die in dieser Beschreibung offenbarte Merkmalsextrak tionsvorrichtung ist durch das Definieren der Kosten als eine Funktion zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, konstruiert. Die Vorrichtung erfordert lediglich die folgenden Einrichtun gen:

a) eine Basisvektor-Berechnungseinrichtung zum Berechnen eines Basisvektors durch das Anwenden eines Verfahrens des steilsten Abfalls auf die Kosten;
b) eine Merkmalsextraktionseinrichtung zum Be rechnen eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek tors und zum Extrahieren der Merkmale auf der Grundlage des Parameters;
c) eine Begriff-Dokument-Matrix-Aktualisierungs einrichtung zum Aktualisieren der Begriff-Dokument-Matrix auf den Unterschied zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Be griff-Dokument-Matrix, auf die der Basisvektor angewendet ist, um das redundante Extrahieren von Merkmalen zu verhindern; und
d) eine Merkmalsextraktions-Steuereinrichtung zum Steuern der Ausführung der entsprechenden Einrichtungen.

Die Basisvektor-Berechnungseinrichtung wiederholt die Be rechnung auf der Grundlage der Eingangs-Begriff-Dokument- Matrix, um schließlich einen Basisvektor herzuleiten. Der Wiederholungsprozeß wird abgeschlossen, wenn der Varia tionsgrad des Basisvektors kleiner als ein oder gleich einem vorgegebenen Bezugswert wird.

Die Merkmalsextraktionseinrichtung berechnet einen Para meter zum Normieren der Merkmale auf der Grundlage des Eingangs-Basisvektors und der Begriff-Dokument-Matrix, wobei sie ein Merkmal für jedes Dokument extrahiert.

Die Begriff-Dokument-Matrix-Aktualisierungseinrichtung aktualisiert die Begriff-Dokument-Matrix auf der Grund lage des Eingangs-Basisvektors.

Die Merkmalsextraktions-Steuereinrichtung wiederholt die Ausführung jeder Einrichtung, bis die Anzahl der durch den Anwender definierten Merkmale erfüllt ist. Wenn die Basisvektoren und Normierungsparameter bereits berechnet worden sind, wird die Ausführung der Basisvektor-Berech nungseinrichtung und die Berechnung der Normierungspara meter in der Merkmalsextraktionseinrichtung weggelassen. Dann kann die Merkmalsextraktion mit der Konstruktion ausgeführt werden, die die bereits erhaltenen Basisvekto ren und die Normierungsparameter enthält.

Gemäß der vorliegenden Erfindung umfaßt ein Textfilte rungsverfahren zum Extrahieren von Merkmalen aus Dokumen ten unter Verwendung einer Begriff-Dokument-Matrix, die aus Vektoren besteht, die den Indexbegriffen entsprechen, die die Inhalte der Dokumente darstellen, wobei die Bei träge der Indexbegriffe auf entsprechende Elemente der Begriff-Dokument-Matrix wirken, die folgenden Schritte:

a) einen Basisvektor-Berechnungsschritt des Be rechnens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
b) einen Merkmalsextraktionsschritt des Berech nens eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek tors und des Extrahierens der Merkmale auf der Grundlage des Parameters;
c) einen Begriff-Dokument-Matrix-Aktualisie rungsschritt des Aktualisierens der Begriff-Dokument-Mat rix auf einen Unterschied zwischen der Begriff-Dokument- Matrix, auf die der Basisvektors nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist; und
d) einen Merkmalsextraktions-Steuerschritt des Steuerns der Ausführung der entsprechenden Schritte.

Deshalb können hinsichtlich der Merkmalsextraktion von Dokumenten bei der Textfilterung die Merkmale, die die gleiche Natur wie diejenigen aufweisen, die durch die LSA erhalten werden, mit einem kleineren Speicherraum als mit der Vorrichtung oder dem Verfahren extrahiert werden, die die LSA ausführen. Außerdem kann spezifische Software oder Hardware zum Extrahieren der Merkmale leicht imple mentiert werden.

Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus den folgenden Beschrei bungen ihrer Ausführungsformen offensichtlich, die im Zu sammenhang mit der beigefügten Zeichnung gegeben werden.

KURZBESCHREIBUNG DER ZEICHNUNG

Fig. 1 ist eine Veranschaulichung, die ein Beispiel der Dokumente zeigt, die in einer Dokumentendatenbank regist riert sind;

Fig. 2 ist eine Veranschaulichung, die ein Beispiel einer Begriff-Dokument-Matrix zeigt, wobei die Kanji-Begriffe, die in den Dokumenten auftreten, die in Fig. 1 gezeigt sind, als Indexbegriffe genommen sind;

Fig. 3 ist eine Veranschaulichung, die ein Beispiel einer tatsächlich durch einen Anwender eingegebenen Frage zeigt;

Fig. 4 ist eine Veranschaulichung, die eine aus der Frage in Fig. 3 erhaltene Begriff-Dokument-Matrix zeigt;

Fig. 5 ist eine Veranschaulichung, die eine Ausführungs form der Merkmalsextraktionsvorrichtung gemäß der vorlie genden Erfindung zeigt;

Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer Hardware-Konstruktion zum Implementieren der vorliegenden Erfindung zeigt;

Fig. 7 ist eine Veranschaulichung, die eine Struktur ei ner Datendatei für die Begriff-Dokument-Matrizen zeigt;

Fig. 8 ist eine Veranschaulichung, die eine Struktur ei ner Datendatei für die Basisvektoren zeigt, in der die berechneten Basisvektoren gespeichert sind;

Fig. 9 ist eine Veranschaulichung, die eine Struktur ei ner Datendatei für die Merkmale zeigt;

Fig. 10 ist eine Veranschaulichung, die eine Struktur ei ner Datendatei für die Normierungsparameter zeigt;

Fig. 11 ist ein Ablaufplan, der die Berechnung eines Ba sisvektors in der Basisvektor-Berechnungseinrichtung zeigt; und

Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei nes automatischen Systems für die Klassifizierung von Do kumenten zeigt, das eine Ausführungsform der Merkmalsex traktionsvorrichtung gemäß der vorliegenden Erfindung verwendet.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Fig. 5 ist eine Veranschaulichung, die eine Ausführungs form der Merkmalsextraktionsvorrichtung gemäß der vorlie genden Erfindung zeigt. Wie in Fig. 5 gezeigt ist, be sitzt die Merkmalsextraktions-Steuereinrichtung 200 eine Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210, eine Basisvektor-Berechnungseinrichtung 220 und eine Merkmalsextraktionseinrichtung 230. Das Bezugszeichen 100 bezeichnet eine Datendatei für die Begriff-Dokument-Mat rizen, 300 bezeichnet eine Datendatei für die Basisvekto ren, 400 bezeichnet eine Datendatei für die Merkmale und 450 bezeichnet eine Datendatei für die Normierungsparame ter. In der Datendatei 100 für die Begriff-Dokument-Mat rizen ist eine Begriff-Dokument-Matrix aus gesammelten Daten des Dokuments gespeichert. Die Begriff-Dokument- Matrix-Aktualisierungseinrichtung 210 liest in einem ers ten Interationsprozeß die Begriff-Dokument-Matrix aus der Datendatei 100 für die Begriff-Dokument-Matrizen und überträgt die gelesene Begriff-Dokument-Matrix zur Basis vektor-Berechnungseinrichtung 220 und zur Merkmalsextrak tionseinrichtung 230 ohne die Begriff-Dokument-Matrix zu aktualisieren.

In einem zweiten Interationsprozeß und in den nachfolgen den Interationsprozessen wird die Begriff-Dokument-Matrix auf der Grundlage des von der Basisvektor-Berechnungsein richtung 220 übertragenen Basisvektors aktualisiert. Das Ergebnis der Aktualisierung wird zur Basisvektor-Berech nungseinrichtung 220 und zur Merkmalsextraktionseinrich tung 230 übertragen. Die Basisvektor-Berechnungseinrich tung 220 berechnet einen Basisvektor durch einen Wie derholungsprozeß, der auf der von der Begriff-Dokument- Matrix-Aktualisierungseinrichtung 210 übertragenen Be griff-Dokument-Matrix basiert. Dann wird der Grad der Va riation des Basisvektors in der jeweiligen Wiederholung überwacht, um den Wiederholungsprozeß abzuschließen, wenn der Grad der Variation kleiner als ein oder gleich einem vorgegebenen Bezugswert wird. Die Basisvektor-Berech nungseinrichtung 220 gespeichert den berechneten Basis vektor in der Datendatei 300 für die Basisvektoren, wobei sie im Zusammenhang damit den berechneten Basisvektor zur Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 und zur Merkmalsextraktionseinrichtung 230 überträgt. Die Merkmalsextraktionseinrichtung 230 extrahiert auf der Grundlage der von der Begriff-Dokument-Matrix-Aktualisie rungseinrichtung 210 übertragenen Begriff-Dokument-Matrix und des von der Basisvektor-Berechnungseinrichtung 220 übertragenen Basisvektors ein Merkmal aus jedem Dokument. Das Ergebnis wird in der Datendatei 400 für die Merkmale gespeichert, wobei außerdem die Parameter zum Normieren der Merkmale in der Datendatei 450 für die Normierungspa rameter gespeichert werden.

Die Ausführung der Begriff-Dokument-Matrix-Aktualisie rungseinrichtung 210, der Basisvektor-Berechnungseinrich tung 220 und der Merkmalsextraktionseinrichtung 230 wird als ein Interationsprozeß genommen. Die Anzahl der Inte rationsprozesse wird durch den Zusatz i angegeben, wobei die Anzahl der durch den Anwender bezeichneten Merkmale durch den Zusatz n angegeben wird. Die Merkmalsextrak tions-Steuereinrichtung 200 wiederholt den Prozeß, bis eine Bedingung i = n erfüllt ist. In einem Fall, in dem alle erforderlichen Basisvektoren und die erforderlichen Normierungsparameter bereits erhalten worden sind, können andererseits die Ausführung der Basisvektor-Berechnungs einrichtung 220 und die Berechnung der Normierungsparame ter in der Merkmalsextraktionseinrichtung 230 weggelassen werden. In einem derartigen Fall kann deshalb die Merk malsextraktions-Steuereinrichtung 200 mit der Begriff-Do kument-Matrix-Aktualisierungseinrichtung 210, die die be kannten Basisvektoren und Normierungsparameter enthält, und mit der Merkmalsextraktionseinrichtung 230 kon struiert sein.

Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer Hardware-Konstruktion zum Implementieren der vorliegenden Erfindung zeigt. Wie in Fig. 6 gezeigt ist, enthält die Merkmalsextraktionsvorrichtung die folgenden Komponenten:
eine Zentraleinheit (CPU) 10, die die Steuerung für die gesamte Vorrichtung ausführt,
einen Speicher 20 zum Speichern des Programms und zur Schaffung eines temporären Datenspeicherbereiches, der für die Ausführung des Programms erforderlich ist,
eine Tastatur 30 zum Eingeben der Daten, und
eine Anzeige 40 zum Erzeugen eines Anzeigebild schirms.

Die durch die Merkmalsextraktions-Steuereinrichtung 200 auszuführenden Programme, die Datendatei 100 für die Be griff-Dokument-Matrizen, die Datendatei 300 für die Ba sisvektoren, die Datendatei 400 für die Merkmale und die Datendatei 450 für die Normierungsparameter sind im Spei cher 20 gespeichert.

Durch die Verwendung dieser Konstruktionen wird die Merk malsextraktion durch die CPU 10 ausgeführt, die den Be fehl vom Anwender über die Tastatur 30, eine Maus, die auf eine gewünschte Position auf der Anzeige 40 zeigt, oder dergleichen empfängt. Es sollte angemerkt werden, daß in dem in Fig. 5 gezeigten Beispiel die Merkmals extraktions-Steuereinrichtung 200 eine eigenständige Kon struktion aufweist. Die Merkmalsextraktions-Steuerein richtung 200 kann jedoch in andere Systeme eingebaut sein.

Fig. 7 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Begriff-Dokument-Matrizen zeigt. In Fig. 7 entsprechen die Bezugszeichen 101-1, 101-2, . . ., 101-d den t-dimensionalen Begriff-Dokument-Daten A, die aus d Daten bestehen. Hier sind X = [x₁, x₂, . . ., x_d], x_j = [x_j1, x_j2, . . ., x_jt]' so definiert, daß sie die Be griff-Dokument-Daten A mit einer t × d-Matrix X ausdrü cken.

Fig. 8 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Basisvektoren zeigt, die die berechne ten Basisvektoren speichert. In Fig. 8 entsprechen die Bezugszeichen 301-1, 301-2, . . ., 301-n den t-dimensiona len Basisvektor-Daten B, die aus n Daten bestehen. Das i- te Element 301-i entspricht einem Ausgangswert der Basis vektor-Berechnungseinheit 220 im i-ten Interationsprozeß in Fig. 5. In der folgenden Offenbarung wird dieses Ele ment durch einen t × 1-Spaltenvektor w_i = [w_i1, w_i2, . . ., w_it]' ausgedrückt.

Fig. 9 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Merkmale zeigt. In Fig. 9 entsprechen die Bezugszeichen 401-1, 401-2, . . ., 401-n den d-dimen sionalen Merkmalsdaten C, die aus n Daten bestehen. Das i-te Element 401-i entspricht einem Ausgangswert des Merkmals von der Merkmalsextraktionseinrichtung 230 im i- ten Interationsprozeß in Fig. 5. Dieses Element wird durch einen 1 × d-Zeilenvektor y_i = [y_i1, y_i2, . . ., y_id] ausgedrückt.

Fig. 10 ist eine Veranschaulichung, die eine Struktur der Datendatei für die Normierungsparameter zeigt. In Fig. 10 entsprechen die Bezugszeichen 451-1, 451-2, . . ., 451-n den Normierungsparameter-Daten D, die aus n Daten beste hen. Das i-te Element 451-i entspricht einem Ausgangswert des Normierungsparameters von der Merkmalsextraktionsein richtung 230 im i-ten Interationsprozeß in Fig. 5.

Unter Verwendung der obigen Definitionen wird eine Imple mentierung der Merkmalsextraktion in der gezeigten Aus führungsform erklärt. Die Begriff-Dokument-Matrix-Aktua lisierungseinrichtung 210 liest X nur dann aus der Daten datei 100 für die Begriff-Dokument-Matrizen aus, wenn i = 1 gilt, nämlich im ersten Interationsprozeß, um in einer t × d-Matrix E zu speichern, ohne irgendeine arith metische Operation auszuführen. Demzufolge gilt E = [e₁, e₂, . . ., e_d], e_j = [e_j1, e_j2, . . ., e_jt]' = [x_j1, x_j2, . . ., x_jt]'. Um die redundante Extraktion der in den vorherge henden Interationsprozessen extrahierten Merkmale zu ver hindern, wird E in der i-ten Interation unter Verwendung des aktuellen Werts und des im unmittelbar vorhergehenden Interationsprozeß berechneten Basisvektors aktualisiert. Das Ergebnis der Aktualisierung wird zur Basisvektor-Be rechnungseinrichtung 220 übertragen. Ein Wert von E in der i-ten Interation, E(i), wird durch den folgenden Aus druck (5) ausgedrückt:

Hier gilt E(i) = [e_i(i), e₂(i), . . ., e_d(i)], wobei jedes Element e_j(i) von E(i) durch e_j(i) = [e_j1(i), e_j2(i), . . ., e_jt(i)]' definiert ist. Wenn nämlich i ≧ 2 gilt, wird die Begriff-Dokument-Matrix auf eine Differenz aktualisiert, die durch das Subtrahieren der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, von der Begriff- Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, hergeleitet wird.

Fig. 11 ist ein Ablaufplan, der die Berechnung des Basis vektors in der Basisvektor-Berechnungseinrichtung zeigt. In Fig. 11 wird ein Wert von w_i in der k-ten Wiederholung durch w_i(k) = [w_i1(k), w_i2(k), . . ., w_it(k)]' ausgedrückt. Zuerst wird im Schritt S500 der Zusatz k auf 1 initiali siert. Anschließend schreitet der Prozeß zum Schritt S510 fort, um das jeweilige Element von w_i(1) mit einem belie bigen Wert zwischen -C und C zu initialisieren. Hier kann der Wert von C ein positiver kleiner Wert sein, wie z. B. C = 0,01. Im Schritt S520 werden die Kosten zweiter Ord nung, die durch den folgenden Ausdruck (6) ausgedrückt sind, bereitgestellt, um den Basisvektor zu berechnen, der einen Merkmalsraum aufspannt, in dem sich wechselsei tig zugeordnete Dokumente und Begriffe nahe beieinander befinden.

Hier bedeutet "die Begriffe sind in der Nähe angeordnet", daß die Positionen der Begriffe innerhalb eines Merkmals raums nahe beieinander liegen, während "die Dokumente sind in der Nähe angeordnet" bedeutet, daß die Positionen der Begriffe, die in den jeweiligen Dokumenten enthalten sind, im Merkmalsraum dicht liegen. Andererseits ist mit den Kosten ein zu minimierender Gegenstand gemeint. In der gezeigten Ausführungsform sind die Kosten als eine Funktion zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert, wie durch den Ausdruck (6) ausgedrückt ist. Hier ist im m-te Element eines 1 × d-Vektors _i, der wie folgt definiert ist:

Für die Kosten wird das Verfahren des steilsten Abfalls angewendet, um den Wert von w_i zu aktualisieren, wie durch den folgenden Ausdruck (8) ausgedrückt ist.

Hier ist µ_i(k) ein Aktualisierungsverhältnis, das den Grad des Aktualisierens in der k-ten Wiederholung steu ert, die durch einen positiven kleinen Wert initialisiert wird, wenn k gleich 1 ist, wie z. B. µ_i (1) = 0,1. Jedes mal, wenn k inkrementiert wird, wird der Wert allmählich verkleinert. In der Alternative ist es außerdem möglich, den Wert auf einen konstanten Wert unabhängig von k zu setzen. Andererseits ist z_i(k) wie folgt definiert:

z_i(k) = w_i(k)'E(i) (9)

Im Schritt S530 wird δ_i(k), das den Grad der Variation von w_i angibt, wie folgt hergeleitet:

Im Schritt S540 wird auf der Grundlage des Wertes δ_i(k) eine Beurteilung getroffen, ob der Prozeß abzuschließen ist. Falls im Ergebnis der Beurteilung der Abschluß be stimmt wird, schreitet der Prozeß zum Schritt S560 fort, während ansonsten der Prozeß zum Schritt S550 fortschrei tet. Hier in Fig. 11 ist β_i ein positiver kleiner Wert, wie z. B. β_i = 1 × 10^-6.

Im Schritt S550 wird der Wert des Zählers k um 1 inkre mentiert. Dann kehrt der Prozeß zum Schritt S520 zurück. Im Schritt S560 wird w_i als die i-ten Daten der Datenda tei 300 für die Basisvektoren gespeichert. Zum gleichen Zeitpunkt wird w_i zur Begriff-Dokument-Matrix-Aktualisie rungseinrichtung 210 und zur Merkmalsextraktionseinrich tung 230 übertragen. In der Merkmalsextraktionseinrich tung 230 werden das Merkmal y_i und der Normierungsparame ter p_i in der folgenden Weise berechnet.

y_i = _i/p_i (11)

Hier ist p_i wie folgt definiert:

Das Merkmal y_i und der Normierungsparameter p_i werden je weils in der Datendatei 400 für die Merkmale und in der Datendatei 450 für die Normierungsparameter als die i-ten Daten gespeichert.

Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei nes automatischen Systems für die Klassifizierung von Do kumenten zeigt, das die gezeigte Ausführungsform der Merkmalsextraktionsvorrichtung verwendet. In Fig. 12 be zeichnet das Bezugszeichen 601 die Begriff-Dokument-Mat rix-Berechnungseinrichtung, während 602 Klassifizierungs einrichtung bezeichnet. Die Klassifizierungseinrichtung 602 kann durch ein Verfahren implementiert sein, das in "Journal of Intelligent and Fuzzy Systems", 1993 veröf fentlicht, Bd. 1, Nr. 1, S. 1 bis 25, offenbart ist.

Die in der Dokumentendatenbank E gespeicherten Daten der Dokumente werden in dem automatischen System 600 für die Klassifizierung von Dokumenten genommen. Im automatischen System 600 für die Klassifizierung von Dokumenten wird eine Begriff-Dokument-Matrix in der Begriff-Dokument-Mat rix-Berechnungseinrichtung 601 hergeleitet. Das Ergebnis der Berechnung der Begriff-Dokument-Matrix wird zur Merk malsextraktions-Steuereinrichtung 200 übertragen. Die Merkmalsextraktions-Steuereinrichtung 200 extrahiert die Merkmale aus der empfangenen Begriff-Dokument-Matrix. Das extrahierte Ergebnis wird an die Klassifizierungseinrich tung 602 ausgegeben. In der Klassifizierungseinrichtung 602 wird das Ergebnis der Klassifizierung auf der Grund lage der Eingangsmerkmale ausgegeben.

Um die vorliegende Erfindung zu bewerten, wurde die Merk malsextraktion von konkreten Daten eines Dokuments in be zug auf das System der Aufnahmeprüfung ausgeführt. Es ist bestätigt worden, daß die vorliegende Erfindung die Merk male der gleichen Natur wie diejenigen, die unter Verwen dung der herkömmlichen LSA extrahiert wurden, extrahieren konnte.

Hinsichtlich der Größe des Speicherraums erfordert in ei nem typischen praktischen Fall, in dem die Anzahl der Begriffe t signifikant größer ist als die Anzahl der Do kumente d (t » d), die herkömmliche LSA in der Größenord nung von t² des Speicherraums, während die vorliegende Erfindung lediglich Speicherraum in der Größenordnung von t . d zum Berechnen der entsprechenden Basisvektoren er fordert. Außerdem ist eine komplizierte Vorrichtung für Matrizenoperationen erforderlich, um den Stand der Tech nik zu verwirklichen. Das System gemäß Erfindung kann je doch leicht mit einer Vorrichtung verwirklicht werden, die einfache arithmetische Operationen ausführt. Gemäß der vorliegenden Erfindung kann die LSA-Merkmalsextrak tion nämlich unter Verwendung eines kleineren Speicher raums und eines einfacheren Programms ausgeführt werden. Außerdem kann dieses einfache Programm in einem digitalen Signalprozessor (DSP) geladen werden. Deshalb kann ein spezifischer Chip für die Merkmalsextraktion leicht her gestellt werden.

Im folgenden werden die Ergebnisse der jeweiligen Ein richtungen, die die gezeigte Ausführungsform der Merk malsextraktionsvorrichtung ausführen, für die Dokumente nach Fig. 1 und die Frage nach Fig. 3 gezeigt.

A. Die Dokumente nach Fig. 1

Zuerst bezeichnet X die Begriff-Dokument-Matrix nach Fig. 2.

I. Die erste Iteration in der Merkmalsextraktions-Steuer einrichtung 200 (i = 1)

Entsprechend dem obigen Ausdruck (5) gibt die Begriff-Do kument-Matrix-Aktualisierungseinrichtung 210 E(1), ausge drückt durch den folgenden Ausdruck, an die Basisvektor- Berechnungseinrichtung 220 und die Merkmalsextraktions einrichtung 230 aus.

In der Basisvektor-Berechnungseinrichtung 220 wird die Initialisierung mit dem Setzen des Basisvektors w₁(1) auf [0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ₁ auf einen festen Wert 0,1 und von β₁ auf 1 × 10^-6 ausgeführt. Die in Fig. 11 gezeigte Berechnung wird 132mal ausge führt. Dann wird der Basisvektor w₁ = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]' in der Datendatei 300 für die Basisvek toren gespeichert und an die Merkmalsextraktionseinrich tung 230 und an die Begriff-Dokument-Matrix-Aktualisie rungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)

Aus dem obigen Ausdruck (8) folgt
w₁(2) = [0,0103, -0,0097, 0,0103, 0,0093, 0,0107, -0,0103, 0,0097, -0,0100, 0,0100, -0,0103, 0,0103]'.
w₁(2) - w₁(1) = 10^-3 × [0,3332, 0,3334, 0,3332, 0,6668, 0,6666, -0,3332, -0,3334, 0,0001, -0,0001, -0,3332, 0,3332]'
d₁(1) = 0,0103
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)

Aus dem obigen Ausdruck (8) folgt
w₁(3) = [0,0107, -0,0093, 0,0107, -0,0085, 0,0115, -0,0107, 0,0093, -0,0100, 0,0100, -0,0107, 0,0107]'.
w₁(3) -w₁(2) = 10^-3 × [0,4110, 0,4112, 0,4110, 0,8001, 0,7998, -0,3665, -0,3668, 0,0224, 0,0221, -0,3665, 0,3887]'
δ₁(2) = 0,0015
- gekürzt -
* Die 132. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 132)

Aus dem obigen Ausdruck (8) folgt
w₁(133) = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]'.
w₁(133) - w₁(132) = 10^-6 × [-0,3020, -0,3020, -0,3020, -0,3020, -0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,0000]'
δ₁(132) = 9,5500 × 10^-7

In der Merkmalsextraktionseinrichtung 230 werden die in den Ausdrücken (11) und (12) gezeigten Operationen ausge führt, um:
y₁ = [0,5000, 0,5000, 0,7071]
und
p₁ = 2,7979
an die Datendatei 400 für die Merkmale und an die Daten datei 450 für die Normierungsparameter auszugeben.

II. Die zweite Iteration in der Merkmalsextraktions-Steu ereinrichtung 200 (i = 2)

In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird aus dem obigen Ausdruck (5) E(2), ausgedrückt wie folgt, an die Basisvektor-Berechnungseinrichtung 220 und die Merkmalsextraktionseinrichtung 230 ausgegeben:

In der Basisvektor-Berechnungseinrichtung 220 wird die Initialisierung mit dem Setzen des Basisvektors w₂(1) auf [0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ₂ auf einen festen Wert 0,1 und von β₂ auf 1 × 10^-6 ausgeführt. Die in Fig. 11 gezeigte Berechnung wird 119mal ausge führt. Dann wird der Basisvektor w₂ = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]' in der Datendatei 300 für die Basisvektoren gespeichert und an die Merkmalsextraktions einrichtung 230 und an die Begriff-Dokument-Matrix-Aktua lisierungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)

Aus dem obigen Ausdruck (8) folgt
w₂(2) = [0,0102, -0,0098, 0,0102, -0,0096, 0,0104, -0,0105, 0,0095, -0,0103, 0,0097, -0,0105, 0,0102]'.
w₂(2) - w₂(1) = 10^-3 × [0,2154, 0,2156, 0,2154, 0,3822, 0,3821, -0,4511, -0,4513, -0,2844, -0,2846, -0,4511, 0,1666] '
δ₂(1) = 0,0011
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)

Aus dem obigen Ausdruck (8) folgt
w₂(3) = [0,0105, -0,0095, 0,0105, -0,0092, 0,0108, -0,0110, 0,0090, -0,0106, 0,0094, -0,0110, 0,0103]'.
w₂(3) - w₂(2) = 10^-3 × [0,2624, 0,2626, 0,2624, 0,4413, 0,4411, -0,5152, -0,5154, -0,3364, -0,3366, -0,5152, 0,1786] '
δ₂(2) = 0, 0013
- gekürzt -
* Die 119. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 119)

Aus dem obigen Ausdruck (8) folgt
w₂(120) = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]'.
w₂(120) - w₂(119) = 10^-6 × [0,3327, 0,3333, 0,3327, -0,1375, -0,1381, 0,3332, 0,3326, -0,1377, -0,1383, 0,3332, 0,4712]'
δ₂(119) = 9, 8141 × 10^-7

In der Merkmalsextraktionseinrichtung 230 werden die in den Ausdrücken (11) und (12) gezeigten Operationen ausge führt, um:

y₂ = [0,7071, -0,7071, -0,0000]

und

p₂ = 2,2361

an die Datendatei 400 für die Merkmale und an die Daten datei 450 für die Normierungsparameter auszugeben.

Aus den oben dargelegten Ergebnissen folgt, daß die Merk malsvektoren der Dokumente 1, 2 und 3 in Fig. 1 jeweils [0,5000, 0,7071]', [0,5000, -0,7071], [0,7071, -0,0000] lauten. Im Vergleich mit den Merkmalen der LSA der ent sprechenden Dokumente, die bei der Erklärung des Standes der Technik gezeigt sind, besitzt das zweite Element je des Vektors das entgegengesetzte Vorzeichen, es besitzt aber den gleichen Absolutwert. Demzufolge besitzen sie hinsichtlich der Berechnung der Ähnlichkeit im Ausdruck (2) die gleiche Natur wie die Merkmale der LSA.

B. Die Frage nach Fig. 3

Hier werden die in der Datendatei 300 für die Basisvekto ren gespeicherten Basisvektoren und die in der Datendatei 450 für die Normierungsparameter speicherten Normierungs parameter während der Extraktion der Merkmale aus den Do kumenten nach Fig. 1 verwendet. Dadurch wird die Ausfüh rung der Basisvektor-Berechnungseinrichtung 220 und die Berechnung der Normierungsparameter in der Merkmalsex traktionseinrichtung 230 weggelassen. Bei X die Begriff- Dokument-Matrix nach Fig. 4.

I. Die erste Iteration in der Merkmalsextraktionseinrich tung 200 (i = 1)

In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird E(1), aus dem obigen Ausdruck (5) ausgedrückt wie folgt, an die Merkmalsextraktionseinrichtung 230 aus gegeben.

In der Merkmalsextraktionseinrichtung 230 wird die arith metische Operation entsprechend den obigen Ausdrücken (11) und (12) unter Verwendung des Merkmalsvektors w₁ und des Normierungsparameters p₁, die nach der Extraktion der Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden, ausgeführt, um

y₁ = [0,6542]

an die Datendatei 400 für die Merkmale auszugeben.

II. Die zweite Iteration in der Merkmalsextraktions-Steu ereinrichtung 200 (i = 2)

In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210 wird unter Verwendung des nach der Ausführung der Merkmalsextraktion aus den in Fig. 1 gezeigten Dokumenten erhaltenen Merkmalsvektors w₁ aus der obigen Gleichung (5) E(2), ausgedrückt wie folgt, an die Merkmalsextrak tionseinrichtung 230 ausgegeben.

In der Merkmalsextraktionseinrichtung 230 wird die arith metische Operation entsprechend den obigen Ausdrücken (11) und (12) unter Verwendung des Merkmalsvektors w₂ und des Normierungsparameters p₂, die nach der Extraktion der Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden, ausgeführt, um

y₂ = [-0,0000]

an die Datendatei 400 für die Merkmale auszugeben.

Aus dem oben dargelegten Ergebnis wird der Merkmalsvektor der Frage nach Fig. 3 [0,6542, -0,0000]', wobei im Ver gleich zu dem im Stand der Technik erklärten Wert das zweite Element den gleichen Absolutwert aufweist.

Die vorliegende Erfindung ist in bezug auf bevorzugte Ausführungsformen ausführlich beschrieben worden. Aus dem obigen wird nun für die Fachleute offensichtlich sein, daß Änderungen und Modifikationen ausgeführt werden kön nen, ohne von der Erfindung in ihrem breiteren Aspekt ab zuweichen. Es besteht deshalb die Absicht, daß die offen sichtlichen Ansprüche alle derartigen Änderungen und Mo difikationen abdecken, wie sie in den wahren Erfindungs gedanken der Erfindung fallen.

Claims

1. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten unter Verwendung einer Begriff-Doku ment-Matrix, die aus Vektoren besteht, die den Indexbe griffen entsprechen, die die Inhalte der Dokumente dar stellen, wobei die Beiträge der Indexbegriffe auf ent sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.

2. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 1, wobei die Kosten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert sind.

3. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 2, wobei der Basisvek tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.

4. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 3, wobei der Basisvek tor-Aktualisierungsschritt den Basisvektor unter Verwen dung eines aktuellen Wertes des Basisvektors, der Be griff-Dokument-Matrix und eines Aktualisierungsverhält nisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.

5. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 4, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

6. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 3, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

7. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 2, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

8. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 1, wobei der Basisvek tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.

9. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 8, wobei der Basisvek tor-Aktualisierungsschritt den Basisvektor unter Verwen dung eines aktuellen Wertes des Basisvektors, der Be griff-Dokument-Matrix und eines Aktualisierungsverhält nisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.

10. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 9, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

11. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 8, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

12. Textfilterungsverfahren zum Extrahieren von Merk malen aus Dokumenten nach Anspruch 1, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extra hieren der Merkmale erforderlich sind, bereits erhalten worden sind, die Berechnung der Normierungsparameter im Basisvektor-Berechnungsschritt und die Ausführung des Merkmalsextraktionsschritts weggelassen werden, wobei der Merkmalsextraktionsschritt die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

13. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten unter Verwendung einer Begriff- Dokument-Matrix, die aus Vektoren besteht, die den Index begriffen entsprechen, die die Inhalte des Dokuments dar stellen, wobei die Beiträge der Indexbegriffe auf ent sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei die Vorrichtung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.

14. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei die Kos ten als Kosten zweiter Ordnung des Unterschieds zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist, definiert sind.

15. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 14, wobei die Ba sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.

16. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 15, wobei die Ba sisvektor-Aktualisierungseinrichtung den Basisvektor un ter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument-Matrix und eines Aktualisierungsver hältnisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.

17. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 16, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren des Merkmals erforderlich sind, bereits er halten worden sind, die Berechnung der Normierungsparame ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor mierungsparameter extrahiert, die bereits erhalten worden sind.

18. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 15, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er halten worden sind, die Berechnung der Normierungsparame ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor mierungsparameter extrahiert, die bereits erhalten worden sind.

19. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 14, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er halten worden sind, die Berechnung der Normierungsparame ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor mierungsparameter extrahiert, die bereits erhalten worden sind.

20. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei die Ba sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.

21. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 20, wobei die Ba sisvektor-Aktualisierungseinrichtung den Basisvektor un ter Verwendung eines aktuellen Wertes des Basisvektors, der Begriff-Dokument-Matrix und eines Aktualisierungsver hältnisses, das den Aktualisierungsgrad des Basisvektors steuert, aktualisiert.

22. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten bei der Textfilterung nach An spruch 21, wobei, wenn alle Basisvektoren und Normie rungsparameter, die beim Extrahieren des Merkmals erfor derlich sind, bereits erhalten worden sind, die Berech nung der Normierungsparameter durch die Basisvektor-Be rechnungseinrichtung und die Ausführung der Merkmalsex traktionseinrichtung weggelassen werden, wobei die Merk malsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Normierungsparameter extra hiert, die bereits erhalten worden sind.

23. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 20, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er halten worden sind, die Berechnung der Normierungsparame ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor mierungsparameter extrahiert, die bereits erhalten worden sind.

24. Textfilterungsvorrichtung zum Extrahieren von Merkmalen aus Dokumenten nach Anspruch 13, wobei, wenn alle Basisvektoren und Normierungsparameter, die beim Extrahieren der Merkmale erforderlich sind, bereits er halten worden sind, die Berechnung der Normierungsparame ter durch die Basisvektor-Berechnungseinrichtung und die Ausführung der Merkmalsextraktionseinrichtung weggelassen werden, wobei die Merkmalsextraktionseinrichtung die Merkmale unter Verwendung der Basisvektoren und der Nor mierungsparameter extrahiert, die bereits erhalten worden sind.

25. Computer-Programmprodukt für die Ausführung in einer Textfilterungsvorrichtung zum Extrahieren von Merk malen aus Dokumenten unter Verwendung einer Begriff-Doku ment-Matrix, die aus Vektoren besteht, die den Indexbe griffen entsprechen, die die Inhalte der Dokumente dar stellen, wobei die Beiträge der Indexbegriffe auf ent sprechende Elemente der Begriff-Dokument-Matrix wirken, wobei das Computer-Programmprodukt umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.