DE10125011A1 - Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten - Google Patents
Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus DokumentenInfo
- Publication number
- DE10125011A1 DE10125011A1 DE10125011A DE10125011A DE10125011A1 DE 10125011 A1 DE10125011 A1 DE 10125011A1 DE 10125011 A DE10125011 A DE 10125011A DE 10125011 A DE10125011 A DE 10125011A DE 10125011 A1 DE10125011 A1 DE 10125011A1
- Authority
- DE
- Germany
- Prior art keywords
- base vector
- features
- extracting
- document matrix
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Hinsichtlich der Merkmalsextraktion von Dokumenten bei der Textfilterung werden ein Verfahren und eine Vorrichtung zum Extrahieren von Merkmalen geschaffen, die die gleiche Natur wie die der LSA aufweisen, wobei sie einen kleineren Speicherraum und ein einfacheres Programm und eine einfachere Vorrichtung als die Vorrichtung zum Ausführen der LSA erfordern. Die Merkmale jedes Dokuments werden durch die Merkmalsextraktionseinrichtung auf der Grundlage einer Begriff-Dokument-Matrix, die durch die Begriff-Dokument-Aktualisierungseinrichtung aktualisiert wird, und eines Basisvektors, der einen Raum der effektiven Merkmale aufspannt und der durch die Basisvektor-Berechnungseinrichtung berechnet wird, extrahiert. Die Ausführung der entsprechenden Einrichtungen wird wiederholt, bis eine durch einen Anwender gegebene vorgegebene Anforderung erfüllt ist.
Description
Die vorliegende Erfindung bezieht sich auf ein Verfahren
und eine Vorrichtung für die Textfilterung, um Merkmale
aus Dokumenten zu extrahieren. Insbesondere bezieht sich
die Erfindung auf ein Verfahren und eine Vorrichtung für
die Textfilterung, um Merkmale aus Dokumenten zu extra
hieren, wobei die Merkmale so extrahiert werden, daß alle
wechselseitig zugeordneten Dokumente und Begriffe im
Merkmalsraum nahe beieinander angeordnet werden. Die An
wendungen der Erfindung umfassen die Dokumentensuche
und/oder die Netzsuche, die Suche zugeordneter Begriffe
und die Klassifizierung von Dokumenten.
Bei der Textfilterung als einer Technologie, um durch das
Ausführen einer Analyse der Textdaten das gewünschte Wis
sen oder die gewünschten Informationen herauszupressen,
ist die effektive Merkmalsextraktion aus den Dokumenten
eine wichtige Aufgabe für das effiziente Ausführen der
Dokumenten- und/oder Netzsuche, das Suchen zugeordneter
Begriffe, der Klassifizierung von Dokumenten usw. Als ein
typisches Verfahren zum Extrahieren der Merkmale eines
Dokumentes wird das Modell des Vektorraums häufig verwen
det, wie es auf S. 313 in "Automatic Text Processing"
(Addison-Wesley, 1989) dargelegt ist.
Im Modell des Vektorraums wird ein Vektor Vi verwendet,
so daß er einem Indexbegriff Ti entspricht, um einen t-
dimensionalen Vektorraum zu definieren, wenn die Anzahl
der Begriffe, die als Indizes in den Dokumenten ausge
wählt werden, nämlich als Indexbegriffe, wie die Inhalte
der Dokumente darstellen, t beträgt. Alle Vektoren, die
auf diese Weise den definierten Vektorraum bilden, können
als eine Linearkombination aus einer Anzahl t Vektoren
ausgedrückt werden, die der Anzahl t der Indexbegriffe
entspricht. In diesem Vektorraum wird ein Dokument Dr wie
folgt ausgedrückt:
Im vorangehenden Ausdruck (1) ist xir, das auf Vi wirkt,
der Beitrag des Indexbegriffs Ti zum Dokument Dr, wobei
er ein Merkmal des Dokuments darstellt. Das Merkmal ist
eine Menge, die die Begriffshäufigkeit des Indexbegriffs
im Dokument darstellt. Ein Vektor [xr1, xr2, . . ., xrt]'
aus t × 1 (t Zeilen und eine Spalte) wird ein Merkmals
vektor des Dokuments Dr. Als der einfachste Fall ist xir
auf 1 gesetzt, wenn der Indexbegriff Ti im Dokument Dr
auftritt. Wenn der Indexbegriff Ti nicht im Dokument Dr
auftritt, wird xir auf 0 gesetzt. In einem komplizierte
ren Fall, wie er in der obigen Veröffentlichung auf den
Seiten 279 bis 280 dargelegt ist, werden zwei Größen ver
wendet. Diese zwei Größen sind eine Begriffshäufigkeit
tfri des Indexbegriffs Ti im Dokument Dr und eine Doku
mentenhäufigkeit dfi der Dokumente, die den Indexbegriff
Ti enthalten, in allen in der Dokumentendatenbank regist
rierten Dokumenten.
Für die Gruppe der Dokumente, die aus einer Anzahl d Do
kumenten besteht, kann eine t × d-Begriff-Dokument-Matrix
X wie folgt definiert werden:
X = [x1, x2, . . ., xd]
Hier drückt ein t-dimensionaler Vektor xj = [xj1, xj2,
. . ., xjt]' den Merkmalsvektor des Dokuments Dj aus, wobei
ein ' (Strich) die Inversion der Matrix darstellt.
Fig. 1 ist eine Veranschaulichung, die ein Beispiel von
aus japanischen Sätzen übersetzten Dokumenten zeigt, die
in einer Dokumentendatenbank registriert sind, wobei "Ro
nin" ein latinisiertes Wort ist, mit dem Studenten ge
meint sind, die durch die Aufnahmeprüfung der Universität
eines speziellen akademischen Jahrs gefallen sind und die
sich auf ein nächstes Jahr vorbereiten. Fig. 2 ist eine
Veranschaulichung, die ein Beispiel einer Begriff-Doku
ment-Matrix zeigt, die die Kanji-Zeichen (die chinesi
schen Zeichen), die in den in Fig. 1 gezeigten Dokumenten
auftreten, als Indexbegriffe verwendet. Die Kanji-Be
griffe sind in Fig. 1 unterstrichen. In Fig. 2 ist bei
einer Zeichenfolge "let me know about", die in allen Do
kumenten 1 bis 3 auftritt, der Kanji-Begriff "know" aus
den Indexbegriffen gestrichen. Fig. 3 ist eine Veran
schaulichung, die ein Beispiel einer tatsächlich von ei
nem Anwender eingegebenen, aus dem japanischen übersetz
ten Frage zeigt, in der die Kanji-Begriffe unterstrichen
sind. Falls die Indexbegriffe nach Fig. 2 verwendet wer
den, um die Frage auszudrücken, kann die Frage mit der in
Fig. 4 gezeigten Begriff-Dokument-Matrix ausgedrückt wer
den.
Wenn das Modell des Vektorraums verwendet wird, kann im
allgemeinen die Ähnlichkeit sim(Dr, Ds) von zwei Dokumen
ten Dr und Ds wie folgt ausgedrückt werden:
Wenn die Ähnlichkeit der Frage mit jedem Dokument nach
Fig. 1 auf der Grundlage der Bedeutung der Frage nach
Fig. 3 beurteilt wird, ist die Frage nach Fig. 3 am ähn
lichsten zum Dokument 3 nach Fig. 1. Unter Verwendung der
Merkmalsvektoren, wie sie in den Fig. 2 und 4 gezeigten
sind, beträgt jedoch die Ähnlichkeit jedes Dokuments nach
Fig. 1 mit der Frage nach Fig. 3 jeweils
sim(Dokument 1, Frage) = 0,5477,
sim(Dokument 2, Frage) = 0,5477,
sim(Dokument 3, Frage) = 0,5477. Kurz, alle haben die
gleiche Ähnlichkeit.
Als eine Lösung für ein derartiges Problem wurde ein als
latente semantische Analyse (LSA) bezeichnetes Verfahren
im "Journal of the American Society for Information
Science", 1990, Bd. 41, Nr. 6, S. 391 bis 407 vorgeschla
gen. Dieses Verfahren extrahiert die latente Bedeutung
der Dokumente auf der Grundlage des gemeinsamen Auftre
tens von Begriffen, wobei es hinsichtlich des Suchwir
kungsgrades signifikant herausragend ist. Hier stellt das
"gemeinsame Auftreten von Begriffen" eine Situation dar,
in der Begriffe gleichzeitig in den gleichen Dokumen
ten/Aussagen auftreten.
Die LSA extrahiert eine latente semantische Struktur der
Dokumente durch das Ausführen einer Zerlegung nach singu
lären Werten (SVD) der Begriff-Dokument-Matrix. Im erhal
tenen Merkmalsraum befinden sich wechselseitig zugeord
nete Dokumente und Begriffe nahe beieinander. In einem
Bericht in "Behavior Research Methods Instruments & Com
puters", (1991), Bd. 23, Nr. 2, S. 229 bis 236 gibt eine
Suche unter Verwendung der LSA ein Ergebnis mit im Ver
gleich zum Modell des Vektorraums 30% höheren Wirkungs
grad an. Die LSA wird im folgenden ausführlicher erklärt.
Bei der LSA wird zuerst einer Zerlegung nach singulären
Werten für die t × d-Begriff-Dokument-Matrix X ausge
führt, wie im folgenden dargelegt ist.
X = T0S0D0' (3)
Hier stellt T0 eine orthogonale t × m-Matrix dar, S0
stellt eine quadratische m × m-Diagonalmatrix dar, wobei
die m singulären Werte als Diagonalelemente genommen wer
den, während die anderen Elemente auf 0 gesetzt sind. D0'
stellt eine orthogonale m × d-Matrix dar. Es wird außer
dem angenommen, daß 0 ≦ d ≦ t gilt, und daß die orthogo
nalen Elemente von S0 in absteigender Reihenfolge ange
ordnet sind.
Außerdem wird bei der LSA in bezug auf den
t × 1-Merkmalsvektor xq eines Dokuments Dq die folgende
Umsetzung ausgeführt, um einen n × 1-LSA-Merkmalsvektor
yq herzuleiten:
yq = S-1T' xq (4)
Hier ist S eine quadratische n × n-Diagonalmatrix, wobei
das erste bis n-te Diagonalelement von S0 genommen wer
den, während T eine t × n-Matrix ist, die die erste bis
n-te Spalte von T0 darstellt.
Als ein Beispiel sind die Ergebnisse der Zerlegung nach
singulären Werten der in Fig. 2 gezeigten Begriff-Doku
ment-Matrix im folgenden gezeigt. Die Matrizen T0, S0 und
D0 sind wie folgt ausgedrückt:
Es wird angenommen, daß die Dimension t der LSA-Merkmals
vektoren 2 beträgt, wobei der obige Ausdruck (4) auf je
den Merkmalsvektor der Begriff-Dokument-Matrix in Fig. 2
angewendet wird. Dann lauten die LSA-Merkmalsvektoren der
Dokumente 1, 2 und 3 jeweils [0,5000, -0,7071]',
[0,5000, 0,7071]' und [0,7071, 0,0000]'. Durch das Anwen
den des obigen Ausdrucks (4) auf den Merkmalsvektor nach
Fig. 4 wird außerdem der LSA-Merkmalsvektor der Frage vom
Anwender [0,6542, 0]'.
Durch das Anwenden des obigen Ausdrucks (2) auf die wie
oben dargelegt erhaltenen LSA-Merkmalsvektoren werden die
Ähnlichkeiten der Frage nach Fig. 3 mit jedem Dokument
nach Fig. 1 jeweils sim(Dokument 1, Frage) = 0,5774,
sim(Dokument 2, Frage) = 0,5774,
sim(Dokument 3, Frage) = 1,0000. Folglich kann ein Ergeb
nis erhalten werden, daß das Dokument 3 die höchste Ähn
lichkeit mit der Frage aufweist. Wird eine Anwendung als
Hilfesystem oder dergleichen betrachtet, die Computer-
Netze verwendet, wird eine Antwortaussage des Dokuments
3, das in der Dokumentendatenbank registriert ist, an den
Anwender zurückgeschickt, der die Frage nach Fig. 3 ge
stellt hat.
Für die Zerlegung nach singulären Werten wird häufig ein
Algorithmus verwendet, der in "Matrix Computations", The
Johns Hopkins University Press, 1996, S. 455 bis 457 vor
geschlagen wird. In dem oben dargelegten Bericht des
"Journal of the American Society for Information Science"
gibt es eine Aussage, daß der Wert n der Anzahl der Zei
len (oder Spalten) der quadratischen Matrix S vorzugs
weise etwa 50 bis 150 beträgt. Außerdem ist in den obigen
Bericht aus "Behavior Research Methods, Instruments, &
Computers" angegeben worden, daß durch die Vorverarbei
tung unter Verwendung der Begriffshäufigkeit oder der Do
kumentenhäufigkeit anstatt des einfachen Setzens jedes
Elements des Merkmalsvektors auf 0 oder 1 vor dem Ausfüh
ren der LSA ein besserer Wirkungsgrad erreicht werden
kann.
Bei dem im obigen "Matrix Computations" vorgeschlagenen
Algorithmus für die Zerlegung nach singulären Werten ist
jedoch Speicherraum in der Größenordnung des Quadrats der
Anzahl der Indexbegriffe t (t2) als Minimum erforderlich.
Dies ist so, weil eine t × t-Matrix für die Bidiagonali
sierung einer Matrix im Prozeß der Berechnung der Basis
vektoren, die einen Merkmalsraum aufspannen, aus einer
gegebenen Begriff-Dokument-Matrix verwendet wird. Der
Stand der Technik ist deshalb nicht auf einer Dokumenten
datenbank anwendbar, die eine sehr große Anzahl an Be
griffen und Daten enthält. Außerdem erfordert der Stand
der Technik unabhängig von der Anzahl der Daten kompli
zierte Matrixoperationen.
Die vorliegend Erfindung ist mit Blick auf die oben dar
gelegten Probleme ausgearbeitet worden. Es ist deshalb
eine Aufgabe der vorliegenden Erfindung, ein Verfahren
für die Textfilterung zu schaffen, um Merkmale aus Doku
menten zu extrahieren, das den arithmetischen Prozeß ver
einfachen, die von dem arithmetischen Prozeß benötigte
Speichermenge verringern und die Merkmale effizient ext
rahieren kann.
Um die obenerwähnte Aufgabe zu lösen, wird in einem ers
ten Aspekt der vorliegenden Erfindung ein Textfilterungs
verfahren zum Extrahieren von Merkmalen aus Dokumenten
unter Verwendung einer Begriff-Dokument-Matrix geschaf
fen, die aus Vektoren besteht, die den Indexbegriffen
entsprechen, die die Inhalte der Dokumente darstellen. In
der Begriff-Dokument-Matrix wirken die Beiträge der In
dexbegriffe zu jedem Dokument auf entsprechende Elemente
der Begriff-Dokument-Matrix. Das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
In einem zweiten Aspekt der vorliegenden Erfindung wird
ein Textfilterungsverfahren zum Extrahieren von Merkmalen
aus Dokumenten nach Anspruch 1 geschaffen. In dem ge
schaffenen Verfahren sind die Kosten als Kosten zweiter
Ordnung des Unterschieds zwischen der Begriff-Dokument-
Matrix, auf die der Basisvektor nicht angewendet ist, und
der Begriff-Dokument-Matrix, auf die der Basisvektor an
gewendet ist, definiert.
In einem dritten Aspekt der vorliegenden Erfindung wird
ein Textfilterungsverfahren zum Extrahieren von Merkmalen
aus Dokumenten nach Anspruch 2 geschaffen. Im geschaffe
nen Verfahren umfaßt der Basisvektor-Berechnungsschritt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Ak tualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung der Variation des Basisvektors eine Beurteilung ge troffen wird, ob ein Wiederholungsprozeß abzuschließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Ak tualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung der Variation des Basisvektors eine Beurteilung ge troffen wird, ob ein Wiederholungsprozeß abzuschließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
In einem vierten Aspekt der vorliegenden Erfindung wird
ein Textfilterungsverfahren zum Extrahieren von Merkmalen
aus Dokumenten nach Anspruch 3 geschaffen. In dem ge
schaffenen Verfahren aktualisiert der Basisvektor-Aktua
lisierungsschritt den Basisvektor unter Verwendung eines
aktuellen Wertes des Basisvektors, der Begriff-Dokument-
Matrix und eines Aktualisierungsverhältnisses, das den
Aktualisierungsgrad des Basisvektors steuert.
In einem fünften Aspekt der vorliegenden Erfindung wird
ein Textfilterungsverfahren zum Extrahieren von Merkmalen
aus Dokumenten nach Anspruch 4 geschaffen. In dem ge
schaffenen Verfahren werden, wenn alle Basisvektoren und
Normierungsparameter, die beim Extrahieren der Merkmale
erforderlich sind, bereits erhalten worden sind, die Be
rechnung der Normierungsparameter im Basisvektor-Berech
nungsschritt und die Ausführung des Merkmalsextraktions
schritts weggelassen. Außerdem extrahiert der Merkmalsex
traktionsschritt die Merkmale unter Verwendung der Basis
vektoren und der Normierungsparameter, die bereits erhal
ten worden sind.
In einem sechsten Aspekt der vorliegenden Erfindung wird
eine Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten unter Verwendung einer Begriff-Doku
ment-Matrix geschaffen, die aus Vektoren besteht, die den
Indexbegriffen entsprechen, die die Inhalte der Dokumente
darstellen. In der Begriff-Dokument-Matrix wirken die
Beiträge der Indexbegriffe zu jedem Dokument auf entspre
chende Elemente der Begriff-Dokument-Matrix. Die Vorrich
tung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
In einem siebenten Aspekt der vorliegenden Erfindung wird
eine Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 13 geschaffen. In der
geschaffenen Vorrichtung sind die Kosten als Kosten zwei
ter Ordnung des Unterschieds zwischen der Begriff-Doku
ment-Matrix, auf die der Basisvektor nicht angewendet
ist, und der Begriff-Dokument-Matrix, auf die der Basis
vektor angewendet ist, definiert.
In einem achten Aspekt der vorliegenden Erfindung wird
eine Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 14 geschaffen. In der
geschaffenen Vorrichtung umfaßt die Basisvektor-Berech
nungseinrichtung:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung der Variation des Basisvektors eine Beurteilung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung der Variation des Basisvektors eine Beurteilung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
In einem neunten Aspekt der vorliegenden Erfindung wird
eine Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 15 geschaffen. In der
geschaffenen Vorrichtung aktualisiert die Basisvektor-Ak
tualisierungseinrichtung den Basisvektor unter Verwendung
eines aktuellen Wertes des Basisvektors, der Begriff-Do
kument-Matrix und eines Aktualisierungsverhältnisses, das
den Aktualisierungsgrad des Basisvektors steuert.
In einem zehnten Aspekt der vorliegenden Erfindung wird
eine Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 16 geschaffen. In der
geschaffenen Vorrichtung werden, wenn alle Basisvektoren
und Normierungsparameter, die beim Extrahieren der Merk
male erforderlich sind, bereits erhalten worden sind, die
Berechnung der Normierungsparameter durch die Basisvek
tor-Berechnungseinrichtung und die Ausführung der Merk
malsextraktionseinrichtung weggelassen. Außerdem extra
hiert die Merkmalsextraktionseinrichtung die Merkmale un
ter Verwendung der Basisvektoren und der Normierungspara
meter extrahiert, die bereits erhalten worden sind.
In einem elften Aspekt der vorliegenden Erfindung wird
ein Computer-Programmprodukt für die Ausführung in einer
Textfilterungsvorrichtung zum Extrahieren von Merkmalen
aus Dokumenten unter Verwendung einer Begriff-Dokument-
Matrix geschaffen, die aus Vektoren besteht, die den In
dexbegriffen entsprechen, die die Inhalte der Dokumente
darstellen. In der Begriff-Dokument-Matrix wirken die
Beiträge der Indexbegriffe auf entsprechende Elemente der
Begriff-Dokument-Matrix. Das Computer-Programmprodukt um
faßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
Die in dieser Beschreibung offenbarte Merkmalsextrak
tionsvorrichtung ist durch das Definieren der Kosten als
eine Funktion zweiter Ordnung des Unterschieds zwischen
der Begriff-Dokument-Matrix, auf die der Basisvektor
nicht angewendet ist, und der Begriff-Dokument-Matrix,
auf die der Basisvektor angewendet ist, konstruiert. Die
Vorrichtung erfordert lediglich die folgenden Einrichtun
gen:
- a) eine Basisvektor-Berechnungseinrichtung zum Berechnen eines Basisvektors durch das Anwenden eines Verfahrens des steilsten Abfalls auf die Kosten;
- b) eine Merkmalsextraktionseinrichtung zum Be rechnen eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek tors und zum Extrahieren der Merkmale auf der Grundlage des Parameters;
- c) eine Begriff-Dokument-Matrix-Aktualisierungs einrichtung zum Aktualisieren der Begriff-Dokument-Matrix auf den Unterschied zwischen der Begriff-Dokument-Matrix, auf die der Basisvektor nicht angewendet ist, und der Be griff-Dokument-Matrix, auf die der Basisvektor angewendet ist, um das redundante Extrahieren von Merkmalen zu verhindern; und
- d) eine Merkmalsextraktions-Steuereinrichtung zum Steuern der Ausführung der entsprechenden Einrichtungen.
Die Basisvektor-Berechnungseinrichtung wiederholt die Be
rechnung auf der Grundlage der Eingangs-Begriff-Dokument-
Matrix, um schließlich einen Basisvektor herzuleiten. Der
Wiederholungsprozeß wird abgeschlossen, wenn der Varia
tionsgrad des Basisvektors kleiner als ein oder gleich
einem vorgegebenen Bezugswert wird.
Die Merkmalsextraktionseinrichtung berechnet einen Para
meter zum Normieren der Merkmale auf der Grundlage des
Eingangs-Basisvektors und der Begriff-Dokument-Matrix,
wobei sie ein Merkmal für jedes Dokument extrahiert.
Die Begriff-Dokument-Matrix-Aktualisierungseinrichtung
aktualisiert die Begriff-Dokument-Matrix auf der Grund
lage des Eingangs-Basisvektors.
Die Merkmalsextraktions-Steuereinrichtung wiederholt die
Ausführung jeder Einrichtung, bis die Anzahl der durch
den Anwender definierten Merkmale erfüllt ist. Wenn die
Basisvektoren und Normierungsparameter bereits berechnet
worden sind, wird die Ausführung der Basisvektor-Berech
nungseinrichtung und die Berechnung der Normierungspara
meter in der Merkmalsextraktionseinrichtung weggelassen.
Dann kann die Merkmalsextraktion mit der Konstruktion
ausgeführt werden, die die bereits erhaltenen Basisvekto
ren und die Normierungsparameter enthält.
Gemäß der vorliegenden Erfindung umfaßt ein Textfilte
rungsverfahren zum Extrahieren von Merkmalen aus Dokumen
ten unter Verwendung einer Begriff-Dokument-Matrix, die
aus Vektoren besteht, die den Indexbegriffen entsprechen,
die die Inhalte der Dokumente darstellen, wobei die Bei
träge der Indexbegriffe auf entsprechende Elemente der
Begriff-Dokument-Matrix wirken, die folgenden Schritte:
- a) einen Basisvektor-Berechnungsschritt des Be rechnens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
- b) einen Merkmalsextraktionsschritt des Berech nens eines Parameters zum Normieren der Merkmale unter Verwendung der Begriff-Dokument-Matrix und des Basisvek tors und des Extrahierens der Merkmale auf der Grundlage des Parameters;
- c) einen Begriff-Dokument-Matrix-Aktualisie rungsschritt des Aktualisierens der Begriff-Dokument-Mat rix auf einen Unterschied zwischen der Begriff-Dokument- Matrix, auf die der Basisvektors nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor angewendet ist; und
- d) einen Merkmalsextraktions-Steuerschritt des Steuerns der Ausführung der entsprechenden Schritte.
Deshalb können hinsichtlich der Merkmalsextraktion von
Dokumenten bei der Textfilterung die Merkmale, die die
gleiche Natur wie diejenigen aufweisen, die durch die LSA
erhalten werden, mit einem kleineren Speicherraum als mit
der Vorrichtung oder dem Verfahren extrahiert werden, die
die LSA ausführen. Außerdem kann spezifische Software
oder Hardware zum Extrahieren der Merkmale leicht imple
mentiert werden.
Die obigen und andere Aufgaben, Merkmale und Vorteile der
vorliegenden Erfindung werden aus den folgenden Beschrei
bungen ihrer Ausführungsformen offensichtlich, die im Zu
sammenhang mit der beigefügten Zeichnung gegeben werden.
Fig. 1 ist eine Veranschaulichung, die ein Beispiel der
Dokumente zeigt, die in einer Dokumentendatenbank regist
riert sind;
Fig. 2 ist eine Veranschaulichung, die ein Beispiel einer
Begriff-Dokument-Matrix zeigt, wobei die Kanji-Begriffe,
die in den Dokumenten auftreten, die in Fig. 1 gezeigt
sind, als Indexbegriffe genommen sind;
Fig. 3 ist eine Veranschaulichung, die ein Beispiel einer
tatsächlich durch einen Anwender eingegebenen Frage
zeigt;
Fig. 4 ist eine Veranschaulichung, die eine aus der Frage
in Fig. 3 erhaltene Begriff-Dokument-Matrix zeigt;
Fig. 5 ist eine Veranschaulichung, die eine Ausführungs
form der Merkmalsextraktionsvorrichtung gemäß der vorlie
genden Erfindung zeigt;
Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer
Hardware-Konstruktion zum Implementieren der vorliegenden
Erfindung zeigt;
Fig. 7 ist eine Veranschaulichung, die eine Struktur ei
ner Datendatei für die Begriff-Dokument-Matrizen zeigt;
Fig. 8 ist eine Veranschaulichung, die eine Struktur ei
ner Datendatei für die Basisvektoren zeigt, in der die
berechneten Basisvektoren gespeichert sind;
Fig. 9 ist eine Veranschaulichung, die eine Struktur ei
ner Datendatei für die Merkmale zeigt;
Fig. 10 ist eine Veranschaulichung, die eine Struktur ei
ner Datendatei für die Normierungsparameter zeigt;
Fig. 11 ist ein Ablaufplan, der die Berechnung eines Ba
sisvektors in der Basisvektor-Berechnungseinrichtung
zeigt; und
Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei
nes automatischen Systems für die Klassifizierung von Do
kumenten zeigt, das eine Ausführungsform der Merkmalsex
traktionsvorrichtung gemäß der vorliegenden Erfindung
verwendet.
Fig. 5 ist eine Veranschaulichung, die eine Ausführungs
form der Merkmalsextraktionsvorrichtung gemäß der vorlie
genden Erfindung zeigt. Wie in Fig. 5 gezeigt ist, be
sitzt die Merkmalsextraktions-Steuereinrichtung 200 eine
Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210,
eine Basisvektor-Berechnungseinrichtung 220 und eine
Merkmalsextraktionseinrichtung 230. Das Bezugszeichen 100
bezeichnet eine Datendatei für die Begriff-Dokument-Mat
rizen, 300 bezeichnet eine Datendatei für die Basisvekto
ren, 400 bezeichnet eine Datendatei für die Merkmale und
450 bezeichnet eine Datendatei für die Normierungsparame
ter. In der Datendatei 100 für die Begriff-Dokument-Mat
rizen ist eine Begriff-Dokument-Matrix aus gesammelten
Daten des Dokuments gespeichert. Die Begriff-Dokument-
Matrix-Aktualisierungseinrichtung 210 liest in einem ers
ten Interationsprozeß die Begriff-Dokument-Matrix aus der
Datendatei 100 für die Begriff-Dokument-Matrizen und
überträgt die gelesene Begriff-Dokument-Matrix zur Basis
vektor-Berechnungseinrichtung 220 und zur Merkmalsextrak
tionseinrichtung 230 ohne die Begriff-Dokument-Matrix zu
aktualisieren.
In einem zweiten Interationsprozeß und in den nachfolgen
den Interationsprozessen wird die Begriff-Dokument-Matrix
auf der Grundlage des von der Basisvektor-Berechnungsein
richtung 220 übertragenen Basisvektors aktualisiert. Das
Ergebnis der Aktualisierung wird zur Basisvektor-Berech
nungseinrichtung 220 und zur Merkmalsextraktionseinrich
tung 230 übertragen. Die Basisvektor-Berechnungseinrich
tung 220 berechnet einen Basisvektor durch einen Wie
derholungsprozeß, der auf der von der Begriff-Dokument-
Matrix-Aktualisierungseinrichtung 210 übertragenen Be
griff-Dokument-Matrix basiert. Dann wird der Grad der Va
riation des Basisvektors in der jeweiligen Wiederholung
überwacht, um den Wiederholungsprozeß abzuschließen, wenn
der Grad der Variation kleiner als ein oder gleich einem
vorgegebenen Bezugswert wird. Die Basisvektor-Berech
nungseinrichtung 220 gespeichert den berechneten Basis
vektor in der Datendatei 300 für die Basisvektoren, wobei
sie im Zusammenhang damit den berechneten Basisvektor zur
Begriff-Dokument-Matrix-Aktualisierungseinrichtung 210
und zur Merkmalsextraktionseinrichtung 230 überträgt. Die
Merkmalsextraktionseinrichtung 230 extrahiert auf der
Grundlage der von der Begriff-Dokument-Matrix-Aktualisie
rungseinrichtung 210 übertragenen Begriff-Dokument-Matrix
und des von der Basisvektor-Berechnungseinrichtung 220
übertragenen Basisvektors ein Merkmal aus jedem Dokument.
Das Ergebnis wird in der Datendatei 400 für die Merkmale
gespeichert, wobei außerdem die Parameter zum Normieren
der Merkmale in der Datendatei 450 für die Normierungspa
rameter gespeichert werden.
Die Ausführung der Begriff-Dokument-Matrix-Aktualisie
rungseinrichtung 210, der Basisvektor-Berechnungseinrich
tung 220 und der Merkmalsextraktionseinrichtung 230 wird
als ein Interationsprozeß genommen. Die Anzahl der Inte
rationsprozesse wird durch den Zusatz i angegeben, wobei
die Anzahl der durch den Anwender bezeichneten Merkmale
durch den Zusatz n angegeben wird. Die Merkmalsextrak
tions-Steuereinrichtung 200 wiederholt den Prozeß, bis
eine Bedingung i = n erfüllt ist. In einem Fall, in dem
alle erforderlichen Basisvektoren und die erforderlichen
Normierungsparameter bereits erhalten worden sind, können
andererseits die Ausführung der Basisvektor-Berechnungs
einrichtung 220 und die Berechnung der Normierungsparame
ter in der Merkmalsextraktionseinrichtung 230 weggelassen
werden. In einem derartigen Fall kann deshalb die Merk
malsextraktions-Steuereinrichtung 200 mit der Begriff-Do
kument-Matrix-Aktualisierungseinrichtung 210, die die be
kannten Basisvektoren und Normierungsparameter enthält,
und mit der Merkmalsextraktionseinrichtung 230 kon
struiert sein.
Fig. 6 ist eine Veranschaulichung, die ein Beispiel einer
Hardware-Konstruktion zum Implementieren der vorliegenden
Erfindung zeigt. Wie in Fig. 6 gezeigt ist, enthält die
Merkmalsextraktionsvorrichtung die folgenden Komponenten:
eine Zentraleinheit (CPU) 10, die die Steuerung für die gesamte Vorrichtung ausführt,
einen Speicher 20 zum Speichern des Programms und zur Schaffung eines temporären Datenspeicherbereiches, der für die Ausführung des Programms erforderlich ist,
eine Tastatur 30 zum Eingeben der Daten, und
eine Anzeige 40 zum Erzeugen eines Anzeigebild schirms.
eine Zentraleinheit (CPU) 10, die die Steuerung für die gesamte Vorrichtung ausführt,
einen Speicher 20 zum Speichern des Programms und zur Schaffung eines temporären Datenspeicherbereiches, der für die Ausführung des Programms erforderlich ist,
eine Tastatur 30 zum Eingeben der Daten, und
eine Anzeige 40 zum Erzeugen eines Anzeigebild schirms.
Die durch die Merkmalsextraktions-Steuereinrichtung 200
auszuführenden Programme, die Datendatei 100 für die Be
griff-Dokument-Matrizen, die Datendatei 300 für die Ba
sisvektoren, die Datendatei 400 für die Merkmale und die
Datendatei 450 für die Normierungsparameter sind im Spei
cher 20 gespeichert.
Durch die Verwendung dieser Konstruktionen wird die Merk
malsextraktion durch die CPU 10 ausgeführt, die den Be
fehl vom Anwender über die Tastatur 30, eine Maus, die
auf eine gewünschte Position auf der Anzeige 40 zeigt,
oder dergleichen empfängt. Es sollte angemerkt werden,
daß in dem in Fig. 5 gezeigten Beispiel die Merkmals
extraktions-Steuereinrichtung 200 eine eigenständige Kon
struktion aufweist. Die Merkmalsextraktions-Steuerein
richtung 200 kann jedoch in andere Systeme eingebaut
sein.
Fig. 7 ist eine Veranschaulichung, die eine Struktur der
Datendatei für die Begriff-Dokument-Matrizen zeigt. In
Fig. 7 entsprechen die Bezugszeichen 101-1, 101-2, . . .,
101-d den t-dimensionalen Begriff-Dokument-Daten A, die
aus d Daten bestehen. Hier sind X = [x1, x2, . . ., xd],
xj = [xj1, xj2, . . ., xjt]' so definiert, daß sie die Be
griff-Dokument-Daten A mit einer t × d-Matrix X ausdrü
cken.
Fig. 8 ist eine Veranschaulichung, die eine Struktur der
Datendatei für die Basisvektoren zeigt, die die berechne
ten Basisvektoren speichert. In Fig. 8 entsprechen die
Bezugszeichen 301-1, 301-2, . . ., 301-n den t-dimensiona
len Basisvektor-Daten B, die aus n Daten bestehen. Das i-
te Element 301-i entspricht einem Ausgangswert der Basis
vektor-Berechnungseinheit 220 im i-ten Interationsprozeß
in Fig. 5. In der folgenden Offenbarung wird dieses Ele
ment durch einen t × 1-Spaltenvektor wi = [wi1, wi2, . . .,
wit]' ausgedrückt.
Fig. 9 ist eine Veranschaulichung, die eine Struktur der
Datendatei für die Merkmale zeigt. In Fig. 9 entsprechen
die Bezugszeichen 401-1, 401-2, . . ., 401-n den d-dimen
sionalen Merkmalsdaten C, die aus n Daten bestehen. Das
i-te Element 401-i entspricht einem Ausgangswert des
Merkmals von der Merkmalsextraktionseinrichtung 230 im i-
ten Interationsprozeß in Fig. 5. Dieses Element wird
durch einen 1 × d-Zeilenvektor yi = [yi1, yi2, . . ., yid]
ausgedrückt.
Fig. 10 ist eine Veranschaulichung, die eine Struktur der
Datendatei für die Normierungsparameter zeigt. In Fig. 10
entsprechen die Bezugszeichen 451-1, 451-2, . . ., 451-n
den Normierungsparameter-Daten D, die aus n Daten beste
hen. Das i-te Element 451-i entspricht einem Ausgangswert
des Normierungsparameters von der Merkmalsextraktionsein
richtung 230 im i-ten Interationsprozeß in Fig. 5.
Unter Verwendung der obigen Definitionen wird eine Imple
mentierung der Merkmalsextraktion in der gezeigten Aus
führungsform erklärt. Die Begriff-Dokument-Matrix-Aktua
lisierungseinrichtung 210 liest X nur dann aus der Daten
datei 100 für die Begriff-Dokument-Matrizen aus, wenn
i = 1 gilt, nämlich im ersten Interationsprozeß, um in
einer t × d-Matrix E zu speichern, ohne irgendeine arith
metische Operation auszuführen. Demzufolge gilt E = [e1,
e2, . . ., ed], ej = [ej1, ej2, . . ., ejt]' = [xj1, xj2, . . .,
xjt]'. Um die redundante Extraktion der in den vorherge
henden Interationsprozessen extrahierten Merkmale zu ver
hindern, wird E in der i-ten Interation unter Verwendung
des aktuellen Werts und des im unmittelbar vorhergehenden
Interationsprozeß berechneten Basisvektors aktualisiert.
Das Ergebnis der Aktualisierung wird zur Basisvektor-Be
rechnungseinrichtung 220 übertragen. Ein Wert von E in
der i-ten Interation, E(i), wird durch den folgenden Aus
druck (5) ausgedrückt:
Hier gilt E(i) = [ei(i), e2(i), . . ., ed(i)], wobei jedes
Element ej(i) von E(i) durch ej(i) = [ej1(i), ej2(i), . . .,
ejt(i)]' definiert ist. Wenn nämlich i ≧ 2 gilt, wird die
Begriff-Dokument-Matrix auf eine Differenz aktualisiert,
die durch das Subtrahieren der Begriff-Dokument-Matrix,
auf die der Basisvektor angewendet ist, von der Begriff-
Dokument-Matrix, auf die der Basisvektor nicht angewendet
ist, hergeleitet wird.
Fig. 11 ist ein Ablaufplan, der die Berechnung des Basis
vektors in der Basisvektor-Berechnungseinrichtung zeigt.
In Fig. 11 wird ein Wert von wi in der k-ten Wiederholung
durch wi(k) = [wi1(k), wi2(k), . . ., wit(k)]' ausgedrückt.
Zuerst wird im Schritt S500 der Zusatz k auf 1 initiali
siert. Anschließend schreitet der Prozeß zum Schritt S510
fort, um das jeweilige Element von wi(1) mit einem belie
bigen Wert zwischen -C und C zu initialisieren. Hier kann
der Wert von C ein positiver kleiner Wert sein, wie z. B.
C = 0,01. Im Schritt S520 werden die Kosten zweiter Ord
nung, die durch den folgenden Ausdruck (6) ausgedrückt
sind, bereitgestellt, um den Basisvektor zu berechnen,
der einen Merkmalsraum aufspannt, in dem sich wechselsei
tig zugeordnete Dokumente und Begriffe nahe beieinander
befinden.
Hier bedeutet "die Begriffe sind in der Nähe angeordnet",
daß die Positionen der Begriffe innerhalb eines Merkmals
raums nahe beieinander liegen, während "die Dokumente
sind in der Nähe angeordnet" bedeutet, daß die Positionen
der Begriffe, die in den jeweiligen Dokumenten enthalten
sind, im Merkmalsraum dicht liegen. Andererseits ist mit
den Kosten ein zu minimierender Gegenstand gemeint. In
der gezeigten Ausführungsform sind die Kosten als eine
Funktion zweiter Ordnung des Unterschieds zwischen der
Begriff-Dokument-Matrix, auf die der Basisvektor nicht
angewendet ist, und der Begriff-Dokument-Matrix, auf die
der Basisvektor angewendet ist, definiert, wie durch den
Ausdruck (6) ausgedrückt ist. Hier ist
im
m-te Element eines 1 × d-Vektors i, der wie folgt
definiert ist:
Für die Kosten wird das Verfahren des steilsten Abfalls
angewendet, um den Wert von wi zu aktualisieren, wie
durch den folgenden Ausdruck (8) ausgedrückt ist.
Hier ist µi(k) ein Aktualisierungsverhältnis, das den
Grad des Aktualisierens in der k-ten Wiederholung steu
ert, die durch einen positiven kleinen Wert initialisiert
wird, wenn k gleich 1 ist, wie z. B. µi (1) = 0,1. Jedes
mal, wenn k inkrementiert wird, wird der Wert allmählich
verkleinert. In der Alternative ist es außerdem möglich,
den Wert auf einen konstanten Wert unabhängig von k zu
setzen. Andererseits ist zi(k) wie folgt definiert:
zi(k) = wi(k)'E(i) (9)
Im Schritt S530 wird δi(k), das den Grad der Variation
von wi angibt, wie folgt hergeleitet:
Im Schritt S540 wird auf der Grundlage des Wertes δi(k)
eine Beurteilung getroffen, ob der Prozeß abzuschließen
ist. Falls im Ergebnis der Beurteilung der Abschluß be
stimmt wird, schreitet der Prozeß zum Schritt S560 fort,
während ansonsten der Prozeß zum Schritt S550 fortschrei
tet. Hier in Fig. 11 ist βi ein positiver kleiner Wert,
wie z. B. βi = 1 × 10-6.
Im Schritt S550 wird der Wert des Zählers k um 1 inkre
mentiert. Dann kehrt der Prozeß zum Schritt S520 zurück.
Im Schritt S560 wird wi als die i-ten Daten der Datenda
tei 300 für die Basisvektoren gespeichert. Zum gleichen
Zeitpunkt wird wi zur Begriff-Dokument-Matrix-Aktualisie
rungseinrichtung 210 und zur Merkmalsextraktionseinrich
tung 230 übertragen. In der Merkmalsextraktionseinrich
tung 230 werden das Merkmal yi und der Normierungsparame
ter pi in der folgenden Weise berechnet.
yi = i/pi (11)
Hier ist pi wie folgt definiert:
Das Merkmal yi und der Normierungsparameter pi werden je
weils in der Datendatei 400 für die Merkmale und in der
Datendatei 450 für die Normierungsparameter als die i-ten
Daten gespeichert.
Fig. 12 ist eine Veranschaulichung, die ein Beispiel ei
nes automatischen Systems für die Klassifizierung von Do
kumenten zeigt, das die gezeigte Ausführungsform der
Merkmalsextraktionsvorrichtung verwendet. In Fig. 12 be
zeichnet das Bezugszeichen 601 die Begriff-Dokument-Mat
rix-Berechnungseinrichtung, während 602 Klassifizierungs
einrichtung bezeichnet. Die Klassifizierungseinrichtung
602 kann durch ein Verfahren implementiert sein, das in
"Journal of Intelligent and Fuzzy Systems", 1993 veröf
fentlicht, Bd. 1, Nr. 1, S. 1 bis 25, offenbart ist.
Die in der Dokumentendatenbank E gespeicherten Daten der
Dokumente werden in dem automatischen System 600 für die
Klassifizierung von Dokumenten genommen. Im automatischen
System 600 für die Klassifizierung von Dokumenten wird
eine Begriff-Dokument-Matrix in der Begriff-Dokument-Mat
rix-Berechnungseinrichtung 601 hergeleitet. Das Ergebnis
der Berechnung der Begriff-Dokument-Matrix wird zur Merk
malsextraktions-Steuereinrichtung 200 übertragen. Die
Merkmalsextraktions-Steuereinrichtung 200 extrahiert die
Merkmale aus der empfangenen Begriff-Dokument-Matrix. Das
extrahierte Ergebnis wird an die Klassifizierungseinrich
tung 602 ausgegeben. In der Klassifizierungseinrichtung
602 wird das Ergebnis der Klassifizierung auf der Grund
lage der Eingangsmerkmale ausgegeben.
Um die vorliegende Erfindung zu bewerten, wurde die Merk
malsextraktion von konkreten Daten eines Dokuments in be
zug auf das System der Aufnahmeprüfung ausgeführt. Es ist
bestätigt worden, daß die vorliegende Erfindung die Merk
male der gleichen Natur wie diejenigen, die unter Verwen
dung der herkömmlichen LSA extrahiert wurden, extrahieren
konnte.
Hinsichtlich der Größe des Speicherraums erfordert in ei
nem typischen praktischen Fall, in dem die Anzahl der
Begriffe t signifikant größer ist als die Anzahl der Do
kumente d (t » d), die herkömmliche LSA in der Größenord
nung von t2 des Speicherraums, während die vorliegende
Erfindung lediglich Speicherraum in der Größenordnung von
t . d zum Berechnen der entsprechenden Basisvektoren er
fordert. Außerdem ist eine komplizierte Vorrichtung für
Matrizenoperationen erforderlich, um den Stand der Tech
nik zu verwirklichen. Das System gemäß Erfindung kann je
doch leicht mit einer Vorrichtung verwirklicht werden,
die einfache arithmetische Operationen ausführt. Gemäß
der vorliegenden Erfindung kann die LSA-Merkmalsextrak
tion nämlich unter Verwendung eines kleineren Speicher
raums und eines einfacheren Programms ausgeführt werden.
Außerdem kann dieses einfache Programm in einem digitalen
Signalprozessor (DSP) geladen werden. Deshalb kann ein
spezifischer Chip für die Merkmalsextraktion leicht her
gestellt werden.
Im folgenden werden die Ergebnisse der jeweiligen Ein
richtungen, die die gezeigte Ausführungsform der Merk
malsextraktionsvorrichtung ausführen, für die Dokumente
nach Fig. 1 und die Frage nach Fig. 3 gezeigt.
Zuerst bezeichnet X die Begriff-Dokument-Matrix nach
Fig. 2.
Entsprechend dem obigen Ausdruck (5) gibt die Begriff-Do
kument-Matrix-Aktualisierungseinrichtung 210 E(1), ausge
drückt durch den folgenden Ausdruck, an die Basisvektor-
Berechnungseinrichtung 220 und die Merkmalsextraktions
einrichtung 230 aus.
In der Basisvektor-Berechnungseinrichtung 220 wird die
Initialisierung mit dem Setzen des Basisvektors w1(1) auf
[0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100,
0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ1 auf
einen festen Wert 0,1 und von β1 auf 1 × 10-6 ausgeführt.
Die in Fig. 11 gezeigte Berechnung wird 132mal ausge
führt. Dann wird der Basisvektor w1 = [0,1787, 0,1787,
0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314,
0,1787, 0,2527]' in der Datendatei 300 für die Basisvek
toren gespeichert und an die Merkmalsextraktionseinrich
tung 230 und an die Begriff-Dokument-Matrix-Aktualisie
rungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)
Aus dem obigen Ausdruck (8) folgt
w1(2) = [0,0103, -0,0097, 0,0103, 0,0093, 0,0107, -0,0103, 0,0097, -0,0100, 0,0100, -0,0103, 0,0103]'.
w1(2) - w1(1) = 10-3 × [0,3332, 0,3334, 0,3332, 0,6668, 0,6666, -0,3332, -0,3334, 0,0001, -0,0001, -0,3332, 0,3332]'
d1(1) = 0,0103
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)
w1(2) = [0,0103, -0,0097, 0,0103, 0,0093, 0,0107, -0,0103, 0,0097, -0,0100, 0,0100, -0,0103, 0,0103]'.
w1(2) - w1(1) = 10-3 × [0,3332, 0,3334, 0,3332, 0,6668, 0,6666, -0,3332, -0,3334, 0,0001, -0,0001, -0,3332, 0,3332]'
d1(1) = 0,0103
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)
Aus dem obigen Ausdruck (8) folgt
w1(3) = [0,0107, -0,0093, 0,0107, -0,0085, 0,0115, -0,0107, 0,0093, -0,0100, 0,0100, -0,0107, 0,0107]'.
w1(3) -w1(2) = 10-3 × [0,4110, 0,4112, 0,4110, 0,8001, 0,7998, -0,3665, -0,3668, 0,0224, 0,0221, -0,3665, 0,3887]'
δ1(2) = 0,0015
- gekürzt -
* Die 132. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 132)
w1(3) = [0,0107, -0,0093, 0,0107, -0,0085, 0,0115, -0,0107, 0,0093, -0,0100, 0,0100, -0,0107, 0,0107]'.
w1(3) -w1(2) = 10-3 × [0,4110, 0,4112, 0,4110, 0,8001, 0,7998, -0,3665, -0,3668, 0,0224, 0,0221, -0,3665, 0,3887]'
δ1(2) = 0,0015
- gekürzt -
* Die 132. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 132)
Aus dem obigen Ausdruck (8) folgt
w1(133) = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]'.
w1(133) - w1(132) = 10-6 × [-0,3020, -0,3020, -0,3020, -0,3020, -0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,0000]'
δ1(132) = 9,5500 × 10-7
w1(133) = [0,1787, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,1787, 0,4314, 0,4314, 0,1787, 0,2527]'.
w1(133) - w1(132) = 10-6 × [-0,3020, -0,3020, -0,3020, -0,3020, -0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,3020, 0,0000]'
δ1(132) = 9,5500 × 10-7
In der Merkmalsextraktionseinrichtung 230 werden die in
den Ausdrücken (11) und (12) gezeigten Operationen ausge
führt, um:
y1 = [0,5000, 0,5000, 0,7071]
und
p1 = 2,7979
an die Datendatei 400 für die Merkmale und an die Daten datei 450 für die Normierungsparameter auszugeben.
y1 = [0,5000, 0,5000, 0,7071]
und
p1 = 2,7979
an die Datendatei 400 für die Merkmale und an die Daten datei 450 für die Normierungsparameter auszugeben.
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung
210 wird aus dem obigen Ausdruck (5) E(2), ausgedrückt
wie folgt, an die Basisvektor-Berechnungseinrichtung 220
und die Merkmalsextraktionseinrichtung 230 ausgegeben:
In der Basisvektor-Berechnungseinrichtung 220 wird die
Initialisierung mit dem Setzen des Basisvektors w2(1) auf
[0,0100, -0,0100, 0,0100, -0,0100, 0,0100, -0,0100,
0,0100, -0,0100, 0,0100, -0,0100, 0,0100]', von µ2 auf
einen festen Wert 0,1 und von β2 auf 1 × 10-6 ausgeführt.
Die in Fig. 11 gezeigte Berechnung wird 119mal ausge
führt. Dann wird der Basisvektor w2 = [0,3162, 0,3162,
0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162,
-0,3162, -0,3162, 0,0000]' in der Datendatei 300 für die
Basisvektoren gespeichert und an die Merkmalsextraktions
einrichtung 230 und an die Begriff-Dokument-Matrix-Aktua
lisierungseinrichtung 210 ausgegeben.
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)
* Die erste Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 1)
Aus dem obigen Ausdruck (8) folgt
w2(2) = [0,0102, -0,0098, 0,0102, -0,0096, 0,0104, -0,0105, 0,0095, -0,0103, 0,0097, -0,0105, 0,0102]'.
w2(2) - w2(1) = 10-3 × [0,2154, 0,2156, 0,2154, 0,3822, 0,3821, -0,4511, -0,4513, -0,2844, -0,2846, -0,4511, 0,1666] '
δ2(1) = 0,0011
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)
w2(2) = [0,0102, -0,0098, 0,0102, -0,0096, 0,0104, -0,0105, 0,0095, -0,0103, 0,0097, -0,0105, 0,0102]'.
w2(2) - w2(1) = 10-3 × [0,2154, 0,2156, 0,2154, 0,3822, 0,3821, -0,4511, -0,4513, -0,2844, -0,2846, -0,4511, 0,1666] '
δ2(1) = 0,0011
* Die zweite Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 2)
Aus dem obigen Ausdruck (8) folgt
w2(3) = [0,0105, -0,0095, 0,0105, -0,0092, 0,0108, -0,0110, 0,0090, -0,0106, 0,0094, -0,0110, 0,0103]'.
w2(3) - w2(2) = 10-3 × [0,2624, 0,2626, 0,2624, 0,4413, 0,4411, -0,5152, -0,5154, -0,3364, -0,3366, -0,5152, 0,1786] '
δ2(2) = 0, 0013
- gekürzt -
* Die 119. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 119)
w2(3) = [0,0105, -0,0095, 0,0105, -0,0092, 0,0108, -0,0110, 0,0090, -0,0106, 0,0094, -0,0110, 0,0103]'.
w2(3) - w2(2) = 10-3 × [0,2624, 0,2626, 0,2624, 0,4413, 0,4411, -0,5152, -0,5154, -0,3364, -0,3366, -0,5152, 0,1786] '
δ2(2) = 0, 0013
- gekürzt -
* Die 119. Wiederholung in der Basisvektor-Berechnungs einrichtung 220 (k = 119)
Aus dem obigen Ausdruck (8) folgt
w2(120) = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]'.
w2(120) - w2(119) = 10-6 × [0,3327, 0,3333, 0,3327, -0,1375, -0,1381, 0,3332, 0,3326, -0,1377, -0,1383, 0,3332, 0,4712]'
δ2(119) = 9, 8141 × 10-7
w2(120) = [0,3162, 0,3162, 0,3162, 0,3162, 0,3162, -0,3162, -0,3162, -0,3162, -0,3162, 0,0000]'.
w2(120) - w2(119) = 10-6 × [0,3327, 0,3333, 0,3327, -0,1375, -0,1381, 0,3332, 0,3326, -0,1377, -0,1383, 0,3332, 0,4712]'
δ2(119) = 9, 8141 × 10-7
In der Merkmalsextraktionseinrichtung 230 werden die in
den Ausdrücken (11) und (12) gezeigten Operationen ausge
führt, um:
y2 = [0,7071, -0,7071, -0,0000]
und
p2 = 2,2361
an die Datendatei 400 für die Merkmale und an die Daten
datei 450 für die Normierungsparameter auszugeben.
Aus den oben dargelegten Ergebnissen folgt, daß die Merk
malsvektoren der Dokumente 1, 2 und 3 in Fig. 1 jeweils
[0,5000, 0,7071]', [0,5000, -0,7071], [0,7071, -0,0000]
lauten. Im Vergleich mit den Merkmalen der LSA der ent
sprechenden Dokumente, die bei der Erklärung des Standes
der Technik gezeigt sind, besitzt das zweite Element je
des Vektors das entgegengesetzte Vorzeichen, es besitzt
aber den gleichen Absolutwert. Demzufolge besitzen sie
hinsichtlich der Berechnung der Ähnlichkeit im Ausdruck
(2) die gleiche Natur wie die Merkmale der LSA.
Hier werden die in der Datendatei 300 für die Basisvekto
ren gespeicherten Basisvektoren und die in der Datendatei
450 für die Normierungsparameter speicherten Normierungs
parameter während der Extraktion der Merkmale aus den Do
kumenten nach Fig. 1 verwendet. Dadurch wird die Ausfüh
rung der Basisvektor-Berechnungseinrichtung 220 und die
Berechnung der Normierungsparameter in der Merkmalsex
traktionseinrichtung 230 weggelassen. Bei X die Begriff-
Dokument-Matrix nach Fig. 4.
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung
210 wird E(1), aus dem obigen Ausdruck (5) ausgedrückt
wie folgt, an die Merkmalsextraktionseinrichtung 230 aus
gegeben.
In der Merkmalsextraktionseinrichtung 230 wird die arith
metische Operation entsprechend den obigen Ausdrücken
(11) und (12) unter Verwendung des Merkmalsvektors w1 und
des Normierungsparameters p1, die nach der Extraktion der
Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden,
ausgeführt, um
y1 = [0,6542]
an die Datendatei 400 für die Merkmale auszugeben.
In der Begriff-Dokument-Matrix-Aktualisierungseinrichtung
210 wird unter Verwendung des nach der Ausführung der
Merkmalsextraktion aus den in Fig. 1 gezeigten Dokumenten
erhaltenen Merkmalsvektors w1 aus der obigen Gleichung
(5) E(2), ausgedrückt wie folgt, an die Merkmalsextrak
tionseinrichtung 230 ausgegeben.
In der Merkmalsextraktionseinrichtung 230 wird die arith
metische Operation entsprechend den obigen Ausdrücken
(11) und (12) unter Verwendung des Merkmalsvektors w2 und
des Normierungsparameters p2, die nach der Extraktion der
Merkmale aus den Dokumenten nach Fig. 1 erhalten wurden,
ausgeführt, um
y2 = [-0,0000]
an die Datendatei 400 für die Merkmale auszugeben.
Aus dem oben dargelegten Ergebnis wird der Merkmalsvektor
der Frage nach Fig. 3 [0,6542, -0,0000]', wobei im Ver
gleich zu dem im Stand der Technik erklärten Wert das
zweite Element den gleichen Absolutwert aufweist.
Die vorliegende Erfindung ist in bezug auf bevorzugte
Ausführungsformen ausführlich beschrieben worden. Aus dem
obigen wird nun für die Fachleute offensichtlich sein,
daß Änderungen und Modifikationen ausgeführt werden kön
nen, ohne von der Erfindung in ihrem breiteren Aspekt ab
zuweichen. Es besteht deshalb die Absicht, daß die offen
sichtlichen Ansprüche alle derartigen Änderungen und Mo
difikationen abdecken, wie sie in den wahren Erfindungs
gedanken der Erfindung fallen.
Claims (25)
1. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten unter Verwendung einer Begriff-Doku
ment-Matrix, die aus Vektoren besteht, die den Indexbe
griffen entsprechen, die die Inhalte der Dokumente dar
stellen, wobei die Beiträge der Indexbegriffe auf ent
sprechende Elemente der Begriff-Dokument-Matrix wirken,
wobei das Verfahren umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
2. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 1, wobei die Kosten
als Kosten zweiter Ordnung des Unterschieds zwischen der
Begriff-Dokument-Matrix, auf die der Basisvektor nicht
angewendet ist, und der Begriff-Dokument-Matrix, auf die
der Basisvektor angewendet ist, definiert sind.
3. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 2, wobei der Basisvek
tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
4. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 3, wobei der Basisvek
tor-Aktualisierungsschritt den Basisvektor unter Verwen
dung eines aktuellen Wertes des Basisvektors, der Be
griff-Dokument-Matrix und eines Aktualisierungsverhält
nisses, das den Aktualisierungsgrad des Basisvektors
steuert, aktualisiert.
5. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 4, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
6. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 3, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
7. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 2, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
8. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 1, wobei der Basisvek
tor-Berechnungsschritt umfaßt:
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
einen Initialisierungsschritt des Initialisierens eines Wertes des Basisvektors;
einen Basisvektor-Aktualisierungsschritt des Aktualisierens des Wertes des Basisvektors;
einen Variationsgrad-Berechnungsschritt des Be rechnens eines Variationsgrades des Wertes des Basisvek tors;
einen Beurteilungsschritt, in dem unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung getroffen wird, ob ein Wiederholungsprozeß abzu schließen ist; und
einen Zählschritt des Zählens der Anzahl der Wie derholungsprozesse.
9. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 8, wobei der Basisvek
tor-Aktualisierungsschritt den Basisvektor unter Verwen
dung eines aktuellen Wertes des Basisvektors, der Be
griff-Dokument-Matrix und eines Aktualisierungsverhält
nisses, das den Aktualisierungsgrad des Basisvektors
steuert, aktualisiert.
10. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 9, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
11. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 8, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
12. Textfilterungsverfahren zum Extrahieren von Merk
malen aus Dokumenten nach Anspruch 1, wobei, wenn alle
Basisvektoren und Normierungsparameter, die beim Extra
hieren der Merkmale erforderlich sind, bereits erhalten
worden sind, die Berechnung der Normierungsparameter im
Basisvektor-Berechnungsschritt und die Ausführung des
Merkmalsextraktionsschritts weggelassen werden, wobei der
Merkmalsextraktionsschritt die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
13. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten unter Verwendung einer Begriff-
Dokument-Matrix, die aus Vektoren besteht, die den Index
begriffen entsprechen, die die Inhalte des Dokuments dar
stellen, wobei die Beiträge der Indexbegriffe auf ent
sprechende Elemente der Begriff-Dokument-Matrix wirken,
wobei die Vorrichtung umfaßt:
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
eine Basisvektor-Berechnungseinrichtung zum Be rechnen eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, die auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
eine Merkmalsextraktionseinrichtung zum Berechnen eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und zum Extrahieren der Merkmale auf der Grundlage des Para meters; und
eine Begriff-Dokument-Matrix-Aktualisierungsein richtung zum Aktualisieren der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
14. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 13, wobei die Kos
ten als Kosten zweiter Ordnung des Unterschieds zwischen
der Begriff-Dokument-Matrix, auf die der Basisvektor
nicht angewendet ist, und der Begriff-Dokument-Matrix,
auf die der Basisvektor angewendet ist, definiert sind.
15. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 14, wobei die Ba
sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
16. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 15, wobei die Ba
sisvektor-Aktualisierungseinrichtung den Basisvektor un
ter Verwendung eines aktuellen Wertes des Basisvektors,
der Begriff-Dokument-Matrix und eines Aktualisierungsver
hältnisses, das den Aktualisierungsgrad des Basisvektors
steuert, aktualisiert.
17. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 16, wobei, wenn
alle Basisvektoren und Normierungsparameter, die beim
Extrahieren des Merkmals erforderlich sind, bereits er
halten worden sind, die Berechnung der Normierungsparame
ter durch die Basisvektor-Berechnungseinrichtung und die
Ausführung der Merkmalsextraktionseinrichtung weggelassen
werden, wobei die Merkmalsextraktionseinrichtung die
Merkmale unter Verwendung der Basisvektoren und der Nor
mierungsparameter extrahiert, die bereits erhalten worden
sind.
18. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 15, wobei, wenn
alle Basisvektoren und Normierungsparameter, die beim
Extrahieren der Merkmale erforderlich sind, bereits er
halten worden sind, die Berechnung der Normierungsparame
ter durch die Basisvektor-Berechnungseinrichtung und die
Ausführung der Merkmalsextraktionseinrichtung weggelassen
werden, wobei die Merkmalsextraktionseinrichtung die
Merkmale unter Verwendung der Basisvektoren und der Nor
mierungsparameter extrahiert, die bereits erhalten worden
sind.
19. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 14, wobei, wenn
alle Basisvektoren und Normierungsparameter, die beim
Extrahieren der Merkmale erforderlich sind, bereits er
halten worden sind, die Berechnung der Normierungsparame
ter durch die Basisvektor-Berechnungseinrichtung und die
Ausführung der Merkmalsextraktionseinrichtung weggelassen
werden, wobei die Merkmalsextraktionseinrichtung die
Merkmale unter Verwendung der Basisvektoren und der Nor
mierungsparameter extrahiert, die bereits erhalten worden
sind.
20. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 13, wobei die Ba
sisvektor-Berechnungseinrichtung umfaßt:
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
eine Initialisierungseinrichtung zum Initialisie ren eines Wertes des Basisvektors;
eine Basisvektor-Aktualisierungseinrichtung zum Aktualisieren des Wertes des Basisvektors;
eine Variationsgrad-Berechnungseinrichtung zum Berechnen eines Variationsgrades des Wertes des Basisvek tors;
eine Beurteilungseinrichtung, die unter Verwen dung des Variationsgrades des Basisvektors eine Beurtei lung trifft, ob ein Wiederholungsprozeß abzuschließen ist; und
eine Zähleinrichtung zum Zählen der Anzahl der Wiederholungsprozesse.
21. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 20, wobei die Ba
sisvektor-Aktualisierungseinrichtung den Basisvektor un
ter Verwendung eines aktuellen Wertes des Basisvektors,
der Begriff-Dokument-Matrix und eines Aktualisierungsver
hältnisses, das den Aktualisierungsgrad des Basisvektors
steuert, aktualisiert.
22. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten bei der Textfilterung nach An
spruch 21, wobei, wenn alle Basisvektoren und Normie
rungsparameter, die beim Extrahieren des Merkmals erfor
derlich sind, bereits erhalten worden sind, die Berech
nung der Normierungsparameter durch die Basisvektor-Be
rechnungseinrichtung und die Ausführung der Merkmalsex
traktionseinrichtung weggelassen werden, wobei die Merk
malsextraktionseinrichtung die Merkmale unter Verwendung
der Basisvektoren und der Normierungsparameter extra
hiert, die bereits erhalten worden sind.
23. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 20, wobei, wenn
alle Basisvektoren und Normierungsparameter, die beim
Extrahieren der Merkmale erforderlich sind, bereits er
halten worden sind, die Berechnung der Normierungsparame
ter durch die Basisvektor-Berechnungseinrichtung und die
Ausführung der Merkmalsextraktionseinrichtung weggelassen
werden, wobei die Merkmalsextraktionseinrichtung die
Merkmale unter Verwendung der Basisvektoren und der Nor
mierungsparameter extrahiert, die bereits erhalten worden
sind.
24. Textfilterungsvorrichtung zum Extrahieren von
Merkmalen aus Dokumenten nach Anspruch 13, wobei, wenn
alle Basisvektoren und Normierungsparameter, die beim
Extrahieren der Merkmale erforderlich sind, bereits er
halten worden sind, die Berechnung der Normierungsparame
ter durch die Basisvektor-Berechnungseinrichtung und die
Ausführung der Merkmalsextraktionseinrichtung weggelassen
werden, wobei die Merkmalsextraktionseinrichtung die
Merkmale unter Verwendung der Basisvektoren und der Nor
mierungsparameter extrahiert, die bereits erhalten worden
sind.
25. Computer-Programmprodukt für die Ausführung in
einer Textfilterungsvorrichtung zum Extrahieren von Merk
malen aus Dokumenten unter Verwendung einer Begriff-Doku
ment-Matrix, die aus Vektoren besteht, die den Indexbe
griffen entsprechen, die die Inhalte der Dokumente dar
stellen, wobei die Beiträge der Indexbegriffe auf ent
sprechende Elemente der Begriff-Dokument-Matrix wirken,
wobei das Computer-Programmprodukt umfaßt:
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
einen Basisvektor-Berechnungsschritt des Berech nens eines Basisvektors, der einen Merkmalsraum auf spannt, in dem sich wechselseitig zugeordnete Dokumente und Begriffe nahe beieinander befinden, der auf einem Verfahren des steilsten Abfalls basiert, das die Kosten minimiert;
einen Merkmalsextraktionsschritt des Berechnens eines Parameters zum Normieren der Merkmale unter Verwen dung der Begriff-Dokument-Matrix und des Basisvektors und des Extrahierens der Merkmale auf der Grundlage des Para meters; und
einen Begriff-Dokument-Matrix-Aktualisierungs schritt des Aktualisierens der Begriff-Dokument-Matrix auf einen Unterschied zwischen der Begriff-Dokument-Mat rix, auf die der Basisvektor nicht angewendet ist, und der Begriff-Dokument-Matrix, auf die der Basisvektor an gewendet ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000197421A JP3524846B2 (ja) | 2000-06-29 | 2000-06-29 | テキストマイニングにおける文書の特徴量抽出方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10125011A1 true DE10125011A1 (de) | 2002-01-24 |
Family
ID=18695752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10125011A Ceased DE10125011A1 (de) | 2000-06-29 | 2001-05-22 | Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten |
Country Status (5)
Country | Link |
---|---|
US (1) | US6882747B2 (de) |
JP (1) | JP3524846B2 (de) |
CA (1) | CA2351211C (de) |
DE (1) | DE10125011A1 (de) |
GB (1) | GB2369211B (de) |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7124081B1 (en) * | 2001-09-28 | 2006-10-17 | Apple Computer, Inc. | Method and apparatus for speech recognition using latent semantic adaptation |
US20030115080A1 (en) * | 2001-10-23 | 2003-06-19 | Kasra Kasravi | System and method for managing contracts using text mining |
DE10221606A1 (de) * | 2002-05-15 | 2003-12-04 | Georg S Wengler | Verfahren und Vorrichtung zur computergestützten Durchführung einer Literaturanalyse |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8272064B2 (en) * | 2005-11-16 | 2012-09-18 | The Boeing Company | Automated rule generation for a secure downgrader |
US8379841B2 (en) | 2006-03-23 | 2013-02-19 | Exegy Incorporated | Method and system for high throughput blockwise independent encryption/decryption |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8326819B2 (en) | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
US7963442B2 (en) * | 2006-12-14 | 2011-06-21 | Simmonds Precision Products, Inc. | Spin stabilized projectile trajectory control |
JP4781466B2 (ja) * | 2007-03-16 | 2011-09-28 | 富士通株式会社 | 文書重要度算出プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20080288488A1 (en) * | 2007-05-15 | 2008-11-20 | Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer | Method and system for determining trend potentials |
WO2009029842A1 (en) | 2007-08-31 | 2009-03-05 | Exegy Incorporated | Method and apparatus for hardware-accelerated encryption/decryption |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100114890A1 (en) * | 2008-10-31 | 2010-05-06 | Purediscovery Corporation | System and Method for Discovering Latent Relationships in Data |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713053B2 (en) * | 2010-03-09 | 2014-04-29 | Cisco Technology, Inc | Active tags |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9424524B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
US9208204B2 (en) | 2013-12-02 | 2015-12-08 | Qbase, LLC | Search suggestions using fuzzy-score matching and entity co-occurrence |
US9659108B2 (en) | 2013-12-02 | 2017-05-23 | Qbase, LLC | Pluggable architecture for embedding analytics in clustered in-memory databases |
US9201744B2 (en) | 2013-12-02 | 2015-12-01 | Qbase, LLC | Fault tolerant architecture for distributed computing systems |
US9547701B2 (en) | 2013-12-02 | 2017-01-17 | Qbase, LLC | Method of discovering and exploring feature knowledge |
US9922032B2 (en) | 2013-12-02 | 2018-03-20 | Qbase, LLC | Featured co-occurrence knowledge base from a corpus of documents |
US9177262B2 (en) | 2013-12-02 | 2015-11-03 | Qbase, LLC | Method of automated discovery of new topics |
US9025892B1 (en) | 2013-12-02 | 2015-05-05 | Qbase, LLC | Data record compression with progressive and/or selective decomposition |
US9355152B2 (en) | 2013-12-02 | 2016-05-31 | Qbase, LLC | Non-exclusionary search within in-memory databases |
US9230041B2 (en) | 2013-12-02 | 2016-01-05 | Qbase, LLC | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching |
US9542477B2 (en) | 2013-12-02 | 2017-01-10 | Qbase, LLC | Method of automated discovery of topics relatedness |
WO2015084757A1 (en) * | 2013-12-02 | 2015-06-11 | Qbase, LLC | Systems and methods for processing data stored in a database |
US9424294B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Method for facet searching and search suggestions |
US9223833B2 (en) | 2013-12-02 | 2015-12-29 | Qbase, LLC | Method for in-loop human validation of disambiguated features |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10282468B2 (en) * | 2015-11-05 | 2019-05-07 | International Business Machines Corporation | Document-based requirement identification and extraction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
WO2018119035A1 (en) | 2016-12-22 | 2018-06-28 | Ip Reservoir, Llc | Pipelines for hardware-accelerated machine learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20180189307A1 (en) * | 2016-12-30 | 2018-07-05 | Futurewei Technologies, Inc. | Topic based intelligent electronic file searching |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857179A (en) | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US5884305A (en) | 1997-06-13 | 1999-03-16 | International Business Machines Corporation | System and method for data mining from relational data by sieving through iterated relational reinforcement |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6728728B2 (en) * | 2000-07-24 | 2004-04-27 | Israel Spiegler | Unified binary model and methodology for knowledge representation and for data and information mining |
AU2001286689A1 (en) | 2000-08-24 | 2002-03-04 | Science Applications International Corporation | Word sense disambiguation |
US6665661B1 (en) * | 2000-09-29 | 2003-12-16 | Battelle Memorial Institute | System and method for use in text analysis of documents and records |
US6925433B2 (en) * | 2001-05-09 | 2005-08-02 | International Business Machines Corporation | System and method for context-dependent probabilistic modeling of words and documents |
-
2000
- 2000-06-29 JP JP2000197421A patent/JP3524846B2/ja not_active Expired - Fee Related
-
2001
- 2001-05-22 DE DE10125011A patent/DE10125011A1/de not_active Ceased
- 2001-05-31 US US09/871,272 patent/US6882747B2/en not_active Expired - Fee Related
- 2001-06-22 CA CA002351211A patent/CA2351211C/en not_active Expired - Fee Related
- 2001-06-22 GB GB0115357A patent/GB2369211B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2369211B (en) | 2002-11-27 |
GB2369211A (en) | 2002-05-22 |
US20020031260A1 (en) | 2002-03-14 |
JP2002014982A (ja) | 2002-01-18 |
CA2351211A1 (en) | 2001-12-29 |
CA2351211C (en) | 2006-10-17 |
GB0115357D0 (en) | 2001-08-15 |
JP3524846B2 (ja) | 2004-05-10 |
US6882747B2 (en) | 2005-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10125011A1 (de) | Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten | |
DE60208223T2 (de) | Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells | |
DE3901485C2 (de) | Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten | |
DE69908360T2 (de) | Rechnersystem und verfahren zur erklärung des verhaltens eines modelles das eingangsdaten auf ausgangdaten abbildet | |
DE112012005998T5 (de) | Vorrichtung, Verfahren und Programm zur Wortsinnschätzung | |
DE69532307T2 (de) | Ausdrucks-Propagierung für hierarchisches Netzlisten | |
DE4040348A1 (de) | Vorrichtung zur designauswertung | |
DE102019107591A1 (de) | Anzeigesystem, programm und speichermedium | |
DE102021209171A1 (de) | System zum wählen eines lernenden modells | |
DE102022201753A1 (de) | Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung | |
DE112016003235T5 (de) | Ausgangseffizienzoptimierung in Produktionssystemen | |
DE69828888T2 (de) | Sprecherbeweissystem | |
DE102018130004B3 (de) | Auf einer support vector machine basierende intelligente fahrweise zum passieren von kreuzungen und intelligentes fahrsystem dafür | |
DE102021124445A1 (de) | Metamerkmal-trainingsmodelle für maschinenlernalgorithmen | |
EP1008067A1 (de) | Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil | |
DE112015005501B4 (de) | Alterungsprofilbildungsmaschine für physikalische Systeme | |
DE112020007373T5 (de) | Verfahren und Vorrichtung zum intelligenten Vermitteln von Empfehlungen | |
DE102020129018A1 (de) | Tiefe benutzermodellierung durch verhalten | |
DE112021007611T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm | |
DE102019217595A1 (de) | Domänenspezifische vorhersage der prozessschwierigkeit | |
DE10154200C1 (de) | Verfahren zum Erzeugen wenigstens einer Folge von an Zahlenfolgen eines 1/f-Rauschens angenäherten Zufallszahlen | |
DE102019207059A1 (de) | Verfahren zur Validierung von Systemparametern eines Energiesystems, Verfahren zum Betrieb eines Energiesystems sowie Energiemanagementsystem für ein Energiesystem | |
EP1190383B1 (de) | Verfahren zur rechnergestützten ermittlung einer zugehörigkeit einer vorgegebenen eingangsgrösse zu einem cluster | |
Bach et al. | Concurrent Engineering Software Tools–A Trade-Off for efficient Learning in Blended Teaching Scenarios | |
DE202023102562U1 (de) | Ein System zur Analyse von Blattarchitekturen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |