DE3901485C2 - Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten - Google Patents
Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von DokumentenInfo
- Publication number
- DE3901485C2 DE3901485C2 DE3901485A DE3901485A DE3901485C2 DE 3901485 C2 DE3901485 C2 DE 3901485C2 DE 3901485 A DE3901485 A DE 3901485A DE 3901485 A DE3901485 A DE 3901485A DE 3901485 C2 DE3901485 C2 DE 3901485C2
- Authority
- DE
- Germany
- Prior art keywords
- keywords
- relationship
- keyword
- registered
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Wiedergewinnung von Dokumenten
nach dem Oberbegriff des Anspruchs 1 und eine Vorrichtung
zur Durchführung dieses Verfahrens nach dem Oberbegriff des
Patentanspruchs 24.
Herkömmliche Dokumenten-Wiedergewinnungssysteme können in
Abhängigkeit von den verschiedenen Registrier- und Wiedergewinnungsverfahren
in zwei Gruppen eingeteilt werden. Die
beiden Gruppen sind das Thesaurus-System und ein mit
freien Schlüsselworten arbeitendes System. Bei dem Thesaurus-
Dokumenten-Wiedergewinnungssystem wählt die Bedienungsperson
zum Zeitpunkt der Dokumentenregistrierung die Schlüsselworte
aus, welche als geeignet angenommen werden und registriert
die ausgewählten Schlüsselworte zusammen mit den
bibliographischen Daten. Bei einer Dokumenten-Wiedergewinnung
bestimmt die Bedienungsperson die Schlüsselworte, welche
als geeignet angenommen worden sind, aus dem "Wortschatz"
(Thesaurus-Gruppe von Schlüsselworten), um das
Dokument wiederzugewinnen.
Bei dem mit freien Schlüsselworten arbeitenden Dokumenten-
Wiedergewinnungssystem registriert die Bedienungsperson
zum Zeitpunkt der Dokumenten-Registrierung nur die bibliophilen
Daten und den Dokumenteninhalt. Zur Dokumenten-Wiedergewinnung
benennt die Bedienungsperson lediglich die
freien Schlüsselworte.
Das Thesaurus-Dokumenten-Wiedergewinnungssystem kann eine
invertierte Datei haben, und es ist eine Dokument-Wiedergewinnung
mit hoher Geschwindigkeit möglich. Jedoch gibt es
die Schwierigkeit, daß eine große Speicherkapazität zum
Speichern der Schlüsselworte erforderlich ist. Außerdem
können die Schlüsselworte, welche von der Bedienungsperson
zum Zeitpunkt der Vorlagen-Registrierung ausgewählt worden
sind, sich als nicht geeignet herausstellen, und es gibt
dann die Schwierigkeit, daß die Eignung der ausgewählten
Schlüsselworte die Leistungsfähigkeit des Systems bestimmt.
Ferner gibt es noch die Schwierigkeiten, daß sowohl die Indexierung
(Klassifizierung) und ein Erneuern der Kennworte
bei dem Thesaurus-System kompliziert und nicht notwendigerweise
richtig sind.
Dagegen benötigt das mit freien Schlüsselworten arbeitende
Dokumenten-Wiedergewinnungssystem nur eine kleine Speicherkapazität,
um Schlüsselworte zu speichern. Darüber hinaus
ist das Vorhandensein oder Nicht-Vorhandensein eines Dokumentes
einschließlich des bestimmten Schlüsselworts übersichtlich,
und eine Klassifizierung (Indexierung) der
Schlüsselworte ist nicht notwendig. Dies System weist jedoch
die Schwierigkeit auf, daß die Wiedergewinnungszeit lang
ist, da mit Hilfe des benannten Schlüsselwortes auf das gesamte
Dokument verwiesen wird; ferner ist das System nicht
dazu geeignet, eine verschwommene Wiedergewinnung, wie beispielsweise
Verarbeitungssynonyme durchzuführen.
Aus der US 4 554 631 ist ein auf Software basierendes System bekannt, welches
einen Computer, einen Speicher, eine Anzeigeeinrichtung und eine Eingabeta
statur zum Einsatz bringt. Bei diesem bekannten Systen wird jedes Abfrage-
Schlüsselwort, das über die Eingabetastatur eingegeben wird, softwaremäßig
aus einer Texte enthaltenden Datenbasis herausgezogen und an eine Datenbasis,
die eine Schlüsselwortliste mit bestimmten Dokumenten zugeordneten Schlüssel
worten enthält, angepaßt. Bei dieser Art von System sind bereits bei mittelgroßen
Datenbanken mit Dokumenten große Rechenzeiten erforderlich, um bestimmte
Dokumente auffinden zu können. Das System ist auch dazu in der Lage,
seine Schlüsselwortliste an bestimmte Fragetechniken von Benutzerpersonen oder
an die Häufigkeit, mit der ein gewünschtes Dokument aufgerufen wird, anzupas
sen.
Aus der EP 0 032 194 A1 ist ein Verfahren bzw. eine Vorrichtung gemäß dem
Oberbegriff des Patentanspruchs 1 bzw. des Patentanspruchs 24 bekannt, wobei
hier jedoch die Wiedergewinnungsbedingungen ausschließlich auf das eigentlich
gesuchte Dokument oder den gesuchten Text bezogen sind, der gespeichert oder
wiedergefunden werden soll. Auch dieses Verfahren bzw. diese Vorrichtung sind
nur äußerst zeitaufwendig zu betreiben bzw. zum Einsatz zu bringen, da die
betreffenden Texte oder Dokumente, die aufgefunden werden sollen, sequentiell
nach entsprechenden Suchwörtern oder Suchausdrücken abgesucht werden
müssen.
Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren bzw. eine Vor
richtung zur Dokumentenwiedergewinnung vorzuschlagen, das bzw. die schneller
ist als die bekannten Verfahren bzw. Vorrichtungen und dabei nur relativ wenig
Speicherplatz benötigt, wobei sowohl das erfindungsgemäße Verfahren als auch
die erfindungsgemäße Vorrichtung dazu führen sollen, daß eine Datenverarbei
tungsanlage lern- bzw. anpassungsfähig ist.
Diese Aufgabe wird durch ein Verfahren mit den im Patentanspruch 1 aufgeführ
ten Merkmalen sowie eine Vorrichtung mit den im Patentanspruch 24 aufgeführ
ten Merkmalen gelöst.
Zweckmäßige Verfahrensvarianten bzw. Ausführungsformen der Vorrichtung
gehen aus den jeweiligen Unteransprüchen hervor.
Bei dem erfindungsgemäßen Verfahren bzw. der erfindungsgemäßen Vorrichtung zur Dokumenten-Wiedergewinnung
braucht keine Klassifizierung (oder Indexierung) der Schlüsselworte
vorgenommen zu werden, und eine Vorlagengewinnung
kann mit einer hohen Geschwindigkeit mit Hilfe eines Vokabulars
oder "Bildes" durchgeführt werden, das nahe bei demjenigen
der Bedienungsperson liegt.
Gemäß einer bevorzugten Ausführungsform der Erfindung kann
ein Vorlagen-Wiedergewinnungsverfahren bzw. -vorrichtung geschaffen werden, bei
welchem die Vergleichsinformationen, welche in einer Schlüsselwort-
Verbindungsstelle enthalten sind, dynamisch in
Abhängigkeit von einer Benutzungshäufigkeit der Schlüsselworte
geändert werden. Bei der erfindungsgemäßen Vorrichtung bzw. dem Verfahren zur Dokumenten-Wiedergewinnung
wird die Vergleichsfunktion geändert, welche
in der Schlüsselwort-Verbindungstabelle enthalten ist, aufgrund
einer Lernfunktion, und das System ist unbeeinflußt von
dem Vokabular oder "Bild" der Bedienungsperson, welche die
Vergleichsfunktion anfangs eingibt, nachdem das erfindungsgemäße Verfahren bzw. die Vorrichtung eine
vorherbestimmte Zeit in Benutzung ist.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausführungsformen
unter Bezugnahme auf die anliegenden Zeichnungen
im einzelnen erläutert. Es zeigt
Fig. 1 ein Diagramm, anhand welchem das Arbeitsprinzip
eines Verfahrens bzw. einer Vorrichtung zur Dokumenten-Wiedergewinnung gemäß der
Erfindung erläutert wird,
Fig. 2 ein Blockdiagramm einer Ausführungsform der Vorrichtung zur Dokumenten-
Wiedergewinnung gemäß der
Erfindung,
Fig. 3A bis 3C ein zu registrierendes Dokument, dessen bibliograpische
Information bzw. dessen Schlüsselworte,
Fig. 4 eine Ausführungsform einer Schlüsselwort-Verbindungstabelle,
Fig. 5 eine Schlüsselwort-Verbindungstabelle, vor der
Registrierung des in Fig. 3A dargestellten Dokuments,
Fig. 6 eine Schlüsselwort-Verbindungstabelle nach der Registrierung
des in Fig. 3A dargestellten Dokuments,
Fig. 7 eine Schlüsselwort-Verbindungstabelle, welche dadurch
erhalten worden ist, daß Werte zu Beziehungswerten
in der in Fig. 6 dargestellten Schlüsselwort-
Verbindungstabelle in Abhängigkeit von einer
Gruppe ausgewählter Schlüsselworte hinzugefügt
werden,
Fig. 8 eine Schlüsselwort-Verbindungstabelle, die aus der
in Fig. 6 dargestellten Schlüsselwort-Verbindungstabelle
erhalten worden ist und indirekte Verknüpfungen
und deren Beziehungswerte enthält,
Fig. 9 eine Ausführungsform einer Schlüsselwortlage mit
Schlüsselwortverbindungen,
Fig. 10 eine Tabelle, welche die Schlüsselwort-Verbindungen
in der in Fig. 9 dargestellten Schlüsselwortlage
für drei Fälle wiedergibt, wobei verschiedene
Formeln zum Berechnen von Beziehungswerten verwendet
sind,
Fig. 11 ein Ablaufdiagramm einer Ausführungsform einer
Arbeitsweise eines Computers zum Durchführen von
Funktionen eines in Fig. 2 dargestellten Anforderungsprozessors,
Fig. 12 ein Ablaufdiagramm einer Ausführungsform einer
Arbeitsweise eines Computers zum Ausführen von
Funktionen eines in Fig. 2 dargestellten Kennwort-
Beziehungs-/Relevanz-Kalkulators,
Fig. 14 ein Ablaufdiagramm einer Ausführungsform einer
Arbeitsweise eines Rechners zum Durchführen von
Funktionen eines in Fig. 2 dargestellten Sortierers,
Fig. 15 ein Ablaufdiagramm einer Ausführungsform einer
Arbeitsweise eines Computers zum Durchführen von
Funktionen der in Fig. 2 dargestellten
Vorrichtung;
Fig. 16 eine Ausführungsform eines Netzmodelles von Schlüsselwort-
Verbindungen,
Fig. 17 ein Diagramm zum Erläutern von Umwandlungen des
Netzmodells vor und nach der Dokumenten-Registrierung
und
Fig. 18 ein Diagramm einer Ausführungsform von gehäuft
angeordneten bzw. zusammengeschlossenen Kennworten.
Zuerst wird allgemein das Verfahren der Dokumenten-
Wiedergewinnung gemäß der Erfindung beschrieben.
In Fig. 1 ist eine Schlüsselwort-Lage und eine Dokumenten-
Datenbasis bzw. -bank dargestellt. Bei der Erfindung ist
ein neuer Begriff verwendet, der nachstehend als eine
"dynamische Schlüsselwort-Verbindung" bezeichnet wird.
In Fig. 1 entsprechen die jeweiligen Dokumente #1, #2, . . .,
#N in einer Dokumenten-Datenbank 2 Schlüsselworten 3a, welche
in den Dokumenten #1, #2, . . ., #N enthalten sind, durch eine
invertierte Datei 4. Eine Schlüsselwort-Lage 3 ist aus den
Schlüsselworten 3a und Schlüsselwort-Verbindungen 3b gebildet,
welche durch eine Beziehungsinformation zwischen zwei
Schlüsselworten 3a gebildet sind, welche durch die Schlüsselwort-
Verbindung 3b miteinander verbunden sind. Die Beziehungsinformation
enthält einen Beziehungsnamen, den Wert einer Beziehung,
eine Beziehungsrichtung (Vorzeichen) u. ä. Beispielsweise
weist die Beziehung "also known as", "synonym",
"including same text", "IS-A relation", "IS-PART-OF relation"
u. ä. auf. Der Wert der Beziehung (der nachstehend auch als
ein Beziehungswert bezeichnet wird) bzw. die Beziehungsrichtung
zeigen die Amplitude und Richtung der Beziehung sowie
den Wert und die Richtungsänderung an, wenn der Benutzer
einen Schlüsselwort-Zugriff durchführt. Da sich der Beziehungswert
und die Beziehungsrichtung in Abhängigkeit von
der Benutzungshäufigkeit (oder der Zugriffshäufigkeit),
einem Daten-Satz u. ä. ändern, kommt die Schlüsselwortlage 3 als Ganzes
allmählich dem Vokabular oder dem "Bild" bzw. der Vorstellung
des Benutzers in Abhängigkeit von den häufig benutzten
Schlüsselworten 3a und der Art, in welcher die Schlüsselworte
3a benutzt werden, allmählich nahe. Mit anderen Worten,
eine dynamische Schlüsselwort-Verbindung wird nach und nach
gebildet.
Im allgemeinen ist eine maximale Anzahl von Schlüsselwort-
Verbindungen, welche N Schlüsselworte verbinden, (N ²-N)/2.
In der vorliegenden Beschreibung verweist der Beziehungsname
"also known as" auf Schlüsselworte, welche verschieden
ausgesprochen werden, aber dasselbe Ding bedeuten, wie
"optical character reader" (optischer Zeichenleser) oder
"OCR". Außerdem verweist der Beziehungsname "synonym" auf
Schlüsselworte, welche ähnliches bedeuten, wie "close"
(nahe) oder "near" (nahe). Ferner weist die Beziehungsrichtung
auf die Richtung hin, in welcher zwei Beziehungsnamen
Bezug zueinander haben, wenn die zwei Beziehungsnamen beispielsweise
durch eine IS-PART-OF-Beziehung Bezug zueinander
haben.
Eine Beziehung zwischen zwei beliebigen Schlüsselworten 3a
kann mit Hilfe der Information in dem Beziehungsnamen und
dem Beziehungswert der Schlüsselwort-Verbindung (direkte
Schlüsselwort-Verbindung) 3b bestimmt werden, welche tatsächlich
in einer Schlüsselwortlage 3 existiert. Außerdem
kann eine "Schlüsselwort-Relevanz", welche die Amplitude
der Beziehung zwischen der von dem Benutzer bestimmten
Schlüsselwortgruppe und jedem der Schlüsselworte anzeigt,
die in dem Dokumenten-Wiedergewinnungssystem registriert
sind, und eine "Textrelevanz", welche die Amplitude der
Beziehung zwischen der von dem Benutzer bestimmten Schlüsselwortgruppe
und jedem in der Dokumenten-Wiedergewinnungs
vorrichtung registrierten Text anzeigt, als eine Funktion der
vorstehend erwähnten Beziehung festgelegt werden. Wenn die
Beziehung zwischen zwei beliebigen Schlüsselworten 3a,
die Relevanz von Schlüsselworten und die Textrelevanz erhalten
werden, kann der Benutzer die Schlüsselwortgruppe
dementsprechend für den Gegenstand durch die Wechselwirkung
zwischen dem Benutzer und dem Dokumenten-Wiedergewinnungs
verfahren bzw. -vorrichtung verfeinern, wenn die Schlüsselwortgruppe richtig für
das Dokument gewählt wird, welches wiederzugewinnen ist.
Die dynamische Schlüsselwortverbindung kann durch eine in
Fig. 4 dargestellte Schlüsselwort-Verbindungstabelle verwaltet
werden. In Fig. 4 gibt es M Schlüsselworte KW₁ bis
KWM in der Schlüsselwort-Verbindungstabelle; beispielsweise
bezeichnet RI₁₂ die Beziehungsinformation zwischen den
Schlüsselworten KW₁ und KW₂ und RI1M die Beziehungsinformation
zwischen den Schlüsselworten KW₁ und KWM .
Als nächstes wird eine Ausführungsform des Dokumenten-Wiedergewinnungs
verfahrens bzw. -vorrichtung (nachfolgend "-system" genannt) gemäß der Erfindung anhand von Fig. 2
beschrieben. Fig. 3A zeigt ein Dokument, welches in dieser
Ausführungsform registriert wird, während Fig. 3B dessen
bibliographische Information und Fig. 3A dessen Schlüsselworte
wiedergibt.
Wenn ein Dokument 11, welches zu registrieren ist, eingegeben
wird, extrahiert ein Schlüsselwort-Extrahiereinrichtung 10
Schlüsselworte aus der zu registrierenden Vorlage 11. Die
extrahierten Schlüsselworte und das zu registrierende
Dokument werden dann einem Dokumenteninformations-Manager
20, einer weiteren Einrichtung bzw. einem Schlüsselwort-Verbindungstabellen-Prozessor 30
und einer Einrichtung 40 zur Erzeugung invertierter Dateien bzw. einem invertierten Datei-Generator 40 zugeführt.
Der Dokumenten-Informations-Manager 20 speichert das zu
registrierende Dokument 11 und die Schlüsselworte sowie die
bibliographische Information des zu registrierenden Dokuments
11 in einer Datei 21 in Form einer Datenbank, welche
leicht zugänglich ist, wenn die Dokumenten-Wiedergewinnung
durchgeführt wird. Die Datei 21 entspricht der in Fig. 2
dargestellten Dokumenten-Datenbasis oder -bank 2.
Der Prozessor 30 erzeugt in Fig. 5 bis 8 dargestellte Schlüsselwort-
Verbindungstabellen durch Tabellieren der notwendigen
Schlüsselworte und der Schlüsselwortverbindungen (der Beziehungsinformation)
und speichert diese Schlüsselwort-
Verbindungstabellen in einer Datei 31. Die Datei 31 entspricht
der in Fig. 1 dargestellten Schlüsselwortlage 3.
Der Inhalt der Datei 31 wird zu der dynamischen Schlüsselwortverbindung
auf nachfolgend beschriebene Weise verfeinert.
Das heißt, eine in Fig. 5 dargestellte Schlüsselwort-
Verbindungstabelle hat Anfangswerte, bevor die Dokumenten-
Registrierung eine in Fig. 6 dargestellte Tabelle wird,
welche direkte Schlüsselwort-Verbindungen nach der Dokumenten-
Registrierung zeigt. Eine in Fig. 7 dargestellte Tabelle
wird als nächstes erhalten, indem indirekte Schlüsselwort-
Verbindungen und deren Beziehungen hinzugefügt werden.
Eine in Fig. 8 dargestellte Tabelle wird schließlich dadurch
erhalten, daß Lernkoeffizienten hinzugefügt werden.
Wie später noch beschrieben wird, wird, wenn die endgültige
Schlüsselwortgruppe in Fig. 7 "company R", "communication",
"image" und "nerve cell" enthält, ein Lernkoeffizient "+5"
zu Teilen in Fig. 7 hinzugefügt, welche schraffierten Teilen
entsprechen, und ein Lernkoeffizient "+10" wird zu Teilen in
Fig. 7 hinzugefügt, welche dunkel schraffierten Teilen in Fig.
8 entsprechen.
Die Anfangswerte in der in Fig. 5 dargestellten Schlüsselwort-
Verbindungstabelle werden auf beliebige Werte gesetzt,
die beispielsweise auf Erfahrung basieren. Die Wahrscheinlichkeit,
daß "company R" ein "Unternehmen" ist, ist hoch,
und der Beziehungswert wird daher anfangs auf "90" gesetzt.
Jedoch kann "BTT" ein Firmenname oder eine Abkürzung für
irgend etwas sein. Daher ist die Wahrscheinlichkeit, daß
"BTT" ein "Unternehmen" ist, geringer als die Wahrscheinlichkeit,
daß "company R" ein "Unternehmen" ist, und der
Beziehungswert wird daher anfangs auf "50" gesetzt. Wie
später noch beschrieben wird, kann eine unangebrachte
Anfangseinstellung der Beziehungswerte durch eine Lernfunktion
noch korrigiert werden, was in der vorliegenden
Beschreibung später noch beschrieben wird. Mit anderen
Worten, es gibt keine strengen Anforderungen bezüglich der
Anfangseinstellung der Beziehungswerte.
Der Generator 40 erzeugt eine invertierte Datei, um die Kennworte
entsprechend dem zu registrierenden Dokument 11 herzustellen
und speichert die erzeugte invertierte Datei in
einer Datei 41. Die Datei 41 entspricht der in Fig. 1 dargestellten
invertierten Datei 4.
Eine Wähleinrichtung bzw. ein Dokumenten-Selektor 50 wird verwendet, um einen Dokumententext
zu extrahieren, welcher dem geforderten Sachgebiet
und einem geforderten Konzept des Benutzers durch
Verwenden einer Schlüsselwortgruppe am nächsten kommt. Der
Dokumenten-Selektor 50 stellt eine Liste von Schlüsselworten
auf einer Anzeigeeinrichtung 70 bezüglich des Benutzers dar,
welcher einen Zugriff von einer Eingabetastatur 60 aus hat.
Der Benutzer wählt die Schlüsselworte, welche für das geforderte
Sachgebiet benötigt werden, aus der Liste
Schlüsselworte aus oder wählt freie Schlüsselworte, und gibt
eine Anzeige-Wiedergewinnungsanforderung von der Eingabetastatur
60 aus ein. Der Selektor 50 hat einen Textrelevanz-
Berechnungsteil 51 (der nachstehend der Einfachheit halber
als ein Textrelevanz-Kalkulator bezeichnet wird), einen
Schlüsselwort-Beziehungs- und -Relevanz-Berechnungsteil 52
(welcher nachstehend der Einfachheit halber als Kennwort-
Beziehungs-/Relevanz-Kalkulator bezeichnet wird), einen Sortierer
53, einen Anforderungsprozessor 54 und eine Anzeige-
Steuereinheit 55.
Zuerst überträgt der Prozessor 54 von der Tastatur 60 erhaltene
Schlüsselworte an den Schlüsselwort-Beziehungs-/
Relevanz-Kalkulator 52, um so die Schlüsselworte, welche
sich auf das empfangene Schlüsselwort beziehen, aus der
Kennwort-Verbindungstabelle auszuwählen. Beispielsweise
sind die Schlüsselworte "company R" und "communication"
die erhaltenen Schlüsselworte, die an den Kalkulator 52
übertragen worden sind.
Der Kalkulator 52 extrahiert aus der in Tabelle 6 dargestellten
Schlüsselwort-Verbindungstabelle die diesbezüglichen
Schlüsselworte, welche sich auf "company R" und "communication"
beziehen, und auch die Beziehungswerte. Mit anderen
Worten, die in Fig. 6 dargestellte Schlüsselwort-Verbindungstabelle
wird mit Hilfe der zwei Schlüsselworte "company R"
und "communication" durchgesehen, und die Beziehungsinformation,
wie ["company R", "BTT" (technischer Zusammenhang)],
["company R", "communication" (Untersuchung und Entwicklung)],
["company R", "nerve cell" (einschließlich desselben Textes)],
["company R", "enterprise" (Unternehmen) (IS-A)], ["company
R", "image" (einschließlich desselben Textes)], ["communication",
"nerve cell" (Synonym)] u. ä. werden erhalten.
Der Schlüsselwort-Beziehungs-/Relevanz-Kalkulator 52 berechnet
den Wert der Beziehung zwischen zwei beliebigen Schlüsselworten
aus dem Beziehungsnamen und der Beziehung der
direkten Schlüsselwort-Verbindung, welche in der Schlüsselwortlage
besteht, und speichert den berechneten Beziehungswert
in der Schlüsselwort-Verbindungstabelle. Wenn keine
direkte Beziehung zwischen den zwei beliebigen Schlüsselworten
existiert, aber ein oder mehrere indirekte Beziehungen
zwischen den zwei beliebigen Schlüsselworten über eine oder
mehrere Schlüsselworte bestehen, wird in diesem Fall gesagt,
daß eine "indirekte Schlüsselwort-Verbindung" besteht. Der
Beziehungswert der indirekten Schlüsselwortbeziehung kann
basierend auf der Berechnungsformel berechnet werden, die
verwendet wird, um den Wert der Beziehung zwischen zwei beliebigen
Schlüsselworten zu berechnen. Es wird dann gesagt,
daß der Beziehungswert "0" ist, wenn eine direkte Schlüsselwortverbindung
noch eine indirekte Schlüsselwort-Verbindung
zwischen den zwei beliebigen Schlüsselworten besteht.
Als nächstes wird eine Form einer Formel zum Berechnen des
Beziehungswerts einer Schlüsselwort-Verbindung beschrieben,
welche zwei beliebige Schlüsselworte verbindet. Eine Beziehung
RREL [Kp, Rq] einer Schlüsselwort-Verbindung (p, q) zwischen
zwei beliebigen Schlüsselworten Kp und Kq kann mit
Hilfe eines Beziehungsnamens Nÿ und eines Beziehungswerts
Sÿ einer Schlüsselwortverbindung (i, j) ∈ UCALL zwischen
Schlüsselworten Ki und Kj definiert werden, welche in der
Schlüsselwortlage vorhanden sind, wobei UCALL einen Satz
Schlüsselwortverbindungen zwischen den Schlüsselworten Ki
und Kj in der Schlüsselwortlage und Kp, Kq, Ki bzw. Kj
Schlüsselworte p, q, i und j bezeichnen. Die folgende Formel
(1) definiert die Beziehung KREL [Kp, Kq]:
KREL [Kp, Kq] = f [Sÿ, Nÿ, p, q] (1)
Die Funktion f [Sÿ, Nÿ, p, q], welche die Beziehung
KREL [Kp, Kq] festlegt, kann entsprechend verschiedenen
Methoden erhalten werden, und eine Form dieser Methoden
wird nachstehend beschrieben.
Wenn eine direkte Schlüsselwortverbindung
zwischen zwei Schlüsselworten Kp und Kq besteht, kann
die Funktion f [Sÿ, Nÿ, p, q] durch die folgende
Formel (2) beschrieben werden, wobei AMP [Nÿ] einen Wichtungskoeffizienten
bezeichnet und sich in Abhängigkeit
von dem Beziehungsnamen unterscheidet.
f [Sÿ, Nÿ, p, q] = Sÿ × AMP [Nÿ] (2)
Beispielsweise kann der Wichtungskoeffizient AMP [Nÿ]
folgendermaßen durch Nÿ ausgedrückt werden:
(Fall Nÿ ("also known as" (SETQ AMP [Nÿ] 1,0)) ("synonym"
(SETQ AMP [Nÿ] 0,8)) ("antonym" (SETQ [Nÿ] - 0,5))) .
Die folgende Feststellung bedeutet, daß "1,0" ersetzt wird
durch AMP [Nÿ], wenn Nÿ "also known as" ist, "0,8" wird
ersetzt durch AMP [Nÿ], wenn Nÿ "synonym" ist, und "-0,5"
wird ersetzt durch AMP [Nÿ], wenn Nÿ "antonym" ist.
Wenn kein direktes Schlüsselwort zwischen den
Schlüsselworten Kp und Kq besteht, aber eine oder mehrere
indirekte Schlüsselwortverbindungen zwischen den zwei Kennworten
Kp und Kq bestehen, kann die Funktion f [Sÿ, Nÿ,
p, q] durch die folgende Formel (3) beschrieben werden, wobei
C₁ bis Cn Zahlen von indirekten Schlüsselwortverbindungen
bezeichnen, UCk einen Satz von direkten Schlüsselwortverbindungen
bezeichnet, welche indirekte Schlüsselwortverbindungen
Ck darstellen, Σ eine Gesamtsumme der direkten
Schlüsselwortverbindungen (i, j) einschließlich UCk bezeichnet,
und MIN einen Minimalwert der Beziehungswerte
zwischen den n indirekten Schlüsselwortverbindungen C₁ bis
Cn bezeichnet.
Wenn keine direkte Schlüsselwortverbindung
zwischen den zwei Schlüsselworten Kp und Kq besteht und
keine indirekte Schlüsselwortverbindung zwischen den zwei
Schlüsselworten Kp und Kq besteht, kann die Funktion
f [Sÿ, Nÿ, p, q] durch die folgende Formel (4) beschrieben
werden.
f [Sÿ, Nÿ, p, q,] = 0 (4)
Die Fälle (I), (II) und (III) sind in Fig. 10 für die
Schlüsselwortlage mit den in Fig. 9 dargestellten Schlüsselworten-
Verbindungen dargestellt. In Fig. 9 bezeichnen
bis jeweils Schlüsselworte. Sie sind direkte oder indirekte
Schlüsselwortverbindungen in einer Gruppe, welche
aus den Schlüsselworten bis gebildet ist, und sie sind
direkte oder indirekte Schlüsselwortverbindungen in einer
Gruppe, welche aus den Schlüsselworten bis gebildet ist.
Jedoch besteht keine direkte noch eine indirekte Schlüsselwort-
Verbindung zwischen diesen zwei Gruppen. In Fig. 10
ist [Kp, Kq] der Einfachheit halber durch [p-q] bezeichnet.
Nunmehr wird die Bedeutung der Formel (II) bis (IV) hinsichtlich
der Berechnung der Beziehungswerte der Schlüsselwort-
Verbindung zwischen zwei beliebigen Schlüsselworten
beschrieben. Die Schlüsselwort-Lage ist eine Ausführung
eines Graphen der Schlüsselwortverbindungen mit der Beziehungsinformation
zwischen den Schlüsselworten in Form
einer Anordnung oder Tabelle. Der Graph ist normalerweise
nicht ein kompletter Graph. Mit anderen Worten, nicht alle
Schlüsselworte haben notwendigerweise eine Schlüsselwortverbindung
zu allen verbleibenden Schlüsselworten. Folglich
ist es möglich, einen imaginären kompletten Graphen zu betrachten,
der eine Schlüsselwortverbindung als eine Beziehung
zwischen zwei beliebigen Schlüsselworten hat. Dies ist
ein Äquivalent zum Berechnen des Beziehungswertes der
Schlüsselwort-Verbindung zwischen den zwei beliebigen Kennworten
mit der indirekten Schlüsselwort-Verbindung durch
Benutzen der Verbindungsinformationen, welche in der Schlüsselwort-
Lage besteht.
Wenn folglich eine direkte Schlüsselwortverbindung (p, q)
zwischen zwei beliebigen Schlüsselworten Kp und Kq besteht,
kann der Beziehungswert der direkten Schlüsselwortverbindung
(p, q) aus der Formel (2) dadurch erhalten werden, daß
Wichtungskoeffizienten einfach mit dem Beziehungswert Sÿ
multipliziert werden, wobei die Wichtungskoeffizienten in
Abhängigkeit von dem Beziehungsnamen Nÿ unterschiedlich
sind.
Wenn andererseits eine Anzahl indirekter Schlüsselwortverbindungen
bestehen, kann deren Beziehungswert aus der Formel
(3) für jede der indirekten Schlüsselwortbeziehungen berechnet
werden, und es wird ein optimaler Wert aus den berechneten
Werten erhalten. Der Term (Sÿ×AMP [Nÿ])-1 ist eine
inverse Zahl des Beziehungswerts KREL [Ki, Kj] einer bestimmten
direkten Schlüsselwortverbindung (i, j), welche in dem
Satz UCk enthalten ist. Der Bewertungswert der indirekten
Schlüsselwort-Verbindung Ck zwischen den Schlüsselworten
Kp und Kq wird dadurch erhalten, daß der Term
(Sÿ×AMP [Nÿ])-1 für alle die direkten Schlüsselwortverbindungen
(ÿ) UCk addiert wird. Der Dimension des Bewertungswertes
ist 1/(Beziehungswert). Der Bewertungswert
wird für alle die n indirekten Verbindungen C₁ bis Cn berechnet,
und eine umgekehrte Zahl eines Minimalwertes der
berechneten Bewertungswerte wird als der Beziehungswert
KREL [Ki, Kj] der indirekten Schlüsselwortverbindung erhalten.
Wenn die in Fig. 6 dargestellte Beziehungsinformation indirekte
Schlüsselwortverbindungen sind, und der Wichtungskoeffizient
der Einfachheit halber mit "1,0" angenommen
wird, wird die in Fig. 7 dargestellte Schlüsselwort-Verbindungstabelle
erhalten. Die in Fig. 7 dargestellte Tabelle
zeigt die indirekten Schlüsselwortverbindungen und deren
Beziehungswerte, die aus Fig. 6 erhalten worden sind.
In Fig. 7 werden sechs indirekte Schlüsselwortverbindungen
erzeugt. Diese sechs indirekten Schlüsselwortverbindungen
entsprechen dem vorstehend beschriebenen Fall (II) und
werden aus der Formel (III) berechnet. Beispielsweise sind
die Berechnungsschritte für die indirekte Schlüsselwortverbindung
zwischen den Schlüsselworten "enterprise" und
"communication" die folgenden:
Mit anderen Worten das folgende sind Beispiele der Wege
zwischen den Schlüsselworten "enterprise" und "communication"
- (1) "enterprise" → "company R" → "communication"
- (2) "enterprise" → "BTT" → "communication"
- (3) "enterprise" → "company R" → "BTT" → "communication"
- (4) "enterprise" → "company R" → "nerve cell" → "communication"
- (5) "enterprise" → "BTT" → "company R" → "communication"
Der Beziehungswert der indirekten Schlüsselworteverbindungen
wird größer, wenn eine Anzahl dazwischenliegender Schlüsselworte
in dem Weg zwischen den zwei Schlüsselworten "enterprise"
und "communication" kleiner wird. Folglich kann erwogen
werden, daß der oben angegebene Weg (1) oder (2) das Minimum
(MIN ) der umgekehrten Zahl der Formel (3) ist. Die berechneten
Werte für die zwei Wege (1) und (2) werden folgende:
- (1) "enterprise " company R" communication".
Folglich gilt: Σ (Sÿ × AMP[Nÿ])-1 = 1/90 + 1/30 = 4/90 . - (2) "enterprise" "BTT" communication".
Somit gilt: Σ (Sÿ × AMP[Nÿ])-1 = 1/50 + 1/40 = 9/200 .
Daher ergibt sich:
KREL ["enterprise", "communication")
= (MIN Σ (Sÿ × AMP[Nÿ])-1)-1
= 90/40 = 22,5 .
KREL ["enterprise", "communication")
= (MIN Σ (Sÿ × AMP[Nÿ])-1)-1
= 90/40 = 22,5 .
Zusätzlich extrahiert der Schlüsselwort-Beziehungs-/Relevanz-
Kalkulator 52 die diesbezüglichen Schlüsselworte, welche
sich auf "company R" und "communication" beziehen und extrahiert
auch die Beziehungswerte aus der in Fig. 7 dargestellten
Schlüsselwort-Verbindungstabelle und berechnet die Relevanz
der Worte. Zuerst werden die zwei Schlüsselworte "company
R" und "communication" benutzt, um die in Fig. 7 dargestellte
Schlüsselwort-Verbindungstabelle durchzusehen, um
neue Beziehungsinformationen zu extrahieren, welche sich
auf die zwei bestimmten Schlüsselworte beziehen. Die neun
Beziehungsinformationen sind ["company R", "BTT" (technischer
Zusammenhang, 50)], ["company R", "communication" (Untersuchung
und Entwicklung 30)], ["company R", "nerve cell"
(einschließlich demselben Text, 80)], ["company R", "enterprise"
(IS-A, 90)], ["company R", "image" (einschließlich
demselben Text, 80)], ["communication", "BTT" (Untersuchung
und Entwicklung, 40)], ["communication", "nerve cell" (Synonym,
20)], ["communication", "enterprise" (indirekt, 22,5)]
und ["communication", "image" (indirekt, 21,8)]. Eine beliebige
Schlüsselwort-Relevanz kann mit Hilfe dieser Beziehung
erhalten werden. In Fig. 7 ist die indirekte Beziehungsinformation
durch Schraffieren angezeigt.
Als nächstes wird nunmehr das Verfahren zum Berechnen der
Schlüsselwort-Relevanz beschrieben. Eine Relevanz KC des
Schlüsselworts Kp kann durch die folgende Formel (5) beschrieben
werden, wobei KCLISTS einen Satz Schlüsselwortgruppen
bezeichnet, für welche die Berechnung der Schlüsselwort-
Relevanz durchzuführen ist, und Σ bezeichnet eine Gesamtsumme
von KREL, wenn die Schlüsselworte, welche in KCLISTS enthalten
sind, durch Kq ersetzt werden. Dieser Satz KCLISTS
wird durch den Benutzer bestimmt.
In dem Fall, wo KCLISTS = ("company R", "communication")
ist, kann die Relevanz KC des Schlüsselwortes "BTT" folgendermaßen
berechnet werden:
KC [BTT, ("company R", "communication")]
= KREL [Kp, Kq]
= KREL [BTT, company R] + KREL [BTT, communication]
= 50 + 40 = 90 .
= KREL [Kp, Kq]
= KREL [BTT, company R] + KREL [BTT, communication]
= 50 + 40 = 90 .
Genauso kann die Relevanz KC der Schlüsselworte "nerve cell",
"enterprise" und "image" berechnet werden, um KC [nerve cell,
("company R", "communication")] = 100, KC [enterprise, ("company
R", "communication")] = 112,5 und KC [image, ("company
R", "communication")] = 101,8 zu erhalten.
Der Sortierer 53 sortiert die Gruppe der diesbezüglichen
Schlüsselworte, welche aus dem Kalkulator 52 in einer Folge,
die von dem diesbezüglichen Schlüsselwort mit dem größten
Beziehungswert beginnt und bis zu dem diesbezüglichen
Schlüsselwort mit dem kleinsten Beziehungswert reicht, erhalten
werden. Die sortierte Gruppe der diesbezüglichen
Schlüsselworte wird der Tabellen-Steuereinheit 55 zugeführt.
Die Tabellen-Steuereinheit 55 gibt die Gruppe der diesbezüglichen
Schlüsselworte an die Anzeigeeinrichtung 50 ab, wo
sie von dem Benutzer überwacht werden.
Auf diese Weise kann der Benutzer das geforderte Sachgebiet
und Konzept in der Schlüsselwortgruppe durch den wechselweisen
Betrieb zwischen dem Benutzer und dem Dokumenten-Wiedergewinnungssystem
beeinflussen. Die Schlüsselwortgruppe wird
durch Wiederholen des wechselseitigen Betriebs verfeinert,
und die endgültige Schlüsselwortgruppe wird erhalten. Beispielsweise
wählt der Benutzer die Schlüsselworte "company
R", "communication", "image" und "nerve cell" als die endgültige
Schlüsselwortgruppe aus, und diese endgültige Schlüsselwortgruppe
wird zusammen mit der Dokumenten-Auswahlanforderung
an den Anforderungsprozessor 54 geliefert.
Wenn der Prozessor 54 die Dokumenten-Auswahlanforderung erhält,
überträgt der Prozessor 54 die Schlüsselwortgruppe an
den Textrelevanz-Kalkulator 51. Gleichzeitig instruiert der
Anforderungsprozessor 54 den Schlüsselwort-Verbindungsprozessor
52, die Beziehungswerte zu addieren, welche zu der endgültigen
Schlüsselwortgruppe Bezug haben. Mit anderen Worten,
die Beziehungswerte aller Schlüsselwortverbindungen, welche
zu den Schlüsselworten Beziehung haben, welche in der
Schlüsselgruppe, die erhalten worden ist, wenn die Vorlagen-
Auswahlanforderung empfangen worden ist, enthalten sind,
werden zu dem Lernkoeffizienten von beispielsweise +5 addiert,
um so die Schlüsselwort-Verbindungstabelle zu erneuern.
Wenn die vorhandene Schlüsselwort-Verbindungstabelle
diejenige ist, welche in Fig. 7 dargestellt ist, und die bestimmte
Schlüsselwortgruppe, die vier Schlüsselworte "company
R", "communication", "image" und "nerve cell" enthält,
wird die in Fig. 8 dargestellte Schlüsselwort-Verbindungstabelle
dadurch erhalten, daß der Lernkoeffizient "+5" zu den
Beziehungswerten der Schlüsselwort-Verbindungen addiert
wird, welche zu diesen vier Schlüsselworten einen Bezug haben.
Der Lernkoeffizient "+5" wird addiert, wenn nur eines
der Schlüsselworte an den Enden der Schlüsselwortverbindung
bestimmt ist, und der Lernkoeffizient "+10" wird addiert,
wenn beide Schlüsselworte an den Enden der Schlüsselwortverbindung
bestimmt werden.
Wenn die Schlüsselwort-Verbindungstabelle erneuert wird,
wird auch eine neue Schlüsselwortverbindung, welche vor der
Dokumenten-Wiedergewinnung nicht existiert, erzeugt. Der
neuen Schlüsselwortverbindung wird ein Beziehungsname
"access" (Zugriff) und ein vorherbestimmter Anfangswert von
beispielsweise "50" als der Beziehungswert gegeben.
Der Textrelevanz-Kalkulator 51 benutzt die empfangene Schlüsselwortgruppe
und die in Fig. 7 dargestellte Schlüsselwort-
Verbindungstabelle, um die Textrelevanz für das zu registrierende
Dokument 11 zu berechnen, und überträgt das berechnete
Ergebnis an den Sortierer 53. Beispielsweise kann die Textrelevanz
dadurch berechnet werden, daß eine Gesamtsumme der Beziehungswerte
zwischen den ausgewählten Schlüsselworten und
den in der Datei 21 gespeicherten Schlüsselworten erhalten
wird und die Gesamtsumme normiert wird. Wenn die ausgewählten
Schlüsselworte beispielsweise "company R", "communication",
"image" und "nerve cell" sind, wird die Textrelevanz
für diese vier ausgewählten Schlüsselworte und das in Fig. 3A
dargestellte, zu registrierende Dokument folgendermaßen berechnet.
Das heißt, die vier ausgewählten Schlüsselworte
werden verwendet, um die in Fig. 7 dargestellte Schlüsselwort-
Verbindungstabelle durchzusehen, und die Beziehungswerte
"80" für ["company R", "nerve cell"], "80" für ["company
R", "image"], "30" ["communication", "company R"], "20"
für ["communication", "nerve cell"], "80" für ["image", "company
R"], "80" für ["image", "nerve cell"], "80" für ["nerve
cell", "company R"] und "80" ["nerve cell", "image"] werden
erhalten. Die Beziehungswerte werden addiert, um die Gesamtsumme
"530" (= 80 + 80 + 30 + 20 + 80 + 80 + 80 + 80)
zu erhalten. Wenn außerdem die ausgewählten Schlüsselworte, wie
"company R", "image" und "nerve cell" selbst in der in Fig. 3C
dargestellten Schlüsselwortgruppe des zu registrierenden Dokuments
11 enthalten sind, wird "100" zu den Beziehungswerten
jeder dieser drei ausgewählten Schlüsselworte hinzuaddiert.
Die Gesamtsumme "530", welche mit "100×3" addiert
worden ist, wird dadurch normiert, daß durch vier geteilt
wird, welches die Anzahl an ausgewählten Schlüsselworten
ist. Folglich ist der normierte Wert "207,5" (=[530+
(100×3)]/4). Die Textrelevanz wird auf diese Weise für alle
die registrierten Texte berechnet, dann sortiert, um auf der
Anzeigeeinrichtung 70 dargestellt zu werden.
Folglich werden gemäß der in Fig. 2 dargestellten Ausführungsform
das zu registrierende Dokument 11, welches durch
den Schlüsselwort-Extraktionsteil 10 und dessen bibliographische
Information 12 erhalten worden ist, in den Dokumenten-
Informationsmanager 20 eingegeben. Außerdem liefert der
Schlüsselwort-Extraktionsteil 10 das zu registrierende Dokument
11 und die daraus extrahierten Schlüsselworte an den
Schlüsselwort-Verbindungstabellen-Prozessor 30 und an den Generator
40 für die invertierte Datei. In dem Prozessor 30
wird eine neue Beziehungsinformation zu der Schlüsselwort-
Verbindungstabelle addiert, was auf der Beziehung, wie beispielsweise
"including same text" basiert. Wenn beispielsweise
die Schlüsselwort-Verbindungstabelle vor der Dokumentenregistrierung
so ist, wie in Fig. 5 dargestellt und der in
Fig. 3A dargestellte Dokumententext registriert ist, wird die
Kennwort-Verbindungstabelle so, wie in Fig. 6 dargestellt. In
Fig. 6 werden drei neue Verbindungen hinzugefügt. Diese drei
neuen Verbindungen sind ["company R", "nerve cell" (einschließlich
desselben Textes, 80)], ["company R", "image"
(einschließlich desselben Textes, 80)] und ["nerve cell",
"image" (einschließlich desselben Textes, 80)]. Andererseits
werden in dem umgekehrten Datei-Generator 40 die entsprechenden
Beziehungen zwischen den neuen Schlüsselworten und den
registrierten Dokumententexten zu der invertierten Datei hinzugefügt.
In dem Dokumenten-Auswählteil 50 erhält der Anforderungsprozessor
54 zuerst die Anzeige- und Wiedergewinnungsanforderungen
von dem Benutzer. Im Falle der Schlüsselwort-Anzeigeanforderung
werden die Ergebnisse, welche von dem Kalkulator 52
erhalten worden sind, in dem Sortierer 53 sortiert, und die
Anzeigesteuereinheit 55 stellt eine Liste von Schlüsselworten
auf der Anzeigeeinrichtung 70 dar. Andererseits werden
im Falle der Text-Anzeigeanforderung die Ergebnisse, welche
von dem Kalkulator 51 erhalten worden sind, in dem Sortierer
53 sortiert, und die Anzeigesteuereinheit 55 stellt eine
Liste von Texten auf der Anzeigeeinrichtung 70 dar. Wenn der
Benutzer eine Anzahl Schlüsselworte bestimmt, wird zuerst
eine Schlüsselwortliste mit einer strengen Beziehung zu den
benannten Schlüsselworten auf der Anzeigeeinrichtung 70 dargestellt.
Aus diesem Grund kann der Benutzer wieder Schlüsselworte
aus der dargestellten Liste auswählen. Durch Wiederholen
einer solchen Operation zum Auswählen der Schlüsselworte
kann der Benutzer nach und nach die Schlüsselwortgruppe
verfeinern, die sich für das Dokument eignet, welches
wiederzugewinnen ist.
Der Betrieb des in Fig. 2 dargestellten Dokumenten-Auswählteils
50 kann mittels eines Computers durchgeführt werden,
und nunmehr wird die Arbeitsweise eines solchen Computers
beschrieben. In Fig. 11ist eine Ausführungsform eines Betriebs
eines Computers zum Durchführen der Funktionen des in
Fig. 2 dargestellten Anforderungsprozessors 54 dargestellt.
In Fig. 11 wird beim Schritt S1 unterschieden, ob eine Anforderung
von der Eingabetastatur 60 aus eingegeben ist oder
nicht. Wenn das Ergebnis beim Schritt S1 ja wird, wird beim
Schritt S2 unterschieden, ob die Anforderung eine Anforderung
zum Berechnen der Schlüsselwort-Relevanz ist oder nicht.
Wenn das Ergebnis beim Schritt S2 ja ist, wird beim Schritt
S3 der Kalkulator 52 instruiert, eine Liste der Schlüsselwort-
Relevanz an den Sortierer 53 zu liefern. Beim Schritt
S4 werden dann an den Kalkulator 52 die Wiedergewinnungsbedingungen,
wie beispielsweise die Schlüsselworte, transferiert.
Wenn das Ergebnis beim Schritt S2 nein ist, wird beim
Schritt S5 unterschieden, ob die Anforderung eine Anforderung
zum Berechnen der Textrelevanz ist oder nicht. Wenn das
Ergebnis beim Schritt S5 ja ist, wird beim Schritt S6 der
Kalkulator 52 instruiert, die Liste der Schlüsselwort-Relevanz
an den Textrelevanz-Kalkulator 51 zu liefern. Es wird
dann bei dem Schritt S4 weitergemacht.
Wenn das Ergebnis beim Schritt S5 nein ist, wird beim
Schritt S7 unterschieden, ob die Anforderung eine Anforderung
zum Anzeigen des Inhalts des Dokumententextes ist oder
nicht. Beim Schritt S8 wird die Dokumentennummer an die Anzeige-
Steuereinheit 55 übertragen, wenn das Ergebnis beim
Schritt S7 ja ist. Wenn dagegen das Ergebnis beim Schritt S7
nein ist, wird beim Schritt S9 unterschieden, ob die Anforderung
eine Endanforderung ist oder nicht. Das Verfahren ist
beendet, wenn das Ergebnis beim Schritt S9 ja ist; jedoch
wird beim Schritt S10 eine Nachricht an die Anzeige-Steuereinheit
55 geliefert, einen Anforderungsfehler auf der Anzeigeeinrichtung
70 anzuzeigen, wenn das Ergebnis beim Schritt
S9 nein ist.
In Fig. 12 ist eine Form einer Arbeitsweise eines Computers
zum Durchführen der Funktionen des in Fig. 2 dargestellten
Schlüsselwort-Beziehungs-/Relevanz-Kalkulators 52 dargestellt.
In Fig. 12 wird beim Schritt S11 unterschieden, ob
eine Eingabe von dem Anforderungsprozessor 54 festgestellt
wird oder nicht. Wenn das Ergebnis beim Schritt S11 ja ist,
wird beim Schritt S12 unterschieden, ob der festgestellte
Eingang die Anforderung zum Berechnen einer Textrelevanz ist
oder nicht. Wenn das Ergebnis beim Schritt S12 ja ist, wird
beim Schritt S13 die Textrelevanz für alle Schlüsselworte
auf der Basis der Schlüsselwort-Verbindungstabelle und der
Wiedergewinnungsbedingungen, welche die Schlüsselworte einschließen,
berechnet. Dann wird beim Schritt S14 die Textrelevanz
für alle Schlüsselworte an den Sortierer 53 geliefert.
Wenn jedoch das Ergebnis beim Schritt S12 nein ist, wird
beim Schritt S15 unterschieden, ob der festgestellte Eingang
die Anforderung zum Berechnen der Schlüsselwortrelevanz ist
oder nicht. Wenn das Ergebnis beim Schritt S15 ja ist, wird
beim Schritt S26 die Schlüsselwortrelevanz für alle Schlüsselworte
auf der Basis der Schlüsselwort-Verbindungstabelle
und der Wiedergewinnungsbedingungen, welche die Schlüsselworte
einschließen, berechnet. Beim Schritt S17 wird dann die
Schlüsselwortrelevanz für alle Schlüsselworte an den Textrelevanz-
Kalkulator 51 geliefert.
Wenn das Ergebnis beim Schritt S15 nein ist, wird beim
Schritt S18 eine Nachricht der Anzeigesteuereinheit 55 zugeführt,
einen Anforderungsfehler auf der Anzeigeeinrichtung
70 anzuzeigen.
In Fig. 13 ist eine Form einer Betriebsweise eines Computers
zum Berechnen der Funktionen des in Fig. 2 dargestellten Textrelevanzkalkulators
beschrieben. In Fig. 13 wird beim Schritt
S21 unterschieden, ob ein Eingang von dem Schlüsselwort-Beziehungs-/
Relevanz-Kalkulator 52 festgestellt ist oder nicht.
Wenn das Ergebnis beim Schritt S21 ja ist, wird beim Schritt
S22 die Textrelevanz für jeden der registrierten Dokumententexte
auf der Basis der Schlüsselwort-Relevanzliste und der
aus der Datei 41 ausgelesenen umgekehrten Datei berechnet.
Zusätzlich wird beim Schritt S23 eine Liste von Sätzen der
Dokumenten-Textnamen und von Textrelevanzen an den Sortierer
53 geliefert, so daß diese Liste von dem Sortierer 53 an die
Anzeigesteuereinheit 55 als eine Relevanzliste von Texten
geliefert wird, welche in ihrer Reihenfolge in Abhängigkeit
von der Größe der Textrelevanz sortiert werden.
In Fig. 14 ist eine Form einer Betriebsweise eines Computers
zum Durchführen der Funktionen des in Fig. 2 dargestellten
Sortierers 53 dargestellt. In Fig. 14 wird beim Schritt S31
unterschieden, ob ein Eingang von dem Kalkulator 52 festgestellt
ist oder nicht. Wenn das Ergebnis beim Schritt S31 ja
ist, werden beim Schritt S32 die Schlüsselworte in Abhängigkeit
von der Größe der Schlüsselwortrelevanz in einer Folge
sortiert, um so eine Liste der Schlüsselworte zu bilden,
welche in der Folge der Schlüsselwortrelevanz angeordnet
sind. Beim Schritt S33 wird dann diese Liste der Anzeigesteuereinheit
55 zugeführt.
Wenn dagegen die Entscheidung beim Schritt S31 nein ist,
wird beim Schritt S34 unterschieden, ob eine Eingabe von dem
Textrelevanz-Kalkulator 51 festgestellt ist oder nicht. Wenn
das Ergebnis beim Schritt S34 ja ist, werden beim Schritt
S35 die Dokumententexte in Abhängigkeit von der Größe der
Relevanz der Texte in einer Reihenfolge sortiert, um eine
Liste der Dokumententexte zu schaffen, welche in der Reihenfolge
der Textrelevanz angeordnet sind. Beim Schritt S36
wird dann diese Liste der Anzeigesteuereinheit 55 zugeführt.
In Fig. 15 ist eine Form einer Arbeitsweise eines Computers
zum Durchführen der Funktionen der in Fig. 2 dargestellten
Anzeigesteuereinheit 55 dargestellt. In Fig. 15 wird beim
Schritt S41 unterschieden, ob eine Eingabe von dem Sortierer
53 festgestellt ist oder nicht. Wenn das Ergebnis beim
Schritt S41 ja ist, wird beim Schritt S42 unterschieden, ob
der festgestellte Eingang die Liste der Schlüsselworte ist
oder nicht, welche in der Reihenfolge der Schlüsselwort-Relevanz
angeordnet sind. Beim Schritt S43 werden die Schlüsselwortrelevanz
und die Schlüsselwortnamen auf der Anzeigeeinrichtung
70 dargestellt, wenn das Ergebnis beim Schritt S42
ja ist.
Wenn dagegen das Ergebnis beim Schritt S42 nein ist, wird
beim Schritt S44 unterschieden, ob der festgestellte Eingang
die Liste der Dokumententexte ist oder nicht, welche in der
Reihenfolge der Textrelevanz angeordnet sind. Beim Schritt
S45 werden dann die Relevanz von Texten und die Dokumententextnamen
auf der Anzeigeeinrichtung 70 angezeigt, wenn das
Ergebnis beim Schritt S44 ja ist.
Beim Schritt S46 wird eine Fehlernachricht an der Anzeigeeinrichtung
70 dargestellt, wenn das Ergebnis beim Schritt
S44 nein ist. Wenn das Ergebnis beim Schritt S41 nein ist,
wird beim Schritt S47 unterschieden, ob ein Eingang von dem
Anforderungsprozessor 54 festgestellt ist oder nicht. Wenn
das Ergebnis beim Schritt S47 ja ist, wird beim Schritt S48
auf der Anzeigeeinrichtung 70 der Inhalt des Vorlagentextes
angezeigt, welcher der Vorlagennummer entspricht, welche von
dem Anforderungsprozessor 54 empfangen worden ist.
Als nächstes wird im einzelnen die dynamische Schlüsselwortverbindung
beschrieben, welche einen wesentlichen Teil der
vorliegenden Erfindung darstellt. Ein Netzmodell mit der dynamischen
Schlüsselwortverbindung ist ein nicht-gerichteter
Graph, in welchem Schlüsselworte als Knotenpunkte Key 1 bis
Key 4 so, wie in Fig. 16 dargestellt, genommen werden, und die
Beziehungsinformation zwischen den Schlüsselworten als Bogen
A12, A13, A14, A23 und A34 genommen werden, welche die Knotenpunkte
Key 1 bis Key 4 verbinden. Die Beziehungsinformation
enthält den Beziehungsnamen und den Beziehungswert. Das Netz
selbst hat eine Lernfunktion infolge einer Selbststeuerung
der Beziehungsinformation, welche unabhängig von äußeren Anregungen
auftritt.
Der Beziehungswert zeigt die Amplitude der Beziehung an, und
dieser Beziehungswert ändert sich in Abhängigkeit von der
Zugriffshäufigkeit der Schlüsselworte (Knotenpunkte), welche
durch Schlüsselwortverbindungen (Bogen) verbunden sind. In
Fig. 17 ist die Umwandlung des Netzwerks vor und nach der Dokumentenregistrierung dargestellt.
Der Benutzer bestimmt das Schlüsselwort, wenn die Dokumentenwiederauffindung
durchgeführt wird. Das Dokumenten-Wiederauffindungssystem
ist eine Art Datenbasis-Managementsystem, welches
einen Zugriff zu dem Schlüsselwort macht und es anzeigt
und gleichzeitig einen konstanten Lernkoeffizienten zu dem
Beziehungswert der Schlüsselwortverbindung hinzufügt, welche
mit dem Schlüsselwort verbunden ist. Dieser konstante Lernkoeffizient,
welcher zu der Schlüsselwortverbindung hinzugefügt
worden ist, kann abhängig von der Datenbeziehung sein,
um so in Abhängigkeit von dem Beziehungsnamen verschiedene
Werte hinzuzufügen. Es ist natürlich auch möglich, eine Anzahl
Schlüsselworte zu bestimmen, und ähnliche Verarbeitungsvorgänge
für alle Schlüsselwortverbindungen durchzuführen,
welche mit dem Schlüsselwort verbunden sind, zu welchem der
Zugriff erfolgt ist.
Wenn der Beziehungswert einen voreingestellten Maximalwert
überschreitet, werden die Beziehungswerte aller Schlüsselwortverbindungen
normiert. Dies kann dadurch erreicht werden,
daß beispielsweise einfach ein konstanter Wert von den Beziehungswerten
subtrahiert wird. Folglich erhöht sich der
Mittelwert der Beziehungswerte der Schlüsselwortverbindungen,
welche mit den Schlüsselworten verbunden sind, zu welchen
der Zugriff erfolgt ist, häufig nach und nach, während der
Mittelwert der Beziehungswerte der Schlüsselwortverbindungen,
welche mit den Schlüsselworten verbunden sind, zu welchen
kaum ein Zugriff erfolgt, nach und nach abnimmt.
Bei einer Dokumenten-Wiedergewinnung ist es möglich, mit
Hilfe eines Schlüsselworts, welches mit dem Schlüsselwort
verbunden ist, welches durch den Benutzer durch eine indirekte
Schlüsselwortverbindung verbunden ist, welche einen
Beziehungswert hat, der größer als ein vorherbestimmter Wert
ist, eine verschwommene Bezugnahme herzustellen.
Das Dokumenten-Wiedergewinnungssystem kann erforderlichenfalls
eine "Abfall"-Sammlung der Schlüsselworte bzw. eine Löschung unerwünschter Speicherinhalte durchführen,
um die Schlüsselworte zu löschen, welche nicht oder selten
benutzt werden, um so die erforderliche Speicherkapazität
für die Schlüsselworte zu verringern. Bei einer solchen "Abfall"-
Sammlung können diese Schlüsselworte gelöscht werden,
welche Schlüsselwortverbindungen mit solchen Beziehungswerten
haben, bei welchen eine Gesamtsumme der Beziehungswerte,
ein Maximalwert der Beziehungswerte oder ein Mittelwert der
Beziehungswerte kleiner als ein vorherbestimmter Wert ist.
Eine derartige "Abfall"-Sammlung kann durch das Zusammenwirken
des Sortierers 53 und der Anzeigesteuereinrichtung 55
entsprechend einer "Abfall"-Sammlungsanforderung durchgeführt
werden, welche in dem Anforderungsprozessor 54 verarbeitet
worden ist.
Eine Anzahl Schlüsselworte kann gesammelt bzw. zusammengefügt werden,
wenn die Beziehung dieser Schlüsselworte "also known
as" und/oder "synonym" sind, die Beziehungswerte extrem groß
sind und die Schlüsselwortverbindungen einen vollständigen
Graphen bilden. Einer Menge, welche durch die gesammelten
Schlüsselworte gebildet ist, kann dann ein Mengenname gegeben
werden. Die Verwendung solcher Mengen macht die Verwaltung
der Schlüsselworte effizient, da das Innere jeder Menge
diesbezüglich in Form einer Liste beschrieben werden kann.
Fig. 18 zeigt eine Form der gesammelten Schlüsselworte. Eine
Menge 100 wird aus Schlüsselworten 101 bis 105 gebildet,
welche durch Schlüsselwortverbindungen C verbunden sind.
Eine Schlüsselwortverbindung CX kann mit einem (nicht dargestellten)
Schlüsselwort verbunden sein, um die Menge 100 mit
diesem Schlüsselwort zu verbinden, oder die Schlüsselwortverbindung
CX kann mit einer anderen (nicht dargestellten)
Menge verbunden sein, um die Menge 100 mit dieser anderen
Menge zu verbinden.
Die "Abfall"-Sammlung und die Mengenbildung bzw. -ansammlung
sind wirksame Mittel, um eine schlagartige Zunahme bei den
Kombinationen der Schlüsselworte zu verhindern. Die Dokumenten-
Textnamen einschließlich der Schlüsselworte können im
vorhinein in Form einer Liste vorbereitet werden. Die Notwendigkeit
einer adaptiven, invertierten Datei kann durch
die Größe einer Gesamtsumme der Beziehungswerte der Schlüsselwortverbindungen
festgelegt werden, welche mit den
Schlüsselworten verbunden sind. Die adaptive, invertierte
Datei kann mit Hilfe einer frei verfügbaren Zeit erzeugt
werden, nachdem der Benutzer einen neuen Text eingibt, indem
ein Wiedergewinnungsprogramm parallel zu einem Hauptprogramm
läuft.
Als nächstes wird ein automatischer Indizierungs-Trägeralgorithmus
und ein Dokumentenregistrierungs-Algorithmus
beschrieben. Zuerst wird auf einen in Fig. 17 dargestellten
Text Bezug genommen, welcher zu registrieren ist, und
Schlüsselworte , und , welche verwendet werden,
werden aus der Gruppe Schlüsselworte extrahiert, welche in
der vorliegenden Schlüsselwortlage enthalten sind. Dann
überprüft der Benutzer die extrahierten Schlüsselworte ,
und und gibt ein neues Schlüsselwort ein, das
zusätzlich zu registrieren ist, wenn der Benutzer beurteilt,
daß das neue Schlüsselwort erforderlich ist. In diesem
Fall braucht der Benutzer nicht die Klassifizierung (Indexierung)
des neuen Schlüsselworts zu bestimmen und
reicht einfach aus, das neue Schlüsselwort einzugeben.
Andererseits ist es natürlich auch möglich, automatisch die
extrahierten Schlüsselworte , und anzuzeigen und
den Benutzer die Beziehung des neuen Schlüsselworts bezüglich
der angezeigten Schlüsselworte und bestimmen
zu lassen.
Das Dokumenten-Wiedergewinnungssystem beurteilt, daß das
neue Schlüsselwort zu den extrahierten Schlüsselworten
, und Bezug hat und setzt das neue Schlüsselwort
in die Nähe der extrahierten Schlüsselworte ,
und , welche zueinander Bezug haben, wie in Fig. 17 dargestellt
ist. Danach werden neue Schlüsselwortverbindungen
zwischen dem neuen Schlüsselwort und den extrahierten
Schlüsselworten , und gebildet, welche bezug miteinander
haben.
Es ist wünschenswert, daß die Schlüsselwortverbindung sehr
von dem Vorlagentext abhängt, da die Bezugnahme auf den Vorlagentext
auf den Schlüsselworten basiert. Entsprechend dem
dynamischen Schlüsselwort-Verbindungsverfahren, das bei der
Erfindung angewendet wird, ist die Klassifizierung (Indexierung)
der Schlüsselworte nicht eindeutig und ändert sich dynamisch,
da es von dem registrierten Dokumententext abhängt.
Außerdem ist es möglich, eine Schlüsselwortverbindung zu
bilden, welche dem Vokabular oder dem Bild bzw. der Vorstellung
des Benutzers nahe kommt, und der Benutzer kann daher
interaktiv ein geeignetes Schlüsselwort auswählen, da das
Dokumenten-Wiedergewinnungssystem die Lernfunktion hat, und
die Schlüsselwortlage von selbst lernt. Ferner ist es möglich,
die Abhängigkeit des Dokumenten-Wiedergewinnungssystems
von der Bedienungsperson, welche anfangs die Schlüsselworte
registriert, vollständig auszuschließen, und es gibt keine
Notwendigkeit, die Klassifizierung (Indexierung) der Schlüsselworte
zu bestimmen. Daher schafft die vorliegende Erfindung
ein benutzerfreundliches Vorlagen-Wiedergewinnungssystem.
Durch das Erzeugen eines Schwellenwerts bezüglich der
Schlüsselwortrelevanz ist es möglich, für die Dokumenten-
Wiedergewinnung die Schlüsselworte zu benutzen, welche eine
Schlüsselwortrelevanz haben, die größer als der Schwellenwert
ist. Zusätzlich ist die Registrierung und die Wiedergewinnung
des Dokuments bei der Erfindung im Vergleich zu den
herkömmlichen Systemen, wie dem Thesaurus-Dokumenten-Wiedergewinnungssystem,
das die feste Schlüsselwortklassifizierung
(Indexierung) hat, erheblich flexibler und leichter. Dies
bedeutet, daß das Verarbeiten der Synonyme, eine verschwommene
Verarbeitung u. ä. bei der Erfindung mit hoher Geschwindigkeit
durchgeführt werden kann.
In der beschriebenen Ausführungsform wird der wiedergewonnene
Dokumententext auf der Anzeigeeinrichtung 70 dargestellt.
Jedoch ist die Einrichtung zum Ausgeben des wiedergewonnenen
Dokumententextes nicht auf die Anzeigeeinrichtung 70 beschränkt;
vielmehr kann der wiedergewonnene Dokumententext
in einem Drucker oder sowohl in einem Drucker als auch auf
einer Anzeigeeinrichtung ausgegeben werden.
Wenn die registrierten Dokumente von der Dokumenten-Datenbasis
aus wiedergewonnen werden, können ein oder eine Anzahl
registrierter Dokumente den von dem Benutzer eingegebenen
Wiedergewinnungsbedingungen genügen. Bei der beschriebenen
Ausführungsform ist jedoch der Einfachheit halber angenommen,
daß ein registriertes Dokument den Wiedergewinnungsbedingungen
genügt.
Claims (32)
1. Verfahren zur Wiedergewinnung von Dokumenten, um ein oder eine Anzahl
registrierter Dokumente aus einer Dokumenten-Datenbasis entsprechend
bestimmter Wiedergewinnungsbedingungen, welche ein oder eine Anzahl
benannter Schlüsselworte einschließen, wiederzugewinnen, bestehend aus
den folgenden Schritten:
- a) mittels einer Extrahiereinrichtung (10) werden Schlüsselworte aus jedem der zu registrierenden Dokumente extrahiert;
- b) eine Einrichtung (40) erzeugt mit den Dokumenten und den von der Extrahiereinrichtung (10) extrahierten Schlüsselworten eine invertierte Datei, die eine Beziehung zwischen den extrahierten Schlüsselworten und jedem der Dokumente aufzeigt;
- c) eine Speichereinrichtung (21, 31, 41) speichert die invertierte Datei, die extrahierten Schlüsselworte und die Dokumente als registrierte Dokumente in Form einer Dokumenten-Datenbasis;
- d) über eine Eingabeeinrichtung (60) werden mittels eines oder einer Anzahl bestimmter Schlüselworte die Wiedergewinnungsbedingungen für ein oder eine Anzahl der registrierten Dokumente festlegt;
- e) eine Wähleinrichtung (50) wählt über die invertierte Datei das oder die Anzahl registrierter Dokumente aus, die den Wiedergewinnungsbedingungen genügen, und
- f) eine Ausgabeeinrichtung (70) gibt das oder die Anzahl mittels der
Wähleinrichtung ausgewählter registrierter Dokumente aus,
gekennzeichnet durch die folgenden Schritte: - g) eine weitere Einrichtung (30) generiert aus den extrahierten Schlüsselworten eine Schlüsselwort-Verbindungstabelle (Fig. 4), die Beziehungs informationen enthält, die zwischen jeweils zwei der insgesamt extrahierten Schlüsselworte bestehen;
- h) die Speichereinrichtung (21, 31, 41) speichert die Schlüssel wort-Verbindungstabelle in der Dokumenten-Datenbasis und
- i) die Wähleinrichtung (50) wählt über die invertierte Datei registrierte Dokumente aus, indem mit Hilfe eines oder einer Anzahl bestimmter Schlüsselworte über die Schlüsselwort-Verbindungstabelle (Fig. 4) auf die invertierte Datei Bezug genommen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeich
net, daß die weitere Einrichtung (30) eine
Schlüsselwort-Verbindungstabelle (4) derart erzeugt, daß die Bezie
hungsinformationen einer Beziehung zumindest jeweils einen Beziehungsnamen
und jeweils einen Wert
enthalten, wobei der Wert der Beziehung eine Amplitude
der Beziehung anzeigt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet,
daß die Amplitude der Beziehung davon abhängt, ob
zwei beliebige Schlüsselworte unmittelbar durch eine direkte
Schlüsselwortverbindung oder indirekt durch eine indirekte
Schlüsselwortverbindung über ein oder eine Anzahl Schlüsselworte
außer den zwei beliebigen Schlüsselworten verbunden
sind.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet,
daß der Wert einer Beziehung KREL [Kp, Kq] einer
Schlüsselwortverbindung (p, q) zwischen zwei beliebigen
Schlüsselworten Kp und Kq als KREL [Kp, Kq] = f [Sÿ, Nÿ, p,
q] mit Hilfe eines Beziehungsnamens Nÿ und eines Beziehungswerts
Sÿ einer Schlüsselwortverbindung (i, j) ∈ UCALL zwischen
Schlüsselworten Ki und Kj definiert wird, welche
in einer Schlüsselwortlage existieren, wobei UCALL einen
Satz Schlüsselwortverbindungen zwischen den Schlüsselworten
Ki und Kj in der Schlüsselwortlage und Kp, Kq, Ki bzw. Kj
Schlüsselworte p, q, i und j bezeichnen.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet,
daß die Funktion f [Sÿ, Nÿ, p, q] = Sÿ × AMP [Nÿ] verwendet
wird, wenn eine direkte Schlüsselwortverbindung zwischen den
zwei Schlüsselworten Kp und Kq besteht, wobei AMP [Nÿ] einen
Richtungskoeffizienten bezeichnet, welcher in Abhängigkeit
von dem Beziehungsnamen verschieden ist.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet,
daß die Funktion
verwendet wird, wenn keine direkte Schlüsselwortverbindung
zwischen den zwei Schlüsselworten Kp und Kq aber
eine oder mehr indirekte Schlüsselwortverbindungen zwischen
den zwei Schlüsselworten Kp und Kq bestehen, wobei C₁ bis Cn
Nummern von indirekten Schlüsselwortverbindungen bezeichnen,
UCk einen Satz direkter Schlüsselwortverbindungen bezeichnet,
welche indirekte Schlüsselwortverbindungen Ck darstellen, Σ
eine Gesamtsumme der direkten Schlüsselwortverbindungen (i,
j) einschließlich UCk bezeichnet und MIN einen Minimalwert
der Beziehungswerte zwischen den n indirekten Schlüsselwortverbindungen
C₁ bis Cn bezeichnet.
7. Verfahren nach Anspruch 4, dadurch gekennzeichnet,
daß die Funktion f [Sÿ, Nÿ, p, q] = 0 verwendet wird, wenn
keine direkte Schlüsselwortverbindung zwischen den zwei
Schlüsselworten Kp und Kq besteht, und keine indirekte
Schlüsselwortverbindung zwischen den zwei Schlüsselworten
Kp und Kq besteht.
8. Verfahren nach Anspruch 2, dadurch gekennzeichnet,
daß die Amplitude der Beziehung davon abhängt, ob
zwei beliebige Schlüsselworte unmittelbar durch eine direkte
Schlüsselwortverbindung oder indirekt durch eine indirekte
Schlüsselwortverbindung über ein oder eine Anzahl Schlüsselworte
außer den zwei beliebigen Schlüsselworten miteinander
verbunden sind, und ob der Wert der Beziehung, welche in der
Schlüsselwort-Verbindungstabelle (Fig. 4) enthalten ist, sich in Abhängigkeit
von der direkten Schlüsselwortverbindung dynamisch
jedesmal dann ändert, wenn ein Dokument in der Speichereinrichtung
(21, 31, 41) registriert wird.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet,
daß der Wert der Beziehung, welche in der Schlüsselwort-
Verbindungstabelle (Fig. 4) enthalten ist, ferner dynamisch
in Abhängigkeit von der indirekten Schlüsselwortverbindung
verändert wird.
10. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
daß der Wert der Beziehung, welcher in der Schlüsselwort-
Verbindungstabelle (Fig. 4) enthalten ist, ferner dynamisch
in Abhängigkeit von einer Benutzungshäufigkeit der Schlüsselworte
verändert wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet,
daß ein Lernkoeffizient in Abhängigkeit von der Benutzungshäufigkeit
der Schlüsselworte zu dem Wert der Beziehung
addiert wird.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet,
daß die Beziehungsinformationen, welche in der Schlüsselwort-
Verbindungstabelle (Fig. 4) enthalten sind, von den Anfangswerten
ausgehend in Abhängigkeit von einer Benutzungshäufigkeit
der Schlüsselworte dynamisch verändert werden.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet,
daß Beziehungsinformationen, welche in der Schlüsselwort-
Verbindungstabelle (Fig. 4) enthalten sind, jedesmal dann erneuert
werden, wenn ein bestimmtes registriertes Dokument wieder aufgefunden
wird, wobei das Erneuern der Schlüsselwort-Verbindungstabelle
(Fig. 4) ein Hinzufügen von Beziehungsinformationen
einer neuen Schlüsselwortverbindung einschließt.
14. Verfahren nach Anspruch 13, dadurch gekennzeichnet,
daß die weitere Einrichtung (30) eine
Schlüsselwort-Verbindungstabelle (Fig. 4) erzeugt, welche Beziehungsinformationen
enthält, welche zumindest einen Beziehungsnamen
und einen Wert einer Beziehung der Schlüsselwortverbindung
einschließen, wobei der Wert der Beziehung eine Amplitude
der Beziehung anzeigt, und die weitere Einrichtung
(30) einen vorherbestimmten Beziehungsnamen dem Beziehungsnamen
und einen vorherbestimmten Wert der Beziehung der
neuen Schlüsselwortverbindung zuordnet.
15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) einen Anforderungsprozessor
(54) zum Verarbeiten von Anforderungen einschließlich
einer Dokumenten-Wiedergewinnungsanforderung von der
Eingabeeinrichtung (60), einen ersten Berechnungsteil
(52), welcher mit der Speichereinrichtung (21, 31, 41)
verbunden ist, um eine Schlüsselwort-Relevanz zu berechnen,
welche die Amplitude der Beziehung zwischen einer Gruppe bestimmter
Schlüsselworte von der Eingabeeinrichtung (60) aus
und jedes der in der Speichereinrichtung (21, 31, 41) registrierten
Schlüsselworte entsprechend der von dem Anforderungsprozessor
verarbeiteten Anforderung anzeigt, einen zweiten Berechnungsteil
(51), welcher mit der Speichereinrichtung (21, 31, 41) verbunden
ist, um eine Textrelevanz zu berechnen, welche die Amplitude
der Beziehung zwischen der Gruppe bestimmter Schlüsselworte
von der Eingabeeinrichtung (60) aus und jedes der
Dokumente, welche in der Speichereinrichtung (21, 31, 41) registriert
sind, entsprechend der in dem Anforderungsprozessor (54) verarbeiteten
Anforderung anzeigt, und eine Steuereinrichtung
(55) aufweist, um Information einschließlich des registrierten
Dokuments von der Speichereinrichtung (21, 31, 41) aus zu steuern,
welche in die Ausgabeeinrichtung (70) in Abhängigkeit von
Berechnungsergebnissen auszugeben ist, welche in den ersten
und zweiten Berechnungsstellen (52, 51) enthalten sind.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet,
daß der zweite Berechnungsteil (51) die Textrelevanz
berechnet, indem eine Gesamtsumme der Werte der Beziehungen
zwischen den bestimmten Schlüsselworten und den in der
Speichereinrichtung (21, 31, 41) registrierten Schlüsselworten
erhalten wird, und indem die Gesamtsumme normiert wird.
17. Verfahren nach Anspruch 15, dadurch gekennzeichnet,
daß ferner ein Sortierer (53) zum Sortieren der Berechnungsergebnisse
vorgesehen ist, welche der Steuereinrichtung
(55) von den ersten und zweiten Berechnungsteilen (52,
51) aus zugeführt werden, wobei der Sortierer (53) die Berechnungsergebnisse
in Abhängigkeit von dem Wert der Beziehung
in einer entsprechenden Reihenfolge sortiert.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet,
daß der Sortierer (53) und die Steuereinrichtung (55)
entsprechend einem von dem Anforderungsprozessor (54) verarbeiteten
Befehl zur Beseitigung eines unerwünschten Speicherinhalts zusammenarbeiten, wobei der
Befehl aus der Speichereinrichtung (21, 31, 41)
die Schlüsselworte löscht, welche Schlüsselwortverbindungen
mit solchen Beziehungswerten haben, bei denen eine
Gesamtsumme der Beziehungswerte, ein Maximalwert der Beziehungswerte
oder ein Mittelwert der Beziehungswerte kleiner
als ein vorherbestimmter Schwellenwert ist.
19. Verfahren nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet,
daß eine Anzahl Schlüsselworte so angehäuft wird,
daß die Schlüsselwort-Verbindungen einen vollständigen Graphen
bilden.
20. Verfahren nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) das eine oder eine
Anzahl registrierter Dokumente mit einer Beziehungsinformation
auswählt, deren Wert größer als ein Schwellenwert ist.
21. Verfahren nach Anspruch 20, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) eine Einrichtung (52)
zum Berechnen einer Kennwortrelevanz aufweist, welche eine
Amplitude der Beziehung zwischen einer Gruppe von bestimmten
Schlüsselworten von der Eingabeeinrichtung (60) aus und
jedes der Schlüsselworte anzeigt, welche in der Speichereinrichtung
(21, 31, 41) registriert sind, wobei die Wähleinrichtung
(50) das eine oder eine Anzahl registrierter Dokumente
auswählt, die Schlüsselworte mit einer Kennwortrelevanz
haben, welche größer als ein Schwellenwert ist.
22. Verfahren nach Anspruch 20, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) eine Einrichtung (51)
zum Berechnen einer Textrelevanz aufweist, welche eine Amplitude
der Beziehung zwischen einer Gruppe bestimmter
Schlüsselworte von der Eingabeeinrichtung (60) und jedes
der in der Speichereinrichtung (21, 31, 41) registrierten
Dokumente anzeigt, wobei die Wähleinrichtung (50) das eine oder
eine Anzahl registrierter Daten auswählt, deren Schlüsselwortrelevanz
größer als ein Schwellenwert ist.
23. Verfahren nach Anspruch 20, dadurch gekennzeichnet,
daß die Beziehungsinformation zumindest einen Beziehungsnamen
und einen Beziehungswert der Schlüsselwortverbindung
enthält, wobei der Beziehungswert die Amplitude der Beziehung
anzeigt, daß die Wähleinrichtung (50) eine Einrichtung
zum Berechnen eines Beziehungswertes zwischen einer
Gruppe von der Eingabeeinrichtung (60) bestimmter
Schlüsselworte und jedes der in der Speichereinrichtung (21,
31, 41) registrierten Dokumente aufweist, und daß die Wähleinrichtung
(50) das eine oder eine Anzahl registrierter Dokumente
einschließlich der Schlüsselworte auswählt, deren Beziehungswert
größer als ein Schwellenwert ist.
24. Vorrichtung zur
Durchführung des Verfahrens nach Anspruch 1, um ein oder eine Anzahl
registrierter Dokumente aus einer Dokumenten-Datenbasis entsprechend
bestimmter Wiedergewinnungsbedingungen, die ein oder eine Anzahl
benannter Schlüsselworte einschließen, wiederzugewinnen, mit den
folgenden Merkmalen:
- a) einer Extrahiereinrichtung (10) zum Extrahieren von Schlüsselworten aus jedem der zu registrierenden Dokumente;
- b) einer mit der Extrahiereinrichtung (10) verbundenen Einrichtung (40), welche mit den Dokumenten und den extrahierten Schlüsselworten von der Extrahier einrichtung versorgt wird, um eine invertierte Datei zu erzeugen, welche eine Beziehung zwischen den extrahierten Schlüsselworten und jedem der Dokumente aufzeigt;
- c) einer Speichereinrichtung (21, 31, 41), um die invertierte Datei, die extrahierte Schlüsselworte und die Dokumente als registrierte Dokumente in Form einer Dokumenten-Datenbasis zu speichern;
- d) eine Eingabeeinrichtung (60) zur Vorgabe von Wiedergewinnungs bedingungen, welche ein oder eine Anzahl bestimmter Schlüsselworte einschließen, wobei die Wiedergewinnungsbedingungen ein oder eine Anzahl der registrierten Dokumente festlegt, welche aus der Speichereinrich tung wiederzugewinnen sind;
- e) eine Wähleinrichtung (50), um über die invertierte Datei das oder die Anzahl registrierter Dokumente auszuwählen, welche den Wiedergewinnungsbedingungen genügen, und
- f) eine Ausgabeeinrichtung (70) zum Ausgeben des einen oder der Anzahl ausgewählter
registrierter Dokumente;
gekennzeichnet durch die folgenden Merkmale: - g) eine weitere Einrichtung (30), welche mit der Extrahiereinrichtung verbunden ist und mit den extra hierten Schlüsselworten versorgt wird, um eine Schlüsselwort-Verbin dungstabelle (Fig. 4) zu generieren, welche Beziehungsinformationen enthält, die zwischen jeweils zwei der insgesamt extrahierten Schlüsselworte bestehen;
- h) die Speichereinrichtung (21, 31, 41) verfügt über einen Speicherbereich zum Speichern der Schlüsselwort-Verbindungstabelle in der Dokumenten-Datenbasis;
- i) die Wähleinrichtung (50) ist mit der weiteren Einrichtung (30) zum Erzeugen der Schlüssel wort-Verbindungstabelle (Fig. 4) verbunden und wählt über die invertierte Datei registrierte Dokumente aus, indem mit Hilfe eines oder der Anzahl bestimmter Schlüsselworte über die Schlüsselwort-Verbindungstabelle auf die inver tierte Datei Bezug genommen wird.
25. Vorrichtung nach Anspruch 24, dadurch gekennzeich
net, daß mittels der weiteren Einrichtung (30) eine
Schlüsselwort-Verbindungstabelle erzeugbar ist, welche Bezie
hungsinformationen die zumindest jeweils einen Beziehungsnamen
und jeweils einen Wert enthält, wobei der Wert der Beziehung eine Amplitude
der Beziehung anzeigt.
26. Vorrichtung nach einem der Ansprüche 24 oder 25, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) einen Anforderungspro
zessor (54) zum Verarbeiten von Anforderungen einschließ
lich einer Dokumenten-Wiedergewinnungsanforderung von der
Eingabeeinrichtung (60), einen ersten Berechnungsteil
(52), welcher mit den Speichereinrichtungen (21, 31, 41)
verbunden ist, um eine Schlüsselwort-Relevanz zu berechnen,
welche die Amplitude der Beziehung zwischen einer Gruppe be
stimmter Schlüsselworte von der Eingabeeinrichtung (60) aus
und jedes der in der Speichereinrichtung (21, 31, 41) registrierten
Schlüsselworte entsprechend der von dem Anforderungsprozes
sor verarbeiteten Anforderung anzeigt, einen zweiten Berech
nungsteil (51), welcher mit der Speichereinrichtung (21, 31, 41) verbun
den ist, um eine Textrelevanz zu berechnen, welche die Am
plitude der Beziehung zwischen der Gruppe bestimmter Schlüs
selworte von der Eingabeeinrichtung (60) aus und jedes der
Dokumente, welche in der Speichereinrichtung (21, 31, 41) registriert
sind, entsprechend der in dem Anforderungsprozessor (54) verar
beiteten Anforderung anzeigt, und eine Steuereinrichtung
(55) aufweist, um Informationen einschließlich des registrier
ten Dokuments von der Speichereinrichtung (21, 31, 41) aus zu steuern,
welche in die Ausgabeeinrichtung (70) in Abhängigkeit von
Berechnungsergebnissen auszugeben sind, welche in den ersten
und zweiten Berechnungsteilen (52, 51) enthalten sind.
27. Vorrichtung nach Anspruch 26, dadurch gekennzeich
net, daß mit dem zweiten Berechnungsteil (51) die Textrelevanz
berechenbar ist, indem eine Gesamtsumme der Werte der Beziehungen
zwischen den bestimmten Schlüsselworten und den in der
Speichereinrichtung (21, 31, 41) registrierten Schlüsselwor
ten erhalten wird, und indem die Gesamtsumme normiert wird.
28. Vorrichtung nach einem der Ansprüche 26 oder 27, dadurch gekennzeich
net, daß ferner ein Sortierer (53) zum Sortieren der Be
rechnungsergebnisse vorgesehen ist, welche der Steuereinrich
tung (55) von den ersten und zweiten Berechnungsteilen (52,
51) aus zuführbar sind, wobei der Sortierer (53) die Berech
nungsergebnisse in Abhängigkeit von dem Wert der Beziehung
in einer entsprechenden Reihenfolge sortiert.
29. Vorrichtung nach einem der Ansprüche 24 bis 28, dadurch gekennzeichnet,
daß die Ausgabeeinrichtung (70) eine Anzeigeeinrich
tung aufweist.
30. Vorrichtung nach einem der Ansprüche 24 bis 29, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) eine Einrichtung (52)
zum Berechnen einer Kennwortrelevanz aufweist, welche eine
Amplitude der Beziehung zwischen einer Gruppe von bestimmten
Schlüsselworten von der Eingabeeinrichtung (60) aus und
jedes der Schlüsselworte anzeigt, welche in der Speicherein
richtung (21, 31, 41) registriert sind, wobei die Wähl
einrichtung (50) das eine oder eine Anzahl registrierter Dokumen
te auswählt, die Schlüsselworte mit einer Kennwortrelevanz
haben, welche größer als ein Schwellenwert ist.
31. Vorrichtung nach einem der Ansprüche 24 bis 30, dadurch gekennzeichnet,
daß die Wähleinrichtung (50) eine Einrichtung (51)
zum Berechnen einer Textrelevanz aufweist, welche eine Am
plitude der Beziehung zwischen einer Gruppe bestimmter
Schlüsselworte von der Eingabeeinrichtung (60) und jedes
der in der Speichereinrichtung (21, 31, 41) registrierten
Dokumente anzeigt, wobei die Wähleinrichtung (50) das eine oder
eine Anzahl registrierter Daten auswählt, deren Schlüssel
wortrelevanz größer als ein Schwellenwert ist.
32. Vorrichtung nach einem der Ansprüche 24 bis 31, dadurch gekennzeichnet,
daß die Beziehungsinformationen zumindest einen Bezie
hungsnamen und einen Beziehungswert der Schlüsselwortverbin
dung enthalten, wobei der Beziehungswert die Amplitude der Be
ziehung anzeigt, wobei die Wähleinrichtung (50) eine Einrich
tung zum Berechnen eines Beziehungswertes zwischen einer
Gruppe von der Eingabeeinrichtung (60) bestimmter
Schlüsselworte und jedes der in der Speichereinrichtung (21,
31, 41) registrierten Dokumente aufweist, und daß die Wähl
einrichtung (50) das eine oder eine Anzahl registrierter Dokumen
te einschließlich der Schlüsselworte auswählt, deren Be
ziehungswert größer als ein Schwellenwert ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP829188 | 1988-01-20 | ||
JP63185462A JPH021057A (ja) | 1988-01-20 | 1988-07-27 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3901485A1 DE3901485A1 (de) | 1989-08-03 |
DE3901485C2 true DE3901485C2 (de) | 1995-05-24 |
Family
ID=26342783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3901485A Expired - Fee Related DE3901485C2 (de) | 1988-01-20 | 1989-01-19 | Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten |
Country Status (3)
Country | Link |
---|---|
US (1) | US5168565A (de) |
JP (1) | JPH021057A (de) |
DE (1) | DE3901485C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538240A1 (de) * | 1995-10-13 | 1998-08-06 | Annette Brueckner | Informationssystem und Verfahren zur Speicherung von Daten in einem Informationssystem |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129472A (ja) * | 1989-07-31 | 1991-06-03 | Ricoh Co Ltd | 文書検索装置における処理方法 |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
JPH03252767A (ja) * | 1990-03-02 | 1991-11-12 | Nippon Telegr & Teleph Corp <Ntt> | キーワード連想生成装置 |
JPH04562A (ja) * | 1990-04-17 | 1992-01-06 | Ricoh Co Ltd | 文書検索装置 |
US5604899A (en) | 1990-05-21 | 1997-02-18 | Financial Systems Technology Pty. Ltd. | Data relationships processor with unlimited expansion capability |
US5640552A (en) * | 1990-05-29 | 1997-06-17 | Franklin Electronic Publishers, Incorporated | Method and apparatus for providing multi-level searching in an electronic book |
JP2984033B2 (ja) * | 1990-07-05 | 1999-11-29 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
JPH0496177A (ja) * | 1990-08-08 | 1992-03-27 | Ricoh Co Ltd | 文書検索方法及びそのキーワード関連度表作成装置 |
JP2895184B2 (ja) * | 1990-08-22 | 1999-05-24 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
US5586218A (en) * | 1991-03-04 | 1996-12-17 | Inference Corporation | Autonomous learning and reasoning agent |
JP2804403B2 (ja) * | 1991-05-16 | 1998-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 質問回答システム |
US5434971A (en) * | 1991-06-28 | 1995-07-18 | Digital Equipment Corp. | System for constructing a table data structure based on an associated configuration data structure and loading it with chemical sample physical data |
US5446575A (en) * | 1991-06-28 | 1995-08-29 | Digital Equipment Corp. | System for constructing and loading a table data structure based on an associated configuration data |
US5557794A (en) * | 1991-09-02 | 1996-09-17 | Fuji Xerox Co., Ltd. | Data management system for a personal data base |
JPH0581327A (ja) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | 情報検索支援処理装置 |
JPH0589176A (ja) * | 1991-09-25 | 1993-04-09 | Dainippon Printing Co Ltd | 画像検索装置 |
JP2814788B2 (ja) * | 1991-10-14 | 1998-10-27 | 松下電器産業株式会社 | ナビゲーションシステムの地名検索方法 |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US5483650A (en) * | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
JPH05158991A (ja) * | 1991-12-02 | 1993-06-25 | Mitsubishi Electric Corp | 情報検索システム |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5404507A (en) * | 1992-03-02 | 1995-04-04 | At&T Corp. | Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query |
JPH05324726A (ja) * | 1992-05-25 | 1993-12-07 | Fujitsu Ltd | 文書データ分類装置及び文書分類機能構築装置 |
US5423033A (en) * | 1992-09-30 | 1995-06-06 | Intuit, Inc. | Report generation system and method |
US5550976A (en) * | 1992-12-08 | 1996-08-27 | Sun Hydraulics Corporation | Decentralized distributed asynchronous object oriented system and method for electronic data management, storage, and communication |
EP0625757B1 (de) * | 1993-05-07 | 2000-08-23 | Canon Kabushiki Kaisha | Selektive Einrichtung und Verfahren zur Dokumentenwiederauffindung. |
US5560007A (en) * | 1993-06-30 | 1996-09-24 | Borland International, Inc. | B-tree key-range bit map index optimization of database queries |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
JPH07239861A (ja) * | 1994-02-25 | 1995-09-12 | Ricoh Co Ltd | 文書検索装置 |
JPH07319918A (ja) * | 1994-05-24 | 1995-12-08 | Fuji Xerox Co Ltd | 文書検索対象指示装置 |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
JP3030533B2 (ja) * | 1994-07-26 | 2000-04-10 | 篤 今野 | 情報分類装置 |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
JP3282937B2 (ja) * | 1995-01-12 | 2002-05-20 | 日本アイ・ビー・エム株式会社 | 情報検索方法及びシステム |
BR9606931A (pt) * | 1995-01-23 | 1997-11-11 | British Telecomm | Sistema de acesso de informações e processo para monitoração de inserção de informações para um armazenamento de dados |
JP3275612B2 (ja) * | 1995-02-28 | 2002-04-15 | 三菱電機株式会社 | ファジィシソーラス生成装置 |
US5713016A (en) * | 1995-09-05 | 1998-01-27 | Electronic Data Systems Corporation | Process and system for determining relevance |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5745893A (en) * | 1995-11-30 | 1998-04-28 | Electronic Data Systems Corporation | Process and system for arrangement of documents |
US5787424A (en) * | 1995-11-30 | 1998-07-28 | Electronic Data Systems Corporation | Process and system for recursive document retrieval |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US20050182765A1 (en) * | 1996-02-09 | 2005-08-18 | Technology Innovations, Llc | Techniques for controlling distribution of information from a secure domain |
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
DE59701176D1 (de) * | 1996-04-03 | 2000-04-06 | Siemens Ag | Verfahren zur automatischen klassifikation eines auf einem dokument aufgebrachten textes nach dessen transformation in digitale daten |
US6026397A (en) * | 1996-05-22 | 2000-02-15 | Electronic Data Systems Corporation | Data analysis system and method |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
JPH1097545A (ja) * | 1996-09-20 | 1998-04-14 | Sharp Corp | 情報処理装置 |
AU4495597A (en) | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US6233575B1 (en) | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US7127420B1 (en) * | 1997-08-01 | 2006-10-24 | Financial Systems Technology (Intellectual Property) Pty. Ltd. | Data processing system for complex pricing and transactional analysis |
US6003029A (en) * | 1997-08-22 | 1999-12-14 | International Business Machines Corporation | Automatic subspace clustering of high dimensional data for data mining applications |
US6094651A (en) * | 1997-08-22 | 2000-07-25 | International Business Machines Corporation | Discovery-driven exploration of OLAP data cubes |
JP4183311B2 (ja) * | 1997-12-22 | 2008-11-19 | 株式会社リコー | 文書の注釈方法、注釈装置および記録媒体 |
US6507841B2 (en) * | 1998-02-20 | 2003-01-14 | Hewlett-Packard Company | Methods of and apparatus for refining descriptors |
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US6582475B2 (en) | 1998-09-09 | 2003-06-24 | Ricoh Company Limited | Automatic adaptive document printing help system |
JP3278406B2 (ja) * | 1998-12-10 | 2002-04-30 | 富士通株式会社 | ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体 |
CN100334582C (zh) * | 1999-01-08 | 2007-08-29 | 国际商业机器公司 | 在手持装置中存储和检索数据的方法及装置 |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US7228492B1 (en) | 1999-07-06 | 2007-06-05 | Ricoh Company, Ltd. | 2D graph displaying document locations of user-specified concept of interest |
KR100346262B1 (ko) * | 1999-08-27 | 2002-07-26 | 엘지전자주식회사 | 멀티미디어 데이타의 키워드 자가 생성방법 |
US6397211B1 (en) * | 2000-01-03 | 2002-05-28 | International Business Machines Corporation | System and method for identifying useless documents |
WO2001067322A1 (fr) * | 2000-03-07 | 2001-09-13 | Kuniaki Rokuto | Systeme d'emission et de reception d'informations |
CN1156774C (zh) * | 2000-05-22 | 2004-07-07 | 庞震伟 | 计算机多元供需智能适配系统及其相关方法 |
US6990496B1 (en) | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
US6461166B1 (en) | 2000-10-17 | 2002-10-08 | Dennis Ray Berman | Learning system with learner-constructed response based testing methodology |
US6553380B2 (en) * | 2000-12-15 | 2003-04-22 | International Business Machines Corporation | Encapsulating form and function in user data in a relational database in order to eliminate database schema changes |
JP2002207760A (ja) * | 2001-01-10 | 2002-07-26 | Hitachi Ltd | 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 |
KR100451649B1 (ko) * | 2001-03-26 | 2004-10-08 | 엘지전자 주식회사 | 이미지 검색방법과 장치 |
US20020176628A1 (en) | 2001-05-22 | 2002-11-28 | Starkweather Gary K. | Document imaging and indexing system |
US7074128B2 (en) | 2001-08-03 | 2006-07-11 | Drb Lit Ltd. | Method and system for enhancing memorization by using a mnemonic display |
US7287064B1 (en) * | 2001-11-20 | 2007-10-23 | Sprint Spectrum L.P. | Method and system for determining an internet user's interest level |
TW561377B (en) * | 2001-12-17 | 2003-11-11 | Webstorage Corp | Intelligent document management and usage method |
US20030120560A1 (en) | 2001-12-20 | 2003-06-26 | John Almeida | Method for creating and maintaning worldwide e-commerce |
JP3779935B2 (ja) * | 2002-04-23 | 2006-05-31 | 株式会社ジャストシステム | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
US7007015B1 (en) * | 2002-05-01 | 2006-02-28 | Microsoft Corporation | Prioritized merging for full-text index on relational store |
JP2004326216A (ja) * | 2003-04-22 | 2004-11-18 | Ricoh Co Ltd | 文書検索装置、方法、プログラム、及び記録媒体 |
US7357640B2 (en) | 2003-07-02 | 2008-04-15 | Drb Lit Ltd. | Lock-In Training system |
TWM249950U (en) * | 2004-01-02 | 2004-11-11 | Cvc Technologies Inc | Cap tightening machine capable of controlling tightening torque |
US20050240583A1 (en) * | 2004-01-21 | 2005-10-27 | Li Peter W | Literature pipeline |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7364432B2 (en) | 2004-03-31 | 2008-04-29 | Drb Lit Ltd. | Methods of selecting Lock-In Training courses and sessions |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
KR100598115B1 (ko) * | 2004-08-31 | 2006-07-10 | 삼성전자주식회사 | 고속 문자인식방법 및 장치 |
WO2007050646A2 (en) * | 2005-10-24 | 2007-05-03 | Capsilon Fsg, Inc. | A business method using the automated processing of paper and unstructured electronic documents |
US8176004B2 (en) * | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
JP4890212B2 (ja) * | 2005-12-12 | 2012-03-07 | 株式会社リコー | スキャン画像管理装置 |
US7739255B2 (en) * | 2006-09-01 | 2010-06-15 | Ma Capital Lllp | System for and method of visual representation and review of media files |
US20080109409A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Brokering keywords in radio broadcasts |
US20080109845A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | System and method for generating advertisements for use in broadcast media |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US8375073B1 (en) | 2007-11-12 | 2013-02-12 | Google Inc. | Identification and ranking of news stories of interest |
US7996379B1 (en) * | 2008-02-01 | 2011-08-09 | Google Inc. | Document ranking using word relationships |
US8112431B2 (en) | 2008-04-03 | 2012-02-07 | Ebay Inc. | Method and system for processing search requests |
JP2010039989A (ja) * | 2008-08-08 | 2010-02-18 | Hitachi Systems & Services Ltd | コンテンツ管理システム及びコンテンツ管理方法 |
WO2010096193A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
CN103150388A (zh) * | 2013-03-21 | 2013-06-12 | 天脉聚源(北京)传媒科技有限公司 | 一种提取关键词的方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
JPS589982B2 (ja) * | 1980-05-30 | 1983-02-23 | 工業技術院長 | 情報検索装置 |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
JPS61220027A (ja) * | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
JPS6326726A (ja) * | 1986-07-21 | 1988-02-04 | Toshiba Corp | 情報処理装置 |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4805099A (en) * | 1987-04-17 | 1989-02-14 | Wang Laboratories, Inc. | Retrieval of related records from a relational database |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
US4849898A (en) * | 1988-05-18 | 1989-07-18 | Management Information Technologies, Inc. | Method and apparatus to identify the relation of meaning between words in text expressions |
US5020019A (en) * | 1989-05-29 | 1991-05-28 | Ricoh Company, Ltd. | Document retrieval system |
-
1988
- 1988-07-27 JP JP63185462A patent/JPH021057A/ja active Pending
-
1989
- 1989-01-13 US US07/296,769 patent/US5168565A/en not_active Expired - Fee Related
- 1989-01-19 DE DE3901485A patent/DE3901485C2/de not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538240A1 (de) * | 1995-10-13 | 1998-08-06 | Annette Brueckner | Informationssystem und Verfahren zur Speicherung von Daten in einem Informationssystem |
Also Published As
Publication number | Publication date |
---|---|
JPH021057A (ja) | 1990-01-05 |
US5168565A (en) | 1992-12-01 |
DE3901485A1 (de) | 1989-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3901485C2 (de) | Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten | |
DE69132331T2 (de) | Adaptives Klassifizierungssystem zum Wiederfinden von Informationen | |
DE69526168T2 (de) | Verfahren und Gerät zur Klassifikation von Dokumentinformationen | |
DE69804495T2 (de) | Informationsmanagement und wiedergewinnung von schlüsselbegriffen | |
DE602004003361T2 (de) | System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen | |
DE3650736T2 (de) | Informationswiederauffindungsverfahren | |
DE69834386T2 (de) | Textverarbeitungsverfahren und rückholsystem und verfahren | |
DE69811066T2 (de) | Datenzusammenfassungsgerät. | |
DE69426714T2 (de) | Dokumentverarbeitungsverfahren und Gerät | |
DE69933187T2 (de) | Dokumentensuchverfahren und Dienst | |
DE3856404T2 (de) | Datenverwaltungssystem | |
DE69426541T2 (de) | Dokumentdetektionssystem mit Darstellung des Detektionsresultats zur Erleichterung des Verständnis des Benutzers | |
DE68928775T2 (de) | Verfahren und Vorrichtung zur Herstellung einer Zusammenfassung eines Dokumentes | |
DE69900854T2 (de) | Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät | |
DE69432575T2 (de) | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung | |
DE60029845T2 (de) | System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung | |
DE69530816T2 (de) | Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis | |
DE69631457T2 (de) | Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung | |
DE69923650T2 (de) | System für mehrsprachige Informationswiederauffindung | |
DE69712835T2 (de) | Gerät zur Unterstützung des Wiederauffindens von Daten | |
DE69130883T2 (de) | Informationsverarbeitungssystem und Verfahren für die Verarbeitung von Dokumenten mit strukturierten Schlüsselwörtern | |
DE102005032734B4 (de) | Indexextraktion von Dokumenten | |
DE69728091T2 (de) | Verfahren und System zum Ausschneiden von Nachrichten | |
DE60319586T2 (de) | Elektronisches wörterbuch mit beispielsätzen | |
DE69719641T2 (de) | Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |