DE19859838A1 - Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank - Google Patents
Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen DatenbankInfo
- Publication number
- DE19859838A1 DE19859838A1 DE19859838A DE19859838A DE19859838A1 DE 19859838 A1 DE19859838 A1 DE 19859838A1 DE 19859838 A DE19859838 A DE 19859838A DE 19859838 A DE19859838 A DE 19859838A DE 19859838 A1 DE19859838 A1 DE 19859838A1
- Authority
- DE
- Germany
- Prior art keywords
- documents
- database
- term
- terms
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 title abstract description 3
- 238000011160 research Methods 0.000 claims description 19
- 238000011524 similarity measure Methods 0.000 claims description 17
- 230000001960 triggered effect Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 description 14
- 238000013459 approach Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013332 literature search Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank. DOLLAR A Es sollen zu einer Vorgabe alle in einer elektronischen Datenbank befindlichen Dokumente gleichen oder ähnlichen Inhalts gefunden und nach ihrer inhaltlichen Ähnlichkeit sortiert werden, wobei alle Dokumente nach diesen Ähnlichkeiten semantisch zu skalieren sind, gleich ob ein oder mehrere (Referenz-)Dokumente vorgegeben waren oder diese durch eingegebene Suchbegriffe aktiviert werden. DOLLAR A Erfindungsgemäß wird ein zweistufiges Verfahren geschaffen, wobei der Benutzer in der ersten Stufe bestimmte Suchbegriffe oder ein Referenz-Dokument benennt. Allen Dokumenten der Datenbank, die diese eingegebenen oder mit dem Referenz-Dokument definierten Suchbegriffe enthalten, wird ein relativer Informationsgehalt nach Häufigkeit und Verteilung der Suchbegriffe in den Dokumenten zugeordnet. In einem zweiten Verfahren wird anhand aller in der Datenbank enthaltenen Begriffe für jedes Dokument ein hinsichtlich der Suchanfrage relevantes Ähnlichkeitsmaß definiert, nach welchem die Dokumente sortiert ausgegeben werden.
Description
Die Erfindung betrifft ein Verfahren zur rechnergestützten Suche nach
Dokumenten gleichen oder ähnlichen Informationsinhaltes, die einer durch
Suchbegriffe bzw. durch den Informationsinhalt eines oder mehrerer
Dokumente vorgegebenen Themenstellung zuzuordnen sind und mit einer
Vielzahl anderer Dokumente in einer elektronischen Datenbank abgespei
chert sind.
Elektronische Datenbanken gewinnen eine zunehmende Bedeutung in
zahlreichen Anwendungen, etwa bei der Literatur-Recherche in den
Wissenschaften aber auch verstärkt in allen Anwendungsbereichen, die sich
mit dem Internet beschäftigen und auf sogenannte Suchmaschinen zugreifen.
In diesen Datenbanken sind üblicherweise eine Vielzahl von Dokumenten
abgespeichert, in denen ein Benutzer nach bestimmten Begriffen mit Hilfe
eines Rechners recherchieren kann. Bei einer solchen Suchanfrage durch
sucht der Rechner alle abgespeicherten Dokumente nach dem gewünschten
Begriff und gibt diejenigen Dokumente als Ergebnis an den Benutzer zurück,
in denen der Begriff vorhanden ist.
Aus Gründen der Verarbeitungsgeschwindigkeit wird bei umfangreichen
Datenbanken ein sogenannter Index eingeführt, mit dessen Hilfe die
Suchanfrage vom Rechner schneller verarbeitet werden kann. Es ist bekannt,
daß diese Indexierungen durch zwei verschiedene Arten der Recherche
genutzt werden können, der sogenannten boolschen Recherchiermethode und
der sogenannten probabilistischen Recherchiermethode. Des weiteren ist
bekannt, wie diese beiden Recherchiermethoden effektiv miteinander
verbunden werden können (DE 196 09 549 A1).
Diese bisherigen Methoden haben den Nachteil, daß im allgemeinen nur
diejenigen Dokumente ausgewertet werden, die eine boolsche Bedingung
erfüllen. Bei der Suche in einer medizinischen Datenbank sei beispielsweise
der Suchbegriff "Neuron" vorgegeben. Dokumente, die diesen Begriff nicht
enthalten, sondern Synonyme, wie etwa "Nervenzelle", werden nicht bei der
Suchabfrage berücksichtigt. Diese Nachteile treten noch deutlicher hervor in
einer Situation, in der ein bestimmtes Dokument einer Datenbank vorgegeben
ist und der Benutzer nach "ähnlichen" Dokumenten in der Datenbank sucht.
Dieses setzt dann die Einbeziehung von Kontext-Informationen und die
Definition eines Ähnlichkeitsmaßes voraus und sollte so gestaltet sein, daß
der Anwender der Datenbank ohne aufwendige Suchverfahren relevante
Dokumente finden kann. In der Praxis hingegen wird eine etwaige Kontext-
Abhängigkeit durch eine automatische Indexierung abgefangen, die einem
Dokument fast alle in diesem enthaltenen Wörter als Schlagwörter zuteilt.
Bei dieser Technik ist der Benutzer gezwungen, alle Ausdrucksmöglichkeiten
des gesuchten Sachverhalts anzugeben, um sämtliche relevanten Texte zu
finden. Dadurch ist der Rechercheaufwand relativ hoch. Darüber hinaus
besteht keine Sicherheit, daß alle relevanten Synonyme zu den Suchbegriffen
gefunden und bei der Suchabfrage berücksichtigt werden.
Bisherige Ansätze zur Optimierung der Recherchiermethoden berühren
lediglich einzelne Komponenten des o. g. verknüpften Verfahrens, wobei
keine prinzipielle Änderung bei der Organisation der Indexierung erfolgt. So
ist bekannt, wie bei einer Vielzahl von Datenbanken die Trefferquote eines
Suchbegriffes effektiv zu berechnen ist (US 5 696 963). Außerdem ist
bekannt, wie die Recherchiermethode durch nicht-hierarchische
parametrische Suchmasken zu ergänzen ist (US 5 715 444). Eine
Berücksichtigung relativer Information für jeweils zwei aufeinander folgende
Begriffe in einem Dokument ist aus der Patentschrift US 5 717 914
ersichtlich. Dort erfolgt auch explizit eine informationstheoretische
Berechnung einer entsprechenden Maßzahl. Eine mögliche Anpassung der
bisherigen Recherchiermethoden für dynamisch veränderliche Datenbanken
zeigt die Patentschrift US 5 701 469. Eine Skalierung der Relevanz eines
Dokumentes auf der Basis einer Statistik der Trefferquoten in verschiedenen
Datenbanken enthält die Schutzrechtsveröffentlichung US 5 659 732.
Sämtliche genannten Publikationen bieten keine hinreichende Lösung zur
Einbeziehung von Kontext-Informationen bei der Literatur-Suche in Daten
banken.
Ansätze zur semantischen Klassifizierung wurden im Rahmen des Projektes
TINA (Textinhaltsanalyse) der Siemens AG erarbeitet. Einen Überblick über
den Stand der Forschung enthält das Textbuch "Wortbedeutung und
Termassoziation. Methoden zur semantischen Klassifikation" von Gerda
Ruge (Hildesheim 1995). Aus dem dort dokumentierten Forschungsprojekt
ist bekannt, daß einer Datenbank, bestehend aus Text-Dokumenten, ein
Vektorraum-Modell zugeordnet werden kann. Dabei wird etwa jedem Begriff
der Datenbank ein Vektor mit K Komponenten zugeordnet, wobei K die
Anzahl der Dokumente sei. Die Komponente 1 an der i-ten Stelle des
Vektors j bedeutet, daß der Begriff j im Dokument i vorkommt, anderenfalls
wird die Komponente 0 zugeordnet. In diesem Vektorraum kann nun durch
das zugeordnete Skalarprodukt ein Ähnlichkeitsmaß definiert werden.
Bekannt ist auch, daß dieses Ähnlichkeitsmaß durch Einführung
informationstheoretischer Größen zu einem probabilistischen Modell ergänzt
werden kann (dem sog. Mutual-Information-Maß). Diese Verfahren eignen
sich zur automatischen Generierung eines Schlagwortverzeichnisses mit
Synonymen (Thesaurus). So wurde auf der Basis einer englischsprachigen
Patent-Datenbank automatisch Termassoziationen ermittelt, beispielsweise
wurde der Begriff "cable" mit den Begriffen "conductor", "connector",
"wire" und "rope" assoziiert. Diese Verfahren, die sich vorrangig auf die
automatische Thesaurus-Generierung konzentrieren, liefern jedoch keine
hinreichenden Ansätze zur Ermittlung semantischer Ähnlichkeiten zwischen
Dokumenten.
Der Erfindung liegt somit die Aufgabe zugrunde, zu einer Vorgabe alle in
einer elektronischen Datenbank befindlichen Dokumente gleichen oder
ähnlichen Inhaltes zu finden und diese nach ihrer inhaltlichen Ähnlichkeit zu
sortieren, wobei alle Dokumente nach diesen Ähnlichkeiten semantisch
skaliert werden sollen, gleich ob ein oder mehrere (Referenz-)Dokumente
vorgegeben waren oder diese durch eingegebene Suchbegriffe aktiviert
werden.
Erfindungsgemäß wird ein zweistufiges Verfahren zur Suche nach
Dokumenten in elektronischen Datenbanken umgesetzt. In der ersten Stufe
kann der Benutzer bestimmte Suchbegriffe oder ein Referenz-Dokument
benennen. Bei Vorgabe eines Suchbegriffes wird allen Dokumenten, die
diese Suchbegriffe enthalten, ein relativer Informationsgehalt zugeordnet.
Die Größe dieser Maßzahl hängt davon ab, wie häufig die Suchbegriffe in
einem Dokument vorkommen und wie sich innerhalb des Dokumentes die
angefragten Begriffe verteilen. Bei Vorgabe eines Referenz-Dokumentes
werden alle darin vorkommenden Begriffe quasi als Suchbegriffe gewertet,
nach denen jeweils der relative Informationsgehalt der Dokumente bestimmt
wird. Aus den relativen Informationsgehalten der Dokumente wird jeweils für
zwei Dokumente ein gemeinsamer relativer Informationsgehalt für einen
Begriff bestimmt. Auf diese Weise erfolgt eine numerische Bewertung der
Relevanz dieser Dokumente, d. h. eine semantische Skalierung der Doku
mente bezüglich eines Begriffs.
In einem zweiten Verfahrensschritt wird aus der Summe aller gemeinsamen
relativen Informationsgehalte bezüglich aller in der Datenbank enthaltenen
Begriffe ein Ähnlichkeitsmaß für jeweils zwei Dokumente definiert, das es
erlaubt, zu den zurückgemeldeten Aufsätzen, zugeordnete "ähnliche"
Dokumente, d. h. Dokumente mit begriffsverwandten Inhalten, zu ermitteln.
Das Ähnlichkeitsmaß wird dabei unabhängig von den vorgegebenen
Suchbegriffen stets auf der Basis aller in der Datenbank enthaltenen
Dokumente ermittelt. Aus der Summe dieser Ähnlichkeitsmaße für alle
möglichen Verknüpfungen der in der Datenbank enthaltenen Dokumente, mit
denen die Suchabfrage ausgelöst wurde bzw. die durch eingegebene
Suchbegriffe aktiviert wurden, wird jeweils ein absolutes Ähnlichkeitsmaß
für ein Dokument berechnet, mit welchem das Dokument bei der Ausgabe
bewertet wird. Anhand dieser Bewertung erfolgt eine Sortierung, d. h. eine
semantische Klassifizierung, bei der Ausgabe der Dokumente als
Rechercheergebnis.
Anders als bei bekannten Recherchiermethoden wird ein Suchverfahren
realisiert, das im vollen Umfang semantische Kontext-Information
berücksichtigt. Es werden somit die oben genannten Nachteile bei der
Literatursuche vermieden, die sich auf eine zu starke Einschränkung des
Suchfeldes aufgrund boolscher Recherchiermethoden zurückführen lassen.
Das vorgeschlagene Verfahren liefert für jedes Dokument, das einen
bestimmten Suchbegriff enthält, Verknüpfungen zu prinzipiell allen anderen
Dokumenten der Datenbank, die durch das besagte Ähnlichkeitsmaß sortiert
werden. So werden auch diejenigen Dokumente als Suchergebnis an den
Benutzer gemeldet, die zwar die angefragten Suchbegriffe nicht enthalten,
jedoch inhaltlich als ähnlich erkannt werden, da in diesen Dokumenten eine
ähnliche Verteilung der sonstigen Begriffe vorliegt. Darüber hinaus kann
auch eine Suche ohne Eingabe spezieller Suchbegriffen initialisiert werden,
indem lediglich ein oder mehrere Referenzdokumente - und damit automa
tisch alle darin enthaltenen Begriffe - als Suchanfrage benannt sind.
Im Vergleich zu bisherigen Verfahren erlaubt dies eine sehr komfortable,
schnelle und überraschend umfassende Recherche.
Die Erfindung soll nachstehend anhand einer in der Zeichnung dargestellten
Suchmaschine für eine elektronische Datenbank näher erläutert werden.
Als Ausführungsbeispiel wurde dafür eine englischsprachige medizinische
Fachdatenbank, die Computerdatenbank Medline ausgewertet, welche die
Einträge des Zeitschriftenverzeichnisses Medical Index© enthält. Zu jedem
Dokument enthält diese Datenbank circa eine Textseite Information (das
sogenannte Abstract) über den jeweiligen Fachaufsatz.
Es zeigen:
Fig. 1 Ablaufdiagramm der Suchmaschine,
Fig. 2-4 Bildschirmmasken der Suchmaschine.
Für die Suche erfolgte eine Vorauswahl der Aufsätze unter der dem
Suchbegriff "spike trains" in den Zeitschriftenjahrgängen 1990 bis Juli 1998.
Es wurden K = 420 Dokumente gefunden und elektronisch gespeichert, die
diesen Begriff enthielten.
Diejenigen Dokumente, die als ASCII-Textdateien einem Computer zur
Verarbeitung vorlagen, wurden zunächst in numerische Dateien
umgewandelt. Dabei wurde jedem mit einem Laufindex i neu gefundenen
Begriff ai innerhalb der Datenbank eine Zahl zugeordnet, beispielsweise
"the" = a1 → 1
"spike" = a2 → 2
"train" = a3 → 3
"is" = a4 → 4
etc.
"the" = a1 → 1
"spike" = a2 → 2
"train" = a3 → 3
"is" = a4 → 4
etc.
Darüber hinaus erhielten alle Dokumente Bj einen Laufindex j. Eine derartige
Vorgehensweise erhöht die Verarbeitungsgeschwindigkeit der Recherchier
methode beträchtlich. Danach wurden sämtliche numerischen Größen, von
denen die vier beispielhaft genannt waren, berechnet und im Computer
gespeichert.
Es bezeichnet nun {ai|1 <= i <= M} die Menge der Begriffe, die in einer
fixierten Abfolge im Rechner gespeichert werden, und {Bj|1 <= j <= K} die
Menge der Dokumente.
Die relative Häufigkeit F(ai|Bj) des Begriffes ai im Dokument B wird
berechnet als Quotient: F(ai|Bj) = N(ai|Bj)/N(Bj), wobei N(ai|Bj) angibt,
wie oft der Begriff ai in dem Dokument Bj vorkommt.
Zur Normierung der relativen Relevanz eines Begriffes ai dient die folgende
Größe:
F(ai) = ΣjF(ai|Bj), d. h. die Summe über alle relativen Häufigkeiten eines Begriffes, die sich jeweils auf ein Dokument Bj beziehen.
F(ai) = ΣjF(ai|Bj), d. h. die Summe über alle relativen Häufigkeiten eines Begriffes, die sich jeweils auf ein Dokument Bj beziehen.
Mit Hilfe dieser Definitionen läßt sich ein Informationsmaß I(ai) für einen
Begriff ai wie folgt festlegen:
I(ai) = ln(K) + ΣjF(ai|Bj)/F(ai).ln(F(ai|Bj)/F(ai)).
Dieses Informationsmaß hat die folgenden Eigenschaften:
- 1. Das Informationsmaß nimmt den maximalen Wert von ln(K) an, falls der Begriff ai in nur einem Dokument vorkommt (etwa ein seltener Fachbegriff).
- 2. Das Informationsmaß nimmt ein Minimum an (I = 0), falls die relative Frequenz F konstant ist. Das heißt, der Begriff ist völlig unabhängig vom Dokument-Kontext. Typische Beispiele dafür wären Präpositionen, Konjunktionen und Artikel ("of', "and", "the" etc.).
Mit anderen Worten: Das Informationsmaß I(ai ) gibt Auskunft darüber, wie
sich ein Begriff statistisch auf die Dokumente einer Datenbank verteilt.
Als nächstes wird ein relativer Informationsgehalt G(ai|Bj) eines
Dokumentes B bezüglich eines Begriffes ai wie folgt berechnet:
G(ai|Bj) = I(ai)F(aiBj).
Je größer der Wert dieser Maßzahl ist, um so größer ist die Relevanz des
Dokumentes Bj für den Suchbegriff ai. Eine semantische Skalierung der
Dokumente läßt sich somit auf dieses Relevanz-Maß zurückführen.
Die Ähnlichkeit zweier Dokumente bezüglich eines Begriffes ai wird als
gemeinsamer relativer Informationsgehalt
GI(Bj|Bk) = I(ai)F(ai|Bj)F(ai|Bk) berechnet.
Mit der Summation über alle Begriffe ai der Datenbank wird ein
Ähnlichkeitsmaß S zweier Dokumente B1 und Bk:
S(Bj|Bk)2 = ΣiI(ai)F(ai|Bj)F(ai|Bk)
definiert.
Die Größe S(Bj|Bk) bewertet die kontextabhängige - und damit semantische
- Ähnlichkeit zweier Dokumente Bj und Bk.
Die Größen G(ai|Bj) und S(Bj|Bk) werden vor Beginn der Suchanfrage vom
Computer berechnet und gespeichert.
Eine vorteilhafte Ausgestaltung der Erfindung sieht die Realisierung auf der
Basis neuronaler Netzwerke vor. Fig. 1 zeigt dabei die semantische
Recherchiermethode mit einem dreischichtigen neuronalen Netzwerk:
- a) Als Eingabeschicht wird jedem Begriff ai ein Neuron ni zugeordnet. Eine Suchanfrage nach den Begriffen ai und ak bedeutet somit die Aktivierung der Neuronen ni und nk in der ersten Neuronenschicht. Diese Schicht enthält dementsprechend M Neuronen.
- b) Eine zweite Neuronenschicht summiert für jeden Aufsatz die Größen G(ai|Bj), d. h. den relativen Informationsgehalt. Diese zweite Schicht verfügt entsprechend über K Neuronen. Diejenigen Neuronen mit der stärksten Aktivität repräsentieren dabei die rückgemeldeten Dokumente. Diese Schicht wird entsprechend als "Trefferschicht" bezeichnet.
- c) Eine dritte Neuronenschicht, die ebenfalls über K Neuronen verfügt, summiert die Werte des Ähnlichkeitsmaßes S(Bj|Bk). Hier werden auch Dokumente aktiviert, die den Suchbegriff nicht enthalten. Diese Schicht wird entsprechend als "Assoziationsschicht" bezeichnet.
Eine Suchanfrage gestaltet sich dann so, daß die erste Neuronenschicht mit
einem bestimmten Begriff aktiviert wird. Im Ausführungsbeispiel war dies
der Begriff "entropy". Fig. 2 zeigt die Bildschirmmaske eines Prototypen der
Suchmaschine. Das linke Fenster zeigt zwei Dokumente, die in der
Trefferschicht aktiviert wurden. Der relative Informationsgehalt wurde
zwischen 0 und 1 normiert. Beide Dokumente enthalten den Begriff
"entropy" explizit. Es wird jedoch angezeigt, daß das Dokument "Detecting
higher-order interactions. . ." mit einem relativen Informationsgehalt von
0,634 hinter dem ersten gemeldeten Dokument zurückbleibt. So erfolgt in der
ersten Neuronenschicht - die das Analogon zu einer binären Suche
repräsentiert - bereits eine semantische Skalierung. In der zweiten Neuronen
schicht werden grundsätzlich alle Dokumente aktiviert (siehe rechtes Fenster
der Bildschirmmaske in Fig. 1). Allerdings wird das Ähnlichkeitsmaß S
zwischen 0 und 1 normiert, so daß ebenfalls eine semantische Skalierung
erfolgt. Es werden 12 Dokumente mit einem Ähnlichkeitsmaß S von mindes
tens 0,9 gemeldet. Ganz links in dem Fenster wird zunächst die Nummer des
Dokuments angezeigt. Daneben steht der numerische Zahlenwert des
Ähnlichkeitsmaßes S. Die 12 gefundenen Dokumente enthalten den Begriff
"entropy" nicht. Dennoch behandeln sie Themen aus dem Bereich der
statistischen Physik (etwa "Noise effects. . ." und "Multiple spike train
analysis. . ."), die thematisch den Fachaufsätzen der Dokumente aus der
Trefferschicht zuzuordnen sind. Es erfolgte also in der Tat eine Auswahl
nach semantischer Ähnlichkeit.
Der Prototyp erlaubt es darüber hinaus, diejenigen Fachaufsätze anzuzeigen,
die besonders wenig Ähnlichkeit mit den gesuchten Dokumenten aufweisen.
Dazu wird der Button am rechten Rand der Bildschirmmaske verschoben
(siehe Fig. 3). Dort sind 28 Dokumente mit einer semantischen Ähnlichkeit
von unter 0,6 aufgeführt. Interessanterweise sind diese Dokumente inhaltlich
einigermaßen homogen: Sie behandeln vorrangig biochemische Themen und
weisen kaum inhaltliche Überlappungen mit den o. g. physikalisch
orientierten Fachaufsätzen auf.
Des weiteren besteht die Möglichkeit, mit einem Fachaufsatz unmittelbar ein
bestimmtes Dokument der Datenbank vorzugeben und zu diesem die
semantisch ähnlichen Dokumente der Datenbank anzeigen zu lassen. In
Fig. 4 wurde das Dokument Nr. 246 (ein physikalisch orientierter
Fachaufsatz) vorgegeben. Erneut wurden erfolgreich semantisch ähnliche
Dokumente assoziiert.
Das hier demonstrierte Verfahren erlaubt somit eine schnelle, umfangreiche
und komfortable Literatur-Recherche, wobei insbesondere die Funktions
weise der Assoziationsschicht dazu führt, daß auch inhaltsrelevante
Dokumente angegeben werden, welche durch eine an sich bekannte boolsche
Recherchiermethode nicht gefunden werden würden.
Das Verfahren läßt sich mit der erläuterten Architektur unmittelbar als
Ergänzung einer Internet-Suchmaschine nutzen, wobei eine klassische
boolesche Suchmaschine zunächst einen Pool von einigen hundert
Dokumenten als Ergebnis einer Suchanfrage ermittelt, und diese dann durch
eine semantische Skalierung benutzerfreundlich sortiert werden. So werden
auch die sehr großen Datenmengen im INTERNET handhabbar, indem die
mühsame individuelle Überprüfung einer sehr großen Zahl von Dokumenten
entfällt.
Claims (5)
1. Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer
elektronischen Datenbank, bei dem alle in der Datenbank vorhandenen
Dokumente Bj sowie die darin vorkommenden Begriffe ai erfaßt, mit einem
Laufindex versehen, abgespeichert und somit katalogisiert werden, bei dem
für jedes Dokument die Häufigkeit N(ai|Bj) ermittelt wird, mit der jeweils
ein katalogisierter Begriff jeweils in dem Dokument Bj vorkommt und bei
dem die prozentuale Verteilung F(ai|Bj), des Begriffs ai auf die Dokumente
Bj der Datenbank, ermittelt wird, dadurch gekennzeichnet,
- - daß jedem Begriff ai jeweils ein Informationsmaß I(ai) zugeordnet wird, welches darüber Auskunft gibt, wie sich der Begriff ai statistisch über die gesamte Datenbank verteilt,
- - daß jeweils zur Ermittlung der Ähnlichkeitsrelevanz des Dokumentes Bj für den Begriff ai aus den zugeordneten Informationsmaßen I(ai) für jeden Begriff ai und aus der relativen Häufigkeit, mit der jeder Begriff ai in den Dokumenten Bj vorkommt, ein relativer Informationsgehalt G(ai|Bj) = I(ai)F(ai|Bj) bestimmt wird,
- - daß jeweils aus den Informationsmaßen I(ai) eines Begriffes ai sowie aus den relativen Häufigkeiten F(ai|Bj) und F(ai|Bk) dieses Begriffes ai jeweils für zwei Dokumente Bj und Bk ein gemeinsamer relativer Informationsgehalt GI(Bj|Bk) = I(ai) F(ai|Bj)F(ai|Bk) für den Begriff ai ermittelt wird,
- - daß aus der Summe aller gemeinsamen relativen Informationsgehalte GI(Bj|Bk) für alle in der Datenbank enthaltenen Begriffe ai jeweils ein Ähnlichkeitsmaß S(Bj|Bk)2 = ΣiI(ai)F(ai|Bj)F(ai|Bk) für jeweils zwei Dokumente Bj und Bk definiert wird,
- - daß die Ähnlichkeitsmaße S(Bj|Bk) für alle Kombinationen der in der Datenbank enthaltenen Dokumente ermittelt werden und
- - daß jeweils ein absolutes Ähnlichkeitsmaß für ein Dokument Bj ermittelt wird aus der Summe der Ähnlichkeitsmaße S(Bj|Bk) für alle Kombinationen der in der Datenbank enthaltenen Dokumente Bk, mit denen die Suchabfrage ausgelöst wurde bzw. die durch eingegebene Suchbegriffe aktiviert wurden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der
Zuordnung des Informationsmaßes I(ai ) zu den Begriffen ai die Begriffe ai ,
die häufig in der Datenbank vorkommen, wie insbesondere grammatische
Bindewörter ("und", "oder") sowie Artikel ("der", "die", "das"), mit einem
geringen Informationsmaß und Begriffe ai , die selten in der Datenbank
vorkommen, mit einem hohen Informationsmaß definiert werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Ähnlich
keitsmaße S(Bj|Bk) für alle Kombinationen der in der Datenbank enthaltenen
Dokumente auf den Wert "1" normiert werden.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für eine aus
Dokumenten des Hypertext Transfer Protocols (http) bestehende
elektronische Datenbank zunächst mit einer an sich bekannten und nach
boolschen und/oder probabilistischen Recherchiermethoden arbeitende
Suchmaschine eine begrenzte Anzahl dieser Dokument ermittelt wird, daß die
ermittelten Dokumente nachfolgend als eigenständige Datenbank behandelt
und ausgewertet werden, daß für alle Dokumente dieser eigenständigen
Datenbank jeweils das Ähnlichkeitsmaß bestimmt wird und daß die
Dokumente nach dem Ähnlichkeitsmaß sortiert ausgegeben sowie in der
ursprünglichen Datenbank als semantisch ähnlich markiert werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zum Zweck
einer semantischen Skalierung der in der Datenbank vorhandenen
Dokumente unter Berücksichtigung von Substrukturen innerhalb dieser
Dokumente jeweils mehrere aufeinander folgende Begriffe zu einem
Datensatz zusammengefaßt werden und daß das Ähnlichkeitsmaß für die in
der Datenbank vorhandenen Dokumenten anhand der jeweils aus den
Begriffen zusammengefaßten Datensätze bestimmt wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19859838A DE19859838A1 (de) | 1998-12-17 | 1998-12-17 | Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19859838A DE19859838A1 (de) | 1998-12-17 | 1998-12-17 | Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19859838A1 true DE19859838A1 (de) | 2000-06-21 |
Family
ID=7892516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19859838A Withdrawn DE19859838A1 (de) | 1998-12-17 | 1998-12-17 | Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19859838A1 (de) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10025219A1 (de) * | 2000-05-22 | 2001-12-06 | Conwave Gmbh | Verfahren, Computerprogrammprodukt und Vorrichtung zum automatischen Verknüpfen von Datensätzen aus zumindest einer Datenquelle sowie System zum Abrufen von verknüpften Datensätzen aus zumindest einer Datenquelle |
DE10030712A1 (de) * | 2000-06-23 | 2002-01-17 | Deutsche Telekom Ag | Verfahren zur Differenzierung von durch Suchmaschinen im Rahmen einer Suchanfrage ermittelten Referenzen auf Dokumente |
DE10036967A1 (de) * | 2000-07-28 | 2002-02-14 | Mathias Hopf | Verfahren und Vorrichtung zum Einfügen von Ressourceangaben in Elementen von Daten |
DE10054124A1 (de) * | 2000-10-31 | 2002-05-08 | Peter Linssen | Verfahren zur Ermittlung von Ähnlichkeiten zwischen Ereignisfolgen |
GB2368938A (en) * | 2000-06-29 | 2002-05-15 | Honda Motor Co Ltd | Electronic document classification system |
DE10142379B4 (de) * | 2001-08-30 | 2004-01-15 | Siemens Ag | Verfahren zum Erstellen von Hyperlinks und deren Verwendung zum Aufruf von Zieldokumenten aus einem Ausgangsdokument |
-
1998
- 1998-12-17 DE DE19859838A patent/DE19859838A1/de not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10025219A1 (de) * | 2000-05-22 | 2001-12-06 | Conwave Gmbh | Verfahren, Computerprogrammprodukt und Vorrichtung zum automatischen Verknüpfen von Datensätzen aus zumindest einer Datenquelle sowie System zum Abrufen von verknüpften Datensätzen aus zumindest einer Datenquelle |
DE10030712A1 (de) * | 2000-06-23 | 2002-01-17 | Deutsche Telekom Ag | Verfahren zur Differenzierung von durch Suchmaschinen im Rahmen einer Suchanfrage ermittelten Referenzen auf Dokumente |
DE10030712B4 (de) * | 2000-06-23 | 2004-02-12 | Deutsche Telekom Ag | Verfahren zur Differenzierung von durch Suchmaschinen im Rahmen einer Suchanfrage ermittelten Referenzen auf Dokumente |
GB2368938A (en) * | 2000-06-29 | 2002-05-15 | Honda Motor Co Ltd | Electronic document classification system |
DE10036967A1 (de) * | 2000-07-28 | 2002-02-14 | Mathias Hopf | Verfahren und Vorrichtung zum Einfügen von Ressourceangaben in Elementen von Daten |
DE10054124A1 (de) * | 2000-10-31 | 2002-05-08 | Peter Linssen | Verfahren zur Ermittlung von Ähnlichkeiten zwischen Ereignisfolgen |
DE10142379B4 (de) * | 2001-08-30 | 2004-01-15 | Siemens Ag | Verfahren zum Erstellen von Hyperlinks und deren Verwendung zum Aufruf von Zieldokumenten aus einem Ausgangsdokument |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69432575T2 (de) | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
DE69917250T2 (de) | Merkmalübertragung über hyperlinks | |
DE69820343T2 (de) | Linguistisches Suchsystem | |
DE69834386T2 (de) | Textverarbeitungsverfahren und rückholsystem und verfahren | |
DE60029732T2 (de) | Phrasenübersetzungsverfahren und -system | |
DE69933187T2 (de) | Dokumentensuchverfahren und Dienst | |
DE10231161A1 (de) | Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben | |
DE4232507A1 (de) | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten | |
DE10343228A1 (de) | Verfahren und Systeme zum Organisieren elektronischer Dokumente | |
WO2006018411A2 (de) | Sprach- und textanalysevorrichtung und entsprechendes verfahren | |
DE102005051617A1 (de) | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken | |
DE102006040208A1 (de) | Patentbezogenes Suchverfahren und -system | |
EP3973412A1 (de) | Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente | |
DE10034694B4 (de) | Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung | |
DE19859838A1 (de) | Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank | |
WO1999010819A1 (de) | Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil | |
WO2010078859A1 (de) | Verfahren und system zum ermitteln einer ähnlichkeit von dokumenten | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
DE112021006602T5 (de) | Verfeinern von abfrage-erzeugungsmustern | |
EP1064606B1 (de) | Datenverarbeitungssystem und verfahren zum automatischen erstellen von inhaltsangaben von textdokumenten | |
Heyer et al. | Aiding Web Searches by Statistical Classification Tools | |
DE10160920B4 (de) | Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten | |
EP4133384A1 (de) | Verfahren und computersystem zur bestimmung der relevanz eines textes | |
DE10261839A1 (de) | Verfahren und Einrichtung zur Durchführung einer elektronischen Recherche |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8101 | Request for examination as to novelty | ||
8105 | Search report available | ||
8127 | New person/name/address of the applicant |
Owner name: AMENOTEC GMBH, 46397 BOCHOLT, DE |
|
8141 | Disposal/no request for examination |