DE19859838A1

DE19859838A1 - Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank

Info

Publication number: DE19859838A1
Application number: DE19859838A
Authority: DE
Inventors: Klaus Holthausen; Olaf Breidbach; Maxim Khaikine; Oleg Fliguil
Original assignee: Friedrich Schiller Universtaet Jena FSU
Current assignee: Amenotec 46397 Bocholt De GmbH
Priority date: 1998-12-17
Filing date: 1998-12-17
Publication date: 2000-06-21

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank. DOLLAR A Es sollen zu einer Vorgabe alle in einer elektronischen Datenbank befindlichen Dokumente gleichen oder ähnlichen Inhalts gefunden und nach ihrer inhaltlichen Ähnlichkeit sortiert werden, wobei alle Dokumente nach diesen Ähnlichkeiten semantisch zu skalieren sind, gleich ob ein oder mehrere (Referenz-)Dokumente vorgegeben waren oder diese durch eingegebene Suchbegriffe aktiviert werden. DOLLAR A Erfindungsgemäß wird ein zweistufiges Verfahren geschaffen, wobei der Benutzer in der ersten Stufe bestimmte Suchbegriffe oder ein Referenz-Dokument benennt. Allen Dokumenten der Datenbank, die diese eingegebenen oder mit dem Referenz-Dokument definierten Suchbegriffe enthalten, wird ein relativer Informationsgehalt nach Häufigkeit und Verteilung der Suchbegriffe in den Dokumenten zugeordnet. In einem zweiten Verfahren wird anhand aller in der Datenbank enthaltenen Begriffe für jedes Dokument ein hinsichtlich der Suchanfrage relevantes Ähnlichkeitsmaß definiert, nach welchem die Dokumente sortiert ausgegeben werden.

Description

Die Erfindung betrifft ein Verfahren zur rechnergestützten Suche nach Dokumenten gleichen oder ähnlichen Informationsinhaltes, die einer durch Suchbegriffe bzw. durch den Informationsinhalt eines oder mehrerer Dokumente vorgegebenen Themenstellung zuzuordnen sind und mit einer Vielzahl anderer Dokumente in einer elektronischen Datenbank abgespei chert sind.

Elektronische Datenbanken gewinnen eine zunehmende Bedeutung in zahlreichen Anwendungen, etwa bei der Literatur-Recherche in den Wissenschaften aber auch verstärkt in allen Anwendungsbereichen, die sich mit dem Internet beschäftigen und auf sogenannte Suchmaschinen zugreifen. In diesen Datenbanken sind üblicherweise eine Vielzahl von Dokumenten abgespeichert, in denen ein Benutzer nach bestimmten Begriffen mit Hilfe eines Rechners recherchieren kann. Bei einer solchen Suchanfrage durch sucht der Rechner alle abgespeicherten Dokumente nach dem gewünschten Begriff und gibt diejenigen Dokumente als Ergebnis an den Benutzer zurück, in denen der Begriff vorhanden ist.

Aus Gründen der Verarbeitungsgeschwindigkeit wird bei umfangreichen Datenbanken ein sogenannter Index eingeführt, mit dessen Hilfe die Suchanfrage vom Rechner schneller verarbeitet werden kann. Es ist bekannt, daß diese Indexierungen durch zwei verschiedene Arten der Recherche genutzt werden können, der sogenannten boolschen Recherchiermethode und der sogenannten probabilistischen Recherchiermethode. Des weiteren ist bekannt, wie diese beiden Recherchiermethoden effektiv miteinander verbunden werden können (DE 196 09 549 A1).

Diese bisherigen Methoden haben den Nachteil, daß im allgemeinen nur diejenigen Dokumente ausgewertet werden, die eine boolsche Bedingung erfüllen. Bei der Suche in einer medizinischen Datenbank sei beispielsweise der Suchbegriff "Neuron" vorgegeben. Dokumente, die diesen Begriff nicht enthalten, sondern Synonyme, wie etwa "Nervenzelle", werden nicht bei der Suchabfrage berücksichtigt. Diese Nachteile treten noch deutlicher hervor in einer Situation, in der ein bestimmtes Dokument einer Datenbank vorgegeben ist und der Benutzer nach "ähnlichen" Dokumenten in der Datenbank sucht. Dieses setzt dann die Einbeziehung von Kontext-Informationen und die Definition eines Ähnlichkeitsmaßes voraus und sollte so gestaltet sein, daß der Anwender der Datenbank ohne aufwendige Suchverfahren relevante Dokumente finden kann. In der Praxis hingegen wird eine etwaige Kontext- Abhängigkeit durch eine automatische Indexierung abgefangen, die einem Dokument fast alle in diesem enthaltenen Wörter als Schlagwörter zuteilt. Bei dieser Technik ist der Benutzer gezwungen, alle Ausdrucksmöglichkeiten des gesuchten Sachverhalts anzugeben, um sämtliche relevanten Texte zu finden. Dadurch ist der Rechercheaufwand relativ hoch. Darüber hinaus besteht keine Sicherheit, daß alle relevanten Synonyme zu den Suchbegriffen gefunden und bei der Suchabfrage berücksichtigt werden.

Bisherige Ansätze zur Optimierung der Recherchiermethoden berühren lediglich einzelne Komponenten des o. g. verknüpften Verfahrens, wobei keine prinzipielle Änderung bei der Organisation der Indexierung erfolgt. So ist bekannt, wie bei einer Vielzahl von Datenbanken die Trefferquote eines Suchbegriffes effektiv zu berechnen ist (US 5 696 963). Außerdem ist bekannt, wie die Recherchiermethode durch nicht-hierarchische parametrische Suchmasken zu ergänzen ist (US 5 715 444). Eine Berücksichtigung relativer Information für jeweils zwei aufeinander folgende Begriffe in einem Dokument ist aus der Patentschrift US 5 717 914 ersichtlich. Dort erfolgt auch explizit eine informationstheoretische Berechnung einer entsprechenden Maßzahl. Eine mögliche Anpassung der bisherigen Recherchiermethoden für dynamisch veränderliche Datenbanken zeigt die Patentschrift US 5 701 469. Eine Skalierung der Relevanz eines Dokumentes auf der Basis einer Statistik der Trefferquoten in verschiedenen Datenbanken enthält die Schutzrechtsveröffentlichung US 5 659 732.

Sämtliche genannten Publikationen bieten keine hinreichende Lösung zur Einbeziehung von Kontext-Informationen bei der Literatur-Suche in Daten banken.

Ansätze zur semantischen Klassifizierung wurden im Rahmen des Projektes TINA (Textinhaltsanalyse) der Siemens AG erarbeitet. Einen Überblick über den Stand der Forschung enthält das Textbuch "Wortbedeutung und Termassoziation. Methoden zur semantischen Klassifikation" von Gerda Ruge (Hildesheim 1995). Aus dem dort dokumentierten Forschungsprojekt ist bekannt, daß einer Datenbank, bestehend aus Text-Dokumenten, ein Vektorraum-Modell zugeordnet werden kann. Dabei wird etwa jedem Begriff der Datenbank ein Vektor mit K Komponenten zugeordnet, wobei K die Anzahl der Dokumente sei. Die Komponente 1 an der i-ten Stelle des Vektors j bedeutet, daß der Begriff j im Dokument i vorkommt, anderenfalls wird die Komponente 0 zugeordnet. In diesem Vektorraum kann nun durch das zugeordnete Skalarprodukt ein Ähnlichkeitsmaß definiert werden. Bekannt ist auch, daß dieses Ähnlichkeitsmaß durch Einführung informationstheoretischer Größen zu einem probabilistischen Modell ergänzt werden kann (dem sog. Mutual-Information-Maß). Diese Verfahren eignen sich zur automatischen Generierung eines Schlagwortverzeichnisses mit Synonymen (Thesaurus). So wurde auf der Basis einer englischsprachigen Patent-Datenbank automatisch Termassoziationen ermittelt, beispielsweise wurde der Begriff "cable" mit den Begriffen "conductor", "connector", "wire" und "rope" assoziiert. Diese Verfahren, die sich vorrangig auf die automatische Thesaurus-Generierung konzentrieren, liefern jedoch keine hinreichenden Ansätze zur Ermittlung semantischer Ähnlichkeiten zwischen Dokumenten.

Der Erfindung liegt somit die Aufgabe zugrunde, zu einer Vorgabe alle in einer elektronischen Datenbank befindlichen Dokumente gleichen oder ähnlichen Inhaltes zu finden und diese nach ihrer inhaltlichen Ähnlichkeit zu sortieren, wobei alle Dokumente nach diesen Ähnlichkeiten semantisch skaliert werden sollen, gleich ob ein oder mehrere (Referenz-)Dokumente vorgegeben waren oder diese durch eingegebene Suchbegriffe aktiviert werden.

Erfindungsgemäß wird ein zweistufiges Verfahren zur Suche nach Dokumenten in elektronischen Datenbanken umgesetzt. In der ersten Stufe kann der Benutzer bestimmte Suchbegriffe oder ein Referenz-Dokument benennen. Bei Vorgabe eines Suchbegriffes wird allen Dokumenten, die diese Suchbegriffe enthalten, ein relativer Informationsgehalt zugeordnet. Die Größe dieser Maßzahl hängt davon ab, wie häufig die Suchbegriffe in einem Dokument vorkommen und wie sich innerhalb des Dokumentes die angefragten Begriffe verteilen. Bei Vorgabe eines Referenz-Dokumentes werden alle darin vorkommenden Begriffe quasi als Suchbegriffe gewertet, nach denen jeweils der relative Informationsgehalt der Dokumente bestimmt wird. Aus den relativen Informationsgehalten der Dokumente wird jeweils für zwei Dokumente ein gemeinsamer relativer Informationsgehalt für einen Begriff bestimmt. Auf diese Weise erfolgt eine numerische Bewertung der Relevanz dieser Dokumente, d. h. eine semantische Skalierung der Doku mente bezüglich eines Begriffs.

In einem zweiten Verfahrensschritt wird aus der Summe aller gemeinsamen relativen Informationsgehalte bezüglich aller in der Datenbank enthaltenen Begriffe ein Ähnlichkeitsmaß für jeweils zwei Dokumente definiert, das es erlaubt, zu den zurückgemeldeten Aufsätzen, zugeordnete "ähnliche" Dokumente, d. h. Dokumente mit begriffsverwandten Inhalten, zu ermitteln. Das Ähnlichkeitsmaß wird dabei unabhängig von den vorgegebenen Suchbegriffen stets auf der Basis aller in der Datenbank enthaltenen Dokumente ermittelt. Aus der Summe dieser Ähnlichkeitsmaße für alle möglichen Verknüpfungen der in der Datenbank enthaltenen Dokumente, mit denen die Suchabfrage ausgelöst wurde bzw. die durch eingegebene Suchbegriffe aktiviert wurden, wird jeweils ein absolutes Ähnlichkeitsmaß für ein Dokument berechnet, mit welchem das Dokument bei der Ausgabe bewertet wird. Anhand dieser Bewertung erfolgt eine Sortierung, d. h. eine semantische Klassifizierung, bei der Ausgabe der Dokumente als Rechercheergebnis.

Anders als bei bekannten Recherchiermethoden wird ein Suchverfahren realisiert, das im vollen Umfang semantische Kontext-Information berücksichtigt. Es werden somit die oben genannten Nachteile bei der Literatursuche vermieden, die sich auf eine zu starke Einschränkung des Suchfeldes aufgrund boolscher Recherchiermethoden zurückführen lassen. Das vorgeschlagene Verfahren liefert für jedes Dokument, das einen bestimmten Suchbegriff enthält, Verknüpfungen zu prinzipiell allen anderen Dokumenten der Datenbank, die durch das besagte Ähnlichkeitsmaß sortiert werden. So werden auch diejenigen Dokumente als Suchergebnis an den Benutzer gemeldet, die zwar die angefragten Suchbegriffe nicht enthalten, jedoch inhaltlich als ähnlich erkannt werden, da in diesen Dokumenten eine ähnliche Verteilung der sonstigen Begriffe vorliegt. Darüber hinaus kann auch eine Suche ohne Eingabe spezieller Suchbegriffen initialisiert werden, indem lediglich ein oder mehrere Referenzdokumente - und damit automa tisch alle darin enthaltenen Begriffe - als Suchanfrage benannt sind.

Im Vergleich zu bisherigen Verfahren erlaubt dies eine sehr komfortable, schnelle und überraschend umfassende Recherche.

Die Erfindung soll nachstehend anhand einer in der Zeichnung dargestellten Suchmaschine für eine elektronische Datenbank näher erläutert werden. Als Ausführungsbeispiel wurde dafür eine englischsprachige medizinische Fachdatenbank, die Computerdatenbank Medline ausgewertet, welche die Einträge des Zeitschriftenverzeichnisses Medical Index© enthält. Zu jedem Dokument enthält diese Datenbank circa eine Textseite Information (das sogenannte Abstract) über den jeweiligen Fachaufsatz.

Es zeigen:

Fig. 1 Ablaufdiagramm der Suchmaschine,

Fig. 2-4 Bildschirmmasken der Suchmaschine.

Für die Suche erfolgte eine Vorauswahl der Aufsätze unter der dem Suchbegriff "spike trains" in den Zeitschriftenjahrgängen 1990 bis Juli 1998. Es wurden K = 420 Dokumente gefunden und elektronisch gespeichert, die diesen Begriff enthielten.

Diejenigen Dokumente, die als ASCII-Textdateien einem Computer zur Verarbeitung vorlagen, wurden zunächst in numerische Dateien umgewandelt. Dabei wurde jedem mit einem Laufindex i neu gefundenen Begriff a_i innerhalb der Datenbank eine Zahl zugeordnet, beispielsweise
"the" = a₁ → 1
"spike" = a₂ → 2
"train" = a₃ → 3
"is" = a₄ → 4
etc.

Darüber hinaus erhielten alle Dokumente B_j einen Laufindex j. Eine derartige Vorgehensweise erhöht die Verarbeitungsgeschwindigkeit der Recherchier methode beträchtlich. Danach wurden sämtliche numerischen Größen, von denen die vier beispielhaft genannt waren, berechnet und im Computer gespeichert.

Es bezeichnet nun {a_i|1 <= i <= M} die Menge der Begriffe, die in einer fixierten Abfolge im Rechner gespeichert werden, und {B_j|1 <= j <= K} die Menge der Dokumente.

Die relative Häufigkeit F(a_i|B_j) des Begriffes a_i im Dokument B wird berechnet als Quotient: F(a_i|B_j) = N(a_i|B_j)/N(B_j), wobei N(a_i|B_j) angibt, wie oft der Begriff a_i in dem Dokument B_j vorkommt.

Zur Normierung der relativen Relevanz eines Begriffes a_i dient die folgende Größe:
F(a_i) = Σ_jF(a_i|B_j), d. h. die Summe über alle relativen Häufigkeiten eines Begriffes, die sich jeweils auf ein Dokument B_j beziehen.

Mit Hilfe dieser Definitionen läßt sich ein Informationsmaß I(a_i) für einen Begriff a_i wie folgt festlegen:

I(a_i) = ln(K) + Σ_jF(a_i|B_j)/F(a_i).ln(F(a_i|B_j)/F(a_i)).

Dieses Informationsmaß hat die folgenden Eigenschaften:

1. Das Informationsmaß nimmt den maximalen Wert von ln(K) an, falls der Begriff a_i in nur einem Dokument vorkommt (etwa ein seltener Fachbegriff).
2. Das Informationsmaß nimmt ein Minimum an (I = 0), falls die relative Frequenz F konstant ist. Das heißt, der Begriff ist völlig unabhängig vom Dokument-Kontext. Typische Beispiele dafür wären Präpositionen, Konjunktionen und Artikel ("of', "and", "the" etc.).

Mit anderen Worten: Das Informationsmaß I(a_i ) gibt Auskunft darüber, wie sich ein Begriff statistisch auf die Dokumente einer Datenbank verteilt. Als nächstes wird ein relativer Informationsgehalt G(a_i|B_j) eines Dokumentes B bezüglich eines Begriffes a_i wie folgt berechnet:

G(a_i|B_j) = I(a_i)F(a_iB_j).

Je größer der Wert dieser Maßzahl ist, um so größer ist die Relevanz des Dokumentes B_j für den Suchbegriff a_i. Eine semantische Skalierung der Dokumente läßt sich somit auf dieses Relevanz-Maß zurückführen.

Die Ähnlichkeit zweier Dokumente bezüglich eines Begriffes a_i wird als gemeinsamer relativer Informationsgehalt

GI(B_j|B_k) = I(a_i)F(a_i|B_j)F(a_i|B_k) berechnet.

Mit der Summation über alle Begriffe a_i der Datenbank wird ein Ähnlichkeitsmaß S zweier Dokumente B1 und B_k:

S(B_j|B_k)² = Σ_iI(a_i)F(a_i|B_j)F(a_i|B_k)

definiert.

Die Größe S(B_j|B_k) bewertet die kontextabhängige - und damit semantische - Ähnlichkeit zweier Dokumente B_j und B_k.

Die Größen G(a_i|B_j) und S(B_j|B_k) werden vor Beginn der Suchanfrage vom Computer berechnet und gespeichert.

Eine vorteilhafte Ausgestaltung der Erfindung sieht die Realisierung auf der Basis neuronaler Netzwerke vor. Fig. 1 zeigt dabei die semantische Recherchiermethode mit einem dreischichtigen neuronalen Netzwerk:

a) Als Eingabeschicht wird jedem Begriff a_i ein Neuron n_i zugeordnet. Eine Suchanfrage nach den Begriffen a_i und a_k bedeutet somit die Aktivierung der Neuronen n_i und n_k in der ersten Neuronenschicht. Diese Schicht enthält dementsprechend M Neuronen.
b) Eine zweite Neuronenschicht summiert für jeden Aufsatz die Größen G(ai|B_j), d. h. den relativen Informationsgehalt. Diese zweite Schicht verfügt entsprechend über K Neuronen. Diejenigen Neuronen mit der stärksten Aktivität repräsentieren dabei die rückgemeldeten Dokumente. Diese Schicht wird entsprechend als "Trefferschicht" bezeichnet.
c) Eine dritte Neuronenschicht, die ebenfalls über K Neuronen verfügt, summiert die Werte des Ähnlichkeitsmaßes S(B_j|B_k). Hier werden auch Dokumente aktiviert, die den Suchbegriff nicht enthalten. Diese Schicht wird entsprechend als "Assoziationsschicht" bezeichnet.

Eine Suchanfrage gestaltet sich dann so, daß die erste Neuronenschicht mit einem bestimmten Begriff aktiviert wird. Im Ausführungsbeispiel war dies der Begriff "entropy". Fig. 2 zeigt die Bildschirmmaske eines Prototypen der Suchmaschine. Das linke Fenster zeigt zwei Dokumente, die in der Trefferschicht aktiviert wurden. Der relative Informationsgehalt wurde zwischen 0 und 1 normiert. Beide Dokumente enthalten den Begriff "entropy" explizit. Es wird jedoch angezeigt, daß das Dokument "Detecting higher-order interactions. . ." mit einem relativen Informationsgehalt von 0,634 hinter dem ersten gemeldeten Dokument zurückbleibt. So erfolgt in der ersten Neuronenschicht - die das Analogon zu einer binären Suche repräsentiert - bereits eine semantische Skalierung. In der zweiten Neuronen schicht werden grundsätzlich alle Dokumente aktiviert (siehe rechtes Fenster der Bildschirmmaske in Fig. 1). Allerdings wird das Ähnlichkeitsmaß S zwischen 0 und 1 normiert, so daß ebenfalls eine semantische Skalierung erfolgt. Es werden 12 Dokumente mit einem Ähnlichkeitsmaß S von mindes tens 0,9 gemeldet. Ganz links in dem Fenster wird zunächst die Nummer des Dokuments angezeigt. Daneben steht der numerische Zahlenwert des Ähnlichkeitsmaßes S. Die 12 gefundenen Dokumente enthalten den Begriff "entropy" nicht. Dennoch behandeln sie Themen aus dem Bereich der statistischen Physik (etwa "Noise effects. . ." und "Multiple spike train analysis. . ."), die thematisch den Fachaufsätzen der Dokumente aus der Trefferschicht zuzuordnen sind. Es erfolgte also in der Tat eine Auswahl nach semantischer Ähnlichkeit.

Der Prototyp erlaubt es darüber hinaus, diejenigen Fachaufsätze anzuzeigen, die besonders wenig Ähnlichkeit mit den gesuchten Dokumenten aufweisen. Dazu wird der Button am rechten Rand der Bildschirmmaske verschoben (siehe Fig. 3). Dort sind 28 Dokumente mit einer semantischen Ähnlichkeit von unter 0,6 aufgeführt. Interessanterweise sind diese Dokumente inhaltlich einigermaßen homogen: Sie behandeln vorrangig biochemische Themen und weisen kaum inhaltliche Überlappungen mit den o. g. physikalisch orientierten Fachaufsätzen auf.

Des weiteren besteht die Möglichkeit, mit einem Fachaufsatz unmittelbar ein bestimmtes Dokument der Datenbank vorzugeben und zu diesem die semantisch ähnlichen Dokumente der Datenbank anzeigen zu lassen. In Fig. 4 wurde das Dokument Nr. 246 (ein physikalisch orientierter Fachaufsatz) vorgegeben. Erneut wurden erfolgreich semantisch ähnliche Dokumente assoziiert.

Das hier demonstrierte Verfahren erlaubt somit eine schnelle, umfangreiche und komfortable Literatur-Recherche, wobei insbesondere die Funktions weise der Assoziationsschicht dazu führt, daß auch inhaltsrelevante Dokumente angegeben werden, welche durch eine an sich bekannte boolsche Recherchiermethode nicht gefunden werden würden.

Das Verfahren läßt sich mit der erläuterten Architektur unmittelbar als Ergänzung einer Internet-Suchmaschine nutzen, wobei eine klassische boolesche Suchmaschine zunächst einen Pool von einigen hundert Dokumenten als Ergebnis einer Suchanfrage ermittelt, und diese dann durch eine semantische Skalierung benutzerfreundlich sortiert werden. So werden auch die sehr großen Datenmengen im INTERNET handhabbar, indem die mühsame individuelle Überprüfung einer sehr großen Zahl von Dokumenten entfällt.

Claims

1. Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank, bei dem alle in der Datenbank vorhandenen Dokumente B_j sowie die darin vorkommenden Begriffe a_i erfaßt, mit einem Laufindex versehen, abgespeichert und somit katalogisiert werden, bei dem für jedes Dokument die Häufigkeit N(a_i|B_j) ermittelt wird, mit der jeweils ein katalogisierter Begriff jeweils in dem Dokument B_j vorkommt und bei dem die prozentuale Verteilung F(a_i|B_j), des Begriffs a_i auf die Dokumente B_j der Datenbank, ermittelt wird, dadurch gekennzeichnet,

- daß jedem Begriff a_i jeweils ein Informationsmaß I(a_i) zugeordnet wird, welches darüber Auskunft gibt, wie sich der Begriff a_i statistisch über die gesamte Datenbank verteilt,
- daß jeweils zur Ermittlung der Ähnlichkeitsrelevanz des Dokumentes B_j für den Begriff a_i aus den zugeordneten Informationsmaßen I(a_i) für jeden Begriff a_i und aus der relativen Häufigkeit, mit der jeder Begriff a_i in den Dokumenten B_j vorkommt, ein relativer Informationsgehalt G(a_i|B_j) = I(a_i)F(a_i|B_j) bestimmt wird,
- daß jeweils aus den Informationsmaßen I(a_i) eines Begriffes a_i sowie aus den relativen Häufigkeiten F(a_i|B_j) und F(a_i|B_k) dieses Begriffes a_i jeweils für zwei Dokumente B_j und B_k ein gemeinsamer relativer Informationsgehalt GI(B_j|B_k) = I(a_i) F(a_i|B_j)F(a_i|B_k) für den Begriff a_i ermittelt wird,
- daß aus der Summe aller gemeinsamen relativen Informationsgehalte GI(B_j|B_k) für alle in der Datenbank enthaltenen Begriffe a_i jeweils ein Ähnlichkeitsmaß S(B_j|B_k)2 = Σ_iI(a_i)F(a_i|B_j)F(a_i|B_k) für jeweils zwei Dokumente B_j und B_k definiert wird,
- daß die Ähnlichkeitsmaße S(B_j|B_k) für alle Kombinationen der in der Datenbank enthaltenen Dokumente ermittelt werden und
- daß jeweils ein absolutes Ähnlichkeitsmaß für ein Dokument B_j ermittelt wird aus der Summe der Ähnlichkeitsmaße S(B_j|B_k) für alle Kombinationen der in der Datenbank enthaltenen Dokumente B_k, mit denen die Suchabfrage ausgelöst wurde bzw. die durch eingegebene Suchbegriffe aktiviert wurden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Zuordnung des Informationsmaßes I(a_i ) zu den Begriffen a_i die Begriffe a_i , die häufig in der Datenbank vorkommen, wie insbesondere grammatische Bindewörter ("und", "oder") sowie Artikel ("der", "die", "das"), mit einem geringen Informationsmaß und Begriffe a_i , die selten in der Datenbank vorkommen, mit einem hohen Informationsmaß definiert werden.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Ähnlich keitsmaße S(B_j|B_k) für alle Kombinationen der in der Datenbank enthaltenen Dokumente auf den Wert "1" normiert werden.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für eine aus Dokumenten des Hypertext Transfer Protocols (http) bestehende elektronische Datenbank zunächst mit einer an sich bekannten und nach boolschen und/oder probabilistischen Recherchiermethoden arbeitende Suchmaschine eine begrenzte Anzahl dieser Dokument ermittelt wird, daß die ermittelten Dokumente nachfolgend als eigenständige Datenbank behandelt und ausgewertet werden, daß für alle Dokumente dieser eigenständigen Datenbank jeweils das Ähnlichkeitsmaß bestimmt wird und daß die Dokumente nach dem Ähnlichkeitsmaß sortiert ausgegeben sowie in der ursprünglichen Datenbank als semantisch ähnlich markiert werden.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zum Zweck einer semantischen Skalierung der in der Datenbank vorhandenen Dokumente unter Berücksichtigung von Substrukturen innerhalb dieser Dokumente jeweils mehrere aufeinander folgende Begriffe zu einem Datensatz zusammengefaßt werden und daß das Ähnlichkeitsmaß für die in der Datenbank vorhandenen Dokumenten anhand der jeweils aus den Begriffen zusammengefaßten Datensätze bestimmt wird.