DE19907341A1

DE19907341A1 - Verfahren zur Bearbeitung von Daten als Abfrageinformationen

Info

Publication number: DE19907341A1
Application number: DE19907341A
Authority: DE
Inventors: Lutz H Karolus
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-02-20
Filing date: 1999-02-20
Publication date: 2000-08-31

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Bearbeitung und Umwandlung von in einer lokalen Datenverarbeitungsmaschine (Client) generierten und zu einer zentralen Datenverarbeitungsmaschine (Server), als Abfragekriterien für eine angeschlossene Datenbank gesendeten Datensätzen, wobei ein in einer lokalen DV-Maschine (Client) erzeugter Datensatz zur Datenbankabfrage derart bearbeitet wird, daß innerhalb vorgegebener Parameter bestimmte Zeichen und/oder Zeichenfolgen umgewandelt und maschinell mit diesen neuen Zeichenfolgen weitere Datensätze (Alternativen) erzeugt werden. Der ursprüngliche Datensatz und die maschinell erzeugten Alternativen werden z. B. mit den in einer angeschlossenen Datenbank vorhandenen Daten verglichen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Bearbeitung und Umwandlung von in einer lokalen Datenverarbeitungsmaschine (Client) generierten und zu einer zentralen Datenverarbeitungsmaschine (Server) gesendeten Daten, zur Verwendung dieser Daten als spezifische Abfrageinformationen für eine Datenbank.

Die Kopplung von lokalen DV-Maschinen mit zentralen DV-Maschinen ist die Grundlage von Datennetzwerken, wie Intranet und Internet. Eine wesentliche Eigenschaft solcher Netzwerke liegt in dem Austausch und der Verarbeitung von auf Datenträgern gespeicherten Informationen. In der Regel wird der Großteil der abrufbaren Informationen auf den Speichermedien zentraler DV-Maschinen in Form von Datenbanken gespeichert und ist über die Kopplung mit lokalen DV- Maschinen abrufbar, so daß diese Informationen nach dem Abruf auf der lokalen Einheit verfügbar sind, wo sie ihrerseits wieder auf Speichermedien abgelegt werden oder mit Hilfe von Anzeigegeräten temporär zugänglich sind.

Die Fülle von Informationen, wie sie insbesondere im Internet oder auch im Intranet von Unternehmen vorhanden ist, erfordert die Möglichkeit gezielt auf bestimmte Datensätze zugreifen zu können, welche ihrerseits in Datenbanken verwaltet werden.

In der Regel geschieht dies mit Hilfe von sogenannten Suchmaschinen, welche einen zentralen Server mit einer darauf gespeicherten Datenbank umfassen. An der lokalen DV-Maschine werden Suchbegriffe in eine Abfragemaske für die Datenbanken eingegeben, die zur zentralen Rechnereinheit gesendet werden. Dort werden die gesendeten Zeichenketten maschinell mit den in der Datenbank vorhanden Daten verglichen und bei übereinstimmenden Ergebnissen die entsprechenden Dokumente zum Client gesendet.

Bei diesen Datenbankabfragen ergeben sich regelmäßig Probleme, wenn die Suchbegriffe nicht richtig eingegeben werden, d. h. die Schreibweise nicht korrekt ist. Oftmals ist die richtige Schreibweise nicht geläufig oder es existieren mehrere mögliche Varianten. Im deutschsprachigen Raum treten Probleme zum einen durch die Verwendung von Umlauten auf. Zum anderen ist die Schreibweise eines Begriffes durch die Einführung der neuen Rechtschreibung oftmals nicht mehr eindeutig. In diesen Fällen führt die Suchabfrage bei herkömmlichen Suchmaschinen zu falschen oder unvollständigen Suchergebnissen. In anderen Sprachen tauchen vergleichbare Schwierigkeiten auf.

Somit werden die gewünschten Informationen nur teilweise oder meist garnicht erhalten was eine deutliche Verzögerung im Arbeitsablauf zur Folge hat bzw. es muß eine neue Datensuche erfolgen, was zu einem höheren Zeitaufwand und ggf. zu höheren Telekommunikationskosten führt.

Die vorliegende Erfindung hat sich daher die Aufgabe gestellt, ein Verfahren zu schaffen, bei dem der von der lokalen DV-Maschine gesendete Suchbegriff so bearbeitet und transformiert wird, daß unterschiedliche Schreibweisen aber auch ggf. damit zusammenhängende Termini bei der Datenabfrage in der zentralen DV- Maschine mit erfaßt werden. Damit soll es möglich sein mit einer Abfrage nahezu alle möglichen Schreibweisen und Bedeutungen eines Suchbegriffes abzudecken und ein im wesentlichen vollständiges Suchergebnis zu erhalten.

Die Lösung dieser Aufgabe gelingt mit einem Verfahren entsprechend dem Hauptanspruch, wobei ein in einer lokalen DV-Maschine (Client) generierter Datensatz zur Datenbankabfrage erfindungsgemäß derart bearbeitet wird, daß innerhalb vorgegebener Parameter bestimmte Zeichen und/oder Zeichenfolgen umgewandelt und maschinell mit diesen neuen Zeichenfolgen weitere Datensätze (Alternativen) erzeugt werden. Der ursprüngliche Datensatz und die maschinell erzeugten Alternativen werden z. B. mit den in einer angeschlossenen Datenbank vorhandenen Daten verglichen.

Die Vorgehensweise ist dabei folgende. An der lokalen DV-Maschine wird ein Datensatz, im folgenden Suchbegriff, generiert. Dieser Suchbegriff wird sodann maschinell auf vorgegebene Zeichen oder Zeichenfolgen untersucht und diese entsprechend den festgelegten Parametern variiert. Aus sämtlichen umgewandelten Zeichenfolgen werden aus dem ursprünglichen Begriff im Sinne einer Permutation neue Suchbegriffe, sogenannte Alternativen erzeugt. Die erzeugten Alternativen zusammen mit dem Originalsuchbegriff werden dann mit den Datensätzen einer angeschlossenen Datenbank verglichen. Und Dokumente in denen der Originalbegriff oder eine erzeugte Alternative vorhanden sind in an sich bekannter Weise zur lokalen DV-Maschine ausgegeben.

Vorteilhaft ist es die Alternativen vor der Datenbankabfrage einer Plausibilitätsabfrage zu unterziehen, bei der anhand von weiteren vorgegebenen Kriterien der Schreibweise nach nicht sinnvolle Begriffe ausgefiltert werden.

Solche Kriterien wären in der deutschen Sprache beispielsweise der Ausschluß von Doppelbuchstaben oder "ß" am Wortanfang.

Mit der Plausibilitätsprüfung wird die Anzahl der gebildeten Alternativen beschränkt und somit auch die Zugriffszeit verringert. Die verbleibenden innerhalb vorgegebener Kriterien mit dem Originaldatensatz übereinstimmenden Alternativen zusammen mit dem Originalsuchbegriff werden dann mit den Datensätzen der angeschlossenen Datenbank verglichen.

Eine besonders bevorzugte Lösung besteht darin, daß zur Optimierung der zu übertragenden Datenmenge vor der Ausgabe der Suchergebnisse an die lokale DV-Maschine eine Bewertung (Ranking) der Übereinstimmung der gefundenen Dokumente mit dem Originalsuchbegriff und den Alternativen erfolgt. Dabei ist es möglich verschiedene Auswahlkriterien zu wichten, wie beispielsweise das Erstellungsdatum des Dokuments oder das Auftreten des Suchbegriffs bzw. der Alternative im Titel oder im Text des Dokuments.

Für den Fall, daß der Originalsuchbegriff in der Datenbank gefunden wird ist es zweckmäßig, die mit Alternativen übereinstimmende Daten nicht auszugeben, um die zum Client zu übertragende Datenmenge möglichst gering zu halten.

Die Umwandlung des ursprünglichen Suchbegriffs in Alternativen kann in der lokalen DV-Maschine erfolgen, wobei dann mehrere Datensätze zur zentralen DV- Maschine übertragen werden.

Bevorzugt wird jedoch, daß nur der Originalsuchbegriff zum Server übertragen wird und die Umwandlung im Server abläuft.

Die Parameter für die Umwandlung des Suchbegriffs werden auf die jeweilige Anwendung abgestimmt. So werden die Parameter für die Transformation von Zeichen oder Zeichenfolgen in der Regel sprachenspezifisch vorgegeben. Im Deutschen können dabei beispielsweise die Umlaute "ä", "ö" oder "ü" in "ae", "oe" und "ue" und umgekehrt, Doppelbuchstabenfolgen in Einfachbuchstaben und umgekehrt oder die S-Laute "s", "ss" und "ß" jeweils ineinander umgewandelt werden. Auch können typische Buchstabendreher, wie "ei" und "ie" und dergleichen vorgegeben werden. Insbesondere kann vorgegeben werden, daß phonetisch gleichklingende, jedoch unterschiedlich geschriebene Zeichenfolgen jeweils ineinander transformiert werden, wie beispielsweise "ei", "ai", "ey" und "ay".

Eine deratige Transformation oder Umwandlung des ursprünglichen Suchbegriffs kann über die im Anhang A angefügten Quellcodesequenzen in PHP/FI beschrieben werden, wobei die Liste der Transformationsparameter nur beispielhaften Charakter trägt und beliebig erweiterbar ist. In einem weiteren Anhang B findet sich ein weiterer Quellcode, in welchem auch eine Plausibilitäts prüfung enthalten ist.

Es hat sich gezeigt, daß es überraschenderweise mit der Programmierung in PHP/FI möglich ist, den Umfang des Quellcodes sehr gering zu halten und damit eine nahezu optimale Verarbeitungsgeschwindigkeit zu erreichen.

Neben den auf die jeweilige Anwendungssprache abgestimmten Parametern für die Umwandlung einzelner Zeichen oder Zeichenfolgen besteht eine weitere vorteilhafte Variante Erfindung in der Transformation des gesamten Suchbegriffs in andere Alternativbegriffe, wie beispielsweise in synonyme Begriffe, übliche Abkürzungen oder Begriffe aus verwandten Themenbereichen. Besonders vorteilhaft ist diese Variante für Anwendungen im Intranet.

Damit ergibt sich die Möglichkeit innerhalb eines Unternehmens mit der Eingabe eines Suchbegriffs ein weiteres Spektrum an Informationen zu erhalten. Auf dem Gebiet der Pharmazie oder Chemie in der häufig sog. Trivialnamen neben den korrekten Bezeichnungen existieren könnte so beispielsweise der ursprüngliche Suchbegriff "Chloramphenicol" in "Chloromycetin", "Levomycetin" und "2- Dichloracetamido-1-(4-nitrophenyl)-propan-1,3-diol" transformiert werden, womit dann die Trefferwahrscheinlichkeit einer Suchanfrage betreffend diese Verbindung deutlich höher liegen würde, als bei einer herkömmlichen Suchanfrage (oder: "Flavinmononucleotid", "FMN", "Riboflavin-5'-phosphat").

Anhand der beiliegenden Figuren wird die vorliegende Erfindung näher erläutert.

Dabei zeigen

Fig. 1 ein allgemeines Ablaufschema des Verfahrens,

Fig. 2 ein allgemeines Ablaufschema des Verfahrens mit Plausibilitätsprüfung und Ranking der Suchergebnisse.

In Fig. 1 ist ein allgemeines Flußschema des erfindungsgemäßen Verfahrens gezeigt. Die Eingabe der Daten und die Erzeugung des originalen Datensatzes (Suchbegriff) erfolgt in der lokalen DV-Maschine (Client). Die nachfolgenden Operationen können ebenfalls im Client ablaufen, wobei bei dieser Variante insgesamt größere Datenmengen zur zentralen DV-Maschine (Server) übertragen werden. Bervorzugt wird daher den Suchbegriff ohne weitere Modifikation vom Client zum Server zu übertragen und die nachfolgenden Verfahrensschritte im Server ablaufen zu lassen.

Der Suchbegriff wird in einem nächsten Schritt auf durch die Transformationsparameter vorgegebene Zeichen und/oder Zeichenfolgen untersucht. Der originale Suchbegriff wird dabei zwischengespeichert, da dieser in jedem Fall in unveränderter Form mit den Daten der angeschlossenen Datenbank verglichen wird.

Sind keine mit den Transformationsparametern übereinstimmende Zeichen und/oder Zeichenfolgen vorhanden wird nur der ursprüngliche Suchbegriff mit den Daten der Datenbank verglichen.

Anderenfalls erfolgt eine Umwandlung der entsprechenden Zeichen und/oder Zeichenfolgen gemäß den Transformationsparametern. Im folgenden Verfahrensschritt werden aus den umgewandelten Zeichen und -folgen im Sinne einer Permutation die möglichen Kombinationen zusammengesetzt und damit neue Suchbegriffe, sog. Alternativen gebildet.

Im Anschluß erfolgt der Vergleich der Alternativen zusammen mit dem originalen Suchbegriff mit den Daten einer angeschlossenen Datenbank. Dabei hat sich gezeigt, daß für die Anwendung des erfindungsgemäßen Verfahrens die an sich bekannten SQL-Datenbanken (SQL = Structured Query Language) besonders vorteilhaft eingesetzt werden können.

Die Datenbankabfrage erfolgt dann in bekannter Art und Weise. Liegt keine Übereinstimmung des Suchbegriffes oder der Alternativen vor, werden keine Daten aus der angeschlossenen Datenbank zum Client gesendet.

Bei Übereinstimmung des originalen Suchbegriffes oder der Alternativen mit Datensätzen der Datenbank, werden die entsprechenden Dokumente im letzten Verfahrensschritt zum Client gesendet.

Bei vorliegender Übereinstimmung des originalen Suchbegriffs und von Alternativen mit Daten der Datenbank ist es vorteilhaft nur die mit dem ursprünglichen Suchbegriff übereinstimmenden Dokumente zum Client zu senden, um den Datentransfer möglichst gering zu halten und ein weitgehend präzises Suchergebnis zu erhalten.

Fig. 2 zeigt ein Flußschema mit zwei zusätzlichen Verfahrensschritten. Zum einen die Plausibilitätsprüfung im Anschluß an die Alternativenbildung und zum anderen eine Bewertung (Ranking) der Übereinstimmung von Suchbegriff und/oder Alternativen mit den Daten der angeschlossenen Datenbank.

Die Plausibilitätsprüfung stellt sicher, daß nur solche Alternativen beibehalten werden, die innerhalb sinnvoller Parameter mit dem originalen Suchbegriff übereinstimmen. Die Plausibilitätskriterien werden ebenso wie die Transformationsparameter vorgegeben. Dies können beispielsweise das Verbot von Doppelbuchstabenfolgen, "ß" oder "dt" am Wortanfang sein.

Mit der Plausibilitätsprüfung wird auch eine deutliche Verringerung der Anzahl von Alternativen erreicht, was zu einer erheblichen Beschleunigung des Verfahrensablaufs führt.

Die Ranking-Kriterien für die Suchergebnisse können sich sowohl auf Eigenschaften der gefundenen Datenbankdokumente, sich beispielsweise auf das Auftreten der Begriffe im Titel, im Text oder in den Keywords der Dokumente sowie deren Erstellungsdatum beziehen, als auch auf den Suchbegriff und die Alternativen selbst, sodaß bei Übereinstimmung des ursprünglichen Suchbegriff und von Alternativen mit Dokumenten der Datenbank nur diejenigen Dokumente zur Lokalen DV-Maschine ausgegeben werden, die Übereinstimmung mit dem originalen Suchbegriff aufweisen.

Anhang A

Anhang B

Claims

1. Verfahren zur Bearbeitung und Umwandlung von in einer lokalen Datenverarbeitungsmaschine (Client) generierten und zu einer zentralen Datenverarbeitungsmaschine (Server), als Abfragekriterien für eine angeschlossene Datenbank gesendeten Datensätzen, gekennzeichnet durch die folgenden Verfahrensschritte:

a) der in der lokalen DV-Maschine erzeugte Datensatz wird maschinell auf ausgezeichnete Zeichen und/oder Zeichenfolgen untersucht;
b) die so ausgezeichneten Zeichen und/oder Zeichenfolgen werden maschinell entsprechend vorgegebenen Parametern in andere Zeichen und/oder Zeichenfolgen transformiert;
c) die transformierten Zeichen und/oder Zeichenfolgen werden maschinell zu neuen Datensätzen (Alternativen) kombiniert und erst danach;
d) der originale Datensatz und die Alternativen mit Daten einer angeschlossenen Datenbank verglichen wonach die
e) Ausgabe der übereinstimmenden Daten an die lokale DV-Maschine erfolgt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Alternativen maschinell vor dem Vergleich mit den Daten der angeschlossenen Datenbank einer Plausibilitätsabfrage nach vorgegebenen Parametern unterzogen und nur bei entsprechender Übereinstimmung mit Daten der Datenbank verglichen werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß vor der Ausgabe der Daten eine Bewertung der Übereinstimmung (Ranking) von originalen und alternativen Datensätzen mit den Daten der angeschlossenen Datenbank erfolgt.

4. Verfahren nach einem oder mehreren der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die angeschlossene Datenbank eine SQL-Datenbank ist.

5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Transformationsparameter auf die jeweilige Anwendungssprache anpaßbar sind.

6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der originalen Datensatz von der lokalen DV- Maschine zur zentralen DV-Maschine gesendet wird und die Transformation im Speichermedium der zentralen DV-Maschine erfolgt.

7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Transformation des originalen Datensatzes in der lokalen DV-Maschine erfolgt, wobei der originale Datensatz und die Alternativen zur zentralen DV-Maschine gesendet werden.

8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die der Quellcode in PHP/FI abgefaßt ist.