DE19715723A1

DE19715723A1 - Array-Verfahren

Info

Publication number: DE19715723A1
Application number: DE19715723A
Authority: DE
Inventors: Michael Buchstaller; Michael Mohr
Original assignee: DCI DATENBANK fur WIRTSCHAFTS
Current assignee: DCI DATENBANK fur WIRTSCHAFTS
Priority date: 1997-04-15
Filing date: 1997-04-15
Publication date: 1998-11-12
Also published as: WO1998047081A1; AU6297198A

Description

Die Erfindung betrifft ein Verfahren zur Optimierung der Zugriffsgeschwindigkeit von auf einem Speicherme dium abgelegten digitalen Daten, wobei das Verfahren zur Ausführung auf einem digitalen Rechner geeignet ist.

Bisherige Datenbanksysteme weisen den gravierenden Nachteil auf, daß viele Daten gleichzeitig in mehreren Dateien gespeichert sind, wodurch zusätzlich Speicher platz benötigt und die Aktualisierung der Daten erschwert wird. So muß beispielsweise bei einer Adreß- datei eine Namensänderung in allen diese Informationen enthaltenden Dateien gleichzeitig durchgeführt werden. Wird hierbei irrtümlich, z. B. durch einen Schreibfeh ler, in einer Datei etwas falsch geändert, so ist die gesamte Datenmenge inkorrekt (inkonsistent). Des weiteren ist bei jeder Suchabfrage immer der gesamte Inhalt der bearbeiteten Dateien beteiligt, d. h. auch die nicht benötigten Daten. Dies verlängert die erforderliche Rechenzeit und erhöht den Speicherbedarf.

Die Mehrzahl der heute verwendeten Datenbanken basieren auf dem hierarchischen Datenmodell, dem Netzwerk-Daten modell oder dem relationalen Datenmodell. Während die ersten beiden Datenmodelle eine baum- bzw. netzförmige Struktur aufweisen, beruht das relationale Datenmodell auf Tabellen. Dabei werden alle Informationen einer Datenbank, also sowohl die Objekte wie auch ihre Bezie hungen auf die gleiche Art durch Tabellen dargestellt. Beziehungen zwischen Objekten sind vorhanden, wenn ein Wert in mehreren Relationen vorkommt. Erst bei einer Anfrage an die Datenbank werden vorhandene Beziehungen aktiviert. Die Durchführung von Abfragen ist relativ aufwendig, denn die Relationen unterstützen keinen schnellen Suchalgorithmus. Entweder müssen die einzel nen Tupel sequentiell nach einem Merkmal durchsucht werden, oder der Algorithmus muß effizienzsteigernde Hilfdatenstrukturen selbst erzeugen.

Bei Verwendung bisheriger Datenbanksysteme wird die Verkürzung der Rechenzeit im allgemeinen durch Verwen dung leistungsfähiger Hochleistungsrechner bewerkstel ligt, die jedoch eine natürliche Leistungsgrenze aufweisen und aus wirtschaftlichen Gründen nur in wenigen Fällen zum Einsatz kommen können. Insbesondere bei der Online-Abfrage von Datenbankinformationen in Netzwerkdatenbanken ist aber eine Minimierung der Rechenzeit unbedingt erforderlich, um unnötige Warte zeiten Online und damit erhöhte Abfragekosten zu vermeiden.

Aufgabe der vorliegenden Erfindung ist es daher, ein verbessertes Zugriffverfahren auf digitale Daten zu schaffen, welches insbesondere für den Online-Betrieb in Netzwerkdatenbanken geeignet ist.

Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des Anspruchs 1 gelöst.

Dabei sieht ein zur Ausführung auf einem digitalen Rechner geeignetes Verfahren zur Optimierung der Zugriffsgeschwindigkeit von auf einem Speichermedium abgelegten digitalen Daten vor, daß die Daten in einem Datenfeld strukturiert abgelegt sind, Suchvektoren für Datengruppen zunächst logisch miteinander und anschließend mit dem Datenfeld verknüpft werden. Auf diese Weise werden zunächst lediglich Suchvektoren miteinander verknüpft, d. h. die zu bewegende Datenmenge ist zunächst relativ klein. Erst am Ende der Verknüpfungsoperation wird der resultierende Vektor mit dem Datenfeld verknüpft und die entsprechenden Daten, die jeweils nur einmal vorhanden sind, ausgelesen. Dadurch, daß lediglich kleine Datenmengen bewegt werden und daß lediglich logische Verknüpfungen und keine sequentiellen Abfragen erfolgen, ist es möglich, in sehr kurzer Zeit ein gewünschtes Abfrageergebnis bei verhältnismäßig großen Datenmengen zu erhalten. Auf diese Weise können auch weniger leistungsfähige Rechenanlagen zum Verwalten und Abfragen komplexer Datenbestände verwendet werden. Das Datenfeld kann dabei zeilenförmig aufgebaut sein, wobei jede Zeile alle gewünschten Informationen über einen Eintrag enthält. Dabei ist es vorteilhaft, daß die Datenfelder statisch sind, d. h. die maximale Anzahl der eintragbaren Datensätze bereits vorgegeben ist. Bei einem Datenfeld, das noch nicht seinen Endzustand erreicht hat, werden die verbleibenden freien Zeilen durch Nullen markiert. Die Erstellung von Suchvektoren erfolgt durch Gruppierung von Daten, wie beispielsweise Länderzugehörigkeit, etc. Die Suchvektoren werden im Vorfeld erstellt und stehen bei der Abfrage bereits zur Verfügung.

Vorteil des beschriebenen Verfahrens ist es, daß ein konventioneller digitaler Rechner als schnelle Online- Datenbank genutzt werden kann. Dabei sind keine "Superrechner" erforderlich, da die Zugriffsgeschwin digkeit auch bei komplexen Abfragen sehr hoch ist und der Speicherbedarf im Vergleich zu konventionellen Datenbanken sehr klein ist. Dies beruht darauf, daß alle Daten nur einmal auftauchen, weshalb die bewegte Datenmenge gering ist. Ein weiterer Vorteil ist es, daß Suchvektoren erstellt werden können, ohne den Daten bankbestand zu blockieren. D.h., während bei konventio nellen Datenbanken bei der Erstellung von Key-Feldern für die Datenabfrage zumindest ein Teil der Daten für gewisse Zeit blockiert ist, geht beim vorliegenden Verfahren der normale Mehrbenutzer (Multiuser) Betrieb weiter, während neue Suchvektoren erstellt bzw. aktualisiert werden. Damit ist das Verfahren bestens für den Betrieb in einer Multiuser-Netzwerkdatenbank geeignet. Außerdem sind mit dem Array-Verfahren Abfragen durchführbar, die in einer konventionellen Datenbank, die mit Key-Feldern arbeitet, nicht möglich sind. So können beispielsweise alle Aussteller auf einer Messe mit dem entsprechenden Suchvektor in kürzester Zeit ermittelt werden, ohne daß diese Information notwendigerweise im Datenfeld selbst vorhanden ist.

Eine vorteilhafte Weiterbildung des erfindungsgemäßen Verfahrens sieht vor, daß jeweils ein Suchvektor beste hend aus Nullen und Einsen einem Suchbegriff zugeordnet ist. Bei einer Länderabfrage, in der alle Einträge aus Deutschland gefunden werden sollen, weist beispiels weise der Suchvektor jeweils dort Einsen auf, wo entsprechende Einträge im Datenfeld vorhanden sind, wogegen andere Ländereinträge eine Null im Suchvektor aufweisen. Bei einer gegebenen Wortbreite des Prozessors von b bits können so Abfragen mit einer einzigen CPU-Instruktion abgefragt werden. Durch die Verwendung von Suchvektoren mit Nullen und Einsen reicht die normale Wortbreite des Prozessors, z. B. 32 bit, in der Regel aus, um bereits eine sinnvolle Abfrage durchzuführen. Die Datensätze der Suchvektoren sind nämlich durchschnittlich um den Faktor n × 10³ bit kleiner als diejenigen Datensätze bei sequenziellen Abfragen komplexer Begriffe in konventionellen Datenbanken. Auch ist die logische Verknüpfung von Nullen und Einsen wesentlich maschinennäher als die Verwendung komplexer Suchbegriffe. Schließlich ist die sehr gute Komprimierbarkeit der Suchvektoren vorteil haft bei Netzwerkabfragen. Somit wird durch die Verwendung derartiger Suchvektoren die Rechen- und Übertragungsgeschwindigkeit erhöht und der Speicherbedarf verringert.

Des weiteren sieht eine vorteilhafte Ausführungsform vor, daß bei der logischen Verknüpfung der Suchvektoren zunächst ein Validierungsvektor vorgeschaltet wird. Dies heißt, daß nur an Stellen, wo gültige Einträge vorhanden sind, Einsen stehen und ansonsten Nullen im Validierungsvektor auftauchen. Dies ist beispielsweise dann erforderlich, wenn alte Einträge ungültig gemacht werden sollen. Dann würde vor diesem Datensatz im Validierungsvektor eine Null stehen.

Weiterhin ist es vorteilhaft, wenn sämtliche Suchvekto ren in den Arbeitsspeicher geladen werden. Dies erhöht die Berechnungsgeschwindigkeit und verkürzt somit die Rechenzeit. Das Verfahren ist selbst mit einer Standard-Hardware-Ausstattung durchführbar, da die Suchvektoren nur einen sehr geringen Speicherbedarf aufweisen.

Außerdem sieht eine vorteilhafte Weiterbildung des erfindungsgemäßen Verfahrens vor, daß die Suchvektoren bei Neueinträgen in die Datenbank automatisch angepaßt werden. Dies bedeutet, daß bei jedem Neueintrag eine Überprüfungsroutine durchlaufen wird, die entsprechende Suchbegriffe bei diesem einen Eintrag abfragt und entsprechend Einsen bzw. Nullen dem jeweiligen Suchvek tor zuweist. Es können aber auch die Ergebnisvektoren, die aus einer Verknüpfung von Suchvektoren bei einer früheren Abfrage hervorgegangen sind, z. B. Mailingliste '97, als neuer Suchvektor abgelegt werden.

Weiterhin sieht eine vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens vor, daß die digitalen Daten auf einem Festspeicher als nicht flüchtigen Speichermedium abgelegt werden. Dies kann beispielsweise eine Festplatte, ein Datenband, CD-ROM, EPROM oder Diskette sein.

Schließlich ist vorteilhafterweise die Verwendung eines derartigen Verfahrens auf einem digitalen Rechner (Server) in einem Netzwerk zur Online-Abfrage einer Netzwerkdatenbank vorgesehen, da gerade bei Online- Abfragen hohe Zugriffs- und Abfragegeschwindigkeiten erforderlich sind, um unnötige Kosten aufgrund Rechenzeit bzw. Hardwareeinsatz zu vermeiden. Außerdem wird hierdurch ein effizienter Mehrbenutzer-Betrieb gewährleistet. Die Suchvektoren können ohne Eingriff in das Datenfeld erstellt werden, wodurch die Ausfallzeiten gering sind.

Im Folgenden wird die Erfindung anhand eines Beispiels näher erläutert. Darin wird von einem Adressenfeld mit n Datensätzen ausgegangen. Bei der Abfrage wird zunächst der Validierungsvektor mit n Zeilen vorge schaltet, der für jeden gültigen Eintrag eine Eins aufweist. Im vorliegenden Beispiel ist das Adressenfeld mit n Einträgen voll besetzt. Bei der Abfrage wird zunächst der Validierungsvektor vorgeschaltet und durch "und" mit einem ersten Suchvektor, der die im Adressen feld aufgelisteten Abonnenten auflistet, logisch verknüpft. Des weiteren wird ein Suchvektor, der die im Adressenfeld aufgelisteten Teilnehmer am Lastschriftverfahren anzeigt, ebenfalls durch "und" verbunden. Der resultierende Vektor wird dann mit dem Adressenfeld verknüpft und als Ergebnis erhält man die gewünschten Datensätze.

Adressenfeld

Suchvektoren

gültiger Eintrag und Abonnement und Lastschriftverfahren

Falls die diversen Suchvektoren an "ungültigen" Stellen ohnehin mit Nullen vorbesetzt sind, wird kein Validierungsvektor benötigt.

Claims

1. Verfahren geeignet zur Ausführung auf einem digitalen Rechner zur Optimierung der Zugriffs geschwindigkeit von auf einem Speichermedium abgelegten digitalen Daten, wobei die Daten in einem Datenfeld strukturiert abgelegt sind und wobei Suchvektoren zunächst logisch miteinander und anschließend mit dem Datenfeld verknüpft werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß jeweils ein Suchvektor bestehend aus Nullen und Einsen einem Suchbegriff zugeordnet ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß ein Validierungsvektor vorgibt, ob ein Datensatz gültig ist oder nicht.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei der logischen Verknüpfung der Suchvek toren zunächst der Validierungsvektor vorge schaltet wird.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß sämtliche Suchvektoren in den Arbeitsspei cher geladen werden.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Suchvektoren bei Neueinträgen in die Datenbank automatisch angepaßt werden.

7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die digitalen Daten auf einem Festspeicher als Speichermedium abgelegt werden.

8. Verwendung eines Verfahrens nach Anspruch 1 auf einem digitalen Rechner in einem Netzwerk zur Online-Abfrage in einer Netzwerkdatenbank.