WO2006066556A2

WO2006066556A2 - Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken)

Info

Publication number: WO2006066556A2
Application number: PCT/DE2005/002287
Authority: WO
Inventors: Michael Haft; Oliver Mihatsch; Reimar Hofmann
Original assignee: Panoratio Database Images Gmbh
Priority date: 2004-12-24
Filing date: 2005-12-19
Publication date: 2006-06-29
Also published as: WO2006066556A8; EP1831804A1; US20080133573A1

Abstract

Es wird ein Datenbank-Abfragesystem bereitgestellt, bei dem zwei oder mehr Datenbanktabellen mittels eines gemeinsamen Schlüssels oder mehrerer Schlüssel, die jeweils mindestens zwei Datenbanktabellen gemeinsam sind, verknüpft sind. Bei einer Analyse-Anfrage und einer Selektion von Datensätzen in der ersten Datenbank wird eine der Selektion gemäß dem gemeinsamen Schlüssel entsprechende Selektion der Datensätze in der zweiten Datenbank ermittelt und unter Verwendung der so selektierten Datensätze in der zweiten Datenbank die Analyse-Anfrage beantwortet.

Description

Beschreibung

Relationale komprimierte Datenbank-Abbilder (zur beschleunigten Abfrage von Datenbanken)

Die Erfindung betrifft ein Datenbank-Abfragesystem und ein Verfahren zur rechnergestützten Datenbank-Abfrage .

Die systematische Erfassung von Informationen über Vorgänge in Unternehmen ist weit verbreitet . Solche Informationen können, nachdem sie in Form von Daten erfasst und in ^■ geeigneter Weise abgespeichert wurden, j e nach Art der Informationen beispielsweise für betriebswirtschaftliche und/oder marktstrategische Zwecke verwendet werden .

So werden beispielsweise Informationen über Kunden, die in einem Baumarkt einkaufen, gesammelt und die so erfassten Daten, beispielsweise das Alter der Kunden und der Wohnort der Kunden analysiert, um entsprechend das angebotene Sortiment des Baumarkts anzupassen oder um besser einschätzen zu können, welche Werbestrategien erfolgreich sein könnten.

Eine statistische Aussage, die auf solchen erfassten Daten beruht, weist jedoch nur dann eine hohe Aussagekraft auf, wenn sehr viele Daten bzw. Datensätze erfasst wurden.

Beispielsweise ist es für einen Baumarkt nicht sinnvoll, sein Produktsortiment umzustellen, nur weil acht von insgesamt zehn befragten Kunden bei einer Befragung entsprechende Antworten gegeben haben .

Um ein aussagekräftiges und signifikantes Ergebnis zu erhalten, ist es deshalb erforderlich, eine große Menge von Daten zu erfassen, geeignet zu strukturieren, zu speichern, das heißt in einer Datenbank abzulegen, und zu analysieren, das heißt statistisch auszuwerten .

Trotz der heutzutage verfügbaren verhältnismäßig leistungsfähigen Computersysteme ist dies eine nichttriviale Aufgabe .

Im Hinblick auf Speicherbedarf, erforderliche Zeit für den Zugriff auf die in der Datenbank gespeicherten Daten und Kosten ist es von erheblicher Bedeutung, Datenbanken effizient zu speichern und zu verwalten .

Bei herkömmlichen Datenbanksystemen können ferner bestimmte Anfragen gar nicht oder nur mit einem hohen Aufwand beantwortet werden.

Beispielsweise könnte ein Baumarkt über eine Kundendatenbanktabelle verfügen, in welcher Informationen über die Kunden des Baumarkts in Form von Kundendatensätzen gespeichert sind. Ein Kundendatensatz enthält beispielsweise die Kundennummer des Kunden, das Geschlecht des Kunden und das Geburtsjahr des Kunden .

Der Baumarkt könnte ferner über eine Transaktionsdatenbanktabelle verfügen, in welcher

Informationen über Transaktionen, das heißt Verkaufvorgänge^", in Form von Transaktionsdatensätzen gespeichert sind. Ein Transaktionsdatensatz könnten beispielsweise eine Transaktionsnummer, eine Spezifikation des im Rahmen der Transaktion verkauften Produkts , die Angabe des Umsatzes bei der Transaktion, die Angabe des Datums des Tages, an dem die Transaktion getätigt wurde, die Kundennummer des Kunden, der an de Transaktion beteiligt war, und eine Spezifikation der von dem Kunden verwendete Zahlungsart (Barzahlung, Kartenzahlung) enthalten.

Es sei nun angenommen, dass ein Verkaufmanager des Baumarkts gerne wissen möchte, wie die Altersverteilung der Kunden ist, die im Januar Beet- und Balkonpflanzen gekauft haben.

Der Verkaufsmanager kann diese Frage jedoch nicht mit einer Abfrage der ersten Datenbanktabelle oder der zweiten Datenbanktabelle beantworten.

Durch eine Abfrage der ersten Datenbanktabelle kann der Verkaufsmanager die Frage nicht beantworten, da in der ersten Datenbanktabelle keine Informationen über die von einem Kunden gekauften Produkte enthalten sind.

Durch eine Abfrage der zweiten Datenbanktabelle kann der Verkaufsmanager die Frage nicht beantworten, da in der zweiten Datenbanktabelle keine Informationen über das Alter der Kunden enthalten sind, die Transaktionen getätigt haben .

Alle marktgängigen relationalen Datenbanken verfügen über die Möglichkeit, mehrere Datenbanktabellen über gemeinsame Schlüsselfelder (im obigen Beispiel z . B . Kundennummer) zu verknüpfen . Solche sogenannten „JOIN"-Operationen sind j edoch oft rechenaufwändig . Viele heute eingesetzten Datenbanksysteme befinden sich an oder j enseits der Grenze hinsichtlich ihrer Antwortzeiten und Auslastung . Ein Großteil dieser Probleme wird durch Abfragen verursacht, die mehrere Datenbanktabellen verknüpfen, und komplizierte

Selektionskriterien enthalten, die sich über mehrere Datenbanktabellen erstrecken. Abfragen, die nur eine einzige Datenbanktabelle betreffen, können durch einen sogenannten „füll table scan" behandelt werden, d. h. indem die komplette Datenbanktabelle einmal von der Festplatte (oder einen anderen Speicher) in den Arbeitsspeicher eingelesen wird, und j eder Datensatz einzeln verarbeitet wird. Die Laufzeit solcher Abfragen findet dadurch eine natürliche obere Schranke . Werden mehrere Datenbanktabellen verknüpft, funktioniert diese einfache Vorgehensweise nicht mehr, und potentiell sehr lange Abfragezeiten können entstehen.

Ein möglicher Ausweg, der teilweise im Umfeld des Data Warehousing begangen wird, ist, die Strukturierung der Information in verschiedenen Datenbanktabellen so zu verändern, dass alle für eine Abfrage benötigten

Informationen letztendlich^' in einer einzigen Datenbanktabelle enthalten sind.

Die Frage könnte durch eine Abfrage der ersten Datenbanktabelle beantwortet werden, wenn jeder

Kundendatensatz die Information enthielte, ob der Kunde, der diesem Kundendatensatz entspricht, im Januar Beet- und Balkonpflanzen gekauft hat . Entsprechend könnte ein Kundendatensatz ein Feld aufweisen, das einen ersten Wert enthält, wenn der Kunde im Januar Beet- und Balkonpflanzen gekauft hat und einen zweiten Wert enthält, wenn der Kunde im Januar keine Beet- und Balkonpflanzen gekauft hat .

Es ist ersichtlich, das im Fall einer solchen Anfrage die Struktur der Datenbanktabelle bereits vor der Anfrage entsprechend gewählt sein muss . In diesem Beispiel muss die Kundendatenbanktabelle so ausgestaltet sein, dass j eder Kundendatensatz die Information enthält, ob der entsprechende Kunde im Januar Beet- und Balkonpflanzen gekauft hat . Dies ist jedoch nicht ohne weiteres möglich, da es typischerweise nicht bei der Gestaltung der Datenbanktabelle schon ersichtlich ist, welche Anfragen in Zukunft an die Datenbanktabelle gestellt werden .

Die Kundendatenbanktabelle könnte so ausgestaltet werden, dass eine Vielzahl von Anfragen damit beantwortet werden können . Beispielsweise könnte j eder Kundendatensatz die Information enthalten, ob der Kunde im Januar Beet- und Balkonpflanzen gekauft hat, ob der Kunde im Februar Beet- und Balkonpflanzen gekauft hat und so weiter für alle Monate sowie ob der Kunde im Januar Schrauben gekauft hat, ob der Kunde im Februar Schrauben gekauft hat und so weiter für alle Produkte und Monate .

Diese Vorgehensweise hat jedoch eine Kundendatenbanktabelle von unakzeptabler Größe zur Folge .

Die Kundendatenbanktabelle wächst ebenso erheblich, wenn in jedem Kundendatensatz eine Liste der von dem jeweiligen Kunden gekauften Produkte aufgenommen wird. Um die obige Frage beantworten zu können, müsste insbesondere in einer solchen Liste für j edes gekaufte Produkt außerdem der Verkaufsmonat gespeichert werden. Ist ferner mit Anfragen zu rechnen, die die von den Kunden verwendete Zahlungsart beim Kauf des Produktes betreffen, müssen entsprechende Informationen ebenfalls in die Kundendatenbanktabelle aufgenommen werden. Entsprechend den zu erwartenden Anfragen an die Kundendatenbanktabelle kann in diesem Fall ebenfalls eine Kundendatenbanktabelle mit unakzeptabler Größe erforderlich sein, wenn für die Kundendatenbanktabelle eine sogenannte flache Datenstruktur verwendet wird. Insbesondere ist das Speichern einer Liste von Produkten und Zusatzinformationen problematisch, da die Länge dieser Produktliste von Kunde zu Kunde stark variieren kann, in Datenbanktabellen aber in der Regel eine feste Zahl von Feldern für alle Datensätze vorgesehen ist . Entweder muss also eine sehr große Anzahl von Feldern vorgesehen werden ( 1. Produkt, ... 100. Produkt) , damit auch für Kunden mit umfangreichen Käufen alles gespeichert werden kann, oder die Produktliste wird für manche Kunden abgeschnitten, d. h. nicht vollständig gespeichert, oder die Liste wird mittels eines Felds geeigneten Datentyps gespeichert, das eine variable Länge der Produktliste unterstützt ( z . B . mittels eines Felds von einem String-Datentyp) . Letzteres hat aber den Nachteil, dass Abfragen, die dieses Feld betreffen, komplex und ineffizient zu verarbeiten sind, erst recht, wenn Zusatzattribute der Produkte involviert sind (beispielsweise die Abfrage "Zeige alle Kunden, die im August ein Produkt aus dem Bereich Technik über 100 Euro gekauft haben" ) .

Eine akzeptable Größe der Kundendatenbanktabelle kann erreicht werden, wenn Informationen (aus der Transaktionsdatenbanktabelle) in aggregierter Form in die

Kundendatenbanktabelle eingefügt werden, beispielsweise wenn für jeden Kunden die Information aufgenommen wird, ob er im Januar irgendeine Transaktion getätigt hat, im Februar irgendeine Transaktion getätigt hat und so weiter . Auf diese Weise ist die Beantwortung der obigen Anfrage jedoch nicht möglich, da die Informationen nicht mit ausreichender Genauigkeit in der Kundendatenbanktabelle enthalten sind.

Zusammenfassend besteht bei herkömmlichen relationalen Datenbank-Systemen entweder die Möglichkeit, die Daten speichereffizient und einfach verwaltbar in einem sogenannten normalisierten Schema unter Nutzung verschiedener Datenbanktabellen abzuspeichern mit dem Nachteil, dass (analytische) Abfragen sehr ineffizient sind, oder ein flaches „denormalisiertes" Datenschema mit nur einer oder wenigen Datenbanktabellen aufzubauen, was Analysen beschleunigt aber sehr speicheraufwändig, inflexibel und schwer wartbar ist .

In [1] werden Wahrscheinlichkeitsmodelle, wie Bayesianische Netze und Markov-Netze, beschrieben .

[2 ] offenbart Verfahren zum Lernen von Abhängigkeitsstrukturen, die einem Datensatz zu Grunde liegen, mit Hilfe von Bayes-Netzen und Markov-Netzen.

In [3] sind verschiedene statistische Lernverfahren beschrieben .

[4] offenbart ein Verfahren zur arithmetischen Codierung von Daten .

In [5] ist ein Verfahren beschrieben, bei welchem für eine Datenbank mit kontinuierlichen Einträgen ein Gauß ' sches Mischmodell verwendet wird, um Anfragen an die Datenbank approximativ zu beantworten .

[ 6] offenbart die Erzeugung eines statistischen Clustering- Modells für eine Datenbank, mittels welchem Anfragen an die

Datenbank effizient approximativ beantwortet werden können.

Verschiedene Verfahren sind bekannt, die das Strukturieren, effiziente Speichern und Analysieren von Daten ermöglichen:

In [7] ist Z-Ordering beschrieben.

In [8] sind K*-Bäume beschrieben . In [ 9] ist der IGrid index beschrieben.

In [10] sind Inferenz-Verfahren beschrieben.

In [11] ist ein Verfahren beschrieben, bei dem ein erstes statistisches Abbild für eine Datenbank gebildet wird, welches die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente repräsentiert . Anschließend wird das erste statistische Abbild in einem Server-Computer gespeichert und von diesem über ein

Koramunikationsnetz zu einem Client-Computer übertragen. Das empfangene erste statistische Abbild wird von dem Client- Computer weiterverarbeitet .

Druckschrift [12] offenbart ein Verfahren zum Verwalten von Daten mittels einer mehrdimensionalen Datenbank. Ein Daten- Aggragations-Server ist eingerichtet, angeforderte aggregierte Daten an Client-Einheiten zu übermitteln.

Der Erfindung liegt das Problem zu Grunde, eine Möglichkeit zu schaffen, Ergebnisse von Anfragen, für deren Ermittlung Daten aus mehreren Datenbanktabellen erforderlich sind, gegenüber dem Stand der Technik effizienter, weniger rechenintensiv und weniger speicherintensiv zu ermitteln.

Das Problem wird durch ein Datenbank-Abfragesystem und ein Verfahren zur rechnergestützten Datenbank-Abfrage mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst .

Es wird ein Datenbank-Abfragesystem mit einem ersten Datenbank-Abbild einer ersten Datenbanktabelle mit einer ersten Vielzahl von Datensätzen und einem zweiten Datenbank-Abbild einer zweiten Datenbanktabelle mit einer zweiten Vielzahl von Datensätzen bereitgestellt . Jedem Datensatz der ersten Vielzahl von Datensätzen und jedem Datensatz der zweiten Vielzahl von Datensätzen ist ein Wert eines Datenbank-Schlüssels zugeordnet . Das Datenbank- Abfragesystem weist eine Eingabeeinrichtung, die eingerichtet ist, eine Analyse-Anfrage an das zweite Datenbank-Abbild zu empfangen, eine Selektionseinrichtung, die eingerichtet ist, einen Teil der ersten Vielzahl von Datensätzen gemäß einer ersten Selektion zu selektieren, eine Ermittlungseinrichtung, die eingerichtet ist, eine zweite Selektion eines Teils der zweiten Vielzahl von Datensätzen zu ermitteln, wobei gemäß der zweiten Selektion solche Datensätze selektiert sind, denen Werte des Datenbank-Schlüssels zugeordnet sind, die jeweils mindestens einem Datensatz zugeordnet sind, der gemäß der ersten Selektion selektiert ist sowie eine Verarbeitungseinrichtung auf, die eingerichtet ist, das

Ergebnis der Analyse-Anfrage auf Basis des Teils der zweiten Vielzahl von Datensätzen zu ermitteln.

Ferner wird ein Verfahren zur rechnergestützten Datenbank- Abfrage ' gemäß dem oben beschriebenen Datenbank-Abfragesystem bereitgestellt .

Anschaulich sind die Datensätze der ersten Datenbanktabelle und die Datensätze der zweiten Datenbanktabelle, die zusammengehörige Informationen beinhalten, mittels eines

Datenbank-Schlüssels verknüpft und in komprimierter Form als Datenbank-Abbilder, gespeichert . In den Datenbank-Abbildern sind die Werte des Datenbank-Schlüssels für die Datensätze gespeichert . Zusammenhörige Informationen sind solche, die dieselbe Person oder Sache betreffen, beispielsweise enthält die zweite Datenbanktabelle Datensätze mit Informationen über Kunden eines Baumarkts und die erste Datenbanktabelle Informationen über in dem Baumarkt durchgeführte Transaktionen . In diesem Beispiel enthalten ein Datensatz der zweiten Datenbanktabelle und ein Datensatz der ersten Datenbanktabelle zusammengehörige Informationen, wenn der Datensatz der ersten Datenbanktabelle Informationen über eine Transaktion enthält, die von dem Kunden, über den der Datensatz der zweiten Datenbanktabelle Informationen enthält, durchgeführt wurde . Der Datenbank-Schlüssel, der die beiden Datensätze verknüpft, könnte in diesem Beispiel eine Kundennummer des Kunden sein, die in beiden Datensätzen enthalten ist .

Ein Datenbank-Schlüssel kann aus einem einzigen Datenfeld einer Datenbanktabelle bestehen ( z . B. beschreibt eine Kundennummer einen Kunden in einer Kundentabelle eindeutig) , oder aus einer Kombination mehrerer Datenfelder ( z . B. der Kombination aus einer Filialnummer und einer Kundenummer innerhalb der Filiale) .

Anschaulich wird eine Anfrage an die zweite Datenbanktabelle, also eine Anfrage an das zweite Datenbank-Abbild, zu deren Beantwortung auch Informationen aus der ersten

Datenbanktabelle erforderlich sind, beantwortet, indem in dem ersten Datenbank-Abbild Datensätze gemäß der erforderlichen Informationen selektiert werden, das heißt Datensätze selektiert werden, für die eine bestimmte Bedingung erfüllt ist . Anschließend werden die entsprechenden Datensätze des zweiten Datenbank-Abbilds selektiert, das heißt es werden die Datensätze in dem zweiten Datenbank-Abbild selektiert, die entsprechend der Verknüpfung mittels des Datenbank-Schlüssels den selektierten Datensätzen des ersten Datenbank-Abbilds entsprechen. Auf Basis der selektierten Datensätze kann die Anfrage beantwortet werden, da die erforderlichen Informationen aus dem ersten Datenbank-Abbild zur Generierung der Selektion der Datensätze des zweiten Datenbank-Abbilds verwendet wurden. Eine der Erfindung zu Grunde liegende Idee kann darin gesehen werden, dass zu jeder beteiligten Datenbanktabelle ein Datenbank-Abbild geschaffen wird, das in komprimierter Form bestimmte Informationen aus der Datenbanktabelle enthält . Dieses Datenbank-Abbild ist in der Regel wesentlich kleiner als die ursprüngliche Datenbanktabelle, und ist auch für bestimmte Operationen aufgrund seiner Struktur besser geeignet . Dadurch ist es möglich, bestimmte Datenbank- Abfragen schneller auf Basis des Datenbank-Abbilds (oder einer Kombination aus Informationen aus dem Datenbank-Abbild und einer verbleibenden einfacheren Abfrage an die Datenbank) zu beantworten, als aus der Originaldatenbank alleine . Insbesondere wird im Folgenden beschrieben, wie Datenbank- Abbilder miteinander verknüpft werden können (anschaulich mit einem Resultat entsprechend einer JOIN-Operation von zwei Datenbanktabellen) . In solchen Fällen ergeben sich besonders große Vorteile, da diese Operationen in normalen Datenbanken besonders aufwändig sein können .

Anschaulich bilden das erste Datenbank-Abbild und das zweite Datenbank-Abbild, die wie erläutert mittels des Daten- Schlüssels verknüpft sind, eine komprimierte relationale Struktur .

Durch die Verwendung von Datenbank-Abbildern anstatt der Datenbanktabellen selbst wird ein schnellerer Zugriff erreicht, da das erste Datenbank-Abbild und das zweite Datenbank-Abbild in einem Speicher, auf den schnell zugegriffen werden kann, beispielsweise einem

Arbeitsspeichers (Hauptspeicher) eines Computers, gespeichert werden können. Gleichzeitig mit den beschriebenen Verfahren, Abfragen in relationalen Strukturen zu beschleunigen, wird ein Verfahren beschrieben, das ein effizientes Auslösen relationaler Abfragen in einer grafischen Oberfläche ermöglicht unter Nutzung der beschleunigten Abfragezeiten .

Die erste Datenbanktabelle und die zweite Datenbanktabelle können zwei aus datenbankarchitektonischer Sicht aus zwei unterschiedlichen Perspektiven erstellte Datenbanktabellen sein. Wie in dem obigen Beispiel enthält die erste

Datenbanktabelle beispielsweise je einen Datensatz für die Kunden des Baumarkts, der Informationen über den jeweiligen Kunden enthält, und die zweite Datenbanktabelle j e einen Datensatz für die im Baumarkt durchgeführten Transaktionen, der Informationen über die jeweilige Transaktion enthält .

Beispielsweise enthalte wie oben die zweite Datenbanktabelle Datensätze mit Informationen über Kunden eines Baumarkts, unter anderem das Alter des jeweiligen Kunden, jedoch nicht, wann der Kunde eine Transaktion in dem Baumarkt durchgeführt hat, und die erste Datenbanktabelle enthalte Informationen über in dem Baumarkt durchgeführte Transaktionen, unter anderem das Datum der jeweiligen Transaktion, j edoch nicht, wie alt der Kunde ist, der die Transaktion durchgeführt hat . Für eine Anfrage an die zweite Datenbanktabelle, nach dem Durchschnittsalter der Kunden, die im Mai eine Transaktion durchgeführt haben, ist aus der ersten Datenbanktabelle die Information erforderlich, welche Transaktionen im Mai durchgeführt wurden . Diese werden selektiert und mittels des Datenbank-Schlüssel die Datensätze der zweiten

Datenbanktabelle selektiert, die Informationen über Kunden enthalten, die im Mai eine Transaktion durchgeführt haben . Anschließend kann die Anfrage auf Basis der selektierten Datensätze der zweiten Datenbanktabelle beantwortet werden . Auf diese Weise ist es möglich, Anfragen an die zweite Datenbanktabelle zu beantworten, für deren Beantwortungen Informationen aus der ersten Datenbanktabelle erforderlich sind, ohne die Informationen in die zweite Datenbanktabelle zu übernehmen, beispielsweise in Form einer Liste oder zusätzlicher Einträge in den Datensätzen der zweiten Datenbanktabelle .

Somit können effizient und einfach für den Benutzer komplizierte statistische Analysen durchgeführt werden.

Anschaulich ist es beim Auswerten der zweiten Datenbanktabelle nicht erforderlich, dass permanent Zusatzinformationen aus der ersten Datenbanktabelle mittels eines Datenbank-Schlüssels nachgesehen werden . Auf diese Weise kann ein erheblicher Rechenaufwand eingespart werden und es entsteht somit ein erheblicher Effizienzvorteil gegenüber herkömmlichen Datenbanken bei einer Abfrage einer solchen Art .

Die erste Datenbanktabelle und die zweite Datenbanktabelle können in einer Speichereinrichtung des Datenbank- Abfragesystems gespeichert sein. Sie können insbesondere verteilt gespeichert sein, beispielsweise mittels mehrerer Daten-Servercomputer, die mittels eines Kommunikationsnetzwerks gekoppelt sind.

In diesem Fall von verteilten Datenbanktabellen ist die Verwendung der Erfindung von besonderem Vorteil, da, wie oben erläutert, beim Auswerten der zweiten Datenbanktabelle nicht permanent Zusatzinformationen auf die erste Datenbanktabelle zugegriffen werden muss, wofür insbesondere im Falle von verteilten Datenbanktabellen ein erheblicher Aufwand, insbesondere Kommunikationsaufwand, erforderlich wäre .

In einer Ausführungsform können Auswertungen und/oder Selektionen in der ersten Datenbanktabelle und der zweiten Datenbanktabelle gleichzeitig vorgenommen werden. Bei einer Selektion, in der ersten Datenbanktabelle und einer gleichzeitigen (zusätzlichen) Selektion in der zweiten Datenbanktabelle werden einer Anfrage die den Selektionen entsprechenden Datensätze zu Grunde gelegt . In obigem Beispiel könnten beispielsweise in der ersten Datenbanktabelle alle Transaktionen (bzw. die entsprechenden Transaktionsdatensätze) selektiert werden, bei denen Beet- und Balkonpflanzen verkauft wurden. Zusätzlich könnten in der zweiten Datenbanktabelle alle Kunden (bzw. die entsprechenden Kundendatensätze) selektiert werden, die älter als 59 Jahre sind. Eine Anfrage an die erste Datenbanktabelle und/oder an die zweite Datenbanktabelle wird dann auf Basis der Transaktionsdatensätze, die Transaktionen entsprechen, bei denen ein Kunde, der älter ist als 59 Jahre, (mindestens) eine Beet- und Balkonpflanze gekauft hat bzw. auf Basis der Kundendatensätze, die Kunden entsprechen, die älter als 59 Jahre sind und mindestens eine Beet- und Balkonpflanze gekauft haben, beantwortet .

Anschaulich exportieren dazu die Datenbanktabellen eine Liste der Datenbank-Schlüssel, die der j eweiligen ( "eigenen" ) Selektion entspricht, importiert die Liste der jeweiligen anderen Datenbanktabelle, welche mit der "eigenen" Selektion kombiniert wird.

In einer Ausführungsform werden auf analoge Weise mehr als zwei Datenbanktabellen in der beschriebenen Weise verknüpft . Diese können mittels eines (für alle Datenbanktabellen) gemeinsamen Datenbank-Schlüssels verknüpft werden oder auch mittels mehrerer paarweise gemeinsamer Datenbank-Schlüssel . Beispielsweise könnte eine Kundentabelle und eine Kassenzetteltabelle mittels einer Kundennummer verknüpft sein und die Kassenzetteltabelle mit einer Transaktionstabelle mittels einer Kassenzettelnummer. Anschaulich muss für jede Verknüpfung von jeweils zwei Datenbanktabellen ein gemeinsamer Datenbank-Schlüssel existieren und alle Datenbanktabellen müssen auf diese Weise direkt (mittels eines gemeinsamen Datenbank-Schlüssels) oder indirekt (über den "Umweg" einer weiteren Datenbanktabelle) verknüpft sein .

Der gängigste Typ von Datenbanksystemen sind relationale Datenbanken. Unter einer relationalen Datenbank wird typischerweise ein Softwaresystem verstanden, das eine oder mehrere Datenbanktabellen in einer Datenbank verwaltet . Jede Datenbanktabelle weist möglicherweise viele Datensätze auf (beispielsweise eine Kundentabelle einen Datensatz pro Kunde, eine Transaktionstabelle einen Datensatz pro Transaktion) . Jeder Datensatz einer Datenbanktabelle beinhaltet Werte zu denselben Feldern (beispielsweise Kundennummer, Alter, Geschlecht) .

Die Erfindung betrifft anschaulich die Verknüpfung mehrerer solcher Datenbanktabellen. Die Datenbanktabellen können aus derselben Datenbank stammen, aber auch aus unterschiedlichen Datenbanken.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen. Die weiteren Ausgestaltungen der Erfindung, die im Zusammenhang mit dem Datenbank- Abfragesystem beschrieben sind, gelten sinngemäß auch für das Verfahren zur rechnergestützten Datenbank-Abfrage . Es ist bevorzugt, dass das erste komprimierte Datenbank- Abbild und/oder das zweite komprimierte Datenbank-Abbild gemäß einem statistischen Modell erzeugt ist .

In einer Ausführungsform sind das erste komprimierte Datenbank-Abbild und das zweite komprimierte Datenbank-Abbild voneinander unabhängig erstellte Datenbank-Abbilder.

Vorzugsweise ist das statistische Modell ein graphisches Wahrscheinlichkeitsmodell . Beispielsweise wird ein Bayesianisches Netz als Wahrscheinlichkeitsmodell verwendet .

In der unten beschriebenen Ausführungsform kann mittels den Datenbank-Abbildern nicht nur ein geringer Speicheraufwand erreicht werden, sondern die Struktur der Datenbank-Abbilder ferner für einen effizienten und schnellen Zugriff verwendet werden.

Es ist ferner bevorzugt, dass die Eingabeeinrichtung ferner eingerichtet ist, eine Selektionsinstruktion zu empfangen und die Selektionseinrichtung eingerichtet ist, den Teil der ersten Vielzahl von Datensätzen gemäß der Selektionsinstruktion zu selektieren.

Anschaulich kann ein Benutzer durch Selektion von Datensätzen eine Anfrage genauer spezifizieren und Ergebnisse für komplizierte Anfragen ermitteln.

Es ist ferner bevorzugt, dass das Datenbank-Abfragesystem ferner eine Anzeigeeinrichtung aufweist, die eingerichtet ist, eine Bildschirmanzeige darzustellen, die die Anzeige von möglichen Werten mindestens einer Zufallsvariable, für die in der ersten Vielzahl von Datensätzen Werte enthalten sind, aufweist, und dass die Selektionsinstruktion das Auswählen der Anzeige mindestens eines möglichen Wertes (einer möglichen Ausprägung) der Zufallsvariablen ist und die erste Selektion darin besteht, dass alle Datensätze der ersten Vielzahl von Datensätzen selektiert sind, für die die Zufallsvariable einen der ausgewählten mindestens einen möglichen Werte annimmt .

Auf diese Weise kann ein Benutzer auf einfache Weise, beispielsweise durch Klicken auf eine Ausprägung einer Zufallsvariable mittels einer Computermaus, Datensätze selektieren .

Es ist ferner bevorzugt, dass die Anzeigeeinrichtung ferner eingerichtet ist, eine weitere Bildschirmanzeige darzustellen, die eine Anzeige des Ergebnisses der Analyse- Anfrage aufweist, und dass die Anzeigeeinrichtung ferner eingerichtet ist, zwischen der Bildschirmanzeige und der weiteren Bildschirmanzeige zu wechseln.

Anschaulich kann ein Benutzer somit die Bildschirmanzeige verwenden, um Datensätze zu selektieren und anschließend zu der weiteren Bildschirmanzeige wechseln, so dass die der Selektion entsprechenden Analyseergebnisse angezeigt werden .

Es ist ferner bevorzugt, dass das Datenbank-Abfragesystem eine Zugriffseinrichtung aufweist, die eingerichtet ist, auf die zweite Datenbanktabelle zuzugreifen und Daten, die in den gemäß der zweiten Selektion selektierten Datensätzen der zweiten Datenbanktabelle enthalten sind, zu ermitteln und wobei die Verarbeitungseinrichtung eingerichtet ist, das Ergebnis der Analyse-Anfrage unter Verwendung der Daten zu ermitteln . Anschaulich wird, wenn das zweite Datenbank-Abbild nicht ausreichende Informationen zur Beantwortung der Analyse- Anfrage aufweist, auf die zu Grunde liegende zweite Datenbanktabelle zurückgegriffen. Jedoch muss nicht auf die gesamte zweite Datenbanktabelle zugegriffen werden, sondern nur auf die gemäß der zweiten Selektion selektierten Datensätze.

Dies ist insbesondere dann von Vorteil, wenn nur ein kleiner Teil der Datensätze die Selektionskriterien der zweiten

Selektion erfüllt und deshalb nur wenige Datensätze aus der zweiten Datenbanktabelle abgerufen werden müssen, da der Zugriff auf die zweite Datenbanktabelle erheblich langsamer ist als der Zugriff auf das zweite Datenbank-Abbild, da die zweite Datenbanktabelle aufgrund ihres Speicherbedarfs typischerweise in einem Speicher gespeichert werden muss, auf den erheblicher langsamer zugegriffen werden kann als auf den Speicher, in dem das zweite Datenbank-Abbild gespeichert ist .

Anschaulich wird das zweite Datenbank-Abbild als multidimensionaler Index der zweiten Datenbanktabelle verwendet . Dies wird weiter unten genauer erläutert .

Es ist ferner bevorzugt, dass in dem ersten Datenbank-Abbild die erste Vielzahl von Datensätzen zu einer ersten Mehrzahl von Segmenten (Clustern) gruppiert sind und/oder in dem zweiten Datenbank-Abbild die zweite Vielzahl von Datensätzen zu einer zweiten Mehrzahl von Segmenten gruppiert sind.

Anschaulich sind das erste Datenbank-Abbild und/oder das zweite Datenbank-Abbild gemäß einem statistischen Clustering- Modell erzeugt . Vorzugsweise besteht der Wert des Datenbank-Schlüssels für einen Datensatz des ersten Datenbank-Abbilds (das heißt eines Datensatzes der ersten Vielzahl von Datensätzen) aus einer Nummer des Segments, in dem der Datensatz enthalten ist, und einer Nummer des Datensatzes gemäß einer Nummerierung der Datensätze des Segments .

Vorzugsweise besteht der Wert des Datenbank-Schlüssels für einen Datensatz des zweiten Datenbank-Abbilds (das heißt eines Datensatzes der zweiten Vielzahl von Datensätzen) aus einer Nummer des Segments, in dem der Datensatz enthalten ist, und einer Nummer des Datensatzes gemäß einer Nummerierung der Datensätze des Segments .

Als Datenbank-Schlüssel wird anschaulich ein "natürlicher

Schlüssel" verwendet, der sich auf natürliche Weise aus der Einteilung in Cluster ergibt , wobei innerhalb der Cluster die Datensätze durchnummeriert werden.

Der "natürliche Schlüssel" wird anschaulich anstatt eines

Datenbank-Schlüssels , der in der ersten Datenbanktabelle oder in der zweiten Datenbanktabelle verwendet wird (beispielsweise eine Kundennummer) , zur Verknüpfung des ersten Datenbank-Abbilds und des zweiten Datenbank-Abbilds verwendet .

Es ist ferner bevorzugt, dass für j eden Datensatz der ersten Vielzahl von Datensätzen der Wert des Datenbank-Schlüssels in der ersten Datenbanktabelle und/oder für jeden Datensatz der zweiten Vielzahl von Datensätzen der Wert des Datenbank- Schlüssels in der zweiten Datenbanktabelle gespeichert ist .

Dies ist insbesondere dann von Bedeutung, wenn der oben beschriebene "natürliche Schlüssel" für die Datensätze verwendet wird. In diesem Fall wird zur Verknüpfung des ersten Datenbank-Abbilds und des zweiten Datenbank-Abbilds der "natürliche Schlüssel" verwendet . Wenn auf die erste Datenbanktabelle oder auf die zweite Datenbanktabelle, zurückgegriffen wird, beispielsweise im Rahmen der oben erwähnten Verwendung als multidimensionaler Index, ist es erforderlich, den Wert des "natürlichen Schlüssels" dem Wert des Datenbank-Schlüssels, der in der ersten Datenbanktabelle (beispielsweise Transaktionsnummer) bzw. der zweiten Datenbanktabelle (beispielsweise Kundennummer) verwendet wird, zuzuordnen, was dadurch ermöglicht wird, dass für j eden Datensatz der Wert des "natürlichen Schlüssels" in der ersten Datenbanktabelle bzw. der zweiten Datenbanktabelle gespeichert ist .

Unabhängig von dem obigen Datenbank-Abfragesystem oder alternativ zu dem obigen Datenbank-Abfragesystem wird in einer Ausführungsform ein Verfahren zum Erzeugen eines komprimierten Abbilds einer Datenbanktabelle, die eine Vielzahl von Datensätzen enthält, bereitgestellt, wobei jeder Datensatz einen Wert mindestens einer statistischen Variable enthält, aufweisend die Schritte

- Ermitteln eines statistischen Wahrscheinlichkeitsmodells zur Beschreibung der relativen Häufigkeiten der Werte der mindestens einen statistischen Variablen in den Datensätzen der Datenbanktabelle und zum Gruppieren der Datensätze zu jeweils einem Segment einer Mehrzahl von Segmenten;

- Ermitteln, für j edes Segment der Mehrzahl von Segmenten, entsprechend den relativen Häufigkeiten der Werte der mindestens einen statistischen Variablen in den Datensätzen des Segments, eines Repräsentanten-Werts der mindestens einen statistischen Variablen; - Zuordnen, für j edes Segment der Mehrzahl von Segmenten, eines ersten Kodierungswerts zu dem Repräsentanten-Wert des jeweiligen Segments ;

- Zuordnen, für jeden Datensatz , eines zweiten Kodierungswerts zu dem in dem Datensatz enthaltenen Wert der statistischen Variablen, falls der in dem Datensatz enthaltene Wert sich von dem Repräsentanten-Wert des Segments, in welchem Segment der Datensatz enthalten ist, unterscheidet .

Ferner wird eine Anordnung, ein computerlesbares Speichermedium und ein Computerprogramm-Element entsprechend dem oben beschriebenen Verfahren zum Erzeugen eines komprimierten Abbilds einer Datenbanktabelle bereitgestellt .

Das Zuordnen des ersten Kodierungswerts zu dem Repräsentanten-Wert und das Zuordnen des zweiten Kodierungswerts zu dem in dem Datensatz enthaltenen Wert der statistischen Variablen kann anschaulich ein Komprimieren des Repräsentanten-Werts bzw . des in dem Datensatz enthaltenen

Werts der statistischen Variablen sein . Insbesondere wird der zweite Kodierungswert vorzugsweise gespeichert .

Anschaulich wird eine Datenbanktabelle in eine Vielzahl von Segmenten unterteilt . Für jedes Segment und für jede statistische Variable, zu der j eder in dem Segment enthaltene Datensatz eine Ausprägung enthält, wird ein Repräsentanten- Wert, anschaulich ein Default-Wert, der statistischen Variable bestimmt . Der Repräsentanten-Wert ist eine Ausprägung der statistischen Variable, die innerhalb des Segments, das heißt bei den in dem Segment enthaltenen Datensätzen, mit hoher relativer Häufigkeit auftritt . Für jeden in dem Segment enthaltenen Datensatz wird nun angenommen, dass die Ausprägung, die dem Repräsentanten-Wert entspricht, in dem Datensatz enthalten ist und dementsprechend wird die in dem Datensatz enthaltene Ausprägung nur dann kodiert, wenn die Ausprägung von dem Repräsentanten-Wert abweicht .

Anschaulich wird der Wert einer Zufallsvariable nur dann explizit gespeichert/kodiert, wenn dieser Wert von dem Wert abweicht, den man auf Grund einer statistischen Modellierung erwarten würden (d. h. von dem Repräsentanten-Wert) . Im einfachsten Fall ist der erwartete Wert der häufigste Wert in einer Datenbanktabelle oder in dem Segment einer Datenbanktabelle . Für eine höhere Kompression kann man als den erwarteten Wert (Default-Wert) auch den Wert wählen, der auf Grundlage der Prognose eines statistischen Modells der wahrscheinlichste Wert ist .

Es wird bevorzugt, dass der Repräsentanten-Wert basierend auf der durch das statistische Wahrscheinlichkeitsmodell gegebenen Beschreibung der relativen Häufigkeiten der Werte der mindestens einen statistischen Variablen in den Datensätzen des Segments bestimmt wird.

Anschaulich wird also das statistische

Wahrscheinlichkeitsmodell dazu verwendet, zu bestimmen, welcher Wert sich als Repräsentanten-Wert für die statistische Variable in dem Segment eignet .

Auf diese Weise kann der Repräsentanten-Wert mit geringem Rechenaufwand bestimmt werden.

Beispielsweise wird der Wert als Repräsentanten-Wert gewählt, für den das statistische Wahrscheinlichkeitsmodell eine hohe relative Häufigkeit innerhalb des Segments angibt . Vorzugsweise entspricht der Repräsentanten-Wert einer Ausprägung der statistischen Variablen, die bei den in dem Segment enthaltenen Datensätzen mit einer relativen Häufigkeit auftritt, die über einem vorgegebenen Schwellwert liegt .

In einer Ausführungsform wird beispielsweise die Ausprägung der statistischen Variablen als Repräsentanten-Wert gewählt , die mit der höchsten relativen Häufigkeit innerhalb des Segments auftritt .

In diesem Fall müssen nur sehr wenige Ausprägungen kodiert werden, da die meisten in dem Segment enthaltenen Datensätze den Repräsentanten-Wert als Ausprägung der statistischen Variablen aufweisen. Somit kann eine hohe Kompression erzielt werden.

Vorzugsweise ist das statistische Wahrscheinlichkeitsmodell ein graphisches Wahrscheinlichkeitsmodell . Beispielsweise wird ein Bayesianisches Netz als Wahrscheinlichkeitsmodell verwendet .

Es wird bevorzugt, dass die Werte der statistischen Variablen, die in Datensätzen enthalten sind, die in demselben Segment enthalten sind, und welche (Werte ) sich von dem Repräsentanten-Wert des Segments unterscheiden, mittels eines Verfahrens zur arithmetischen Kodierung und/oder eines Verfahrens zur Runlength-Kodierung kodiert werden .

Anschaulich werden in einer Ausführungsform die Datensätze durch Gruppierung der Datensätze zu Segmenten ähnlicher Datensätze effizient kodiert , in einer Datenstruktur, die gemäß diesen Segmenten aufgebaut ist, gespeichert und die Ähnlichkeit der Datensätze innerhalb der Segmente zur effizienteren Codierung durch statistische Verfahren ( z . B. Runlength-Kodierung, Arithmetisches Kodieren) ausgenutzt .

Dabei können die Daten jedes Segments zeilenweise gespeichert (d. h. alle Werte desselben Datensatzes werden nebeneinander, das heißt an benachbarten Speicherstellen, im Speicher gespeichert) . Alternativ können die Daten spaltenweise gespeichert werden (d. h. anschaulich feldweise, Werte des ersten Feldes aller Datensätze stehen unmittelbar nacheinander im Speicher) .

Ferner wird unabhängig von dem obigen Datenbank-Abfragesystem oder alternativ zu dem obigen Datenbank-Abfragesystem in einer Ausführungsform eine Rechneranordnung zum Analysieren von Daten bereitgestellt mit

- einer Anzeigeeinrichtung, die eingerichtet ist, mindestens ein erstes Fenster, welches ein erstes Anzeigeelement aufweist, welches die Anzeige einer Bezeichnung eines ersten Analyseergebnisses, das eine erste statistische Größe betrifft, und/oder die Anzeige des ersten Analyseergebnisses aufweist, und ein zweites Fenster, welches ein zweites Anzeigeelement aufweist, welches die Anzeige einer Bezeichnung eines zweiten Analyseergebnisses, das eine zweite statistische Größe betrifft, und/oder die Anzeige des zweiten Analyseergebnisses aufweist, anzuzeigen;

- einer Auswahleinrichtung, mittels welcher ein Benutzer das erste Anzeigeelement auswählen kann und an den Ort des zweiten Anzeigeelements verschieben kann;

- einer Erfassungseinrichtung, die eingerichtet ist, zu erfassen, ob das erste Anzeigeelement an den Ort des zweiten Anzeigeelements verschoben ist;

- eine Berechnungseinrichtung, die eingerichtet ist, in dem Fall, dass das erste Anzeigeelement an den Ort des zweiten Anzeigeelements verschoben ist, ein drittes Analyseergebnis zu berechnen, das die erste statistische Größe und die zweite statistische Größe betrifft;

- wobei die Anzeigeeinrichtung eingerichtet ist, das dritte Analyseergebnis anzuzeigen .

Anschaulich kann ein Benutzer mittels Drag & Drop auf einer graphischen Benutzeroberfläche das erste Anzeigeelement zu dem zweiten Anzeigeelement hinbewegen und dadurch die Rechneranordnung so steuern, dass das dritte Analyseergebnis bestimmt wird.

Ein Anzeigeelement, das die Anzeige einer Bezeichnung eines ersten Analyseergebnisses , das eine statistische Größe betrifft, und/oder die Anzeige des Analyseergebnisses ist, ist beispielsweise

- ein Bezeichnungsfeld eines Fensters einer Bildschirmoberfläche, wobei das Fenster die relativen Häufigkeiten der Ausprägungen einer statistischen Variablen, die in einer Datenbanktabelle auftreten, enthält; - die Anzeige, beispielsweise der angezeigte Wert, einer relativen Häufigkeit einer Ausprägung einer statistischen Variablen, die in einer Datenbanktabelle auftritt oder die Anzeige eines anderen Analyseergebnisses ;

- die Bezeichnung einer Ausprägung einer statistischen Variablen oder die Bezeichnung einer Gruppe von Ausprägungen einer statistischen Variablen;

- die Bezeichnung einer statistischen Variablen oder die Bezeichnung einer Gruppe von statistischen Variablen .

Anschaulich wird ein verbessertes Usability-Konzept, insbesondere für die Bedienung von Computerprogrammen, die die Abfrage von Datenbanken und die statistische Analyse von in einer Datenbank gespeicherten Daten erlauben, bereitgestellt . Es ist bevorzugt, dass das erste Analyseergebnis auf in einer ersten Datenbanktabelle enthaltenen Daten basiert und dass das zweite Analyseergebnis auf in einer zweiten Datenbanktabelle enthaltenen Daten basiert .

Anschaulich dient das erste Fenster somit zur Analyse der ersten Datenbanktabelle und das zweite Fenster zur Analyse der zweiten Datenbanktabelle . Der Benutzer kann also über die Fenster hinweg Analyseergebnisse erzeugen, die insbesondere auf in der ersten Datenbanktabelle enthaltenen Daten und auf in der zweiten Datenbanktabelle enthaltenen Daten basieren.

Beispielsweise ist die erste Datenbanktabelle eine Transaktionsdatenbanktabelle, die Daten über in einem

Baumarkt getätigte Transaktionen enthält, und die zweite Datenbank ist eine Kundendatenbanktabelle, die Daten über die Kunden des Baumarkts enthält . Ein Benutzer kann sich in einem ersten Fenster als erstes Analyseergebnis die Verteilung der Zufallsvariable "Gesamtumsatz der Kunden" (relative

Häufigkeit der Gesamtumsätze der Kunden) anzeigen lassen. Das erste Fenster zeigt also beispielsweise in einer Tabelle an, dass 30% der Kunden des Baumarkts im Jahr 2004 einen Gesamtumsatz zwischen 100 Euro und 150 Euro durch Transaktionen gemacht haben (und entsprechend weitere Werte für andere Wertebereiche des Gesamtumsatzes) . Die erste Tabelle trägt beispielsweise den Titel "Gesamtumsatz der Kunden" . In einem zweiten Fenster wird ein zweites Analyseergebnis, das die Transaktionsdatenbank betrifft , angezeigt, beispielsweise in einer zweiten Tabelle, die mit "Produkte" betitelt ist, die relative Häufigkeit der gekauften Produkte . Beispielsweise enthält die zweite Tabelle den Eintrag, dass bei 3% aller Transaktionen Beet- und Balkonpflanzen gekauft wurden, bei 7% aller Transaktionen Gartenmöbel gekauft wurden usw.

Der Benutzer kann nun beispielsweise den Kunden über den Produkten aufschlüsseln lassen, also eine Analyseergebnis erzeugen und anzeigen lassen, das beispielsweise die Information enthält, dass 25% der Kunden im Rahmen von Käufen von Beet- und Balkonpflanzen einen Gesamtumsatz zwischen 100 Euro und 150 Euro gemacht haben {und entsprechend weitere Werte für andere Wertebereiche des Gesamtumsatzes und für andere Produkte) . Dies erreicht der Benutzer dadurch, dass er beispielsweise den Titelbalken des ersten Fensters, beispielsweise ein Feld mit der Zeichenkette "Gesamtumsatz der Kunden" auswählt und in das zweite Fenster verschiebt, anschaulich beispielsweise per Drag & Drop in das zweite Fenster zieht .

Die Anzeigeeinrichtung ist vorzugsweise ein Computerbildschirm.

Die Auswahleinrichtung ist vorzugsweise eine Computermaus .

Es kann als Anzeigeeinrichtung aber auch beispielsweise ein Touch-Screen verwendet werden und der Benutzer kann durch Berühren des Touch-Screens das erste Anzeigeelement auswählen und verschieben. Dementsprechend ist die Auswahleinrichtung ein Element des Touch-Screens .

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Weiteren näher erläutert .

Figur 1 zeigt eine Computeranordnung gemäß einem Ausführungsbeispiel der Erfindung. Figur 2 zeigt eine erste Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Figur 3 zeigt eine zweite Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung .

Figur 4 zeigt eine dritte Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung .

Figur 5 zeigt eine vierte Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung .

Figur 6 zeigt eine fünfte Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Figur 7 zeigt eine sechste Bildschirmanzeige eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Figur 8 illustriert eine Cluster-Hierarchie entsprechend einem Datenbank-Abbild gemäß einem Ausführungsbeispiel der Erfindung.

Figur 9 illustriert einen Cluster gemäß einem Ausführungsbeispiel der Erfindung .

Fig. l zeigt eine Computeranordnung 100 gemäß einem Ausführungsbeispiel der Erfindung. Ein Computersystem 101 ist mit einem Datenbanksystem 102 gekoppelt .

Das Computersystem 101 ist gemäß diesem Ausführungsbeispiel eine Personal Computer (PC) , kann j edoch auch ein anderer Computer sein, beispielsweise eine Workstation.

Das Computersystem 101 weist einen Bildschirm 110, einen Mikroprozessor 103, einen Speicher 104 und verschiedene Eingabegeräte 111, beispielsweise eine Tastatur und eine Computermaus, auf.

Das Datenbanksystem 102 ist ein Computersystem zum Speichern von Datenbanktabellen. Das Datenbanksystem 102 kann dementsprechend ein Computer sein, der mit einer hohen

Speicherkapazität ausgestattet ist und mit dem Computersystem 101 beispielsweise mittels einer Ethernet-Schnittstelle oder drahtlos, beispielsweise mittels Blue-tooth, gekoppelt ist . Das Datenbanksystem kann beispielsweise die Funktionsweise einer Oracle-Datenbank, einer Microsoft Access-Datenbank, einer Lotus 1-2-3-Datenbank oder einer dBase-Datenbank aufweisen.

In dem Datenbanksystem 102 sind eine Kundendatenbanktabelle 105 und eine TransationsDatenbanktabelle 106 gespeichert, die weiter unten genauer beschrieben werden .

In dem Speicher 104 des Computersystems 101 sind ein Kundendatenbanktabelle-Abbild 107, das heißt ein komprimiertes Abbild der Kundendatenbanktabelle 105, und ein Transaktionsdatenbanktabelle-Abbild 108 , das heißt ein komprimiertes Abbild der Transaktionsdatenbanktabelle 106, gespeichert . Das Kundendatenbanktabelle-Abbild 107 und das Transaktionsdatenbanktabelle-Abbild 108 sind anschaulich Datenstrukturen, die die Daten aus der Kundendatenbanktabelle 105 bzw. der Transaktionsdatenbanktabelle 106 in komprimierter Form enthalten.

Die Art der Komprimierung sowie die Struktur des Kundendatenbanktabelle-Abbilds 107 und des

Transaktionsdatenbanktabelle-Abbilds 108 werden weiter unten detailliert beschrieben .

In einer anderen Ausführungsform ist das Datenbanksystem 102 Teil des Computersystems 101. Beispielsweise weist das Computersystem 101 eine Festplatte auf, in der die Kundendatenbanktabelle 105 und die Transaktionsdatenbanktabelle 106 gespeichert sind, und weist ferner einen Arbeitsspeicher auf, in dem das Kundendatenbanktabelle-Abbild 107 und das

Transaktionsdatenbanktabelle-Abbild 108 abgespeichert sind, sodass insbesondere auf das Kundendatenbanktabelle-Abbild 107 und das Transaktionsdatenbanktabelle-Abbild 108 schnell zugegriffen werden kann .

In dem Speicher 104 ist ferner ein Explorer-Computerprogramm 109 gespeichert, das von dem Mikroprozessor 103 ausgeführt wird, und das es ermöglicht, Ergebnisse einer statistischen Analyse des Kundendatenbanktabelle-Abbilds 107 (und somit der Kundendatenbanktabelle 105) und des

Transaktionsdatenbanktabelle-Abbilds 108 (und somit der Transaktionsdatenbanktabelle 106) auf dem Bildschirm 110 graphisch darzustellen.

Dies wird im Folgenden genauer erläutert . Fig.2 zeigt eine erste Bildschirmanzeige 200 eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung .

Die erste Bildschirmanzeige 200 zeigt Ergebnisse einer statistischen Analyse des Kundendatenbanktabelle-Abbilds 107 und somit Ergebnisse einer statistischen Analyse der Kundendatenbanktabelle 105.

Die Kundendatenbanktabelle 105 enthält Informationen über die Kunden einen Baumarkts . So enthält die Kundendatenbanktabelle für jeden Kunden des Baumarkts (bzw. für j eden registrierten Kunden des Baumarkts) einen Kundendatensatz, der eine Kundennummer des Kunden, das Geschlecht des Kunden, die Einkommensklasse des Kunden und das Geburtsj ahr des Kunden enthält . Die Kundendatensätze, die in der

Kundendatenbanktabelle 105 enthalten sind, können noch eine Vielzahl weiterer Informationen über den j eweiligen Kunden enthalten, in diesem Beispiel wird j edoch davon ausgegangen, dass sie nur die oben genannten Informationen enthalten .

Das Kundendatenbanktabelle-Abbild 107 enthält entsprechend diese Informationen über die Kunden des Baumarkts in komprimierter Form, wie es weiter unten erläutert wird.

Das Explorer-Computerprogramm 109 erlaubt die Analyse der in dem Kundendatenbanktabelle-Abbild 107 enthaltenen Daten und die graphische Anzeige von Ergebnissen einer solchen Analyse .

In diesem Ausführungsbeispiel wurde mittels des Explorer- Computerprogramms 109 untersucht, wie die Altersverteilung der Kunden des Baumarkts ist und das Ergebnis von dem Explorer-Computerprogramm 109 in einem ersten Fenster 201 der ersten Bildschirmanzeige 200 dargestellt . Daraus ist ersichtlich, dass 68 , 65% der Baumarktkünden männlich sind und das 31, 33% der Baumarktkünden weiblich sind.

Anschaulich führt das Explorer-Computerprogramm 109 diese Analyse durch, indem es alle Kundendatensätze zählt, die die Information enthalten, dass der den Kundendatensatz entsprechende Kunden männlich ist und alle Kundendatensätze zählt, die die Information enthalten, dass der entsprechende Kunde weiblich ist, und die Zählergebnisse mit der Gesamtzahl der Kundendatensätze ins Verhältnis setzt .

Ferner wurde mittels des Explorer-Computerprogramms 109 die Altersverteilung der Kunden des Baumarkts analysiert, indem Kundendatensätze gezählt wurden, die die Information enthalten, dass das Geburtsj ahr des entsprechenden Kunden in einem bestimmten Bereich liegt .

Das Ergebnis dieser Analyse der Altersverteilung wird in einem zweiten Fenster 202 der ersten Bildschirmanzeige 200 auf dem Bildschirm 110 angezeigt .

Ferner wurde mittels des Explorer-Computerprogramms 109 untersucht, wie die Verteilung der Einkommensklassen bei den Baumarktkünden ist, und das Ergebnis dieser Analyse in einem dritten Fenster 203 der ersten Bildschirmanzeige 200 angezeigt . Es lässt sich erkennen, dass die meisten der Baumarktkunden (70, 14%) der Einkommensklasse 7 angehören.

Den Analysen, deren Ergebnisse in dem ersten Fenster 201 in dem zweiten Fenster 202 und in dem dritten Fenster 203 angezeigt werden, liegen alle Kundendatensätze zu Grunde, beispielsweise wurden alle Kundendatensätze gezählt, die die Information enthalten, dass der entsprechende Kunde männlich ist und ins Verhältnis zur Zahl aller Kundendatensätze gesetzt, um das entsprechende Analyseergebnis ( 68 , 65% ) zu ermitteln.

Da alle Kundendatensätze den Analysen zu Grunde gelegt worden sind, wird in einem Selektionsinformationsfeld 204 der Wert 100% angezeigt . Das Selektionsinformationsfeld 204 enthält in einer anderen Ausführungsform ferner die Gesamtzahl der Kundendatensätze, die den Analysen zu Grunde gelegt wurden.

Die erste Bildschirmanzeige 200 weist, wie alle weiteren, in Fig.3 bis Fig.7 dargestellten Bildschirmanzeigen, ein erstes Auswahlfenster 205 und ein zweites Auswahlfenster 206 auf . Das erste Auswahlfenster 205 und das zweite Auswahlfenster 206 ermöglichen es dem Benutzer, einzustellen, dass weitere Fenster in dem Bereich neben dem ersten Auswahlfenster 205 und dem zweiten Auswahlfenster 206 angezeigt werden, beispielsweise Fenster mit Analyseergebnissen analog zu dem ersten Fenster 201, dem zweiten Fenster 202 und dem dritten Fenster 203, die andere statistische Variable betreffen, beispielsweise den Umsatz der Kunden des Baumarkts .

Mittels des Explorer-Computerprogramms 109 kann wie erwähnt auch das Transaktionsdatenbanktabelle-Abbild 108 und somit die Transaktionsdatenbanktabelle 106 analysiert werden. Die Änalyseergebnisse können ebenfalls auf dem Bildschirm 110 angezeigt werden, Fig.3 stellt eine entsprechende Anzeige dar .

Fig .3 zeigt eine zweite Bildschirmanzeige 300 eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung. Zwischen der ersten Bildschirmanzeige 200 und der zweiten Bildschirmanzeige 300 kann beispielsweise mittels Betätigen (Klicken) eines Icons in einer Toolbar hin- und hergewechselt werden.

In diesem Ausführungsbeispiel enthält die Transaktionsdatenbanktabelle 106 eine Vielzahl von Transaktionsdatensätzen . Jeder Transaktionsdatensatz entspricht einer Transaktion, das heißt einem Verkaufsvorgang in dem Baumarkt und enthält eine Transaktionsnummer, die die Transaktion eindeutig identifiziert, eine Spezifikation des im Laufe der Transaktion verkauften Produkts, die Angabe des Brutto-Verkaufswerts bei der Transaktion, das Datum der Transaktion sowie die Kundennummer des Kunden, der an der Transaktion beteiligt war, das heißt der das verkaufte

Produkt gekauft hat . Diese Informationen sind entsprechend in dem Transaktionsdatenbanktabelle-Abbild 108 in komprimierter Form enthalten .

Die zweite Bildschirmanzeige 300 zeigt in einem ersten

Fenster 301 die Ergebnisse einer Analyse, wie oft bestimmte Produkte bei den Transaktionen im Baumarkt im Verhältnis zu allen Transaktionen des Baumarkts von Kunden gekauft worden sind.

Beispielsweise wurden bei 24, 07% aller Transaktionen des Baumarkts Technik-Produkte gekauft . Die Gruppen von Produkten, wie beispielsweise "Technik" , "Ambiente" und "Garten" sind genauer eingeteilt, beispielsweise weist die Produktgruppe "Garten" die Untergruppe "Garten/Zäune und Zubehör" sowie die Untergruppe "Pflanzen" auf. Die Untergruppe "Pflanzen" ist ferner unterteilt in "Beet- und Balkonpflanzen" , "Baumschulware", "Zimmerpflanzen" usw. Aus dem ersten Fenster ist ersichtlich, dass bei 6, 68% aller Transaktionen des Baumarkts Beet- und Balkonpflanzen verkauft wurden .

Dieses Analyseergebnis wird dadurch erzielt, dass alle

Transaktionsdatensätze gezählt werden, die die Information enthalten, das bei der entsprechenden Transaktion Beet- und Balkonpflanzen verkauft wurden. Das Zählergebnis wird zu der Gesamtzahl der Transaktionsdaten ins Verhältnis ergibt, woraus sich der prozentuale Wert ( 6, 68%) ergibt .

In einem zweiten Fenster 302 wird das Ergebnis einer Analyse angezeigt, wie sich die Zahl der Transaktionen auf das Jahr verteilt .

So ist beispielsweise erkennbar, dass 9, 01% aller Transaktionen im März durchgeführt wurden. Dieses Ergebnis wird dadurch ermittelt, dass die Anzahl der Transaktionsdatensätze, die die Information enthalten, dass die entsprechende Transaktion an einem Tag im März durchgeführt wurde, was sich durch die Auswertung des Datums der Transaktion bestimmen lässt, bestimmt wird und die Anzahl zu der Gesamtzahl der Transaktionsdatensätze ins Verhältnis gesetzt wird .

In einem dritten Fenster wird das Ergebnis einer Analyse der Verteilung des Bruttoverkaufswerts auf die Transaktionen dargestellt . Beispielsweise ist erkennbar, dass bei 13, 72% aller Transaktionen der Brutto-Verkaufswert zwischen 10 Euro und 25 Euro lag.

Den Analysen, deren Ergebnisse in dem ersten Fenster 301 , in dem zweiten Fenster 302 bzw. in dem dritten Fenster 303 angezeigt werden, liegen alle Transaktionsdatensätze zu Grunde, weshalb analog zu Fig.2 in einem Selektions- Informationsfeld 304 der Wert 100% angezeigt wird. Im Weiteren wird ein Beispiel erläutert, bei dem eine Analyse nur ein Teil der Transaktionsdatensätze zu Grunde gelegt werden.

Fig .4 zeigt eine dritte Bildschirmanzeige 400 eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung .

Die dritte Bildschirmanzeige 400 geht aus der zweiten Bildschirmanzeige 300 hervor, wenn ein Benutzer mittels eines der Eingabegeräte 111 in dem ersten Fenster 301 der zweiten Bildschirmanzeige, das einem ersten Fenster 401 entspricht, Beet- und Balkonpflanzen auswählt, und in dem zweiten Fenster 302 der zweiten Bildschirmanzeige 300, das einem zweiten Fenster 402 entspricht, März 2003 auswählt .

Beispielsweise klickt der Benutzer mittels einer Computermaus auf den Wert 6, 68 in dem ersten Fenster 301 der zweiten Bildschirmanzeige 300 , wodurch dieser durch einen ersten Balken 404 und den Wert 100 ersetzt wird, wie in dem ersten Fenster 401 dargestellt ist . Analog wird angenommen, das der Benutzer beispielsweise in dem zweiten Fenster 302 der zweiten Bildschirmanzeige 300 auf den Wert 9, 01 mittels einer Computermaus geklickt hat, wodurch dieser Wert durch einen zweiten Blaken 405 und den Wert 100 ersetzt wird, wie es in dem zweiten Fenster 402 dargestellt ist .

Der erste Balken 404 zeigt an, dass nun nur

Transaktionsdatensätze ausgewählt (selektiert) sind, die die Information enthalten, das bei der entsprechenden Transaktion eine Beet- und Balkonpflanze verkauft wurde . Der zweite Balken 405, der wie der erste Balken 404 in einer auffälligen Farbe, beispielsweise rot, angezeigt wird, zeigt an, dass nur solche Transaktionsdatensätze ausgewählt sind, die die Informationen enthalten, dass die entsprechende Transaktion ira März 2003 durchgeführt wurde .

Insgesamt sind also alle Transaktionsdatensätze ausgewählt, die die Information enthalten, dass die entsprechenden Transaktionen im März 2003 durchgeführt wurden und dass eine Beet- und Balkonpflanze im Rahmen der Transaktion verkauft wurde .

Entsprechend ist nur ein Bruchteil der Gesamtzahl von Transaktionsdatensätze selektiert . In diesem Beispiel entsprechen 1 , 3% aller Transaktionsdatensätze Transaktionen, bei denen im März eine Beet- und Balkonpflanze verkauft wurde . Dies wird in einem Selektions-Informationsfeld 406, das dem Selektions-Informationsfeld 304 in der zweiten Bildschirmanzeige 300 entspricht, dargestellt .

Die selektierten (ausgewählten) Datensätze werden den Analysen zu Grunde gelegt, deren Ergebnisse in dem ersten Fenster 401, in dem zweiten Fenster 402 bzw. in dem dritten Fenster 403 angezeigt werden .

Da alle ausgewählten Transaktionsdatensätze die Information enthalten, dass bei der j eweiligen Transaktion eine Beet- und Balkonpflanze verkauft wurde, wurde bei 100% aller selektierten Transaktionen, das heißt den selektierten Transaktionsdatensätzen entsprechenden Transaktionen, Beet- und Balkonpflanzen verkauft, was durch den Wert 100 in dem ersten Balken 404 angezeigt wird. Analog wurden entsprechend der Auswahl der

Transaktionsdatensätze 100% aller selektierten Transaktionen im März 2003 durchgeführt, was durch die Zahl 100 in dem zweiten Balken 405 dargestellt ist .

Ein nichttriviales Analyseergebnis ist hingegen in dem dritten Fenster 403 dargestellt .

Beispielsweise ist ersichtlich, dass bei 82 , 45% aller selektierten Transaktionen der Bruttoverkaufswert unter 5

Euro liegt . Das heißt, dass bei allen Transaktionen, die im März 2003 stattfanden und bei denen eine Beet- und Balkonpflanze verkauft wurde, der Bruttoverkaufswert unter 5 Euro lag.

Nun sei angenommen, dass ein Verkaufsmanager des Baumarkts eine Analyse der Altersverteilung derj enigen Kunden durchführen möchte, die im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben. Der Verkaufsmanager könnte diese Analyse durchführen wollen, um zu ermitteln, ob es sich lohnt, im nächsten März eine "Geranien für Rentner"- Rabattaktion zu starten .

Der Verkaufsmanager startet dazu das Explorer- Computerprogramm 109 auf Basis des Kundendatenbanktabelle- Abbilds 107, sodass die erste Bildschirmanzeige 200 auf dem Bildschirm 110 angezeigt wird.

Anschließend startet er eine neue Instanz des Explorer- Computerprogramms 109 (oder öffnet ein weiteres Fenster in dem Explorer-Computerprogramm 109) auf Basis des Transaktionsdatenbanktabelle-Abbilds 108 , sodass die zweite Bildschirmanzeige 300 auf dem Bildschirm 110 angezeigt wird. Anschließend wertet der Verkaufmanager wie oben mit Bezug auf Fig.4 beschrieben, Beet- und Balkonpflanzen in dem ersten Fenster 301 der zweiten Bildschirmanzeige 300 sowie März 2003 in dem zweiten Fenster 302 der zweiten Bildschirmanzeige 300 aus, sodass die zweite Bildschirmanzeige 300 in die dritte Bildschirmanzeige 400 übergeht .

Anschließend wechselt der Verkaufsmanager, beispielsweise durch Klicken auf ein entsprechendes Icon, zu der ersten Bildschirmanzeige 200, die gemäß der Selektion j edoch in die vierte Bildschirmanzeige 500 übergegangen ist, die in Fig .5 dargestellt ist .

Fig.5 zeigt eine vierte Bildschirmanzeige 500 eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Gemäß der Selektion aller Transaktionen, die im März 2003 durchgeführt wurden und bei denen eine Beet- und Balkonpflanze verkauft wurde, werden den Analysen, deren Ergebnisse in einem ersten -Fenster 501, das dem ersten Fenster 201 der ersten Bildschirmanzeige 200 entspricht, in einem zweiten Fenster 502 , das dem zweiten Fenster 202 der ersten Bildschirmanzeige 200 entspricht, beziehungsweise in einem dritten Fenster 503, das dem dritten Fenster 203 der ersten Bildschirmanzeige 200 entspricht, dargestellt werden, genau die Kundendatensätze zu Grunde gelegt, die Kunden entsprechen, die im März 2003 eine Beet- und Balkonpflanze gekauft haben.

Dies erfolgt dadurch, dass in dem

Transaktionsdatenbanktabelle-Abbild 108 alle diejenigen Kundennummern bestimmt werden, die jeweils einem Transaktionsdatensatz entsprechen, der einer Transaktion entspricht, die im März 2003 durchgeführt wurde und in deren Rahmen ein Kunde (nämlich der durch die Kundennummer spezifizierte Kunde) eine Beet- und Balkonpflanze gekauft hat . Den Analysen, deren Ergebnisse in dem ersten Fenster 501 , in dem zweiten Fenster 502 bzw. in dem dritten Fenster 503 angezeigt werden, werden nun genau die Kundendatensätze zu Grunde gelegt, welche eine der so bestimmten Kundennummern enthalten. Diese Kundendatensätze werden im Folgenden als die selektierten Kundendatensätze bezeichnet .

Anschaulich wird die Kundennummer als Datenbank-Schlüssel verwendet, der zusammengehörige Kundendatensätze und Transaktionsdatensätze miteinander verknüpft .

Entsprechend der Selektion der Kundendatensätze wird in einem Selektions-Informationsfeld 504 , das dem Selektions- Informationsfeld 204 der ersten Bildschirmanzeige 200 entspricht, der Anteil der selektierten Kundendatensätze an der Gesamtzahl der Kundendatensätze angezeigt, in diesem Beispiel 1, 02% . Das heißt, dass 1, 02% der (registrierten)

Kunden des Baumarkts im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben .

Die selektierten Kundendatensätze werden den Analysen, deren Ergebnisse in dem ersten Fenster 501, in dem zweiten Fenster 502 bzw . in dem dritten Fenster 503 angezeigt werden, zu Grunde gelegt .

Aus dem ersten Fenster 501 ist beispielsweise erkennbar, dass 57 , 93% aller Kunden, die im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben, männlich sind.

Aus dem dritten Fenster 503 ist erkennbar, dass 79, 41% der selektierten Kunden, das heißt der Kunden, die den selektierten Kundendatensätzen entsprechen, der Einkommensklasse 7 angehören.

Den Verkaufsmanager interessiert in diesem Beispiel jedoch das Ergebnis der Analyse, dessen Ergebnis in dem zweiten Fenster 502 angezeigt ist .

Es lässt sich erkennen, dass 19, 25% aller Kunden, die im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben, zwischen 1930 und 1939 geboren worden sind.

Durch Vergleich mit dem zweiten Fenster 202 der ersten Bildschirmanzeige 100 lässt sich erkennen, dass der Anteil der zwischen 1930 und 1939 geborenen Kunden, die im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben an allen Kunden, die im März 2003 mindestens ein Beet- und Balkonpflanze gekauft haben, größer ist (19, 25% ) als der Anteil der zwischen 1930 und 1939 geborenen Kunden des Baumarkts an allen Kunden des Baumarkts (10 , 95% ) .

Der Verkaufsmanager könnte daraus folgern, dass es sich durchaus lohnen könnte, im nächsten März eine "Geranien für Rentner"-Rabattaktion zu starten.

Anschaulich liegen die Daten in dem oben beschriebenen

Ausführungsbeispiel nicht in Form einer sogenannten flachen Datenstruktur vor, das heißt in einer einzigen Datenbanktabelle, sondern sind auf mehrere Datenbanktabellen, in diesem Beispiel die Kundendatenbanktabelle 105 und die Transaktionsdatenbanktabelle 106 verteilt . Die Kundendatenbanktabelle 105 und die

Transaktionsdatenbanktabelle 106 stehen mittels der Kundennummer in einer 1 : n-Beziehung, da in diesem Beispiel ein Kunde an mehreren Transaktionen beteiligt sein kann. In anderen Ausführungsformen sind auch m: n-Beziehungen denkbar, beispielsweise wenn eine Kunde an mehreren Transaktionen beteiligt sein kann, und mehrere Kunden gemeinsam eine Transaktion durchführen können.

In einer Ausführungsform wird, wenn eine Selektion gemäß Fig .4 durchgeführt wurde, in der ersten Bildschirmanzeige 200 ein weiteres Fenster angezeigt, mittels welchem der Benutzer auswählen kann, ob die Selektion gemäß Fig.4 den Analysen, deren Ergebnisse in dem ersten Fenster 201, in dem zweiten

Fenster 202 und dem dritten Fenster 203 dargestellt sind, zu Grunde gelegt werden soll . Beispielsweise kann das weitere Fenster in den Zustand "Ja" versetzt werden, was die Bedeutung hat, dass die Selektion gemäß Fig .4 den Analysen zu Grunde gelegt wird. Dieser Zustand kann in dem weiteren

Fenster (statt "Ja" ) auch beispielsweise bezeichnet sein mit "Kunde hat Transaktionen, die den Selektion in der anderen Datenbanktabelle entsprechen", oder "Kunde hat Transaktionen durchgeführt mit Produkt=Beetpflanzen, Verkaufswert brutto<5, Transaktionenmonat=März03" . Entsprechend kann das weitere

Fenster einen Zustand "Nein" (oder entsprechend bezeichneten Zustand) aufweisen . Der Benutzer, in diesem Beispiel der Verkaufmanager, kann das weitere Fenster durch Verwendung beispielsweise einer Computermaus in einen der beiden Zustände versetzen, d. h. eine Selektion eines der beiden Zustände vornehmen und dadurch bestimmen, ob die derzeit eingetragenen Selektionen in der anderen Datenbanktabelle bei der Auswertung dieser Datenbanktabelle berücksichtigt werden sollen.

Das weitere Fenster kann seine Benennung und die Wirkung von darin vorgenommenen Selektionen wahlweise behalten, wenn die Selektion in der zweiten Bildschirmanzeige verändert wird, oder automatisch anpassen. Je nachdem wird sich also die erste Bildschirmanzeige entweder weiter auf Beetpflanzen beziehen (wenn beispielsweise der Modus "beibehalten" aktiviert ist) oder auf Bohrmaschinen wechseln, wenn man die Selektion in der zweiten Anzeige von Beetpflanzen auf Bohrmaschinen ändert .

DatenbanktabelleFerner (und ausgehend davon, dass in dem oben beschriebenen weiteren Fenster "ja" selektiert wurde, d. h. die Selektion gemäß Fig.4 übernommen wurde) kann mittels der vierten Bildschirmanzeige 500 analog zu der dritten

Bildschirmanzeige 400 eine erneute Selektion, in diesem Fall von Kunden, durchgeführt werden . Entsprechend dieser Selektion können mittels des gemeinsamen Schlüssels (Kundennummer) des Transaktionsdatenbanktabelle-Abbilds 108 und des Kundendatenbanktabelle-Abbilds 107 Transaktionen ausgewählt werden, die den Analysen zu Grunde gelegt werden, deren Ergebnisse in der dritten Bildschirmanzeige dargestellt sind. Beispielsweise könnte der Benutzer in der vierten Bildschirmanzeige 500 die Kunden selektieren, die im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben und die der Einkommensklasse sechs angehören, beispielsweise durch Klicken auf den Wert 2, 87 in dem dritten Fenster 503.

Ist der Modus der weiteren Fenster auf „beibehalten" eingestellt, so kann die im letzten Absatz beschriebene, im Zusammenspiel von Transaktionstabelle und Kundentabelle bestimmte Auswahl von Kunden wieder in die Transaktionswelt zurückübertragen werden, so dass mehr über die anderen Transaktionen dieser Kundengruppe erfahren werden kann als die bisher definierten Beet- und Balkonpflanzen im März . Dazu werden zunächst die Selektionen in der dritten Bildschirmanzeige wieder entfernt (was entsprechend des Modus "beibehalten" keine Auswirkungen auf die vierte Bildschirmanzeige 400 hat ) und in dem dort angezeigten weiteren Fenster der Zustand „j a" selektiert, wodurch die gegenwärtig in der vierten Bildschirmanzeige 400 aktive Kundenliste in die dritte Bildschirmanzeige 300 übernommen wird. Entsprechend würde sich die dritte Bildschirmanzeige 300 verändern und in dem dritten Fenster 403 nun die Verteilung der Brutto-Verkaufswerte der Transaktionen angezeigt, die von Kunden getätigt werden, die der Einkommensklasse sechs angehören und im März 2003 mindestens eine Beet- und Balkonpflanze gekauft haben.

Die Selektion lässt sich nun weiter fortsetzen. Auf diese Weise lassen sich komplizierte Fragen beantworten, wie beispielsweise die Frage "Was kaufen Kunden im September, die im Mai Gartenzäune gekauft haben? " . Dies kann ein Verkaufsmanager strategisch ausnutzen, beispielsweise für die Entscheidung, ob im Herbst Farben für Gartenzäune angeboten werden sollen, wenn in einem Jahr im Frühj ahr besonders viele Gartenzäune verkauft wurden .

In dem oben beschriebenen Ausführungsbeispiel werden zwei Datenbank-Abbilder kombiniert, die anschaulich unterschiedliche Sichten wiedergeben. So entspricht das Kundendatenbanktabelle-Abbild 107 einer Sicht auf die Kunden des Baumarkts und das Transaktionsdatenbanktabelle-Abbild 108 einer Sicht auf die Transaktionen, die in dem Baumarkt getätigt wurden.

Im Folgenden werden mit Bezug auf Fig.6 und Fig.7 weitere Bildschirmanzeigen erläutert, die Ergebnisse von Analysen darstellen, die von dem Explorer-Computerprogramm 109 durchgeführt wurden. Fig.6 zeigt eine fünfte Bildschirmanzeige 600 eines Explorer- Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Die fünfte Bildschirmanzeige 600 geht aus der dritten Bildschirmanzeige 400 hervor.

Die fünfte Bildschirmanzeige 600 enthält (teilweise) ein erstes Fenster 601, das dem ersten Fenster 301 der zweiten Bildschirmanzeige 300 entspricht . Die fünfte

Bildschirmanzeige 600 enthält ferner (teilweise) ein zweites Fenster 602 , das dem dritten Fenster 303 der zweiten Bildschirmanzeige 300 entspricht .

In einem dritten Fenster 603 ist das Ergebnis einer Analyse dargestellt, bei der für verschiedene Produktgruppen jeweils bestimmt wurde, wie hoch der Anteil der Transaktionen ist, bei denen ein Produkt aus der j eweiligen Produktgruppe verkauft wurde und bei denen der Brutto-Verkaufswert unter 5 Euro lag, an allen Transaktionen, bei denen ein Produkt der j eweiligen Produktgruppe verkauft wurden ist .

Beispielsweise ist mittels eines ersten Balkens 604 dargestellt, dass bei etwa 60% aller Transaktionen, bei denen ein Produkt aus der Produktgruppe "Technik" verkauft wurde, der Brutto-Verkaufwert unter 5 Euro lag. Entsprechende Balken sind für die Produktgruppen "Ambiente", "Garten" , "Baustoffe/Sanitär" usw. dargestellt .

Anschaulich wird die Ausprägung "unter 5 Euro" der

Zufallsvariable "Brutto-Verkaufswert" über die Produktgruppen aufgeschlüsselt . Der Benutzer des Explorer-Computerprogramms 109 kann die fünfte Bildschirmanzeige 600 aus der dritten

Bildschirmanzeige 400 erzeugen, indem er den Wert ( 65, 84 ) für die Ausprägung "<5" in dem dritten Fenster 403 der dritten Bildschirmanzeige 400 mit einer Computermaus anklickt, die Maustaste gedrückt hält und den Wert in das erste Fenster 401 der dritten Bildschirmanzeige 400 zieht (drag and drop) .

Allgemein lässt sich eine Ausprägung einer ersten Zufallsvariable über einer zweiten Zufallsvariable aufschlüsseln, indem der Wert für die relative Häufigkeit der Ausprägung der ersten Zufallsvariable mittels drag and drop in ein Fenster, in dem die relativen Häufigkeiten der Ausprägungen der zweiten Zufallsvariable dargestellt sind, hineingezogen wird . Dies kann auch über eine

Bildschirmanzeige hinweg geschehen. Beispielsweise kann der Benutzer den Wert ( 65 _r 84) für die Ausprägung "<5" in dem dritten Fenster 403 der dritten Bildschirmanzeige 400 mit einer Computermaus anklicken, durch einen entsprechenden Befehl in die fünfte Bildschirmanzeige 500 wechseln und in das erste Fenster 501 ziehen. Dementsprechend würde die Ausprägung "unter 5 Euro" der Zufallsvariable "Brutto- Verkaufswert" über die Geschlechter aufgeschlüsselt und beispielsweise ein Balken angezeigt, aus dem hervorgeht, dass bei 40% aller Transaktionen, die ein männlicher Kunde durchgeführt hat, der Verkaufspreis unter 5 Euro lag (und ein weiterer Balken entsprechend für die weiblichen Kunden) .

In diesem Beispiel ist die erste Zufallsvariable der Brutto- Verkaufswert und die zweite Zufallsvariable ist das Produkt . In einer anderen Ausführungsform kann ähnlich, beispielsweise ebenfalls durch drag and drop, auch eine dreidimensionale diagrammartige Darstellung erzeugt werden . Beispielsweise könnte eine diagrammartige dreidimensionale Darstellung erzeugt werden, bei der entlang einer Achse alle Produktgruppen dargestellt sind (das heißt Ausprägungen einer ersten Zufallsvariable) , wie es auch in dem dritten Fenster 603 der Fall ist, entlang einer zweiten Koordinatenachse Bereiche von Brutto-Verkaufswerten, beispielsweise "<5" _f "5- 10" , usw. (Ausprägungen einer zweiten Zufallsvariable) . An einer Stelle des durch die erste Koordinatenachse und die zweite Koordinatenachse geformten Gitters, die einer bestimmten Produktgruppe und einem bestimmten Bruttoverkaufswertbereich entspricht, könnte durch einen

Balken in Richtung einer dritten Koordinatenachse dargestellt sein, wie hoch der Anteil der Transaktionen, bei denen ein Produkt der Produktgruppe verkauft wurde und bei denen der Verkaufswert in den Verkaufswertbereich liegt, an den Transaktionen ist , bei denen ein Produkt aus der Produktgruppe verkauft wurde .

Anschaulich entspricht dies der Darstellung des in dem dritten Fenster 603 gezeigten Analyseergebnisses für alle Brutto-Verkaufswertbereiche (und nicht nur den Brutto- Verkaufswertbereich "<5") , indem die in dem dritten Fenster gezeigte Darstellung um eine weitere Koordinatenachse (die oben erwähnte zweite Koordinatenachse) erweitert wird und dementsprechend ein zweidimensionales Schema aus Balken entsteht .

Fig.7 zeigt eine sechste Bildschirmanzeige 700 eines Explorer-Computerprogramms gemäß einem Ausführungsbeispiel der Erfindung.

Die sechste Bildschirmanzeige 700 weist (teilweise) ein erstes Fenster 701 auf, das dem ersten Fenster 301 der zweiten Bildschirmanzeige 300 entspricht . Die sechste Bildschirmanzeige 700 weist ferner (teilweise) ein zweites Fenster 702 auf, das dem dritten Fenster 303 der zweiten Bildschirmanzeige 300 entspricht .

In einem dritten Fenster 703 ist das Ergebnis einer weiteren Analyse dargestellt . Bei der Analyse wurde der mittlere Brutto-Verkaufswert aller Transaktionsdatensätze bestimmt, die einer Transaktion entsprechen, bei der ein Produkt aus einer bestimmten Produktgruppe verkauft wurde und dies entsprechend für mehrere Produktgruppen durchgeführt .

Beispielsweise zeigt eine Markierung 704 , dass der mittlere Brutto-Verkaufswert aller Brutto-Verkaufswerte bei Transaktionen, bei welchen ein Produkt aus der Produktgruppe Technik verkauft wurde, etwa 8 Euro ist . Entsprechende weitere Markierungen, die jeweilige mittlere Brutto- Verkaufswerte für verschiedene Produktgruppen anzeigen, sind ebenfalls in dem dritten Fenster 703 dargestellt, in diesem Beispiel für die Produktgruppen "Ambiente" , "Garten" , "Baustoffe/Sanitär" usw.

Anschaulich wird der mittlere Brutto-Verkaufswert (der Brutto-Verkaufswerte aus allen Transaktionsdatensätzen) über die verschiedenen Produktgruppen aufgeschlüsselt .

Der Benutzer kann die sechste Bildschirmdarstellung 700 aus der zweiten Bildschirmdarstellung 300 erzeugen, indem er beispielsweise das Feld mit der Zeichenkette "prozentuale Werte" aus dem dritten Fenster 303 in das erste Fenster 301 per Drag & Drop zieht . In diesem Fall könnte dem Benutzer ein Auswahlmenü angezeigt werden, mittels welchem der Benutzer aus mehreren Möglichkeiten auswählen kann. Beispielsweise kann der Benutzer auswählen, dass statt des dritten Fensters 703 ein Fenster angezeigt wird, in dem nicht der mittlere Brutto-Verkaufswert für jede Produktgruppe angegeben wird, sondern der Summenwert aller Brutto- Verkaufswerte, die in Transaktionsdatensätzen enthalten sind, die Transaktion entsprechen, bei denen jeweils ein Produkt aus der jeweiligen Produktgruppe verkauft wurde . Beispielsweise könnte in diesem Fall eine weitere Markierung (analog zu der Markierung 704 ) anzeigen, die die Summe aller Verkaufswerte aus Transaktionsdatensätzen, die Transaktion entsprechen, bei denen ein Produkt aus der Produktgruppe "Technik" verkauft wurde, angibt .

Anschaulich wird somit der Gesamtumsatz auf verschiedene Produktgruppen aufgeschlüsselt .

Bei den Analysen, deren Ergebnisse in dem dritten Fenster 603 der fünften Bildschirmdarstellung 600 bzw. in dem dritten Fenster der sechsten Darstellung 700 dargestellt sind, wurde angenommen, dass stets alle Transaktionsdatensätze zu Grunde gelegt wurden. Es ist jedoch auch möglich, den Analysen nur einen Teil der Transaktionsdatensätze zu Grunde zu legen, indem eine Selektion bestimmter Transaktionsdatensätze durchgeführt wird, wie dies oben mit Bezug auf Fig.4 und Fig.5 erläutert ist .

Analog zu der Aufschlüsselung des Mittelwerts über verschiedene Produktgruppen wie in Fig .7 dargestellt, können auch andere statistische Größen über Ausprägungen von Zufallsvariablen aufgeschlüsselt werden. Beispielsweise könnte für jede Produktgruppe die Varianz der Brutto- Verkaufswerte bei allen Transaktionen, bei welchen ein Produkt aus der j eweiligen Produktgruppe verkauft wurde, bestimmt werden. Allen Analysen können in einer anderen Ausführungsform auch gewichtete Datensätze zu Grunde gelegt werden. Beispielsweise wird ein Kundendatensatz damit gewichtet, welcher Umsatz mit dem entsprechenden Kunden bisher gemacht wurde . So würde sich für einen ersten Altersbereich beispielsweise ein höherer Kundenanteil als für einen zweiten Altersbereich ergeben entsprechend der Anzeige der zweiten Fenster 202 der ersten Bildschirmdarstellung, wenn die Kunden in dem ersten Altersbereich mehr Umsatz gemacht haben als die Kunden in dem zweiten Altersbereich, obwohl die Zahl der Kunden in dem ersten Altersbereich nicht höher ist als die Zahl der Kunden in dem zweiten Altersbereich (da beim Zählen der entsprechenden Kundendatensätze die Gewichtung berücksichtigt wird) . Dies setzt voraus, dass in jedem Kundendatensatz eine Information über den Umsatz des j eweiligen Kunden enthalten ist .

Analog können bei Analysen, die die Transaktionsdatenbanktabelle 106 betreffen, Transaktionen nach ihrem Umsatzanteil gewichtet werden.

Wird eine Selektion von Kunden, wie beispielsweise oben mit Bezug auf Fig.4 erläutert, durchgeführt, so kann in der Bildschirmanzeige, die die Kundendatenbanktabelle 105 betrifft, ein Fenster angezeigt werden, in dem die selektierten Kunden nach der Ausprägung einer Zufallsvariable aufgeschlüsselt sind.

Gemäß dem obigen Beispiel, in dem alle Kunden selektiert werden, die im März 2003 eine Beet- und Balkonpflanze gekauft haben, könnte in der vierten Bildschirmdarstellung 500 ein weiteres Fenster dargestellt werden, in welchem für verschiedene Umsatzbereiche dargestellt ist (beispielsweise durch Balken) , wie hoch der Anteil der Kunden ist, die den jeweiligen Umsatz gemacht haben und im März eine Beet- und Balkonpflanze gekauft haben, an allen Kunden, die im März Beet- und Balkonpflanzen gekauft haben .

Im Folgenden wird die Form und Struktur eines Datenbank- Abbilds einer Datenbanktabelle gemäß einem

Ausführungsbeispiel der Erfindung erläutert , beispielsweise des Kundendatenbanktabelle-Abbilds 107.

Die Datenbanktabelle weist mehrere Datensätze auf, welche anschaulich untereinander geschrieben die Datenbanktabelle bilden. Beispielsweise existiert wie in dem oben beschriebenen Beispiel für j eden (registrierten) Kunden eines Baumarkts ein Datensatz . Jeder Datensatz weist beispielsweise einen Datenbanktabelleneintrag auf, der das Alter des jeweiligen Kunden enthält . Anschaulich bilden die Datensätze Zeilen in denen in einer "Alter"-Spalte das Alter des der jeweiligen Zeile entsprechenden Kunden angegeben ist .

Das Attribut Alter (und andere vorhandene Attribute wie beispielsweise Einkommen, Geschlecht usw. ) des Kunden wird als Zufallsvariable interpretiert, das heißt aufgefasst . Diese Zufallsvariable nimmt j e nach Kunde einen bestimmten Wert (Zustand, Ausprägung) an, beispielsweise den Wert 23, wenn der entsprechende Kunde 23 Jahre alt ist . Die möglichen Werte der Zufallsvariablen treten mit einer relativen Häufigkeit in der Datenbanktabelle auf . Sind beispielsweise ein Viertel aller (registrierten) Kunden des Baumarkts 23, so ist die relative Häufigkeit des Werts (Zustande) 23 der Zufallsvariablen Alter 0, 25 oder 25% . ^■

Zum Erzeugen des Datenbank-Abbilds der Datenbanktabelle wird ein statistisches Modell der Daten in der Datenbanktabelle erzeugt . Das statistische Modell ist anschaulich eine Approximation der gemeinsamen Wahrscheinlichkeitsverteilung der Zufallsvariablen der Datenbanktabelle.

Im obigen Beispiel wird im Rahmen der Erzeugung eines statistischen Modells der Datenbanktabelle beispielsweise bestimmt, dass die Wahrscheinlichkeit, dass ein Kunde 23 ist, 0, 25 ist, was formal folgendermaßen geschrieben werden kann:

P (Kunde ist 23 ) =0, 25

Das statistische Modell wird durch ein Lernverfahren anhand der Einträge der Datenbanktabelle "gelernt" , das heißt unter Verwendung der Einträge der Datenbanktabelle erzeugt, vorzugsweise unter Verwendung eines Maximum-Likelihood- Ansatzes . Die im Rahmen des statistischen Modells der Datenbanktabelle vorhandenen Wahrscheinlichkeiten beschreiben wie erwähnt die relativen Häufigkeiten der Zustände der Datenbanktabelleneinträge, je nach Vorgehen exakt oder approximativ. Die Datenbanktabelleneinträge können eine Vielzahl von Zuständen annehmen, welche Zustände mit unterschiedlichen relativen Häufigkeiten auftreten können.

Sobald ein statistisches Modell erzeugt wurde, kann dieses dazu verwendet werden, die relativen Abhängigkeiten zwischen den

Zuständen der Zufallsvariablen, das heißt die Korrelation der Zufallsvariablen, zu studieren .

So können beispielsweise die relativen Häufigkeiten (Wahrscheinlichkeiten) der Zustände von bestimmten

Zufallsvariablen entsprechend einer vorgebbaren Bedingung vorgegeben werden und die den vorgegeben relativen Häufigkeiten der Zustände der Zufallsvariablen entsprechenden relativen Häufigkeiten der Zustände davon abhängiger (damit korrelierter) weiterer Zufallsvariablen ermittelt werden .

Als statisti sches Modell wird beispielsweise ein graphisches Wahrscheinlichkeitsmodell (Graphical

Probabilistic Model ) eingesetzt , wie es beispielsweise in [ 1 ] beschrieben ist . Zu den graphischen Wahrs cheinlichkeitsmodellen gehören insbesondere Bayesianische Netze (Bayesian Networks oder Belief Networks ) und Markov-Net ze .

Ein statistisches Modell kann beispielsweise durch Strukturlernen in Bayesianischen Netzen erzeugt werden, wie es beispielsweise in [2 ] beschrieben ist .

Eine weitere Möglichkeit besteht darin, die Parameter des statistischen Modells für eine feste Struktur zu lernen, das heißt zu bestimmen, wie es beispielsweise in [3] beschrieben ist .

Im Rahmen einer Vielzahl von Lernverfahren wird eine Likelihood-Funktion als ein Optimierungskriterium für die Parameter des Modells verwendet . Eine besondere Ausführung hierbei ist das Expectation-Maximation (EM) -Lernverfahren, das weiter unten an Hand eines speziellen Modells detaillierter beschrieben ist .

Typischerweise ist nicht eine hohe Generalisierungs- fähigkeit des statistischen Modells von Bedeutung, sondern eine gute Anpassung des statistischen Modells an die in der Datenbanktabelle enthaltenen Daten, das heißt eine gute Übereinstimmung der von dem statistischen Modell spezifizierten Wahrscheinlichkeiten der Zufallsvariablen mit den durch die Datenbanktabelleneinträge gegebenen relativen Häufigkeiten .

Als statistisches Modell wird vorzugsweise ein statistisches Clustering-Modell, insbesondere ein Bayesianisches

Clustering-Modell, durch welches die Daten in eine Mehrzahl von Clustern (auch als Segmente bezeichnet) unterteilt werden, eingesetzt .

Durch den Einsatz eines Clustering-Modells wird die Datenbanktabelle in mehrere kleinere Teile (Cluster, Segmente ) unterteilt, die ihrerseits als separate Datenbanktabellen aufgefasst werden können und aufgrund der geringeren Größe effizienter zu handhaben sind.

Eine effizientere statistische Auswertung der Datenbanktabelle unter Verwendung eines Clustering-Modells kann beispielsweise dadurch erreicht werden, dass bei der statistischen Auswertung der Datenbanktabelle geprüft wird, ob eine vorgegebene Selektionsbedingung dazu führt, dass aus dem statistischen Modell erkennbar wird, dass alle Daten, die die Selektionsbedingungen erfüllen in einem einzigen oder einer Teilmenge der Cluster liegen . Trifft dies zu, so kann man sich -bei der Auswertung auf diese Cluster beschränken . Gleichermaßen ist es möglich, dass eine Beschränkung auf solche Cluster erfolgt, in denen die die vorgegebene Bedingung erfüllenden Daten mit wenigstens einer bestimmten relativen Häufigkeit enthalten sind. Die übrigen Cluster, in denen Daten entsprechend der vorgegebene Bedingung nur in einem geringeren Anteil enthalten sind, können vernachlässigt werden, falls nur approximative Aussagen angestrebt werden . Als statistisches Clustering-Modell wird beispielsweise ein Bayesianisches Clustering-Modell (ein Modell mit einer diskreten latenten Variablen) eingesetzt .

Dies wird im Weiteren genauer beschrieben .

Gegeben sei ein Satz (K-Tupel) von Zufallsvariablen ( statistischen Variablen) X = (X]_, ... , X^) . Die möglichen Zustände (Ausprägungen) der Zufallsvariablen werden durch die j eweiligen Kleinbuchstaben beschrieben . Die i-te

( 1 ≤ i < K ) Zufallsvariable Xj_ kann also beispielsweise die

Zustände x -, , X

1, J , X X_rΔ₉, ... , xl. _fτijj_ annehmen, wobei L± eine natürliche Zahl größer gleich Eins ist .

Es können sowohl diskrete als auch kontinuierliche (reellwertige) Zufallsvariablen verwendet werden .

In diesem Ausführungsbeispiel werden kontinuierliche Zustände unter Verwendung von entsprechenden Diskretisierungsintervallen diskretisiert . Entsprechend wird angenommen, dass die Zustände der Zufallsvariablen

-j_ (für alle i mit 1 < i < K ) diskret sind.

Ein Datensatz in der Datenbanktabelle enthält einen Wert (Ausprägung) für j ede der Zufallsvariablen X]_, ... , X^ . Der π -te Datensatz der Datenbanktabelle kann dementsprechend in der Form

^χπ = <^χf. *κ> geschrieben werden, wobei x für alle

1 < i < K .

Die Datensätze bilden anschaulich, wenn sie untereinander geschrieben werden, eine Datenbanktabelle (oder Tafel) , die für j ede Zufallsvariable eine Spalte aufweist .

Es wird angenommen, dass die Tafel M Einträge hat . Somit kann die gesamte Datenbanktabelle als Matrix

geschrieben werden .

Bei der Verwendung eines Clustering-Modells wird zusätzlich eine sogenannte versteckte Variable (Cluster-Variable ) , welche mit Ω bezeichnet wird, verwendet . Die Cluster- Variable weist für jeden Datensatz der Datenbanktabelle einen der Werte ωj_ (i = 1, ... , R) auf. Der Wert der Variable Ω für einen Datensatz gibt an, welchem Cluster (Segment) der Datensatz im Rahmen des Clustering-Modells zugeordnet ist . In diesem Beispiel gibt es somit R unterschiedliche Cluster .

Mit P ( Ω | Θ ) wird die a priori-Verteilung der

Cluster bezeichnet, wobei durch P ( ωj_ I Θ = θ ) das a priori- Gewicht des i-ten Clusters gegeben ist . Das heißt, dass P ( ω± I Θ = θ ) die Wahrscheinlichkeit ist , dass ein ( zufälliger) Datensatz der Datenbanktabelle dem i-ten Cluster angehört . Die a priori-Verteilung beschreibt , welcher Anteil der Daten den j eweiligen Clustern^' zugeordnet ist . Der Satz von Zufallsvariablen Θ kann die möglichen Parametervektoren θ des statistischen Modells annehmen .

Durch P(X | Ω = ωj_, Θ = θ) sei die bedingte

Wahrscheinlichkeitsverteilung innerhalb des i-ten Clusters , das heißt die Wahrscheinlichkeitsverteilung der Zufallsvariablen X . = (X^, ... , X^) innerhalb des i-ten Clusters gegeben .

Die a priori-Verteilung P ( Ω | Θ ) und die Verteilungen der bedingten Wahrscheinlichkeiten P(X I Ω - tö±, Θ = θ) (für j eden Cluster) bilden zusammen ein Wahrscheinlichkeitsmodell P(X, Ω I Θ) für (Xi, ... , X_κ, Ω) .

Das Wahrscheinlichkeitsmodell ist gegeben durch das Produkt der a priori-Verteilung und der bedingten Wahrscheinlichkeitsverteilung, das heißt :

P(X I Θ) = P(Ω I Θ) • P(X | Ω, Θ)

bzw .

R

P(X I Θ) = ]T P(Ω = ωi I Θ) • P(X I Ω = m±, i=l

das heißt

P(X = (X₁, ... , x_k) I Θ = θ) =

R

^ P(Ω = ©i I Θ = θ) ^• P(X = (Xi, ... , x_k) I Ω = W₁, Θ = θ) i=l Die Wahrscheinlichkeit P(Ω = <DJ_ | Θ = θ) heißt Gewicht des i- ten Clusters (Segments) .

Die logarithmische Likelihood-Funktion L des Parametervektors θ des Datensatzes p_ ist sei gegeben durch

L(θ) = log P(D I Θ = θ) = ∑ log P(X = x^π l≤π≤M

Im Rahmen des Expectation-Maximation (EM) -Lernens wird nun eine Sequenz von Parametervektoren θ^ ' entsprechend der folgenden allgemeinen Vorschrift konstruiert :

θ^(t+1^ = ar^g m^ax £ £ ^P(coi ' ^x*' ^^{t)) " ^log ^**' ^ωi ' ^ θ l≤π≤M l≤i≤R

Mittels dieser Iterationsvorschrift erfolgt ein schrittweises Maximieren der Likelihood-Funktion und das Bestimmen eines geeigneten Parametervektors θ , der das statistische Modell spezifiziert . Jeder der Iterationsschritte besteht aus einem E- und einem M- Schritt . Der E-Schritt entspricht dem rechten Teil der obigen Gleichung. Dabei werden für jeden der M Datensätze die Erwartungswerte bzw. die a-posteriori- Wahrscheinlichkeit P(Ω | X = x, Θ = θ) für die Cluster-

Variable Ω basierend auf den aktuellen Parametern berechnet, d. h. die Clusterzugehörigkeit des Datensatzes geschätzt . In dem M-Schritt werden dann die neuen Parameter entsprechend obiger Gleichung gesetzt .

Nach dem Lernen des Parametervektors θ (nach der Konvergenz der obigen Iteration) wird j eder Datensatz x^π einem Cluster (Segment) zugeordnet . Die Zuordnung erfolgt dabei mittels der a posteriori- Verteilung P(Ω I X = x, 0 = β) . Der Datensatz x wird dabei dem i-ten Cluster zugeordnet, dessen Gewicht am höchsten ist, das heißt wenn gilt

P(Qi I X = x, Θ = B) = max P(ω-ϊ | X = x, Θ = θ) . l≤j≤R

Die Clusterzugehörigkeit jedes Datensatzes kann in einem zusätzlichen Feld des Datensatzes in der Datenbanktabelle gespeichert werden und entsprechende Indizes können vorbereitet werden, um auf die Daten, die zu einem bestimmten Cluster gehören, schnell zugreifen zu können .

Wird beispielsweise eine statistische Anfrage der Form "Gib alle Datensätze mit Xx = xχ^,χ und X2 = X2,3 ' sowie die dazugehörige Verteilung über X3 und X4 (also P (X3 | Xx = ^κl,l r

^X2 ^{= X}23 ^{) unc}* P (X-I I ^l = ^l 11 X-2 ^{= X}23 ^{) )} aus" an die Datenbanktabelle gestellt, so wird folgendermaßen vorgegangen:

Zunächst wird die a posteriori-Verteilung P ( Ω | Xx = x±_f± , X2 = X23 ) ermittelt . Aus dieser Verteilung geht (eventuell nur approximativ) hervor, welcher Anteil der Daten entsprechend der gestellten Bedingung in welchen Clustern der Datenbanktabelle zu finden ist . So ist es möglich, sich bei allen weiteren Vorgängen, j e nach der gewünschten Genauigkeit, auf die Teile (Cluster) der Datenbanktabelle zu beschränken, die entsprechend P ( Ω | Xx = xχ,χ _f X2 ^{= X}2,3 ) ^e^-ⁿ hohes a posteriori-Gewicht haben und somit anschaulich einen großen Teil der (entsprechend der gestellten Bedingung) relevanten Daten beinhalten. Ein idealer Fall ist gegeben, wenn P ( COjJ X₁ = xi,i ,

^X2 ^{= X}2,3 ) ⁼ ^ für ^ei-ⁿ i ^unc* dementsprechend P ( COj I Xi = xi i ,

X2 = ^X2,3 ) ⁼ ° ^für alle j ≠ i gilt, das heißt wenn alle der gestellten Bedingung entsprechenden Daten in einem einzigen Cluster enthalten sind.

In einem solchen Fall kann ohne einen Verlust an Genauigkeit bei der weiteren Auswertung eine Einschränkung auf das i-te Cluster vorgenommen werden. Dabei wird die Eigenschaft der hier beschriebenen Clustermodelle ausgenutzt, dass die a posteriori Wahrscheinlichkeit eines Clusters zu einer Selektionsbedingung nur dann 0 ist, wenn in dem Cluster kein einziger Datensatz enthalten ist, der die Bedingung erfüllt . In dieser Hinsicht sind die Modelle also exakt .

Neben der Identifikation der relevanten Cluster kann das statistische Modell auch verwendet werden, um direkt bestimmte gewünschte Wahrscheinlichkeiten (eventuell approximativ) zu berechnen. Um beispielsweise

Wahrscheinlichkeitsverteilungen für X3 und X4 zu bestimmen, können die gewünschten Verteilungen P (X3 | X₁ = X₁ \ , X2 = X23 ) und P (X4 | X₁ = X₁ \ , X2 = X23 ) basierend auf den Parametern des Modells approximativ ermittelt werden, beispielsweise gemäß

P (X₃ I X₁ = x_lfl , X₂ = x₂,3 ) =

∑ P(X₃ I Ω = Oi, X₁ = x_lfl, X₂ = x₂,3' Θ = ^β) ^■ l≤i≤R

P(Ω = CO₁ I X₁ = x_lfl, X₂ = x₂,3, Θ = θ) Alternativ kann das statistische Modell jedoch auch nur dazu verwendet werden, die für die momentane Anfrage relevanten Cluster zu ermitteln .

Nach Einschränken auf die relevanten Cluster können innerhalb der Cluster genauere Methoden eingesetzt werden . Z . B. kann ein exaktes Auszählen der Statistiken innerhalb des Cluster erfolgen, beispielsweise wenn die Daten gemäß Clusterzugehörigkeit im Speicher oder auf Platte organisiert (und gegebenfalls komprimiert wurden) oder unter Zuhilfenahme eines zusätzlichen Index bzgl . der Clusterzugehörigkeit . Innerhalb der Cluster können dann einfache Zählverfahren im Hauptspeicher, herkömmlichen Datenbank-Reportingverfahren oder OLAP (on-line analytical processing) -Verfahren) verwendet werden, oder es können weitere speziell auf die Cluster angepasste statistische Modelle eingesetzt werden . Eine enge Verzahnung mit OLAP ist insbesondere von Vorteil, da die sogenannte „Sparsity" (Dünnheit ) der Daten in hohen Dimensionen durch das statistische Clustering-Modell ausgenutzt wird und OLAP- Verfahren nur innerhalb der effektiv niedrigdimensionaleren Cluster zum Einsatz kommen.

Das Einschränken auf relevante Cluster ist insbesondere dann von Vorteil, falls die Cluster im Rahmen eines

Datenbank-Abbilds komprimiert vorliegen, wie das unten erläutert wird. In diesem Fall muss nicht das gesamte Datenbank-Abbild, das heißt alle Cluster, bei einer Anfrage dekomprimiert werden .

Der Tradeoff aus Geschwindigkeit und Genauigkeit bei der Auswertung ergibt sich aus der Menge der von der Auswertung ausgenommenen Daten : j e mehr Cluster von der Auswertung ausgenommen werden, desto schneller, j edoch auch ungenauer, wird die Antwort auf eine statistischen Anfrage ausfallen . Dem Benutzer kann die Möglichkeit an die Hand gegeben werden, den Tradeoff zwischen Genauigkeit und Geschwindigkeit selbst zu bestimmen. Zusätzlich können automatische exaktere Verfahren angestoßen wenden, wenn aus der Auswertung des Modells eine unzureichende Genauigkeit hervorgeht .

Im Allgemeinen werden Cluster von der Auswertung ausgenommen, die unterhalb eines bestimmten minimalen

Gewichtes liegen. Exakte Ergebnisse lassen sich erzielen, indem nur solche Cluster von der Auswertung ausgenommen werden, die ein a posteriori-Gewicht von Null aufweisen .

Ein Übertrainieren eines Clustering-Modells ist ohne Belang, weil eine möglichst exakte Wiedergabe von historischen Daten angestrebt ist und nicht eine Prognose für die Zukunft . Gleichwohl neigen stark übertrainierte Clustering-Modelle dazu, eine möglichst eindeutige Zuordnung von Anfragen zu Clustern zu liefern, weshalb bei weiteren Operationen sehr schnell eine Einschränkung auf kleine Teile der Datenbanktabelle möglich ist .

In vorteilhafter Weise werden bei einem eingesetzten Daten- speichermedium die zu einem Cluster gehörenden Daten in einer der Clusterzugehörigkeit entsprechenden Weise gespeichert .

Beispielsweise können die zu einem Cluster gehörenden Daten in einem Abschnitt des Speichers 104 gespeichert werden, so dass die zusammengehörenden Daten blockweise schnell gelesen werden können.

Wie erwähnt können Zufallsvariable, die kontinuierliche Werte annehmen, diskretisiert werden. Beispielsweise kann eine "Einkommen"-Zufallsvariable, das heißt eine Zufallsvariable, die der Angabe in den Kundendatensätzen des Einkommens des j eweiligen Kunden entspricht, in Einkommensklassen eingeteilt werden . Die Einteilung in Einkommensklassen kann verschieden fein oder grob erfolgen, entsprechend den analytischen

Anforderungen, das heißt entsprechend den Anforderungen an die Genauigkeit, mittels welcher das Datenbank-Abbild die Datenbanktabelle wiedergeben soll, das heißt die Informationen aus der Datenbanktabelle enthalten soll .

Für eine sehr genaue Darstellung einer ursprünglich kontinuierlichen Größe kann die Variable zunächst in Intervallen diskretisiert werden. Zusätzlich zu der daraus entstehenden diskreten Variable (die wie in den hier beschriebenen Verfahren komprimiert wird) kann zusätzlich der Mittelwert jedes Intervalls gespeichert werden und zu jedem diskreten Wert die Abweichung von dem Mittelwert . Da dann nur kleine Differenzen gespeichert werden müssen, kann dies sehr speichereffizient geschehen.

Ausprägungen von kategoriellen Variablen werden entsprechend kodiert, beispielsweise wird für eine "Geschlecht"- Zufallsvariable die Ausprägung "männlich" mittels einer Null und die Ausprägung "weiblich" mittels einer Eins kodiert .

Weist eine kategorielle Zufallsvariable in der Datenbanktabelle eine Vielzahl von Ausprägungen auf, so ^■ können diese bei der Erzeugung des Daten-Abbilds zu Klassen gruppiert werden, sofern dies die Anforderungen an das Datenbank-Abbild erlauben.

So könnte das Produktverzeichnis des oben erwähnten Baumarkts hierarchisch organisiert sein, beispielsweise könnte das Produkt mit der Bezeichnung "Schraube M4 verzinkt" der Produktgruppe "Maschinenschrauben" angehören. Die

Produktgruppe "Maschinenschrauben" könnte ihrerseits der Produktgruppe "Schrauben" zugeordnet sein, welche ihrerseits der Produktgruppe "Werkzeugzubehör" zugeordnet ist, wobei "Werkzeugzubehör" selbst eine Produktuntergruppe der Produktgruppe "Werkzeuge" ist . Gemäß den Anforderungen an das Datenband-Abbild könnte es nun ausreichen, unterschiedliche Maschinenschrauben nicht zu unterscheiden, sondern diese zu einer Klasse "Maschinenschrauben" zusammenzufassen . Dementsprechend weist beispielsweise jeder Transaktionsdatensatz in dem Transaktionsdatenbanktabelle- Abbild 108 in dem der Produktangabe entsprechenden Feld den Eintrag "Maschinenschrauben" (beziehungsweise einen dieser Ausprägung zugeordneten Wert) auf, wenn der entsprechende

Transaktionsdatensatz in der Transaktionsdatenbanktabelle 106 in dem Feld, das der Produktangabe entspricht, die Spezifikation einer beliebigen Maschinenschraube enthält .

Eine Anfrage an das Datenbank-Abbild kann nun auf Basis dieser Klasseneinteilung der kategoriellen Variable bearbeitet werden. Ist eine genauere Einteilung der Ausprägungen der kategoriellen Variable (zum Beispiel eine Unterscheidung unterschiedlicher Maschinenschrauben) für die Beantwortung der Anfrage erforderlich, so wird auf die Datenbanktabelle zurückgegriffen. In diesem Fall müssen typischerweise jedoch nur noch wenige Detailinformationen aus der Datenbanktabelle abgefragt werden.

Anschaulich kann das Datenbank-Abbild dazu verwendet werden, approximative Antworten auf Statistisςhe Anfragen zu liefern.

In einer Ausführungsform wird das Datenbank-Abbild hierarchisch aufgebaut . Anschaulich werden die wie oben beschrieben erzeugten Cluster selbst als Datenbanktabellen aufgefasst und analog zu der gesamten Datenbanktabelle in Segmente unterteilt, das heißt j eder Datensatz in dem i-ten Cluster wird einem j -ten Subcluster von einer Mehrzahl von Subclustern des i-ten Clusters zugeordnet . Analog fortfahrend wird anschaulich ein Baum von Clustern und

Subclustern aufgebaut, indem der j -te Subcluster des i-ten Clusters selbst einem k-ten Subcluster einer Mehrzahl von Subclustern des j -ten Subclusters des i-ten Clusters zugeordnet wird usw.

Die so entstehende Cluster-Hierarchie ist in Fig.8 dargestellt .

Fig.8 illustriert eine Cluster-Hierarchie 800 entsprechend einem Datenbank-Abbild gemäß einem Ausführungsbeispiel der Erfindung.

Die Cluster-Hierarchie 800 hat die Form eines Baumes .

Die Datenbanktabelle 801 ist durch die Wurzel des Baumes symbolisiert . Entsprechend dem obigen Beispiel weist die Datenbanktabelle M Datensätze auf, die jeweils Werte der Zufallsvariablen X = (X]_, ... , X^) enthalten.

Für die Datenbanktabelle 801 wird ein statistisches Clustering-Modell bestimmt .

Die Wahrscheinlichkeitsverteilung der Zufallsvariablen X = (X]_, ... , X_jζ) für alle Datensätze (gemäß dem bestimmten statistischen Clustering-Modell) werde mit P (X) bezeichnet . (Im Gegensatz zu oben wird auf die Angabe eines

Parametervektors θ und entsprechend auf die Zufallsvariable Θ verzichtet . Es wird angenommen, dass das statistische Clustering-Modell durch einen entsprechenden Satz von Parametern spezifiziert ist . )

Gemäß dem statistischen Clustering-Modell wird die Datenbanktabelle 801 in eine erste Mehrzahl von R]_ Clustern

802 unterteilt . Die Wahrscheinlichkeitsverteilung für die Datensätze in dem i-ten Cluster der ersten Mehrzahl von Clustern 802 ist durch P (X | α>j_ ) gegeben. Der i-te Cluster der ersten Mehrzahl von Clustern 802 enthalte N-j_ Datensätze . Die Wahrscheinlichkeit, dass ein Cluster dem i-ten Cluster der ersten Mehrzahl von Clustern 802 angehört sei P ( <ÖJ_ ) , wobei a>± der Wert das Clustervariable Ω ist, der dem i-ten Cluster der ersten Mehrzahl von Clustern 802 entspricht .

Die Cluster der ersten Mehrzahl von Clustern 802 werden ihrerseits in Cluster eingeteilt, so dass eine zweite Mehrzahl von Clustern 803 entsteht . Der i-te Cluster der ersten Mehrzahl von Clustern 802 werde dabei in R2, i (Sub-) Cluster eingeteilt .

Dem j -ten Subcluster (welches einer der Cluster der zweiten Mehrzahl von Clustern 803 ist) des i-ten Clusters der ersten Mehrzahl von Clustern 802 sei der Wert G>±_rj der Clustervariable Ω zugewiesen.

Die Wahrscheinlichkeitsverteilung für die Datensätze in dem j -ten Subcluster des i-ten Clusters der ersten Mehrzahl von Clustern 802 ist durch P (X | ω^j ) gegeben . Der j -te Subcluster des i-ten Clusters der ersten Mehrzahl von Clustern 802 enthalte N-^ j Datensätze. Die Wahrscheinlichkeit, dass ein

Cluster dem j -ten Subcluster des i-ten Clusters der ersten Mehrzahl von Clustern 802 angehört sei P ( OOj^j ) .

Die Cluster der zweiten Mehrzahl von Clustern 803 werden jeweils analog zu der ersten Mehrzahl von Clustern 802 weiter in Cluster unterteilt, so dass eine dritte Mehrzahl von Clustern 804 entsteht, für die analog zu oben die Größen P (X | α>i,j,k > ' P ( «t>i_rj,k ) und N_{i r} j , _k definiert sind.

Die Datensätze in der untersten Ebene der Cluster-Hierarchie 800 werden in komprimierter Form abgelegt und beispielsweise in dem Speicher 104 als Datenbank-Abbild gespeichert . (Das Datenbank-Abbild weist zusätzlich zu den gespeicherten Datensätzen weitere Daten auf, beispielsweise den Parametersatz des statistischen (Clustering-) Modells, das bestimmt wurde . )

Im Weiteren wird mit Bezug auf Fig. 9 erläutert, wie die Datensätze eines Clusters komprimiert und gespeichert werden.

Fig.9 illustriert einen Cluster 900 gemäß einem Ausführungsbeispiel der Erfindung.

Das Cluster 900 ist in Form einer Tabelle dargestellt . Jede Zeile einer Mehrzahl von N Zeilen 901, 902 entspricht einem in dem Cluster 900 enthaltenen Datensatz .

Jede Spalte einer Mehrzahl von K Spalten 903, 904 entspricht einer Zufallsvariable . -

Das Folgende wird exemplarisch anhand der π-ten Zeile 902 und der i-ten Spalte 903 erläutert.

Das Cluster 900 entspreche dem Wert ω der Clustervariable Ω .

Der π-te Datensatz hat wie oben die Form x^π = (x™, ... , x^)

wobei χ7 e x. , , ... , X, _τ > für alle 1 < i < K . Die Werte x- -, , X- _o, ... , x. _τ (für alle 1 mit 1 < i < K ) sind die möglichen Ausprägungen der Zufallsvariablen X-j_, Lj_ deren Anzahl . Ein Datensatz entspricht somit einem K-Tupel von möglichen Ausprägungen, wobei das K-Tupel an der i-ten Stelle eine der möglichen Ausprägungen der i-ten Zufallsvariable Xj_ aufweist .

Die Wahrscheinlichkeitsverteilung der Zufallsvariablen für die Datensätze in dem Cluster 900, das heißt die relativen

Häufigkeiten der K-Tupel von Ausprägungen in dem Cluster 900 , sei durch P (X | ω ) gegeben (eventuell nur approximativ, je nachdem, wie genau das bestimmte statistische Modell ist) .

Wie oben wird angenommen, dass die x._{1 (} χ. _or ... , x. _τ (für alle i mit 1 < i < K ) diskrete Werte sind . Weisen die Datensätze der zu Grunde liegenden Datenbanktabelle, das heißt der Datenbanktabelle, von der das Datenbank-Abbild erzeugt wurde, kontinuierliche Werte auf, so werden diese diskretisiert . Ein Wert Xi j entspricht deshalb gegebenenfalls einem Diskretierungsintervall .

Gemäß der oben erläuterten Bestimmung eines Clustering- Modells wird die Cluster-Hierarchie 800 so gebildet, dass die Daten innerhalb der Cluster der Cluster-Hierarchie 800 homogener sind als die gesamten Daten in der zu Grunde liegenden Datenbanktabelle . Insbesondere ist für j ede Zufallsvariable ein Wert (eine Ausprägung) ausgezeichnet, welcher in den Datensätzen des Clusters 900 und somit in der Mehrzahl von Zeilen 901, 902 am häufigsten (oder verhältnismäßig häufig) enthalten ist . Der ausgezeichnete Wert für die i-te Zufallsvariable X^ (auch als Default-Wert der i-ten Zufallsvariable oder als

Repräsentanten-Wert bezeichnet ) werde mit XJ_ bezeichnet . Der Default-Wert kann unter Verwendung des statistischen Modells berechnet werden, die in den Datensätzen enthaltenen Ausprägungen müssen also nicht jeweils gezählt werden, um deren j eweilige relative Häufigkeit zu bestimmen .

Für einen Default-Wert gilt anschaulich, dass die bedingte

Wahrscheinlichkeit P(Xj_ = XJ_ | ω-jj verhältnismäßig hoch ist, das heißt, dass in dem i-ten Cluster davon ausgegangen werden kann, dass die i-te Zufallsvariable den Wert κ± hat .

Beispielsweise könnte gelten, dass 90% aller (registrierten) männlichen Kunden zwischen 30 Jahren und 40 Jahren des oben genannten Baumarkts ein Tagesgeldkonto besitzen (um dies zu erkennen, muss in der Kundendatenbanktabelle 105 die Information enthalten sein, ob die Kunden ein Tagesgeldkonto besitzen) . Für diese Klasse von Kunden kann also mit hoher Sicherheit angenommen werden, dass sie (jeweils) ein Tagesgeldkonto besitzen. Ergibt sich nun ferner bei der Erzeugung des Clustering-Modells, dass ein Cluster überwiegend aus Kunden dieses Typs besteht, dass beispielsweise die Kunden in diesem Cluster zu 85% männlich, zu 95% zwischen 30 und 40 sind und zu 92% ein Tagesgeldkonto besitzen, so wird für die Tagesgeldkonto-Zufallsvariable, das heißt der Eintrag, ob der entsprechende Kunde ein Tagesgeldkonto besitzt, der Default-Wert "ja" verwendet (wobei "j a" beispielsweise durch den Wert 1 kodiert ist ) .

Anschaulich kann somit der Wert der Clustervarible Ω für einen Cluster zur Prädiktion der Datensätze in dem Cluster verwendet werden, in diesem Beispiel für den Wert der Zufallsvariable, die angibt, ob der entsprechende Kunde ein Tagesgeldkonto besitzt .

In diesem Ausführungsbeispiel werden die Datensätze in dem Cluster 900 basierend auf dem Grundprinzip komprimiert, dass stets nur die Abweichung einer Ausprägung einer Zufallsvariable von dem entsprechenden Default-Wert gespeichert wird. Dies erfolgt beispielsweise mittels einer Runlength-Kodierung.

Anschaulich wird eine Information nur dann kodiert, wenn sie von den dem statistischen Modell entsprechenden Erwartungen abweichen.

Im Folgenden wird die spaltenweise Runlength-Kodierung der in dem Cluster 900 enthaltenen Datensätze erläutert .

Die i-te Spalte wird Runlength-kodiert . Die i-te Spalte enthalte beispielsweise die Werte

* * * * * * * * * ^χi f ^χi r ^χj_^ 5 I xj_ 2 ' ^i ' ^i ' ^xi ' ²^i ' ^i 1 ' ^xi ' ^"i ' ^i ' ^xi 4 '

Dabei wurde Lj_ > 5 angenommen . Es könnte beispielsweise Xi=X-! o gelten.

Bei der Runlength-Kodierung gemäß diesem

Ausführungsbeispiel der Erfindung wird der Default Wert Xi nicht kodiert, sondern nur kodiert, wie oft er in hintereinanderfolgenden Zeilen auftritt . Dementsprechend wird die i-te Spalte zu 2 , κ_i(5 , 0 , *i,2 ' ⁴ ' ^xi,l ' ³ ' ^xi,4

kodiert .

In einer anderen Ausführungsform wird zu der Anzahl der hintereinanderfolgenden Zeilen, in denen der Default-Wert enthalten ist, Eins addiert, sodass die kodierte Spalte die

Form 3 , X_{1 5} , 1 , X₁₂ , 5 , X₁ -L , 4 , X₁₄ hat .

Für einen schnellen Zugriff auf die kodierte Spalte ist es nicht erforderlich, diese zu dekodieren . Anschaulich kann auf den Daten in kodierter Form direkt gearbeitet werden, so dass Anfragen schneller beantwortet werden können als in dem Fall , dass die Kompression im Falle einer Anfrage rückgängig gemacht wird (wodurch ein hoher Rechenaufwand entstehen würde ) .

Im Folgenden werden einige Beispiele für einen Zugriff auf die kodierte Spalte erläutert .

Beispielsweise kann ohne Dekodieren der kodierten Spalte bestimmt werden, welche Datensätze in der i-ten Spalte einen anderen Wert als den Default-Wert enthalten . Im Falle einer entsprechenden Anfrage wird das Ergebnis gemäß Tabelle 1 geliefert .

Ebenso kann ohne Dekodieren der kodierten Spalte bestimmt werden, welche Datensätze in der i-ten Spalte den Default- Wert enthalten . Im Falle einer entsprechenden Anfrage wird das Ergebnis gemäß Tabelle 2 geliefert .

Tabelle 2

Weiterhin kann ohne Dekodieren der kodierten Spalte beispielsweise bestimmt werden, welche Datensätze in der i- ten Spalte den Wert x. ₁ enthalten . Im Falle einer entsprechenden Anfrage wird das Ergebnis gemäß Tabelle 3 geliefert .

Tabelle 3

In einer anderen Ausführungsform wird das Cluster 900 spaltenweise arithmetisch kodiert .

Arithmetische Kodieren (siehe beispielsweise [4] ) ist ein

Kompressionsverfahren, bei welchem ein Datenstrom in eine Bit-Repräsentation eines reellen Intervalls umgewandelt wird. Dabei wird eine vorgegebene Wahrscheinlichkeitsverteilung verwendet .

Die Wahrscheinlichkeitsverteilung wird verwendet, um die

Wahrscheinlichkeit, dass der nächste Wert im Datenstrom der Wert x ist, P(nächster Wert = x) , zu bestimmen.

In dem vorliegenden Fall wird der Datenstrom durch die i-te Spalte 904 (oder durch alle hintereinandergeschriebenen

Spalten) gebildet . Die Wahrscheinlichkeit P(nächster Wert = x) wird mittels des bestimmten statistischen Clustering-Modells ermittelt . Die Kompression wird dann entsprechend von einem arithmetischen Kompressor durchgeführt .

In dieser Ausführungsform ist es jedoch erforderlich, die kodierte Spalte zu dekodieren, um Anfragen (wie die obigen) zu beantworten.

In einer anderen Ausführungsform wird eine Kombination aus Runlength-Kodierung und arithmetischer Kodierung verwendet .

In einem ersten Schritt wird die i-te Spalte, beispielsweise gegeben durch

^xi ' ^xi ^{i X}2.5 ' ^xi 2 ' ^xi ' ^xi ' ^xi ' ^xi ' ^xi 1 ' ^xi ' ^xi ' ^xi ' ^xi 4

analog zu oben durch 3 , xi- ,oc , l, χi. ,z-, , 5, Xx. ,-j,. , 4 , kodiert,

wobei wie oben die Werte 3, 5 und 4 j eweils die Lauflänge des Default-Werts plus Eins an der entsprechenden Stelle im Datenstrom angeben . Anschließend wird der Datenstrom 3, x. r , l , χ.₀ , 5_r x_{H i r} 4, χ. „ mittels arithmetischer Kodierung weiter komprimiert . Die dafür verwendete Wahrscheinlichkeitsverteilung ist folgendermaßen gegeben: Wahrscheinlichkeiten für die Werte, die die Lauflänge angeben, sind gegeben durch

P (Lauflänge=n) =P (nächster Wert im Datenstrom=x± ) ^n~^- (1-

P (nächster Wert im Datenstrom=Xχ ) ) •

Wahrscheinlichkeiten für Werte Xj^ x₁ sind gegeben durch

P (nächster Wert im Datenstrom=Xj_) =P (nächster Wert im Datenstrom=xj_) / ( 1-P (nächster Wert im Datenstrom=xj_ ) ) .

Auch in dieser Ausführungsform ist es jedoch erforderlich, die kodierte Spalte zu dekodieren, um Anfragen (wie die obigen) zu beantworten .

In einer anderen Ausführungsform wird nicht spaltenweise vorgegangen, sondern zeilenweise. Analog zu dem spaltenweisen Vorgehen stehen die obigen Möglichkeiten zur Verfügung (Runlength-Kodierung, arithmetische Kodierung, Kombination aus Runlength-Kodierung und arithmetischer Kodierung) .

Wird bei zeilenweisen Vorgehen arithmetische Kodierung verwendet, so kann die Kompressionsrate weiter erhöht werden, indem für die Wahrscheinlichkeitsverteilung, die für die arithmetische Kodierung verwendet wird, bedingte Wahrscheinlichkeiten verwendet werden. Wird beispielsweise die π -te Zeile x^π = (xj, ... , x^) komprimiert, so kann für die Wahrscheinlichkeit, dass die i- te Komponente xj den Wert XJ_ hat, die Wahrscheinlichkeit

verwendet werden, welche mittels des bestimmten statistischen Clustering-Modells ermittelbar ist .

Zusammenfassend wird anschaulich unter Verwendung des ermittelten statistischen (Clustering-) Modells eine Kompression der Datenbanktabelle erreicht (vorausgesetzt, der eingesparte Speicherplatz ist größer als der zum Speichern des statistischen Modells erforderliche Speicherplatz) . Die Clusterhierarchie 800, wie sie in Fig.8 dargestellt ist, wird vorzugsweise soweit aufgebaut, dass durch weitere Segmentierung (das heißt Unterteilen in Cluster) der untersten Ebene von Clustern (in Fig.8 der dritten Mehrzahl von Clustern 804 ) kein zusätzlicher Speicherplatz eingespart werden kann (da der zum Speichern des statistischen Modells erforderliche Speicherplatz in diesem Fall die zusätzlich erreichte Kompression ausgleicht) .

Unabhängig davon, welche Methode zum Komprimieren des Clusters 900 verwendet wird, kann das Cluster 900 anschließend in einem zweiten Schritt mittels eines weiteren Komprimierungsverfahrens komprimiert werden, beispielsweise mittels eines Lempel-Ziv-Kompressionsverfahrens, um eventuell weiterhin vorhandene Redundanzen zu eliminieren. Da mittels eines der obengenannten KompressionsVerfahrens bereits eine Komprimierung des Clusters erzielt wurde, können in dem zweiten Schritt aufwändige Komprimierungsverfahren verwendet werden, ohne dass ein unakzeptabler Rechenaufwand beim Komprimieren und/oder Dekomprimieren erforderlich ist .

Ferner können Verfahren zur Kodierung dünn besetzter Tafeln (Sparse-Kodierung) verwendet werden.

Die statistischen Verfahren zur Kqmprimierung und die dabei aufgebauten Datenstrukturen wirken sich nicht nur positiv auf die Größe eines Datenbank-Abbilds aus . Die Datenstrukturen können auch einfach genutzt werden, um analytische Anfragen beschleunigt zu berechnen. Wird z . B. für eine Variable nur ein Wert kodiert, wenn dieser von dem Default-Wert abweicht, muss bei der Ermittlung der Statistik über die verschiedenen Werte auch immer nur für alle gerade selektierten Datensätze Korrekturen um eine Default-Statistik gemacht werden, entsprechend jeder kodierten Abweichung vom Default-Wert .

Die Kodierung des Clusters 900, beziehungsweise der in dem Cluster enthaltenen Datensätze, beispielsweise gemäß einem der oben erläuterten Ausführungsbeispiele, ermöglicht es, zu j edem in dem Cluster 900 enthaltenen Datensatz einen Schlüssel in dem Daten-Abbild zu speichern, mittels welchem der entsprechende Datensatz in der zu Grunde liegenden Datenbanktabelle gefunden werden kann .

Jedem Datensatz in der zu Grunde liegenden Datenbanktabelle ist ein Schlüssel zugeordnet . In dem Datenbank-Abbild der Datenbanktabelle ist dieser Schlüssel für jeden wie oben erläutert komprimiert gespeicherten Datensatz enthalten .

Als Schlüssel, der für jeden Datensatz in dem Datenbank- Abbild gespeichert wird, kann jedoch auch ein "natürlicher Schlüssel" der Segmentierung verwendet werden, das heißt, als Schlüssel für einen Datensatz in dem Cluster 900 wird eine Korabination aus einem ersten Schlüssel, der die Clusternummer der Clusters 900 spezifiziert, und einem zweiten Schlüssel , der einer Nummer des Datensatzes entsprechend einer Nummerierung der in dem Cluster 900 enthaltenen Datensätze entspricht, verwendet . Der zweite Schlüssel ist somit anschaulich die Nummer des Datensatzes innerhalb des Clusters 900. Die Clusternummer des Clusters 900 kann eine hierarchische Clusternummer sein, die gemäß der Clusterhierarchie 800 ausgestaltet ist . Beispielsweise können die Subcluster eines Clusters durchgängig nummeriert werden und entsprechend die Subcluster eines solchen Subclusters wieder durchgängig nummeriert werden, so dass sich beispielsweise eine hierarchische Clusternummer des Clusters 900 der Form 1/3/2 ergibt, wenn der Cluster 900 der zweite Subcluster (in der dritten Mehrzahl von Clustern 804 ) des dritten Subclusters (in der zweiten Mehrzahl von Clustern 803 ) des ersten Clusters der ersten Mehrzahl von Clustern 802 ist .

Der zweite Schlüssel, der eine Nummer des Datensatzes entsprechend einer Nummerierung der in dem Cluster 900 enthaltenen Datensätze entspricht, kann typischerweise sehr kurz gewählt werden (ein Byte oder wenige Byte Länge) , da in dem Cluster 900 aufgrund der Segmentierung nur wenige Datensätze enthalten sind.

Die Verwendung dieses "natürlichen Schlüssels" hat den Vorteil, dass nur ein geringer Speicheraufwand bei der

Speicherung von Schlüsseln für Datensätze in dem Datenbank- Abbild entsteht .

Die Zuordnung der "natürlichen Schlüssel" zu den in der zu Grunde liegenden Datenbanktabelle verwendeten Schlüsseln (die erforderlich ist, um den einem Datensatz in dem Datenbank- Abbild entsprechenden Datensatz in der Datenbanktabelle zu finden) , kann in Form einer Datenbanktabelle in der Datenbank, die die Datenbanktabelle enthält, selbst gespeichert werden und bei einem Zugriff auf die

Datenbanktabelle bzw. auf die Datenbank entsprechend ausgelesen werden . Sind mehrere Datenbanktabellen und entsprechend Datenbank- Abbilder vorhanden, beispielsweise entsprechend Fig. l ein Transaktionsdatenbanktabelle-Abbild 108 für eine Transaktionsdatenbanktabelle 106 und ein Kundendatenbanktabelle-Abbild 107 für eine

Kundendatenbanktabelle 105, so werden in den Datenbank- Abbildern Schlüssel für die j eweiligen Datensätze gespeichert .

In dem Beispiel gemäß Fig. l können nun, wie es mit Bezug auf Fig.4 und Fig.5 erläutert wurde, bei einer Selektion von Transaktionsdatensätzen in dem Transaktionsdatenbanktabelle- Abbild 108 (beispielsweise gemäß Fig.4) entsprechende Kundendatensätze in dem Kundendatenbanktabelle-Abbild 107 selektiert werden. Dies erfolgt mittels eines gemeinsamen Schlüssels der Kundendatenbanktabelle 105 und der Transaktionsdatenbanktabelle 106, beispielsweise mittels der Kundennummer eines Kunden, dem ein Kundendatensatz entspricht, oder einem Kunden entspricht, der an einer Transaktion beteiligt war, die einem Transaktionsdatensatz entspricht .

Bei einer Selektion von Transaktionsdatensätzen in dem Transaktionsdatenbanktabelle-Abbild 108 (beispielsweise gemäß Fig.4) können anhand der in dem Transaktionsdatenbanktabelle- Abbild 108 gespeicherten Schlüssel der Transaktionsdatensätze in dem Transaktionsdatenbanktabelle-Abbild 108 die entsprechenden Transaktionsdatensätze in der Transaktionsdatenbanktabelle 106 identifiziert werden (beispielsweise mittels einer entsprechenden

Zuordnungstabelle) . Mittels den Kundennummern können nun die entsprechend selektierten Kundendatensätze in der Kundendatenbanktabelle 105 bestimmt werden und mittels einer Zuordnungstabelle, die den Schlüsseln der Kundendatensätze des Kundendatenbanktabelle-Abbilds 107 die entsprechenden

Schlüssel der Kundendatensätze der Kundendatenbanktabelle 105 zuordnet, die entsprechend selektierten Kundendatensätze in dem Kundendatenbanktabelle-Abbild 107 ermittelt werden und die entsprechende Selektion (beispielsweise gemäß Fig.5) verwendet werden.

Damit ein Zugriff auf die Kundendatenbanktabelle 105 und die Transaktionsdatenbanktabelle 106 zum Ermitteln der entsprechenden Selektion der Kundendatensätze in dem Kundendatenbanktabellen-Abbild 107 nicht erforderlich ist, weisen das Transaktionsdatenbanktabellen-Abbild und das Kundendatenbanktabellen-Abbild 107 selbst einen gemeinsamen Schlüssel (beispielsweise Kundennummern) auf, die die entsprechende Selektion von Kundendatensätzen in dem Kundendatenbanktabellen-Abbild 107 zu einer Selektion von Transaktionsdatensätzen in dem Transaktionsdatenbanktabellen- Abbild 108 analog zu der oben beschriebenen Vorgehensweise ermöglichen . t

Somit weist das vorgeschlagene Verfahren die folgenden Vorteile insbesondere im Zusammenhang mit relationalen Abfragen (also Abfragen, die mehrere Datenbanktabellen betreffen) auf. Durch die Kompression können die Datenbank- Abbilder in einem kleinen aber schnellen Speicher (im Hauptspeicher) gehalten werden. Gleichzeitig sind die Datenbank-Abbilder so konzipiert, dass Schlüssel in die komprimierten Bilder eingespeichert werden können und trotzdem noch einen (nahezu) wahlfreien Zugriff erlauben . Das erlaubt verschiedene Datenbank-Abbilder (so wie ursprünglich verschiedene Tafeln (Datenbanktabellen) in der relationalen Datenbank) über Schlüssel zu verbinden und damit relationale Abfragen zu beantworten. Damit ist ein erheblicher Geschwindigkeitsgewinn gegeben aus den folgenden Gründen :

• Die Geschwindigkeit des Hauptspeichers ist wesentlich größer als anderen große Massenspeicher (Festplatten) .

• Die Datenbank-Abbilder sind so konstruiert, dass über die Segmentierung ein schneller Zugriff auf die Daten und ein schnelles Auszählen möglich ist .

• Im Hauptspeicher hat man einen sog. wahlfreien Zugriff (im Unterschied zu Festplatten) , was besonders vorteilhaft ist, wenn man über Schlüssel bei relationalen Abfragen gezielt auf Elemente in verschiedenen Abbildern zugreifen muss .

Eine weiterhin gesteigerte Effizienz ist in einer Ausführungsform gegeben, in der ein Datenbank-Abbild

(beispielsweise das Transaktionsdatenbanktabellen-Abbild 108 ) Verweise auf die Datensätze in dem anderen Datenbank-Abbild (beispielsweise dem Kundendatenbanktabellen-Abbild 107 ) enthält .

In einer weiteren Ausführungsform wird eine Steigerung der Effizienz dadurch erreicht, dass die beiden Datenbank- Abbilder nicht unabhängig voneinander generiert werden, sondern dass die Gruppierung von Datensätzen zu Clustern zur Erzeugung eines der beiden Datenbank-Abbildern mit Rücksicht auf das andere Datenbank-Abbild erfolgt .

Beispielsweise wird das Transaktionsdatenbanktabellen-Abbild 108 mit Rücksicht auf das Kundendatenbanktabellen-Abbild 107 erzeugt, indem alle Transaktionsdatensätze, die demselben Kundendatensatz entsprechen, das heißt, die Transaktionen entsprechen, an denen derselbe Kunde beteiligt war, demselben Cluster zugeordnet werden. Dies ermöglicht es, beispielsweise bei einer Selektion von Kundendatensätzen in dem Kundendatenbanktabellen-Abbild 107, schnell auf die entsprechenden Transaktionsdatensätze in dem Transaktionsdatenbanktabellen-Abbild 108 zuzugreifen, da diese alle demselben Cluster des Transaktionsdatenbanktabellen-Abbilds 108 zugeordnet sind. Dies ist insbesondere dann von Vorteil, wenn die Cluster des Transaktionsdatenbanktabellen-Abbilds 108 komprimiert vorliegen und bei einem Zugriff dekomprimiert werden müssen. Bei einer wie oben erfolgten Gruppierung müssen deshalb nur wenige Cluster bei einer Anfrage dekomprimiert werden.

Ein aufeinander abgestimmte Cluster-Struktur kann z .B . dadurch erreicht werden, dass zunächst wie üblich Cluster für eine Tafel (d. h . Datenbanktabelle) durch ein Lernverfahren generiert werden. Alle Daten aus der zweiten Tafel, die entsprechend den Schlüsseln zu einem Cluster aus der ersten Tafel gehören, werden dann ohne ein Lernverfahren zu benutzen zu einem Cluster für die zweite Tafel zusammengefasst . In dem Beispiel werden also zunächst die Kunden in typische Kundenklassen zusammengefasst (d. h. ein Clustering der Datensätze der Kundendatenbanktabelle wird durchgeführt) . Die Transkationsdatensätze zu all den Transaktionen, die zu den Kunden einer Kundenklasse gehören, werden dann entsprechend zu einem Cluster für die Transaktionsdaten zusammengefasst . Das Lernen findet dementsprechend nur auf der ersten Tafel statt . Das Clustering auf der zweiten Tafel richtet sich nach den Clustern der ersten Tafel .

Vorteilhafter Weise kann ein gemeinsames Clustering aber auch durch ein gemeinsames Lernen erreicht werden. Ein gemeinsames Clustering kann z . B . durch gemeinsame EM-Schritte in einem EM-Lernverfahren erreicht werden, wobei eine gemeinsame Cluster-Variable genutzt wird. Wie oben beschrieben werden in einem EM-Lernverfahren zunächst die Clusterzugehörigkeiten geschätzt (E-Schritt ) . In einem gemeinsamen EM-Lernverfahren wird die Zugehörigkeit z . B . eines Kunden aus einer Kundentabelle zu einem Cluster nicht nur an Hand seiner Kundeneigenschaften sondern auch an Hand seiner Transaktionen (gespeichert in der Transaktionstabelle) vorgenommen . Für die zu einem Kunden gehörenden Transaktionen gibt es umgekehrt nicht verschiedene a-posteriori-Schätzungen für die

ClusterZugehörigkeit, sondern eine gemeinsame Zuordnung.

Konkreter kann beispielsweise das gemeinsame Clustering wie folgt erfolgen . Um die a-posteriori-Schätzung für die latente Variable (die Cluster-Variable) für einen Kunden zu erhalten, wird zunächst wie in bekannten Inferenz-Verfahren (siehe z . B . die in [10] beschriebenen Inferenz-Verfahren an Hand von Message Passing Algorithmen) eine Message von jeder der bekannten Variablen (oder von Variablengruppen bzw . Cliques) des Kunden aus der Kundentabelle zu der Cluster-Variable gesendet . Dabei werden wie üblich die

Wahrscheinlichkeitstafeln entsprechend der Struktur des gewählten Kundenmodells benutzt . In einem zusätzlichen Schritt wird nun auch von jedem Eintrag aus der Transaktionstabelle, die zu dem gerade betrachteten Kunden gehören, eine Message zu der Cluster-Variable gesendet, um die Informationen aus der Transaktionstabelle in der a- posteriori-Schätzung der Zugehörigkeit eines Kunden zu einem Cluster zu berücksichtigen. Für jede Transaktion, die zu einem Kunden gehört, können dabei wiederholt die

Wahrscheinlichkeitstafeln eines gewählten „Transaktions- Modells" (ein gemeinsames Wahrscheinlichkeitsmodell für die Variablen aus der Transaktionstabelle und die latente Variable) benutzt werden . Die so entstehende a-posteriori- Schätzung für die Cluster-Variable kann dann die Basis für den M-Schritt bilden . In dem Kunden-Modell ist dies der übliche M-Schritt unter Nutzung des gemeinsam berechneten Posterior für jeden Kunden und Berechnung der „Sufficient Statistics" ( siehe [1] und [3] ) als Summe über alle Kunden . In dem Transaktions-Modell kann die Berechnung der Sufficient Statistics für den M-Schritt als Summe über alle Transaktionen eines Kunden mit dem dazu gehörenden Posterior und als zusätzliche Summe über alle Kunden erfolgen.

Enthält ein Datenbank-Abbild Schlüssel wie oben beschrieben, so kann das Datenbank-Abbild als multidimensionaler Index für eine Datenbank verwendet werden. Dies wird im Folgenden erläutert . Insbesondere erlauben mehrere über eine Schlüssel verbundene Datenbank-Abbilder einen multidimensionalen Zugriff auf eine Datenbank, bei dem Bedingungen auf

Dimensionen aus verschiedenen Datenbanktabellen gesetzt werden.

Für eine Datenbanktabellekann zu einer Spalte der Datenbanktabelle ein Index erzeugt werden, der es erlaubt, schnell Datensätze der Datenbanktabelle zu finden, für die die in der Spalte gespeicherte Größe einen bestimmten Wert annimmt . Beispielsweise könnte die Kundendatenbanktabelle 105 eine Spalte aufweisen, in der die Nationalität der Kunden angegeben wird, das heißt jeder Kundendatensatz weist ein Feld auf, in dem eine Spezifikation der Nationalität des entsprechenden Kunden enthalten ist . Erfolgen häufig länderspezifische Abfragen der Kundendatenbanktabelle 105, so ist es von Vorteil, die Schlüssel von Kundendatensätzen, die Kunden einer bestimmten Nationalität entsprechen, in einem Index (das heißt einer Liste) zusammenzufassen . Auf diese Weise können die Kundendatensätze, die Kunden der Nationalität entsprechen, schnell in der Datenbanktabelle gefunden werden. So kann für jede Spalte der Datenbanktabelle ein Index erstellt werden. Weist die Datenbanktabelle j edoch eine Vielzahl von Spalten auf, so entsteht ein erheblicher Aufwand, der insbesondere zu Performance-Schwierigkeiten führt . Im Extremfall, ist es, beispielsweise aus

Performancegründen, nicht möglich, für jede Spalte der Datenbanktabelle einen Index zu generieren.

Ein Datenbank-Abbild kann als "multidimensionaler" Index für die Datenbanktabelle verwendet werden, wenn, wie oben erläutert, für die Datensätze in dem Datenbank-Abbild Schlüssel gespeichert sind, die es erlauben, die entsprechenden Datensätze in der zu Grunde liegenden Datenbanktabelle zu finden. So kann zu jeder Selektion von Datensätzen in den Datenbank-Abbild nach vorgegebenen

Eigenschaften die entsprechenden Datensätze in der zu Grunde liegenden Datenbanktabelle gefunden werden, ohne dass die vorgegebenen Bedingungen für alle Datensätze der Datenbanktabelle überprüft werden müssen.

Dies ist insbesondere dann von Vorteil, wenn nur ein kleiner

Teil der Daten die Selektionskriterien erfüllt und deshalb nur wenige Datensätze aus der Datenbanktabelle abgerufen werden müssen, man aber ohne das Datenbank-Abbild alle Datensätze hätte durchsehen müssen um zu prüfen, ob sie die Selektionsbedingungen erfüllen. Beispielsweise enthält die Kundendatenbanktabelle für jeden (registrierten Kunden) des Baumarkt einen Kundendatensatz, den neben dem Alter des Kunden, der Kundennummer, dem Geschlecht des Kunden (usw. ) die Adresse des Kunden enthält . In dem Kundendatenbanktabellen-Abbild 107 existiert für jeden Kunden ein Kundendatensatz, der nur einen Teil dieser Informationen enthält, beispielsweise das Geschlecht des entsprechenden Kunden und das Alter des entsprechenden Kunden, insbesondere aber nicht die Adresse des entsprechenden Kunden. Am Ende eines Planungsprozesses könnte nun eine Zielgruppe bestimmt worden sein, beispielsweise alle Kunden zwischen 30 und 40 Jahren mit einem bestimmten Einkommen, welche ledig sind. Das Kundendatenbanktabellen- Abbild 107 kann nun in dem Sinne als multidimensionaler Index für die Kundendatenbanktabelle 105 verwendet werden, dass die Kundendatensätze der Kundendatenbanktabelle 105, die der Zielgruppe entsprechen, mittels der in dem Kundendatenbanktabellen-Abbild 107 gespeicherten Schlüssel schnell ermittelt werden können. Das Kundendatenbanktabellen- Abbild gibt die entsprechenden Schlüssel aus und die

Schlüssel werden an die Datenbank weitergereicht . An Hand der Schlüssel kann die Datenbank unmittelbar die Adressen der Kunden der Zielgruppe aus der Kundendatenbanktabelle 105 abrufen, ohne in einem aufwändigen Prozess die Bedingung, die die Zielgruppe definiert, auf allen Kundendatensätzen prüfen zu müssen.

Mit Hilfe über einen Datenbank-Schlüssel relational verbundener Datenbank-Abbilder können in ähnlicher Weise auch sehr schnell Datensätze (Zielgruppen) aus einer Datenbank abgerufen werden, die sich über eine Bedingung definieren, die verschiedene Datenbanktabellen einer Datenbank betreffen. So lassen sich zum Beispiel sehr schnell Adressen zu Kunden aus einer Datenbank ermitteln, die zwischen 30 und 40 Jahre alt sind (=Bedingung an ein Feld aus der Datenbanktabelle mit den Kundestammdaten) und die im Januar Blumenzwiebeln gekauft haben (= Bedingung an ein Feld aus der Transaktionstafel) .

Wie oben bereits erwähnt wurde, können für eine kategorielle Zufallsvariable die Ausprägungen, die in der Datenbank vorhanden sind, in dem Datenbank-Abbild gruppiert werden, so dass insbesondere für das Datenbank-Abbild weniger Speicher erforderlich ist, da weniger unterschiedliche Ausprägungen kodiert werden müssen. Beispielsweise werden, wie oben erläutert, alle möglichen Maschinenschraube'n zu einer Produktgruppe "Maschinenschrauben" zusammengefasst . Analog kann das Datenbank-Abbild Diskretisierungen von in der Datenbank vorhandenen Ausprägungen enthalten oder es können in dem Datenbank-Abbild verschiedene Werte zu Wertebereichen zusammengefasst sein .

Beispielsweise enthält die Kundendatenbanktabelle 105 in j edem Kundendatensatz die Information, in welchem Monat der entsprechende Kunde geboren wurde, so dass das Alter des entsprechenden Kunden auf einen Monat genau bekannt ist . Um einen geringen Speicheraufwand des Kundendatenbanktabellen- Abbilds 107 zu erreichen, weisen die Kundendatensätze des Kundendatenbanktabellen-Abbilds 107 j eweils die Spezifikation des Alters des entsprechenden Kunden nur auf ein Jahr genau auf .

Wird an^' das Datenbank-Abbild eine Anfrage gestellt, für die die genaue, nur in der zu Grunde liegenden Datenbanktabelle enthaltenen Informationen erforderlich sind, so kann mittels des Datenbank-Abbilds eine Vorauswahl der Datensätze getroffen werden, mittels der in dem Datenbank-Abbild gespeicherten Schlüssel die der Vorauswahl entsprechenden Datensätze der zu Grunde liegenden Datenbanktabelle bestimmt werden und anschließend durch Zugriff auf die

Datenbanktabelle die Anfrage beantwortet werden, wobei nur die der Vorauswahl entsprechenden Datensätze der Datenbanktabelle berücksichtigt werden müssen, wodurch ein Geschwindigkeitsvorteil erreicht wird.

Beispielsweise wird eine Anfrage an das

Kundendatenbanktabellen-Abbild 107 gestellt, die sich auf alle Kunden unter 17 , 5 Jahren bezieht . In dem Kundendatenbanktabellen-Abbild 107 seien in den Datensätzen gemäß obigen Beispiel das Alter der Kunden nur auf ein Jahr bekannt . Mittels des Kundendatenbanktabellen-Abbilds 107 kann die Anfrage für alle Kunden unter 17 Jahren beantwortet werden, da die entsprechenden Datensätze eindeutig bestimmt werden können. Zusätzlich werden mittels des Kundendatenbanktabellen-Abbilds 107 die Schlüssel der Kundendatensätze bestimmt, bei denen die entsprechenden Kunden zwischen 17 und 18 Jahren sind. Mittels dieser Schlüssel kann nun durch Zugriff auf die

Kundendatenbanktabelle 105 überprüft werden, welche dieser Kundendatensätze tatsächlich Kunden entsprechen, die unter 17, 5 Jahren alt sind. Sind diese entsprechend bestimmt, kann die Anfrage vollständig beantwortet werden .

Die Funktionsweise als multidimensionaler Index entfaltet besonders dann Vorteile, wenn mehrere Datenbanktabellen in die Abfrage involviert sind, wenn also z . B . die Adressen aller Kunden abgefragt werden sollen, die unter 18 Jahren alt sind, und im Januar Blumenzwiebeln gekauft haben. In der Datenbankabfragesprache SQL bezeichnet man solche Abfragen als „JOIN^ΛΛ . Gerade derartige Abfragen, die eine Verknüpfung mehrerer Datenbanktabellen erfordern, sind in Datenbanken oft langsam. Eine Liste der IDs ( Identifikationen, beispielsweise Kundennummern) solcher Kunden kann, wie in den vorhergehenden Ausführungen bereits ausführlich beschrieben, sehr effizient durch die Verknüpfung zweier geeigneter Datenbank-Abbilder ermittelt werden, die z . B . durch statistische Modellierung eine Kompression erzielen, die es ermöglicht, die Liste komplett im Hauptspeicher zu berechnen .

Insbesondere kann ein Datenbank-Abbild anschaulich als transparenter Beschleuniger für eine Datenbank verwendet werden. Statt mittels einer Benutzeroberfläche wird beispielsweise von einem Programm eine Anfrage an die Datenbank übermittelt . Die Anfrage wird unter Verwendung des Datenbank-Abbilds wie oben erläutert schnell beantwortet, indem nur auf die Datenbank zugegriffen wird, wenn dies erforderlich ist, da die Daten in den Datenbank-Abbilds nicht ausreichen . Beispielsweise ist wie oben die Adresse eines Kunden nicht in dem Datenbank-Abbild gespeichert, sondern nur in der dem Datenbank-Abbild zu Grunde liegenden Datenbanktabelle in der Datenbank oder in dem Datenbank- Abbild sind. Dies ist insofern transparent, als für das Programm, das die Anfrage übermittelt, kein Unterschied darin besteht, ob die Anfrage direkt durch Zugriff auf die zu Grunde liegende Datenbanktabelle beantwortet wird, oder unter Verwendung des Datenbank-Abbilds der Datenbanktabelle .

Somit werden Anfragen einer anderen Software anschaulich von dem Datenbank-Abbild anstelle von der Datenbank entgegengenommen, diese ausgewertet, und dann entweder selbständig aufgrund der in dem Datenbank-Abbild (oder auch mehreren Datenbank-Abbildern) gespeicherten Informationen beantwortet, oder - falls bestimmte benötigte Informationen nicht im Datenbank-Abbild vorliegen - eine ggf . optimierte Anfrage an die Datenbank weitergeleitet, die Ergebnisse abgeholt, ggf. weiterverarbeitet, und das Ergebnis an die anfragende Software übermittelt . Vorgenommene Optimierungen können beispielsweise darin bestehen, dass

Selektionskriterien in der Abfrage entfernt werden, und durch direkte Ansteuerung einzelner Datensätze mit Hilfe einer aus dem Datenbank-Abbild generierten Liste von Schlüsseln entsprechende Selektionen erfolgen.

Insbesondere kann die Erfindung Abfragen in der Abfragesprache SQL (structured query language) entgegennehmen und beantworten.

Insbesondere kann zur Übermittlung der SQL-Abfrage von der anfragenden Software zur Erfindung und zur Rückübermittlung der Ergebnisse einer der Schnittstellen-Standards JDBC (java database Connectivity) oder ODBC (open database Connectivity) zum Einsatz kommen .

Insbesondere kann die Erfindung als Beschleuniger transparent eingesetzt werden, d. h. so, dass eine Anwendungssoftware, die für direkten Zugriff auf die Datenbank ausgelegt ist, ohne Eingriff durch die Erfindung beschleunigt werden kann.

In diesem Dokument sind folgende Veröffentlichungen zitiert :

[1] Castillo, Jose Manuel Gutierrez,

Ali S . Hadi : "Expert Systems and Probabilistic Network Models", Springer, New York

[2] Reimar Hofmann : "Lernen der Struktur nichtlinearer Abhängigkeiten mit graphischen Modellen", Dissertation, Berlin, oder David Heckermann, A tutorial on learning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Research

[3] Martin A. Tanner: "Tools for Statistical Inference", Springer, New York, 1996

[4 ] Moffat, A. , Neal, R. M. , and Witten, I . H . : "Arithmetic coding revisited" , ACM Transactions on Information Systems, vol . 16, pp. 256-294 , 1995

[5] WO 00/65479

[6] WO 02/101581

[7 ] A. Orenstein: "Spatial query processing in an object oriented database System" , in SIGMOD, Washington, D . C , pp. 326-236, 1986.

[8 ] Ramakrishnan Raghu: "Database Management Systems" , McGraw-Hill, 2002

[9] Charu C. Aggarwal, Philip S . Yu, : "The IGrid index: reversing the dimensionality curse for similarity indexing in high dimensional space" , Proceedings of the sixth ACM SIGKDD international Conference on Knowledge discovery and data mining, Pages : 119 - 129, ACM Press New York, NY, USA, 2000 [10] Finn V. Jensen : "An Introduction to Bayesian Networks" , Springer, 1996, Kap . 4

[11] DE 102 52 445 Al

[12] US 2002/0029207 Al

Bezugszeichenliste

100 Computeranordnung

101 Computersystem

102 Datenbanksystem

103 Mikroprozessor

104 Speicher

105 Kundendatenbank

106 Transaktionsdatenbank

107 Kundendatenbank-Abbild

108 Transaktionsdatenbank-Abbild

109 Explorer-Computerprogramm

110 Bildschirm

111 Eingabegeräte

200 Bildschirmanzeige

201-203 Bildschirmfenster mit Analyseergebnissen

204 Selektionsinformationsfeld

205, 206 Auswahlfenster

300 Bildschirmanzeige

301-303 Bildschirmfenster mit Analyseergebnissen

304 Selektionsinformationsfeld

400 Bildschirmanzeige

401-403 Bildschirmfenster mit Analyseergebnissen

404 , 405 Balken

406 Selektionsinformationsfeld

500 Bildschirmanzeige

501-503 Bildschirmfenster mit Analyseergebnissen

504 Selektionsinformationsfeld

600 Bildschirmanzeige

601-603 Bildschirmfenster mit Analyseergebnissen 604 Balken

700 Bildschirmanzeige

701-703 Bildschirmfenster mit Analyseergebnissen

704 Markierung

800 Cluster-Hierarchie

801 Datenbank

802 Mehrzahl von Clustern

803 Mehrzahl von Clustern

804 Mehrzahl von Clustern

900 Cluster

901, 902 Zeilen

903, 904 Spalten

Claims

Patentansprüche

1. Datenbank-Abfragesystem mit

- einem ersten Datenbank-Abbild einer ersten Datenbanktabelle mit einer ersten Vielzahl von Datensätzen und einem zweiten

Datenbank-Abbild einer zweiten Datenbanktabelle mit einer zweiten Vielzahl von Datensätzen, wobei j edem Datensatz der ersten Vielzahl von Datensätzen und jedem Datensatz der zweiten Vielzahl von Datensätzen ein Wert eines Datenbank- Schlüssels zugeordnet ist;

- einer Eingabeeinrichtung, die eingerichtet ist, eine Analyse-Anfrage an das zweite Datenbank-Abbild zu empfangen;

- einer Selektionseinrichtung, die eingerichtet ist, einen Teil der ersten Vielzahl von Datensätzen gemäß einer ersten Selektion zu selektieren;

- einer Ermittlungseinrichtung, die eingerichtet ist, eine zweite Selektion eines Teils der zweiten Vielzahl von Datensätzen zu ermitteln, wobei gemäß der zweiten Selektion solche Datensätze selektiert sind, denen Werte des Datenbank- Schlüssels zugeordnet sind, die j eweils mindestens einem Datensatz zugeordnet sind, der gemäß der ersten Selektion selektiert ist;

- einer Verarbeitungseinrichtung, die eingerichtet ist, das Ergebnis der Analyse-Anfrage auf Basis des Teils der zweiten Vielzahl von Datensätzen zu ermitteln.

2. Datenbank-Abfragesystem gemäß Anspruch 1, wobei das erste Datenbank-Abbild und/oder das zweite Datenbank-Abbild gemäß einem statistischen Modell erzeugt ist .

3. Datenbank-Abfragesystem gemäß Anspruch 2 , wobei das statistische Modell ein graphisches Wahrscheinlichkeitsmodell ist .

4. Datenbank-Abfragesystem gemäß einem der Ansprüche 1 bis 3, wobei die Eingabeeinrichtung ferner eingerichtet ist, eine Selektionsinstruktion zu empfangen und die Selektionseinrichtung eingerichtet ist, den Teil der ersten Vielzahl von Datensätzen gemäß der Selektionsinstruktion zu selektieren.

5. Datenbank-Abfragesystem gemäß Anspruch 4, das ferner eine Anzeigeeinrichtung aufweist, die eingerichtet ist, eine

Bildschirmanzeige darzustellen, die die Anzeige von möglichen Werten mindestens einer Zufallsvariablen, für die j eder der ersten Vielzahl von Datensätzen einen Wert enthält, aufweist , und die Selektionsinstruktion das Auswählen der Anzeige mindestens eines möglichen Wertes der Zufallsvariablen ist und die erste Selektion darin besteht, dass alle Datensätze der ersten Vielzahl von Datensätzen selektiert sind, die den ausgewählten mindestens einen möglichen Wert enthalten .

6. Datenbank-Abfragesystem gemäß Anspruch 5, wobei die

Anzeigeeinrichtung ferner eingerichtet ist, eine weitere Bildschirmanzeige darzustellen, die eine Anzeige des Ergebnisses der Analyse-Anfrage aufweist, und wobei die Anzeigeeinrichtung ferner eingerichtet ist, zwischen der Bildschirmanzeige und der weiteren Bildschirmanzeige zu wechseln.

7. Datenbank-Abfragesystem gemäß einem der Ansprüche 1 bis 6, ferner aufweisend eine Zugriffseinrichtung, die eingerichtet ist, auf die zweite Datenbanktabelle zuzugreifen und Daten, die in den gemäß der zweiten Selektion selektierten Datensätzen der zweiten Datenbanktabelle enthalten sind, zu ermitteln und wobei die Verarbeitungseinrichtung eingerichtet ist, das Ergebnis der Analyse-Anfrage unter Verwendung der Daten zu ermitteln .

8. Datenbank-Abfragesystem gemäß einem der Ansprüche 1 bis 7 , wobei in dem ersten Datenbank-Abbild die erste Vielzahl von

Datensätzen zu einer ersten Mehrzahl von Segmenten gruppiert sind und/oder in dem zweiten Datenbank-Abbild die zweite Vielzahl von Datensätzen zu einer zweiten Mehrzahl von Segmenten gruppiert sind.

9. Datenbank-Abfragesystem gemäß Anspruch 8 , wobei der Wert des Datenbank-Schlüssels für einen Datensatz des ersten Datenbank-Abbilds aus einer Nummer des Segments, in dem der Datensatz enthalten ist, und einer Nummer des Datensatzes gemäß einer Nummerierung der Datensätze des Segments besteht .

10. Datenbank-Abfragesystem gemäß Anspruch 8 , wobei der Wert des Datenbank-Schlüssels für einen Datensatz des zweiten Datenbank-Abbilds aus einer Nummer des Segments, in dem der Datensatz enthalten ist, und einer Nummer des Datensatzes gemäß einer Nummerierung der Datensätze des Segments besteht .

11. Datenbank-Abfragesystem gemäß Anspruch 9 oder 10, wobei für jeden Datensatz der ersten Vielzahl von Datensätzen der Wert des Datenbank-Schlüssels in der ersten Datenbanktabelle und/oder für j eden Datensatz der zweiten Vielzahl von Datensätzen der Wert des Datenbank-Schlüssels in der zweiten Datenbanktabelle gespeichert ist .

12. Verfahren zur rechnergestützten Datenbank-Abfrage unter Verwendung einer ersten Datenbanktabelle mit einer ersten Vielzahl von Datensätzen und einer zweite Datenbanktabelle mit einer zweiten Vielzahl von Datensätzen, wobei jedem Datensatz der ersten Vielzahl von Datensätzen und j edem Datensatz der zweiten Vielzahl von Datensätzen ein Wert eines Datenbank-Schlüssels zugeordnet ist, aufweisend die Schritte :

- Empfangen einer Analyse-Anfrage an die zweite Datenbanktabelle; - Selektieren eines Teils der ersten Vielzahl von Datensätzen gemäß einer ersten Selektion;

- Ermitteln einer zweiten Selektion eines Teils der zweiten Vielzahl von Datensätzen, wobei gemäß der zweiten Selektion solche Datensätze selektiert sind, denen Werte des Datenbank- Schlüssels zugeordnet sind, die auch jeweils mindestens einem Datensatz zugeordnet sind, der gemäß der ersten Selektion selektiert ist;

- Ermitteln des Ergebnisses der Analyse-Anfrage auf Basis des Teils der zweiten Vielzahl von Datensätzen.