EP1395924A2 - Statistische modelle zur performanzsteigerung von datenbankoperationen - Google Patents

Statistische modelle zur performanzsteigerung von datenbankoperationen

Info

Publication number
EP1395924A2
EP1395924A2 EP02729889A EP02729889A EP1395924A2 EP 1395924 A2 EP1395924 A2 EP 1395924A2 EP 02729889 A EP02729889 A EP 02729889A EP 02729889 A EP02729889 A EP 02729889A EP 1395924 A2 EP1395924 A2 EP 1395924A2
Authority
EP
European Patent Office
Prior art keywords
data
variables
statistical
states
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP02729889A
Other languages
English (en)
French (fr)
Inventor
Reimar Hofmann
Michael Haft
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panoratio Database Images GmbH
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1395924A2 publication Critical patent/EP1395924A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Definitions

  • the present invention relates to a method for automatic, software-controlled statistical evaluation of a database of data to be assigned to a plurality of statistical variables.
  • the data to be evaluated can in particular be contained in one or more clusters.
  • a simple procedure could be to to access all customer entries in the database, to query the characteristics of the customers, and to find and count, among the "suitable" entries having the desired characteristics, those from which the customers bought the specific product.
  • a request to the database could be as follows: How often have certain mobile phones been bought by male customers who are at least 30 years old? All customer entries that meet the requirements "male” and "few- at least 30 years old ", whereby for the matching entries found it must be checked which mobile phone was sold and how often.
  • the database search can be done more skillfully and efficiently if all variables are provided with selectively queryable indexes.
  • the rule here is that the more precise and sophisticated the index technology used in a database, the faster access to the database can be achieved. Accordingly, statistical statements about the database entries can be made more efficiently. This is especially true if the database is specifically prepared for the expected inquiries using a special index technique.
  • the results of all expected statistical inquiries can be calculated in advance, which however has the disadvantage of a great deal of effort for the calculations and for storing the results.
  • OLAP online analytical processing
  • ROIAP Relational Online Analytical Processing
  • MOLAP Multidimensional Online Analytical Processing
  • ROLAP With the ROLAP method, only little is calculated in advance.
  • the data required to answer the query is accessed using index techniques and the statistics are then calculated from the data.
  • the focus of ROLAP is on a skillful organization and indexing of the data in order to find and load the necessary data as quickly as possible. With large amounts of data, the effort involved can still be considerable, and the indexing selected may not be optimal for all queries.
  • the focus is on predicting the results for a large number of possible inquiries.
  • the response time for a pre-calculated request is very short.
  • the pre-calculated values can sometimes lead to an acceleration if the desired sizes can be calculated from pre-calculated results, and this means less effort than accessing the data directly.
  • the number of all possible queries grows rapidly with the increasing number of variables and the number of states of these variables, so that the precalculation reaches the limits of what is currently feasible in terms of storage space and computing time. Then restrictions with regard to the considered variables, the distinguishable states of these variables or the permissible requests have to be accepted.
  • the object of the present invention is to overcome the disadvantages of the methods known in the prior art, in particular the OLAP methods for statistical evaluation of database entries.
  • a method for automatic, software-controlled statistical evaluation of a database of data to be assigned to a plurality of statistical variables, in particular the data contained in one or more clusters is shown, which is characterized in that a statistical model for the approximate description of the relative frequencies of States of the variables and the statistical dependencies between the states of the variables are learned by means of the data stored in the database, and on the basis of the statistical model the approximate relative frequencies of states of the variables, as well as the relative frequencies of the states which can be specified Approximate relative frequencies and expected values of the states of variables dependent on variables are determined.
  • the model is not an exact replica of the statistics of the data. With this procedure, no exact, but only approximate statistical statements are generally obtained. However, the statistical models are less restricted than e.g. the conventional OLAP processes.
  • the entries in a database are first "condensed" into a statistical model, the statistical model virtually representing an approximation of the "common probability distribution" of the database entries. Specifically, this is done by learning the statistical model based on the entries in the database, as a result of which the relative frequencies of the states of the variables of the dabenbane entries can be described approximately.
  • the variables can assume a variety of states with different relative frequencies. Once such a statistical model is available, it can be used to study the relative dependencies between the states of the variables. In this way, the relative frequencies of the states of the variables can be specified in accordance with a predefinable condition, and the relative frequencies of the states of variables dependent on the predetermined relative frequencies of the states of the variables can be determined.
  • a statistical query to the database can thus be made in the form of a condition for the relative frequencies of certain states of the variables, with an answer to the statistical query in the form of a determination of the relative frequencies of the states of the variables relative to the predetermined associated relative frequencies of the states of other variables dependent thereon.
  • a graphical probabilistic model is preferably used as the statistical model (see, for example: Castillo, Jose Manuel Gutierrez, Ali S. Hadi, Expert Systems and Probabilistic Network Models, Springer, New York).
  • the graphical probability models include in particular Bayesian networks (Bayesian Networks or Belief Networks) and Markov networks.
  • a statistical model can be generated, for example, through structure learning in Bayesian networks (see e.g. Reimar Hofmann, learning the structure of nonlinear dependencies with graphic models, dissertation, Berlin, or David Heckermann, A tutorial on learning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Research).
  • a statistical clustering model in particular a Bayesian clustering model, by which the data are divided into a plurality of clusters, is preferably used as the statistical model.
  • a clustering model based on a distance measure by means of which the data can also be divided into a plurality of clusters, can be used.
  • clustering models breaks down a very large database into smaller parts, which in turn can be regarded as separate databases and are more efficient to handle due to their comparatively smaller size.
  • the statistical evaluation of the database checks whether a given condition can be mapped to one or more clusters using the statistical model. If this is the case, the evaluated data should be restricted to one or more clusters. In the same way, it is possible that the cluster is limited to those in which the data fulfilling the specified condition are contained with at least a certain relative frequency. The remaining clusters, in which data is only contained in a small proportion in accordance with the specified condition, can be neglected because only approximate statements are aimed for in the approach under consideration.
  • a Bayesian clustering model (a model with a discrete latent variable) is used as the statistical clustering model.
  • ⁇ A, B, C, D, ... ⁇ a set of fields in the table of a database.
  • the states of the variables are described by the respective lower case letters.
  • the variable A can therefore assume the states ⁇ ai, a 2 , ... ⁇ .
  • the conditions are assumed to be discrete; in general, however, continuous (real-valued) variables are also permitted.
  • the board has M entries, ie
  • cluster variable There is also a hidden variable (cluster variable), which is designated with ⁇ .
  • ⁇ ) describes an a priori distribution of the clusters, whereby P ( ⁇
  • the a priori distribution describes how much of the data is assigned to the respective clusters.
  • ⁇ , 1 ⁇ ) is the structure of the i-th cluster or the -related distribution of the variables of the variable set ⁇ A, B, C, D, .. . ⁇ described within the i-th cluster.
  • Probabilities of each cluster together parameterize a common probability model on ⁇ A, B, C, D, ⁇ U ⁇ or on ⁇ A, B, C, D, ⁇ .
  • the probability model is given by the product of the a priori distribution and the conditional distribution
  • ⁇ (t + 1) arg max ⁇ ⁇ ⁇ ⁇ ⁇ P (an
  • the probability model corresponds to a simple Bayesian network (Naive Bayesian Network ). Instead of a high-dimensional table, one is now only confronted with many one-dimensional tables (tables for one variable each).
  • each data set x ⁇ (a ⁇ , b n , c ⁇ , d ⁇ , ...) can be assigned a cluster.
  • the assignment takes place via the a posteriori distribution P ( ⁇ Da ⁇ , b ⁇ , c ⁇ , d ⁇ , ..., ⁇ ), the data set x ⁇ being the cluster ⁇ ⁇ with the highest weight P ( ⁇ Da ⁇ , b ⁇ , c ⁇ , d ⁇ , ..., ⁇ ) is assigned.
  • the cluster membership of each entry in the database can be stored as an additional field in the database and corresponding indexes can be prepared in order to be able to quickly access the data belonging to a particular cluster.
  • a posteriori distribution P ( ⁇ Da ⁇ , b 3 ) is determined. This distribution shows (approximatively) which share of the data can be found in which clusters of the database according to the given condition. So it is possible to limit all other processes, depending on the desired accuracy, to those parts of the database that have a high a posteriori weight according to P ( ⁇ Da ⁇ , b 3 ).
  • the data belonging to a cluster are advantageously stored in a manner corresponding to the cluster membership.
  • the data belonging to a cluster can be stored in a section of a hard disk, so that the data belonging together can be read more quickly in the block.
  • conventional methods for statistical evaluation of the data from databases can also be used in addition in the method according to the invention if approximate statements are not considered sufficient.
  • conventional database reporting or OLAP methods can be used to determine the relative frequencies of the states of variables.
  • a supplementary use of conventional database techniques can, for example, be initiated automatically if a definable test variable assumes or exceeds a predetermined value.
  • a plurality of data of a database to be assigned statistical variables, in particular that in one or more Data contained in clusters is shown, which is characterized in that the data is subdivided into a plurality of clusters by a clustering model based on a distance measure, and, if appropriate, the data under consideration is restricted to the data contained in one or more of the data contained in the clusters , and whereby database reporting methods or OLAP methods are used to determine the relative frequencies and expected values of the states of variables.
  • the data shown in the database can be subdivided into clusters and, if appropriate, restricted to one or more clusters by the methods shown in the invention. If the methods according to the invention are applied to data that are already contained in one or more clusters, this results in a division of the clusters into sub-clusters. If there is a restriction to one or more of the sub-clusters, the methods according to the invention can be applied to the data contained therein, it being possible, if necessary, to use more precisely adapted statistical models. This procedure can generally be repeated any number of times, i. H. the clusters can be divided into sub-clusters as often as required. the sub-clusters in sub-sub-clusters, etc., and if necessary a restriction to the data contained therein, and a (more specifically adapted) application of the methods according to the invention to the data contained in the clusters under consideration.
  • FIG. 1 shows various monitor windows in which variables for describing the visitors to a website are shown.
  • FIG. 2 shows various monitor windows of the variables of FIG. 1, the behavior of the visitors of a specific referrer being examined.
  • FIG. 3 shows various monitor windows of the variables of FIG. 1, the behavior of the visitors who first calling the homepage, then reading the news and then calling the homepage again being examined.
  • Each session of a visitor was identified by a set of different variables, namely in particular "start time”, “session duration”, “number of requests”, “referrer”, “1st visited rubric”, “2nd visited rubric”, “ 3rd visited rubric "and” 4th visited rubric ".
  • a Naive Bayesian clustering model as described above was used to determine the relative frequencies of the states of the variables.
  • the predefined variables were integrated into the statistical model.
  • the statistical model was trained by the data contained in the weblog files in order to find good parameters for the model.
  • the desired relative frequencies can then be read from the model.
  • FIG. 1 shows various monitor windows in which the variables "start time”, “session duration”, “number of requests”, “referrer”, “1st visited rubric”, “2nd visited rubric”, “3rd visited rubric” and “4th visited rubric” to describe the visitors of a website are shown.
  • the dependencies between the variables could also be studied. As can be seen in FIG. 2, the behavior of those visitors who came from a specific referrer (in the present case Endemann) was examined, for example. For this, the corresponding entry in the variable "Referrer" was set to 100%. Using the statistical model, it was found within a fraction of a second that, in particular, approximately 99% of these visitors first visit the homepage and then immediately leave the website again in the vast majority (approximately 96%).
  • 3 shows a more complicated query to the database.
  • 3 shows various monitor windows of the variables under consideration, the behavior of the visitors who first calling the homepage, then reading the news and then calling the homepage again being examined.
  • the corresponding entries in the variables "1st category visited", "2nd category” and "3rd category” were set to 100%.
  • an abundance of further queries to the database could be answered within a very short time, ie generally within less than 1 second. For example, it could be checked which proportion of visitors who come via a specific referrer makes more than three page views, how these people are distributed over the time of day and who of these visitors is a returning visitor. It could also be checked how the visitor traffic of those visitors who start with the homepage is distributed, ie which part of the visitors continues his session in which way or subsequently breaks off. co co tv> N3 P 1 P 1
  • a clustering model based on a distance measure can be used to subdivide the data of a database into a plurality of clusters, with a restriction to the relevant parts of the database (cluster) if necessary.
  • Conventional database reporting methods or OLAP methods are used to determine the relative frequencies and expected values of the states of variables.
  • the present invention can be used wherever an efficient statistical evaluation of large amounts of data is required.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur automatischen, Software gesteuerten statistischen Auswertung von einer Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank, welches dadurch gekennzeichnet ist, dass ein statistisches Modell zur approximativen Beschreibung der relativen Häufigkeiten von Zuständen der Variablen und der statistischen Abhängigkeiten zwischen den Zuständen der Variablen mittels der in der Datenbank gespeicherten Daten gelernt wird, und anhand des statistischen Modells die approximativen relativen Häufigkeiten von Zuständen der Variablen, sowie die zu vorgebbaren relativen Häufigkeiten der Zustände von Variablen gehörenden approximativen relativen Häufigkeiten und Erwartungswerte der Zustände davon abhängiger Variablen ermittelt werden.

Description

Beschreibung
Statistische Modelle zur Performanzsteigerung von Datenbankoperationen
Die vorliegende Erfindung betrifft ein Verfahren zur automatischen, Software gesteuerten statistischen Auswertung vo einer Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank. Die auszuwertenden Daten können insbe- sondere in einem oder mehreren Clustern enthalten sein.
Heutzutage sind Datenbanken in der Lage immense Mengen an Daten zu speichern. Um die gespeicherten Daten auszuwerten und nutzbringende Informationen extrahieren zu können sind wegen der Datenfülle effiziente, d.h. schnelle' und gezielte Datenbankzugriffe notwendig.
Für eine Auswertung sind im allgemeinen alle Daten zu finden, die einer vorgebbaren Bedingung entsprechen. Oftmals kommt es dabei nicht darauf an, die aufgefundenen Daten selbst zu kennen, sondern man will vielmehr nur Kenntnis von der den Daten zugrunde liegenden Statistik erlangen.
Soll beispielsweise in einem Customer-Relationship-Manage- ment- (CRM-) System, in dem die Daten von Kunden abgelegt sind, herausgefunden werden, welcher Anteil der Kunden mit bestimmten Merkmalen ein bestimmtes Produkt gekauft hat, könnte eine einfache Vorgehensweise darin bestehen, auf alle Kundeneinträge in der Datenbank zuzugreifen, die Merkmale der Kunden abzufragen, und unter den die gewünschten Merkmale aufweisenden "passenden" Einträgen diejenigen ausfindig zu machen und zu zählen, bei denen die Kunden das bestimmte Produkt gekauft haben. Beispielsweise könnte eine solche Anfrage an die Datenbank folgendermaßen lauten: wie oft wurden bestimmte Mo- biltelefone von männlichen Kunden, die wenigstens 30 Jahre alt sind, gekauft? Es sind also alle Kundeneinträge ausfindig zu machen, welche die Voraussetzungen "männlich" und "wenigs- tens 30 Jahre alt" erfüllen, wobei für die aufgefundenen passenden Einträge zu prüfen ist, welches Mobiltelefon wie oft verkauft wurde .
Nachteilig bei dieser Vorgehensweise ist jedoch, dass die komplette Datenbank gelesen werden muss, um die passenden Einträge zu finden. Dies kann bei großen Datenbanken mitunter sehr lange dauern.
Geschickter und effizienter kann bei der Datenbanksuche vorgegangen werden, wenn alle Variablen mit selektiv abfragbaren Indizes versehen werden. Hierbei gilt, dass je genauer und ausgefeilter die dabei eingesetzte Indextechnik einer Datenbank ist, desto schneller Zugriffe auf die Datenbank bewerk- stelligt werden können. Dementsprechend effizienter könnnen auch statistische Aussagen über die Datenbankeinträge getroffen werden. Dies trifft insbesondere dann zu, wenn die Datenbank durch eine spezielle Indextechnik gezielt auf die zu erwartenden Anfragen vorbereitet wird.
Alternativ oder in Kombination mit Indextechniken können die Ergebnisse aller zu erwartenden statistischen Anfragen vorausberechnet werden, was jedoch den Nachteil eines großen Aufwandes für die Berechnungen und für das Speichern der Er- gebnisse mit sich bringt.
Eine Klasse von Verfahren zum Extrahieren von statistischen Informationen aus den Daten einer Datenbank wird mit dem Begriff "Online Analytical Processing" (OLAP) gekennzeichnet. Im allgemeinen können solche Verfahren in "Relational Online Analytical Processing" (ROLAP) und "Multidimensional Online Analytical Processing" (MOLAP) unterteilt werden.
Bei den ROLAP-Verfahren wird nur wenig vorausberechnet. Bei der Anfrage nach einer Statistik wird auf die zur Beantwortung der Anfrage erforderlichen Daten über Indextechniken zugegriffen und die Statistik dann aus den Daten berechnet. Der Schwerpunkt von ROLAP liegt dabei auf einer geschickten Organisation und Indizierung der Daten, um das Auffinden und Laden der erforderlichen Daten so schnell als möglich zu gestalten. Bei großen Datenmengen kann der Aufwand dafür trotz- dem noch beträchtlich sein, außerdem ist die gewählte Indizierung unter Umständen nicht für alle Abfragen optimal.
Bei den MOLAP-Verfahren liegt der Fokus auf der Vorausberechnung der Ergebnisse für eine Vielzahl möglicher Anfragen. Die Antwortzeit für eine vorausberechnete Anfrage wird dadurch sehr klein. Für nicht vorausberechnete Anfragen können die vorausberechneten Werte zum Teil auch zu einer Beschleunigung führen, wenn sich die gewünschten Größen aus vorausberechneten Ergebnissen berechnen lassen, und dies weniger Aufwand bedeutet, als direkt auf die Daten zuzugreifen. Die Menge aller möglichen Abfragen wächst mit der zunehmenden Anzahl von Variablen und der Anzahl von Zuständen dieser Variablen schnell an, so dass das Vorausberechnen an die Grenzen des zurzeit Machbaren hinsichtlich Speicherplatz und Rechenzeit stößt. Dann müssen Einschränkungen hinsichtlich der betrachteten Variablen, der unterscheidbaren Zustände dieser Variablen bzw. der zulässigen Anfragen in Kauf genommen werden.
Obgleich die OLAP-Verfahren eine Steigerung der Effizienz ge- genüber dem bloßen Zugriff auf jeden Datenbankeintrag gewährleisten, ist nachteilig, dass hierbei eine Vielzahl von redundanten Informationen erzeugt werden müssen. So sind Statistiken vorauszuberechnen und umfangreiche Indexlisten zu erstellen. Zudem verlangt ein effizienter Einsatz eines OLAP- Verfahrens im allgemeinen, dass dieses Verfahren auf bestimmte Anfragen hin optimiert wird, wobei das OLAP-Verfahren dann aber auch diesen gewählten Einschränkungen unterliegt, d. h. es können keine beliebigen Anfragen an die Datenbank mehr gestellt werden.
Ferner gilt bei den, OLAP-Verfahren, dass je schneller Informationen bereitgestellt werden sollen, und je unterschiedli- eher diese Informationen sind, desto mehr Strukturen voraus berechnet und gespeichert werden müssen. OLAP-Systeme können deshalb sehr groß werden und sind bei weitem nicht so effizient wie man sich das wünschen würde. Antwortzeiten unter- halb von einer Sekunde sind bei beliebigen statistischen Anfragen an eine große Datenbank praktisch nicht zu realisieren. Oft liegen die Anfragezeiten sogar wesentlich über einer Sekunde.
Es besteht deshalb Bedarf nach effizienteren Verfahren zum statistischen Auswerten von Datenbankeinträgen. Die Anfragen sollen dabei nach Möglichkeit keinen Einschränkungen unterliegen.
Aufgabe der vorliegenden Erfindung ist es die Nachteile der im Stand der Technik bekannten Verfahren, insbesondere der OLAP-Verfahren zum statistischen Auswerten von Datenbankeinträgen zu überwinden.
Diese Aufgabe wird erfindungsgemäß durch die Verfahren gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.
Erfindungsgemäß wird ein Verfahren zur automatischen, Software gesteuerten statistischen Auswertung von einer Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank, insbesondere den in einem oder mehreren Clustern enthaltenen Daten, gezeigt, welches dadurch gekennzeichnet ist, dass ein statistisches Modell zur approximativen Beschreibung der relativen Häufigkeiten von Zuständen der Variablen und der statistischen Abhängigkeiten zwischen den Zuständen der Variablen mittels der in der Datenbank gespeicherten Daten gelernt wird, und anhand des statistischen Modells die appro- ximativen relativen Häufigkeiten von Zuständen der Variablen, sowie die zu vorgebbaren relativen Häufigkeiten der Zustände von Variablen gehörenden approximativen relativen Häufigkeiten und Erwartungswerte der Zustände davon abhängiger Variablen ermittelt werden.
Das Modell ist im Unterschied zu den herkömmlichen Verfahren zur statistischen Auswertung der Daten von Datenbanken kein exaktes Abbild der Statistik der Daten. Bei dieser Vorgehensweise werden im allgemeinen keine genauen, sondern nur approximative statistische Aussagen gewonnen. Die statistischen Modelle unterliegen jedoch weniger Einschränkungen als z.B. die herkömmlichen OLAP-Verfahren.
Um die approximativen statistischen Aussagen zu gewinnen, werden die Einträge in einer Datenbank zunächst zu einem sta- tistischen Modell "kondensiert", wobei das statistische Modell quasi eine Approximation der "gemeinsamen Wahrscheinlichkeitsverteilung" der Datenbankeinträge darstellt. Konkret erfolgt dies durch Lernen des statistischen Modells anhand der Einträge der Datenbank, wodurch in der Folge die relati- ven Häufigkeiten der Zustände der Variablen der Dabenban- keinträge approximativ beschrieben werden können. Die Variablen können dabei eine Vielzahl von Zuständen mit unterschiedlichen relativen Häufigkeiten einnehmen. Sobald ein solches statistisches Modell verfügbar ist, kann dieses dazu benutzt werden, die relativen Abhängigkeiten zwischen den Zuständen der Variablen zu studieren. So können die relativen Häufigkeiten der Zustände der Variablen, entsprechend einer vorgebbaren Bedingung, vorgegeben werden und die zu den vorgegeben relativen Häufigkeiten der Zustände der Variablen gehörenden relativen Häufigkeiten der Zustände davon abhängiger Variablen ermittelt werden.
Eine statistische Anfrage an die Datenbank kann so in Form einer Bedingung für die relativen Häufigkeiten bestimmter Zu- stände der Variablen gestellt werden, wobei eine Antwort auf die statistische Anfrage in Form einer Ermittlung der zu den vorgegeben relativen Häufigkeiten der Zustände der Variablen gehörenden relativen Häufigkeiten der Zustände davon abhängiger anderer Variablen erfolgt.
Als statistisches Modell wird vorzugsweise ein graphisches Wahrscheinlichkeitsmodell (Graphical Probabilistic Model) eingesetzt (siehe z. B. : Castillo, Jose Manuel Gutierrez, Ali S. Hadi, Expert Systems and Probabilistic Network Models, Springer, New York) . Zu den graphischen Wahrscheinlichkeitsmodellen gehören insbesondere Bayesianische Netze (Bayesian Networks oder Belief Networks) und Markov Netze.
Ein statistisches Modell kann beispielsweise durch Strukturlernen in Bayesianischen Netzen erzeugt werden (siehe z. B.: Reimar Hofmann, Lernen der Struktur nichtlinearer Abhängig- keiten mit graphischen Modellen, Dissertation, Berlin, oder David Heckermann, A tutorial on learning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Research) .
Eine weitere Möglichkeit besteht darin, die Parameter für ei- ne feste Struktur zu lernen (siehe z. B.: Martin A. Tanner: Tools for Statistical Inference, Springer New York, 1996) .
Viele Lernverfahren benutzen die Likelihood-Funktion als ein Optimierungskriterium für die Parameter des Modells. Eine be- sondere Ausführung hierbei ist das Expectation-Maximation
(EM) -Lernverfahren, das weiter unten an Hand eines speziellen Modells detaillierter beschrieben ist. Grundsätzlich gilt, dass es vornehmlich nicht auf eine Generalisierungsfähigkeit der Modelle ankommt, sondern man will lediglich eine gute An- passung der Modelle an die Daten erreichen.
Als statistisches Modell wird vorzugsweise ein statistisches Clustering-Modell, insbesondere ein Bayesianisches Cluste- ring-Modell, durch welches die Daten in eine Mehrzahl von Clustern unterteilt werden, eingesetzt. Gleichermaßen kann in Kombination mit einem statistischen Modell ein auf einem Distanzmaß basierendes Clustering-Modell, durch welches die Daten ebenso in eine Mehrzahl von Clustern unterteilt werden, eingesetzt werden.
Durch den Einsatz von Clustering-Modellen zerfällt eine sehr große Datenbank in kleinere Teile, die ihrerseits als separate Datenbanken aufgefasst werden können und aufgrund der vergleichsweise geringeren Größe effizienter zu handhaben sind. Hierzu wird bei der statistischen Auswertung der Datenbank geprüft, ob sich eine vorgegebene Bedingung über das statistische Modell auf ein oder mehrere Cluster abbilden lässt. Trifft dies zu, so ist eine Beschränkung der ausgewerteten Daten auf ein oder mehrere Cluster angebracht. Glei- chermaßen ist es möglich, dass eine Beschränkung auf solche Cluster erfolgt, in denen die die vorgegebene Bedingung erfüllenden Daten mit wenigstens einer bestimmten relativen Häufigkeit enthalten sind. Die übrigen Cluster, in denen Daten entsprechend der vorgegebene Bedingung nur in einem ge- ringeren Anteil enthalten sind, können vernachlässigt werden, weil bei der betrachteten Vorgehensweise nur approximative Aussagen angestrebt werden.
Als statistisches Clustering-Modell wird beispielsweise ein Bayesianisches Clustering-Modell (ein Modell mit einer diskreten latenten Variablen) eingesetzt.
Dies wird im weiteren genauer beschrieben:
Gegeben sei ein Satz von statistischen Variablen {A, B, C, D, ... } , oder anders ausgedrückt, eine Menge von Feldern in der Tafel einer Datenbank. Die Zustände der Variablen werden durch die jeweiligen Kleinbuchstaben beschrieben. Die Variable A kann also die Zustände {ai, a2, ... } annehmen. Die Zu- stände seien als diskret angenommen; im allgemeinen sind aber auch kontinuierliche (reellwertige) Variablen zugelassen. Ein Eintrag in die Tafel der Datenbank besteht aus Werten für alle Variablen, wobei die zu einem Eintrag gehörenden Werte für alle Variablen zu einem Datensatz D zusammengefasst wer- den. Beispielsweise beschreibt x11 = (aπ,bπ, cπ,dπ, ... ) den π- ten Datensatz. Die Tafel habe M Einträge, d. h.
D = {χπ, π = 1, ...,M}.
Zusätzlich gibt es eine versteckte Variable (Cluster-Vari- able) , welche mit Ω bezeichnet wird. Die Cluster-Variable kann die Werte {ωi, i = 1,...,N} annehmen; es gibt also N Cluster.
Hierbei beschreibt nun P(Ω|Θ) eine a priori-Verteilung der Cluster , wobei durch P(ωι|Θ) das a priori-Gewicht des i-ten Clusters gegeben ist und Θ die Parameter des Modells darstellt. Die a priori-Verteilung beschreibt, welcher Anteil der Daten den jeweiligen Clustern zugeordnet ist.
Durch den Ausdruck P (A, B, C, D, ...|ωι, 1Θ) sei die Struktur des i-ten Clusters bzw. die -bedingte Verteilung der Variablen des Variablensatzes {A, B, C, D, ... } innerhalb des i-ten Clusters beschrieben.
Die a priori-Verteilung und die Verteilungen der bedingten
Wahrscheinlichkeiten eines jeden Clusters parametrisieren zusammen also ein gemeinsames Wahrscheinlichkeitsmodell auf {A, B, C, D, } U Ω bzw. auf {A, B, C, D, } . Das Wahrscheinlichkeitsmodell ist durch das Produkt aus der a priori- Verteilung und der bedingten Verteilung gegeben
P(A,B,C, ...,Ω|Θ) = P(Ω|Θ) P(A,B,C, ...|Ω,Θ),
bzw. durch
P(A,B,C, ...|Θ) = ∑i P(G)ilΘ) P(A,B,C, ...|ω±,Θ) . Die logarithmische Likelihood-Funktion L der Parameter Θ des Datensatzes D ist nun gegeben durch
L(Θ) = log P(2> |Θ) = ∑πlog P(xπιΘ).
Im Rahmen des Expectation-Maximation (EM) -Lernens wird nun eine Sequenz von Parametern Θ(t> entsprechend der folgenden allgemeinen Vorschrift konstruiert:
Θ(t+1) = arg maxΘπ± P (an |xπ(t) ) log P(xπ,ωi|Θ)
Mit dieser Iterationsvorschrift erfolgt ein schrittweises Maximieren der Likelihood-Funktion.
Für die bedingten Verteilungen P (A, B, C, D, ...Dωι,Θ) können (und müssen i.a.) einschränkende Annahmen gemacht werden. Ein Beispiel für eine solche einschränkende Annahme ist die folgende Faktorisierungsannahme:
Nimmt man für Verteilung der bedingten Wahrscheinlichkeiten P (A, B, C, D, ...Dωι,Θ) der Variablen des Variablensatzes {A, B, C, D, ... } beispielsweise die Faktorisierung P(A, B, C, D, ...Dcύi,Θ) = P(ADωiΘ)P(BDωiΘ)P(CDωiΘ)P(DDω1Θ)... an, entspricht das Wahrscheinlichkeitsmodell einem einfachen Bayesianischen Netz (Naive Bayesian Network) . Statt einer hochdimensionalen Tafel ist man nun nurmehr mit vielen eindimensionalen Tafeln (Tafeln für jeweils eine Variable) konfrontiert.
Die Parameter der Verteilung können, wie' oben dargelegt, mit einem Expectation-Maximation (EM) -Lernverfahren aus den Daten gelernt werden. Nach dem Lernen kann jedem Datensatz xπ = (aπ,bn,cπ,dπ, ... ) ein Cluster zugeordnet werden. Die Zuordnung erfolgt dabei über die a posteriori-Verteilung P(ΩDaπ,bπ, cπ,dπ, ..., Θ) , wobei der Datensatz xπ dem Cluster ω± mit dem höchsten Gewicht P(ωι Daπ,bπ, cπ, dπ, ... , Θ) zugeordnet wird. Die Clusterzugehörigkeit jedes Eintrags in der Datenbank kann als ein zusätzliches Feld in der Datenbank gespeichert werden und entsprechende Indizes können vorbereitet werden, um auf die Daten, die zu einem bestimmten Cluster gehören, schnell zugreifen zu können.
Wird beispielsweise eine statistische Anfrage der Form "Gib alle Datensätze mit A = ai und B = b3, sowie die dazugehörige Verteilung über C und D (also P(C|aι, b3) und P(D|aι, b3) ) " an die Datenbank gestellt, wird nun folgendermaßen vorgegangen:
Zunächst wird die a posteriori-Verteilung P(ΩDaχ, b3) ermittelt. Aus dieser Verteilung geht (approximativ) hervor, wel- eher Anteil der Daten entsprechend der gestellten Bedingung in welchen Clustern der Datenbank zu finden ist. So ist es möglich, sich bei allen weiteren Vorgängen, je nach der gewünschten Genauigkeit, auf die Teile der Datenbank zu beschränken, die entsprechend P(ΩDaι, b3) ein hohes a posteriori-Gewicht haben.
Ein idealer Fall ist gegeben, wenn P(ΩDaι, b3) = 1 für ein i und dementsprechend P(ΩDaι, b3) = 0 für alle j ≠ i gilt, d. h. alle der gestellten Bedingung entsprechenden Daten lie- gen in einem Cluster. In einem solchen Fall kann man sich ohne einen Verlust an Genauigkeit bei der weiteren Auswertung auf das i-te Cluster einschränken.
Um nun (approximative) Verteilungen für C und D zu erhalten kann man entweder weiterhin das Modell benutzen, d.h. die gewünschten Verteilugen P(C|aι, b3) und P(D|aι, b3) basierend auf den Parametern des Modells approximativ ermitteln:
P(C|aι, b3) = ∑± P(C| ωι,aι, b3, Θ) P(α>ι \ al f b3, Θ) ÜO u> > N> P* P>
Cπ o Cπ O cn o cn
P- 0) Φ PJ Cfl s: H d P) tr ι-3 d α d ιQ £ ö CΛ P O tr P- ≤ tr o Hi Φ O !2i rt Q, >
P ? P- o P- 3 d P Φ l-i d P- o φ φ φ J Φ P1 Φ d Φ Φ P> P- O 1 DJ Φ P- P" rr d 13 Φ H N iQ Cfl P> rt Φ s d l-i l-i rt i-i d P- cn P- d d -> J d Ω P1 Φ rt
<1 Φ φ O n ιQ a PJ d Φ rt P- N y o rt N tr Cfl rt tr P1 rt t cn vQ w cn tr d Φ . CΛ tr Φ Φ l-i fl P- Φ φ Φ ö d 1-3 P> rt φ Φ Φ 1 rt Φ rt rt Hi ι-i
Φ H φ r Φ d P Φ rt ö O H & d p d H T Φ cn H !xi Φ d ro Φ M PS d
H d IX Φ •^ ιq P- o 3 Hl rt φ iQ P> o tr ι-i α O Φ Φ φ ι-s cn ι-i P- l-i DJ
Φ P- (D ι-i o φ Ω &a Φ Hl W 5: s: d P. 3 P- Φ d P- » N ^^ d rt d P- f P- H H 3 d- Φ d J O Φ φ Φ Φ p a a H P. d cn O d & ιQ cn α P-
N r+ O d x P- φ Φ d • N d l-i l-i d ι-i o Φ Φ ιQ Φ ιQ Ό l-i ιP d d Φ Ω P- <i
^ P- Φ H Cfl PJ Φ P- d s: d rt U5 Hl d l-i 1 α H Φ φ rt φ rt CΛ d tr φ
P« Φ P- rt ? d s; N P- Φ α P- Hi • S P> Φ cn N P- tr Φ N PJ ι-i f
I-1 t-i 5 1 Φ rr d φ Φ Φ d Cfl P> d P> tr φ o rt Φ P- d O: H PK d 0 : 3 PJ
P1 d H l-i Φ d P d CΛ Ω P- d » rt rt P> Hi α. Φ <! rt Φ ιQ H tr Φ d o d φ d d Φ rϊ cn & P>: * φ Hi φ d Hl φ d O N P1 <1 P- CS1 H Λ* 3 d
P iQ p. X H Φ x Φ Φ rt φ d ω Cfl Φ H d rt H Φ ιQ d Φ φ d φ
P- P- O l-i ι-s Φ d P N d S Φ Φ • • P- t PJ P- ι-i f tr d d d 3 φ - N o d iQ tr H ) O: P- Cfl Ω o rt d < X PJ Hi Φ P- K iQ rt PJ
P- Φ P- tr Φ DJ P. d P- Q ιQ d rt . tr φ P- P> o Φ d P> P- φ DJ d
P H Φ rr p. tr P" Φ P- z. Ω φ P1 Φ o φ CΛ < d f H i-i Hi tr rt Hi Φ rt PJ d
Φ H Φ d tr d ιQ φ tr d P- P> Ω Cfl o rt P. ι-i Φ H tr d Φ P. α d < H P- ? d P) Ω CΛ Cfl 3 d tr d ιQ tr Φ Φ φ O d o Hi PJ ω P> d o Cfl Φ O Φ P t d tr rt Ω φ Cfl X. P- Φ Φ P- d P- d α PJ CΛ P. g CΛ
Φ r+ ιQ P Cfl P- PJ P- O: P- w P> tr tr P- φ d P • Φ Φ " rt φ P.
CΛ φ 4 d φ P d rt DJ d iQ Φ rt d H d P- d ** O H 3 PJ d P- Hl K o d ≥! ω Φ fl d d P- P- Φ Φ P. n rt O H o ( φ rt φ H o r tr P- d s P1 Cfl rt P* fl Φ Φ rt fl o l-i p- P- N P- α P- » φ σ P- φ cn PJ P.
P" P> Φ Φ PJ Φ Φ d P- rt P1 P1 Ω iQ rt 3 PJ d d H J φ cn P- Φ «3 φ
Φ d H P> ι-s Cfl tr ι-i H rt P) P- Φ d S O- φ φ cn cn P- rt a Φ d t rt CΛ Φ <J Φ PJ d cn H CΛ Φ Φ P- X d rt o P- d P- «3 n d n Φ Cfl < o d Ω ^ rt d P- 3 p- cn P- φ Φ φ φ W Φ P1 H "^ P1
Φ d d
P- Φ H d d rt O t-i rt d & tr Φ ιQ rt φ l-i P- Φ d H ΪJ H cn Φ cn d Φ l_l. uq n d tr P- d iQ J O P- Φ l_l. 4 Φ d α o iQ T.I Φ d φ cn P1 Φ d H fl DJ Cfl s Φ d 3 φ d Φ d Cfl d cn Φ PJ 1 a N rt rt Φ P. a H rt- H DJ P- § P. t fl J Q P. < d P- d φ O d < a d P- N Φ <j O
IQ φ Φ rr d o rt Φ rt rt Φ W O o Φ a o d d ιQ < u3 Φ cn d rt ι-i DJ Ω
P- ι-S Φ fl t Φ H • Φ P- Cfl PJ & Ω d H d α Φ Φ Φ H PJ P>: d d tr
O d iQ P l-i CΛ Ω d Hi tr Q P> d l-i tJ Hi d rt φ X rt
Φ tr d Φ Φ rt Ω t- H & <! Φ P1 o d PJ N J PJ Hl N 4 Φ O: Φ DJ
H rr d tr d H 3 d d !-r s; &) ) Φ o d φ 5 ι-i P J CΛ tr P1 tr ι-i d d d p. O N P- fl d φ P- vQ ιQ d H d P) l-i Ω d tr cn H tr P- DJ P- d Ω
> s: & H P- d s: ι£3 d Φ Φ Ω d φ TJ tr rt d rt φ Φ Ω H φ Φ O tr d P- Φ (3 Φ P- Φ φ a ιQ d" P- d 1 Φ d Φ d H t tr d d P1 cn d d Φ !3 ι-i X P- Φ PJ ξ Φ iQ <J P. d *— - * Λ' Φ • d d s: p. • d Φ ) rt φ P) U3 tr d d Cfl H Λ' o φ PJ 5 IQ cn O: d P- P- CΛ d
Φ Φ l d P" d Cfl w ** Φ Cfl d s: Φ 1 n n CΛ rt ä Φ IX! d rt H
H d o m £ ^» φ d rt Φ d Hi (Q P-
P" P- Φ ^ d Hi Ό 9 ) O 3 H ü • d Φ rt d ιQ £ Φ P- ) Φ l-i d rt Cfl P) cn PJ P- rt α P1 d tt) Φ l-i p. d vQ φ H P- o H rt ≤ d rt fl rt tr rt l-i rt P- Φ P- o • l-i PJ d x Φ H d o ) P. Φ Φ P) d « σ Φ l-i J cn cn H Ω Φ P1 tr N N iQ o tr Φ p. φ d φ CΛ H Φ d d Φ Φ H Φ rt P- O rt r d T P) d d er Φ Φ P Φ s: Cfl P< Φ α d Φ ιQ H P- d P- rt P-
P Φ Φ cn P) P" φ Φ P- P- •^ 3 P- iQ Φ P1 Φ • H rt N cn •< cn cn d tr rt d σ Φ tr n P- d Ω Φ CΛ ι-i tr d P> d α d d rt 4 >V Ω N Φ d H Φ
N Φ t d tr d i-h Cfl » σ d d φ 3 d P- tr r ö iQ H P- 3 d
P- d DJ P- d rt O φ P) rt Φ z. Cfl ιQ H ι-i cn * — P- Φ O: P> φ Φ P- d
Φ o Φ d φ n Φ g P- !-r 3 P- U3 w Ω α cn d rt • Φ P- H rt rt
Ω X d fl § d H N Φ H Φ PJ P- P- tr = rt S d Φ H d 1 N r tr 1 φ φ φ φ d ω α 1 d d d d Φ d O φ d P. 1 φ
P- d d Φ Cfl CΛ 1 1 d 1 d 1 φ d a 1 1 1 1 ι-i
wird. Jedoch werden im allgemeinen soviele Cluster als möglich zur Auswertung heran gezogen werden.
Ein Übertrainieren eines Clustering-Modells ist ohne Belang, weil im Gegenteil gerade eine möglichst exakte Wiedergabe von historischen Daten angestrebt ist und nicht eine Prognose für die Zukunft. Gleichwohl neigen stark übertrainierte Cluste- ring-Modelle dazu, eine möglichst eindeutige Zuordnung von Anfragen zu Clustern zu liefern, weshalb bei weiteren Opera- tionen sehr schnell eine Einschränkung auf kleine Teile der Datenbank möglich ist.
In vorteilhafter Weise werden bei einem eingesetzten Datenspeichermedium die zu einem Cluster gehörenden Daten in einer der Clusterzugehörigkeit entsprechenden Weise gespeichert. Beispielsweise können die zu einem Cluster gehörenden Daten in einem Abschnitt einer Festplatte gespeichert werden, so dass die zusammengehörenden Daten im Block schneller gelesen werden können.
Wie bereits dargestellt, können bei dem erfindungsgemäßen Verfahren auch herkömmliche Verfahren zur statistischen Auswertung der Daten von Datenbanken ergänzend eingesetzt werden, falls approximative Aussagen als nicht ausreichend er- achtet werden. Insbesondere können herkömmliche Datenbank-Re- porting bzw. OLAP-Verfahren zur Ermittlung der relativen Häufigkeiten der Zustände von Variablen eingesetzt werden.
Ein ergänzendes Heranziehen herkömmlicher Datenbanktechniken kann beispielsweise automatisch initiiert werden, falls eine definierbare Testvariable einen vorbestimmten Wert annimmt oder überschreitet.
Erfindungsgemäß wird ferner ein Verfahren zur automatischen, Software gesteuerten, statistischen Auswertung von einer
Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank, insbesondere den in einem oder mehreren Clustern enthaltenen Daten gezeigt, welches dadurch gekennzeichnet ist, dass die Daten durch ein auf einem Distanzmaß basierendes Clustering-Modell in eine Mehrzahl von Clustern unterteilt werden, und gegebenenfalls eine Einschränkung der betrachteten Daten auf die in einem oder mehreren der in den Clustern enthaltenen Daten erfolgt, und wobei Datenbank-Re- porting-Verfahren oder OLAP-Verfahren zur Ermittlung der relativen Häufigkeiten und Erwartungswerte der Zustände von Variablen eingesetzt werden.
Durch die in der Erfindung gezeigten Verfahren kann eine Unterteilung der Daten der Datenbank in Cluster, sowie gegebenenfalls eine Einschränkung auf ein oder mehrere Cluster erfolgen. Falls die erfindungsgemäßen Verfahren auf Daten ange- wendet werden, die bereits in einem oder mehreren Clustern enthalten sind, wird hierdurch eine Unterteilung der Cluster in Unter-Cluster erreicht. Falls eine Einschränkung auf einen oder mehrere der Unter-Cluster erfolgt, können die erfindungsgemäßen Verfahren auf die darin enthaltenen Daten ange- wendet werden, wobei gegebenenfalls genauer angepasste statistische Modelle eingesezt werden können. Diese Vorgehensweise kann im allgemeinen beliebig oft wiederholt werden, d. h. es kann eine beliebig häufige Unterteilung der Cluster in Unter-Cluster, bwz. der Unter-Cluster in Unter-Unter- Cluster usw., und gegebenenfalls jeweils eine Einschränkung auf die darin enthaltenen Daten, sowie eine (genauer anpe- passte) Anwendung der erfindungsgemäßen Verfahren auf die in den betrachteten Clustern enthaltenen Daten erfolgen.
Im weiteren wird ein Ausführungsbeispiel der Erfindung im Bereich Web-Reporting/Web-Mining beschrieben, wobei auf die beigefügten Zeichnungen Bezug genommen wird.
Fig. 1 zeigt verschiedene Monitorfenster, in denen Variablen zur Beschreibung der Besucher einer Website dargestellt sind. Fig. 2 zeigt verschiedene Monitorfenster der Variablen der Fig. 1, wobei das Verhalten der Besucher eines bestimmten Referrers untersucht wird.
Fig. 3 zeigt verschiedene Monitorfenster der Variablen der Fig. 1, wobei das Verhalten der Besucher, welche zuerst die Homepage aufrufen, dann die News lesen und anschließend wieder die Homepage aufrufen, untersucht wird.
Im Bereich Web-Reporting/Web-Mining ist im allgemeinen eine Auswertung großer Datenmengen erforderlich. Besucht ein User eine Website, so wird üblicherweise jede Aktion des Besuchers im Weblog-File festgehalten. Dies ist sehr datenintensiv, da solche Weblog-Files sehr schnell bis auf Größenordnungen im Bereich von einigen Gigabyte anwachsen können.
Zur Vorbereitung der Auswertung der Weblogfiles wurden zu- nächst "Sessions" bzw. Besuche der Besucher extrahiert, d. h. es wurden alle zu einem Besucher gehörenden aufeinanderfolgenden Einträge (Seitenabrufe bzw. Klicks) zusammengefasst .
Jede Session eines Besuchers wurde durch einen Satz von un- terschiedlichen Variablen gekennzeichnet, nämlich insbesondere "Startzeit", "Sessiondauer", "Anzahl der Anfragen", "Referrer", "1. besuchte Rubrik", "2. besuchte Rubrik", "3. besuchte Rubrik" und "4. besuchte Rubrik".
Ferner, wurden weitere (in den Figuren nicht dargestellte)
Variablen vorgegeben, wie "akzeptiert der Besucher Cookies", "Anzahl der Sessions, die der Besucher bis zur aktuellen Session bereits hatte", "Anzahl der Seitenabrufe in der letzten Session", "zeitlicher Abstand zur letzten Session", "auf wel- eher Seite hat die letzte Session geendet", "Zeit seit der ersten Session des Besuchers" und "Wochentag". Insgesamt wurde jede Session so anhand von 18 unterschiedlichen Variablen charakterisiert.
Zur Ermittlung der relativen Häufigkeiten der Zustände der Variablen wurde ein Naive Bayesian Clustering-Modell, wie oben beschrieben, benutzt.
Die vorgegebenen Variablen wurden dabei in das statistische Modell integriert. Im folgenden wurde das statistische Modell durch die in den Weblog-Files enthaltenen Daten trainiert um gute Parameter für das Modell zu finden. Aus dem Modell lassen sich dann die gewünschten relativen Häufigkeiten ablesen.
Das Ergebnis der Ermittlung der relativen Häufigkeiten der Zustände der Variablen ist in der Fig. 1 dargestellt. Fig. 1 zeigt verschiedene Monitorfenster, in denen die Variablen "Startzeit", "Sessiondauer", "Anzahl der Anfragen", "Referrer", "1. besuchte Rubrik", "2. besuchte Rubrik", "3. besuchte Rubrik" und "4. besuchte Rubrik" zur Beschreibung der Besucher einer Website dargestellt sind.
Aus der Fig. 1 ist insbesondere zu erkennen, dass
- ungefähr 55% der Besucher am Nachmittag oder Abend die Website besuchen, - ungefähr 47% der Besucher nur weniger als 1 Minute auf der Website verbleiben;
- ungefähr 34% der Besucher nur eine Anfrage starten,
- ungefähr 56% der Besucher keinen Referrer haben,
- ungefähr 45% der Besucher auf der Homepage starten, und - ungefähr 57% der Besucher nur 1 Rubrik, ungefähr 74% der
Besucher nur 2 Rubriken und ungefähr 85% der Besucher nur 3 Rubriken besuchen.
Nachdem das statistische Modell basierend auf einem EM-Lern- verfahren trainiert wurde, konnten auch die Abhängigkeiten zwischen den Variablen studiert werden. Wie in Fig. 2 ersichtlich ist, wurde beispielsweise das Verhalten derjenigen Besucher untersucht, welche von einem bestimmten Referrer (im vorliegenden Fall Endemann) kamen. Hierzu wurde der entsprechende Eintrag in der Variable "Referrer" auf 100% gesetzt. Mithilfe des statistischen Modells konnte innerhalb von Sekundenbruchteilen ermittelt werden, dass insbesondere ungefähr 99% dieser Besucher zuerst die Homepage besuchen und anschließend in der überwiegenden Mehrheit (ungefähr 96%) die Website sofort wieder verlassen.
In Fig. 3 ist eine kompliziertere Anfrage an die Datenbank dargestellt. Fig. 3 zeigt verschiedene Monitorfenster der betrachteten Variablen, wobei das Verhalten der Besucher, welche zuerst die Homepage aufrufen, dann die News lesen und an- schließend wieder die Homepage aufrufen, untersucht wurde. Hierzu wurden die entsprechenden Einträge in den Variablen "1. besuchte Rubrik", "2. besuchte Rubrik" und "3. besuchte Rubrik" jeweils auf 100% gesetzt.
Wiederum konnte mittels des statistischen Modells innerhalb von Sekundenbruchteilen insbesondere ermittelt werden, dass diese Besucher dann überwiegend entweder wieder die News lesen (ungefähr 37%) oder die Website verlassen (ungefähr 36%) . Ferner ist Fig. 3 zu entnehmen, dass etwa 89% dieser Besucher keinen Referrer haben.
In entsprechender Weise könnten eine Fülle weiterer Anfragen an die Datenbank innerhalb kürzester Zeit, d. h. im allgemeinen innerhalb von weniger als 1 Sekunde, beantwort werden. Beispielsweise könnte geprüft werden, welcher Anteil der Besucher, die über einen bestimmten Referrer kommen, mehr als drei Seitenabrufe macht, wie sich diese Leute über die Tageszeit verteilen und wer von diesen Besuchern ein wiederkehrender Besucher ist. Ebenso könnte geprüft werden, wie sich der Besucherverkehr derjenigen Besucher verteilt, die mit der Homepage beginnen, d. h. welcher Anteil der Besucher seine Session in welcher Weise fortsetzt oder anschließend abbricht. co co tv> N3 P1 P1
Cπ o cπ O cπ o cπ p. rt Hi r X P- CΛ X σ e DJ Φ tr H PJ Φ 3 P. rt P- M tsi P cn P. o < P- cn M
Φ P- P- DJ Φ φ Ω Φ DJ DJ er P- Φ O P- er l-i J DJ d P- d l-i d Φ d: PJ d φ d p- PJ P- d CΛ ιQ d H tr l-i rt d rt d P- H d rt iQ CΛ rt d CΛ CΛ Hi cn d cn ιp H E H cn Ω H d
Pi¬ d rt . — . H Φ d — Φ d IQ Φ PJ: CΛ P- ι Ω tr P- PJ cn Φ Ω TJ Hi tr tr P- φ p≤ • d a D : Φ d • H ιQ cn 1 d < tr Φ d 3 X Φ d tr 1 J Φ PJ er P- d d d p tr Φ Φ rt S N tr < Φ cn 3 φ P ! tr Cfl P- σ cn
Φ Φ ü iQ rf er DJ P- P) U ιQ Φ o d Φ φ tr o O d Φ ι-i P- Φ ι-i o P P" O d P. P- Φ d d d n PJ Φ H cn d l-i φ d d d d p. α d J H φ d Φ P"
Φ Φ l-i d P- er φ rt rr tr — Φ cn P. er PJ & α ι Hi Φ J H CΛ Hi d d Ω
Φ ι-i ω φ 1 iQ d Φ Φ P1 PJ O: d cn H, Φ P> d d Ω PJ Φ d tr
H tr φ ι-i o 0 d Φ d d N P1 iQ tr g rt rt l-i ι-( P- cn • d tr cn tr Φ H rt Φ
Cfl o DJ P- P- φ P- tr Φ Φ cn φ Φ 3 X DJ PJ φ 3 CΛ rt H Hi Φ Φ tr rt P1 <! P- d d φ rt d d PJ d H d H P1 o rt ι Φ Φ ιp J Φ Hi n Φ **1
Φ rt o d Cfl Hi l-i Φ Φ d PJ p- H P- Φ ü d d Φ rt d P- o cn P- :
P" l-i rt φ H T j φ P N d Ω rt cn d PJ rt d P- N p< Ω ->
P" s: ιp P- Φ P- d φ P" W p iQ P- d tr Φ rt rt rt cn PJ cn Φ P- pd tr Φ P- rt Φ Φ Φ l-i d d P- P- Φ Hi rt rt iQ Φ rt P- PJ Φ Φ P- Ό d rt H Φ ^ P- P- Φ
H tr d — <! Ω d P- H <! φ cn d d ι-i CΛ H Φ P- ιP d 1 Φ d tr P. Φ •^ P. φ φ tr cn d DJ s: Φ N H X Ω tr cn rt Φ cn P : rt < Φ <!
N Φ d P- H l-i Φ Ω cn ιQ Φ Φ H o φ Φ tr DJ Ω Ω > Ω d φ H O
X d cn CΛ φ P1 Hi tr Ω Φ l-i 3 Hi ιp Ω H Φ P d tr Hl tr d tr N tr H N
• • d s: rt o CΛ DJ P- cn H tr d d: φ tr α d Hi er P- φ Φ CΛ φ Φ DJ Hi d iP
Φ Φ X Φ d d rt DJ: l-i Φ P. ιp d d Φ PJ 1 Φ CΛ d CΛ d d DJ P-
Cfl w P- ι-i P- d Hi , PJ d PJ= cn d P- Φ P- d S d ?o rt PJ f 1 S P- P- tr P. Φ rt P- Cl φ φ N & d rt er d Φ φ d X er o ι "3 0 tr l-i Φ P- Hi
DJ Φ φ o t-3 uq d P- d er tr er • φ Φ er H •d N d P1 φ tr DJ Φ d Ω H rt H P- φ Φ φ iQ cn d Φ H PJ α H d O: Φ Φ o d CΛ DJ: d Φ P- tr d tr PJ
P- P. er d P- P- iP cn rt ιp d d PJ α d P- H rt d P" d Φ tr N «3 cn d DJ Cfl d \-> φ ιp P- cn d rt d Φ N d Ω rt tr Φ >P φ P1 N d φ φ Φ rt ι-( d rt φ Φ tr Φ cn PJ N Ω Φ H d d Φ Φ tr P- Φ P1 Φ l-i d d ι-i P- d
P- Ω d Φ d φ 3 Ω d d tr d Ω H P d Φ d H P1 H ιq ιP d er rt cn tr l-i φ d pj: tr Hi d tr tr tr er • i er Φ Φ p : Φ iP Q H O: P- 3
Ω P- d H P- φ Do Φ er φ Φ PJ O: > P- α O: d d X Φ P1 !=j iP P- tr er 3 d Φ d Φ ι-3 O: CΛ d d d o d DJ d 3 ^ N o N φ P 3 rt φ O: Φ Φ l-i Hl d φ d P" rt er P- d CΛ P- rt d & rt d o P- P- ιp d P> d d PJ d P- d Φ φ Φ s: Φ Φ Φ p. P" P- rt d iP Ω rt P- H
£ d P1 rt <! rt σ P" <! cn P1 Φ DJ tr P- - PJ s: ≤ Φ Φ tr Ω O P-
Φ H tr Φ PJ Φ £ φ d d rt d < ^ d Φ cn Hl d P
H Hl tr o Ω CΛ o Φ 3 d X P. tr &> φ
Hi d iP DJ rt cn l-i Φ Hi φ rt cn P- PJ s tr cn H t-i Φ o Φ Φ Φ l--
H Φ P" cn Φ Hi H CL. ,-^ P. er H d d Ω N d Φ rt P- d 2 tr 3 d d φ
DJ d P rt rt d φ PJ rt φ PJ P- P1 s: p d tr P- er d d tr N Φ Φ d iP o φ Φ PJ tr P- tr d Ό P- φ Φ Φ ιp 1 Φ Φ 1 Φ Φ d PJ l-i Φ σ ö
Φ Ω P- d rt PJ d l-f d •d φ P- d tr P- d d < σ P- P- Ό er H DJ PJ d d tr d Φ P- d φ φ i α H S d Φ J Φ rt Φ PJ rt CΛ •d φ O: Hi rt rt d φ d Cfl er a PJ O H O: Φ d P- o tP Φ p. H rt P- Φ O H d d P- Φ Φ rt tr Φ d rt φ α rt X Φ ιp l-i d d rt H d Hi φ Φ d P- 0 •^ d d d p Φ
CD Hi σ P- Φ ι-i α. P- φ P- P1 P1 Φ ιP cu H PJ d H P1 X m & tr 3 l-i
PJ Hi tr PJ cn d d d Φ d 3 Φ P- Φ α d 55 Ω tr tr P- φ P- Hi d d DJ Φ cn d P- Φ rt Ω rt φ H cn tr PJ <i Ω (-3 Φ P. PJ P- φ tr H PJ <! d d 3 PJ d d d Ω rt N P- φ tr tr d Ω φ PJ rt PJ t Φ P- PJ rt Ω P- Φ d o « PJ P1 tr ιp er i tr
X P- P- d Φ DJ rt tr H d p- d er P- d H Φ tr cn d er ι-i « rt P" Φ cn rt Φ P- o Φ φ φ iP er < rt Φ P1 Φ Hl d rt φ P- rt P" PJ -I P- cn l-i ι Φ Φ
H d tr φ rt Φ m Φ P- Φ cn σ φ Φ P- d φ <! er Φ Ω rt rt P- H d Φ W Hl Φ Φ O d rt d: PJ DJ P) ω Ω Φ Hi α (D & O: 3 tr P- P"
Φ Φ *P Hi cn d P- 0 P- H (X O tr d d Ό rt tr iP o d P- 3 D d PJ: P- rt ι-i o 1 Φ d tr P" Hi Φ ι-3 cn P1 Φ er cn Ό φ DJ d Φ ιq Ω φ &o P- 03 Ω tr P1 1 h φ o H Φ P- d l-i Φ "^ H l-f rt P- 0 φ tr • M Φ er rt tr
X CΛ pj: iP (-3 rt P" P- Ω cn d o s: P- er P. d d P- d Φ Φ φ rt d φ Φ P. ^q Φ P1 tr rt Φ X Φ cn Φ φ o cn Ω d p
H DJ 1 d P- φ rt X φ Φ X P- d 1 d d 1 3 1 tr •^ 1 1 l-i 1 1 1 1 1 f Φ
Gleichermaßen kann erfindungsgemäß ein auf einem Distanzmaß basierendes Clustering-Modell zur Unterteilung der Daten einer Datenbank in eine Mehrzahl von Clustern eingesetzt werden, wobei gegebenenfalls eine Einschränkung auf die relevan- ten Teile der Datenbank (Cluster) erfolgt. Zur Ermittlung der relativen Häufigkeiten und Erwartungswerte der Zustände von Variablen werden herkömmliche Datenbank-Reporting-Verfahren oder OLAP-Verfahren eingesetzt.
Die vorliegende Erfindung kann grundsätzlich überall dort eingesetzt werden, wo eine effiziente statistische Auswertung großer Datenmengen erforderlich ist.
Eine mögliche Anwendung liegt dabei im Bereich Web-Repor- ting/Web-Mining, wie bereits im Ausführungsbeispiel dargestellt worden ist.
Weitere mögliche Anwendungen sind beispielsweise dort zu finden, wo Kundendaten in großer Menge anfallen, wie z. B. - Daten aus Call Centern,
- Daten aus operationalen Custom-Relationship-Management- Systemen,
- Daten aus dem Gesundheitsbereich,
- Daten aus medizinischen Datenbanken, - Daten aus Umweltdatenbanken,
- Daten aus Genomdatenbanken,
- Daten aus dem Finanzbereich.

Claims

Patentansprüche
1. Verfahren zur automatischen, Software gesteuerten, statistischen Auswertung von einer Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank, insbesondere den in einem oder mehreren Clustern enthaltenen Daten, d a d u r c h g e k e n n z e i c h n e t, dass ein statistisches Modell zur approximativen Beschreibung der relativen Häufigkeiten von Zuständen der Variablen und der statistischen Abhängigkeiten zwischen den Zuständen der Variablen mittels der in der Datenbank gespeicherten Daten gelernt wird, und anhand des statistischen Modells die approximativen relativen Häufigkeiten von Zuständen der Variablen, sowie die zu vorgebbaren relativen Häufigkeiten der Zustände von Variablen gehörenden approximativen relativen Häufigkeiten und Erwartungswerte der Zustände davon abhängiger Variablen ermittelt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als statistisches Modell ein graphisches Wahrscheinlichkeitsmodell, insbesondere ein Bayesianisches Netz eingesetzt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als statistisches Modell ein statistisches Clustering-Modell, insbesondere ein Bayesianisches Clustering-Modell, durch welches die Daten in eine Mehrzahl von Clustern unterteilt werden, eingesetzt wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ferner ein auf einem Distanzmaß basierendes Clustering-Modell, durch welches die Daten in eine Mehrzahl von Clustern unterteilt werden, eingesetzt wird.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass eine Einschränkung der betrachteten Daten auf die in einem oder mehreren der Cluster enthaltenen Daten erfolgt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass eine Einschränkung auf solche Cluster erfolgt, in denen die zu bestimmten Zuständen von Variablen gehörenden Daten, mit wenigstens einer bestimmten relativen Häufigkeit enthalten sind.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass die zu einem Cluster gehörenden Daten auf einem Datenspeichermedium in einer der Clusterzuge- hörigkeit entsprechenden Weise gespeichert werden.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ferner Datenbank- Reporting-Verfahren oder OLAP-Verfahren zur Ermittlung der relativen Häufigkeiten und Erwartungswerte der Zustände von Variablen eingesetzt werden.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass Datenbank-Reporting-Verfahren oder OLAP- Verfahren eingesetzt werden, falls eine Testvariable einen vorbestimmten Wert annimmt oder überschreitet.
10. Verfahren zur automatischen, Software gesteuerten, statistischen Auswertung von einer Mehrzahl von statistischen Variablen zuzuordnenden Daten einer Datenbank, insbesondere den in einem oder mehreren Clustern enthaltenen Daten, dadurch gekennzeichnet, dass die Daten durch ein auf einem Distanzmaß basierendes Clustering-Modell in eine Mehrzahl von Clustern unterteilt werden, und gegebenenfalls eine Einschränkung der betrachte- ten Daten auf die in einem oder mehreren der in den Clustern enthaltenen Daten erfolgt, und Datenbank-Reporting-Verfahren oder OLAP-Verfahren zur Ermittlung der relativen Häufigkeiten und Erwartungswerte der Zustände von Variablen eingesetzt werden.
11. Verwendung der Verfahren nach einem der vorhergehenden Ansprüche zur statistischen Auswertung von Kundendaten, insbesondere im Bereich Web-Reporting/Web-Mining und in Custo- mer-Relationchip-Management-Systemen.
12. Verwendung der Verfahren nach einem der vorhergehenden Ansprüche zur statistischen Auswertung vom Umwelt-Datenbanken, medizinschen Datenbanken oder Genom-Datenbanken.
EP02729889A 2001-06-08 2002-05-15 Statistische modelle zur performanzsteigerung von datenbankoperationen Withdrawn EP1395924A2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10127914 2001-06-08
DE10127914 2001-06-08
PCT/DE2002/001745 WO2002101581A2 (de) 2001-06-08 2002-05-15 Statistische modelle zur performanzsteigerung von datenbankoperationen

Publications (1)

Publication Number Publication Date
EP1395924A2 true EP1395924A2 (de) 2004-03-10

Family

ID=7687675

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02729889A Withdrawn EP1395924A2 (de) 2001-06-08 2002-05-15 Statistische modelle zur performanzsteigerung von datenbankoperationen

Country Status (4)

Country Link
US (2) US7149649B2 (de)
EP (1) EP1395924A2 (de)
JP (1) JP2004532488A (de)
WO (1) WO2002101581A2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004532488A (ja) * 2001-06-08 2004-10-21 シーメンス アクチエンゲゼルシヤフト データバンク操作の性能を向上させるための統計モデル
DE10320419A1 (de) * 2003-05-07 2004-12-09 Siemens Ag Datenbank-Abfragesystem und Verfahren zum rechnergestützten Abfragen einer Datenbank
US7617186B2 (en) 2004-10-05 2009-11-10 Omniture, Inc. System, method and computer program for successive approximation of query results
WO2006066556A2 (de) * 2004-12-24 2006-06-29 Panoratio Database Images Gmbh Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken)
US8682982B2 (en) 2007-06-19 2014-03-25 The Invention Science Fund I, Llc Preliminary destination-dependent evaluation of message content
US8984133B2 (en) 2007-06-19 2015-03-17 The Invention Science Fund I, Llc Providing treatment-indicative feedback dependent on putative content treatment
US9374242B2 (en) 2007-11-08 2016-06-21 Invention Science Fund I, Llc Using evaluations of tentative message content
US8082225B2 (en) 2007-08-31 2011-12-20 The Invention Science Fund I, Llc Using destination-dependent criteria to guide data transmission decisions
US8065404B2 (en) 2007-08-31 2011-11-22 The Invention Science Fund I, Llc Layering destination-dependent content handling guidance
US7930389B2 (en) 2007-11-20 2011-04-19 The Invention Science Fund I, Llc Adaptive filtering of annotated messages or the like
US7849025B2 (en) * 2008-01-21 2010-12-07 Microsoft Corporation Modification of relational models
US8326787B2 (en) 2009-08-31 2012-12-04 International Business Machines Corporation Recovering the structure of sparse markov networks from high-dimensional data
US8438129B1 (en) * 2010-05-19 2013-05-07 Hrl Laboratories, Llc Probabilistic implementation of system health prognosis
US8782023B1 (en) * 2012-01-26 2014-07-15 Google Inc. Versioned database cache
US9646257B2 (en) * 2014-09-03 2017-05-09 Microsoft Technology Licensing, Llc Probabilistic assertions and verifying them
US10235686B2 (en) 2014-10-30 2019-03-19 Microsoft Technology Licensing, Llc System forecasting and improvement using mean field

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000065479A1 (en) * 1999-04-22 2000-11-02 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4620286A (en) * 1984-01-16 1986-10-28 Itt Corporation Probabilistic learning element
US5325445A (en) 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
DE19549300C1 (de) 1995-11-24 1997-02-20 Siemens Ag Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
US5870559A (en) * 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
DE19706767A1 (de) 1997-02-20 1998-09-03 Siemens Ag Verfahren und Einrichtung zur Simulation einer Anlage der Grundstoffindustrie
US6205447B1 (en) * 1997-06-30 2001-03-20 International Business Machines Corporation Relational database management of multi-dimensional data
US6263337B1 (en) * 1998-03-17 2001-07-17 Microsoft Corporation Scalable system for expectation maximization clustering of large databases
DE19814385C1 (de) 1998-03-31 1999-10-07 Siemens Ag Verfahren und Vorrichtung zur Prozeßführung und zur Prozeßoptimierung der Chemikalienrückgewinnung bei der Herstellung von Zellstoff
US6216134B1 (en) * 1998-06-25 2001-04-10 Microsoft Corporation Method and system for visualization of clusters and classifications
US20020039990A1 (en) * 1998-07-20 2002-04-04 Stanton Vincent P. Gene sequence variances in genes related to folate metabolism having utility in determining the treatment of disease
US6263334B1 (en) 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6564197B2 (en) * 1999-05-03 2003-05-13 E.Piphany, Inc. Method and apparatus for scalable probabilistic clustering using decision trees
JP2001022766A (ja) 1999-07-06 2001-01-26 Degital Works Kk 多次元データベースの高速処理方法および装置
AU6343000A (en) 1999-07-08 2001-01-30 Posinfo.Com, Llc System and method for collecting, transferring, and analyzing information from point-of-sale devices
DE10037639A1 (de) 1999-07-29 2001-02-15 Rudolf Bayer Verfahren zum Organisieren von Datenbeständen auf einem Speichermedium durch hierarchisches Clustering u. Computerprogramm
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
JP2003525497A (ja) * 2000-02-28 2003-08-26 シーメンス アクチエンゲゼルシヤフト システムのモデリング方法及びシステムのモデリング装置
US20030013951A1 (en) * 2000-09-21 2003-01-16 Dan Stefanescu Database organization and searching
JP2004532488A (ja) * 2001-06-08 2004-10-21 シーメンス アクチエンゲゼルシヤフト データバンク操作の性能を向上させるための統計モデル
CA2471725A1 (en) * 2002-01-04 2003-07-17 Canswers Llc Systems and methods for predicting disease behavior
DE10233609A1 (de) 2002-07-24 2004-02-19 Siemens Ag Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000065479A1 (en) * 1999-04-22 2000-11-02 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions

Also Published As

Publication number Publication date
JP2004532488A (ja) 2004-10-21
WO2002101581A2 (de) 2002-12-19
US7149649B2 (en) 2006-12-12
US20040186684A1 (en) 2004-09-23
WO2002101581A3 (de) 2003-09-12
US20070083343A1 (en) 2007-04-12

Similar Documents

Publication Publication Date Title
EP1395924A2 (de) Statistische modelle zur performanzsteigerung von datenbankoperationen
DE69934102T2 (de) System und verfahren zur model-mining von komplexen informationtechnologiesystemen
DE68928195T2 (de) Überwachung von Datenbankobjekten
DE202017007212U1 (de) System zur inkrementellen Clusterwartung einer Tabelle
DE112016005350T5 (de) Speichern und abrufen von daten eines datenwürfels
DE60004507T2 (de) Schnelle gruppierung durch spärlich bestückte datensätze
DE112011104005T5 (de) Verfahren und Datenverarbeitungssystem zum Kodieren von in einer spaltenorientierten Weise gespeicherten Daten, Datenverarbeitungsprogramm und Computerprogrammprodukt
DE10356399A1 (de) Datenverarbeitungssystem
DE69517887T2 (de) Verfahren und System zum Herstellen von Verbindungen in einem Datenbanksystem
DE102018000039A1 (de) Bündeln von Onlinecontentfragmenten zur Präsentation auf Grundlage von contentspezifischen Metriken und Intercontentrandbedingungen
WO2004100017A1 (de) Datenbank-abfragesystem unter verwendung eines statistischen modells der datenbank zur approximativen abfragebeantwortung
DE102011012444A1 (de) Verfahren zum Synchronisieren von Datenbeständen
WO2004044772A2 (de) Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank
EP1264253B1 (de) Verfahren und anordnung zur modellierung eines systems
WO2012017056A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE19963123B4 (de) Analytisches Informationssystem
DE102014116117A1 (de) Verfahren und System zum Mining von Mustern in einem Datensatz
DE112020002860T5 (de) Techniken zum ermitteln von segmenten von informationsbereichen durch aktive anpassung an umfeldkontexte
DE102005019335A1 (de) Verfahren und Vorrichtung zum Auswerten von Ereignissen aus dem Betrieb zumindest eines Fahrzeuges
DE10233609A1 (de) Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
DE102012025351A1 (de) Verarbeitung eines elektronischen Dokuments
WO2004025501A2 (de) Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse von gemäss einer datenbankstruktur strukturierten nutzdaten
DE102018129138A1 (de) Verfahren und System zur Bestimmung eines Paars von Tabellenspalten zur Verknüpfung
EP4329266A1 (de) Verfahren und systemanordnung zur geolokation von datensätzen
DE102023126862A1 (de) Systeme und verfahren zum identifizieren und warnen vor stellflächen-überzyklus-risiken bei allgemeinen mehrprodukt-montagelinien

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20031202

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

17Q First examination report despatched

Effective date: 20040930

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: PANORATIO DATABASE IMAGES GMBH

17Q First examination report despatched

Effective date: 20040930

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20081022