EP1627324A1 - Method for determining a probability distribution present in predefined data - Google Patents

Method for determining a probability distribution present in predefined data

Info

Publication number
EP1627324A1
EP1627324A1 EP03787314A EP03787314A EP1627324A1 EP 1627324 A1 EP1627324 A1 EP 1627324A1 EP 03787314 A EP03787314 A EP 03787314A EP 03787314 A EP03787314 A EP 03787314A EP 1627324 A1 EP1627324 A1 EP 1627324A1
Authority
EP
European Patent Office
Prior art keywords
zero
clusters
cluster
data
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP03787314A
Other languages
German (de)
French (fr)
Inventor
Michael Haft
Reimar Hoffmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panoratio Database Images GmbH
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1627324A1 publication Critical patent/EP1627324A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the invention relates to a method for generating a statistical model using a learning method.
  • statistical methods are used to solve this problem, in particular statistical learning methods, which, for example, have the ability to divide entered variables into classes after a training phase.
  • the newly created field of data mining or machine learning has made it its goal in particular to further develop such learning methods (such as clustering methods) and to apply them to problems relevant to practice.
  • Bayesian networks are through
  • Parameterized probability tables When these tables are optimized, the weakness arises after just a few learning steps that many zero entries are classified in the tables. This creates sparse tables. The fact that the boards change constantly during the learning process, such as. B. during the learning process for statistical cluster models, thin coding of tables is very difficult to use. The repeated occurrence of zero entries in the probability tables leads to an increased and unnecessary calculation and storage effort.
  • V is the number of states of variable 1.
  • the variable l in the state x1 ⁇ the variable X2 i n the state x 2 ⁇ , etc.
  • There is a hidden variable or a cluster variable, which is referred to here as ⁇ ; their states are W 1 * ⁇ - ' • ' - " ⁇ So there are N clusters.
  • a naive Bayesian network assumes that / ? (A) can be factored.
  • the parameters of the model i.e. the a priori distribution p ( ⁇ ) and the conditional probability tables, are aimed at to be determined in such a way that the common model reflects the entered data as well as possible.
  • a corresponding EM learning process consists of a series of iteration steps, with an improvement of the model (in the sense of a so-called likelihood) being achieved in each iteration step. In each iteration step, new parameters p ⁇ eu punct are estimated based on the current or "old" parameters? "''mitted.
  • Each EM step begins with the E step, in which "Sufficient Statistics" are determined in the ready-made tables. It starts with probability tables, the entries of which are initialized with zero values. The fields of the tables are E-step is filled with the so-called Sufficient Statistics S ( ⁇ ) and S ( ⁇ ) by supplementing the missing information (the assignment of each data point to the clusters) with expected values for each data point known from [1].
  • Step is also referred to as an "inference step".
  • the a posteriori distribution for ⁇ is according to the regulation
  • the invention is therefore based on the object of specifying a method in which zero entries in probability tables are used in such a way that no further unnecessary numerical or computational effort is caused as a by-product.
  • the invention essentially consists in that when inferring in a statistical model or in a clustering model, the formation of the result, which is formed from the terms of membership function or conditional probability tables, is carried out as usual, but As soon as the first zero occurs in the associated factors or a weight zero is determined for the cluster after the first steps, the further calculation of the a posteriori weight can be stopped. If, in an iterative learning process (e.g. an EM learning process) a cluster is assigned the weight zero for a certain data point, this cluster will also receive the weight zero in all further steps for this data point, and must therefore also be carried out in all further learning steps are no longer considered. This ensures a sensible elimination of the processing of irrelevant parameters and data. This has the advantage that the learning process can be carried out quickly by considering only the relevant data.
  • an iterative learning process e.g. an EM learning process
  • the inventive method proceeds as follows: the formation of an overall product in an above inference step, which consists of factors of a posteriori distributions of membership probabilities for all entered data points, is carried out as usual, but as soon as a first predeterminable value, preferably zero or a value close to zero, in which the associated factors occur, the formation of the overall product is terminated. It can also be shown that if, in an EM learning process, a cluster for a certain data point is assigned the weight according to a number of the choice described above, preferably zero, this cluster also has zero weight in all further EM steps for this data point will be assigned. This ensures a sensible elimination of superfluous numerical effort, for example by temporarily storing the corresponding results from one EM step to the next and processing them only for the clusters that are not weighted zero.
  • the advantages are that the learning process is significantly accelerated overall, not only within one EM step but also for all further steps, especially when the product is formed in the inference step, due to the termination of processing when clusters with zero weights occur.
  • membership probabilities for certain classes are only up to one predeterminable value or a value zero or almost 0 calculated in an iterative process, and the classes with membership probabilities below a selectable value are no longer used in the iterative process.
  • predetermined data form clusters.
  • a suitable iterative method would be the expectation maximization method, in which a product of membership factors is also calculated.
  • a sequence of the factors to be calculated is selected in such a way that the factor that belongs to a rarely occurring state of a variable is processed first.
  • the rarely occurring values can be stored in an ordered list before the formation of the product begins, so that the variables are ordered according to the frequency of occurrence of a zero in the list.
  • the clusters that have been wiped apart from zero can be stored in a list, the data stored in the list being pointers to the corresponding clusters.
  • the method can also be an expectation maximization learning process, in which, in the event that a cluster is given an a posteriori weight of zero for a data point, this cluster receives zero weight in all further steps of the EM method for this data point such that this cluster in no further steps need to be taken into account.
  • the method can only run over clusters that have a non-zero weight.
  • Fig. 2 is a scheme for reloading Variein depending on
  • FIG. 1 shows a diagram in which the formation of an overall product 3 is carried out for each cluster ⁇ in an inference step. But as soon as the first zero 2b in the associated factors 1, which are read out, for example, from a memory, array or a pointer list can occur, the formation of the total product 3 is terminated (exit). In the case of a zero value, the a posteriori weight belonging to the cluster is then set to zero. Alternatively, you can first check whether at least one of the factors in the product is zero. All multiplications for the formation of the overall product are only carried out if all factors are different from zero.
  • the inference step does not necessarily have to be part of an EM learning process, this optimization is also of particular importance in other detection and forecasting processes in which an inference step is required, e.g. when recognizing an optimal offer on the Internet for a customer whose information is available.
  • targeted marketing strategies can be generated, whereby the recognition or classification skills lead to automatic reactions that, for example, send information to a customer.
  • FIG. 2 shows a preferred development of the method according to the invention, in which a clever sequence is selected in such a way that if a factor in the product is zero, represented by 2a, this factor has a high degree of accuracy. likely to appear very soon as one of the first factors in the product. The formation of the total product 3 can thus be terminated very soon.
  • the new sequence la can be determined in accordance with the frequency with which the states of the variables appear in the data. For example, a factor that belongs to a very rarely occurring state of a variable is processed first. The order in which the factors are processed can thus be determined once before the start of the learning process by storing the values of the variables in a correspondingly ordered list la.
  • a logarithmic representation of the tables is preferably used, for example to avoid underflow problems.
  • This function can be used to replace zero elements with a positive value, for example. This means that complex processing or separations of values that are almost zero and differ from one another by a very small distance are no longer necessary.
  • an EM learning process from one step of the learning process to the next step stores which clusters are still allowed due to the occurrence of zeros in the tables and which are no longer allowed.
  • clusters which are given an a posteriori weight of zero by multiplication by zero are excluded from all further calculations in order to thereby save numerical effort
  • intermediate results regarding clusters are also taken from one EM step to the next -Association of individual data points (which clusters are already excluded or still permitted) are stored in additionally necessary data structures. This makes sense because it can be shown that a cluster that has received zero weight for a data point in one EM step will also receive zero weight in all subsequent steps.
  • FIG. 3 specifically shows the case in which in the event that a data point 4 is assigned to a cluster with an almost zero probability 2a, the cluster can in the next step of the learning method 5a + 1, where the probability of this assignment of the data point again is calculated, be immediately reset to zero.
  • a cluster that has received a weight zero over 2a for a data point 4 in an EM step 5a does not only have to be considered further within the current EM step, 5a, but is also used in all further EM steps 5a + n, where n represents the number of EM steps used (not shown), this cluster over 2a is also no longer used taken into account.
  • the calculation of a data point belonging to a new cluster can then be continued again via 4.
  • An almost non-zero membership of a data point 4 to a cluster leads to a continued calculation via 2b for the next EM step 5a + 1.
  • a list or a similar data structure can first be saved that contains references to the relevant clusters, which have been given a non-zero weight for this data point. This ensures that in all operations or procedural steps in the formation of the overall product and the accumulation of sufficient statistics, the loops then only run over the still permissible or relevant clusters.
  • a combination of the exemplary embodiments already mentioned is used here.
  • a combination of the two exemplary embodiments enables termination at zero weights in the inference step, only the permissible clusters according to the second exemplary embodiment being taken into account in further EM steps.
  • the inventive method according to one or all exemplary embodiments can in principle be carried out with a suitable computer and memory arrangement.
  • the computer memory arrangement should be equipped with a computer program that executes the method steps.
  • the • computer program can also be stored on a data medium such as e.g. be stored on a CD-ROM and thus transferred to other computer systems and executed.
  • a further development of the computer and memory arrangement mentioned consists in the additional arrangement of an input and output unit.
  • the input units can use sensors, detectors, input keypads or servers to provide information about the status of an observed system, such as the amount of access to a website, in the computer arrangement, for example, to the memory.
  • the output unit would consist of hardware that stores the signals of the results of the processing according to the inventive method or displays them on a screen.
  • An automatic, electronic reaction for example the sending of a specific email in accordance with the evaluation according to the inventive method, is also conceivable.
  • a cluster found through the learning process can, for example, reflect typical behavior of many Internet users.
  • the learning process enables, for example, the recognition that all visitors from a class, or those who have been assigned to the cluster found by the learning process, do not stay in a session for more than one minute and usually only retrieve one page. It is also possible to determine statistical information about the visitors to a website that come to the analyzed website via a free text search engine (freetext search). For example, many of these users request only one document. For example, you could mostly query freeware and hardware documents.
  • the learning process can determine the assignment of visitors coming from a search engine to different clusters. Some clusters are almost completely ruled out, while another cluster can be relatively heavy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Development Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Beschreibungdescription
Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen WahrscheinlichkeitsverteilungMethod for determining a probability distribution in given data
Die Erfindung betrifft ein Verfahren zur Erzeugung eines statistischen Modells anhand eines Lernverfahrens.The invention relates to a method for generating a statistical model using a learning method.
Der zunehmende Verkehr im Internet ermöglicht Firmen, die im Internet repräsentiert sind bzw. Dienste im Internet anbieten, sowohl einen erhöhten Kundschaftskreis auszunutzen als auch kundenspezifische Informationen anzusammeln. Dabei werden viele der elektronisch ablaufenden Vorgänge protokolliert und Benutzerdaten abgespeichert. So betreiben viele Firmen inzwischen ein CRM-System, in dem sie systematisch Informationen über alle Kundenkontakte aufnehmen. Der Verkehr auf bzw. Zugang zu Webseiten wird geloggt und die Vorgänge in einem Callcenter protokolliert. Dadurch entstehen oft sehr große Datenmengen die kundenspezifische Informationen verschiedens- ter Art beinhalten.The increasing traffic on the Internet enables companies that are represented on the Internet or offer services on the Internet to both exploit an increased circle of customers and to collect customer-specific information. Many of the electronic processes are logged and user data is saved. Many companies now operate a CRM system in which they systematically record information about all customer contacts. Traffic to and access to websites is logged and the processes are logged in a call center. This often results in very large amounts of data containing a wide variety of customer-specific information.
Dieses führt zum Nachteil, dass zwar wertvolle Informationen über Kunden angesammelt, aber aufgrund der oft überwältigenden Menge nur noch mit großen Aufwand bearbeitet werden kön- nen.This leads to the disadvantage that valuable information about customers can be accumulated, but due to the often overwhelming amount it can only be edited with great effort.
Zur Lösung dieses Problems werden grundsätzlich statistische Methoden angewendet, insbesondere statistische Lernverfahren, die beispielsweise nach einer Trainingsphase die Fähigkeit besitzen, eingegebene Variablen in Klassen zu unterteilen.In principle, statistical methods are used to solve this problem, in particular statistical learning methods, which, for example, have the ability to divide entered variables into classes after a training phase.
Das neu entstandene Feld Datamining bzw. Machine Learning hat es sich insbesondere zum Ziel gemacht, solche Lernverfahren (wie z.B. Clustering-Verfahren) weiterzuentwickeln und auf Praxis-relevante Probleme anzuwenden.The newly created field of data mining or machine learning has made it its goal in particular to further develop such learning methods (such as clustering methods) and to apply them to problems relevant to practice.
Dabei lassen sich viele Datamining-Methoden gezielt auf die Handhabung von Informationen aus dem Internet ausrichten. Bei diesen Verfahren werden große Datenmengen in wertvolle Informationen, die im Allgemeinen die Datenmenge erheblich reduzieren, umgesetzt. In einem solchen Verfahren kommen auch viele statistische Lernverfahren zum Einsatz, zum Beispiel um statistische TΛbhängigkeitsstrukturen oder wiederkehrende Muster aus den Daten ablesen zu können.Many data mining methods can be specifically targeted at the handling of information from the Internet. With these methods, large amounts of data are converted into valuable information, which generally significantly reduces the amount of data. Many statistical learning methods are also used in such a procedure, for example in order to be able to read statistical dependency structures or recurring patterns from the data.
Diese Verfahren weisen allerdings den Nachteil auf, dass sie numerisch sehr aufwendig sind, obwohl sie wertvolle Ergebnis- se liefern. Die Nachteile werden weiterhin dadurch strapaziert, dass fehlende Informationen, wie zum Beispiel Alter eines Kunden oder etwa sein Einkommen, die Bearbeitung der Daten verkomplizieren und zum Teil auch die gelieferten Informationen wertlos machen. Der statistisch optimale Umgang mit solchen fehlenden Informationen ist bis heute sehr aufwendig.However, these methods have the disadvantage that they are very complex numerically, although they provide valuable results. The disadvantages are further exacerbated by the fact that missing information, such as the age of a customer or his or her income, complicates the processing of the data and in some cases also makes the information supplied worthless. The statistically optimal handling of such missing information is still very complex.
Eine weitere Methode zur sinnvollen Aufteilung von Informationen ist die Erzeugung eines Cluster-Modells, z.B. mit einem Naive Bayesian Network. Bayesianische Netze werden durchAnother method for the sensible division of information is the generation of a cluster model, e.g. with a Naive Bayesian Network. Bayesian networks are through
Wahrscheinlichkeitstafeln parametrisiert . Bei der Optimierung dieser Tafeln entsteht in der Regel schon nach wenigen Lernschritten die Schwäche, dass in den Tafeln viele Nulleinträge eingeordnet werden. Somit entstehen dünn besetzte Tafeln (Sparse Tables) . Dadurch, dass sich die Tafeln während des Lernvorgangs ständig ändern, wie z. B. beim Lernvorgang für statistische Cluster-Modelle, lassen sich dünne Codierungen von Tafeln nur sehr schlecht ausnutzen. Dabei führt das wiederholte Auftreten von Nulleinträgen in den Wahrscheinlich- keitstafeln zu einem erhöhten und unnötigen Berechnungs- und Speicheraufwand.Parameterized probability tables. When these tables are optimized, the weakness arises after just a few learning steps that many zero entries are classified in the tables. This creates sparse tables. The fact that the boards change constantly during the learning process, such as. B. during the learning process for statistical cluster models, thin coding of tables is very difficult to use. The repeated occurrence of zero entries in the probability tables leads to an increased and unnecessary calculation and storage effort.
Aus diesen Gründen besteht die Notwendigkeit, die genannten statistischen Lernverfahren schneller und leistungsfähiger zu konzipieren. Dabei sind sogenannte EM (Expectation Maximisa- tion) -Lernverfahren von zunehmender Bedeutung. Zur Konkretisierung eines EM Lernverfahrens im Falle eines Naiven Bayesian Cluster Modells werden im Allgemeinen die Verfahrensschritte wie folgt ausgeführt.For these reasons, there is a need to design the statistical learning methods mentioned faster and more efficiently. So-called EM (Expectation Maximization) learning methods are of increasing importance. In order to substantiate an EM learning process in the case of a naive Bayesian cluster model, the process steps are generally carried out as follows.
Hier bezeichnet X = {Xk, k = 1, ... , K} einen Satz vonHere X = {X k , k = 1, ..., K} denotes a set of
-^statistischen Variablen (die z.B. den Feldern einer Datenbank entsprechen können) . Die Zustände der Variablen werden mit kleinen Buchstaben bezeichnet. Die Variable • kann die- ^ statistical variables (which can e.g. correspond to the fields of a database). The states of the variables are identified with small letters. The variable • can
Zustände x L1 'x i-2 ..*." annehmen, d. h . X1 e {xlt i, i = 1, . . . , L . I, 'States x L1 'x i - 2 .. * . " , i.e. X 1 e {x lt i , i = 1, ... , L. I, '
V ist die Anzahl der Zustände der Variable 1. Ein Eintrag in einem Datensatz (einer Datenbank) besteht nun aus Werten für χ = (χ π χ π x π ) alle Variablen, wobei v ι > i - 3 »• den π -ten Datensatz bezeichnet. In dem ^ -ten Datensatz ist die Variable l in dem Zustand x1π , die Variable X2 in dem Zustand x , usw. Die Tafel hat M Einträge, d.h., *X '^ = A>—»-Mj Zusät2_ lieh gibt es eine versteckte Variable oder eine Cluster- Variable, die hier mit Ω bezeichnet wird; deren Zustände sind W 1 = *-''- " } Es gibt also N cluster.V is the number of states of variable 1. An entry in a data record (a database) now consists of values for χ = ( χ π χ π x π ) all variables, where v ι > i - 3 »• d en π - called data record. In the ^ th record the variable l in the state x1 π, the variable X2 i n the state x 2π, etc. The panel has M entries, ie * X '^ = A> - »M j Zusät2 _ There is a hidden variable or a cluster variable, which is referred to here as Ω; their states are W 1 = * - ' ' - "} So there are N clusters.
In einem statistischen Clustering-Modell beschreibt nun v J eine a priori Verteilung; l J ist das a priori Gewicht des '" -ten Clusters und ^ ' ' ' beschreibt die Struktur des ' -ten Clusters oder die bedingte Verteilung der beobachtbaren (in der Datenbank enthaltenen) Größen Λ= {«.Λ ΛI.,>Λ =1,...A .( ιn d,em /; -ten C„l,uster. ~Di.e a priori Verteilung und die bedingten Verteilungen für jedes Cluster pa- rametrisieren zusammen ein gemeinsames Wahrscheinlichkeitsmodell auf X Ω bzw. auf X.In a statistical clustering model, v J now describes an a priori distribution; l J is the a priori weight of the '" th cluster and ^''' describes the structure of the 'th cluster or the conditional distribution of the observable quantities (contained in the database) Λ = { «. Λ Λ I., > . Λ = 1, ... a (ιn d, em / -th C "l, model ~ Di.ea priori distribution and the conditional distributions for each cluster pa- rametrisieren along a common probability model on X or on Ω. X.
In einem Naiven Bayesian Network wird vorausgesetzt, dass /?(A ) faktorisiert werden kann. Im Allgemeinen wird darauf gezielt, die Parameter des Modells, also die a priori Verteilung p(Ω) und die bedingten Wahrscheinlichkeitstafeln derart zu bestimmen, dass das gemeinsame Modell die eingetragenen Daten möglicht gut wiederspiegelt. Ein entsprechendes EM-Lernverfahren besteht aus einer Reihe von Iterationsschritten, wobei in jedem Iterationsschritt eine Verbesserung des Modells (im Sinne einer sogenannten Likelihood) erzielt wird. In jedem Iterations- schritt werden neue Parameter pπeu(...) basierend auf den aktuellen oder „alten" Parametern ?"''(...) geschätzt .A naive Bayesian network assumes that / ? (A) can be factored. In general, the parameters of the model, i.e. the a priori distribution p (Ω) and the conditional probability tables, are aimed at to be determined in such a way that the common model reflects the entered data as well as possible. A corresponding EM learning process consists of a series of iteration steps, with an improvement of the model (in the sense of a so-called likelihood) being achieved in each iteration step. In each iteration step, new parameters p πeu (...) are estimated based on the current or "old" parameters? "'' (...).
Jeder EM-Schritt beginnt zunächst mit dem E-Schritt, in dem „Sufficient Statistics" in dafür bereitgehaltenen Tafeln er- mittelt werden. Es wird mit Wahrscheinlichkeitstafeln begonnen, deren Einträge mit Null-Werten initialisiert werden. Die Felder der Tafeln werden im Verlauf des E-Schrittes mit den sogenannten Sufficient Statistics S(Ω) und S(ÄΩ) gefüllt, indem für jeden Datenpunkt die fehlenden Informationen (die Zuordnung jedes Datenpunktes zu den Clustern) durch Erwartungswerte ergänzt werden. Der Umgang mit und die Bildung von Sufficient Statistics ist aus [1] bekannt.Each EM step begins with the E step, in which "Sufficient Statistics" are determined in the ready-made tables. It starts with probability tables, the entries of which are initialized with zero values. The fields of the tables are E-step is filled with the so-called Sufficient Statistics S (Ω) and S (ÄΩ) by supplementing the missing information (the assignment of each data point to the clusters) with expected values for each data point known from [1].
Um Erwartungswerte für die Cluster-Variable Ω zu berechnen ist die a posteriori Verteilung ^''(w,**) zu ermitteln. DieserTo expected values for the cluster variable Ω to calculate the a posteriori distribution ^ '' (w *) to be determined. This
Schritt wird auch als „Inferenzschritt" bezeichnet. Im Falle eines Naive Bayesian Network ist die a posteriori Verteilung für Ω nach der VorschriftStep is also referred to as an "inference step". In the case of a Naive Bayesian Network, the a posteriori distribution for Ω is according to the regulation
für jeden Datenpunkt x" aus den eingetragenen Informationen zu berechnen, wobei y eine Normierungskonstante ist. Dasfor each data point x "from the information entered, where y is a normalization constant
Wesentliche dieser Berechnung besteht aus der Bildung des Produkts über alle k = \,...,K . Dieses Produkt muss in jedem E-Schritt für alle Cluster = 1,...,N und für alle Datenpunkte x",π = l,...,M gebildet werden. Ähnlich aufwendig, oft noch aufwendiger, ist der Inferenzschritt für die Annahme anderer Abhängigkeitsstrukturen als einem Naive Bayesian Net- work, und beinhaltet damit die wesentlichen numerischen Aufwände des EM-Lernens.The essence of this calculation consists of the formation of the product over all k = \, ..., K. This product must be in every E-step for all clusters = 1, ..., N and for all data points x ", π = 1, ..., M. The inference step for the assumption of other dependency structures than is similarly complex, often even more complex a naive Bayesian network, and thus includes the essential numerical effort of EM learning.
Die Einträge in den Tafeln S(Ω) und S(X,Ω) ändern sich nach Bildung des obigen Produktes für jeden Datenpunkt %π,π = \,...,M , da S(ωt) um pα" (ω, x") für alle i hochaddiert wird, bzw. eine Summe alle pαitl x") bildet. Ähnlich wird S(x,ω,) bzw. S(xk ,ω, ) für alle Variabein k im Falle eines Naive Bayesian Network, jeweils um p"" (ωl x'r) für alle Cluster i hochaddiert. Dieses schließt zunächst den E (Expectation) -Schritt ab. Anhand dieses Schrittes werden neue Parameter pneu(Ω) und pne" für das statistische Modell berechnet, wobei die Struktur des i-ten Cluster oder die bedingte Verteilung der in der Datenbank enthaltenden Größen X in diesem i-ten Cluster darstellt.The entries in the tables S (Ω) and S (X, Ω) change after the formation of the above product for each data point% π , π = \, ..., M, since S (ω t ) by p α "( ω, x ") is added up for all i, or forms a sum every p αitl x"). Similarly, S (x, ω,) or S (x k , ω,) for all variables k im In the case of a Naive Bayesian Network, in each case added by p "" (ω l x ' r ) for all clusters i. This first concludes the E (Expectation) step. Based on this step new parameters p new (Ω) and p ne "calculated for the statistical model, where represents the structure of the i-th cluster or the conditional distribution of the quantities X contained in the database in this i-th cluster.
Im M (Maximisation) -Schritt werden anhand einer allgemeinen log Likelyhood L = )p(ωl ) neue Parameter p"e"(Ω) und welche auf den bereits berechneten SufficientIn the M (Maximization) step, new parameters p " e " (Ω) are calculated using a general log likelihood L =) p (ω l ) and which is based on the already calculated Sufficient
Statistics basieren, gebildet. Der M-Schritt bringt keinen wesentlichen numerischen Aufwand mehr mit sich. Zur allgemeinen Theorie des EM-Lernen siehe auch [5] .Statistics based, formed. The M step no longer entails any significant numerical effort. For the general theory of EM learning, see also [5].
Somit ist klar, dass der wesentliche Aufwand des Algorithmus in dem Inferenzschritt bzw. auf die Bildung des Produktes [ pαh(A \ω, ) und auf die Akkumulierung der Sufficient Sta-It is therefore clear that the essential effort of the algorithm in the inference step or on the formation of the product [p αh (A \ ω,) and on the accumulation of the sufficient status
tistics ruht. Die Bildung von zahlreichen Null-Elementen in den Wahrscheinlichkeitstafeln p°" bzw. _pα"(Ai|ώ>,) lässt sich jedoch durch geschickte Datenstrukturen und Speicherung von Zwischenergebnissen von einem EM-Schritt zum nächsten dazu ausnutzen, die Produkte effizient zu berechen.tistics is at rest. The formation of numerous zero elements in the probability tables p ° "or _p α " (A i | ώ>,) can, however, be achieved through clever data structures and storage Use intermediate results from one EM step to the next to efficiently calculate the products.
Eine allgemeine und umfangreiche Behandlung von Lernverfahren mittels Bayesian Networks befindet sich in [2], insbesondere wird das Problem von teilweise fehlenden Daten in [3, Seite 19] und [4] angesprochen. Nachteilig an diesen Lernverfahren ist, dass dünn besetzte Tafel (Tafeln mit vielen Null- Einträgen) bearbeitet werden und somit ein großer Rechenauf- wand verursacht wird, durch den aber keine zusätzliche Information über das zu bewertende Datenmodell gewonnen wird.A general and extensive treatment of learning processes by means of Bayesian Networks can be found in [2], in particular the problem of partially missing data is addressed in [3, page 19] and [4]. A disadvantage of these learning methods is that thinly populated panels (panels with many zero entries) are processed and thus a great deal of computing effort is caused, but through which no additional information about the data model to be evaluated is obtained.
Somit liegt der Erfindung die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem Nulleinträge in Wahrscheinlichkeitstafeln derart zu Nutze gemacht werden, dass kein weiterer unnötiger numerischer oder Rechenaufwand als Nebenprodukt verursacht wird.The invention is therefore based on the object of specifying a method in which zero entries in probability tables are used in such a way that no further unnecessary numerical or computational effort is caused as a by-product.
Die Aufgabe wird durch die Merkmale des Patentanspruchs 1 ge- löst. Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.The object is achieved by the features of patent claim 1. Preferred developments of the invention result from the subclaims.
Die Erfindung besteht im Wesentlichen darin, dass bei der In- ferenz in einem statistischen Modell oder in einem Cluste- ring-Modell die Bildung des Ergebnisses, das aus den Termen von Zugehörigkeitsfunktion oder bedingten Wahrscheinlichkeitstafeln gebildet wird, wie gewöhnlich vorgegangen wird, jedoch aber, sobald die erste Null in den dazu gehörenden Faktoren auftritt oder für ein Cluster bereits nach den ersten Schritten ein Gewicht Null ermittelt wird, die weitere Berechnung des a posteriori Gewichtes abgebrochen werden kann. Im Falle dass in einem iterativen Lernverfahren (z.B. einem EM-Lernprozesses) ein Cluster für einen bestimmten Datenpunkt das Gewicht Null zugeordnet bekommt, wird dieser Cluster auch in allen weiteren Schritten für diesen Datenpunkt das Gewicht Null erhalten, und muss daher auch in allen weitern Lernschritten nicht mehr berücksichtigt werden. Somit wird eine sinnvolle Beseitigung der Bearbeitung von irrelevanten Parametern und Daten gewährleistet. Es ergibt sich der Vorteil, dass aufgrund der Berücksichtigung allein der relevanten Daten ein schneller Ablauf der Lernverfahren gewährleistet wird.The invention essentially consists in that when inferring in a statistical model or in a clustering model, the formation of the result, which is formed from the terms of membership function or conditional probability tables, is carried out as usual, but As soon as the first zero occurs in the associated factors or a weight zero is determined for the cluster after the first steps, the further calculation of the a posteriori weight can be stopped. If, in an iterative learning process (e.g. an EM learning process) a cluster is assigned the weight zero for a certain data point, this cluster will also receive the weight zero in all further steps for this data point, and must therefore also be carried out in all further learning steps are no longer considered. This ensures a sensible elimination of the processing of irrelevant parameters and data. This has the advantage that the learning process can be carried out quickly by considering only the relevant data.
Genauer läuft das erfinderische Verfahren wie folgt ab: die Bildung eines Gesamtproduktes in einem obigem Inferenz- schritt, welcher aus Faktoren von a posteriori Verteilungen von Zugehörigkeitswahrscheinlichkeiten für alle eingegebene Datenpunkte besteht, wird wie gewöhnlich durchgeführt, jedoch aber sobald ein erster vorgebbarer Wert, vorzugsweise Null oder ein Wert nahezu Null, in den dazu gehörenden Faktoren auftritt, die Bildung des Gesamtproduktes abgebrochen wird. Es lässt sich weiterhin zeigen, dass falls in einem EM- Lernprozess ein Cluster für einen bestimmten Datenpunkt das Gewicht gemäß einer Zahl der oben beschriebenen Wahl, vorzugsweise Null, zugeordnet bekommt, dieser Cluster auch in allen weiteren EM-Schritten für diesen Datenpunkt das Gewicht Null zugeordnet bekommen wird. Somit wird eine sinnvolle Beseitigung von überflüssigen numerischen Aufwand gewährleistet, indem beispielsweise entsprechende Ergebnisse von einem EM-Schritt zum nächsten zwischengespeichert werden und nur für die Cluster, die nicht das Gewicht Null haben, bearbeitet werden.More precisely, the inventive method proceeds as follows: the formation of an overall product in an above inference step, which consists of factors of a posteriori distributions of membership probabilities for all entered data points, is carried out as usual, but as soon as a first predeterminable value, preferably zero or a value close to zero, in which the associated factors occur, the formation of the overall product is terminated. It can also be shown that if, in an EM learning process, a cluster for a certain data point is assigned the weight according to a number of the choice described above, preferably zero, this cluster also has zero weight in all further EM steps for this data point will be assigned. This ensures a sensible elimination of superfluous numerical effort, for example by temporarily storing the corresponding results from one EM step to the next and processing them only for the clusters that are not weighted zero.
Es ergeben -sich die Vorteile, dass aufgrund des Bearbeitungabbruchs beim Auftreten von Cluster mit Null Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch für alle weiteren Schritte, besonders bei der Bildung des Produkts im Inferenzschritt, das Lernverfahren insgesamt deutlich beschleunigt wird.The advantages are that the learning process is significantly accelerated overall, not only within one EM step but also for all further steps, especially when the product is formed in the inference step, due to the termination of processing when clusters with zero weights occur.
Im Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung werden Zugehörigkeitswahrscheinlichkeiten zu bestimmten Klassen nur bis zu einem vorgebbaren Wert oder einem Wert Null oder nahezu 0 in einem iterativen Verfahren berechnet, und die Klassen mit Zugehörigkeitswahrscheinlichkeiten unterhalb eines auswählbaren Wertes im iterativen Verfahren nicht weiter verwendet.In the procedure for determining a probability distribution existing in predetermined data, membership probabilities for certain classes are only up to one predeterminable value or a value zero or almost 0 calculated in an iterative process, and the classes with membership probabilities below a selectable value are no longer used in the iterative process.
Es wird bevorzugt, dass die vorgegebenen Daten Cluster bilden.It is preferred that the predetermined data form clusters.
Ein geeignetes iteratives Verfahren würde das Expectation Ma- ximisation Verfahren sein, in dem auch ein Produkt aus Zugehörigkeitsfaktoren berechnet wird.A suitable iterative method would be the expectation maximization method, in which a product of membership factors is also calculated.
In einer Weiterbildung des Verfahrens wird eine Reihenfolge der zu berechnenden Faktoren derart ausgewählt, dass der Fak- tor, der zu einem selten auftretenden Zustand einer Variabel gehört, als erstes bearbeitet wird. Dabei können die selten auftretenden Werte vor Beginn der Bildung des Produkts derart in einer geordneten Liste gespeichert werden, dass die Variabein je nach Häufigkeit des Auftretens einer Null in der Lis- te geordnet sind.In a further development of the method, a sequence of the factors to be calculated is selected in such a way that the factor that belongs to a rarely occurring state of a variable is processed first. The rarely occurring values can be stored in an ordered list before the formation of the product begins, so that the variables are ordered according to the frequency of occurrence of a zero in the list.
Es ist weiterhin vorteilhaft, eine logarithmische Darstellung von Wahrscheinlichkeitstafeln zu beriutzen.It is also advantageous to use a logarithmic representation of probability tables.
Es ist weiterhin vorteilhaft, eine dünne Darstellung (Sparse Representation) der Wahrscheinlichkeitstafeln zu benutzen, z.B. in Form einer Liste, die nur die von Null verschiedenen Elemente enthält.It is also advantageous to use a sparse representation of the probability tables, e.g. in the form of a list that contains only the non-zero elements.
Ferner werden bei der Berechnung von Sufficient Statistics nur noch die Cluster berücksichtigt, die ein von Null verschiedenes Gewicht haben.Furthermore, only those clusters that have a non-zero weight are taken into account when calculating sufficient statistics.
Die Cluster, die ein von Null verschiedenes Gewischt haben, können in eine Liste gespeichert werden, wobei die in der Liste gespeicherte Daten Pointer zu den entsprechenden Cluster sein können. Das Verfahren kann weiterhin ein Expectation Maximisation Lernprozess sein, bei dem im Fall dass für ein Datenpunkt ein Cluster ein a posteriori Gewicht Null bekommt, dieser Cluster in allen weiteren Schritten des EM-Verfahrens für diesen Datenpunkt das Gewicht Null derart erhält, dass dieser Cluster in allen weiteren Schritten nicht mehr berücksichtigt werden muss.The clusters that have been wiped apart from zero can be stored in a list, the data stored in the list being pointers to the corresponding clusters. The method can also be an expectation maximization learning process, in which, in the event that a cluster is given an a posteriori weight of zero for a data point, this cluster receives zero weight in all further steps of the EM method for this data point such that this cluster in no further steps need to be taken into account.
Das Verfahren kann dabei nur noch über Cluster laufen, die ein von Null verschiedenes Gewicht haben.The method can only run over clusters that have a non-zero weight.
Die Erfindung wird zunächst anhand Ausführungsbeispielen näher erläutert.The invention is first explained in more detail using exemplary embodiments.
Dabei zeigtIt shows
Fig. 1 ein Schema für die Ausführung der in Anspruch 1 um- fassten Erfindung1 shows a diagram for the implementation of the invention encompassed in claim 1
Fig. 2 ein Schema zum Umspeichern von Variabein je nachFig. 2 is a scheme for reloading Variein depending on
Häufigkeit ihrer ErscheinungFrequency of their appearance
Fig. 3 Die ausschließliche Berücksichtigung von Cluster, die ein von NULL verschiedenen Gewicht erhalten habenFig. 3 The exclusive consideration of clusters that have received a non-ZERO weight
I. Erstes Ausführungsbeispiel in einem InferenzschrittI. First embodiment in an inference step
a) . Bildung eines Gesamtproduktes mit Unterbrechung bei Nullwerta). Formation of an overall product with interruption at zero value
In Figur 1 ist ein Schema gezeigt, in dem für jeden Cluster ω, in einem Inferenzschritt die Bildung eines Gesamtproduktes 3 durchgeführt wird. Sobald aber die erste Null 2b in den dazu gehörenden Faktoren 1, welche beispielsweise aus einem Speicher, Array oder einer Pointerliste herausgelesen werden können, auftritt, wird die Bildung des Gesamtproduktes 3 abgebrochen (Ausgang) . Im Falle eines Nullwertes wird dann das zu dem Cluster gehörende a posteriori Gewicht auf Null gesetzt. Alternativ kann auch zuerst geprüft werden, ob zumin- dest einer der Faktoren in dem Produkt Null ist. Dabei werden alle Multiplikationen für die Bildung des Gesamtproduktes nur dann durchgeführt, wenn alle Faktoren von Null verschieden sind.FIG. 1 shows a diagram in which the formation of an overall product 3 is carried out for each cluster ω in an inference step. But as soon as the first zero 2b in the associated factors 1, which are read out, for example, from a memory, array or a pointer list can occur, the formation of the total product 3 is terminated (exit). In the case of a zero value, the a posteriori weight belonging to the cluster is then set to zero. Alternatively, you can first check whether at least one of the factors in the product is zero. All multiplications for the formation of the overall product are only carried out if all factors are different from zero.
Wenn hingegen bei einem zu dem Gesamtprodukt gehörender Faktor kein Nullwert auftritt, dargestellt mit 2a, wird die Bildung des Produktes 3 wie normal fortgeführt und der nächste Faktor 1 aus dem Speicher, Array oder der Pointerliste herausgelesen und zur Weiterbildung des Produktes 3 mit der Be- dingung 2 verwendet.If, on the other hand, a zero value does not occur with a factor belonging to the overall product, represented by 2a, the formation of product 3 is continued as normal and the next factor 1 is read out of the memory, array or pointer list and used for further development of product 3 condition 2 used.
b) . Vorteile der Unterbrechung der Bildung des Gesamtproduktes beim Auftritt Nullwertenb). Advantages of interrupting the formation of the overall product when zero values occur
Da der Inferenzschritt nicht unbedingt Teil eines EM- Lernverfahrens sein muss, ist diese Optimierung auch in anderen Erkennungs- und Prognoseverfahren, in denen ein Inferenzschritt benötigt wird, von besonders großer Bedeutung, z.B. bei der Erkennung eines optimalen Angebots im Internet für ein Kunde, dessen Informationen vorliegen. Auf dieser Grundlage können gezielte Marketing Strategien erzeugt werden, wobei die Erkennungs- bzw. Klassifizierungsfähigkeiten zu automatischen Reaktionen führen, die beispielsweise Informationen an einen Kunden senden.Since the inference step does not necessarily have to be part of an EM learning process, this optimization is also of particular importance in other detection and forecasting processes in which an inference step is required, e.g. when recognizing an optimal offer on the Internet for a customer whose information is available. On this basis, targeted marketing strategies can be generated, whereby the recognition or classification skills lead to automatic reactions that, for example, send information to a customer.
c) . Auswahl einer geeigneten Reihenfolge zur Beschleunigung der Datenverarbeitungc). Selection of a suitable sequence to speed up data processing
In Figur 2 wird eine bevorzugte Weiterbildung des erfinderi- sehen Verfahrens gezeigt, bei der eine geschickte Reihenfolge derart gewählt wird, dass, falls ein Faktor in dem Produkt Null ist, dargestellt mit 2a, dieser Faktor mit hoher Wahr- scheinlichkeit sehr bald als einer der ersten Faktoren in dem Produkt auftritt. Somit kann die Bildung des Gesamtproduktes 3 sehr bald abgebrochen werden. Die Festlegung der neuen Reihenfolge la kann dabei entsprechend der Häufigkeit, mit der die Zustände der Variablen in den Daten auftreten, erfolgen. Dabei wird z.B. ein Faktor der zu einer sehr selten auftretenden Zustand einer Variable gehört, als erstes bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet werden, kann somit einmal vor dem Start des Lernverfahrens festgelegt wer- den, indem die Werte der Variablen in einer entsprechend geordneten Liste la gespeichert werden.FIG. 2 shows a preferred development of the method according to the invention, in which a clever sequence is selected in such a way that if a factor in the product is zero, represented by 2a, this factor has a high degree of accuracy. likely to appear very soon as one of the first factors in the product. The formation of the total product 3 can thus be terminated very soon. The new sequence la can be determined in accordance with the frequency with which the states of the variables appear in the data. For example, a factor that belongs to a very rarely occurring state of a variable is processed first. The order in which the factors are processed can thus be determined once before the start of the learning process by storing the values of the variables in a correspondingly ordered list la.
d) . Logarithmische Darstellung der Tafelnd). Logarithmic representation of the plates
Um den Rechenaufwand des oben genannten Verfahrens möglichst einzuschränken, wird vorzugsweise eine logarithmische Darstellung der Tafeln benutzt, um beispielsweise Underflow- Probleme zu vermeiden. Mit dieser Funktion können ursprünglich Null-Elemente zum Beispiel durch einen positiven Wert ersetzt werden. Somit ist eine aufwendige Verarbeitung bzw. Trennungen von Werten, die nahezu Null sind und sich voneinander durch einen sehr geringen Abstand unterscheiden, nicht weiter notwendig.In order to limit the computing effort of the above-mentioned method as much as possible, a logarithmic representation of the tables is preferably used, for example to avoid underflow problems. This function can be used to replace zero elements with a positive value, for example. This means that complex processing or separations of values that are almost zero and differ from one another by a very small distance are no longer necessary.
e) . Umgehung von erhöhter Summierung bei der Berechnung von Sufficient Statisticse). Avoiding increased summation when calculating sufficient statistics
Im Falle, dass die dem Lernverfahren zugegebenen stochasti- schen Variablen eine geringe Zugehörigkeitswahrscheinlichkeit zu einem bestimmten Cluster besitzen, werden im Laufe des Lernverfahrens viele Cluster das a posteriori Gewicht Null haben. Um auch das Akkumulieren der Sufficient Statistics in dem darauffolgenden Schritt zu beschleunigen werden nur noch solche Cluster in diesem Schritt berücksichtigt, die ein von Null verschiedenes Gewicht haben. Dabei ist es vorteilhaft, die Leistung des erfinderischen Lernverfahrens derart zu erhöhen, dass die von Null verschiedenen Cluster in einer Lis- te, einem Array oder einer ähnlichen Datenstruktur zugeordnet und gespeichert werden, die es erlaubt, nur die von Null verschiedenen Elemente zu speichern.In the event that the stochastic variables added to the learning process have a low probability of belonging to a particular cluster, many clusters will have a posteriori weight of zero in the course of the learning process. In order to also accelerate the accumulation of sufficient statistics in the subsequent step, only those clusters are considered in this step that have a weight other than zero. It is advantageous to increase the performance of the inventive learning method in such a way that the non-zero clusters in a list te, an array or a similar data structure can be assigned and saved, which allows only the non-zero elements to be saved.
II. Zweites Ausführungsbeispiel in einem EM LernverfahrenII. Second embodiment in an EM learning process
a) . Nicht-Berücksichtigung von Cluster mit Null-Zuordnungen für einen Datenpunkta). Disregarding clusters with zero mappings for a data point
Insbesondere wird hier in einem EM-lernverfahren von einem Schritt des Lernverfahrens zum nächsten Schritt gespeichert, welche Cluster durch Auftreten von Nullen in den Tafeln noch erlaubt sind und welche nicht mehr. Wo im ersten Ausführungsbeispiel, Cluster, die durch Multiplikation mit Null ein a posteriori Gewicht Null erhalten, aus allen weiteren Berechnungen ausgeschlossen werden, um dadurch numerischen Aufwand zu sparen, werden in dieser Ausführung der Erfindung auch von einem EM-Schritte zum nächsten Zwischenergebnisse bezüglich Cluster-Zugehörigkeiten einzelner Datenpunkte (welche Cluster bereits ausgeschlossen bzw. noch zulässig sind) in zusätzlich notwendigen Datenstrukturen gespeichert. Dies macht Sinn, da sich zeigen lässt, dass ein Cluster, der für einen Datenpunkt in einem EM-Schritt das Gewicht Null bekommen hat, auch in allen weiteren Schritten das Gewicht Null bekommen wird.In particular, an EM learning process from one step of the learning process to the next step stores which clusters are still allowed due to the occurrence of zeros in the tables and which are no longer allowed. Where, in the first exemplary embodiment, clusters which are given an a posteriori weight of zero by multiplication by zero are excluded from all further calculations in order to thereby save numerical effort, in this embodiment of the invention intermediate results regarding clusters are also taken from one EM step to the next -Association of individual data points (which clusters are already excluded or still permitted) are stored in additionally necessary data structures. This makes sense because it can be shown that a cluster that has received zero weight for a data point in one EM step will also receive zero weight in all subsequent steps.
In Figur 3 wird konkret der Fall gezeigt, bei dem im Falle dass ein Datenpunkt 4 mit einer nahezu Null- Wahrscheinlichkeit 2a einem Cluster zugeordnet wird, kann der Cluster im nächsten Schritt des Lernverfahrens 5a + 1, wo die Wahrscheinlichkeit dieser Zuordnung des Datenpunktes noch mal berechnet wird, wieder sofort auf Null gesetzt werden. Somit muss ein Cluster, der in einem EM-Schritt 5a für einen Datenpunkt 4 ein Gewicht Null über 2a erhalten hat, nicht nur innerhalb des aktuellen EM-Schrittes, 5a, nicht weiter berück- sichtigt werden, sondern wird in allen weiteren EM-Schritten 5a + n, wo n die Anzahl der Verwendeten EM-Schritte darstellt (nicht gezeigt) , dieser Cluster über 2a auch nicht mehr be- rücksichtigt. Die Berechnung einer Zugehörigkeit eines Datenpunktes zu einem neuen Cluster kann dann über 4 wieder fortgesetzt werden. Eine nahezu nicht Null-Zugehörigkeit eines Datenpunktes 4 zu einem Cluster führt zu einer fortgesetzten Kalkulation über 2b zum nächsten EM-Schritt 5a + 1.FIG. 3 specifically shows the case in which in the event that a data point 4 is assigned to a cluster with an almost zero probability 2a, the cluster can in the next step of the learning method 5a + 1, where the probability of this assignment of the data point again is calculated, be immediately reset to zero. Thus, a cluster that has received a weight zero over 2a for a data point 4 in an EM step 5a does not only have to be considered further within the current EM step, 5a, but is also used in all further EM steps 5a + n, where n represents the number of EM steps used (not shown), this cluster over 2a is also no longer used taken into account. The calculation of a data point belonging to a new cluster can then be continued again via 4. An almost non-zero membership of a data point 4 to a cluster leads to a continued calculation via 2b for the next EM step 5a + 1.
b) . Speichern einer Liste mit Referenzen auf relevanteb). Save a list of references to relevant ones
Clustercluster
Für jeden Datenpunkt kann zunächst eine Liste oder eine ähnliche Datenstruktur gespeichert werden, die Referenzen auf die relevanten Cluster enthält, die für diesen Datenpunkt ein von Null verschiedenes Gewicht bekommen haben. Hierbei wird gewährleistet, dass in allen Operationen bzw. Verfahrens- schritten bei der Bildung des Gesamtproduktes und das Akkumulieren der Sufficient Statistics, die Schleifen dann nur noch über die noch zulässigen bzw. relevanten Cluster laufen.For each data point, a list or a similar data structure can first be saved that contains references to the relevant clusters, which have been given a non-zero weight for this data point. This ensures that in all operations or procedural steps in the formation of the overall product and the accumulation of sufficient statistics, the loops then only run over the still permissible or relevant clusters.
Insgesamt werden in diesem Ausführungsbeispiel nur noch die erlaubten Cluster, allerdings für jeden Datenpunkt in einem Datensatz, gespeichert.Overall, only the permitted clusters are stored in this exemplary embodiment, but for each data point in a data record.
III. Weiteres AusführungsbeispielIII. Another embodiment
Hier wird eine Kombination der bereits genannten Ausführungsbeispiele herangezogen. Eine Kombination der beiden Ausführungsbeispiele ermöglicht den Abbruch bei Null Gewichten im Inferenzschritt, wobei in weiteren EM Schritten nur noch die zulässigen Cluster nach dem zweiten Ausführungsbeispiel be- rücksichtigt werden.A combination of the exemplary embodiments already mentioned is used here. A combination of the two exemplary embodiments enables termination at zero weights in the inference step, only the permissible clusters according to the second exemplary embodiment being taken into account in further EM steps.
Somit wird ein insgesamt optimiertes EM-Lernverfahren erzeugt. Da die Anwendung von Cluster-Modellen für Erkennungsund Prognoseverfahren allgemein herangezogen wird ist eine Optimierung nach der erfinderischen Art von besonderem Vorteil und Wert. IV. Anordnung zur Durchführung des erfinderischen VerfahrensThis creates an overall optimized EM learning process. Since the use of cluster models for recognition and forecasting methods is generally used, optimization according to the inventive type is of particular advantage and value. IV. Arrangement for performing the inventive method
Das erfinderische Verfahren nach einem oder allen Ausführungsbeispielen kann grundsätzlich mit einer geeigneten Rech- ner- und Speicheranordnung vollzogen werden. Die Rechner- Speicheranordnung sollte dabei mit einem Computerprogramm ausgestattet sein, welcher die Verfahrensschritte ausführt. Der •Computerprogramm kann auch auf einem Datenträger wie z.B. einem CD-ROM gespeichert sein und somit auf andere Rechner- Systeme übertragen und ausgeführt werden.The inventive method according to one or all exemplary embodiments can in principle be carried out with a suitable computer and memory arrangement. The computer memory arrangement should be equipped with a computer program that executes the method steps. The • computer program can also be stored on a data medium such as e.g. be stored on a CD-ROM and thus transferred to other computer systems and executed.
Eine Weiterbildung der genannten Rechner- und Speicheranordnung besteht in der zusätzlich Anordnung einer Ein- und Ausgabeeinheit. Dabei können die Eingabeeinheiten über Senso- ren, Detektoren, Eingabetastatur oder Server, Informationen eines Zustandes eines beobachteten Systems, wie z.B. die Menge von Zugriffe auf eine Internetseite, in die Rechneranordnung, bspw. zum Speicher, übertragen. Die Ausgabeeinheit würde dabei aus einer Hardware bestehen, welche die Signale der Resultate der Verarbeitung nach dem erfinderischen Verfahren speichert oder auf einem Bildschirm abbildet. Eine automatische, elektronische Reaktion, bspw. das Versenden einer bestimmten Email entsprechend der Auswertung nach dem erfinderischen Verfahren, ist auch denkbar.A further development of the computer and memory arrangement mentioned consists in the additional arrangement of an input and output unit. The input units can use sensors, detectors, input keypads or servers to provide information about the status of an observed system, such as the amount of access to a website, in the computer arrangement, for example, to the memory. The output unit would consist of hardware that stores the signals of the results of the processing according to the inventive method or displays them on a screen. An automatic, electronic reaction, for example the sending of a specific email in accordance with the evaluation according to the inventive method, is also conceivable.
V. AnwendungsbeispielV. Application example
Die Erfassung von Statistiken bei der Nutzung einer Web-Site, oder die Analyse von Web-Traffic, ist heute auch bekannt un- ter dem Stichwort Web-Mining. Ein durch das Lernverfahren aufgefundener Cluster kann beispielsweise ein typisches Verhalten vieler Internet-Benutzer wiederspiegeln. Das Lernverfahren ermöglicht beispielsweise die Erkennung, dass alle Besucher aus einer Klasse, bzw. welche dem vom Lernverfahren aufgefundenen Cluster zugeordnet wurden, beispielsweise nicht länger als eine Minute in einer Session bleiben und zumeist nur eine Seite abrufen. Es können auch statistische Informationen zu den Besuchern einer Web-Site ermittelt werden, die über eine Freitext- Suchmaschine (freetext search) auf die analysierte Webseite kommen. Viele dieser Benutzer fordern beispielsweise nur ein Dokument an. Sie könnten beispielsweise zumeist Dokumente aus dem Bereich freeware und hardware abfragen. Das Lernverfahren kann die Zuordnung der Besucher, die von einer Suchmaschine kommen, zu verschiedenen Cluster ermitteln. Dabei sind eini- ge Cluster bereits nahezu ausgeschlossen, wobei ein anderes Cluster ein verhältnismäßig hohes Gewicht erhalten kann. The collection of statistics when using a website or the analysis of web traffic is also known today under the keyword web mining. A cluster found through the learning process can, for example, reflect typical behavior of many Internet users. The learning process enables, for example, the recognition that all visitors from a class, or those who have been assigned to the cluster found by the learning process, do not stay in a session for more than one minute and usually only retrieve one page. It is also possible to determine statistical information about the visitors to a website that come to the analyzed website via a free text search engine (freetext search). For example, many of these users request only one document. For example, you could mostly query freeware and hardware documents. The learning process can determine the assignment of visitors coming from a search engine to different clusters. Some clusters are almost completely ruled out, while another cluster can be relatively heavy.
Im Rahmen dieses Dokuments sind folgende Veröffentlichungen zitiert:The following publications are cited in this document:
[1] Sufficient, Complete, Ancillary Statistics, erhältlich am 28.08.01 bei der Internet-Adresse n ri ■ :' / /www .matn. uah . edu/star/ooinr/Doin β . html[1] Sufficient, Complete, Ancillary Statistics, available on August 28, 2001 at the Internet address n ri ■: '/ / www .matn. uah. edu / star / ooinr / Doin β. html
[2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Databases. Technical Report MSR-TR-99-31, Mi- crosoft Research, May, 1999 (Revised February, 2001), erhältlich am 14.11.2001 bei der Internet-Adresse: http : //www . research . icrosof . comAheckerman/[2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Databases. Technical Report MSR-TR-99-31, Microsoft Research, May, 1999 (Revised February, 2001), available on November 14, 2001 at the Internet address: http: // www. research. icrosof. comAheckerman /
[3] D. Heckermann, A Tutorial on Learning With Bayesian Net- works, erhältich am 18.03.2002 bei der ftp- Adresse:[3] D. Heckermann, A Tutorial on Learning With Bayesian Networks, available on March 18, 2002 from the ftp address:
[4] David Maxwell Chickering und David Heckerman, erhältich am 18.03.2002 Internet-Adresse: rtt : ', .. . researcr..ncrcscf . ccrr/scrιρts/ρubs/view. asp? [4] David Maxwell Chickering and David Heckerman, available on March 18, 2002 Internet address: rtt: ' , ... researcr..ncrcscf. CCRR / scrιρts / ρubs / view. asp?
[5] M.A. Tanner, Tools for Statistical Inference, Springer, New York, 1996 [5] M.A. Tanner, Tools for Statistical Inference, Springer, New York, 1996

Claims

Patentansprüche claims
1. Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung (1), bei dem Zugehörigkeitswahrscheinlichkeiten (2) zu auswählbare Klassen nur bis zu einem vorgebbaren Wert (A) in einem iterativen Verfahren berechnet werden und die Klassen mit Zugehörigkeitswahrscheinlichkeiten unterhalb eines auswählbaren Wertes (B) im iterativen Verfahren nicht weiter verwendet werden.1.Procedure for determining a probability distribution (1) existing in predefined data, in which membership probabilities (2) for selectable classes are only calculated up to a predeterminable value (A) in an iterative process and the classes with membership probabilities below a selectable value (B ) are no longer used in the iterative process.
2. Verfahren nach Anspruch 1, bei dem der vorgebbare Wert2. The method according to claim 1, wherein the predeterminable value
(A) Null ist.(A) is zero.
3. Verfahren nach einem der Ansprüche 1 oder 2, bei dem die vorgegebenen Daten Cluster bilden.3. The method according to any one of claims 1 or 2, wherein the predetermined data form clusters.
4. Verfahren nach Anspruch einem der Ansprüche 1 bis 3, bei dem das iterative Verfahren ein Expectation Maximisation Algorithmus umfasst.4. The method according to claim 1, wherein the iterative method comprises an expectation maximization algorithm.
5. Verfahren nach Anspruch 4, bei dem ein Produkt (3) aus Wahrscheinlichkeitsfaktoren berechnet wird.5. The method according to claim 4, wherein a product (3) is calculated from probability factors.
6. Verfahren nach Anspruch 5, bei dem die Berechnung des6. The method according to claim 5, wherein the calculation of the
Produktes abgebrochen wird, sobald ein auswählbarer Wert nahezu 0 (A) in den zum Produkt gehörenden Faktoren auftritt. -Product is terminated as soon as a selectable value almost 0 (A) occurs in the factors belonging to the product. -
7. Verfahren nach einem der Ansprüche 4 oder 5, bei dem eine Reihenfolge der zu berechnenden Faktoren derart ausgewählt wird, dass der Faktor, der zu einer in den Daten selten auftretenden Variabel gehört, als erster bearbeitet wird.7. The method according to any one of claims 4 or 5, in which a sequence of the factors to be calculated is selected such that the factor that belongs to a variable that rarely occurs in the data is processed first.
Verfahren nach Anspruch 7, bei dem die selten auftretenden Werte vor Beginn der Bildung des Produkts derart in einer geordneten Liste (la) gespeichert werden, dass die Variabein je nach Häufigkeit Ihrer Erscheinung in der Liste geordnet sind.A method according to claim 7, wherein the rarely occurring values prior to the formation of the product are so in an ordered list (la) that the variables are ordered according to the frequency of their appearance in the list.
9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem eine logarithmische Darstellung von Wahrscheinlichkeitstafeln benutzt wird.9. The method according to any one of claims 1 to 8, in which a logarithmic representation of probability tables is used.
10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem eine dünne Darstellung von Wahrscheinlichkeitstafeln unter10. The method according to any one of claims 1 to 9, in which a thin representation of probability tables below
Nutzung einer Liste, die nur die von Null verschiedenen Elemente enthält, verwendet wird.Use a list that contains only the non-zero items.
11. Verfahren nach einem der Ansprüche 1 bis 10, bei dem Sufficient Statistics berechnet werden.11. The method according to any one of claims 1 to 10, in which sufficient statistics are calculated.
12. Verfahren nach Anspruch 11, bei dem bei der Berechnung von Sufficient Statistics nur noch die Cluster berücksichtigt werden, die ein von Null verschiedenes Gewicht haben.12. The method according to claim 11, in which only those clusters which have a non-zero weight are taken into account in the calculation of sufficient statistics.
13. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die Cluster, die ein von Null verschiedenes Gewischt haben, in eine Liste gespeichert werden.13. The method according to any one of claims 1 to 8, wherein the clusters that have a non-zero wiping are stored in a list.
14. Verfahren nach einem der Ansprüche 1 bis 9, das in einem Expectation Maximisation Lernprozess verwendet wird, bei dem im Fall dass für ein Datenpunkt ein Cluster ein a posteriori Gewicht Null bekommt, dieser Cluster in allen weiteren Schritten für diesen Datenpunkt das Gewicht14. The method according to any one of claims 1 to 9, which is used in an expectation maximization learning process, in which, in the event that a cluster is given an a posteriori weight for a data point, this cluster in all further steps for this data point receives the weight
Null derart erhält, dass dieser Cluster in allen weiteren EM-Verfahrensschritten nicht mehr berücksichtigt werden muss.Receives zero in such a way that this cluster no longer has to be taken into account in all further EM process steps.
15. Verfahren nach Anspruch 13, bei dem für jeden Datenpunkt eine Liste von Referenzen auf Cluster die ein von Null verschiedenes Gewicht haben, gespeichert wird. 15. The method according to claim 13, in which a list of references to clusters which have a non-zero weight is stored for each data point.
6. Verfahren nach einem der Ansprüche 10 oder 11, bei dem das iterative Verfahren nur noch über Cluster läuft, die ein von Null verschiedenes Gewicht haben. 6. The method according to any one of claims 10 or 11, wherein the iterative method only runs over clusters that have a non-zero weight.
EP03787314A 2002-07-24 2003-07-23 Method for determining a probability distribution present in predefined data Withdrawn EP1627324A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10233609A DE10233609A1 (en) 2002-07-24 2002-07-24 Probability determination method for determining a probability distribution in preset data uses an iterative process to calculate linkage probabilities to generic classes only up to a preset value
PCT/DE2003/002484 WO2004017224A2 (en) 2002-07-24 2003-07-23 Method for determining a probability distribution present in predefined data

Publications (1)

Publication Number Publication Date
EP1627324A1 true EP1627324A1 (en) 2006-02-22

Family

ID=30469060

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03787314A Withdrawn EP1627324A1 (en) 2002-07-24 2003-07-23 Method for determining a probability distribution present in predefined data

Country Status (6)

Country Link
US (1) US20040249488A1 (en)
EP (1) EP1627324A1 (en)
JP (1) JP2005527923A (en)
AU (1) AU2003260245A1 (en)
DE (1) DE10233609A1 (en)
WO (1) WO2004017224A2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101581A2 (en) 2001-06-08 2002-12-19 Siemens Aktiengesellschaft Statistical models for improving the performance of database operations
CN103116571B (en) * 2013-03-14 2016-03-02 米新江 A kind of method determining multiple object weight
US10599953B2 (en) 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583500A (en) * 1993-02-10 1996-12-10 Ricoh Corporation Method and apparatus for parallel encoding and decoding of data
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6385172B1 (en) * 1999-03-19 2002-05-07 Lucent Technologies Inc. Administrative weight assignment for enhanced network operation
US6694301B1 (en) * 2000-03-31 2004-02-17 Microsoft Corporation Goal-oriented clustering
US6922660B2 (en) * 2000-12-01 2005-07-26 Microsoft Corporation Determining near-optimal block size for incremental-type expectation maximization (EM) algorithms
US20030028564A1 (en) * 2000-12-19 2003-02-06 Lingomotors, Inc. Natural language method and system for matching and ranking documents in terms of semantic relatedness
US7003158B1 (en) * 2002-02-14 2006-02-21 Microsoft Corporation Handwriting recognition with mixtures of Bayesian networks
US6988107B2 (en) * 2002-06-28 2006-01-17 Microsoft Corporation Reducing and controlling sizes of model-based recognizers
US7133811B2 (en) * 2002-10-15 2006-11-07 Microsoft Corporation Staged mixture modeling
US7184591B2 (en) * 2003-05-21 2007-02-27 Microsoft Corporation Systems and methods for adaptive handwriting recognition
US7225200B2 (en) * 2004-04-14 2007-05-29 Microsoft Corporation Automatic data perspective generation for a target variable

Also Published As

Publication number Publication date
US20040249488A1 (en) 2004-12-09
WO2004017224A2 (en) 2004-02-26
JP2005527923A (en) 2005-09-15
DE10233609A1 (en) 2004-02-19
AU2003260245A1 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
DE102018111905A1 (en) Domain-specific language for generating recurrent neural network architectures
DE60208223T2 (en) ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL
DE202017007517U1 (en) Aggregate characteristics for machine learning
DE112017006166T5 (en) METHOD AND SYSTEM FOR GENERATING A MULTI-RELEVANT LABEL
DE10311311A1 (en) Calculation of price elasticity
DE112011104487T5 (en) Method and system for predictive modeling
DE112016005266T5 (en) Fast pattern detection for log analysis
EP1831804A1 (en) Relational compressed data bank images (for accelerated interrogation of data banks)
CN111510783B (en) Method, device, electronic equipment and storage medium for determining video exposure
EP3736817A1 (en) Checking and / or improvement in the consistency of data codes in medical image processing
DE60128706T2 (en) CHARACTER RECOGNITION SYSTEM
EP1395924A2 (en) Statistical models for improving the performance of database operations
DE112016007411T5 (en) FUZZY INPUT FOR AUTOENCODER
DE10320419A9 (en) Database query system and method for computer-aided querying of a database
DE102012025349B4 (en) Determination of a similarity measure and processing of documents
EP1627324A1 (en) Method for determining a probability distribution present in predefined data
WO2004044772A2 (en) Method and computer configuration for providing database information of a first database and method for carrying out the computer-aided formation of a statistical image of a database
EP1264253B1 (en) Method and arrangement for modelling a system
DE102021127398A1 (en) RELATIONSHIP RECOGNITION AND QUANTIFICATION
EP3905097A1 (en) Device and method for determining a knowledge graph
EP3507943B1 (en) Method for communication in a communication network
DE112021005531T5 (en) METHOD AND DEVICE FOR GENERATION OF TRAINING DATA FOR A GRAPH NEURONAL NETWORK
EP2423830A1 (en) Method for searching through a number of databases and search engine
DE202022102632U1 (en) A system to detect distributed denial-of-service attacks in the COVID 19 pandemic scenario for small business owners
EP0952501B1 (en) Method for data-driven guidance and optimisation of technical processes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20040216

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: PANORATIO DATABASE IMAGES GMBH

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20061107