DE10233609A1 - Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung - Google Patents

Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung Download PDF

Info

Publication number
DE10233609A1
DE10233609A1 DE10233609A DE10233609A DE10233609A1 DE 10233609 A1 DE10233609 A1 DE 10233609A1 DE 10233609 A DE10233609 A DE 10233609A DE 10233609 A DE10233609 A DE 10233609A DE 10233609 A1 DE10233609 A1 DE 10233609A1
Authority
DE
Germany
Prior art keywords
zero
cluster
clusters
probability
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10233609A
Other languages
English (en)
Inventor
Michael Dr. Haft
Reimar Dr. Hofmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10233609A priority Critical patent/DE10233609A1/de
Priority to US10/489,366 priority patent/US20040249488A1/en
Priority to AU2003260245A priority patent/AU2003260245A1/en
Priority to EP03787314A priority patent/EP1627324A1/de
Priority to JP2004528430A priority patent/JP2005527923A/ja
Priority to PCT/DE2003/002484 priority patent/WO2004017224A2/de
Publication of DE10233609A1 publication Critical patent/DE10233609A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Development Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung besteht im Wesentlichen darin, dass bei der Inferenz in einem statistischen Modell oder in einem Clustering-Modell die Bildung des Ergebnisses, das aus den Termen von Zugehörigkeitsfunktionen oder bedingten Wahrscheinlichkeitstafeln gebildet wird, wie gewöhnlich vorgegangen wird, jedoch aber sobald die erste Null in den dazu gehörenden Faktoren auftritt oder für ein Cluster bereits nach den ersten Schritten ein Gewicht Null ermittelt wird, die weitere Berechnung des a posteriori Gewichtes abgebrochen werden kann. Im Falle, dass in einem iterativen Lernverfahren (z. B. einem EM-Lernprozess) ein Cluster für einen bestimmten Datenpunkt das Gewicht Null zugeordnet bekommt, wird dieser Cluster auch in allen weiteren Schritten für diesen Datenpunkt das Gewicht Null erhalten und muss daher auch in allen weiteren Lernschritten nicht mehr berücksichtigt werden. Sinnvolle Datenstrukturen zum Zwischenspeichern von noch zulässigen Clustern oder Zuständen einer Variable von einem Lernschritt auf den nächsten werden angegeben. DOLLAR A Somit wird eine sinnvolle Beseitigung der Bearbeitung von irrelevanten Parametern und Daten gewährleistet. Es ergibt sich der Vorteil, dass aufgrund der Berücksichtigung allein der relevanten Daten ein schneller Ablauf der Lernverfahren gewährleistet wird.

Description

  • Die Erfindung betrifft ein Verfahren zur Erzeugung eines statistischen Modells anhand eines Lernverfahrens.
  • Der zunehmende Verkehr im Internet ermöglicht Firmen, die im Internet repräsentiert sind bzw. Dienste im Internet anbieten, sowohl einen erhöhten Kundschaftskreis auszunutzen als auch kundenspezifische Informationen anzusammeln. Dabei werden viele der elektronisch ablaufenden Vorgänge protokolliert und Benutzerdaten abgespeichert. So betreiben viele Firmen inzwischen ein CRM-System, in dem sie systematisch Informationen über alle Kundenkontakte aufnehmen. Der Verkehr auf bzw. Zugang zu Webseiten wird geloggt und die Vorgänge in einem Callcenter protokolliert. Dadurch entstehen oft sehr große Datenmengen die kundenspezifische Informationen verschiedenster Art beinhalten.
  • Dieses führt zum Nachteil, dass zwar wertvolle Informationen über Kunden angesammelt, aber aufgrund der oft überwältigenden Menge nur noch mit großen Aufwand bearbeitet werden können.
  • Zur Lösung dieses Problems werden grundsätzlich statistische Methoden angewendet, insbesondere statistische Lernverfahren, die beispielsweise nach einer Trainingsphase die Fähigkeit besitzen, eingegebene Variablen in Klassen zu unterteilen. Das neu entstandene Feld Datamining bzw. Machine Learning hat es sich insbesondere zum Ziel gemacht, solche Lernverfahren (wie z.B. Clustering-Verfahren) weiterzuentwickeln und auf Praxis-relevante Probleme anzuwenden.
  • Dabei lassen sich viele Datamining-Methoden gezielt auf die Handhabung von Informationen aus dem Internet ausrichten.
  • Bei diesen Verfahren werden große Datenmengen in wertvolle Informationen, die im Allgemeinen die Datenmenge erheblich reduzieren, umgesetzt. In einem solchen Verfahren kommen auch viele statistische Lernverfahren zum Einsatz, zum Beispiel um statistische Abhängigkeitsstrukturen oder wiederkehrende Muster aus den Daten ablesen zu können.
  • Diese Verfahren weisen allerdings den Nachteil auf, dass sie numerisch sehr aufwendig sind, obwohl sie wertvolle Ergebnisse liefern. Die Nachteile werden weiterhin dadurch strapaziert, dass fehlende Informationen, wie zum Beispiel Alter eines Kunden oder etwa sein Einkommen, die Bearbeitung der Daten verkomplizieren und zum Teil auch die gelieferten Informationen wertlos machen. Der statistisch optimale Umgang mit solchen fehlenden Informationen ist bis heute sehr aufwendig.
  • Eine weitere Methode zur sinnvollen Aufteilung von Informationen ist die Erzeugung eines Cluster-Modells, z.B. mit einem Naive Bayesian Network. Bayesianische Netze werden durch Wahrscheinlichkeitstafeln parametrisiert. Bei der Optimierung dieser Tafeln entsteht in der Regel schon nach wenigen Lernschritten die Schwäche, dass in den Tafeln viele Nulleinträge eingeordnet werden. Somit entstehen dünn besetzte Tafeln (Sparse Tables). Dadurch, dass sich die Tafeln während des Lernvorgangs ständig ändern, wie z. B. beim Lernvorgang für statistische Cluster-Modelle, lassen sich dünne Codierungen von Tafeln nur sehr schlecht ausnutzen. Dabei führt das wiederholte Auftreten von Nulleinträgen in den Wahrscheinlichkeitstafeln zu einem erhöhten und unnötigen Berechnungs- und Speicheraufwand.
  • Aus diesen Gründen besteht die Notwendigkeit, die genannten statistischen Lernverfahren schneller und leistungsfähiger zu konzipieren. Dabei sind sogenannte EM (Expectation Maximisation)-Lernverfahren von zunehmender Bedeutung.
  • Zur Konkretisierung eines EM Lernverfahrens im Falle eines Naiven Bayesian Cluster Modells werden im Allgemeinen die Verfahrensschritte wie folgt ausgeführt.
  • Hier bezeichnet X = {Xk, k = 1,..., K} einen Satz von K statistischen Variablen (die z.B. den Feldern einer Datenbank entsprechen können). Die Zustände der Variablen werden mit kleinen Buchstaben bezeichnet. Die Variable X1 kann die Zustände x1,1, x1,2, ... annehmen, d. h. X1 ϵ {x1,1, i = 1, ..., L1}. L1 ist die Anzahl der Zustände der Variable X1. Ein Eintrag in einem Datensatz (einer Datenbank) besteht nun aus Werten für alle Variablen, wobei xπ ≡ (x / 1, x / 2, x / 3, ...) den π-ten Datensatz bezeichnet. In dem π-ten Datensatz ist die Variable X1 in dem Zustand x / 1, die Variable X2 in dem Zustand x / 2, usw. Die Tafel hat M Einträge, d. h., {xπ, π = 1, ..., M}. Zusätzlich gibt es eine versteckte Variable oder eine Cluster-Variable, die hier mit Ω bezeichnet wird; deren Zustände sind {ωi, i = 1, ..., N}. Es gibt also N Cluster.
  • In einem statistischen Clustering-Modell beschreibt nun P(Ω) eine a priori Verteilung; P(ωi) ist das a priori Gewicht des i-ten Clusters und P(X⏐ωi)beschreibt die Struktur des i-ten Clusters oder die bedingte Verteilung der beobachtbaren (in der Datenbank enthaltenen) Größen X = {Xk, k = 1, ..., K} in dem i-ten Cluster. Die a priori Verteilung und die bedingten Verteilungen für jedes Cluster parametrisieren zusammen ein gemeinsames Wahrscheinlichkeitsmodell auf X ∪ Ω bzw. auf X.
  • In einem Naiven Bayesian Network wird vorausgesetzt, dass p(X ⏐ωi) mit
    Figure 00030001
    faktorisiert werden kann.
  • Im Allgemeinen wird darauf gezielt, die Parameter des Modells, also die a priori Verteilung p(Ω) und die bedingten Wahrscheinlichkeitstafeln p(X ⏐ω)derart zu bestimmen, dass das gemeinsame Modell die eingetragenen Daten möglicht gut wiederspiegelt. Ein entsprechendes EM-Lernverfahren besteht aus einer Reihe von Iterationsschritten, wobei in jedem Iterationsschritt eine Verbesserung des Modells (im Sinne einer sogenannten Likelihood) erzielt wird. In jedem Iterationsschritt werden neue Parameter pneu(...) basierend auf den aktuellen oder „alten" Parametern palt(...) geschätzt.
  • Jeder EM-Schritt beginnt zunächst mit dem E-Schritt, in dem „Sufficient Statistics" in dafür bereitgehaltenen Tafeln ermittelt werden. Es wird mit Wahrscheinlichkeitstafeln begonnen, deren Einträge mit Null-Werten initialisiert werden. Die Felder der Tafeln werden im Verlauf des E-Schrittes mit den sogenannten Sufficient Statistics S(Ω) und S(X ,Ω) gefüllt, indem für jeden Datenpunkt die fehlenden Informationen (die Zuordnung jedes Datenpunktes zu den Clustern) durch Erwartungswerte ergänzt werden. Der Umgang mit und die Bildung von Sufficient Statistics ist aus [1] bekannt.
  • Um Erwartungswerte für die Cluster-Variable Ω zu berechnen ist die a posteriori Verteilung palt(wi⏐X π) zu ermitteln. Dieser Schritt wird auch als „Inferenzschritt" bezeichnet. Im Falle eines Naive Bayesian Network ist die a posteriori Verteilung für Ω nach der Vorschrift
    Figure 00040001
    für jeden Datenpunkt X π aus den eingetragenen Informationen zu berechnen, wobei 1/ eine Normierungskonstante ist. Das Wesentliche dieser Berechnung besteht aus der Bildung des Produkts palt(X / k⏐ωi) über alle k = 1, ..., K . Dieses Produkt muss in jedem E-Schritt für alle Cluster i = 1,...,N und für alle Datenpunkte xπ, π = 1, ..., M gebildet werden. Ähnlich aufwendig, oft noch aufwendiger, ist der Inferenzschritt für die Annahme anderer Abhängigkeitsstrukturen als einem Naive Bayesian Network, und beinhaltet damit die wesentlichen numerischen Aufwände des EM-Lernens.
  • Die Einträge in den Tafeln S(Ω) und S(X ,Ω) ändern sich nach Bildung des obigen Produktes für jeden Datenpunkt xπ, π = 1, ..., M, da S(ωi) um palti⏐X π) für alle i hochaddiert wird, bzw. eine Summe alle palti⏐X π) bildet. Ähnlich wird S(x , ωi) bzw. S(xk, ωi) für alle Variabeln k im Falle eines Naive Bayesian Network, jeweils um palti⏐X π) für alle Cluster i hochaddiert. Dieses schließt zunächst den E (Expectation)-Schritt ab. Anhand dieses Schrittes werden neue Parameter pneu(Ω) und pneu(x ⏐Ω) für das statistische Modell berechnet, wobei p(x ⏐ωi) die Struktur des i-ten Cluster oder die bedingte Verteilung der in der Datenbank enthaltenden Größen X in diesem i-ten Cluster darstellt.
  • Im M (Maximisation)-Schritt werden anhand einer allgemeinen log Likelyhood
    Figure 00050001
    neue Parameter pneu(Ω) und pneu(X ⏐Ω) welche auf den bereits berechneten Sufficient Statistics basieren, gebildet. Der M-Schritt bringt keinen wesentlichen numerischen Aufwand mehr mit sich. Zur allgemeinen Theorie des EM-Lernen siehe auch [5].
  • Somit ist klar, dass der wesentliche Aufwand des Algorithmus in dem Inferenzschritt bzw, auf die Bildung des Produktes
    Figure 00050002
    und auf die Akkumulierung der Sufficient Statistics ruht. Die Bildung von zahlreichen Null-Elementen in den Wahrscheinlichkeitstafeln palt(X ⏐ωi) bzw. palt(Xk⏐ωi) lässt sich jedoch durch geschickte Datenstrukturen und Speicherung von Zwischenergebnissen von einem EM-Schritt zum nächsten dazu ausnutzen, die Produkte effizient zu berechen.
  • Eine allgemeine und umfangreiche Behandlung von Lernverfahren mittels Bayesian Networks befindet sich in [2], insbesondere wird das Problem von teilweise fehlenden Daten in [3, Seite 19] und [4] angesprochen. Nachteilig an diesen Lernverfahren ist, dass dünn besetzte Tafel (Tafeln mit vielen Null-Einträgen) bearbeitet werden und somit ein großer Rechenaufwand verursacht wird, durch den aber keine zusätzliche Information über das zu bewertende Datenmodell gewonnen wird.
  • Somit liegt der Erfindung die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem Nulleinträge in Wahrscheinlichkeitstafeln derart zu Nutze gemacht werden, dass kein weiterer unnötiger numerischer oder Rechenaufwand als Nebenprodukt verursacht wird.
  • Die Aufgabe wird durch die Merkmale des Patentanspruchs 1 gelöst. Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
  • Die Erfindung besteht im Wesentlichen darin, dass bei der Inferenz in einem statistischen Modell oder in einem Clustering-Modell die Bildung des Ergebnisses, das aus den Termen von Zugehörigkeitsfunktion oder bedingten Wahrscheinlichkeitstafeln gebildet wird, wie gewöhnlich vorgegangen wird, jedoch aber sobald die erste Null in den dazu gehörenden Faktoren auftritt oder für ein Cluster bereits nach den ersten Schritten ein Gewicht Null ermittelt wird, die weitere Berechnung des a posteriori Gewichtes abgebrochen werden kann. Im Falle dass in einem iterativen Lernverfahren (z.B. einem EM-Lernprozesses) ein Cluster für einen bestimmten Datenpunkt das Gewicht Null zugeordnet bekommt, wird dieser Cluster auch in allen weiteren Schritten für diesen Datenpunkt das Gewicht Null erhalten, und muss daher auch in allen weitern Lernschritten nicht mehr berücksichtigt werden.
  • Somit wird eine sinnvolle Beseitigung der Bearbeitung von irrelevanten Parametern und Daten gewährleistet. Es ergibt sich der Vorteil, dass aufgrund der Berücksichtigung allein der relevanten Daten ein schneller Ablauf der Lernverfahren gewährleistet wird.
  • Genauer läuft das erfinderische Verfahren wie folgt ab: die Bildung eines Gesamtproduktes in einem obigem Inferenzschritt, welcher aus Faktoren von a posteriori Verteilungen von Zugehörigkeitswahrscheinlichkeiten für alle eingegebene Datenpunkte besteht, wird wie gewöhnlich durchgeführt, jedoch aber sobald ein erster vorgebbarer Wert, vorzugsweise Null oder ein Wert nahezu Null, in den dazu gehörenden Faktoren auftritt, die Bildung des Gesamtproduktes abgebrochen wird. Es lässt sich weiterhin zeigen, dass falls in einem EM-Lernprozess ein Cluster für einen bestimmten Datenpunkt das Gewicht gemäß einer Zahl der oben beschriebenen Wahl, vorzugsweise Null, zugeordnet bekommt, dieser Cluster auch in allen weiteren EM-Schritten für diesen Datenpunkt das Gewicht Null zugeordnet bekommen wird. Somit wird eine sinnvolle Beseitigung von überflüssigen numerischen Aufwand gewährleistet, indem beispielsweise entsprechende Ergebnisse von einem EM-Schritt zum nächsten zwischengespeichert werden und nur für die Cluster, die nicht das Gewicht Null haben, bearbeitet werden.
  • Es ergeben sich die Vorteile, dass aufgrund des Bearbeitungabbruchs beim Auftreten von Cluster mit Null Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch für alle weiteren Schritte, besonders bei der Bildung des Produkts im Inferenzschritt, das Lernverfahren insgesamt deutlich beschleunigt wird.
  • Im Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung werden Zugehörigkeitswahrscheinlichkeiten zu bestimmten Klassen nur bis zu einem vorgebbaren Wert oder einem Wert Null oder nahezu 0 in einem iterativen Verfahren berechnet, und die Klassen mit Zugehörigkeitswahrscheinlichkeiten unterhalb eines auswählbaren Wertes im iterativen Verfahren nicht weiter verwendet.
  • Es wird bevorzugt, dass die vorgegebenen Daten Cluster bilden.
  • Ein geeignetes iteratives Verfahren würde das Expectation Maximisation Verfahren sein, in dem auch ein Produkt aus Zugehörigkeitsfaktoren berechnet wird.
  • In einer Weiterbildung des Verfahrens wird eine Reihenfolge der zu berechnenden Faktoren derart ausgewählt, dass der Faktor, der zu einem selten auftretenden Zustand einer Variabel gehört, als erstes bearbeitet wird. Dabei können die selten auftretenden Werte vor Beginn der Bildung des Produkts derart in einer geordneten Liste gespeichert werden, dass die Variabeln je nach Häufigkeit des Auftretens einer Null in der Liste geordnet sind.
  • Es ist weiterhin vorteilhaft, eine logarithmische Darstellung von Wahrscheinlichkeitstafeln zu benutzen.
  • Es ist weiterhin vorteilhaft, eine dünne Darstellung (Sparse Representation) der Wahrscheinlichkeitstafeln zu benutzen, z.B. in Form einer Liste, die nur die von Null verschiedenen Elemente enthält.
  • Ferner werden bei der Berechnung von Sufficient Statistics nur noch die Cluster berücksichtigt, die ein von Null verschiedenes Gewicht haben.
  • Die Cluster, die ein von Null verschiedenes Gewischt haben, können in eine Liste gespeichert werden, wobei die in der Liste gespeicherte Daten Pointer zu den entsprechenden Cluster sein können.
  • Das Verfahren kann weiterhin ein Expectation Maximisation Lernprozess sein, bei dem im Fall dass für ein Datenpunkt ein Cluster ein a posteriori Gewicht Null bekommt, dieser Cluster in allen weiteren Schritten des EM-Verfahrens für diesen Datenpunkt das Gewicht Null derart erhält, dass dieser Cluster in allen weiteren Schritten nicht mehr berücksichtigt werden muss.
  • Das Verfahren kann dabei nur noch über Cluster laufen, die ein von Null verschiedenes Gewicht haben.
  • Die Erfindung wird zunächst anhand Ausführungsbeispielen näher erläutert.
  • Dabei zeigt
  • 1 ein Schema für die Ausführung der in Anspruch 1 umfassten Erfindung
  • 2 ein Schema zum Umspeichern von Variabeln je nach Häufigkeit ihrer Erscheinung
  • 3 Die ausschließliche Berücksichtigung von Cluster, die ein von NULL verschiedenen Gewicht erhalten haben
  • I. Erstes Ausführungsbeispiel in einem Inferenzschritt
  • a). Bildung eines Gesamtproduktes mit Unterbrechung bei Nullwert
  • In 1 ist ein Schema gezeigt, in dem für jeden Cluster ωi in einem Inferenzschritt die Bildung eines Gesamtproduktes 3 durchgeführt wird. Sobald aber die erste Null 2b in den dazu gehörenden Faktoren 1, welche beispielsweise aus einem Speicher, Array oder einer Pointerliste herausgelesen werden können, auftritt, wird die Bildung des Gesamtproduktes 3 abgebrochen (Ausgang). Im Falle eines Nullwertes wird dann das zu dem Cluster gehörende a posteriori Gewicht auf Null gesetzt. Alternativ kann auch zuerst geprüft werden, ob zumindest einer der Faktoren in dem Produkt Null ist. Dabei werden alle Multiplikationen für die Bildung des Gesamtproduktes nur dann durchgeführt, wenn alle Faktoren von Null verschieden sind.
  • Wenn hingegen bei einem zu dem Gesamtprodukt gehörender Faktor kein Nullwert auftritt, dargestellt mit 2a, wird die Bildung des Produktes 3 wie normal fortgeführt und der nächste Faktor 1 aus dem Speicher, Array oder der Pointerliste herausgelesen und zur Weiterbildung des Produktes 3 mit der Bedingung 2 verwendet.
  • b). Vorteile der Unterbrechung der Bildung des Gesamtproduktes beim Auftritt Nullwerten
  • Da der Inferenzschritt nicht unbedingt Teil eines EM-Lernverfahrens sein muss, ist diese Optimierung auch in anderen Erkennungs- und Prognoseverfahren, in denen ein Inferenzschritt benötigt wird, von besonders großer Bedeutung, z.B. bei der Erkennung eines optimalen Angebots im Internet für ein Kunde, dessen Informationen vorliegen. Auf dieser Grundlage können gezielte Marketing Strategien erzeugt werden, wobei die Erkennungs- bzw. Klassifizierungsfähigkeiten zu automatischen Reaktionen führen, die beispielsweise Informationen an einen Kunden senden.
  • c). Auswahl einer geeigneten Reihenfolge zur Beschleunigung der Datenverarbeitung
  • In 2 wird eine bevorzugte Weiterbildung des erfinderischen Verfahrens gezeigt, bei der eine geschickte Reihenfolge derart gewählt wird, dass, falls ein Faktor in dem Produkt Null ist, dargestellt mit 2a, dieser Faktor mit hoher Wahr scheinlichkeit sehr bald als einer der ersten Faktoren in dem Produkt auftritt. Somit kann die Bildung des Gesamtproduktes 3 sehr bald abgebrochen werden. Die Festlegung der neuen Reihenfolge 1a kann dabei entsprechend der Häufigkeit, mit der die Zustände der Variablen in den Daten auftreten, erfolgen. Dabei wird z.B. ein Faktor der zu einer sehr selten auftretenden Zustand einer Variable gehört, als erstes bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet werden, kann somit einmal vor dem Start des Lernverfahrens festgelegt werden, indem die Werte der Variablen in einer entsprechend geordneten Liste 1a gespeichert werden.
  • d). Logarithmische Darstellung der Tafeln
  • Um den Rechenaufwand des oben genannten Verfahrens möglichst einzuschränken, wird vorzugsweise eine logarithmische Darstellung der Tafeln benutzt, um beispielsweise Underflow-Probleme zu vermeiden. Mit dieser Funktion können ursprünglich Null-Elemente zum Beispiel durch einen positiven Wert ersetzt werden. Somit ist eine aufwendige Verarbeitung bzw. Trennungen von Werten, die nahezu Null sind und sich voneinander durch einen sehr geringen Abstand unterscheiden, nicht weiter notwendig.
  • e). Umgehung von erhöhter Summierung bei der Berechnung von Sufficient Statistics
  • Im Falle, dass die dem Lernverfahren zugegebenen stochastischen Variablen eine geringe Zugehörigkeitswahrscheinlichkeit zu einem bestimmten Cluster besitzen, werden im Laufe des Lernverfahrens viele Cluster das a posteriori Gewicht Null haben. Um auch das Akkumulieren der Sufficient Statistics in dem darauffolgenden Schritt zu beschleunigen werden nur noch solche Cluster in diesem Schritt berücksichtigt, die ein von Null verschiedenes Gewicht haben. Dabei ist es vorteilhaft, die Leistung des erfinderischen Lernverfahrens derart zu erhöhen, dass die von Null verschiedenen Cluster in einer Lis te, einem Array oder einer ähnlichen Datenstruktur zugeordnet und gespeichert werden, die es erlaubt, nur die von Null verschiedenen Elemente zu speichern.
  • II. Zweites Ausführungsbeispiel in einem EM Lernverfahren
  • a). Nicht-Berücksichtigung von Cluster mit Null-Zuordnungen für einen Datenpunkt
  • Insbesondere wird hier in einem EM-lernverfahren von einem Schritt des Lernverfahrens zum nächsten Schritt gespeichert, welche Cluster durch Auftreten von Nullen in den Tafeln noch erlaubt sind und welche nicht mehr. Wo im ersten Ausführungsbeispiel, Cluster, die durch Multiplikation mit Null ein a posteriori Gewicht Null erhalten, aus allen weiteren Berechnungen ausgeschlossen werden, um dadurch numerischen Aufwand zu sparen, werden in dieser Ausführung der Erfindung auch von einem EM-Schritte zum nächsten Zwischenergebnisse bezüglich Cluster-Zugehörigkeiten einzelner Datenpunkte (welche Cluster bereits ausgeschlossen bzw. noch zulässig sind) in zusätzlich notwendigen Datenstrukturen gespeichert. Dies macht Sinn, da sich zeigen lässt, dass ein Cluster, der für einen Datenpunkt in einem EM-Schritt das Gewicht Null bekommen hat, auch in allen weiteren Schritten das Gewicht Null bekommen wird.
  • In 3 wird konkret der Fall gezeigt, bei dem im Falle dass ein Datenpunkt 4 mit einer nahezu Null-Wahrscheinlichkeit 2a einem Cluster zugeordnet wird, kann der Cluster im nächsten Schritt des Lernverfahrens 5a + 1, wo die Wahrscheinlichkeit dieser Zuordnung des Datenpunktes noch mal berechnet wird, wieder sofort auf Null gesetzt werden. Somit muss ein Cluster, der in einem EM-Schritt 5a für einen Datenpunkt 4 ein Gewicht Null über 2a erhalten hat, nicht nur innerhalb des aktuellen EM-Schrittes, 5a, nicht weiter berücksichtigt werden, sondern wird in allen weiteren EM-Schritten 5a + n, wo n die Anzahl der Verwendeten EM-Schritte darstellt (nicht gezeigt), dieser Cluster über 2a auch nicht mehr be rücksichtigt. Die Berechnung einer Zugehörigkeit eines Datenpunktes zu einem neuen Cluster kann dann über 4 wieder fortgesetzt werden. Eine nahezu nicht Null-Zugehörigkeit eines Datenpunktes 4 zu einem Cluster führt zu einer fortgesetzten Kalkulation über 2b zum nächsten EM-Schritt 5a + 1.
  • b). Speichern einer Liste mit Referenzen auf relevante Cluster
  • Für jeden Datenpunkt kann zunächst eine Liste oder eine ähnliche Datenstruktur gespeichert werden, die Referenzen auf die relevanten Cluster enthält, die für diesen Datenpunkt ein von Null verschiedenes Gewicht bekommen haben. Hierbei wird gewährleistet, dass in allen Operationen bzw. Verfahrensschritten bei der Bildung des Gesamtproduktes und das Akkumulieren der Sufficient Statistics, die Schleifen dann nur noch über die noch zulässigen bzw. relevanten Cluster laufen.
  • Insgesamt werden in diesem Ausführungsbeispiel nur noch die erlaubten Cluster, allerdings für jeden Datenpunkt in einem Datensatz, gespeichert.
  • III. Weiteres Ausführungsbeispiel
  • Hier wird eine Kombination der bereits genannten Ausführungsbeispiele herangezogen. Eine Kombination der beiden Ausführungsbeispiele ermöglicht den Abbruch bei Null Gewichten im Inferenzschritt, wobei in weiteren EM Schritten nur noch die zulässigen Cluster nach dem zweiten Ausführungsbeispiel berücksichtigt werden.
  • Somit wird ein insgesamt optimiertes EM-Lernverfahren erzeugt. Da die Anwendung von Cluster-Modellen für Erkennungs- und Prognoseverfahren allgemein herangezogen wird ist eine Optimierung nach der erfinderischen Art von besonderem Vorteil und Wert.
  • IV. Anordnung zur Durchführung des erfinderischen Verfahrens
  • Das erfinderische Verfahren nach einem oder allen Ausführungsbeispielen kann grundsätzlich mit einer geeigneten Rechner- und Speicheranordnung vollzogen werden. Die Rechner-Speicheranordnung sollte dabei mit einem Computerprogramm ausgestattet sein, welcher die Verfahrensschritte ausführt. Der Computerprogramm kann auch auf einem Datenträger wie z.B. einem CD-ROM gespeichert sein und somit auf andere Rechnersysteme übertragen und ausgeführt werden.
  • Eine Weiterbildung der genannten Rechner- und Speicheranordnung besteht in der zusätzlich Anordnung einer Ein- und Ausgabeeinheit. Dabei können die Eingabeeinheiten über Sensoren, Detektoren, Eingabetastatur oder Server, Informationen eines Zustandes eines beobachteten Systems, wie z.B. die Menge von Zugriffe auf eine Internetseite, in die Rechneranordnung, bspw. zum Speicher, übertragen. Die Ausgabeeinheit würde dabei aus einer Hardware bestehen, welche die Signale der Resultate der Verarbeitung nach dem erfinderischen Verfahren speichert oder auf einem Bildschirm abbildet. Eine automatische, elektronische Reaktion, bspw. das Versenden einer bestimmten Email entsprechend der Auswertung nach dem erfinderischen Verfahren, ist auch denkbar.
  • V. Anwendungsbeispiel
  • Die Erfassung von Statistiken bei der Nutzung einer Web-Site, oder die Analyse von Web-Traffic, ist heute auch bekannt unter dem Stichwort Web-Mining. Ein durch das Lernverfahren aufgefundener Cluster kann beispielsweise ein typisches Verhalten vieler Internet-Benutzer wiederspiegeln. Das Lernverfahren ermöglicht beispielsweise die Erkennung, dass alle Besucher aus einer Klasse, bzw. welche dem vom Lernverfahren aufgefundenen Cluster zugeordnet wurden, beispielsweise nicht länger als eine Minute in einer Session bleiben und zumeist nur eine Seite abrufen.
  • Es können auch statistische Informationen zu den Besuchern einer Web-Site ermittelt werden, die über eine Freitext-Suchmaschine (freetext search) auf die analysierte Webseite kommen. Viele dieser Benutzer fordern beispielsweise nur ein Dokument an. Sie könnten beispielsweise zumeist Dokumente aus dem Bereich freeware und hardware abfragen. Das Lernverfahren kann die Zuordnung der Besucher, die von einer Suchmaschine kommen, zu verschiedenen Cluster ermitteln. Dabei sind einige Cluster bereits nahezu ausgeschlossen, wobei ein anderes Cluster ein verhältnismäßig hohes Gewicht erhalten kann.
  • Im Rahmen dieses Dokuments sind folgende Veröffentlichungen zitiert:
    • [1] Sufficient, Complete, Ancillary Statistics, erhältlich am 28.08.01 bei der Internet-Adresse http://www.math.uah.edu/star/point/point6.html
    • [2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Databases. Technical Report MSR-TR-99-31, Microsoft Research, May, 1999 (Revised February, 2001), erhältlich am 14.11.2001 bei der Internet-Adresse: http://www.research.microsoft.com/~heckerman/
    • [3] D. Heckermann, A Tutorial on Learning With Bayesian Networks, erhältich am 18.03.2002 bei der ftp-Adresse: ftp://ftp.research.microsoft.com/pub/tr/tr-95-06.pdf
    • [4] David Maxwell Chickering und David Heckerman, erhältich am 18.03.2002 Internet-Adresse: http://www.research.microsoft.com/scripts/pubs/view.asp? TR ID=MSR-TR-2000-15
    • [5] M.A. Tanner, Tools for Statistical Inference, Springer, New York, 1996

Claims (16)

  1. Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung (1), bei dem Zugehörigkeitswahrscheinlichkeiten (2) zu auswählbare Klassen nur bis zu einem vorgebbaren Wert (A) in einem iterativen Verfahren berechnet werden und die Klassen mit Zugehörigkeitswahrscheinlichkeiten unterhalb eines auswählbaren Wertes (B) im iterativen Verfahren nicht weiter verwendet werden.
  2. Verfahren nach Anspruch 1, bei dem der vorgebbare Wert (A) Null ist.
  3. Verfahren nach einem der Ansprüche 1 oder 2, bei dem die vorgegebenen Daten Cluster bilden.
  4. Verfahren nach Anspruch einem der Ansprüche 1 bis 3, bei dem das iterative Verfahren ein Expectation Maximisation Algorithmus umfasst.
  5. Verfahren nach Anspruch 4, bei dem ein Produkt (3) aus Wahrscheinlichkeitsfaktoren berechnet wird.
  6. Verfahren nach Anspruch 5, bei dem die Berechnung des Produktes abgebrochen wird, sobald ein auswählbarer Wert nahezu 0 (A) in den zum Produkt gehörenden Faktoren auftritt.
  7. Verfahren nach einem der Ansprüche 4 oder 5, bei dem eine Reihenfolge der zu berechnenden Faktoren derart ausgewählt wird, dass der Faktor, der zu einer in den Daten selten auftretenden Variabel gehört, als erster bearbeitet wird.
  8. Verfahren nach Anspruch 7, bei dem die selten auftretenden Werte vor Beginn der Bildung des Produkts derart in einer geordneten Liste (1a) gespeichert werden, dass die Variabeln je nach Häufigkeit Ihrer Erscheinung in der Liste geordnet sind.
  9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem eine logarithmische Darstellung von Wahrscheinlichkeitstafeln benutzt wird.
  10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem eine dünne Darstellung von Wahrscheinlichkeitstafeln unter Nutzung einer Liste, die nur die von Null verschiedenen Elemente enthält, verwendet wird.
  11. Verfahren nach einem der Ansprüche 1 bis 10, bei dem Sufficient Statistics berechnet werden.
  12. Verfahren nach Anspruch 11, bei dem bei der Berechnung von Sufficient Statistics nur noch die Cluster berücksichtigt werden, die ein von Null verschiedenes Gewicht haben.
  13. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die Cluster, die ein von Null verschiedenes Gewischt haben, in eine Liste gespeichert werden.
  14. Verfahren nach einem der Ansprüche 1 bis 9, das in einem Expectation Maximisation Lernprozess verwendet wird, bei dem im Fall dass für ein Datenpunkt ein Cluster ein a posteriori Gewicht Null bekommt, dieser Cluster in allen weiteren Schritten für diesen Datenpunkt das Gewicht Null derart erhält, dass dieser Cluster in allen weiteren EM-Verfahrensschritten nicht mehr berücksichtigt werden muss.
  15. Verfahren nach Anspruch 13, bei dem für jeden Datenpunkt eine Liste von Referenzen auf Cluster die ein von Null verschiedenes Gewicht haben, gespeichert wird.
  16. Verfahren nach einem der Ansprüche 10 oder 11, bei dem das iterative Verfahren nur noch über Cluster läuft, die ein von Null verschiedenes Gewicht haben.
DE10233609A 2002-07-24 2002-07-24 Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung Withdrawn DE10233609A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10233609A DE10233609A1 (de) 2002-07-24 2002-07-24 Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
US10/489,366 US20040249488A1 (en) 2002-07-24 2003-07-23 Method for determining a probability distribution present in predefined data
AU2003260245A AU2003260245A1 (en) 2002-07-24 2003-07-23 Method for determining a probability distribution present in predefined data
EP03787314A EP1627324A1 (de) 2002-07-24 2003-07-23 Verfahren zur ermittlung einer in vorgegebenen daten vorhandenen wahrscheinlichkeitsverteilung
JP2004528430A JP2005527923A (ja) 2002-07-24 2003-07-23 与えられたデータに存在する確率分布を求めるための方法
PCT/DE2003/002484 WO2004017224A2 (de) 2002-07-24 2003-07-23 Verfahren zur ermittlung einer in vorgegebenen daten vorhandenen wahrscheinlichkeitsverteilung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10233609A DE10233609A1 (de) 2002-07-24 2002-07-24 Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung

Publications (1)

Publication Number Publication Date
DE10233609A1 true DE10233609A1 (de) 2004-02-19

Family

ID=30469060

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10233609A Withdrawn DE10233609A1 (de) 2002-07-24 2002-07-24 Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung

Country Status (6)

Country Link
US (1) US20040249488A1 (de)
EP (1) EP1627324A1 (de)
JP (1) JP2005527923A (de)
AU (1) AU2003260245A1 (de)
DE (1) DE10233609A1 (de)
WO (1) WO2004017224A2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101581A2 (de) 2001-06-08 2002-12-19 Siemens Aktiengesellschaft Statistische modelle zur performanzsteigerung von datenbankoperationen
CN103116571B (zh) * 2013-03-14 2016-03-02 米新江 一种确定多个对象权重的方法
US10599953B2 (en) 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583500A (en) * 1993-02-10 1996-12-10 Ricoh Corporation Method and apparatus for parallel encoding and decoding of data
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6385172B1 (en) * 1999-03-19 2002-05-07 Lucent Technologies Inc. Administrative weight assignment for enhanced network operation
US6694301B1 (en) * 2000-03-31 2004-02-17 Microsoft Corporation Goal-oriented clustering
US6922660B2 (en) * 2000-12-01 2005-07-26 Microsoft Corporation Determining near-optimal block size for incremental-type expectation maximization (EM) algorithms
US20030028564A1 (en) * 2000-12-19 2003-02-06 Lingomotors, Inc. Natural language method and system for matching and ranking documents in terms of semantic relatedness
US7003158B1 (en) * 2002-02-14 2006-02-21 Microsoft Corporation Handwriting recognition with mixtures of Bayesian networks
US6988107B2 (en) * 2002-06-28 2006-01-17 Microsoft Corporation Reducing and controlling sizes of model-based recognizers
US7133811B2 (en) * 2002-10-15 2006-11-07 Microsoft Corporation Staged mixture modeling
US7184591B2 (en) * 2003-05-21 2007-02-27 Microsoft Corporation Systems and methods for adaptive handwriting recognition
US7225200B2 (en) * 2004-04-14 2007-05-29 Microsoft Corporation Automatic data perspective generation for a target variable

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
CHICKERING, D.M. *
CHICKERING, D.M.; HECKERMAN, D.: Fast Learning from Sparse Data. Technical Report MSR-TR-00-15 (online). 1999. Im Internet: <URL: http://research .microsoft.com/research/pubs/view.aspx?tr_id=330>
HECKERMAN, D.: A Tutorial on Learning With Bayesian Networks. Technical Report MSR-TR-95-06 (online). 1995. Im Internet: <URL: http://research .microsoft.com/research/pubs/view.aspx?msr_tr_id=M SR-TR-95-06>
HECKERMAN, D.: A Tutorial on Learning With Bayesian Networks. Technical Report MSR-TR-95-06 (online). 1995. Im Internet: <URL: http://research.microsoft.com/research/pubs/view.aspx?msr_tr_id=MSR-TR-95-06> *
HECKERMAN, D.: Accelera- ting EM for Large Databases. Technical Report MSR-TR-99-31 (online). 1999 (aktualisiert 2001). Im Internet: <URL: http://research.microsoft.com/research/pubs/view.aspx?tr_id=262> *
HECKERMAN, D.: Fast Learning from Sparse Data. Technical Report MSR-TR-00-15 (online). 1999. Im Internet: <URL: http://research.microsoft.com/research/pubs/view.aspx?tr_id=330> *
MEEK, C. *
THIESSON, B. *
THIESSON, B.; MEEK, C.; HECKERMAN, D.: Accelera- ting EM for Large Databases. Technical Report MSR-TR-99-31 (online). 1999 (aktualisiert 2001). Im Internet: <URL: http://research.microsoft.com/r esearch/pubs/view.aspx?tr_id=262>

Also Published As

Publication number Publication date
US20040249488A1 (en) 2004-12-09
WO2004017224A2 (de) 2004-02-26
JP2005527923A (ja) 2005-09-15
EP1627324A1 (de) 2006-02-22
AU2003260245A1 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
DE102018111905A1 (de) Domänenspezifische Sprache zur Erzeugung rekurrenter neuronaler Netzarchitekturen
DE112017006166T5 (de) Verfahren und system zur erzeugung eines multi-relevanten labels
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE112013006650T5 (de) Multi-Layer System zur Symbol-Speicher basierten Kompression von Mustern
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE112016005266T5 (de) Schnelle Musterentdeckung für Protokollanalyse
EP1926081A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
EP3736817A1 (de) Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung
DE202013005812U1 (de) System zum indexieren elektronischer Inhalte
DE102020215650A1 (de) Ontologiebewusste klangklassifizierung
DE10034694B4 (de) Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung
EP1395924A2 (de) Statistische modelle zur performanzsteigerung von datenbankoperationen
DE60213007T2 (de) Unscharf adressierbarer digitaler speicher
DE112016007411T5 (de) Fuzzy-eingabe für autoencoder
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE10320419A9 (de) Datenbank-Abfragesystem und Verfahren zum rechnergestützten Abfragen einer Datenbank
DE10252445A1 (de) Verfahren und Computer-Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank und Verfahren zum rechnergestützten Bilden eines statistischen Abbildes einer Datenbank
DE10233609A1 (de) Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
EP1264253B1 (de) Verfahren und anordnung zur modellierung eines systems
EP0978052A1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
EP3507943B1 (de) Verfahren zur kommunikation in einem kommunikationsnetzwerk
EP3901713A1 (de) Verfahren und system zum betrieb einer technischen anlage mit einem optimalen modell
EP1170678B1 (de) Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze
EP3716058A1 (de) Verfahren zum ansteuern eines geräts mit einem neuen programmcode
EP3637354A1 (de) Verfahren zur suche eines programmcodes für ein elektronisches gerät in einer datenbank

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal
8165 Publication of following application cancelled