-
Die Erfindung betrifft ein Verfahren
zur Erzeugung eines statistischen Modells anhand eines Lernverfahrens.
-
Der zunehmende Verkehr im Internet
ermöglicht
Firmen, die im Internet repräsentiert
sind bzw. Dienste im Internet anbieten, sowohl einen erhöhten Kundschaftskreis
auszunutzen als auch kundenspezifische Informationen anzusammeln.
Dabei werden viele der elektronisch ablaufenden Vorgänge protokolliert
und Benutzerdaten abgespeichert. So betreiben viele Firmen inzwischen
ein CRM-System, in dem sie systematisch Informationen über alle
Kundenkontakte aufnehmen. Der Verkehr auf bzw. Zugang zu Webseiten
wird geloggt und die Vorgänge
in einem Callcenter protokolliert. Dadurch entstehen oft sehr große Datenmengen
die kundenspezifische Informationen verschiedenster Art beinhalten.
-
Dieses führt zum Nachteil, dass zwar
wertvolle Informationen über
Kunden angesammelt, aber aufgrund der oft überwältigenden Menge nur noch mit
großen
Aufwand bearbeitet werden können.
-
Zur Lösung dieses Problems werden
grundsätzlich
statistische Methoden angewendet, insbesondere statistische Lernverfahren,
die beispielsweise nach einer Trainingsphase die Fähigkeit
besitzen, eingegebene Variablen in Klassen zu unterteilen. Das neu
entstandene Feld Datamining bzw. Machine Learning hat es sich insbesondere
zum Ziel gemacht, solche Lernverfahren (wie z.B. Clustering-Verfahren) weiterzuentwickeln
und auf Praxis-relevante Probleme anzuwenden.
-
Dabei lassen sich viele Datamining-Methoden
gezielt auf die Handhabung von Informationen aus dem Internet ausrichten.
-
Bei diesen Verfahren werden große Datenmengen
in wertvolle Informationen, die im Allgemeinen die Datenmenge erheblich
reduzieren, umgesetzt. In einem solchen Verfahren kommen auch viele statistische
Lernverfahren zum Einsatz, zum Beispiel um statistische Abhängigkeitsstrukturen
oder wiederkehrende Muster aus den Daten ablesen zu können.
-
Diese Verfahren weisen allerdings
den Nachteil auf, dass sie numerisch sehr aufwendig sind, obwohl
sie wertvolle Ergebnisse liefern. Die Nachteile werden weiterhin
dadurch strapaziert, dass fehlende Informationen, wie zum Beispiel
Alter eines Kunden oder etwa sein Einkommen, die Bearbeitung der
Daten verkomplizieren und zum Teil auch die gelieferten Informationen
wertlos machen. Der statistisch optimale Umgang mit solchen fehlenden
Informationen ist bis heute sehr aufwendig.
-
Eine weitere Methode zur sinnvollen
Aufteilung von Informationen ist die Erzeugung eines Cluster-Modells,
z.B. mit einem Naive Bayesian Network. Bayesianische Netze werden
durch Wahrscheinlichkeitstafeln parametrisiert. Bei der Optimierung
dieser Tafeln entsteht in der Regel schon nach wenigen Lernschritten
die Schwäche,
dass in den Tafeln viele Nulleinträge eingeordnet werden. Somit
entstehen dünn
besetzte Tafeln (Sparse Tables). Dadurch, dass sich die Tafeln während des
Lernvorgangs ständig ändern, wie
z. B. beim Lernvorgang für
statistische Cluster-Modelle, lassen sich dünne Codierungen von Tafeln
nur sehr schlecht ausnutzen. Dabei führt das wiederholte Auftreten
von Nulleinträgen
in den Wahrscheinlichkeitstafeln zu einem erhöhten und unnötigen Berechnungs-
und Speicheraufwand.
-
Aus diesen Gründen besteht die Notwendigkeit,
die genannten statistischen Lernverfahren schneller und leistungsfähiger zu
konzipieren. Dabei sind sogenannte EM (Expectation Maximisation)-Lernverfahren
von zunehmender Bedeutung.
-
Zur Konkretisierung eines EM Lernverfahrens
im Falle eines Naiven Bayesian Cluster Modells werden im Allgemeinen
die Verfahrensschritte wie folgt ausgeführt.
-
Hier bezeichnet X = {Xk,
k = 1,..., K} einen Satz von K statistischen Variablen (die z.B.
den Feldern einer Datenbank entsprechen können). Die Zustände der
Variablen werden mit kleinen Buchstaben bezeichnet. Die Variable
X1 kann die Zustände x1,1, x1,2, ... annehmen, d. h. X1 ϵ {x1,1, i = 1, ..., L1}.
L1 ist die Anzahl der Zustände der
Variable X1. Ein Eintrag in einem Datensatz
(einer Datenbank) besteht nun aus Werten für alle Variablen, wobei xπ ≡ (x / 1, x / 2,
x / 3, ...) den π-ten
Datensatz bezeichnet. In dem π-ten Datensatz
ist die Variable X1 in dem Zustand x / 1, die Variable
X2 in dem Zustand x / 2, usw. Die Tafel hat
M Einträge,
d. h., {xπ, π = 1, ...,
M}. Zusätzlich
gibt es eine versteckte Variable oder eine Cluster-Variable, die hier
mit Ω bezeichnet
wird; deren Zustände
sind {ωi, i = 1, ..., N}. Es gibt also N Cluster.
-
In einem statistischen Clustering-Modell
beschreibt nun P(Ω)
eine a priori Verteilung; P(ωi) ist das a priori Gewicht des i-ten Clusters
und P(X⏐ωi)beschreibt die Struktur des i-ten Clusters oder
die bedingte Verteilung der beobachtbaren (in der Datenbank enthaltenen)
Größen X =
{Xk, k = 1, ..., K} in dem i-ten Cluster.
Die a priori Verteilung und die bedingten Verteilungen für jedes
Cluster parametrisieren zusammen ein gemeinsames Wahrscheinlichkeitsmodell
auf X ∪ Ω bzw. auf
X.
-
In einem Naiven Bayesian Network
wird vorausgesetzt, dass p(X ⏐ω
i)
mit
faktorisiert werden kann.
-
Im Allgemeinen wird darauf gezielt,
die Parameter des Modells, also die a priori Verteilung p(Ω) und die
bedingten Wahrscheinlichkeitstafeln p(X ⏐ω)derart zu bestimmen, dass
das gemeinsame Modell die eingetragenen Daten möglicht gut wiederspiegelt.
Ein entsprechendes EM-Lernverfahren besteht aus einer Reihe von
Iterationsschritten, wobei in jedem Iterationsschritt eine Verbesserung
des Modells (im Sinne einer sogenannten Likelihood) erzielt wird.
In jedem Iterationsschritt werden neue Parameter pneu(...)
basierend auf den aktuellen oder „alten" Parametern palt(...) geschätzt.
-
Jeder EM-Schritt beginnt zunächst mit
dem E-Schritt, in dem „Sufficient
Statistics" in dafür
bereitgehaltenen Tafeln ermittelt werden. Es wird mit Wahrscheinlichkeitstafeln
begonnen, deren Einträge
mit Null-Werten initialisiert werden. Die Felder der Tafeln werden
im Verlauf des E-Schrittes mit den sogenannten Sufficient Statistics
S(Ω) und
S(X ,Ω) gefüllt, indem
für jeden
Datenpunkt die fehlenden Informationen (die Zuordnung jedes Datenpunktes
zu den Clustern) durch Erwartungswerte ergänzt werden. Der Umgang mit
und die Bildung von Sufficient Statistics ist aus [1] bekannt.
-
Um Erwartungswerte für die Cluster-Variable Ω zu berechnen
ist die a posteriori Verteilung p
alt(w
i⏐X
π) zu
ermitteln. Dieser Schritt wird auch als „Inferenzschritt" bezeichnet.
Im Falle eines Naive Bayesian Network ist die a posteriori Verteilung
für Ω nach der
Vorschrift
für jeden Datenpunkt X
π aus
den eingetragenen Informationen zu berechnen, wobei
1/
Zπ eine
Normierungskonstante ist. Das Wesentliche dieser Berechnung besteht
aus der Bildung des Produkts p
alt(X
/ k⏐ω
i) über
alle k = 1, ..., K . Dieses Produkt muss in jedem E-Schritt für alle Cluster
i = 1,...,N und für alle
Datenpunkte x
π, π = 1, ...,
M gebildet werden. Ähnlich
aufwendig, oft noch aufwendiger, ist der Inferenzschritt für die Annahme
anderer Abhängigkeitsstrukturen
als einem Naive Bayesian Network, und beinhaltet damit die wesentlichen
numerischen Aufwände
des EM-Lernens.
-
Die Einträge in den Tafeln S(Ω) und S(X ,Ω) ändern sich
nach Bildung des obigen Produktes für jeden Datenpunkt xπ, π = 1, ...,
M, da S(ωi) um palt(ωi⏐X
π) für alle i
hochaddiert wird, bzw. eine Summe alle palt(ωi⏐X
π) bildet. Ähnlich wird
S(x , ωi) bzw. S(xk, ωi) für
alle Variabeln k im Falle eines Naive Bayesian Network, jeweils
um palt(ωi⏐X
π) für alle Cluster
i hochaddiert. Dieses schließt
zunächst
den E (Expectation)-Schritt ab. Anhand dieses Schrittes werden neue
Parameter pneu(Ω) und pneu(x ⏐Ω) für das statistische
Modell berechnet, wobei p(x ⏐ωi)
die Struktur des i-ten Cluster oder die bedingte Verteilung der
in der Datenbank enthaltenden Größen X in
diesem i-ten Cluster darstellt.
-
Im M (Maximisation)-Schritt werden
anhand einer allgemeinen log Likelyhood
neue Parameter p
neu(Ω)
und p
neu(X ⏐Ω) welche auf den bereits berechneten
Sufficient Statistics basieren, gebildet. Der M-Schritt bringt keinen
wesentlichen numerischen Aufwand mehr mit sich. Zur allgemeinen
Theorie des EM-Lernen siehe auch [5].
-
Somit ist klar, dass der wesentliche
Aufwand des Algorithmus in dem Inferenzschritt bzw, auf die Bildung
des Produktes
und auf die Akkumulierung
der Sufficient Statistics ruht. Die Bildung von zahlreichen Null-Elementen
in den Wahrscheinlichkeitstafeln p
alt(X ⏐ω
i) bzw. p
alt(X
k⏐ω
i)
lässt sich
jedoch durch geschickte Datenstrukturen und Speicherung von Zwischenergebnissen
von einem EM-Schritt zum nächsten
dazu ausnutzen, die Produkte effizient zu berechen.
-
Eine allgemeine und umfangreiche
Behandlung von Lernverfahren mittels Bayesian Networks befindet
sich in [2], insbesondere wird das Problem von teilweise fehlenden
Daten in [3, Seite 19] und [4] angesprochen. Nachteilig an diesen
Lernverfahren ist, dass dünn
besetzte Tafel (Tafeln mit vielen Null-Einträgen) bearbeitet werden und
somit ein großer
Rechenaufwand verursacht wird, durch den aber keine zusätzliche
Information über
das zu bewertende Datenmodell gewonnen wird.
-
Somit liegt der Erfindung die Aufgabe
zugrunde, ein Verfahren anzugeben, bei dem Nulleinträge in Wahrscheinlichkeitstafeln
derart zu Nutze gemacht werden, dass kein weiterer unnötiger numerischer
oder Rechenaufwand als Nebenprodukt verursacht wird.
-
Die Aufgabe wird durch die Merkmale
des Patentanspruchs 1 gelöst.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
-
Die Erfindung besteht im Wesentlichen
darin, dass bei der Inferenz in einem statistischen Modell oder
in einem Clustering-Modell die Bildung des Ergebnisses, das aus
den Termen von Zugehörigkeitsfunktion
oder bedingten Wahrscheinlichkeitstafeln gebildet wird, wie gewöhnlich vorgegangen
wird, jedoch aber sobald die erste Null in den dazu gehörenden Faktoren
auftritt oder für
ein Cluster bereits nach den ersten Schritten ein Gewicht Null ermittelt
wird, die weitere Berechnung des a posteriori Gewichtes abgebrochen
werden kann. Im Falle dass in einem iterativen Lernverfahren (z.B.
einem EM-Lernprozesses) ein Cluster für einen bestimmten Datenpunkt das
Gewicht Null zugeordnet bekommt, wird dieser Cluster auch in allen
weiteren Schritten für
diesen Datenpunkt das Gewicht Null erhalten, und muss daher auch
in allen weitern Lernschritten nicht mehr berücksichtigt werden.
-
Somit wird eine sinnvolle Beseitigung
der Bearbeitung von irrelevanten Parametern und Daten gewährleistet.
Es ergibt sich der Vorteil, dass aufgrund der Berücksichtigung
allein der relevanten Daten ein schneller Ablauf der Lernverfahren
gewährleistet
wird.
-
Genauer läuft das erfinderische Verfahren wie
folgt ab: die Bildung eines Gesamtproduktes in einem obigem Inferenzschritt,
welcher aus Faktoren von a posteriori Verteilungen von Zugehörigkeitswahrscheinlichkeiten
für alle
eingegebene Datenpunkte besteht, wird wie gewöhnlich durchgeführt, jedoch
aber sobald ein erster vorgebbarer Wert, vorzugsweise Null oder
ein Wert nahezu Null, in den dazu gehörenden Faktoren auftritt, die
Bildung des Gesamtproduktes abgebrochen wird. Es lässt sich weiterhin
zeigen, dass falls in einem EM-Lernprozess ein
Cluster für
einen bestimmten Datenpunkt das Gewicht gemäß einer Zahl der oben beschriebenen Wahl,
vorzugsweise Null, zugeordnet bekommt, dieser Cluster auch in allen
weiteren EM-Schritten für diesen
Datenpunkt das Gewicht Null zugeordnet bekommen wird. Somit wird
eine sinnvolle Beseitigung von überflüssigen numerischen
Aufwand gewährleistet,
indem beispielsweise entsprechende Ergebnisse von einem EM-Schritt
zum nächsten
zwischengespeichert werden und nur für die Cluster, die nicht das
Gewicht Null haben, bearbeitet werden.
-
Es ergeben sich die Vorteile, dass
aufgrund des Bearbeitungabbruchs beim Auftreten von Cluster mit
Null Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch
für alle
weiteren Schritte, besonders bei der Bildung des Produkts im Inferenzschritt,
das Lernverfahren insgesamt deutlich beschleunigt wird.
-
Im Verfahren zur Ermittlung einer
in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
werden Zugehörigkeitswahrscheinlichkeiten zu
bestimmten Klassen nur bis zu einem vorgebbaren Wert oder einem
Wert Null oder nahezu 0 in einem iterativen Verfahren berechnet,
und die Klassen mit Zugehörigkeitswahrscheinlichkeiten
unterhalb eines auswählbaren
Wertes im iterativen Verfahren nicht weiter verwendet.
-
Es wird bevorzugt, dass die vorgegebenen Daten
Cluster bilden.
-
Ein geeignetes iteratives Verfahren
würde das
Expectation Maximisation Verfahren sein, in dem auch ein Produkt
aus Zugehörigkeitsfaktoren
berechnet wird.
-
In einer Weiterbildung des Verfahrens
wird eine Reihenfolge der zu berechnenden Faktoren derart ausgewählt, dass
der Faktor, der zu einem selten auftretenden Zustand einer Variabel
gehört,
als erstes bearbeitet wird. Dabei können die selten auftretenden
Werte vor Beginn der Bildung des Produkts derart in einer geordneten
Liste gespeichert werden, dass die Variabeln je nach Häufigkeit
des Auftretens einer Null in der Liste geordnet sind.
-
Es ist weiterhin vorteilhaft, eine
logarithmische Darstellung von Wahrscheinlichkeitstafeln zu benutzen.
-
Es ist weiterhin vorteilhaft, eine
dünne Darstellung
(Sparse Representation) der Wahrscheinlichkeitstafeln zu benutzen,
z.B. in Form einer Liste, die nur die von Null verschiedenen Elemente
enthält.
-
Ferner werden bei der Berechnung
von Sufficient Statistics nur noch die Cluster berücksichtigt, die
ein von Null verschiedenes Gewicht haben.
-
Die Cluster, die ein von Null verschiedenes Gewischt
haben, können
in eine Liste gespeichert werden, wobei die in der Liste gespeicherte
Daten Pointer zu den entsprechenden Cluster sein können.
-
Das Verfahren kann weiterhin ein
Expectation Maximisation Lernprozess sein, bei dem im Fall dass
für ein
Datenpunkt ein Cluster ein a posteriori Gewicht Null bekommt, dieser
Cluster in allen weiteren Schritten des EM-Verfahrens für diesen
Datenpunkt das Gewicht Null derart erhält, dass dieser Cluster in
allen weiteren Schritten nicht mehr berücksichtigt werden muss.
-
Das Verfahren kann dabei nur noch über Cluster
laufen, die ein von Null verschiedenes Gewicht haben.
-
Die Erfindung wird zunächst anhand
Ausführungsbeispielen
näher erläutert.
-
Dabei zeigt
-
1 ein
Schema für
die Ausführung
der in Anspruch 1 umfassten Erfindung
-
2 ein
Schema zum Umspeichern von Variabeln je nach Häufigkeit ihrer Erscheinung
-
3 Die
ausschließliche
Berücksichtigung von
Cluster, die ein von NULL verschiedenen Gewicht erhalten haben
-
I. Erstes Ausführungsbeispiel
in einem Inferenzschritt
-
a). Bildung eines Gesamtproduktes
mit Unterbrechung bei Nullwert
-
In 1 ist
ein Schema gezeigt, in dem für jeden
Cluster ωi in einem Inferenzschritt die Bildung eines
Gesamtproduktes 3 durchgeführt wird. Sobald aber die erste
Null 2b in den dazu gehörenden
Faktoren 1, welche beispielsweise aus einem Speicher, Array
oder einer Pointerliste herausgelesen werden können, auftritt, wird die Bildung
des Gesamtproduktes 3 abgebrochen (Ausgang). Im Falle eines
Nullwertes wird dann das zu dem Cluster gehörende a posteriori Gewicht
auf Null gesetzt. Alternativ kann auch zuerst geprüft werden,
ob zumindest einer der Faktoren in dem Produkt Null ist. Dabei werden
alle Multiplikationen für
die Bildung des Gesamtproduktes nur dann durchgeführt, wenn
alle Faktoren von Null verschieden sind.
-
Wenn hingegen bei einem zu dem Gesamtprodukt
gehörender
Faktor kein Nullwert auftritt, dargestellt mit 2a, wird die Bildung
des Produktes 3 wie normal fortgeführt und der nächste Faktor
1 aus dem Speicher, Array oder der Pointerliste herausgelesen und
zur Weiterbildung des Produktes 3 mit der Bedingung 2 verwendet.
-
b). Vorteile der Unterbrechung
der Bildung des Gesamtproduktes beim Auftritt Nullwerten
-
Da der Inferenzschritt nicht unbedingt
Teil eines EM-Lernverfahrens
sein muss, ist diese Optimierung auch in anderen Erkennungs- und
Prognoseverfahren, in denen ein Inferenzschritt benötigt wird,
von besonders großer
Bedeutung, z.B. bei der Erkennung eines optimalen Angebots im Internet
für ein Kunde,
dessen Informationen vorliegen. Auf dieser Grundlage können gezielte
Marketing Strategien erzeugt werden, wobei die Erkennungs- bzw.
Klassifizierungsfähigkeiten
zu automatischen Reaktionen führen,
die beispielsweise Informationen an einen Kunden senden.
-
c). Auswahl einer geeigneten
Reihenfolge zur Beschleunigung der Datenverarbeitung
-
In 2 wird
eine bevorzugte Weiterbildung des erfinderischen Verfahrens gezeigt,
bei der eine geschickte Reihenfolge derart gewählt wird, dass, falls ein Faktor
in dem Produkt Null ist, dargestellt mit 2a, dieser Faktor mit hoher
Wahr scheinlichkeit sehr bald als einer der ersten Faktoren in dem
Produkt auftritt. Somit kann die Bildung des Gesamtproduktes 3 sehr
bald abgebrochen werden. Die Festlegung der neuen Reihenfolge 1a kann
dabei entsprechend der Häufigkeit,
mit der die Zustände
der Variablen in den Daten auftreten, erfolgen. Dabei wird z.B.
ein Faktor der zu einer sehr selten auftretenden Zustand einer Variable
gehört,
als erstes bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet
werden, kann somit einmal vor dem Start des Lernverfahrens festgelegt werden,
indem die Werte der Variablen in einer entsprechend geordneten Liste 1a gespeichert
werden.
-
d). Logarithmische Darstellung
der Tafeln
-
Um den Rechenaufwand des oben genannten
Verfahrens möglichst
einzuschränken,
wird vorzugsweise eine logarithmische Darstellung der Tafeln benutzt,
um beispielsweise Underflow-Probleme
zu vermeiden. Mit dieser Funktion können ursprünglich Null-Elemente zum Beispiel
durch einen positiven Wert ersetzt werden. Somit ist eine aufwendige
Verarbeitung bzw. Trennungen von Werten, die nahezu Null sind und
sich voneinander durch einen sehr geringen Abstand unterscheiden,
nicht weiter notwendig.
-
e). Umgehung von erhöhter Summierung
bei der Berechnung von Sufficient Statistics
-
Im Falle, dass die dem Lernverfahren
zugegebenen stochastischen Variablen eine geringe Zugehörigkeitswahrscheinlichkeit
zu einem bestimmten Cluster besitzen, werden im Laufe des Lernverfahrens
viele Cluster das a posteriori Gewicht Null haben. Um auch das Akkumulieren
der Sufficient Statistics in dem darauffolgenden Schritt zu beschleunigen
werden nur noch solche Cluster in diesem Schritt berücksichtigt,
die ein von Null verschiedenes Gewicht haben. Dabei ist es vorteilhaft,
die Leistung des erfinderischen Lernverfahrens derart zu erhöhen, dass
die von Null verschiedenen Cluster in einer Lis te, einem Array oder
einer ähnlichen
Datenstruktur zugeordnet und gespeichert werden, die es erlaubt, nur
die von Null verschiedenen Elemente zu speichern.
-
II. Zweites Ausführungsbeispiel
in einem EM Lernverfahren
-
a). Nicht-Berücksichtigung
von Cluster mit Null-Zuordnungen für einen Datenpunkt
-
Insbesondere wird hier in einem EM-lernverfahren
von einem Schritt des Lernverfahrens zum nächsten Schritt gespeichert,
welche Cluster durch Auftreten von Nullen in den Tafeln noch erlaubt
sind und welche nicht mehr. Wo im ersten Ausführungsbeispiel, Cluster, die
durch Multiplikation mit Null ein a posteriori Gewicht Null erhalten,
aus allen weiteren Berechnungen ausgeschlossen werden, um dadurch numerischen
Aufwand zu sparen, werden in dieser Ausführung der Erfindung auch von
einem EM-Schritte zum nächsten
Zwischenergebnisse bezüglich
Cluster-Zugehörigkeiten
einzelner Datenpunkte (welche Cluster bereits ausgeschlossen bzw. noch
zulässig
sind) in zusätzlich
notwendigen Datenstrukturen gespeichert. Dies macht Sinn, da sich
zeigen lässt,
dass ein Cluster, der für
einen Datenpunkt in einem EM-Schritt das Gewicht Null bekommen hat, auch
in allen weiteren Schritten das Gewicht Null bekommen wird.
-
In 3 wird
konkret der Fall gezeigt, bei dem im Falle dass ein Datenpunkt 4 mit
einer nahezu Null-Wahrscheinlichkeit 2a einem
Cluster zugeordnet wird, kann der Cluster im nächsten Schritt des Lernverfahrens 5a + 1,
wo die Wahrscheinlichkeit dieser Zuordnung des Datenpunktes noch
mal berechnet wird, wieder sofort auf Null gesetzt werden. Somit muss
ein Cluster, der in einem EM-Schritt 5a für einen
Datenpunkt 4 ein Gewicht Null über 2a erhalten hat, nicht
nur innerhalb des aktuellen EM-Schrittes, 5a, nicht weiter
berücksichtigt
werden, sondern wird in allen weiteren EM-Schritten 5a +
n, wo n die Anzahl der Verwendeten EM-Schritte darstellt (nicht
gezeigt), dieser Cluster über
2a auch nicht mehr be rücksichtigt.
Die Berechnung einer Zugehörigkeit
eines Datenpunktes zu einem neuen Cluster kann dann über 4 wieder
fortgesetzt werden. Eine nahezu nicht Null-Zugehörigkeit eines Datenpunktes 4 zu
einem Cluster führt
zu einer fortgesetzten Kalkulation über 2b zum nächsten EM-Schritt 5a + 1.
-
b). Speichern einer Liste
mit Referenzen auf relevante Cluster
-
Für
jeden Datenpunkt kann zunächst
eine Liste oder eine ähnliche
Datenstruktur gespeichert werden, die Referenzen auf die relevanten
Cluster enthält,
die für
diesen Datenpunkt ein von Null verschiedenes Gewicht bekommen haben.
Hierbei wird gewährleistet,
dass in allen Operationen bzw. Verfahrensschritten bei der Bildung
des Gesamtproduktes und das Akkumulieren der Sufficient Statistics,
die Schleifen dann nur noch über
die noch zulässigen bzw.
relevanten Cluster laufen.
-
Insgesamt werden in diesem Ausführungsbeispiel
nur noch die erlaubten Cluster, allerdings für jeden Datenpunkt in einem
Datensatz, gespeichert.
-
III. Weiteres Ausführungsbeispiel
-
Hier wird eine Kombination der bereits
genannten Ausführungsbeispiele
herangezogen. Eine Kombination der beiden Ausführungsbeispiele ermöglicht den
Abbruch bei Null Gewichten im Inferenzschritt, wobei in weiteren
EM Schritten nur noch die zulässigen
Cluster nach dem zweiten Ausführungsbeispiel
berücksichtigt
werden.
-
Somit wird ein insgesamt optimiertes EM-Lernverfahren
erzeugt. Da die Anwendung von Cluster-Modellen für Erkennungs- und Prognoseverfahren
allgemein herangezogen wird ist eine Optimierung nach der erfinderischen
Art von besonderem Vorteil und Wert.
-
IV. Anordnung zur Durchführung des
erfinderischen Verfahrens
-
Das erfinderische Verfahren nach
einem oder allen Ausführungsbeispielen
kann grundsätzlich mit
einer geeigneten Rechner- und Speicheranordnung vollzogen werden.
Die Rechner-Speicheranordnung
sollte dabei mit einem Computerprogramm ausgestattet sein, welcher
die Verfahrensschritte ausführt.
Der Computerprogramm kann auch auf einem Datenträger wie z.B. einem CD-ROM gespeichert
sein und somit auf andere Rechnersysteme übertragen und ausgeführt werden.
-
Eine Weiterbildung der genannten
Rechner- und Speicheranordnung besteht in der zusätzlich Anordnung
einer Ein- und Ausgabeeinheit. Dabei können die Eingabeeinheiten über Sensoren,
Detektoren, Eingabetastatur oder Server, Informationen eines Zustandes
eines beobachteten Systems, wie z.B. die Menge von Zugriffe auf
eine Internetseite, in die Rechneranordnung, bspw. zum Speicher, übertragen.
Die Ausgabeeinheit würde
dabei aus einer Hardware bestehen, welche die Signale der Resultate
der Verarbeitung nach dem erfinderischen Verfahren speichert oder
auf einem Bildschirm abbildet. Eine automatische, elektronische
Reaktion, bspw. das Versenden einer bestimmten Email entsprechend
der Auswertung nach dem erfinderischen Verfahren, ist auch denkbar.
-
V. Anwendungsbeispiel
-
Die Erfassung von Statistiken bei
der Nutzung einer Web-Site, oder die Analyse von Web-Traffic, ist
heute auch bekannt unter dem Stichwort Web-Mining. Ein durch das
Lernverfahren aufgefundener Cluster kann beispielsweise ein typisches
Verhalten vieler Internet-Benutzer wiederspiegeln. Das Lernverfahren
ermöglicht
beispielsweise die Erkennung, dass alle Besucher aus einer Klasse,
bzw. welche dem vom Lernverfahren aufgefundenen Cluster zugeordnet
wurden, beispielsweise nicht länger
als eine Minute in einer Session bleiben und zumeist nur eine Seite
abrufen.
-
Es können auch statistische Informationen zu
den Besuchern einer Web-Site ermittelt werden, die über eine
Freitext-Suchmaschine
(freetext search) auf die analysierte Webseite kommen. Viele dieser
Benutzer fordern beispielsweise nur ein Dokument an. Sie könnten beispielsweise
zumeist Dokumente aus dem Bereich freeware und hardware abfragen.
Das Lernverfahren kann die Zuordnung der Besucher, die von einer
Suchmaschine kommen, zu verschiedenen Cluster ermitteln. Dabei sind
einige Cluster bereits nahezu ausgeschlossen, wobei ein anderes
Cluster ein verhältnismäßig hohes
Gewicht erhalten kann.
-
Im Rahmen dieses Dokuments sind folgende Veröffentlichungen
zitiert:
- [1] Sufficient, Complete, Ancillary
Statistics, erhältlich
am 28.08.01 bei der Internet-Adresse http://www.math.uah.edu/star/point/point6.html
- [2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM
for Large Databases. Technical Report MSR-TR-99-31, Microsoft Research,
May, 1999 (Revised February, 2001), erhältlich am 14.11.2001 bei der
Internet-Adresse: http://www.research.microsoft.com/~heckerman/
- [3] D. Heckermann, A Tutorial on Learning With Bayesian Networks,
erhältich
am 18.03.2002 bei der ftp-Adresse: ftp://ftp.research.microsoft.com/pub/tr/tr-95-06.pdf
- [4] David Maxwell Chickering und David Heckerman, erhältich am
18.03.2002 Internet-Adresse: http://www.research.microsoft.com/scripts/pubs/view.asp?
TR ID=MSR-TR-2000-15
- [5] M.A. Tanner, Tools for Statistical Inference, Springer,
New York, 1996