DE102013225997A1

DE102013225997A1 - Verfahren zum Ermitteln eines Modellwertsaus einem Random-Forest-Modell

Info

Publication number: DE102013225997A1
Application number: DE102013225997.2A
Authority: DE
Inventors: Michael Hanselmann; Bastian Luik; Ernst Kloppenburg
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2015-06-18

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell, mit folgenden Schritten: – Bereitstellen des Random-Forest-Modells als eine Menge von auf Trainingsdaten basierenden Entscheidungsbäumen (10) mit einem Wurzelknoten (12), weiteren Knoten (13) und Endknoten (11), denen jeweils ein Regressionswert (RW) zugeordnet ist; und – Ermitteln eines einem vorgegebenen Testpunkt zugeordneten Modellwerts basierend auf den Regressionswerten (RW) von mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10).

Description

Technisches Gebiet
Die Erfindung betrifft Random-Forest-Modelle zur Modellierung von physikalischen Systemen.
Stand der Technik
Random-Forest-Modelle stellen Verfahren zur Lösung von Regressions- und Klassifikationsproblemen dar und wurden in Breiman, "Random Forest", JMLR, 2001 vorgestellt und beschrieben. Ein Random Forest weist eine hohe Leistungsfähigkeit und Robustheit auf und kann auch sehr hochdimensionale Daten verarbeiten.
Während ein Random Forest im Bereich der Klassifikation sehr populär ist, werden auf einem Random Forest basierende Regressionsverfahren zur Erstellung von Funktionsmodellen eher selten eingesetzt. Im Gegensatz zu herkömmlichen Modellierungsverfahren weisen die Regressionskurven von herkömmlichen Random-Forest-Modellen nämlich Sprünge auf und sind folglich nicht differenzierbar. Diese Sprünge in dem Verlauf der Regressionswerte sind problematisch und mindern die Qualität der Regression. Dadurch werden die Anwendungsmöglichkeiten von Random-Forest-Modellen erheblich eingeschränkt, da beispielsweise auf einem gelernten Random-Forest-Modell keine gradientenbasierte Optimierung durchgeführt werden kann. Wünschenswert wäre jedoch, die Vorteile von Random-Forest-Modellen für die Regression zu nutzen, ohne dass die abgebildeten Verläufe der Regressionswerte Sprünge aufweisen, d. h. dass die Regressionskurve stetig ist.
Offenbarung der Erfindung
Erfindungsgemäß sind ein Verfahren zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell gemäß Anspruch 1 sowie die entsprechende Vorrichtung und das Computerprogrammprodukt gemäß den nebengeordneten Ansprüchen vorgesehen.
Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt ist ein Verfahren zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell vorgesehen, das die folgenden Schritte umfasst:

– Bereitstellen des Random-Forest-Modells als eine Menge von auf Trainingsdaten basierenden Entscheidungsbäumen mit einem Wurzelknoten, weiteren Knoten und Endknoten, denen jeweils ein Regressionswert zugeordnet ist; und
– Ermitteln eines einem vorgegebenen Testpunkt zugeordneten Modellwerts basierend auf den Regressionswerten von mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume.

Zur Erstellung eines Random-Forest-Modells werden mehrere durch Zufallskomponenten erzeugte Entscheidungsbäume generiert. Im Fall von Regressionsproblemen erfolgt die Konstruktion eines einzelnen Entscheidungsbaums durch die Auswahl einer Teilmenge der verfügbaren Trainingsdaten, auf deren Basis der Entscheidungsbaum erstellt wird. Dabei wird ausgehend von der Wurzel in jedem nachfolgenden Knoten eine zufällige Teilmenge der verfügbaren Merkmale ausgewählt und das Merkmal bestimmt, das am besten für eine Aufteilung der dem betreffenden aktuellen Knoten zugeordneten Teilmenge der Trainingsdaten geeignet ist. Die Aufteilung der entsprechenden Teilmenge der Trainingsdaten erfolgt in der Regel anhand eines einfachen Schwellenwertkriteriums. Dabei werden alle dem betrachteten Knoten zugeordneten Trainingsdaten, für die das entsprechende Merkmal größer als ein zu optimierenden Schwellenwert ist, einem ersten Nachfolgeknoten zugeteilt, und alle anderen Trainingsdaten einem zweiten Nachfolgeknoten. Das für die Optimierung des Schwellenwerts verwendete Verfahren kann auf einer Maximierung der Güte der Auftrennung basieren, z. B. kann die gewichtete durchschnittliche Varianz der ausgewählten Trainingsdaten in den Nachfolgeknoten möglichst minimal sein.
Die ausgewählten Trainingsdaten werden an den entsprechenden Knoten des so erstellten Entscheidungsbaums so lange aufgeteilt, bis nur noch eine minimale Anzahl an Trainingsdaten an dem betrachteten Knoten verfügbar ist. Ist die Minimalanzahl erreicht oder unterschritten, so handelt es sich bei dem entsprechenden Knoten um einen Endknoten, dem ein Regressionswert zugeordnet ist, der im Regelfall dem Durchschnittswert der zu modellierenden Messwerte für die diesem Knoten zugeordneten Trainingsdaten entspricht. Die obige Vorgehensweise wird mehrfach durchgeführt, um basierend auf zufällig ausgewählten Teilmengen von Trainingsdaten eine Vielzahl von Entscheidungsbäumen zu erstellen.
Bei der Berechnung eines Modellwerts für einen Testpunkt wird dann jeder der Entscheidungsbäume durchlaufen und jeweils der dem erreichten Endknoten zugeordnete Regressionswert ermittelt. Der Mittelwert dieser so ermittelten Regressionswerte aus allen Entscheidungsbäumen entspricht dann dem Modellwert des Random-Forest-Modells.
Da sich in dem Verlauf von durch das obige Verfahren ermittelten Modellwerten in der Regel bei jedem Wechsel eines resultierenden Endknotens in einem der Entscheidungsbäume ein Sprung ergibt, ist der Verlauf der Modellwerte nicht ableitbar. Eine Idee des obigen Verfahrens besteht nun darin, bei der Ermittlung des Modellwerts einen oder mehrere der weiteren Endknoten der Entscheidungsbäume bzw. die den berücksichtigten Endknoten zugeordneten Regressionswerte zu berücksichtigen, um so die Übergänge von einem resultierenden Endknoten zu einem weiteren Endknoten in mindestens einem Entscheidungsbaum zu glätten. Mit anderen Worten, während bei herkömmlichen Random-Forest-Modellen von jedem Entscheidungsbaum nur exakt ein Regressionswert des resultierenden Endknotens berücksichtigt und der Modellwert z. B. durch Mittelwertbildung der diesen Endknoten zugeordneten Regressionswerte aller Entscheidungsbäume ermittelt wird, wird der Modellwert gemäß dem obigen Verfahren basierend auf Regressionswerten bestimmt, die sich aus der Berücksichtigung von zwei oder mehr Endknoten des mindestens eines Entscheidungsbaums ergeben. Auf diese Weise ist es möglich, die Steigung bzw. den Gradienten der Sprünge des Verlaufs der Modellwerte zu reduzieren oder Sprünge gänzlich zu vermeiden.
Insbesondere kann dadurch erreicht werden, dass Random-Forest-Modelle differenzierbar werden, wodurch das Verfahren auch für Optimierungen, zum Beispiel gemäß einem Gradientenabstiegsverfahren, eingesetzt werden kann. Insgesamt ergibt sich dadurch die vorteilhafte Möglichkeit, die Robustheit und die niedrige Rechenkomplexität von Random-Forest-Modellen mit den Möglichkeiten zu kombinieren, die andere Funktionsmodellen bieten, nämlich z. B. aufgrund ihrer Differenzierbarkeit.
Weiterhin können die den mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume zugeordneten Regressionswerte gewichtet, die gewichteten Regressionswerte anschließend für jeden der Entscheidungsbäume gemittelt und die so erhaltenen gemittelten und gewichteten Regressionswerte über alle Entscheidungsbäume gemittelt werden, um so den Modellwert zu erhalten.
Es kann vorgesehen sein, dass das Gewichten der Regressionswerte der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume basierend auf dem Abstand des Testpunkts von einem Zentrum eines durch den betreffenden zu berücksichtigenden Knoten definierten Unterraums eines Trainingsdatenraums, der durch die Trainingsdaten gebildet wird, vorgenommen wird.
Weiterhin kann für den Testpunkt jeder der Entscheidungsbäume durchlaufen werden, um jeweils den dem Testpunkt zugeordneten Endknoten zu bestimmen, wobei das Gewichten der Regressionswerte der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume basierend auf einem Partnerknoten des Endknotens durchgeführt wird, wobei der Regressionswert zu dem dem Testpunkt zugeordneten Endknoten und der Regressionswert zu dem Partnerknoten des Endknotens jeweils abhängig von einem Abstand des Testpunkts von dem Zentrum des durch den Endknoten bzw. den Partnerknoten definierten Unterraums gewichtet wird.
Es kann vorgesehen sein, dass das Gewichten der Regressionswerte der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume, insbesondere mehrerer oder aller Endknoten jedes der Entscheidungsbäume, basierend auf einer Gewichtungsfunktion erfolgt.
Insbesondere kann die Gewichtungsfunktion eine Exponentialfunktion aufweisen, die für jede Dimension der Trainingdaten die Abstände des Testpunkts von dem Zentrum jedes Unterraums jedes der mehreren zu berücksichtigenden Knoten sowie eine jeweilige Varianz abhängig von einer Ausdehnung jedes Unterraums jedes der mehreren zu berücksichtigenden Knoten berücksichtigt.
Alternativ kann für den Testpunkt jeder der Entscheidungsbäume durchlaufen werden, wobei an jedem Knoten, der keinem Endknoten entspricht, eine Fuzzy-Entscheidung getroffen wird, so dass jeder Verzweigung an einem Knoten ein Fuzzy-Entscheidungswert zugeordnet wird, wobei den Endknoten ein Produkt aller Fuzzy-Entscheidungswerte auf einem Entscheidungspfad zwischen dem betreffenden Endknoten und dem Wurzelknoten als ein Fuzzy-Gewichtungswert zugeordnet wird, mit dem die den Endknoten zugeordneten Regressionswerte gewichtet werden.
Gemäß einer Ausführungsform kann das Random-Forest-Modell mit mehreren Entscheidungsbäumen erstellt werden, wobei jeder Entscheidungsbaum durch folgende Schritte generiert wird:

– zufälliges Auswählen einer Teilmenge von bereitgestellten Trainingsdaten;
– von einem Wurzelknoten ausgehendes Auswählen einer zufälligen Teilmenge von verfügbaren Merkmalen für den Wurzelknoten und jeden weiteren Knoten, der kein Endknoten ist;
– Definieren eines Schwellenwertkriteriums für den Wurzelnoten und jeden weiteren Knoten basierend auf einer Güte einer Auftrennung der an dem betreffenden Knoten betrachteten Trainingsdaten; und
– Zuordnen eines Regressionswerts zu jedem Endknoten als Durchschnittswert von zu modellierenden Messwerten für die diesem Knoten zugeordneten Trainingsdaten.

Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell vorgesehen, wobei die Vorrichtung ausgebildet ist, um:

– das Random-Forest-Modell als eine Menge von auf Trainingsdaten basierenden Entscheidungsbäumen mit einem Wurzelknoten, weiteren Knoten und Endknoten, denen jeweils ein Regressionswert zugeordnet ist, bereitzustellen; und
– einen einem vorgegebenen Testpunkt zugeordneten Modellwert basierend auf den Regressionswerten von mehreren Knoten jedes der Entscheidungsbäume zu ermitteln.

Kurzbeschreibung der Zeichnungen
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
1 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erstellen eines Random-Forest-Modells;
2 eine Darstellung eines Entscheidungsbaums, der entsprechend dem Verfahren der 1 erstellt wird;
3 eine Darstellung einer Unterteilung der Trainingsdaten durch den Entscheidungsbaum der 2 bei einem zweidimensionalen Trainingsdatenraum;
4 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell;
5 ein Flussdiagramm zur Veranschaulichung eines weiteren Verfahrens zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell;
6 eine Veranschaulichung einer Aufteilung eines Trainingsdatenraums in Unterräume sowie eine Darstellung der Ermittlung der Varianzen für die Gewichtungsfunktion; und
7 ein Flussdiagramm zur Veranschaulichung eines weiteren Verfahrens zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell.
Beschreibung von Ausführungsformen
Anhand des Flussdiagramms der 1 und der Darstellung eines Entscheidungsbaums der 2 wird nachfolgend ein Verfahren zum Erstellen eines Random-Forest-Modells beschrieben. Beim Erstellen eines Random-Forest-Modells werden zunächst Entscheidungsbäume 10 generiert, die Endknoten 11 aufweisen, denen jeweils ein Regressionswert RW zugeordnet ist. Dazu wird in Schritt S1 eine Teilmenge von bereitgestellten Trainingsdaten zufällig ausgewählt. Die Auswahl der einzelnen Trainingsdaten kann mit Zurücklegen erfolgen.
Die Trainingsdaten wurden zuvor in einem Testlauf durch möglichst raumfüllendes Durchfahren von Wertebereichen von zuvor bestimmten Eingangsgrößen und Ermitteln eines entsprechenden Messwerts für jeden Trainingsdatenpunkt der Trainingsdaten bestimmt. Der Messwert an einem Trainingsdatenpunkt wird nachfolgend auch als zu modellierender Messwert bezeichnet.
In Schritt S2 wird ausgehend von einem Wurzelknoten 12 für jeden weiteren Knoten 13, der kein Endknoten 11 ist, eine zufällige Teilmenge von verfügbaren Merkmalen ausgewählt, und das am besten für eine Aufteilung der zuvor ausgewählten Trainingsdaten im aktuellen Knoten geeignete Merkmal x₁, x₂, ... bestimmt. Ein Merkmal x₁, x₂, ... entspricht in der Regel einer Eingangsgröße, zu der ein Schwellwertkriterium ermittelt wird.
In Schritt S3 wird dem Merkmal x₁, x₂, ... des Wurzelknotens 12 und den Merkmalen x₁, x₂, ... der weiteren Knoten 13 jeweils ein Schwellenwert S1, S2 ... Sn zugeordnet, der zu einer Aufteilung einer dem aktuellen Knoten 12, 13 zugeordneten Untermenge der ausgewählten Trainingsdaten führt. Dabei wird die Güte der Auftrennung optimiert. Ein Maß für eine Güte der Auftrennung kann die gewichtete durchschnittliche Varianz der aufgeteilten Trainingsdaten aus der Menge der ausgewählten Trainingsdaten in dem aktuellen Knoten 12, 13 sein, die zur Optimierung minimiert werden muss.
Die Aufteilung der einem Knoten 12, 13 zugeordneten Menge bzw. Untermenge von ausgewählten Trainingsdaten in aufgeteilte weitere Untermengen von ausgewählten Trainingsdaten in jeweiligen Nachfolgeknoten erfolgt so lange, bis nur noch eine vorgegebene Anzahl von Trainingsdaten in dem zuletzt erstellten Knoten verfügbar ist. Diese Knoten stellen die Endknoten 11 des Entscheidungsbaums 10 dar.
Jeder Endknoten 11 entspricht dann einem Raumbereich R1, R2 (der Dimension der Eingangsgrößen). Für jeden der Endknoten 11 wird in einem nachfolgenden Schritt S4 ein Regressionswert RW als Durchschnittswert der zu modellierenden Messwerte für die Trainingsdaten bestimmt, die diesem Knoten 11 zugeordnet sind.
In Schritt S5 wird überprüft, ob eine vorgegebene Anzahl von Entscheidungsbäumen 10 generiert worden ist. Ist dies nicht der Fall (Alternative: Nein), so wird zu Schritt S1 zurückgesprungen und ein weiterer Entscheidungsbaum 10 generiert. Ist eine ausreichende Anzahl von Entscheidungsbäumen 10 generiert worden, deren jeweiligen Endknoten 11 jeweils ein durchschnittlicher Regressionswert RW zugeordnet ist, so wird das Verfahren gemäß einer der nachfolgend beschriebenen Varianten fortgesetzt.
Bei herkömmlichen Random-Forest-Modellen werden nun für einen bestimmten vorgegebenen Testpunkt die Entscheidungsbäume 10 durchlaufen und es wird ein Endknoten 11 jedes Entscheidungsbaums 10 bestimmt, dem dieser Testpunkt zugeordnet ist. Die dem so bestimmten Endknoten 11 zugeordneten Regressionswerte RW jedes Entscheidungsbaums 10 werden zur Bestimmung eines Modellwerts in einer Mittelwertbildung miteinander verknüpft. Für einen Verlauf von Testpunkten führt ein solches herkömmliches Random-Forest-Modell jedoch zu einem sprunghaften Verlauf der Modellwerte, so dass das Random-Forest-Modell nicht differenzierbar ist. Dadurch können herkömmliche Optimierungsverfahren, wie beispielsweise ein Gradientenabstiegsverfahren und dergleichen, nicht angewendet werden, da diese auf einer Differenzierung der Modellfunktion basieren. Im Folgenden werden drei Varianten beschrieben, die es ermöglichen, den Verlauf der Modellwerte zu glätten. Den Varianten ist gemeinsam, dass anstelle der Mittelwertbildung der Regressionswerte RW genau eines Endknotens 11 der Entscheidungsbäume 10 die Regressionswerte RW von mehreren oder allen Endknoten 11 jedes Entscheidungsbaums 10 berücksichtigt werden.
Gemäß einem ersten Verfahren, das durch die Fortsetzung des Flussdiagramms der 1 in 4 dargestellt ist, wird in Schritt S10 in jedem Entscheidungsbaum 10 jeweils der Endknoten 11 bestimmt, der dem Testpunkt x zugeordnet ist. Weiterhin wird in Schritt S11 für jeden der so bestimmten Endknoten 11 dessen Partnerknoten ermittelt, der als ein auf der gleichen hierarchischen Stufe im Entscheidungsbaum 10 liegender Nachbarknoten des bestimmten Endknotens 11 definiert ist. Der Partnerknoten entspricht also einem Knoten, der dem anderen Kindknoten des Elternknotens des bestimmten Endknotens 11 entspricht. Der Partnerknoten kann sowohl ein weiterer Endknoten 11 als auch ein weiterer Knoten 13 des jeweiligen Entscheidungsbaums 10 sein.
Bei einem Testpunkt x und bei vorgegebenen Zentren des bestimmten Endknotens k₁ und des zugehörigen Partnerknotens k₂ im Merkmalsraum gilt Folgendes:
Die Zentren x _k1, x _k2 der Knoten k₁, k₂ werden durch dimensionsweise, d. h. merkmalsweise Mittelung der den jeweiligen Knoten k₁, k₂ zugeordneten Untermenge von ausgewählten Trainingsdaten, d. h. den dem betreffenden Knoten des Entscheidungsbaums 10 zugeordneten multidimensionalen Unterraums, bestimmt. Die abstandsbasierte Gewichtung der in den beiden Knoten k₁, k₂ hinterlegten konstanten Regressionswerte y_k1 und y_k2 erfolgt entsprechend obiger Formel. Der jedem Entscheidungsbaum 10 zugeordnete Regressionswert RW wird in Schritt S12 gemäß obiger Formel ermittelt.
In jedem Entscheidungsbaum 10 wird zur Bestimmung somit nicht nur einer der Endknoten 11, sondern stets auch dessen Partnerknoten des Entscheidungsbaums 10 berücksichtigt. Sind die Regressionswerte RW für jeden Entscheidungsbaum 10 ermittelt, so kann in Schritt S13 wie beim herkömmlichen Random-Forest-Modell der Modellwert durch Mittelung der für jeden Entscheidungsbaum 10 bestimmten Regressionswerte RW bestimmt werden.
Gemäß einem zweiten Verfahren, das durch die Fortsetzung des Flussdiagramms der 1 in 5 dargestellt ist, werden zur Ermittlung des jeweiligen Modellwerts mehrere Endknoten 11 jedes Entscheidungsbaums 10 berücksichtigt, insbesondere alle Endknoten 11 jedes Entscheidungsbaums 10. Dabei wird in Schritt S20 jeder Regressionswert RW, der dem entsprechenden Endknoten 11 zugeordnet ist, mit einem Gewichtungswert gewichtet, wobei sich der Gewichtungswert aus einer Gewichtungsfunktion Φ(x, x) ergibt. Als Gewichtungsfunktion kann beispielsweise eine Exponentialfunktion vorgeschlagen werden, die den Vorteil hat, dass sie ableitbar bzw. differenzierbar ist und geglättete Verläufe aufweist.
Jedem Endknoten 11 jedes Entscheidungsbaums 10 wird nun in Schritt S20 eine Exponentialfunktion zugeordnet, deren Mittelpunkte jeweils den Zentren der den Endknoten 11 des betreffenden Entscheidungsbaums 10 zugeordneten Unterräume R1, R2, ... Rn des Trainingsdatenraums entsprechen.
Pro Dimension/Merkmal x₁, x₂, ... wird in Schritt S21 zudem eine Varianz σ bestimmt. Diese Varianz σ kann beispielsweise proportional zur Ausdehnung des jeweiligen Unterraums in der entsprechenden Dimension gewählt werden, wie beispielsweise in 6 dargestellt ist. 6 zeigt eine beispielhafte Unterteilung des Trainingsdatenraums für ein Random-Forest-Modell in Unterräume R. Die Unterräume R sind für den dargestellten zweidimensionalen Trainingsdatenraum als Rechtecke ausgebildet, entsprechen jedoch bei mehrdimensionalen Trainingsdatenräumen in der Regel Hyperquadern. Jedem der Unterräume R ist gemäß Schritt S4 ein konstanter Regressionswert RW zugeordnet.
Die Gewichtung dieses Regressionswerts RW erfolgt über die Gewichtungsfunktion Φ(x, x), deren Mitte dem Zentrum des jeweiligen Unterraums R entspricht. Weiterhin wird die Varianz der Exponentialfunktion proportional zur Ausdehnung des jeweiligen Unterraums R gewählt. Je weiter der Testpunkt vom Mittelpunkt, d. h. vom Zentrum einer solchen Gewichtungsfunktion, entfernt ist, desto geringer soll der Einfluss des zugehörigen Regressionswerts RW auf die gewichtete Summe sein.
Es sei nun x ∊ R^P der Testpunkt und x ∊ R^p das Zentrum einer Gewichtungsfunktion Φ(x, x). Es wird weiterhin angenommen, dass x ₁, x ₂, ..., x _p die p Merkmale des Zentrums und analog x₁, x₂, ..., x_p, die p Merkmale des Testpunkts x sind. Der Beitrag des zugehörigen Regressionswerts RW ermittelt sich dann in Schritt S22 wie folgt:
wobei σ_i die Varianz der Gewichtungsfunktion bezüglich des Merkmals i an diesem Zentrum ist. Die Prognose (Regressionswert ŷ_ntree(x)) eines Entscheidungsbaums 10 für einen bestimmten Testpunkt x erfolgt dann in Schritt S23 über die nachfolgende Formel:
wobei x_j das Zentrum des j-ten Unterraums R und y_j der zugehörige konstante Regressionswert RW ist. Der Wert n entspricht der Anzahl der Endknoten 11 des entsprechenden Entscheidungsbaums 10.
Die so ermittelten Regressionswerte RW für einen Entscheidungsbaum 10 werden nun in Schritt S24 gemittelt, um den Modellwert zu erhalten.
In einem dritten Verfahren, das durch die Fortsetzung des Flussdiagramms der 1 in 7 dargestellt ist, wird zur Bestimmung eines Modellwerts für einen Testpunkt x ein Fuzzy-Verfahren angewendet. Dabei wird in Schritt S30 für einen Testpunkt x jeder Entscheidungsbaum 10 durchlaufen und anstelle eindeutiger binärer Entscheidungen werden anhand der Schwellenwertkriterien Fuzzy-Entscheidungen getroffen.
Dabei werden alle Knoten des Entscheidungsbaums 10 durchlaufen und es werden dadurch alle Endknoten 11 erreicht. Die Fuzzy-Entscheidungen ergeben kein „1”- oder „0”-Entscheidungsergebnis, sondern anteilige Entscheidungsergebnisse, die umso näher an einem Fuzzy-Entscheidungswert 0,5 liegen, je näher das Merkmalskriterium an dem entsprechenden Schwellenwert S1, S2 ... Sn des Schwellenwertkriteriums des betreffenden Knotens liegt. Die Fuzzy-Entscheidungswerte werden beim Durchlaufen des Entscheidungsbaums 10 für einen Testpunkt x bis hin zu den Endknoten 11 aufmultipliziert, so dass jedem Endknoten 11 ein jeweiliger Fuzzy-Anteil zugeordnet ist. Die sich ergebenden, den Endknoten 11 zugeordneten Gesamtanteile können als prozentualer Einfluss der den Endknoten 11 zugeordneten Regressionswerte RW auf den Regressionswert RW des Entscheidungsbaums 10 angesehen werden.
Der Fuzzy-Entscheidungswert an einem bestimmten Knoten gibt den Anteil als Erfüllungsgrad des Entscheidungskriteriums zwischen den beiden betreffenden Nachfolgeknoten an, d. h. einem Nachfolgeknoten und dessen Partnerknoten, wobei der Partnerknoten, wie oben definiert, der auf der gleichen hierarchischen Ebene liegenden Nachbarknoten des übergeordneten Knoten ist. Der Fuzzy-Entscheidungswert wird für jeden der beiden Partnerknoten über eine Distanz zwischen dem Testpunkt x ∊ R^p und dem in den beiden Partnerknoten hinterlegten Zentren x₁ und x₂ ermittelt. Dies kann beispielsweise durch Verwendung einer euklidischen Distanz oder Ähnlichem vorgenommen werden und wird für jeden Knoten des Entscheidungsbaums 10 durchgeführt.
Nun wird der Fuzzy-Gewichtungsanteil für jeden Endknoten 11 dadurch bestimmt, dass das Produkt aller Fuzzy-Entscheidungswerte der Elternknoten des betreffenden Endknotens 11 bestimmt wird, um einen Fuzzy-Gewichtungswert FuzzyProd_j zu erhalten. Der Fuzzy-Gewichtungswert wird in Schritt S31 nun bezüglich jedes Endknotens 11 ermittelt und gespeichert und anschließend werden in Schritt S32 die Fuzzy-Gewichtungswerte normiert, so dass die Summe aller Fuzzy-Gewichtungswerte über alle n Endknoten 11 eines Entscheidungsbaums 10 „1” ergibt. Die Ermittlung des Regressionswerts ŷ_ntree(x) für einen Entscheidungsbaum 10 an einem Testpunkt x erfolgt danach gemäß folgender Formel: ŷ_ntree(x) = Σ n / j=1FuzzyProd_j(x)·y_j.
Die Regressionswerte RW der Entscheidungsbäume 10 werden dann in Schritt S33, wie zuvor beschrieben, durch Mittelwertbildung in einen Modellwert berechnet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Breiman, ”Random Forest”, JMLR, 2001 [0002]

Claims

Verfahren zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell, mit folgenden Schritten: – Bereitstellen des Random-Forest-Modells als eine Menge von auf Trainingsdaten basierenden Entscheidungsbäumen (10) mit einem Wurzelknoten (12), weiteren Knoten (13) und Endknoten (11), denen jeweils ein Regressionswert (RW) zugeordnet ist; und – Ermitteln eines einem vorgegebenen Testpunkt zugeordneten Modellwerts basierend auf den Regressionswerten (RW) von mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10).
Verfahren nach Anspruch 1, wobei die den mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10) zugeordneten Regressionswerte (RW) gewichtet, die gewichteten Regressionswerte (RW) anschließend für jeden der Entscheidungsbäume (10) gemittelt und die so erhaltenen gemittelten und gewichteten Regressionswerte (RW) über alle Entscheidungsbäume (10) gemittelt werden, um so den Modellwert zu erhalten.
Verfahren nach Anspruch 2, wobei das Gewichten der Regressionswerte (RW) der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10) basierend auf dem Abstand des Testpunkts von einem Zentrum eines durch den betreffenden zu berücksichtigenden Knoten definierten Unterraums (R) eines durch die Trainingsdaten gebildeten Trainingsdatenraums vorgenommen wird.
Verfahren nach Anspruch 3, wobei für den Testpunkt jeder der Entscheidungsbäume (10) durchlaufen wird, um den dem Testpunkt zugeordneten Endknoten (11) zu bestimmen, wobei das Gewichten der Regressionswerte (RW) der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10) basierend auf einem Partnerknoten des Endknotens (11) durchgeführt wird, wobei der Regressionswert (RW) zu dem dem Testpunkt zugeordneten Endknoten (11) und der Regressionswert (RW) zu dem Partnerknoten des Endknotens (11) jeweils abhängig von einem Abstand des Testpunkts von dem Zentrum des durch den Endknoten (11) bzw. den Partnerknoten definierten Unterraums (R) gewichtet wird.
Verfahren nach Anspruch 3, wobei das Gewichten der Regressionswerte (RW) der mehreren zu berücksichtigenden Knoten jedes der Entscheidungsbäume (10), insbesondere mehrerer oder aller Endknoten (11) jedes der Entscheidungsbäume (10), basierend auf einer Gewichtungsfunktion erfolgt.
Verfahren nach Anspruch 5, wobei die Gewichtungsfunktion eine Exponentialfunktion aufweist, die für jede Dimension der Trainingdaten die Abstände des Testpunkts von dem Zentrum jedes Unterraums (R) jedes der mehreren zu berücksichtigenden Knoten sowie eine jeweilige Varianz abhängig von einer Ausdehnung jedes Unterraums (R) jedes der mehreren zu berücksichtigenden Knoten berücksichtigt.
Verfahren nach Anspruch 3, wobei für den Testpunkt jeder der Entscheidungsbäume (10) durchlaufen wird, wobei an jedem Knoten (12), der keinem Endknoten (11) entspricht, eine Fuzzy-Entscheidung getroffen wird, so dass jeder Verzweigung an einem Knoten ein Fuzzy-Entscheidungswert zugeordnet wird, wobei den Endknoten (11) ein Produkt aller Fuzzy-Entscheidungswerte auf einem Entscheidungspfad zwischen dem betreffenden Endknoten (11) und dem Wurzelknoten (12) als ein Fuzzy-Gewichtungswert zugeordnet wird, mit dem die den Endknoten (11) zugeordneten Regressionswerte (RW) gewichtet werden.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Random-Forest-Modell mit mehreren Entscheidungsbäumen (10) erstellt wird, wobei jeder Entscheidungsbaum (10) durch folgende Schritte generiert wird: – zufälliges Auswählen einer Teilmenge von bereitgestellten Trainingsdaten; – von einem Wurzelknoten (12) ausgehendes Auswählen einer zufälligen Teilmenge von verfügbaren Merkmalen (x₁, x₂, ...) für jeden weiteren Knoten (12), der kein Endknoten (11) ist; – Definieren eines Schwellenwertkriteriums für den Wurzelnoten und jeden weiteren Knoten basierend auf einer Güte einer Auftrennung der an dem betreffenden Knoten betrachteten Trainingsdaten; und – Zuordnen eines Regressionswerts (RW) zu jedem Endknoten (11) als Durchschnittswert von zu modellierenden Messwerten für die diesem Knoten zugeordneten Trainingsdaten.
Vorrichtung zum Ermitteln eines Modellwerts aus einem Random-Forest-Modell, wobei die Vorrichtung ausgebildet ist, um: – das Random-Forest-Modell als eine Menge von auf Trainingsdaten basierenden Entscheidungsbäumen (10) mit einem Wurzelknoten (12), weiteren Knoten und Endknoten (11), denen jeweils ein Regressionswert (RW) zugeordnet ist, bereitzustellen; und – einen einem vorgegebenen Testpunkt zugeordneten Modellwert basierend auf den Regressionswerten (RW) von mehreren Knoten jedes der Entscheidungsbäume (10) zu ermitteln.
Computerprogramm, welches dazu eingerichtet ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 auszuführen.
Maschinenlesbares Speichermedium, auf welchem das Computerprogramm nach Anspruch 10 gespeichert ist.
Elektronische Recheneinheit, die eingerichtet ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchzuführen.