DE102013225768A1

DE102013225768A1 - Verfahren und Vorrichtung zum Ermitteln eines LOLIMOT-Modells

Info

Publication number: DE102013225768A1
Application number: DE102013225768.6A
Authority: DE
Inventors: Michael Hanselmann; Bastian Luik
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2015-06-18

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln eines LOLIMOT-Modells, umfassend die folgenden Schritte: – Bereitstellen einer Menge von mehrdimensionalen Trainingsdaten; – Ermitteln von mehreren Unterteilungen für mehrere zufällige Untermengen der Trainingsdaten, wobei jede der Unterteilungen den Eingangsdatenraum in mehrere Teilräume (R1, R2) unterteilt; – Zuordnen jeweils eines parametrischen Teilmodells zu jedem Teilraum (R1, R2) der mehreren Unterteilungen für die mehreren zufälligen Untermengen der Trainingsdaten; – Gewichten der parametrischen Teilmodelle abhängig von einer Position und Größe des Teilraums (R1, R2) in dem Eingangsdatenraum; und – Kombinieren der gewichteten, linearen, parametrischen Teilmodelle, um das LOLIMOT–Modell zu erhalten.

Description

Technisches Gebiet
Die Erfindung betrifft allgemein das Gebiet von Regressionsverfahren, insbesondere Verfahren zum Erstellen von LOLIMOT-Modellen.
Stand der Technik
In integrierten Steuerbausteinen zum Einsatz in Steuergeräten für Kraftfahrzeuge ist neben datenbasierten Funktionsmodellen auch die Berechnung weiterer rechenintensiver Funktionen relevant. So kann für einige Aufgabenstellungen auch die Evaluierung von LOLIMOT(LOcal LInear MOde/Tree)-Modellen von Interesse sein.
LOLIMOT-Modelle gehören zur Familie der Neuro-Fuzzy-Modelle. Ein LOLIMOT-Modell entspricht einem neuronalen Netz mit einer verdeckten Schicht, das mehrere lineare Teilmodelle mithilfe von Gewichtungsfunktionen überlagert. So entstehen weiche Übergänge zwischen den einzelnen linearen Teilmodellen.
LOLIMOT-Modelle werden beispielsweise in der Druckschrift O. Nelles, S. Sinsel, R. Isermann, UKACC International Conference an Control, 1996, beschrieben und stellen Regressionsfunktionen dar, die zur datenbasierten Modellierung von physikalischen Systemen eingesetzt werden können. LOLIMOT-Modelle umfassen im Wesentlichen mehrere gewichtete, lokale, lineare Teilmodelle. Zur Gewichtung der linearen Teilmodelle verwenden LOLIMOT-Modelle häufig Gaußsche Gewichtungsfunktionen, die den zur Auswertung von datenbasierten Funktionsmodellen, insbesondere Gauß-Prozess-Modellen, verwendeten Funktionen ähnlich sind.
Die Modellqualität von LOLIMOT-Modellen ist wesentlich von der ermittelten Anzahl und Lage der linearen Teilmodelle abhängig. Bei nicht angepasster Modellierung können die erstellten LOLIMOT-Modelle ein starkes Overfitting, d. h. eine Überanpassung an die zugrunde liegenden Trainingsdaten, aufweisen, wodurch diese schlecht generalisiert werden. Die Optimierung von LOLIMOT-Modellen ist aufwändig und erfordert üblicherweise eine separate Optimierung der Anzahl der Teilmodelle und unter Umständen manuelle Korrekturen.
Ein zentrales Problem beim Training von LOLIMOT-Modellen besteht darin, die Parameter der Gewichtungsfunktionen und damit deren Lage im Merkmalsraum zu bestimmen. Für die Unterteilung des Merkmalsraums in Merkmalsunterräume (Teilräume), denen jeweils eine Teilfunktion zugeordnet wird, sind im Stand der Technik zahlreiche Verfahren bekannt (z. B. Classification and Regression Trees = CART). Diese haben jedoch den Nachteil, dass die Anzahl von Merkmalsunterräumen zu groß wird, so dass diese Ansätze zu LOLIMOT-Modellen mit starkem Overfitting führen. Bislang werden daher bei der automatischen Erstellung von LOLIMOT-Modellen keine LOLIMOT-Modelle mit ausreichender Modellierungsgüte und/oder nur geringem Overfitting erreicht.
Offenbarung der Erfindung
Erfindungsgemäß sind ein Verfahren zum Ermitteln eines LOLIMOT-Modells gemäß Anspruch 1 sowie eine Vorrichtung und ein Computerprogrammprodukt gemäß den nebengeordneten Ansprüchen vorgesehen.
Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt ist ein Verfahren zum Ermitteln eines LOLIMOT-Modells vorgesehen, das die folgenden Schritte umfasst:

– Bereitstellen einer Menge von mehrdimensionalen Trainingsdaten;
– Ermitteln von mehreren Unterteilungen des Eingangsraums in Teilräume für mehrere zufällige Untermengen der Trainingsdaten, wobei jede der Unterteilungen den Eingangsdatenraum in mehrere Teilräume unterteilt;
– Zuordnen jeweils eines parametrischen Teilmodells zu jedem Teilraum der mehreren Unterteilungen für die mehreren zufälligen Untermengen der Trainingsdaten;
– Gewichten der parametrischen Teilmodelle abhängig von einer Position und Größe des Teilraums in dem Eingangsdatenraum; und
– Kombinieren der gewichteten linearen parametrischen Teilmodelle mit dem LOLIMOT Modell.

Das obige Verfahren zum Ermitteln eines LOLIMOT-Modells sieht vor, mehrere parametrische Teilmodelle basierend auf unterschiedlichen Unterteilungen von zufällig ausgewählten Untermengen der Trainingsdaten des Trainingsdatenraums (Eingangsdatenraums) in Teilräume zu erstellen, um diese in geeigneter Weise zu kombinieren. Das Erstellen von verschiedenen LOLIMOT-Teilmodellen basierend auf den vorgegebenen Trainingsdaten und die Kombination der sich aus den LOLIMOT-Teilmodellen ergebenden Teilmodellwerte kann wirksam eine Überanpassung an die Trainingsdaten verhindern, d. h das LOLIMOT-Modell robuster gegen Overfitting machen, und lässt sich automatisiert, d. h. ohne nachträgliche manuelle Anpassung, realisieren.
Weiterhin kann das Ermitteln der mehreren Unterteilungen jeweils mithilfe eines Entscheidungsbaums durchgeführt werden, wobei der Entscheidungsbaum basierend auf aus einer Menge von möglichen Entscheidungsmerkmalen zufällig ausgewählten Entscheidungsmerkmalen und dem Festlegen von Schwellenwerten für jedes der ausgewählten Entscheidungsmerkmale gemäß einem Optimierungskriterium erstellt wird, wobei das jeweilige lineare parametrische Teilmodell den Blattknoten des so ermittelten Entscheidungsbaums zugeordnet wird.
Gemäß einer weiteren Ausführungsform kann jedes der Entscheidungsmerkmale durch einen Schwellenwert einer Eingangsgröße oder eine Funktionsbeziehung von mehreren Eingangsgrößen bestimmt sein.
Weiterhin kann das Optimierungskriterium eine Minimierung eines Gini-Koeffizienten beinhalten.
Es kann vorgesehen sein, dass das Zuordnen des jeweils einen parametrischen Teilmodells zu jedem Teilraum des Eingangsdatenraums der mehreren Unterteilungen das Ermitteln eines Parametervektors für jeden Teilraum umfasst, um das parametrische Teilmodell als lineares parametrisches Teilmodell zu definieren.
Weiterhin kann das Gewichten des parametrischen Teilmodells mithilfe einer Gaußfunktion durchgeführt werden, wobei die Gaußfunktion basierend auf der Position und der Größe des betreffenden Teilraums in dem Eingangsdatenraum definiert wird.
Insbesondere kann die Gaußfunktion bei hyperquaderförmigen Teilräumen durch die Position des Mittelpunkts des Teilraums und die Varianz bezüglich der Eingangsgrößen der Trainingsdaten, die jeweils von der Breite des betreffenden Teilraums bezüglich der entsprechenden Eingangsgröße abhängt, definiert sein.
Weiterhin kann das Kombinieren der gewichteten parametrischen Teilmodelle zu dem LOLIMOT-Modell durch eine Mittelwertbildung der gewichteten parametrischen Teilmodelle erfolgen.
Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Ermitteln eines LOLIMOT-Modells vorgesehen, wobei die Vorrichtung ausgebildet ist, um:

– eine Menge von mehrdimensionalen Trainingsdaten bereitzustellen;
– mehrere Unterteilungen für mehrere zufällige Untermengen der Trainingsdaten zu ermitteln wobei jede der Unterteilungen den Eingangsdatenraum in mehrere Teilräume unterteilt;
– jedem so erhaltenen Teilraum des Eingangsdatenraums der mehreren Unterteilungen ein parametrisches Teilmodell zuzuordnen;
– die parametrischen Teilmodelle abhängig von einer Position und Größe des Teilraums in dem Eingangsdatenraum zu gewichten; und
– die gewichteten, linearen, parametrischen Teilmodelle zu dem LOLIMOT-Modell zu kombinieren.

Kurzbeschreibung der Zeichnungen
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
1 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erstellen eines LOLIMOT-Modells;
2 eine Darstellung von verschiedenen Entscheidungsbäumen nebst Unterteilung der diesen zugrunde liegenden Untermengen der vorgegebenen Trainingsdaten sowie deren Überlagerung für einen zweidimensionalen Eingangsdatenraum; und
3 eine schematische Darstellung einer Unterteilung eines Eingangsdatenraums der Trainingsdaten in Hyperquader sowie die Verdeutlichung der Ermittlung der Varianzen der Gaußschen Gewichtungsfunktion.
Beschreibung von Ausführungsformen
Der Modellwert y eines LOLIMOT-Modells für einen Vektor x mit p Eingangsgrößen x₁, ..., x_p wird aus der Interpretation von lokalen Teilmodellen y_i = x_i(u)θ_i(x) für i = 1 ... M berechnet:
wobei θ_i(x) Gewichtungsfunktionen entsprechen, für die typischerweise Gaußfunktionen gewählt werden. Als lokale Teilmodelle y_i werden meist lineare Funktionen verwendet.
Bisherige Verfahren zum Erstellen von LOLIMOT-Modellen basieren auf der Erstellung eines Entscheidungsbaums, der eine Menge von Trainingsdaten möglichst gleichmäßig und/oder in Abhängigkeit der Trainingsdaten unterteilt. Jeder Knoten des Entscheidungsbaums führt zur Bildung von einer oder mehreren Untermengen der Trainingsdaten, denen jeweils eine lokale Teilfunktion zugeordnet werden kann.
1 zeigt ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Ermitteln eines LOLIMOT-Modells basierend auf einer Menge von vorgegebenen Trainingsdaten.
In Schritt S1 wird aus der Menge von vorgegebenen Trainingsdaten, die den Eingangsdatenraum mit einer Dimension p bestimmen, eine Untermenge von Trainingsdaten zufällig ausgewählt. Die Auswahl der einzelnen Trainingsdatenpunkte aus den Trainingsdaten kann ”mit Zurücklegen” durchgeführt werden.
Anschließend wird in Schritt S2 aus den ausgewählten Trainingsdatenpunkten der Untermenge ein Entscheidungsbaum erzeugt. Das Bilden des Entscheidungsbaums erfolgt ausgehend von einem Wurzelknoten (root node) und einer zufälligen Auswahl von Entscheidungsmerkmalen, wobei die Entscheidungsmerkmale Wertebereichen (einer Wertebereichsunterteilung) einer der Eingangsgrößen x₁, x₂ ... oder Wertebereichen einer Funktion mehrerer der Eingangsgrößen f(x₁, x₂ ...) entsprechen. Die Anzahl m der berücksichtigten Entscheidungsmerkmale sollte kleiner sein als die Dimension p des Trainingsdatenraums. Vorzugsweise sollte m ungefähr √ p entsprechen.
Der Entscheidungsbaum wird nun so erstellt, dass jedem Knoten eines der ausgewählten Entscheidungsmerkmale zugewiesen wird und diesem wiederum ein Schwellenwert zugeordnet wird, die für die in 2 dargestellten Entscheidungsbäume beispielhaft ausgewählt sind. Der Schwellenwert ist so bestimmt, dass die ausgewählten Trainingsdaten an den Verzweigungen jedes Knotens gemäß einem Optimierungskriterium in zwei (oder mehr, z. B. im Fall von kategorischen Merkmalen) Bereiche aufgeteilt werden. Beispielsweise kann der dem Entscheidungsmerkmal zugeordnete Schwellenwert so gewählt werden, dass dieser die für diesen Knoten relevanten Trainingsdaten möglichst gleichmäßig unterteilt. Dies kann beispielsweise mithilfe einer Minimierung eines aus dem Stand der Technik bekannten Gini-Koeffizienten erreicht werden.
In Schritt S3 wird überprüft, ob eine vorbestimmte Anzahl N von Ereignisbäumen erstellt worden ist. Ist dies der Fall (Alternative: Ja), so wird das Verfahren mit Schritt S4 fortgesetzt. Anderenfalls (Alternative: Nein) wird das Verfahren mit Schritt S1 fortgesetzt. Auf diese Weise erhält man eine Anzahl von Ereignisbäumen, die variierenden Unterteilungen der Menge an Trainingsdaten (der Trainingsdaten des Eingangsdatenraumes) in Teilräume des Eingangsdatenraums (Merkmalsraums) entsprechen.
In 2 ist beispielhaft für verschiedene Untermengen der vorgegebenen Trainingsdaten schematisch dargestellt, wie die entsprechenden Untermengen durch Entscheidungsbäume 1 in Teilräume R1, R2 unterteilt werden. Dabei ist ein Wurzelknoten 10 und jeder Zwischenknoten 11 eines Entscheidungsbaumes 1 einem Entscheidungskriterium und jeder Endknoten 12 des Entscheidungsbaumes 1 einem Teilraum R1, R2 zugeordnet. Man erkennt, dass die Grenze zwischen den Teilräumen R1, R2 abhängig von der jeweils ausgewählten Untermenge der Trainingsdaten unterschiedlich verläuft.
Das Diagramm auf der rechten Seite zeigt die Überlagerung der durch die einzelnen Entscheidungsbäume 1 definierten unterschiedlichen Teilräume R1, R2.
3 zeigt nochmals schematisch eine Unterteilung des Eingangsdatenraums in Teilräume R1, R2 basierend auf einem Entscheidungsbaum. Jeder Endknoten der in den Schritten S1 bis S3 ermittelten Entscheidungsbäume entspricht einem Teilraum R1, R2.
Jedem Teilraum R1, R2 für jeden der N ermittelten Entscheidungsbäume wird nun in Schritt S4 ein lineares parametrisches Teilmodell y_i(x) zugewiesen, das an die im Training den Endknoten zugeordnete Untermenge der vorgegebenen Trainingsdaten angepasst wird. Das so gebildete LOLIMOT-Modell besitzt eine Anzahl von linearen lokalen Teilmodellen, die der Summe der Anzahl aller Teilräume über alle Entscheidungsbäume entspricht. Sei a ein Parametervektor für die Parameter der parametrischen Regression mit einem Endknoten i, der mittels der zu jedem Endknoten zugeordneten Trainingsdaten mithilfe einer linearen Regression bestimmt wird, so gilt für einen Abfragepunkt x:
Anschließend erfolgt in Schritt S5 die Gewichtung der Regressionsergebnisse an den einzelnen Endknoten mittels einer Gewichtsfunktion, beispielsweise eines Gaußkerns. Diese Gaußkerne ϕ(x, x_Zentrum) sind vorzugsweise an der Position der Teilräume R1, R2 der durch den Entscheidungsbaum festgelegten Unterteilung des Eingangsdatenraums an den Mittelpunkten x_Zentrum der Teilräume R1, R2 zu zentrieren. Folglich werden diejenigen den Endknoten zugeordnete Teilmodelle umso stärker berücksichtigt (gewichtet), je näher der Mittelpunkt des dem entsprechenden Teilmodells zugeordneten Teilraums dem Abfragepunkt x liegt bzw. je geringer die Distanz zwischen dem Mittelpunkt des Teilraums und dem Abfragepunkt x ist.
Für den Entscheidungsbaum I mit einer Anzahl von Endknoten M erhalten wie die Vorhersage
wobei x_Zentrum,i den Mittelpunkt der i-ten Gewichtungsfunktion im Teilraum R1, R2 beschreibt. Weiterhin entspricht p der gesamten Anzahl an Dimensionen des Eingangsdatenraums.
Eine dimensionsabhängige Varianz σ_1...p wird über eine Approximation über die Grenzen des Teilraums, in denen der zugeordnete Endknoten des Entscheidungsbaums gilt, angegeben. Beispielsweise kann σ_1...p als ein Vielfaches der Breite des Teilraums R1, R2 bezüglich der jeweiligen Dimension gewählt werden. Diese Breiten sind direkt als Entfernung des Mittelpunkts des Teilraums zu einem Rand des Teilraums in Richtung der entsprechenden Dimension entsprechend der 3 bestimmbar.
Alternativ kann die Varianz σ_1...p auch aus den Trainingsdaten selbst und nicht aus den Grenzen der den Knoten zugeordneten Teilräume bestimmt werden. Allgemein kann die Varianz aus dem Modell, den Trainingsdaten oder den Grenzen der den Endknoten zugeordneten Teilräume approximiert werden.
In Schritt S6 wird so für jeden der N Entscheidungsbäume, der gemäß den Schritten S1 bis S3 ermittelt wurde, eine Teilmodellfunktion bzw. ein Teilmodellwert y^l ermittelt.
In Schritt S7 wird nun aus den so ermittelten Teilmodellfunktionen bzw. Teilmodellwerten y^l bis y^N ein Durchschnittswert bestimmt:
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

O. Nelles, S. Sinsel, R. Isermann, UKACC International Conference an Control, 1996 [0004]

Claims

Verfahren zum Ermitteln eines LOLIMOT-Modells, umfassend die folgenden Schritte: – Bereitstellen einer Menge von mehrdimensionalen Trainingsdaten; – Ermitteln von mehreren Unterteilungen für mehrere zufällige Untermengen der Trainingsdaten, wobei jede der Unterteilungen den Eingangsdatenraum in mehrere Teilräume (R1, R2) unterteilt; – Zuordnen jeweils eines parametrischen Teilmodells zu jedem Teilraum (R1, R2) der mehreren Unterteilungen für die mehreren zufälligen Untermengen der Trainingsdaten; – Gewichten der parametrischen Teilmodelle abhängig von einer Position und Größe des Teilraums (R1, R2) in dem Eingangsdatenraum; und – Kombinieren der gewichteten, linearen, parametrischen Teilmodelle, um das LOLIMOT-Modell zu erhalten.
Verfahren nach Anspruch 1, wobei das Ermitteln der mehreren Unterteilungen jeweils mithilfe eines Entscheidungsbaums durchgeführt wird, wobei der jeweilige Entscheidungsbaum (1) basierend auf aus einer Menge von möglichen Entscheidungsmerkmalen zufällig ausgewählten Entscheidungsmerkmalen sowie Festlegen von Schwellenwerten für jedes der ausgewählten Entscheidungsmerkmale gemäß einem Optimierungskriterium erstellt wird, wobei das jeweilige lineare parametrische Teilmodell den Blattknoten des so ermittelten Entscheidungsbaums (1) zugeordnet wird.
Verfahren nach Anspruch 2, wobei jedes der Entscheidungsmerkmale durch einen Schwellenwert einer Eingangsgröße oder eine Funktionsbeziehung von mehreren Eingangsgrößen bestimmt ist.
Verfahren nach Anspruch 2 oder 3, wobei das Optimierungskriterium eine Minimierung eines Gini-Koeffizienten beinhaltet.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das Zuordnen des jeweils einen parametrischen Teilmodells zu jedem Teilraum (R1, R2) der mehreren Unterteilungen das Ermitteln eines Parametervektors für jeden Teilraum (R1, R2) umfasst, um das parametrische Teilmodell als lineares parametrisches Teilmodell zu definieren.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Gewichten des parametrischen Teilmodells mithilfe einer Gaußfunktion durchgeführt wird, wobei die Gaußfunktion basierend auf der Position und der Größe des betreffenden Teilraums (R1, R2) in dem Eingangsdatenraum definiert wird.
Verfahren nach Anspruch 6, wobei die Gaußfunktion bei hyperquaderförmigen Teilräumen durch die Position des Mittelpunkts des Teilraums (R1, R2) und die Varianz bezüglich der Eingangsgrößen der Trainingsdaten, die jeweils von der Breite des betreffenden Teilraums bezüglich der entsprechenden Eingangsgröße abhängt, definiert ist.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Kombinieren der gewichteten parametrischen Teilmodelle zu dem LOLIMOT-Modell durch eine Mittelwertbildung der gewichteten parametrischen Teilmodelle erfolgt.
Vorrichtung zum Ermitteln eines LOLIMOT-Modells, wobei die Vorrichtung ausgebildet ist, um: – eine Menge von mehrdimensionalen Trainingsdaten bereitzustellen; – mehrere Unterteilungen für mehrere zufällige Untermengen der Trainingsdaten zu ermitteln, wobei jede der Unterteilungen den Eingangsdatenraum in mehrere Teilräume (R1, R2) unterteilt; – jedem Teilraum (R1, R2) der mehreren Unterteilungen für die mehreren zufälligen Untermengen der Trainingsdaten ein parametrisches Teilmodell zuzuordnen; – die parametrischen Teilmodelle abhängig von einer Position und Größe des Teilraums (R1, R2) in dem Eingangsdatenraum zu gewichten; und – die gewichteten, linearen, parametrischen Teilmodelle zu dem LOLIMOT-Modell zu kombinieren.
Computerprogramm, welches dazu eingerichtet ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 auszuführen.
Maschinenlesbares Speichermedium, auf welchem ein Computerprogramm nach Anspruch 10 gespeichert ist.
Elektronische Recheneinheit, welche eingerichtet ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 auszuführen.