AT503313A2

AT503313A2 - Verfahren zur selektion der einflussgrössen eines prognoseverfahrens

Info

Publication number: AT503313A2
Application number: AT20432005A
Authority: AT
Inventors: Eranda Dr Dragoti-Cela; Klaus Gams; Petra Pasching; Ulrich Schullern
Original assignee: Fsc Financial Soft Computing G
Priority date: 2005-12-21
Filing date: 2005-12-21
Publication date: 2007-09-15

Description

Beschreibung
Verfahren zur Selektion der Einflussgrössen eines
Prognoseverfahrens
Technisches Gebiet
Die Erfindung betrifft ein Verfahren zur Selektion der Einflussgrössen eines Prognoseverfahrens .
Stand der Technik
Für die optimale Nutzung und Bereitstellung von Ressourcen wie z B . elektrischer Energie sind fundierte Aussagen über den Bedarf von höchster Bedeutung.

Dies gilt auch für die Ressource Kapital, für deren optimale Veranlagung die Entwicklung der Finanzmärkte möglichst zutreffend prognostiziert werden muss.
Dazu sind datengetriebene Prognoseverfahren bekannt, bei denen davon ausgegangen wird, dass es in den Finanzmärkten effektive, stabile, wiederkehrende Phänomene gibt und, dass diese Phänomene als komplexe Zusammenhänge zwischen den unterschiedlichen Einflussgrössen technisch modellierbar sind.
Diese Zusammenhänge werden als Marktinvarianten angesehen und es wird versucht diese Invarianten mittels Datenanalyse zu identifizieren und zu parametrieren. Subjekt dieser Datenanalysen sind die Zeitreihen der Einflussgrössen deren Zusammenhänge modelliert werden sollen.
Andere Prognoseverfahren wie das Capital Asset Pricing Model (CAPM) oder das Arbitrage Pricing Model (APM) greifen auf Daten- bzw.

Zeitreihenanalysen zurück,
NACHGEREICHT Im Unterschied zu datengetriebenen Prognosemodellen gehen die oben genannten Finanzmarktmodelle von einigen wesentlichen Annahmen betreffend das Verhalten der Finanzmärkte aus.
Datengetriebene Prognosemodelle hingegen setzen nichts über das Verhalten der Finanzmärkte voraus. Sie gehen von bestimmten, technischen Modelltypen aus, welche die kausalen Zusammenhänge zwischen den Einflussgrössen, die einen bestimmten Kurs beeinflussen, und diesem Kurs selbst modellieren. Diese Modelltypen lassen sich in zwei grosse
Klassen unterteilen: lineare und nicht lineare Modelle.

Unter den linearen Modellen lassen sich die klassischen ökonometrisehen Modelle etwa ARIMA "AutoRegressive Integrated Moving Average", SARIMA "Seasonal AutoRegressive Integrated Moving Average", VARX "Vector AutoRegressive with eXogeneous variables", Frisch Faktormodelle, Faktormodelle mit reduziertem Rang "reduced rank factor modeis" usw. klassifizieren.
Unter die nicht linearen Modellen lassen sich u.a. neuronale Netzmodelle und Fuzzy-Logik Modelle einordnen. Technisch bedingt können alle diese Modelle nur mit einer begrenzten Anzahl von Einflussgrössen umgehen. Bei einer sehr hohen Anzahl von Eingangsgrössen ist die Kalibrierung der Modelle aus praktischer Sicht nicht oder nur mit sehr weit in der Historie zurückliegenden Daten möglich.

Die Kalibrierung der Prognosemodelle, mit Hilfe von Daten, die sehr weit in der Historie zurückliegen, ist aber bei einer stark ausgeprägten Dynamik des betrachteten Prozesses sehr problematisch: der Informationsgehalt dieser Daten ist für die Modellierung der aktuellen kausalen Zusammenhänge zwischen verschiedenen Grössen oft irrelevant.
Andererseits ist die immer komplexer und effizienter werdende Finanzwelt von starken und weit reichenden
Wechselwirkungen zwischen unterschiedlichen Einflussgrössen ausgeprägt. Folglich gibt es typischerweise eine grosse
NACHGEREICHT
3 Anzahl von wirtschaftlich relevanten Einflussfaktoren für die Entwicklung eines bestimmten Kurswertes.

Unter diesen Umständen ist eine restriktive Selektion der Einflussgrössen mit denen ein datengetriebenes Prognosemodell gespeist wird im weiteren auch Inputzeitreihen oder Einflussgrössen genannt
- ein unabkömmlicher Schritt dessen Ausgang die vom Prognosemodell errechneten Prognosen und ihre Qualität wesentlich und massgeblich beeinflusst.
Darstellung der Erfindung
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Selektion der Einflussgrössen eines Prognoseverfahrens anzugeben, mit welchem die einflussreichsten Einflussgrössen zuverlässig ermittelt werden können.
Erfindungsgemäss geschieht dies mit einem Verfahren der eingangs genannten Art, bei dem:

- die für die Prognose des Verlaufes einer Zieldatenreihe möglicherweise relevanten Einflussgrössen in einer Datenbasis erfasst werden,
- zu jeder der erfassten Einflussgrössen abgeleitete Einflussgrössen ermittelt werden,
- mittels bivariater Analyse der Grad der Beziehung zwischen den erfassten und den abgeleiteten Einflussgrössen zu der
Zieldatenreihe ermittelt wird,
- die Einflussgrössen, deren Grad der Beziehung zu der Zieldatenreihe einen vorgegebenen Wert übersteigt als massgebliche Einflussgrössen ausgewählt werden, - die noch nicht ausgewählten erfassten Einflussgrössen und daraus abgeleitete Einsflussgrössen in Gruppen zusammengefasst werden,
- zu jeder Gruppe mittels multivariater Analyse der Grad der Beziehung zu der Zieldatenreihe ermittelt wird,
NACHGEREICHT
- wenn der Grad der Beziehung zu der Zieldatenreihe einen vorgegebenen Wert übersteigt,

die der jeweiligen Gruppe zugehörigen Einflussgrössen als massgebliche Einflussgrössen ausgewählt werden,
- aus den solcherart ausgewählten massgeblichen Einflussgrössen die wesentlichsten Einflussgrössen ermittelt werden.
Vorteilhafterweise erfolgt die Ableitung der Einflussgrösse durch zeitliche Verzögerung um vorgegebene Werte.
Die bivariate Analyse von Einflussgrössen und Zieldatenreihe erfolgt vorteilhafterweise mittels Korrelationsanalysen und Granger Kausalitätstests und/oder mittels Dichtekriterien.
Günstig ist es, wenn zumindest ein Teil der erfassten
Einflussgrössen vor Anwendung der bivariaten Analyse einer Vorverarbeitung auf Basis wirtschaftlicher Überlegungen und/oder statistischer Analysen unterzogen wird.
Vorteilhaft ist es weiterhin,

wenn die Ermittlung der wesentlichsten Einflussgrössen auf einem Verfahren der Nachbarschaftssuche beruht.
Günstig ist es ausserdem, wenn die Zusammenfassung der noch nicht ausgewählten erfassten Einflussgrössen in Gruppen und die danach erfolgende multivariate Analyse und Auswahl zweistufig erfolgen und dass in einer ersten Stufe jede Gruppe ausschliesslich eine erfassten Einflussgrösse und daraus abgeleitete Einflussgrössen umfasst und in einer zweiten Stufe Gruppen aus unterschiedlichen Einflussgrössen gebildet werden.
NACHGEREICHT Vorteilhaft ist es weiterhin, wenn die multivariate Analyse der Gruppen Regressionsanalysen und Informationskriterien umfasst.
Kurzbeschreibung der Zeichnung
Die Erfindung wird anhand zweier Figuren näher erläutert.

Diese zeigen beispielhaft:
Fig. 1 eine schematische Darstellung des erfindungsgemässen Verfahrens und
Fig.2 eine schematische Darstellung einer vorteilhaften Realisierungsvariante des Verfahrens.
Ausführung der Erfindung
Mit dem Verfahren gemäss Fig. 1 sollen aus einer Vielzahl von möglichen Einflussgrössen, beim Ausführungsbeispiel handelt es sich dabei um Finanzzeitreihen, die aus hunderten/tausenden von Finanzzeitreihen unterschiedlicher Klassen (Anleihen, Konsumgüter, Aktien, ...) ausgewählt werden, diejenigen Zeitreihen bestimmt werden, die als Einflussgrössen für die Prognose einer Zielgrösse von besonderer Bedeutung sind.
Vor dem eigentlichen Verfahren wird bereits in einer Vorselektionsphase der Kreis der möglichen Einflussgrössen eingeschränkt.

Dies geschieht beispielsweise dadurch, dass aus einer Gruppe von Zeitreihen mit ähnlichem Informationsgehalt nur eine Zeitreihe ausgewählt wird.
Zu diesem Zweck wird über jede Gruppe von Eingangszeitreihen eine Hauptkomponentenanalyse durchgeführt.
NACHGEREICHT Die in dieser Form ausgewählten Inputzeitreihen werden nach dem erfindungsgemässen Verfahren als möglicherweise relevante Einflussgrössen in einer Datenbasis DB erfasst.
Das erfindungsgemässe Verfahren umfasst zwei Phasen.
Die erste Phase mit den Schritten eins und zwei gemäss Fig.l ist eine so genannte Ausschlussphase (oder "knock out"Phase) .

Im Ablauf dieser Phase wird ein Teil der möglicherweise relevanten Einflussgrössen aus dem weiteren Selektionsverfahren ausgeschlossen.
Die Entscheidungen über den Ausschluss der Einflussgrössen erfolgen mittels bi - und multivariater Analysen, in welcher der Grad der Beziehung zwischen den Zielgrössen der Zieldatenreihe ermittelt wird.
Die zweite Phase ist eine Optimierungsphase bei der mittels Methoden beispielsweise der Nachbarschaftssuche die Auswahl der wesentlichen Einflussgrössen erfolgt.
Der Ausschluss von Einflussgrössen in der ersten Phase sowie die Selektion in der zweiten Phase basieren ausschliesslich auf ökonometrisch-statistischen Kriterien.
Die bivariate Analyse der erste Phase umfasst diverse Tests und Analysen:

Normalität- und Stationaritättests, GrangerKausalitättests, Hauptkomponentenanalysen, Korrelationsanalysen und Regressionsanalysen, sowie Informationskriterien. Diese Tests sind beispielsweise in J. Johnston and J. Dinardo (1997)Econometric Methods (4. Ausgabe) , McGraw-Hill Education näher beschrieben.
Die zweite Phase verfügt über einen intelligenten Suchmechanismus, der den riesigen Suchraum aller Teilmengen einer vordefinierten Grosse effizient durchsucht.
NACHGEREICHT Der Suchmechanismus beruht auf einem Verfahren der Nachbarschaftsuche (beispielsweise eine Tabu Suche, ein "si ulated annealing" oder ein evolutionärer Algorithmus) . Dabei wird die Suche durch den Wert einer Qualitätsfunktion gesteuert.

Diese Qualitatsfunktion umfasst verschiedene statistische Kennzahlen aus einer Residuenanalyse sowie Werte von unterschiedlichen Informationskriterien.
Im Folgenden wird das erfindungsgemässe Verfahren näher erläutert:
In einem ersten Schritt 1 erfolgt eine Gruppierung der Einflussgrössen. Diese Gruppierung kann auf wirtschaftlichen Überlegungen oder auf statistischen Analysen basieren. Zur Gruppierung aufgrund statistischer Analysen können Hauptkomponentenanalysen (PCA - "principal component analysis") und/oder Clustering-Verfahren (CR "ClusterReduction") verwendet werden. Die "statistische" Gruppierung kann als "double check" berechnet werden, um so auch Zusammenhänge zu erkennen, die bei der wirtschaftlichen Gruppierung nicht entdeckt wurden.
Aus jeder der erfassten Einflussgrössen werden abgeleitete Einflussgrössen ermittelt.

Eine Methode dazu ist die zeitliche Versetzung der Zeitreihen um eine bestimmte Anzahl von
Perioden, so genannte Lags. Weiterhin können mittels "Moving
Average" Operatoren für eine gegebene Inputzeitreihe x' die
Zeitreihe ^' der Durchschnittwerte über die letzten beispielsweise m Einträge der Inputzeitreihe gebildet werden. Diese kann gemäss der Formel<y>'<=>^<x>'-^<+>'-m+2+- + x,)/m geschehen.
Weitere Ableitungen sind denkbar.

So etwa auf der Basis von Statistiken über die Inputzeitreihe wie "the Chaikin's Oscillator", "the Chaikin's Volatility", "Tom de Mark Range Expansion Index (TME)", "the double smoothed statistics
NACHGEREICHT (DSS)", "the directional movement index" uwm. , wie sie aus Erich Florek (2000) ,Neue Trading Dimensionen, Finanzbuch GmbH, München bekannt sind.
Auf die Menge der so entstandenen Zeitreihen, also die erfassten und die abgeleiteten Einflussgrössen werden dann die Schritte 2 bis 4 angewendet.
Der zweite Schritt 2 umfasst mehrere Teilschritte. In einem ersten Teilschritt 2a erfolgt eine bivariate Analyse mittels welcher die Bedeutung jeder einzelnen der erfassten und abgeleiteten Einflussgrössen für die Prognose der Zieldatenreihe evaluiert wird. Dies erfolgt mit Hilfe von Korrelationsanalysen und Granger Kausalitättests.

Optional können hier zusätzlich Kointegrationstests gemacht werden
(als Referenz zu diesen Tests und Analysen siehe J. Johnston andJ. Dinardo (1997) Econometric Methods (4. Ausgabe<)>, McGraw-Hill Education) . Weiterhin werden auf der Grundlage von Dichteschätzungen (siehe zB. D.W. Scott (1992) Mul tivari ateDensi tyEstimation : Theory, Practice and Visualization. New York, Wien jene Einflussgrössen selektiert, deren Dichte der Dichte der Zieldatenreihe am ähnlichsten ist.

Die Ähnlichkeit der Dichten wird mit Hilfe einer Abstandsfunktion gemessen, wie beispielsweise mit der normierten Summe derAbstandsquadrate und als Selektionskriterium zur Erfassung nicht linearer Zusammenhänge herangezogen.
Es ist denkbar, das Dichte-Kriterium entweder als alleiniges Selektionskriterium zu verwenden oder als zusätzliches Kriterium zu Korrelation, Kointegration und GrangerKausalität basierten "knock-out" -Kriterien.
Jene Einflussgrössen, die diesen ersten Teilschritt 2a erfolgreich absolvieren, werden selektiert und in die Menge Äi der massgeblichen Einflussgrössen aufgenommen.
NACHGEREICHT Dies ist beispielsweise dann der Fall, wenn der Korrelationskoeffizient zwischen Einflussgrösse und Zieldatenreihe eine vorgegebene Grenze überschreitet, der pValue des Granger Kausalitättests eine vordefinierte Grenze unterschreitet,

der p-Value des Kointegrationstests eine vorgegebene Grenze unterschreitet, und/oder der Abstand zwischen der Dichte der Zeitreihe der Einflussgrösse und der Dichte der Zieldatenzeitreihe eine vordefinierte Grenze unterschreitet .
In Teilschritt 2b werden für alle Einflussgrössen, die bislang nicht ausgewählt wurden, weitere abgeleitete Einflussgrössen ermittelt. Dies geschieht beispielsweise durch eine mehrfache zeitliche Verzögerung der Einflussgrössen.

Jede dieser Einflussgrössen und die jeweils daraus abgeleiteten
Einflussgrössen werden zu einer Gruppe zusamengefasst und hinsichtlich der Bedeutung der Gruppe für die Prognose der
Zieldatenreihe evaluiert und gegebenenfalls als massgebliche
Einflussgrössen ausgewählt.
In einem weiteren Teilschritt 2c werden die noch nicht ausgewählten erfassten Einflussgrössen und daraus abgeleitete
Einflussgrössen in Gruppen zusammengefasst, zu jeder Gruppe wird beispielsweise mittels Informationskriterien der Grad der Beziehung zu der
Zieldatenreihe ermittelt, und wenn der Grad der Beziehung einen vorgegebenen Wert übersteigt, werden die der jeweiligen
Gruppe zugehörigen Einflussgrössen als massgebliche
Einflussgrössen ausgewählt.
Ein weiterer Teilschritt 2d ermöglicht die Verwendung einer sogenannten Wissensbasis.

Darunter wird die Bewertung jeder Einflussgrösse durch den User aus wirtschaftlicher Sicht verstanden.
NACHGEREICHT Im dritten Schritt 3 werden mit Hilfe eines "SubsetSelection"Algorithmus aus der Menge Äi der massgeblichen Einflussgrössen die für die Prognose der Zieldatenreihe wesentlichstenEinflussgrössen Äi ausgewählt. Diese Selektion kann beispielsweise mit Hilfe eines Verfahrens der
Nachbarschaftsuche, etwa einer Tabu Suche, einem "simulated annealing", oder AN-Algorithmus A. Hongzhi and G. Lan(1985) On the selection of regression variables, ActaMathematicaeApplicatae Sinica 2, 27-36. durchgeführt werden.

Um das Ausscheiden oder die Selektion zu vieler
Einflussgrössen zu vermeiden können hier obere und untere Schranken für die Anzahl der selektierten Einflussgrössen eingesetzt werden.
Im optionalen vierten Schritt 4 wird mit geeigneten Tests die Relevanz jeder Gruppe Äi von wesentlichen Einflussgrössen, l<=i<=n, für die Prognose der Zieldatenreihe überprüft.
Im ebenfalls optionalen fünften Schritt 5 wird die Vereinigung jener Mengen von wesentlichen Einflussgrössen Äi gebildet, die in Schritt 4 bestätigt worden sind. Über die Vereinigung dieser Mengen wird erneut ein Selektionsalgorithmus angewendet um die wesentlichsten Einflussgrössen aus der Vereinigungsmenge auszuwählen.

Die Durchführung dieses Schrittes wird zweckmässig sein in jenen Fällen, in denen die vorangehenden Verfahrensschritte eine derartige Vielzahl an wesentlichen Einflussgrössen ergeben haben, sodass eine für ein quantitatives datengetriebenes Prognosemodell unannehmbare Grösse vorliegt, d.h. das die Prognose selbst mit einem unverhältnismässig hohen Aufwand verbunden wäre.
Fig. 2 zeigt ein Beispiel einer Realisierungsvariante des Verfahrens. Jeder Schritt bzw. Teilschritt des Verfahrens wird mit Hilfe einer eigenen Webapplikation durchgeführt, die
NACHGEREICHT Methode genannt wird.

Eine Methode ist die Implementierung eines bestimmten Verfahrensteiles und ist in der Lage, benötigten Einflussgrössen aus einer Datenbasis zu holen und die berechneten Ergebnisse in dieser Datenbasis zu speichern.
Im folgenden werden die Datenflüsse zwischen den Methoden sowie die Parametrierungsmöglichkeiten der einzelnen Methoden näher erläutert.
Die Methode der "principal component analysis" PCA übernimmt als Eingang eine Menge von gegebenenfalls vorverarbeiteten Zeitreihen von Einflussgrössen und eventuell eine oder mehrere Zieldatenreihen und berechnet für diese Fülle von Zeitreihen eine Hauptkomponentenanalyse. Die Zieldatenreihe können bei der Hauptkomponentenanalyse berücksichtigt werden. Als Berechnungsgrundlage kann die Korrelationsmatrix oder die Varianz-Kovarianzmatrix der eventuell zentrierten Zeitreihen herangezogen werden.

Es ist auch denkbar, einen Gewichtungsfaktor zu verwenden, um so die weit in der
Vergangenheit zurückliegenden Daten weniger als die aktuellen Daten zu gewichten.
Mittels Methode der "principal component analysis" PCA werden die Hauptkomponenten berechnet. Als
Ausgangsparameterparameter werden die wichtigsten Hauptkomponenten und/oder jene Zeitreihen von Einflussgrössen ausgegeben, deren Ladungen zu den wichtigsten Hauptkomponenten grösser als eine vordefinierte Grenze sind.

Die wichtigsten Hauptkomponenten können anhand der erklärten Varianz, oder anhand der Grösse der Eigenwerte, bzw. mittels einer vorgegebenen Anzahl an Hauptkomponenten definiert werden.
Die Methode Cluster Reduction CR übernimmt als Eingang eine Menge von gegebenenfalls vorverarbeiteten Zeitreihen von Einflussgrössen und eventuell eine oder mehrere
NACHGEREICHT
12 Zieldatenreihen und gruppiert diese Zeitreihen in der Weise, dass die Korrelation zwischen je zwei Zeitreihen innerhalb einer Gruppe eine vorgegebene Grenze nicht unterschreitet.
Als Berechnungsgrundlage kann die aktuelle Korrelationsmatrix dienen oder eine fiktive Korrelationsmatrix, die pro Zeitreihenpaar die Minima der mit einem rollierenden Datenfenster berechneten Korrelationskoffizienten für die letzten x Zeitpunkte enthält.
Wenn Zieldatenreihen als Teil der Methodeneinflussgrössen vorhanden sind,

so werden nach der Berechnung der Cluster (Gruppen) die Inputs jeder einzelnen Gruppe entsprechend den Korrelationen mit der Zieldatenreihe gereiht.
Als Output ergibt diese Methode die Gruppen, falls keine Zieldatenreihen als Teil des Eingangs der Methode vorhanden sind, oder eine Zeitreihe pro Gruppe als GruppenRepräsentant. Dies ist die jenige Zeitreihe, die mit der Zieldatenreihe am höchsten korreliert. Der Output fliesst als Input in die Methode "Analysis System" AS ein.
Die Methode "Analysis" System AS übernimmt als Eingangsgrössen eine Menge von (vorverarbeiteten) Zeitreihen von Einflussgrössen und eine oder mehrere Zieldatenreihen und führt eine bivariate Analyse inklusive linearer Regression durch.

Die Funktionalität dieser Methode entspricht dem Teilschritt 2a des Verfahrens gemäss Fig. 1.
Die Methode InputPreSelectionA berücksichtigt nun alle
Zeitreihen von Einflussgrössen die bis zu diesem Schritt noch nicht ausgewählt wurden. Aus jeder Einflussgrösse werden durch zeitliche Verzögerung abgeleitete Einflussgrössen gebildet. Für jede dieser Zeitreihen wird eine multivariate Regression gerechnet, die Zieldatenreihe wird auf die Zeitreihen der erfassten und abgeleiteten Einflussgrössen regressiert. Für jede Regression dieser Art wird der Wert eines
NACHGEREICHT
13 Informationskriteriums berechnet. Dabei sind folgende Informationskriterien zweckmässig: Akaike
Informationskriterium (AIC) , Bayesian Informationskriterium (BIC) und Hannan and Quinn Informationskriterium (HQ) , E.J. Hannan und B.G.

Quinn (1979) The determination of the order of an autoregression, Journal of the Royal Statistic Society, B41, 190-195.
Dabei werden die 0.01, 0.05 und 0.1 Quantile der Informationskriteriumswerte berechnet. Basierend auf den Quantilwerten wird eine Schranke gesetzt, bei deren Unterschreiten durch den Wert des jeweiligen Informationskriteriums die Auswahl erfolgt.
Die Methode InputPreSelectionB berücksichtigt nun alle
Zeitreihen von Einflussgrössen die bis zu diesem Schritt noch nicht ausgewählt wurden. Aus jeder Einflussgrösse werden durch zeitliche Verzögerung abgeleitete Einflussgrössen gebildet und zu Gruppen zusammengefasst.

Für jede dieser Gruppen wird ein multivariates Regressionsmodell gerechnet, die Zieldatenreihe wird auf die Zeitreihen der erfassten und abgeleiteten Einflussgrössen regressiert.
Für jede Regression dieser Art wird analog zur Methode InputPreselektion A der Wert eines Informationskriteriums berechnet und abhängig vom Ergebnis eine Auswahl vorgenommen.
Die Methode Rating (R) behandelt alle bisher ausgewählten Zeitreihen. Dabei wird jeder der ausgewählten Einflussgrössen ein Bedeutungsgrad zugeordnet, der bei der Methode AN berücksichtigt wird.
Die Methode AN umfasst die Implementierung eines iterierten 2-Schritt Suchverfahrens (siehe A. Hongzhi and G.

Lan (1985)On the selection of regression variables, Acta
Mathe aticae Applicatae Sinica 2, 27-36), welches aus der Menge der bisher ausgewählten Einflussgrössen eine Teilmenge selektiert.
NACHGEREICHT -
14
Es handelt sich dabei um einen 2-Phasen Algorithmus. Die Suche wird durch eine Nutzenfunktion geleitet: diese Funktion ordnet jeder Menge von Zeitreihen einen Nutzen zu, welcher aus dem inversen Wert des Informationskriteriums ermittelt wird, welches mittels einer linearen Regression der Zieldatenreihe auf die Einflussgrössen der berücksichtigten Menge berechnet wird.
In der ersten Phase wird eine inkrementelle Suche durchgeführt.

Die Suche geht von einer zufällig generierten Menge aus der Menge der bisher selektierten Einflussgrössen aus.
Dabei wird versucht, diese Menge schrittweise zu vergrössern in dem in jedem Schritt eine zusätzliche Zeitreihe aus den bisher selektierten Zeitreihen hinzugefügt wird. Dafür wird jene Zeitreihe ausgewählt, deren Hinzufügen den Wert der Nutzenfunktion maximiert.
Die erste Phase endet wenn eine obere Grenze an hinzugefügten Zeitreihen von Einflussgrössen erreicht wird oder wenn der Wert der Nutzenfunktion durch das Hinzufügen einer weiteren Zeitreihe nicht mehr verbessert werden kann. Die erste Phase kann mit unterschiedlichen Startmengen mehrmals wiederholt werden.
In der zweiten Phase wird versucht, iterativ eine Menge von Zeitreihen von Einflussgrössen mit maximalem Nutzenfunktionswert zu finden.

Im Gegensatz zur ersten Phase wird hier in jeder Iteration eine Zeitreihe aus der Kandidaten-Menge entfernt oder gegen eine andere Zeitreihe ausgetauscht .
Die Methode F-Test ermittelt die Signifikanz der im vorangehenden Schritt (Methode AN) erzeugten KandidatenMengen von Zeitreihen mit Hilfe eines F-Tests (siehe z.B.
NACHGEREICHT
* -
15 Th. Poddig, H. Dichtl und K. Petersmeier (2003) Statistik, Ökonometrie, Optimierung: Methoden und ihre praktischen Anwendungen in Finanzanalyse und Portfoliomanagement, Uhlenbruch Verlag) .
Hier wird für die Kandidaten-Einflussgrössen eine lineare multivariate Regression der Zieldatenreihe auf die Eingangszeitreihen der Einflussgrössen berechnet und dann mit Hilfe eines F-Tests die Hypothese geprüft, ob in diesem Modell mindestens einer der Regressoren signifikant ist.

Diese Hypothese wird akzeptiert oder widerlegt mit einem vorgegebenen Konfidenzniveau.
Durch die Methode F-Test werden diejenigen Mengen von Einflussgrössen endgültig ausgewählt, die dem
Prognoseverfahren zugrundegelegt werden sollen.
NACHGEREICHT

Claims

Patentansprüche

1) Verfahren zur Selektion der Einflussgrössen eines Prognoseverfahrens mit folgenden Verfahrensschritten:

- die für die Prognose des Verlaufes einer Zieldatenreihe möglicherweise relevanten Einflussgrössen werden in einer Datenbasis erfasst

- zu jeder der erfassten Einflussgrössen werden abgeleitete Einflussgrössen ermittelt,

- mittels bivariater Analyse wird der Grad der Beziehung zwischen den erfassten und den abgeleiteten Einflussgrössen zu der Zieldatenreihe ermittelt,

- die Einflussgrössen, deren Grad der Beziehung zu der Zieldatenreihe einen vorgegebenen Wert übersteigt, werden als massgebliche Einflussgrössen ausgewählt

- die noch nicht ausgewählten erfassten Einflussgrössen und daraus abgeleitete Einflussgrössen werden in Gruppen zusammengefasst - zu jeder Gruppe wird mittels bivariater Analyse der Grad der Beziehung zu der Zieldatenreihe ermittelt

- wenn der Grad der Beziehung zu der Zieldatenreihe einen vorgegebenen Wert übersteigt, werden die der jeweiligen Gruppe zugehörigen Einflussgrössen als massgebliche Einflussgrössen ausgewählt

- aus den solcherart ausgewählten massgeblichen Einflussgrössen werden die wesentlichsten Einflussgrössen ermittelt.

2) Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Ermittlung der abgeleiteten Einflussgrössen durch zeitliche Verzögerung der erfassten Einflussgrössen um vorgegebene Werte erfolgt.

NACHGEREICHT [Phi] [Phi]

17

3<)>Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die bivariate Analyse von Einflussgrössen und Zieldatenreihe Korrelationsanalysen und Granger Kausalitätstests umfasst.

4<)>Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die bivariate Analyse von Einflussgrössen und Zieldatenreihe Dichtekriterien umfasst.

5<)>Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass zumindest ein Teil der erfassten Einflussgrössen vor Anwendung der bivariaten Analyse einer Vorverarbeitung auf Basis wirtschaftlicher Überlegungen und/oder statistischer Analysen unterzogen wird.

6) Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Ermittlung der wesentlichsten Einflussgrössen auf einem Verfahren der Nachbarschaftssuche beruht .

7) Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Zusammenfassung der noch nicht ausgewählten erfassten Einflussgrössen in Gruppen und die danach erfolgende multivariate Analyse und Auswahl zweistufig erfolgen und dass in einer ersten Stufe jede Gruppe ausschliesslich eine erfassten Einflussgrösse und daraus abgeleitete Einflussgrössen umfasst und in einer zweiten Stufe Gruppen aus unterschiedlichen Einflussgrössen gebildet werden.

8) Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die multivariate Analyse der Gruppen Regressionsanalyse und Informationskriterien umfasst.

NACHGEREICHT