DE19717677C1

DE19717677C1 - Verfahren zur automatischen Einteilung von Eingangsdaten in a-priori unbekannte Klassen

Info

Publication number: DE19717677C1
Application number: DE19717677A
Authority: DE
Inventors: Udo Dipl Ing Seiffert; Stefan Dipl Ing Schuenemann; Bernd Prof Dr Ing Michaelis
Original assignee: Otto Von Guericke Universitaet Magdeburg
Current assignee: Inb Vision Ag 39120 Magdeburg De
Priority date: 1997-04-28
Filing date: 1997-04-28
Publication date: 1998-07-23
Anticipated expiration: 2017-04-29

Description

Die Erfindung betrifft ein Verfahren zur automatischen Einteilung von Eingangsdaten mit Hilfe künstlicher neuronaler Netzwerke in a-priori unbekannte Klassen. Das Verfahren betrifft insbesondere den Netzwerkbetrieb bei Anwesenheit von gestörten Eingangsdaten.

Ein neuronales Netz ist eine Anordnung von in einer bestimmten Art und Weise miteinander verbundenen Verarbeitungseinheiten, die eine bestimmte Anzahl von Eingangssignalen nach einer vorgegebenen Übertragungsfunktion zu einem Ausgangssignal kombinieren. Das neuronale Netz als Ganzes stellt wiederum ein System dar, das aus i.a. mehrdimensionalen Eingangsdaten i.a. mehrdimensionale Ausgangsdaten bestimmt.

Die Verbindungen zwischen den Neuronen sind mit Elementen zur Einstellung der Signalstärke (Gewichte) versehen. Diese Gewichte werden während eines sog. Lern- oder Trainingsprozesses nach einem vorgegebenen Algorithmus (Lernregel) verändert. Damit werden neben der Anordnung und Art und Weise der Verschaltung der Neuronen sowie ihrer Übertragungsfunktion die grundlegenden Eigenschaften des künstlichen neuronalen Netzes bestimmt. Beim Training künstlicher neuronaler Netze unterscheidet man bezüglich der Lernregel prinzipiell zwei Varianten. Diese sind durch eine Vielzahl von Veröffentlichungen allgemein bekannt.

Das überwachte Training fordert neben der Präsentation der Eingangsdaten (üblicherweise erfolgt dies mittels eines Mustergenerators) auch das Vorhandensein eines zu jedem Trainingsbeispiel gehörenden Zielvektors. Auf Basis einer Differenz zwischen dem vom Netz im aktuellen Zustand tatsächlich berechneten Ausgang und dem geforderten Ausgang (Zielvektor) erfolgt das Verändern der Gewichte der einzelnen Neuronen. Diese Lernregel ist u. a. typisch für Multilayer- Perceptrons (MLP). Siehe dazu auch: M. Minsky u. a., "Perceptrons", MIT Press, Cambridge, 1969.

Im Gegensatz dazu wird beim unüberwachten Training kein Zielvektor vorgegeben. Es erfolgt eine Selbstorganisation der Neuronen durch Verändern der Gewichte anhand der inneren Struktur der Eingangsdaten. Es findet eine Transformation einer Ähnlichkeitsrelation in eine Lagerelation in der Art statt, daß ähnliche Eingangsdaten im gleichen oder in benachbarten Neuronen repräsentiert werden. Dieses Verfahren wird z. B. bei Selbstorganisierenden Karten verwendet. Weitere Informationen dazu sind in T. Kohonen, "Self-Organization and Associative Memory", 2. Aufl., Springer Verlag, 1988 zu finden.

Zur Einteilung eines beliebigen Datenraumes in Klassen unter Nutzung künstlicher neuronaler Netze können grundsätzlich beide Lernregeln verwendet werden. Sind die Grenzen der Klassen bekannt, verwendet man das überwachte Training. In der praktischen Anwendung fällt auf, daß überwacht trainierte Netze robuster gegenüber gestörten Eingangsdaten sind. Oft sind sie zumindest in der Recall-Phase schneller, als vergleichbare unüberwacht trainierte Netze. In vielen Fällen sind die Klassengrenzen jedoch nicht a-priori bekannt. Somit ist man nicht in der Lage, den für die erste Variante benötigten Zielvektor zur Verfügung zu stellen. Man verwendet dann das unüberwachte Training des Netzwerkes, das den Vorteil bietet, die Klassengrenzen entsprechend den inneren Eigenschaften der Daten zu bestimmen.

Jedoch besitzen auch unüberwacht trainierte neuronale Netzwerke Anwendungsgrenzen. So besteht in der Bildverarbeitung das Problem, aus Bildteilen charakteristische Klassen von Mustern zu extrahieren. Kriterium ist dabei die geometrische Ähnlichkeit. Das bedeutet, daß zueinander ähnliche Bildinhalte in die gleiche Klasse sortiert werden sollen. Die Klassengrenzen sind allerdings nicht bekannt. Da diese Bilder z. T. stark verrauschte oder stückweise verdeckte Objekte enthalten, ist die Klassifikationsleistung unüberwacht trainierter Netzwerke nicht ausreichend. Ein unmittelbarer Einsatz überwacht trainierter Netze ist jedoch mangels Zielvektoren nicht möglich.

In dem Artikel von U. Seiffert u. a., "Three-Dimensional Self-Organizing Maps for Classification of Image Properties", Konferenzband der ANNES'95, S. 310-313, IEEE Press, Los Alamitos, 1995, ist zwar eine Beschreibung der Klasseneinteilung unter ausschließlicher Verwendung von Selbstorganisierenden Karten zu finden, diese Lösung ist im Sinne der Klassifikation jedoch insbesondere für stark verrauschte Daten nicht optimal.

Ein anderer Einsatzfall, bei dem ebenfalls die Nachteile unüberwacht trainierter neuronaler Netzwerke deutlich werden, stammt aus der biomedizinischen Datenauswertung. Bei dieser Anwendung sollen aus Bildern extrahierte Merkmalsdaten in charakteristische Klassen unterteilt werden. Ziel ist es, gesunde und verschiedene pathologische Zustände im menschlichen Immunsystem exakt zu unterscheiden. Dabei müssen Merkmalsdaten, die ein Krankheitsbild symbolisieren, in eine Klasse und ähnliche Krankheiten in benachbarte Klassen sortiert werden. Die Klassengrenzen sind im genutzten hochdimensionalen Merkmalsraum nicht bekannt. Systembedingt kommt es bei der automatischen Mikroskopie und der sich anschließenden Bildverarbeitung und Merkmalsdatenberechnung zum teilweise starken Verrauschen der Daten. Untersuchungen zeigen, daß unüberwacht trainierte Netzwerke nicht die erforderliche Trennschärfe zwischen den einzelnen Klassen aufweisen bzw. die Auswertung für den normalen Nutzer zu kompliziert ist. Siehe dazu auch den Artikel von St. Schünemann u. a., "Analysis of Multi-Fluorescence Signals Using a Modified Self-Organizing Feature Map", Konferenzband der ICANN'96, S. 575-580, Springer Verlag Berlin, 1996, für weitere Details.

Aus dem Vorstehenden ergibt sich, daß eine Einteilung von Daten in a-priori unbekannte Klassen mittels eines unüberwacht trainierten künstlichen neuronalen Netzwerks mit der notwendigen Klassifikationssicherheit derzeit nicht realisierbar ist, andererseits die Vorteile überwacht trainierter Netze bei verrauschten Eingangsdaten mangels Zielvektoren nicht nutzbar sind.

Es sind auch hybride neuronale Netzwerke bekannt, bei denen ein unüberwacht trainiertes neuronales Netz mit mehreren überwacht trainierten Netzen kombiniert ist. So werden bei dem Netzwerk gem. US-PS 5 303 330 Muster von Eingangsdaten einem ersten unüberwacht zu trainierenden ersten neuronalen Netz übergeben, das seine Parameter optimiert und als Ergebnis jedes Muster genau einer Klasse zuordnet. Diese Informationen aktivieren genau eines von mehreren zweiten neuronalen Netzen. Diese zweiten Netze wurden unabhängig voneinander überwacht trainiert, ohne daß hierzu das erste Netz benötigt wurde. Dem auf diese Weise aktivierten zweiten Netz werden dann Eingangsdaten übergeben, die aus den Eingangsdaten des unüberwacht trainierten ersten neuronalen Netzes abgeleitet wurden. Für die Bestimmung von Klassengrenzen wird das erste Netz nicht benötigt.

Mit der Lösung gem. US-PS 5 303 330 wird eine Baumstruktur zur hierarchischen Klassifikation realisiert, wobei in der Betriebsphase das unüberwacht trainierte erste Netz benutzt wird, um aus einem Vorrat bereits bestehender und trainierter zweiter Netze ein bestimmtes Netz bzw. einen bestimmten Ast der Baumstruktur auszuwählen. Das erste und die zweiten Netze bilden daher gemeinsam ein Klassifikationssystem, so daß in der Betriebsphase stets auch das erste Netz benötigt wird. Ein wesentlicher Nachteil dieser Lösung besteht darin, daß das Training der zweiten Netze problematisch wird, wenn gestörte Daten in a-priori unbekannte Klassen einzuteilen sind.

Eine andere Variante, die Vorteile von unüberwacht und überwacht trainierten Netzwerken zu kombinieren, besteht gem. US-PS 5 283 838 darin, bei bekannten Klassen zunächst für jede Klasse ein unüberwachtes Lernen durchzuführen, um einen Klassen-Repräsentanten-Vektor zu bestimmen. Die Menge dieser Vektoren wird als initialer Gewichtsdatensatz für das überwacht zu trainierende Netz benutzt. Das unüberwachte und das überwachte Lernen kann dabei im wesentlichen simultan erfolgen. Dieses Verfahren setzt jedoch bekannte Klassen voraus.

Der Erfindung liegt daher das Problem zugrunde, die Vorteile beider Lernverfahren zu kombinieren und insbesondere die höhere Klassifikationssicherheit überwacht trainierter künstlicher neuronaler Netzwerke auch für solche Anwendungsfälle nutzbar zu machen, bei denen gestörte Daten in a-priori unbekannte Klassen einzuteilen sind.

Erfindungsgemäß wird dieses Problem durch ein Verfahren zur automatischen Einteilung von Eingangsdaten in a-priori unbekannte Klassen mit den Merkmalen des Anspruchs 1 gelöst.

Das Grundprinzip der Erfindung besteht demnach darin, daß ein unüberwacht trainiertes künstliches neuronales Netzwerk die Zielvektoren generiert, die für das Training des überwacht lernenden künstlichen neuronalen Netzwerkes erforderlich sind. Nachfolgend wird dann ausschließlich das überwacht trainierte künstliche neuronale Netzwerk als eigentliches Klassifikationssystem für ihm zu übergebende beliebige Eingangsdaten im Recall betrieben.

Das erfindungsgemäße Verfahren kann grundsätzlich für alle Klassifikationsaufgaben verwendet werden, in denen eine scharfe und robuste Trennung verschiedener Klassen erwünscht ist, die Klassengrenzen aber nicht a-priori zur Verfügung stehen.

Weitere Ausgestaltungen der Erfindung ergeben sich direkt aus den Umeransprüchen. Eine besonders vorteilhafte Ausführungsform der Erfindung besteht darin, daß bei sich verändernden Eingangsdaten das unüberwacht lernende künstliche neuronale Netzwerk zum Nachtrainieren der Klassen des überwacht lernenden künstlichen neuronalen Netzwerkes erneut in den Signalfluß einschaltbar ist.

Die Erfindung soll einschließlich ihrer Funktionsweise nachstehend an einem Ausführungsbeispiel näher erläutert werden. In der zugehörigen Zeichnung zeigen:

Fig. 1 den Signalfluß in und zwischen den Teilnetzen während der 1. und 2. Lernphase bei Vorhandensein eines mit einem Mustergenerator gekoppelten Rauschgenerators gemäß der Erfindung,

Fig. 2 den Signalfluß in und zwischen den Teilnetzen während der Betriebsphase gemäß der Erfindung.

1. Lernphase

Das Netzwerk 1 in Fig. 1 wird als unüberwacht lernendes Netz betrieben. In dieser 1. Lernphase werden ausschließlich die Parameter des Netzwerks 1 optimiert. Hierzu werden dem Netzwerk 1 Muster von Eingangsdaten übergeben, die insbesondere gestört sein können. Als Ergebnis erhält man für jedes Muster von Eingangsdaten die Zuordnung zu genau einer Klasse. Diese Klassenzuordnung dient in der 2. Lernphase als Zielvektor für das Netzwerk 2, das als überwacht lernendes Netz betrieben wird.

2. Lernphase

In dieser 2. Lernphase werden die zuvor dem Netzwerk 1 übergebenen Muster von Eingangsdaten und die in der 1. Lernphase ermittelten zugehörigen Zielvektoren dem Netzwerk 2 übergeben, das aufgrund dieser Daten seine Parameter optimiert und damit dieses überwacht lernende Netz zur Klassifikation beliebiger Daten aus dem Eingangsdatenraum vorbereitet. Zusätzlich befindet sich ein Rauschgenerator im System, der eine Störungsüberlagerung mit den Eingangsdaten für das Netzwerk 2 realisiert. Um die Korrespondenz zu den Eingangsdaten zu behalten und u. U. eine ortsvariante Rauschdatengenerierung zu erreichen, ist der Rauschgenerator über eine Steuerleitung mit dem die Eingangsdaten erzeugenden Mustergenerator verbunden.

Betriebsphase

In dieser in Fig. 2 dargestellten Betriebsphase wird das überwacht trainierte Netzwerk 2 als eigentliches Klassifikationssystem im Recall betrieben und damit eine hohe Verarbeitungsgeschwindigkeit und Klassifikationsleistung erreicht. Das Netzwerk 2 erhält somit als Eingangsvektor beliebige Eingangsdaten.

In einer speziellen Variante des Verfahrens kann das Netzwerk 1 als Instrument zum Verifizieren der Klassen dienen. Es kann bei Bedarf, z. B. bei auftretender Drift der Eingangsdaten, wieder aktiv in den Signalfluß eingeschalten werden, um ein Nachtrainieren der Klassen im Netzwerk 2 zu erreichen.

Claims

1. Verfahren zur automatischen Einteilung von Eingangsdaten, insbesondere von verrauschten und/oder gestörten Eingangsdaten, mit Hilfe künstlicher neuronaler Netzwerke in a-priori unbekannte Klassen, wobei

a) in einer 1. Lernphase Muster von Eingangsdaten ausschließlich einem unüberwacht lernenden Netzwerk (Netzwerk 1) übergeben werden, dieses Netzwerk seine Parameter optimiert und als Ergebnis jedes Muster genau einer Klasse zuordnet, die Klassengrenzen der Eingangsdaten somit ermittelt und für die Muster von Eingangsdaten die zugeordneten Zielvektoren für eine nachfolgende 2. Lernphase zur Verfügung stellt,
b) in der 2. Lernphase die Muster von Eingangsdaten und die in der 1. Lernphase ermittelte Klassenzuordnung als Zielvektoren einem überwacht lernenden Netzwerk (Netzwerk 2) übergeben werden, das seine Parameter wiederum optimiert,
c) danach in einer Betriebsphase als eigentliches Klassifikationssystem für beliebige Eingangsdaten das überwacht trainierte Netzwerk (Netzwerk 2) allein betrieben wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unüberwacht lernende künstliche neuronale Netzwerk (Netzwerk 1) entsprechend dem Algorithmus der Selbstorganisierenden Karten und das überwacht lernende künstliche neuronale Netzwerk (Netzwerk 2) entsprechend dem Backpropagation-Algorithmus für Multilayer-Perceptrons trainiert werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß am Eingang des überwacht lernenden Netzwerkes (Netzwerk 2) ein Rauschgenerator eine Überlagerung von Störungen mit den Eingangsdaten realisiert.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß bei sich verändernden Eingangsdaten das unüberwacht lernende künstliche neuronale Netzwerk (Netzwerk 1) zum Nachtrainieren der Klassen des überwacht lernenden künstlichen neuronalen Netzwerkes (Netzwerk 2) erneut in den Signalfluß einschaltbar ist.