-
Die
Erfindung betrifft ein Verfahren zum überwachten Einlernen eines
Mustererkennungssystems und Mustererkennungssystem mit überwachtem
Einlernen.
-
Mustererkennungssysteme
werden in der Industrie eingesetzt beispielsweise zur optischen
oder akustischen Qualitätskontrolle
von Produkten, für
Sicherheitseinrichtungen (Biometrie) oder zur Steuerung von Handhabungssystemen
oder fahrerlosen Transportsystemen. In der Medizin können Mustererkennungssysteme
z.B. zum Detektieren krankheitsverdächtiger Stellen in Röntgenbildern
eingesetzt werden.
-
Mustererkennungssysteme
reduzieren Signale (eindimensionale Signale wie z.B. akustische
Signale, Bilder, Bildfolgen etc.) auf eine kompakte Beschreibung.
Im einfachsten Falle handelt es sich um eine Klassifikationsaufgabe,
wobei das Signal einer von wenigen möglichen Klassen zugeordnet
wird; Ergebnis der Mustererkennung kann beispielsweise auch sein:
eine Zeichenkette bei Leseaufgaben, eine formalisierte Fehlerbeschreibung,
ein Satz von Messwerten (z.B. Länge
eines in einem Bild erkannten Objekts), Beschreibung pathologischer
Veränderungen
aus Röntgenbildern,
Typ- und 3D-Lageparameter von in Bildern erkannten Objekten, und
bis hin zu einer semantischen Szenenbeschreibung oder gar einer
Episodenbeschreibung für
Bildfolgen.
-
Mustererkennungssysteme
können
ihre Aufgabe nur aufgrund von Wissen über die behandelte Welt (Domäne) fällen. Die
Akquisition dieses Wissens geschieht durch Lernen.
-
Man
unterscheidet überwachtes
und unüberwachtes
Lernen. Beim überwachten
Lernen erhält das
System Vorgaben durch den Menschen. Beim unüberwachten Lernen versucht
das System, ohne Vorgaben von aussen, Cluster und Gemeinsamkeiten
in den Daten zu erkennen; unüberwachtes
Lernen geht in der heutigen Praxis nicht viel über Clusterbildung hinaus.
-
In
industrieller Umgebung unterscheidet man den Einrichtbetrieb, in
dem u.a. das Lernen stattfindet, und den Automatikbetrieb, in dem
alle Vorgänge automatisch
ablaufen. Wird im Einrichtbetrieb mit Vorzeigen (Posen eines Roboters,
Bildbeispiele eines Bildanalysesystems) gearbeitet, spricht man auch
von "teachen" oder "Teach-In".
-
Effizient
und robust arbeitende Mustererkennungssysteme sind in der Regel
hierarchisch organisiert. Dies trifft zu für modellbasierte Systeme, bei
denen Wissen explizit vorab eingebracht wird (z.B. die 3D-Geometrie
von in Bildern zu erkennenden Werkstücken mit geometrischen Elementen,
die hierarchisch aus Unterelementen zusammengesetzt sind), aber
auch beispielsweise bei Neuronalnetzen, die intern mehrstufig und
in Richtung höherer
Stufen in der Regel mit abnehmender Neuronendichte organisiert sind.
-
Bekannte überwachte
Lernverfahren für
hierarchische Systeme arbeiten – von
außen
gesehen – einschrittig,
wobei die kompletten Lernmuster vorgezeigt werden, wie z.B. bei
Neuronalnetzen. Nachteilig dabei ist, dass das System die vorliegenden
Muster nur pauschal "sieht", eine teilsignalbezogene,
differenzierende Bewertung ist nicht möglich, da nur implizit realisiert
und für
den Benutzer nicht verfügbar. Ein
Nachteil der einschrittigen Verfahren ist also die mangelnde Transparenz,
ein Nachteil der insbesondere Neuronalnetzen anhaftet: Es ist nicht
anschaulich nachvollziehbar, wieso ein System im Automatikbetrieb
eine bestimmte Entscheidung gefällt
hat.
-
Einschrittige
Lernverfahren sind sehr kritisch bei nichtidealen Beispielmustern,
da man hier Gefahr läuft,
Dreckeffekte mit einzulernen. In realen Anwendungen ist es oft äußerst mühsam oder
gar unmöglich,
störungsfreie
Lernmuster bereitzustellen. Man versucht das Problem mit statistischen
Mustererkennungssystemen (Basis: statistische Verteilung vordefinierter
Merkmale) und eine ausreichend große, repräsentative Lernstichprobe zu
lösen,
diese jedoch ist in der Praxis oft ebenso schwer zu beschaffen.
Anmerkung: im Folgenden wird "Merkmal" sowohl im Sinne
der Merkmalsdefinition als auch im Sinne von konkreten Merkmalswerten
benutzt; das Gemeinte ergibt sich aus dem Zusammenhang: ersteres
betrifft das Einteachen letzteres das Berechnen.
-
Eine
mehrschrittige, hierarchische Vorgehensweise ist bisher nur im Rahmen
des Systementwurfs bekannt anhand von Experimenten mit typischen
Trainings daten. Nachteilig dabei ist, dass die auf den unteren und
mittleren Stufen verwendeten Zwischen-Merkmale beim Systementwurf
festgelegt werden müssen.
-
Aufgabe
der Erfindung ist es, ein Verfahren zum überwachten Einlernen eines
Mustererkennungssystems bzw. ein Mustererkennungssystem mit überwachtem
Einlernen bereitzustellen, welches, bei Vermeidung der genannten
Nachteile, das Lernen durch Vorzeigen nichtidealer, gestörter Muster ermöglicht.
-
Horst
Horvath „Optische
Lernkurven" mpa 5-1999,
Seiten 32–36
betrifft ein Bildauswertesystem, bei welchem der Einlernvorgang
nur ein einmaliges Vorzeigen von Merkmalen umfasst. Ein interaktives Einlernen
wird nicht durchgeführt.
Alle Merkmale werden automatisch in einer einzigen Verarbeitungsstufe
eingelernt.
-
E.H.J.
Persoon „Ein
System, das lernen kann, zweidimensionale Formen zu erkennen", Philips techn.
Rundschau, 38, 372–379,
1979, Nr. 11/12 betrifft ein System, welches die zu erkennende Form in
zwei Phasen lernt. In der ersten Phase werden die Formenelemente
ermittelt, in der zweiten Phase wir die relative Lage der Formenelemente
bestimmt. Beide Phasen sind fest programmiert und arbeiten ohne menschliche
Interaktion.
-
DE 103 38 323 betrifft
eine Anordnung und ein Verfahren zum Erkennen und Greifen von ungeordneten
Teilen, offenbart jedoch kein spezifisches Verfahren zum Einlernen.
-
Die
Aufgabe wird durch ein Verfahren gemäß Anspruch 1 bzw. das System
gemäß Anspruch
6 gelöst.
Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen definiert.
-
In
Anspruch 1 gilt natürlich
i>=2.
-
Das
erfindungsgemäße Verfahren
arbeitet stufenweise hierarchisch; es treibt sich hoch von einfachen
Mechanismen zu immer höherer
Komplexität und
Leistungsfähigkeit,
im Sinne von Bootstrap Systemen (Beispiel: Bootstrap Loader eines
Computers).
-
Das
erfindungsgemäße Verfahren
wird beispielhaft anhand des Lernens einer zweidimensionalen Bilderkennungsaufgabe
erläutert, 1 bis 9.
-
Die Übertragung
des Beispiels auf eine entsprechende Anwendung der allgemeinen Signalverarbeitung
oder auf mehrdimensionale Aufgabenstellungen kann der Fachmann davon
ableiten.
-
Zu
erkennen sei ein flaches Werkstück,
dessen Bild von einer Kamera aufgenommen wird, mit optischer Achse
senkrecht auf der Auflageebene des Werkstücks; zweidimensionale Verschiebung
und Drehung des Werkstücks
resultiert daher in einfacher zweidimensionaler Verdrehung und Verschiebung des
Abbilds des Werkstücks
in der Bildebene. 1 zeigt vier solcher Abbildungen
in unterschiedlicher Position und Drehlage im Bildfenster 1.
-
Das
Werkstück
erscheint in den zum Lernen zu verwendenden Bildern mit ungleichmäßiger Helligkeit
vor dem Hintergrund, wie durch verschieden starke Schraffur und
durch Punktierung angedeutet. Außerdem sind die Werkstückflächen durch
Glanzlichter gestört,
wie durch die hellen Flecken angedeutet. Außerdem sind die Konturen unvollständig, lokal zuweilen
verformt oder durch Glanzlichter gestört. Außerdem befinden sich auch im
Hintergrund Bildstörungen,
die sich bis zu den Werkstückkonturen
hin erstrecken können.
-
Das
im Beispiel zu erstellende, hierarchische Werkstückmodell besteht aus
- – einer
Liste der Werkstücktypen
(oder Erscheinungsformen, z.B. Auflagearten), für jeden Werkstücktyp existiert
- – eine
Liste von globalen und lokalen Formmerkmalen und der Angabe von
Relationen zwischen ihnen, für
jedes globale Formmerkmal existiert
- – eine
Liste von lokalen Formmerkmalen und der Angabe von Relationen zwischen
ihnen, für
jedes lobale Formmerkmal existiert
- – eine
Liste von Konturpunkten und der Angabe von Relationen zwischen ihnen.
-
Das
Einlernen geschieht in umgekehrter Reihenfolge, stufenweise:
Stufe
1: Lernen von Konturpunkten,
Stufe 2: Lernen von lokalen Formmerkmalen
aus Konturpunkten,
Stufe 3: Lernen von globalen Formmerkmalen
aus lokalen Formmerkmalen,
Stufe 4: Lernen von Werkstückmodellen
aus globalen und lokalen Formmerkmalen.
-
Stufe 1:
-
2 zeigt
das Lernen von Konturpunkten. Auf den Bildern, vorzugsweise auf
einem Touchscreen dargestellt, werden beispielhaft Konturpunkte vorgezeigt.
Der Bediener clickt repräsentative
Werkstück-Konturpunkte
an, repräsentiert
durch ein Quadrat. Wahlweise kann er noch die Größe der Bildfeldes angeben,
in dem das automatische Lernen des Merkmals "Konturpunkt" stattfinden soll, in 2 ist dies über die
Größe der Quadrate
angedeutet.
-
Der
Bediener wählt
einerseits als Positivbeispiele vorzugsweise nur Konturpunkte von
Werkstücken
und keine Störkonturen
und keine mit zu geringem Kontrast oder sonst untypischen Erscheinungsformen,
in 2 mit kleinen Quadraten ohne Kreuz angedeutet.
Andererseits sollten zumindest auf niederen Stufen auch Negativbeispiele
für Konturpunkte angegeben
werden, z.B. an Stellen mit zu geringem Kontrast, in 2 als
kleine Quadrate mit Kreuz angedeutet. Die Quadrate stellen nun positive
bzw. negative Miniatur-Bildbeispiele dar, zum Lernen eines Klassifikators.
Zum Lernen solcherart vorbereiteter Daten stehen bekannte und bewährte Mothoden
zur Verfügung,
z.B. aus dem Gebiet der Neuronalnetze.
-
Stufe 2:
-
Nach
Einlernen eines Klassifikators für
Konturpunkte werden die Beispielbilder mit dem so erzeugten Konturpunkt-Klassifikator
automatisch berechnet.
-
3 zeigt
das Ergebnis dieser Klassifikation in Form von kleinen quadratrischen
Punkten. Auf Basis dieser Punkte werden nun die folgenden lokalen
Formmerkmale eingelernt, siehe 4: "Ecke" (eingezeichnet mit "E"), "Spitze" (eingezeichnet mit "S"), Bogenelement (eingezeichnet mit "B").
-
Der
Bediener clickt repräsentative
lokale Konturpunkt-Anordnungen
an. Wahlweise kann er noch die Größe des Bildfeldes angeben,
in dem das automatische Lernen des Merkmals "lokales Formmerkmal" stattfinden soll. In 4 ist
dies mit Quadraten angedeutet. Der Bediener gibt natürlich den jeweiligen
Typ des Formmerkmals ("E" "B", "S") an. Ähnlich wie bei den Konturpunkten
können
zudem Negativbeispiele angegeben werden ("X").
-
Die
Quadrate stellen (positive bzw. negative) Miniatur-Bildbeispiele dar,
zum Lernen eines Klassifikators. Auch hier können z.B. Neuronalnetze Verwendung
finden.
-
Stufe 3:
-
Nach
Einlernen eines Klassifikators für
lokale Formmerkmale werden die Beispielbilder mit dem so erzeugten
Klassifikator automatisch berechnet. 5 zeigt
als Beispiel das Ergebnis dieser Klassifikation mit lokalen Formmerkmalen "E", "B", "S". Diese lokalen Formmerkmale sind nicht
unbedingt exakt übereinstimmend
mit den vorher eingeteachten Formmerkmalen: genauso wie nach Vorzeigen
von wenigen Konturpunkten sehr viele Konturpunkte im Bild erkannt
werden können,
können
nach Vorzeigen von z.B. wenigen Merkmalen "Spitze" beim automatischen Klassifizieren wesentlich
mehr Merkmale "Spitze" auftauchen.
-
Nun
werden durch Vorzeigen Gruppen von lokalen Formmerkmalen zu globalen
Formmerkmalen zusammengefasst, im Beispiel die Gruppierung von benachbarten
Elementen "Ecke-Bogen-Ecke" ("E"-"B"-"E"),
eingezeichnet als globales Formmerkmal "G",
wie in 6 gezeigt. Auch hier kann wieder mit einem Neuronalnetz-Klassifikator eingelernt
werden.
-
Randbemerkung:
je höher
die Merkmale, desto effizienter kann das Abarbeiten im Automatikbetrieb
realisiert werden, wenn diese Merkmale mehrmals in einem Modell
vorkommen.
-
Stufe 4:
-
Danach
wird eine automatische Klassifikation mit globalen Formmerkmalen
durchgeführt,
das Ergebnis ist in 7 gezeigt, zusammen mit lokalen Formmerkmalen.
-
Wir
kommen nun zum Erstellen von Werkstückmodellen aus Konstellationen
von globalen und lokalen Formmerkmalen.
-
Es
werden in den Beispielbildern lokale und globale Formmerkmale vorgezeigt,
im Beispiel 8 sollen dies die fett umrandeten
Merkmale sein.
-
Durch
Vergleich der so selektierten Merkmale und ihrer relativen Anordnungen
kann nun ein Relativpositionen und Drehlagen berücksichtigendes Merkmals-Matching
zwischen den Beispielbildern durchgeführt werden. Ergebnis ist die
Zusammenfassung dieser Merkmale, positions- und drehlagenbereinigt
in 9 dargestellt. Das Matching muß aufgrund der Drehlagen- und
Positionsinvarianz jeweils mindestens Paare von Merkmalen betrachten.
Bei Bildaufnahme schräg
zur werkstückebene
ebenso, alledings unter Berücksichtigung
einer Kamerakalibrierung. Bei dreidimensionaler Bildanalyse muß das Matching,
unter Berücksichtigung
einer Kamerakalibrierung, jeweils mindestens Tripel von Merkmalen
betrachten, wie aus der 3D-Bildanalyse bekannt.
-
Durch
ein Matching über
möglichst
viele Bildbeispiele wird eine Mittelwertbildung der Lageparameter
ermöglicht.
-
Ersichtlich
wurde ein Modell eingelernt, bei dem störende Elemente (Glanzlichter,
Hintergrund, Verformungen..) völlig
eliminiert sind. Natürlich
kann das so erstellte Modell per Hand bereinigt werden, falls dennoch
systematisch auftauchende Dreckeffekte eingelernt worden sein sollten.
Besonders vorteilhaft ist, wie bei diesem Beispiel gezeigt, die
Möglichkeit,
daß ein
Modell erstellt wurde, das so vollständig in keinem der vorgezeigten
Bilder vorkommt.
-
Anmerkungen:
-
Das
Beispiel behandelt nur einen einzigen Werkstücktyp. Bei mehreren Werkstücktypen
werden mehrere Konstella tionen von vorzugsweise lokalen und globalen
Merkmalen angegeben.
-
Im
Beispiel werden mehrere Bilder für
einen Werkstücktyp
verwendet. Es ist durchaus möglich, insbesondere
auf höchster
Stufe, nur mit einem einzigen Beispiel zu arbeiten. So kann z.B.
für ein
biometrisches Erkennungssystem auf der höchsten Stufe nur ein einziges
Bildbeispiel Verwendung finden, während für das Lernen der auf niederen
Stufen verwendeten Merkmale mehrere, verschiedenen Individuen angehörende Beispiele
verwendet werden.
-
Abhängig von
der Aufgabenstellung sind Invarianzen vorgegeben, im Beispiel sind
die Merkmale alle drehlagen- und positionsinvariant. Diese Invarianzen
müssen
meim Einteachen berücksichtigt werden,
im Beispiel z.B.
- – indem bei Merkmalen niederer
Stufe (z.B. Konturpunkte, lokale Merkmale) beim Einteachen die Ausgangsdaten
bildhaft rechnerisch verdreht eingelernt werden, in mehreren verschiedenen
Drehwinkeln,
- – indem
bei Merkmalen höherer
Stufe die örtlichen
Relationen der Merkmale, aus denen sie zusammengesetzt sind, eingeteacht
werden.
-
Die
Merkmale werden interaktiv, vorteilhaft mit einem Touchscreen, vorgezeigt.
Ein Bildschirm kann nicht nur bei Bildmustern, sondern auch beispielsweise
bei akustischen Signalen vorteilhaft eingesetzt werden: hier ist
es sinnvoll, Merkmale an bildhaft dargestellten typischen Kurvenverläufen (im Zeit-
oder Frequenzbereich) interaktiv zu kennzeichnen, in hierarchischer
Vorgehensweise, z.B. im Zeitbereich mit Flanken, Peaks, Bursts und
dazwischenliegenden Pausen.
-
Die
Vorgaben der unteren und mittleren Stufen brauchen nicht alle sinnvoll
oder wirksam zu sein.
-
Die
Erfindung betrifft das Lernen im Einrichtbetrieb des Systems (also
in der Regel durch den Anwender vor Ort betrieben), NICHT das Lernen
durch den Systementwickler, das implizit im Zuge von Experimenten
beim Systementwurf stattfindet und damit die Möglichkeiten des Systems von
vorneherein festzurrt und begrenzt.
-
Durch
den Menschen werden in der Regel nur Hinweise gegeben, es sind keine
exakten (z.B. numerischen) Vorgaben erforderlich. Es sind keine präzisen Modellvorgaben
erforderlich.
-
Ein
Vorteil ergibt sich durch das Lernen In Situ: dadurch werden durch
die vor Ort gegebene spezielle Umgebung reproduzierbare, aber schwer
parametrierbare Effekte (z.B. aktuelle Beleuchtungssituation) automatisch
Teil der erzeugten Modelle, auch auf unterer Ebene, und aufgabenbezogen
sinnvoll parametriert.
-
Die
wesentlichen Vorteile des Systems sind:
- – es können nichtideale
Muster zum Einteachen verwendet werden
- – die
hierarchische Zusammensetzung der Merkmale ist explizit bekannt,
das Verhalten des Systems wird transparent, es läßt sich auf dieser Basis sogar
eine automatische Erklärungskomponente
konsturieren.
-
Ein
System zur Detektion pathologischer Veränderungen in medizinischen
Bildern könnte
analog zum obigen Beispiel vorgehen und nur bis Stufe 3 arbeiten
und die betreffenden (verdächtigen)
Bildregionen optisch hervorheben zur Beurteilung durch den Arzt.
Auf die beschriebene Weise kann ein überwacht lernendes, medizinisches
Expertensystem mit Erklärungskomponente
und Verweis auf (kommentierte) Lernbeispiele aufgebaut werden. Auf
Rückfrage
präsentiert
das System Lernbeispiele, deren Merkmale zur Defintion des aktuell
detektierten Merkmals beigetragen haben, und/oder Kommentare, die
zuvor zu den Lernbeispielen eingegeben wurden. Ein solches System
kann auch zu Schulungszwecken erstellt werden.
-
Die
verarbeiteten Muster können
Signale beliebiger Art sein, die also analog oder digital gespeichert
sind oder gelesen/empfangen/gemessen werden oder direkt von Sensoren
stammen.