DE19802261A1

DE19802261A1 - Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder

Info

Publication number: DE19802261A1
Application number: DE19802261A
Authority: DE
Inventors: Christian Woehler; Joachim-K Prof Anlauf
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 1998-01-22
Filing date: 1998-01-22
Publication date: 1999-07-29

Description

Die Erfindung betrifft ein Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder.

Für die automatische Interpretation von Bildern bewegter Szenarien sind sowohl die Erkennung und Unterscheidung von Objekten als auch die Analyse deren Bewegung relativ zu dem aufnehmenden Bildsensor von wesentlicher Bedeutung.

Ein wichtiger und viel behandelter Anwendungsfall des automatischen Bildverstehens ist die Interpretation von Verkehrsszenarien im Straßenverkehr, insbesondere die Ob jekterkennung und Bewertung von einem bewegten Straßenfahrzeug aus, beispielswei se zur Erkennung, Unterscheidung und Klassifizierung und ortsfester und bewegter Objekte, wozu insbesondere auch andere Verkehrsteilnehmer wie Fußgänger und Rad fahrer zählen.

In Referenz [1] werden klassische, statische neuronale Netze einer Architektur ähnlich der des Multi-Layer-Perzeptrons (MLP) dazu verwendet, mit einer speziellen Technik aus Grauwert-Kantenbildern erhaltene Histogramme daraufhin zu untersuchen, ob die ent sprechende Bildregion ein Fahrzeug enthält. Wichtigstes Klassifikationskriterium ist hierbei das Vorhandensein einer rechteckigen Box im Bildfeld, das auf die Rückansicht eines Fahrzeugs schließen läßt - dies ist ausreichend für das dort ausschließlich be trachtete Autobahnszenario, in dem Fahrzeuge nie seitlich zu sehen sind. Ebenfalls spe ziell für das Autobahnszenario entwickelt wurden die in Referenz [2] beschriebenen Verfahren zur Detektion von Kraftfahrzeugen.

Die Auswertung findet ausschließlich auf Einzelbildern und nicht auf der Bildsequenz statt; zur Ermittlung der Bewegungsweise des Objekts werden relevante Merkmale von Bild zu Bild verfolgt. Problem hierbei ist die Identifikation korrespondierender Merkmale in aufeinanderfolgenden Bildern.

In Referenz [3] werden zunächst Farbflecken in der Bildsequenz ermittelt, die sich in ähnlicher Weise bewegen, und zu Objekthypothesen zusammengefaßt. Ein neuronales Netz, z. B. ein MLP, verifiziert anschließend, ob es sich tatsächlich um ein wiederer kennbares Objekt, in diesem speziellen Falle ein Kraftfahrzeug oder Motorrad, handelt. Auch hier geschieht die Objekterkennung ausschließlich auf Basis von Einzelbildern.

Arbeiten zur Fußgängererkennung beschränken sich i.a. auf reine Detektion und Verfol gung, d. h., jedes bewegliche Objekt, das einer Vorauswahl einiger grober Form- und Größenkriterien genügt, wird als Fußgänger betrachtet (siehe Referenzen [4] und [5]). Modellbasierte Ansätze, die die raumzeitlichen Muster der Beinbewegungen des Fuß gängers betrachten, sind in Referenz [6] und [7] zu finden. Untersucht wird hier sowohl die XT-Ebene der Bildsequenz als auch das komplette XYT-Volumen. Es handelt sich jedoch nicht um lernende, sondern um auf Modellen basierende Verfahren, die somit ggf. sehr viele Modellparameter benötigen und deren Leistung daher stark von der Wahl dieser Parameter abhängt. Die in den Referenzen [4] bis [7] beschriebenen Ansätze arbeiten ausschließlich mit stationären Kameras, da die wichtigste Stufe der Detektion durchweg darin besteht, bewegte Objekte vom ruhenden Hintergrund zu trennen.

Eine Methode, die keine stationäre Kamera erfordert, ist in Referenz [8] beschrieben. Für jedes sich unabhängig vom Hintergrund bewegende Objekt wird eine zeitliche Folge von Bildregionen extrahiert, die anschließend größennormiert werden. Das Bewe gungsmuster in einer solchen Sequenz wird anhand des optischen Flusses klassifiziert. Auch hierbei handelt es sich nicht um ein lernendes Verfahren.

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren der einleitend genannten Art anzugeben, welches durch hohe Erkennungsleistung sowohl hinsichtlich der Objekte als auch deren Bewegungsmuster eine zuverlässige Interpretation wichtiger Bildinhalte ermöglicht.

Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vor teilhafte Ausführungen und Weiterbildungen der Erfindung.

Das erfindungsgemäße Verfahren basiert auf dem bei Erkennungsproblemen häufig eingesetzten Verarbeitungsprinzip der sogenannten neuronalen Netzwerke und dabei auf der Sonderform neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural Network), im folgenden auch TDNN genannt. Ein wesentliches Merkmal eines TDNN gegenüber beispielsweise dem Verarbeitungsmodell eines sogenannten Multi-Layer- Perzeptrons liegt darin, daß das TDNN nicht vollständig verbunden ist, d. h. daß ein Neu ron einer bestimmten Ebene nicht die Informationen von allen Neuronen der darunter liegenden Ebene empfängt, sondern nur von einer vorgebbaren Untermenge davon. Eine solche Untermenge wird als rezeptives Feld bezeichnet.

Wesentlich an der Erfindung ist, daß die Verknüpfung der untersten Ebene, welche bei spielsweise die digitalen Rohbilddaten in Form mehrerer zeitlich nacheinander aufge nommener Bilder enthält, mit Neuronen der zweiten Ebene sowohl in zeitlicher als auch in räumlicher Dimension nicht vollständig ist, d. h., daß die ausgewählten Bereiche so wohl räumlich als auch zeitlich rezeptiv sind. Wenn in den nachfolgenden Erläuterungen von räumlich-zeitlich rezeptiven Feldern oder einfach nur von rezeptiven Feldern die Rede ist, so sind damit, soweit sich aus dem Zusammenhang nichts anderes ergibt, die räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene für die Verbindung mit Neuronen der zweiten Ebene gemeint.

Durch die räumlich und zeitlich rezeptiven Felder kann besonders vorteilhaft den Eigen schaften der Dreidimensionalität der Zeitfolge von Bildern und dem lokalen Eingrenzen von Merkmalen bewegter Objekte Rechnung getragen werden.

Bei der Erfindung werden die Gewichte der rezeptiven Felder anhand von Trainings- Bildfolgen adaptiv eingestellt, so daß die Aufstellung von Regeln aus Wissen über be stimmte Eigenschaften von Objekten und Bewegungsmustern sowie die Umsetzung solcher Regeln in einen Signalverarbeitungsablauf nicht erforderlich sind.

Aus dem Aktivierungsmuster der Ausgangs-Neuronen des Netzwerks können Aussagen über Art und Bewegung eines Objekts abgeleitet werden. Im bevorzugten Anwendungs fall in einem Kraftfahrzeug kann damit insbesondere eine Gefahrenabschätzung inner halb eines Bildüberwachungsbereichs vorgenommen werden. Da die Erfindung nicht auf Farbinformation in den Bilddaten angewiesen ist, sondern im Regelfall mit einer gerin gen Grautonabstufung bereits eine hohe Erkennungsrate zeigt, kann als Bildsensor ein preisgünstiger Schwarz-Weiß-Sensor eingesetzt werden.

Der Aufbau der Netzwerkarchitektur, insbesondere bei Realisierung bevorzugter Aus führungsformen, ermöglicht unter Einsatz von Standard-Hardware sehr kurze Signalver arbeitungszeiten und damit eine für eine Gefahrenabschätzung besonders wichtige Echtzeit-Verarbeitung.

Die kombinierte Verarbeitung von räumlicher und zeitlicher Bildinformation auch in der Trainingsphase führt auch bei nicht formstabilen Objekten wie beispielsweise Beinpha sen von Fußgängern zu guten Erkennungsergebnissen. Die Formveränderung kann so gar als objekttypische Eigenschaft die Erkennungsleistung fördern. Die Verteilung einer Mehrzahl kleinerer rezeptiver Felder auf den gesamten Raum-Zeit-Bereichs der bearbei teten Bilddaten ergibt eine hohe Robustheit des Verfahrens gegenüber verschiedenen räumlichen Lagen eines Objekts, so daß für eine gegebenenfalls vorgenommene Vor segmentierung eines größeren räumlichen Sensorbildes nur eine ungefähre Aus schnittsbestimmung vorzunehmen ist. Auf eine Vorsegmentierung kann insbesondere dann verzichtet werden, wenn die zu detektierenden Objekte im Bild so groß sind, daß das gesamte Bildfeld mit wenigen festen Klassifikationsfenstern abgedeckt werden kann oder wenn die Objektposition im Bildfeld ungefähr bekannt ist.

Als weitere besonders vorteilhafte Eigenschaft zeigt sich, daß aus dem Aktivierungsmu ster der Ausgangsneuronen teilweise auch solche Objekte oder Bewegungsmuster er kannt werden können, die nicht als eigene Klassen für die Erkennung vorgegeben und nicht in den Trainingsproben enthalten waren, wenn solche neuen Objekte charakteri stische verteilte Aktivierungen der Ausgangsneuronen zeigen. Solche charakteristische Verteilungen können in einem zusätzlichen Auswertungsschritt berücksichtigt und zur Erkennung neuer, nicht trainierter Objekte herangezogen werden.

Vorzugsweise sind die rezeptiven Felder eines Zweigs beim Übergang von der ersten zur zweiten Ebene des Netzwerks räumlich und zeitlich gegeneinander versetzt und überlappend in dem Raum-Zeit-Bereich der Bilddaten angeordnet. Durch Vorgabe von Feldgröße, Versatz und Überlappung der rezeptiven Felder eines Zweiges kann die Schwerpunktsetzung bei der Erkennung, z. B. langsam oder schnell bewegte Objekte, formstabile oder nicht formstabile Objekte, usw. beeinflußt werden.

Die Ausdehnung der rezeptiven Felder ist vorzugsweise in wenigstens einer, bevorzugt in allen Dimensionen kleiner als zwei Drittel der Ausdehnung des gesamten betrachte ten Raum-Zeit-Bereichs in der jeweiligen Dimension. Die Überlappung in den einzelnen Dimensionen ist vorteilhafterweise mindestens gleich einem Drittel, vorzugsweise min destens gleich der Hälfte der Ausdehnung der rezeptiven Felder in der jeweiligen Di mension. Die Überlappung der rezeptiven Felder führt zu einer hohen Toleranz des Ver fahrens gegen Verschiebungen und/oder Größenänderungen von Objekten.

Vorzugsweise weisen alle rezeptiven Felder eines Zweigs dieselbe Größe und Form auf. Für die gewichtete Zusammenfassung der Werte eines rezeptiven Felds zu einem Aus gangswert eines Neurons der zweiten Ebene können dann die Gewichtsmuster zu allen rezeptiven Feldern des Zweigs gleichgesetzt werden (Shared Weights).

Vorzugsweise sind die rezeptiven Felder eines Zweigs um innerhalb jeweils einer Di mension gleiche Schrittweiten gegeneinander versetzt und bilden in dem Raum-Zeit- Bereich der Bilddaten geschlossene Teilbereiche.

Für die Übergänge zwischen höheren Ebenen des Netzwerks können teilweise wieder um räumlich-zeitlich rezeptive Felder gebildet werden. Es können aber auch andere Verknüpfungen, insbesondere mit vollständigen Verbindungen in einer oder mehreren Dimensionen gewählt werden. Gestaltungsmöglichkeiten für die Architektur des Netz werks in den höheren Ebenen sind dem Fachmann ausreichend bekannt. Das Netzwerk weist vorzugsweise durchgehend eine vorwärts gerichtete (feed forward) Signalverar beitung auf.

Die Erfindung ist nachfolgend anhand von Beispielen und durch Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt:

Fig. 1 eine Architektur eines TDNN für ein erfindungsgemäßes Verfahren,

Fig. 2 einfache Musterbeispiele für Objekt-Bewegung-Kombinationen,

Fig. 3 Zuordnung von Testobjekten mit neuen Bewegungsmustern,

Fig. 4 Zuordnung von Testobjekten mit neuen Objektformen,

Fig. 5 Bewegungsschwankungen bei Objekten.

In Fig. 1 ist ein vorteilhaftes Beispiel einer Netzwerkarchitektur für ein erfindungsgemä ßes Verfahren skizziert. Die Neuronen der untersten Neuron-Ebene NE1 sind der An schaulichkeit halber als in einem dreidimensionalen Raum-Zeit-Bereich RZB1 vorgege bener Größe mit zwei räumlichen Koordinaten x und y und einer Zeitkoordinate t ange ordnet betrachtet. Der Raum-Zeit-Bereich sei als quaderförmiges Volumen mit Ausdeh nungen R_x, R_y und R_t in den einzelnen Koordinatenrichtungen angenommen. Die Aktivie rungen der Neuronen der ersten Ebene über Bildpunktdaten einer Folge von flächigen Bildern läßt sich dann vorteilhafterweise so darstellen, daß ein Bild jeweils einer Fläche mit t = konstant in dem Volumen von RZB1 zugeordnet ist und die Pixel der Bildfläche auf die Neuronen der Neuronfläche mit jeweils entsprechenden Koordinaten abgebildet sind. Die Zeitfolge von Bildern stellt sich dann in dem Volumen von RZB1 als eine Hin tereinanderanordnung von flächigen Bildern in Richtung der Zeitkoordinate t dar. Auf dieser Darstellung basieren die nachfolgenden Erläuterungen der Erfindung und der zur Veranschaulichung gegebenen Beispiele.

Die Dimension des Raum-Zeit-Bereichs RZB1 der ersten Neuron-Ebene NE1 besitze die Dimension von S_x⁽¹⁾ × S_y⁽¹⁾ × S_t⁽¹⁾ Neuronen entsprechend einer Anzahl von S,ii aufeinander folgender Bilder mit jeweils S_x⁽¹⁾ × S_y⁽¹⁾ Pixeln. Für den Übergang von der ersten Neuron- Ebene NE1 zur zweiten Neuron-Ebene NE2 seien ein oder mehrere Zweige BR mit 1 ≦ s ≦ N vorgesehen. Zu jedem Zweig existiert ein Satz von räumlich-zeitlich rezeptiven Fel dern, die innerhalb des Raum-Zeit-Bereichs RZB1 Teilbereiche bilden. In Fig. 1 sind ein erstes rezeptives Feld RF1 aus dem Satz der Felder für einen ersten Zweig BR1 mit als ausgefüllte Kreise gezeichneten Neuronen und ein weiteres rezeptives Feld RFN zu dem Zweig BRN mit als leere Kreise eingezeichneten Neuronen eingetragen.

Die rezeptiven Felder eines Satzes seien als quaderförmige Teilbereiche in dem Raum- Zeit-Bereich RZB1 angenommen, die dieselbe Größe und Form mit Ausdehnungen R_x, R_y und R_t in den jeweiligen Koordinatenrichtungen aufweisen. Innerhalb eines rezeptiven Feldes seien die Positionen der einzelnen Neuronen des Feldes durch die feldinternen Laufzahlen m, n und p mit 1 ≦ m ≦ R_x, 1 ≦ n ≦ R_t und 1 ≦ p ≦ R_t bestimmt. In Fig. 1 ist der Anschaulichkeit halber nur die räumliche Koordinate y in der Zeichenebene einge tragen. Die andere räumliche Koordinate verlaufe senkrecht zur Zeichenebene. Die mehreren rezeptiven Felder eines Satzes zu einem Zweig BRs sind vorzugsweise in den drei Koordinatenrichtungen um innerhalb einer Richtung konstante Schrittweiten D_x, D_y, D_t gegeneinander versetzt, so daß jedes rezeptive Feld innerhalb eines Satzes durch Schrittnummern i, j, q eindeutig bestimmt ist.

Jedem rezeptiven Feld ist zur Erzeugung eines Ausgangswerts für ein Neuron der zwei ten Ebene NE2 ein Satz von Gewichtsfaktoren {r^s_mnp}_ijq zugeordnet, wobei nach dem als shared weights bekannten Prinzip vorteilhafterweise die Sätze von Gewichtsfaktoren zu allen rezeptiven Feldern RF_ijq eines Zweiges untereinander gleich sind und deshalb ver kürzt mit {r^s_mnp} bezeichnet werden. Die Gewichtsfaktoren können wieder als dreidimen sionales Muster mit zwei räumlichen und einer zeitlichen Koordinate betrachtet werden. Von Zweig zu Zweig sind die Sätze von Gewichtsfaktoren verschieden; diese Unter scheidung findet durch den Index s statt.

Die Ausgänge der Neuronen der zweiten Ebene ergeben sich dann zu

wobei g₂ die Aktivierungsfunktion für die Neuronen der zweiten Ebene und Θ^s die Akti vierungsschwelle im Zweig BRs ist. Als Aktivierungsfunktion wird beispielsweise die Standard-Sigmoid-Funktion g₂(x) = tanh(x) gewählt.

Die Erzeugung der Ausgangswerte der Neuronen der zweiten Ebene über einen Satz regelmäßig gegeneinander verschobener rezeptiver Felder mit gleichen Gewichtsfakto renmustern erzeugt in der zweiten Ebene gefilterte Versionen der Bildfolge der ersten Ebene. Für den Übergang von der zweiten Neuron-Ebene NE2 zur dritten Neuron-Ebene NE3 werden für jeden Zweig s in dem zugehörigen Raum-Zeit-Bereich der zweiten Ebe ne Teilbereiche als nur zeitlich rezeptive Felder gebildet, wogegen die räumliche Ver bindung vollständig ist. Der Ausgangswert eines Neurons der dritten Ebene wird aus je einem rezeptiven Feld jedes Zweigs abgeleitet. In der dritten Ebene sind die Neuronen nach Objektklassen K verschiedenen Objekt/Bewegungsklassen, durchnumeriert mit dem Index k, i≦k≦K und nach einer Zeitdimension unterschieden, die einer zeitlichen Verschiebung der zeitlich rezeptiven Felder in der zweiten Neuron-Ebene entspricht. Diese zeitliche Verschiebung erfolgt wieder vorteilhaft um eine konstante Schrittweite D_h, die vorzugsweise D_h = 1 gewählt ist. Die gegeneinander verschobenen zeitlich rezep tiven Felder sind vorzugsweise wieder gegenseitig überlappend. Der Übergang von der zweiten zur dritten Neuron-Ebene extrahiert dann insbesondere typische Bewegungs muster aus den gefilterten Bildfolgen der zweiten Ebene. Dies resultiert vorteilhafter weise in einer starken Zeitinvarianz des erfindungsgemäßen Verfahrens in dem Sinne, daß typische Bewegungsmuster, die deutlich kürzer sind als die zeitliche Länge der Bild folge, unabhängig von ihrer zeitlichen Position innerhalb der Bildfolge detektiert werden. Bei einer Länge der zeitlich rezeptiven Felder der zweiten Ebene von R_h Neuronen und mit q als zeitlicher Index innerhalb eines Feldes ergeben sich die Ausgangswerte σ_kh der dritten Ebene zu

mit g₃ als Aktivierungsfunktion der Neuronen der dritten Ebene und v^s_ijk als Gewichtsfak toren für den Übergang von der zweiten zur dritten Neuron-Ebene. Als Aktivierungsfunk tion wird vorzugsweise wiederum die Standard Sigmoid-Funktion g₃(x) = tanh(x) gewählt.

Die Ausgangswerte σ_kh der Neuronen der dritten Ebene werden innerhalb jeder Klasse k über die Zeit summiert, woraus sich die Aktivierungen ω_k der Ausgangsneuronen, die einzeln jeweils einer Objektklasse zugeordnet sind, zu

ergeben. Die Aktivierungen der Ausgangsneuronen stellen eine klassenweise zeitliche Integration der Neuronen der dritten Ebene dar und bilden die Ausgabewerte des Netz werks als Zuordnung einer Testbildfolge im Idealfall zu genau einer von mehreren Ob jektklassen. Im Realfall werden sich Aktivierungen in mehreren oder allen Ausgangs neuronen zeigen, wobei dann die Höhe der Aktivierung ein Maß für die Ähnlichkeit des Testobjekts mit dem Trainingsobjekt der jeweiligen Klasse ist. Es zeigt sich, daß auch neue, d. h. nicht trainierte Objekte anhand eines charakteristischen Aktivierungsmusters- über mehrere Klassen durch Auswertung dieses Aktivierungsmusters erkannt und zu geordnet werden können.

Für den Ausbau des Netzwerks ab der zweiten Ebene sind neben der skizzierten bevor zugten Ausführungsform verschiedene Abwandlungen denkbar, insbesondere können für den Übergang von der zweiten zur dritten Ebene die rezeptiven Felder auch räumlich rezeptiv sein und/oder weitere Neuron-Ebenen vorgesehen sein.

Für die Trainingsphase, in welcher die Gewichte für die rezeptiven Felder anhand von Trainingsbeispielen adaptiv eingestellt werden, werden vorzugsweise Initialwerte für die Gewichtsfaktoren vorgegeben, welche zwischen den verschiedenen Zweigen unkorre liert sind, so daß sich die verschiedenen Zweige auf verschiedene Merkmalsschwer punkte adaptieren, ohne daß eine explizite Merkmalsvorgabe (wie beispielsweise unter schiedlich orientierte Kanten) gemacht werden muß. Die Initialwerte sind vorzugsweise kleine positive und negative Zufallszahlen.

Die Adaption der Gewichtsfaktoren erfolgt vorzugsweise nach dem an sich bekannten Fehlergradientenverfahren, wobei als Fehlergröße vorteilhafterweise die Quadratfehler summe der Ausgangswerte des Netzwerks über alle Klassen gebildet wird.

Das erfindungsgemäße Verfahren ist nachfolgend an einem Beispiel mit einfachen Ob jekten und wenigen Objektklassen weiter veranschaulicht. Es seien die in Fig. 2 skiz zierten vier Objektklassen
k=1 von links oben nach rechts unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=2 von links oben nach rechts unten geneigte, langsam von links nach rechts bewegte -Ellipsen
k=3 von rechts oben nach links unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=4 von rechts oben nach links unten geneigte, langsam von links nach rechts bewegte Ellipsen
unterschieden, so daß lediglich Kombinationen von zwei Objektformen und zwei Bewe gungsmustern als Klassen vorgegeben sind. In der Darstellung der Fig. 2 sind die auf einanderfolgenden zweidimensionalen Grauwertbilder jeweils einer Klasse untereinan der angeordnet. Den gleichmäßigen Bewegungen sind leichte Bewegungsschwankun gen (jitter) überlagert. Die Objektformen sind gleichfalls zufällig leicht variiert. Die Startposition der Objekte, d. h. ihre Position in x-Richtung wird in den Trainingsbeispie len zufällig leichtvariiert.

Die Bildgröße der einzelnen Bilder sei beispielsweise 32×16 Pixel, eine Bildfolge um fasse 8 aufeinanderfolgende Bilder, so daß der Raum-Zeit-Bereich RZB1 der ersten Neu ron-Ebene NE1 die Ausdehnung S_x⁽¹⁾ = 32, S_y⁽¹⁾ = 16 und S_t⁽¹⁾ = 8 Neuronen in den je weiligen Richtungen aufweist.

Solange die Ausdehnung der rezeptiven Felder in räumlicher und zeitlicher Richtung gering, z. B. R_x, = R_y = R_t = 3 ist, bilden sie im wesentlichen schrittweise eine gewichtete Summe von in diesem Falle R = 3 aufeinanderfolgenden Bildern, was in der zweiten Neuron-Ebene NE2 zu Aktivierungsmustern führt, in welchen sowohl die Objektform als auch die Bewegung noch erkennbar sind. Die zeitlich rezeptiven Felder für den Über gang von der zweiten zur dritten Ebene bilden dann Detektoren sowohl für die Objekt form als auch für die Bewegung. Die Bewegungsinformation wird jeweils aus drei zeit lich zusammenhängenden räumlich zweidimensionalen Neuron-Rahmen extrahiert.

Die räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene bewirken eine an die speziellen Objekte adaptierte Vorverarbeitung, während die Erkennung der Objektform und Bewegung selbst in den höheren Neuron-Ebenen erfolgt. Obwohl unterschiedliche Anfangspositionen eines Objekts zu verschiedenen Aktivierungsmustern in der zweiten Neuron-Ebene NE2 führen, bewirkt der Einsatz zeitlich rezeptiver Felder in der zweiten Neuron-Ebene NE2 mit relativ kurzer Ausdehnung in Zeitrichtung eine hohe Toleranz gegenüber einer Verschiebung der Anfangsposition. Die Anfangsposition und damit der Zeitpunkt, zu dem ein Objekt an einer bestimmten Position des Bildfelds erscheint, be einflußt die korrekte Erkennung der Bewegung kaum.

Mit zunehmender zeitlicher Ausdehnung der räumlich-zeitlich rezeptiven Felder der er sten Neuron-Ebene NE1 wird der Schwerpunkt der Bewegungserkennung mehr und mehr in den Übergang zwischen der ersten und der zweiten Ebene verlagert, insbeson dere wenn gleichzeitig die zeitliche Ausdehnung der Raum-Zeit-Bereiche der zweiten Ebene abnimmt, beispielsweise für R_t = 5, D_t = 4 und R_h = 1, wo in der zweiten Ebene nur noch zweidimensionale räumliche Neuron-Aktivierungsmuster ohne zeitliche Aus dehnung vorliegen. Diese Aktivierungsmuster sind aber bereits nach unterschiedlichen Objektbewegungen unterscheidbar. Die Gewichte beim Übergang von der zweiten Ebe ne zur dritten Ebene bewirken dann hauptsächlich eine Extraktion der Objektform aus diesen zweidimensionalen Aktivierungsmustern.

Räumlich stark ausgedehnte räumlich-zeitlich rezeptive Felder mit beispielsweise R_x = R_y = 15, R_t = 3 können teilweise vollständige Objekte detektieren und führen zu stark ob jektformabhängigen Aktivierungsmustern in der zweiten Neuron-Ebene NE2, in welchen die Bewegung des Objekts in Bewegungen einzelner Neuron-Aktivierungen der zweiten Ebene transformiert ist, welche dann beim Übergang von der zweiten Neuron-Ebene in die dritte Ebene extrahiert wird. Bei einer solchen Wahl der rezeptiven Felder der ersten Neuron-Ebene NE1 sind die zweiten und dritten Ebenen NE2 und NE3 vorteilhafterweise vollständig verbunden, da zeitlich gering ausgedehnte zeitlich rezeptive Felder in der zweiten Neuron-Ebene die Bewegungsinformation mit geringerer Genauigkeit extrahie ren würden. Der Schwerpunkt der Erkennung der Objektform liegt dann im Übergang von der ersten zur zweiten Ebene und der Schwerpunkt der Bewegungserkennung in den höheren Ebenen.

Dem Aktivierungsmuster der Ausgangsneuronen ist in dem skizzierten Beispiel der Zeitpunkt des Auftretens eines Objekts nicht mehr entnehmbar, da die klassenweise Summierung der Aktivierungen der Neuronen in der dritten Neuron-Ebene eine zeitliche Integration bewirkt, die nur noch auf das Auftreten eines Objekts zu einem beliebigen Zeitpunkt innerhalb des Zeitrahmens der Bildfolge hinweist. Die Information über den Zeitpunkt des Auftretens eines detektierten Objekts kann aber aus den Aktivierungen der Neuronen der dritten Ebene, die innerhalb einer Objektklasse noch zeitlich gestaf felt sind, entnommen werden.

Die Fähigkeit des erfindungsgemäßen Verfahrens zur allgemeineren Objekterkennung, d. h. zur Erkennung von nicht in der Trainingsmenge enthaltenen Objekten ist unter An lehnung an das bereits ausführlich beschriebene Beispiel mit den Kombinationen der beiden Objektformen und der beiden Bewegungsmuster (Geschwindigkeiten) anhand von den in Fig. 3 und 4 skizzierten Beispielen veranschaulicht. In Fig. 3 sind im obe ren Teil fünf Bildfolgen (b=1 bis b=5) dargestellt, innerhalb derer die Form der Objekte im wesentlichen gleich ist, die Geschwindigkeit der Bewegung der Objekte von links nach rechts aber von der langsamen Bewegung der Objektklasse k=1 nach Fig. 2 in der Bildfolge b=1 bis zur schnellen Bewegung der Objektklasse k=2 in der Bildfolge b=5 schrittweise gesteigert ist. Jeweils eine Anzahl von z. B. 50 solcher Bildfolgen werden nach einem auf die Objektklassen k= 1 bis k=4 adaptierten Netzwerk der beschriebenen Art als Testbildfolgen verarbeitet. Jede Testbildfolge bewirkt die Ausgabe eines Satzes von Aktivierungswerten ω der Ausgangsneuronen zu den 4 Objektklassen nach Fig. 1 und Fig. 2.

Die Werte der Aktivierungen sind in den unterhalb der Bildfolgen angeordneten zugehö rigen vertikalen Bändern eingetragen, wobei leere Kreise die Aktivierungen des Aus gangsneurons zur Trainingsklasse k=1, Quadrate für Trainingsklasse k=2, Dreiecke für Trainingsklasse k=3 und ausgefüllte Kreise für Trainingsklasse k=4 stehen.

Für die erste Testobjektgruppe b=1, die aus Objekten der Trainingsklasse k=1 besteht, liegen korrekterweise die Aktivierungen des Ausgangsneurons zu k=1 ungefähr bei ω₁=1 und die Aktivierungen der anderen Ausgangsneuronen sind wesentlich niedriger und um ω=0 gruppiert. Für die Testobjektgruppe b=5, die aus Objekten der Trainings klasse k=2 besteht, liegen die Ausgangsaktivierungen des Ausgangsneurons zu k=2 ungefähr bei ω₂=1 und die übrigen Aktivierungen weit darunter.

Für die dazwischenliegenden Testobjektgruppen b=2, b=3 und b=4, deren Testobjekte wegen nicht übereinstimmender Geschwindigkeit zu keiner der Trainingsklassen gehö ren, liegen keine eindeutig einer Trainingsklasse zuzuordnenden Muster der Aktivierun gen der Ausgangsneuronen vor. Die Aktivierungen zeigen aber eine für jede Testobjekt gruppe charakteristische Verteilung. Für die Testobjektgruppe b=2 dominiert noch die Aktivierung ω₁, die Aktivierung ω₂ zur Trainingsklasse k=2 zeigt jedoch einen ω₁ nahe kommenden Wert, für b=4 ist die Situation umgekehrt und für b=3 sind die Aktivierun gen ω₁ und ω₂ annähernd gleich groß. Die anderen Aktivierungen ω₃ und ω₄ sind demge genüber in allen Testobjektgruppen gering. In dem gegebenen einfachen Beispiel mit den schrittweise gesteigerten Geschwindigkeiten lassen sich die Verhältnisse der Akti vierungen ω₁ und ω₂ anschaulich zur Zuordnung einer neuen Geschwindigkeit durch Interpolation zwischen den trainierten Geschwindigkeiten der Trainingsklassen k=1 und k=2 interpretieren.

Bei dem in Fig. 4 skizzierten Beispiel sind wiederum fünf Bildfolgen mit c=1 bis c=5 ent sprechend fünf Testobjektgruppen gegeben. In diesem Beispiel ist die Geschwindigkeit der Objektbewegung in allen Testobjektgruppen gleich, die Form der Testobjektgruppen ist aber durch schrittweises Verändern des Hauptachsenverhältnisses der ellipsenför migen Objekte zwischen der Objektform der Trainingsklasse k=1 und der Trainingsklas se k=3 variiert, wobei die Testobjektgruppe mit c=3 Kreise als Sonderform von Ellipsen aufweist. Die Testobjektgruppe c=1 enthalte Bildfolgen der Trainingsklasse k=1, die Testobjektgruppe c=5 Bildfolgen der Trainingsklasse k=3. In diesen beiden Testobjekt gruppen erlauben die Aktivierungen der Ausgangsneuronen wie im unteren Teil der Fig. 4 eingetragen eine eindeutige Zuordnung der Testobjekte zu einer Trainingsklasse. Die Symbole im unteren Teil der Fig. 4 sind dieselben wie in Fig. 3. Für die mittleren Testobjektgruppen c=2 bis c=4 ergibt sich ähnlich der Fig. 3 keine eindeutige Zuord nung zu einer Trainingsklasse, aber eine charakteristische Verteilung der mehreren Ausgangsaktivierungen, wobei wieder anschaulich die Größenverhältnisse der größten Aktivierungen als Interpolationsschritte der Hauptachsenverhältnisse zwischen den Trainingsklassen k=1 und k=3 interpretiert werden können.

Das erfindungsgemäße Verfahren zeigt sich damit geeignet, auch nach Abschluß der Trainingsphase noch neue Objekte anhand von charakteristischen Mustern der Aus gangsaktivierungen erlernen zu können.

Bei den vorstehend erläuterten Beispielen wurden gezielt anschauliche einfache Situa tionen, Bewegungen und Objektformen gewählt. Das Verfahren ist aber insbesondere dadurch vorteilhaft, daß es nicht auf Anwendungen und Netzwerkstrukturen beschränkt ist, bei welchen Zwischenebenen oder Ausgangsaktivierungen des Netzwerks bildhaft anschaulich sind. Vielmehr liegt eine Stärke des Verfahrens gerade darin, daß durch die weitgehend selbständige Adaption der Gewichtsfaktoren auch bildlich gänzlich unver ständliche, aber für die Erkennung optimierte Aktivierungsmuster und Gewichtsmuster möglich sind.

Neben der Fähigkeit zur Erkennung neuer, nicht trainierter Objekte zeigt das Verfahren auch eine hohe Robustheit gegenüber Schwankungen der Bewegung und der Form von Objekten im Verlauf der Bildfolgen. Dabei erweist es sich als vorteilhaft, wenn solche Schwankungen bereits in den Trainingsfolgen auftreten. Die Variante der Netzwerk- Architektur mit kleineren rezeptiven Feldern in der ersten Ebene und größeren Raum- Zeit-Bereichen in der zweiten Ebene zeigt sich dabei in diesem speziellen Beispiel der Variante mit räumlich großen rezeptiven Feldern in der ersten Ebene überlegen. Die Fig. 5 zeigt für die vier Objektklassen der Fig. 2 Bewegungsabläufe mit starken Bewegungs schwankungen, welche aber die Erkennungsrate nicht stark beeinträchtigen, wenn be reits in der Trainingsphase Trainingsobjekte mit deutlichen Bewegungsschwankungen vorgegeben wurden.

Die Erfindung ist nicht auf die im Detail beschriebenen Merkmale beschränkt, sondern im Rahmen fachmännischen Könnens auf mancherlei Weise abwandelbar. Insbesondere können auch dreidimensionale Bilddaten als Grundlage dienen, wobei dann auch der Raum-Zeit-Bereich der ersten Ebene und evtl. die räumlich und zeitlich rezeptiven Fel der um eine Dimension erweitert werden. Die Erfindung ist aufgrund ihrer vorteilhaften Eigenschaften insbesondere geeignet zum Einsatz bei der automatischen Interpretation von Verkehrssituationen mittels eines Bildsensors aus einem Kraftfahrzeug heraus und dabei vor allem zur Erkennung und Unterscheidung von Fußgängern, Radfahrern oder anderen Fahrzeugen einschließlich deren Geschwindigkeit.

Referenzen

[1] C. Goerick, D. Noll, M. Werner. Artificial Neural Networks in Real Time Car Detection and Tracking Applications. In Pattern Recognition Letters, volume 17, pages 335-343, 1996.
[2] E. D. Dickmanns, R. Behringer, C. Brüdigam, D. Dickmanns, F. Thomanek, V. v. Holt. An all-transputer visual Autobahn-Autopilot/Copilot. In 4^th

int. Conference on Com puter Vision, pages 608-615, 1993.
[3] T. Kolb. Fahrzeugklassifikation mit neuronalen Netzen. Diplomarbeit, Universität Ulm, 1995.
[4] S.A. Niyogi and E.H. Adelson. Analyzing and recognizing walking figures in xyt. In IEEE Conference on Computer Vision and Pattern Recognition, pages 469-474,1994.
[5] S.A. Niyogi and E.H. Adelson. Analyzing gait with spatiotemporal surfaces. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 64-69, Austin, 1994.
[6] J. Segan and S. Pingali. A camera-based system for tracking people in real time. In International Conference on Pattern Recognition, pages 63-67, Vienna, 1996.
[7] S. Shio and J. Sklansky. Segmentation of people in motion. In IEEE Workshop on Visual Motion, pages 325-332, 1991.
[8] R. Polana and R. Nelson. Low level recognition of human motion. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 77-82, Austin, 1994.

Claims

1. Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder nach dem Prin zip neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural Network, TDNN), bei welchem

a) die erste Neuron-Ebene des Netzwerks die Bilddaten mehrerer zeitlich auf einanderfolgender Bilder enthält
b) die zweite Neuron-Ebene über einen oder mehrere erste Zweige mit der er sten Ebene verknüpft ist,
c) jedem ersten Zweig ein Satz von räumlich-zeitlichen rezeptiven ersten Fel dern aus dem Raum-Zeit-Bereich der Bilddaten zugeordnet ist,
d) Gewichte der rezeptiven Felder anhand von Trainings-Bildfolgen adaptiv ein gestellt werden, und
e) aus dem Aktivierungsmuster der Ausgangsneuronen des Netzwerks eine Aussage über Art und Bewegung eines Objekts ableitbar ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die rezeptiven Felder ei nes ersten Zweiges räumlich und/oder zeitlich überlappend gewählt werden.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Überlappung in den einzelnen Dimensionen mindestens gleich der halben Ausdehnung der rezeptiven Felder in der jeweiligen Dimension ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Aus dehnung der rezeptiven Felder in wenigstens einer Dimension kleiner als zwei Drittel der Ausdehnung des Raum-Zeit-Bereichs in der jeweiligen Dimension ist.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die rezeptiven Felder eines ersten Zweiges gleiche Form und Größe im Raum-Zeit- Bereich der ersten Ebene aufweisen.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß auf die rezeptiven Felder eines Zweiges dieselben Muster von Gewichtsfaktoren angewandt werden.

7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für die Gewichtsfaktoren verschiedener Zweige vorgegebene Muster von Initialwer ten für die Trainingsphase nicht korreliert sind.

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die rezeptiven Felder in dem mehrdimensionalen Raum-Zeit-Bereich der ersten Ebe ne geschlossene Teilbereiche bilden.

9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß die re zeptiven Felder eines Zweigs um innerhalb einer Dimension gleiche Schrittweiten gegeneinander versetzt sind.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für Übergänge zwischen höheren Ebenen des neuronalen Netzwerks räumlich vollständig verbundene zeitlich rezeptive Felder gewählt werden.

11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Bilddaten räumlich zweidimensional vorgegeben werden.

12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in einem Vorverarbeitungsschritt ein Bildausschnitt aus einem größeren Ge samtbild ausgewählt wird (Vorsegmentierung).

13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das Netzwerk für mehrere verschiedene Objekte und/oder mehrere verschiede ne Bewegungsformen so dimensioniert und trainiert wird, daß jeder diskreten Ob jekt-Bewegungsform-Kombination ein Ausgangs-Neuron zugeordnet ist, und daß für neue Objekte und/oder Bewegungsformen charakteristische verteilte Aktivierungen der Ausgangsneuronen ermittelt werden.

14. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch seine Anwendung in einem Kraftfahrzeug zur Objekterkennung in einer Verkehrssituation.