DE19802261A1 - Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder - Google Patents

Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder

Info

Publication number
DE19802261A1
DE19802261A1 DE19802261A DE19802261A DE19802261A1 DE 19802261 A1 DE19802261 A1 DE 19802261A1 DE 19802261 A DE19802261 A DE 19802261A DE 19802261 A DE19802261 A DE 19802261A DE 19802261 A1 DE19802261 A1 DE 19802261A1
Authority
DE
Germany
Prior art keywords
level
receptive fields
time
branch
fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19802261A
Other languages
English (en)
Inventor
Christian Woehler
Joachim-K Prof Anlauf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Priority to DE19802261A priority Critical patent/DE19802261A1/de
Publication of DE19802261A1 publication Critical patent/DE19802261A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors

Description

Die Erfindung betrifft ein Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder.
Für die automatische Interpretation von Bildern bewegter Szenarien sind sowohl die Erkennung und Unterscheidung von Objekten als auch die Analyse deren Bewegung relativ zu dem aufnehmenden Bildsensor von wesentlicher Bedeutung.
Ein wichtiger und viel behandelter Anwendungsfall des automatischen Bildverstehens ist die Interpretation von Verkehrsszenarien im Straßenverkehr, insbesondere die Ob­ jekterkennung und Bewertung von einem bewegten Straßenfahrzeug aus, beispielswei­ se zur Erkennung, Unterscheidung und Klassifizierung und ortsfester und bewegter Objekte, wozu insbesondere auch andere Verkehrsteilnehmer wie Fußgänger und Rad­ fahrer zählen.
In Referenz [1] werden klassische, statische neuronale Netze einer Architektur ähnlich der des Multi-Layer-Perzeptrons (MLP) dazu verwendet, mit einer speziellen Technik aus Grauwert-Kantenbildern erhaltene Histogramme daraufhin zu untersuchen, ob die ent­ sprechende Bildregion ein Fahrzeug enthält. Wichtigstes Klassifikationskriterium ist hierbei das Vorhandensein einer rechteckigen Box im Bildfeld, das auf die Rückansicht eines Fahrzeugs schließen läßt - dies ist ausreichend für das dort ausschließlich be­ trachtete Autobahnszenario, in dem Fahrzeuge nie seitlich zu sehen sind. Ebenfalls spe­ ziell für das Autobahnszenario entwickelt wurden die in Referenz [2] beschriebenen Verfahren zur Detektion von Kraftfahrzeugen.
Die Auswertung findet ausschließlich auf Einzelbildern und nicht auf der Bildsequenz statt; zur Ermittlung der Bewegungsweise des Objekts werden relevante Merkmale von Bild zu Bild verfolgt. Problem hierbei ist die Identifikation korrespondierender Merkmale in aufeinanderfolgenden Bildern.
In Referenz [3] werden zunächst Farbflecken in der Bildsequenz ermittelt, die sich in ähnlicher Weise bewegen, und zu Objekthypothesen zusammengefaßt. Ein neuronales Netz, z. B. ein MLP, verifiziert anschließend, ob es sich tatsächlich um ein wiederer­ kennbares Objekt, in diesem speziellen Falle ein Kraftfahrzeug oder Motorrad, handelt. Auch hier geschieht die Objekterkennung ausschließlich auf Basis von Einzelbildern.
Arbeiten zur Fußgängererkennung beschränken sich i.a. auf reine Detektion und Verfol­ gung, d. h., jedes bewegliche Objekt, das einer Vorauswahl einiger grober Form- und Größenkriterien genügt, wird als Fußgänger betrachtet (siehe Referenzen [4] und [5]). Modellbasierte Ansätze, die die raumzeitlichen Muster der Beinbewegungen des Fuß­ gängers betrachten, sind in Referenz [6] und [7] zu finden. Untersucht wird hier sowohl die XT-Ebene der Bildsequenz als auch das komplette XYT-Volumen. Es handelt sich jedoch nicht um lernende, sondern um auf Modellen basierende Verfahren, die somit ggf. sehr viele Modellparameter benötigen und deren Leistung daher stark von der Wahl dieser Parameter abhängt. Die in den Referenzen [4] bis [7] beschriebenen Ansätze arbeiten ausschließlich mit stationären Kameras, da die wichtigste Stufe der Detektion durchweg darin besteht, bewegte Objekte vom ruhenden Hintergrund zu trennen.
Eine Methode, die keine stationäre Kamera erfordert, ist in Referenz [8] beschrieben. Für jedes sich unabhängig vom Hintergrund bewegende Objekt wird eine zeitliche Folge von Bildregionen extrahiert, die anschließend größennormiert werden. Das Bewe­ gungsmuster in einer solchen Sequenz wird anhand des optischen Flusses klassifiziert. Auch hierbei handelt es sich nicht um ein lernendes Verfahren.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren der einleitend genannten Art anzugeben, welches durch hohe Erkennungsleistung sowohl hinsichtlich der Objekte als auch deren Bewegungsmuster eine zuverlässige Interpretation wichtiger Bildinhalte ermöglicht.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vor­ teilhafte Ausführungen und Weiterbildungen der Erfindung.
Das erfindungsgemäße Verfahren basiert auf dem bei Erkennungsproblemen häufig eingesetzten Verarbeitungsprinzip der sogenannten neuronalen Netzwerke und dabei auf der Sonderform neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural Network), im folgenden auch TDNN genannt. Ein wesentliches Merkmal eines TDNN gegenüber beispielsweise dem Verarbeitungsmodell eines sogenannten Multi-Layer- Perzeptrons liegt darin, daß das TDNN nicht vollständig verbunden ist, d. h. daß ein Neu­ ron einer bestimmten Ebene nicht die Informationen von allen Neuronen der darunter liegenden Ebene empfängt, sondern nur von einer vorgebbaren Untermenge davon. Eine solche Untermenge wird als rezeptives Feld bezeichnet.
Wesentlich an der Erfindung ist, daß die Verknüpfung der untersten Ebene, welche bei­ spielsweise die digitalen Rohbilddaten in Form mehrerer zeitlich nacheinander aufge­ nommener Bilder enthält, mit Neuronen der zweiten Ebene sowohl in zeitlicher als auch in räumlicher Dimension nicht vollständig ist, d. h., daß die ausgewählten Bereiche so­ wohl räumlich als auch zeitlich rezeptiv sind. Wenn in den nachfolgenden Erläuterungen von räumlich-zeitlich rezeptiven Feldern oder einfach nur von rezeptiven Feldern die Rede ist, so sind damit, soweit sich aus dem Zusammenhang nichts anderes ergibt, die räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene für die Verbindung mit Neuronen der zweiten Ebene gemeint.
Durch die räumlich und zeitlich rezeptiven Felder kann besonders vorteilhaft den Eigen­ schaften der Dreidimensionalität der Zeitfolge von Bildern und dem lokalen Eingrenzen von Merkmalen bewegter Objekte Rechnung getragen werden.
Bei der Erfindung werden die Gewichte der rezeptiven Felder anhand von Trainings- Bildfolgen adaptiv eingestellt, so daß die Aufstellung von Regeln aus Wissen über be­ stimmte Eigenschaften von Objekten und Bewegungsmustern sowie die Umsetzung solcher Regeln in einen Signalverarbeitungsablauf nicht erforderlich sind.
Aus dem Aktivierungsmuster der Ausgangs-Neuronen des Netzwerks können Aussagen über Art und Bewegung eines Objekts abgeleitet werden. Im bevorzugten Anwendungs­ fall in einem Kraftfahrzeug kann damit insbesondere eine Gefahrenabschätzung inner­ halb eines Bildüberwachungsbereichs vorgenommen werden. Da die Erfindung nicht auf Farbinformation in den Bilddaten angewiesen ist, sondern im Regelfall mit einer gerin­ gen Grautonabstufung bereits eine hohe Erkennungsrate zeigt, kann als Bildsensor ein preisgünstiger Schwarz-Weiß-Sensor eingesetzt werden.
Der Aufbau der Netzwerkarchitektur, insbesondere bei Realisierung bevorzugter Aus­ führungsformen, ermöglicht unter Einsatz von Standard-Hardware sehr kurze Signalver­ arbeitungszeiten und damit eine für eine Gefahrenabschätzung besonders wichtige Echtzeit-Verarbeitung.
Die kombinierte Verarbeitung von räumlicher und zeitlicher Bildinformation auch in der Trainingsphase führt auch bei nicht formstabilen Objekten wie beispielsweise Beinpha­ sen von Fußgängern zu guten Erkennungsergebnissen. Die Formveränderung kann so­ gar als objekttypische Eigenschaft die Erkennungsleistung fördern. Die Verteilung einer Mehrzahl kleinerer rezeptiver Felder auf den gesamten Raum-Zeit-Bereichs der bearbei­ teten Bilddaten ergibt eine hohe Robustheit des Verfahrens gegenüber verschiedenen räumlichen Lagen eines Objekts, so daß für eine gegebenenfalls vorgenommene Vor­ segmentierung eines größeren räumlichen Sensorbildes nur eine ungefähre Aus­ schnittsbestimmung vorzunehmen ist. Auf eine Vorsegmentierung kann insbesondere dann verzichtet werden, wenn die zu detektierenden Objekte im Bild so groß sind, daß das gesamte Bildfeld mit wenigen festen Klassifikationsfenstern abgedeckt werden kann oder wenn die Objektposition im Bildfeld ungefähr bekannt ist.
Als weitere besonders vorteilhafte Eigenschaft zeigt sich, daß aus dem Aktivierungsmu­ ster der Ausgangsneuronen teilweise auch solche Objekte oder Bewegungsmuster er­ kannt werden können, die nicht als eigene Klassen für die Erkennung vorgegeben und nicht in den Trainingsproben enthalten waren, wenn solche neuen Objekte charakteri­ stische verteilte Aktivierungen der Ausgangsneuronen zeigen. Solche charakteristische Verteilungen können in einem zusätzlichen Auswertungsschritt berücksichtigt und zur Erkennung neuer, nicht trainierter Objekte herangezogen werden.
Vorzugsweise sind die rezeptiven Felder eines Zweigs beim Übergang von der ersten zur zweiten Ebene des Netzwerks räumlich und zeitlich gegeneinander versetzt und überlappend in dem Raum-Zeit-Bereich der Bilddaten angeordnet. Durch Vorgabe von Feldgröße, Versatz und Überlappung der rezeptiven Felder eines Zweiges kann die Schwerpunktsetzung bei der Erkennung, z. B. langsam oder schnell bewegte Objekte, formstabile oder nicht formstabile Objekte, usw. beeinflußt werden.
Die Ausdehnung der rezeptiven Felder ist vorzugsweise in wenigstens einer, bevorzugt in allen Dimensionen kleiner als zwei Drittel der Ausdehnung des gesamten betrachte­ ten Raum-Zeit-Bereichs in der jeweiligen Dimension. Die Überlappung in den einzelnen Dimensionen ist vorteilhafterweise mindestens gleich einem Drittel, vorzugsweise min­ destens gleich der Hälfte der Ausdehnung der rezeptiven Felder in der jeweiligen Di­ mension. Die Überlappung der rezeptiven Felder führt zu einer hohen Toleranz des Ver­ fahrens gegen Verschiebungen und/oder Größenänderungen von Objekten.
Vorzugsweise weisen alle rezeptiven Felder eines Zweigs dieselbe Größe und Form auf. Für die gewichtete Zusammenfassung der Werte eines rezeptiven Felds zu einem Aus­ gangswert eines Neurons der zweiten Ebene können dann die Gewichtsmuster zu allen rezeptiven Feldern des Zweigs gleichgesetzt werden (Shared Weights).
Vorzugsweise sind die rezeptiven Felder eines Zweigs um innerhalb jeweils einer Di­ mension gleiche Schrittweiten gegeneinander versetzt und bilden in dem Raum-Zeit- Bereich der Bilddaten geschlossene Teilbereiche.
Für die Übergänge zwischen höheren Ebenen des Netzwerks können teilweise wieder­ um räumlich-zeitlich rezeptive Felder gebildet werden. Es können aber auch andere Verknüpfungen, insbesondere mit vollständigen Verbindungen in einer oder mehreren Dimensionen gewählt werden. Gestaltungsmöglichkeiten für die Architektur des Netz­ werks in den höheren Ebenen sind dem Fachmann ausreichend bekannt. Das Netzwerk weist vorzugsweise durchgehend eine vorwärts gerichtete (feed forward) Signalverar­ beitung auf.
Die Erfindung ist nachfolgend anhand von Beispielen und durch Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt:
Fig. 1 eine Architektur eines TDNN für ein erfindungsgemäßes Verfahren,
Fig. 2 einfache Musterbeispiele für Objekt-Bewegung-Kombinationen,
Fig. 3 Zuordnung von Testobjekten mit neuen Bewegungsmustern,
Fig. 4 Zuordnung von Testobjekten mit neuen Objektformen,
Fig. 5 Bewegungsschwankungen bei Objekten.
In Fig. 1 ist ein vorteilhaftes Beispiel einer Netzwerkarchitektur für ein erfindungsgemä­ ßes Verfahren skizziert. Die Neuronen der untersten Neuron-Ebene NE1 sind der An­ schaulichkeit halber als in einem dreidimensionalen Raum-Zeit-Bereich RZB1 vorgege­ bener Größe mit zwei räumlichen Koordinaten x und y und einer Zeitkoordinate t ange­ ordnet betrachtet. Der Raum-Zeit-Bereich sei als quaderförmiges Volumen mit Ausdeh­ nungen Rx, Ry und Rt in den einzelnen Koordinatenrichtungen angenommen. Die Aktivie­ rungen der Neuronen der ersten Ebene über Bildpunktdaten einer Folge von flächigen Bildern läßt sich dann vorteilhafterweise so darstellen, daß ein Bild jeweils einer Fläche mit t = konstant in dem Volumen von RZB1 zugeordnet ist und die Pixel der Bildfläche auf die Neuronen der Neuronfläche mit jeweils entsprechenden Koordinaten abgebildet sind. Die Zeitfolge von Bildern stellt sich dann in dem Volumen von RZB1 als eine Hin­ tereinanderanordnung von flächigen Bildern in Richtung der Zeitkoordinate t dar. Auf dieser Darstellung basieren die nachfolgenden Erläuterungen der Erfindung und der zur Veranschaulichung gegebenen Beispiele.
Die Dimension des Raum-Zeit-Bereichs RZB1 der ersten Neuron-Ebene NE1 besitze die Dimension von Sx(1) × Sy(1) × St(1) Neuronen entsprechend einer Anzahl von S,ii aufeinander­ folgender Bilder mit jeweils Sx(1) × Sy(1) Pixeln. Für den Übergang von der ersten Neuron- Ebene NE1 zur zweiten Neuron-Ebene NE2 seien ein oder mehrere Zweige BR mit 1 ≦ s ≦ N vorgesehen. Zu jedem Zweig existiert ein Satz von räumlich-zeitlich rezeptiven Fel­ dern, die innerhalb des Raum-Zeit-Bereichs RZB1 Teilbereiche bilden. In Fig. 1 sind ein erstes rezeptives Feld RF1 aus dem Satz der Felder für einen ersten Zweig BR1 mit als ausgefüllte Kreise gezeichneten Neuronen und ein weiteres rezeptives Feld RFN zu dem Zweig BRN mit als leere Kreise eingezeichneten Neuronen eingetragen.
Die rezeptiven Felder eines Satzes seien als quaderförmige Teilbereiche in dem Raum- Zeit-Bereich RZB1 angenommen, die dieselbe Größe und Form mit Ausdehnungen Rx, Ry und Rt in den jeweiligen Koordinatenrichtungen aufweisen. Innerhalb eines rezeptiven Feldes seien die Positionen der einzelnen Neuronen des Feldes durch die feldinternen Laufzahlen m, n und p mit 1 ≦ m ≦ Rx, 1 ≦ n ≦ Rt und 1 ≦ p ≦ Rt bestimmt. In Fig. 1 ist der Anschaulichkeit halber nur die räumliche Koordinate y in der Zeichenebene einge­ tragen. Die andere räumliche Koordinate verlaufe senkrecht zur Zeichenebene. Die mehreren rezeptiven Felder eines Satzes zu einem Zweig BRs sind vorzugsweise in den drei Koordinatenrichtungen um innerhalb einer Richtung konstante Schrittweiten Dx, Dy, Dt gegeneinander versetzt, so daß jedes rezeptive Feld innerhalb eines Satzes durch Schrittnummern i, j, q eindeutig bestimmt ist.
Jedem rezeptiven Feld ist zur Erzeugung eines Ausgangswerts für ein Neuron der zwei­ ten Ebene NE2 ein Satz von Gewichtsfaktoren {rsmnp }ijq zugeordnet, wobei nach dem als shared weights bekannten Prinzip vorteilhafterweise die Sätze von Gewichtsfaktoren zu allen rezeptiven Feldern RFijq eines Zweiges untereinander gleich sind und deshalb ver­ kürzt mit {rsmnp } bezeichnet werden. Die Gewichtsfaktoren können wieder als dreidimen­ sionales Muster mit zwei räumlichen und einer zeitlichen Koordinate betrachtet werden. Von Zweig zu Zweig sind die Sätze von Gewichtsfaktoren verschieden; diese Unter­ scheidung findet durch den Index s statt.
Die Ausgänge der Neuronen der zweiten Ebene ergeben sich dann zu
wobei g2 die Aktivierungsfunktion für die Neuronen der zweiten Ebene und Θs die Akti­ vierungsschwelle im Zweig BRs ist. Als Aktivierungsfunktion wird beispielsweise die Standard-Sigmoid-Funktion g2(x) = tanh(x) gewählt.
Die Erzeugung der Ausgangswerte der Neuronen der zweiten Ebene über einen Satz regelmäßig gegeneinander verschobener rezeptiver Felder mit gleichen Gewichtsfakto­ renmustern erzeugt in der zweiten Ebene gefilterte Versionen der Bildfolge der ersten Ebene. Für den Übergang von der zweiten Neuron-Ebene NE2 zur dritten Neuron-Ebene NE3 werden für jeden Zweig s in dem zugehörigen Raum-Zeit-Bereich der zweiten Ebe­ ne Teilbereiche als nur zeitlich rezeptive Felder gebildet, wogegen die räumliche Ver­ bindung vollständig ist. Der Ausgangswert eines Neurons der dritten Ebene wird aus je einem rezeptiven Feld jedes Zweigs abgeleitet. In der dritten Ebene sind die Neuronen nach Objektklassen K verschiedenen Objekt/Bewegungsklassen, durchnumeriert mit dem Index k, i≦k≦K und nach einer Zeitdimension unterschieden, die einer zeitlichen Verschiebung der zeitlich rezeptiven Felder in der zweiten Neuron-Ebene entspricht. Diese zeitliche Verschiebung erfolgt wieder vorteilhaft um eine konstante Schrittweite Dh, die vorzugsweise Dh = 1 gewählt ist. Die gegeneinander verschobenen zeitlich rezep­ tiven Felder sind vorzugsweise wieder gegenseitig überlappend. Der Übergang von der zweiten zur dritten Neuron-Ebene extrahiert dann insbesondere typische Bewegungs­ muster aus den gefilterten Bildfolgen der zweiten Ebene. Dies resultiert vorteilhafter­ weise in einer starken Zeitinvarianz des erfindungsgemäßen Verfahrens in dem Sinne, daß typische Bewegungsmuster, die deutlich kürzer sind als die zeitliche Länge der Bild­ folge, unabhängig von ihrer zeitlichen Position innerhalb der Bildfolge detektiert werden. Bei einer Länge der zeitlich rezeptiven Felder der zweiten Ebene von Rh Neuronen und mit q als zeitlicher Index innerhalb eines Feldes ergeben sich die Ausgangswerte σkh der dritten Ebene zu
mit g3 als Aktivierungsfunktion der Neuronen der dritten Ebene und vsijk als Gewichtsfak­ toren für den Übergang von der zweiten zur dritten Neuron-Ebene. Als Aktivierungsfunk­ tion wird vorzugsweise wiederum die Standard Sigmoid-Funktion g3(x) = tanh(x) gewählt.
Die Ausgangswerte σkh der Neuronen der dritten Ebene werden innerhalb jeder Klasse k über die Zeit summiert, woraus sich die Aktivierungen ωk der Ausgangsneuronen, die einzeln jeweils einer Objektklasse zugeordnet sind, zu
ergeben. Die Aktivierungen der Ausgangsneuronen stellen eine klassenweise zeitliche Integration der Neuronen der dritten Ebene dar und bilden die Ausgabewerte des Netz­ werks als Zuordnung einer Testbildfolge im Idealfall zu genau einer von mehreren Ob­ jektklassen. Im Realfall werden sich Aktivierungen in mehreren oder allen Ausgangs­ neuronen zeigen, wobei dann die Höhe der Aktivierung ein Maß für die Ähnlichkeit des Testobjekts mit dem Trainingsobjekt der jeweiligen Klasse ist. Es zeigt sich, daß auch neue, d. h. nicht trainierte Objekte anhand eines charakteristischen Aktivierungsmusters- über mehrere Klassen durch Auswertung dieses Aktivierungsmusters erkannt und zu­ geordnet werden können.
Für den Ausbau des Netzwerks ab der zweiten Ebene sind neben der skizzierten bevor­ zugten Ausführungsform verschiedene Abwandlungen denkbar, insbesondere können für den Übergang von der zweiten zur dritten Ebene die rezeptiven Felder auch räumlich rezeptiv sein und/oder weitere Neuron-Ebenen vorgesehen sein.
Für die Trainingsphase, in welcher die Gewichte für die rezeptiven Felder anhand von Trainingsbeispielen adaptiv eingestellt werden, werden vorzugsweise Initialwerte für die Gewichtsfaktoren vorgegeben, welche zwischen den verschiedenen Zweigen unkorre­ liert sind, so daß sich die verschiedenen Zweige auf verschiedene Merkmalsschwer­ punkte adaptieren, ohne daß eine explizite Merkmalsvorgabe (wie beispielsweise unter­ schiedlich orientierte Kanten) gemacht werden muß. Die Initialwerte sind vorzugsweise kleine positive und negative Zufallszahlen.
Die Adaption der Gewichtsfaktoren erfolgt vorzugsweise nach dem an sich bekannten Fehlergradientenverfahren, wobei als Fehlergröße vorteilhafterweise die Quadratfehler­ summe der Ausgangswerte des Netzwerks über alle Klassen gebildet wird.
Das erfindungsgemäße Verfahren ist nachfolgend an einem Beispiel mit einfachen Ob­ jekten und wenigen Objektklassen weiter veranschaulicht. Es seien die in Fig. 2 skiz­ zierten vier Objektklassen
k=1 von links oben nach rechts unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=2 von links oben nach rechts unten geneigte, langsam von links nach rechts bewegte -Ellipsen
k=3 von rechts oben nach links unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=4 von rechts oben nach links unten geneigte, langsam von links nach rechts bewegte Ellipsen
unterschieden, so daß lediglich Kombinationen von zwei Objektformen und zwei Bewe­ gungsmustern als Klassen vorgegeben sind. In der Darstellung der Fig. 2 sind die auf­ einanderfolgenden zweidimensionalen Grauwertbilder jeweils einer Klasse untereinan­ der angeordnet. Den gleichmäßigen Bewegungen sind leichte Bewegungsschwankun­ gen (jitter) überlagert. Die Objektformen sind gleichfalls zufällig leicht variiert. Die Startposition der Objekte, d. h. ihre Position in x-Richtung wird in den Trainingsbeispie­ len zufällig leichtvariiert.
Die Bildgröße der einzelnen Bilder sei beispielsweise 32×16 Pixel, eine Bildfolge um­ fasse 8 aufeinanderfolgende Bilder, so daß der Raum-Zeit-Bereich RZB1 der ersten Neu­ ron-Ebene NE1 die Ausdehnung Sx(1) = 32, Sy(1) = 16 und St(1) = 8 Neuronen in den je­ weiligen Richtungen aufweist.
Solange die Ausdehnung der rezeptiven Felder in räumlicher und zeitlicher Richtung gering, z. B. Rx, = Ry = Rt = 3 ist, bilden sie im wesentlichen schrittweise eine gewichtete Summe von in diesem Falle R = 3 aufeinanderfolgenden Bildern, was in der zweiten Neuron-Ebene NE2 zu Aktivierungsmustern führt, in welchen sowohl die Objektform als auch die Bewegung noch erkennbar sind. Die zeitlich rezeptiven Felder für den Über­ gang von der zweiten zur dritten Ebene bilden dann Detektoren sowohl für die Objekt­ form als auch für die Bewegung. Die Bewegungsinformation wird jeweils aus drei zeit­ lich zusammenhängenden räumlich zweidimensionalen Neuron-Rahmen extrahiert.
Die räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene bewirken eine an die speziellen Objekte adaptierte Vorverarbeitung, während die Erkennung der Objektform und Bewegung selbst in den höheren Neuron-Ebenen erfolgt. Obwohl unterschiedliche Anfangspositionen eines Objekts zu verschiedenen Aktivierungsmustern in der zweiten Neuron-Ebene NE2 führen, bewirkt der Einsatz zeitlich rezeptiver Felder in der zweiten Neuron-Ebene NE2 mit relativ kurzer Ausdehnung in Zeitrichtung eine hohe Toleranz gegenüber einer Verschiebung der Anfangsposition. Die Anfangsposition und damit der Zeitpunkt, zu dem ein Objekt an einer bestimmten Position des Bildfelds erscheint, be­ einflußt die korrekte Erkennung der Bewegung kaum.
Mit zunehmender zeitlicher Ausdehnung der räumlich-zeitlich rezeptiven Felder der er­ sten Neuron-Ebene NE1 wird der Schwerpunkt der Bewegungserkennung mehr und mehr in den Übergang zwischen der ersten und der zweiten Ebene verlagert, insbeson­ dere wenn gleichzeitig die zeitliche Ausdehnung der Raum-Zeit-Bereiche der zweiten Ebene abnimmt, beispielsweise für Rt = 5, Dt = 4 und Rh = 1, wo in der zweiten Ebene nur noch zweidimensionale räumliche Neuron-Aktivierungsmuster ohne zeitliche Aus­ dehnung vorliegen. Diese Aktivierungsmuster sind aber bereits nach unterschiedlichen Objektbewegungen unterscheidbar. Die Gewichte beim Übergang von der zweiten Ebe­ ne zur dritten Ebene bewirken dann hauptsächlich eine Extraktion der Objektform aus diesen zweidimensionalen Aktivierungsmustern.
Räumlich stark ausgedehnte räumlich-zeitlich rezeptive Felder mit beispielsweise Rx = Ry = 15, Rt = 3 können teilweise vollständige Objekte detektieren und führen zu stark ob­ jektformabhängigen Aktivierungsmustern in der zweiten Neuron-Ebene NE2, in welchen die Bewegung des Objekts in Bewegungen einzelner Neuron-Aktivierungen der zweiten Ebene transformiert ist, welche dann beim Übergang von der zweiten Neuron-Ebene in die dritte Ebene extrahiert wird. Bei einer solchen Wahl der rezeptiven Felder der ersten Neuron-Ebene NE1 sind die zweiten und dritten Ebenen NE2 und NE3 vorteilhafterweise vollständig verbunden, da zeitlich gering ausgedehnte zeitlich rezeptive Felder in der zweiten Neuron-Ebene die Bewegungsinformation mit geringerer Genauigkeit extrahie­ ren würden. Der Schwerpunkt der Erkennung der Objektform liegt dann im Übergang von der ersten zur zweiten Ebene und der Schwerpunkt der Bewegungserkennung in den höheren Ebenen.
Dem Aktivierungsmuster der Ausgangsneuronen ist in dem skizzierten Beispiel der Zeitpunkt des Auftretens eines Objekts nicht mehr entnehmbar, da die klassenweise Summierung der Aktivierungen der Neuronen in der dritten Neuron-Ebene eine zeitliche Integration bewirkt, die nur noch auf das Auftreten eines Objekts zu einem beliebigen Zeitpunkt innerhalb des Zeitrahmens der Bildfolge hinweist. Die Information über den Zeitpunkt des Auftretens eines detektierten Objekts kann aber aus den Aktivierungen der Neuronen der dritten Ebene, die innerhalb einer Objektklasse noch zeitlich gestaf­ felt sind, entnommen werden.
Die Fähigkeit des erfindungsgemäßen Verfahrens zur allgemeineren Objekterkennung, d. h. zur Erkennung von nicht in der Trainingsmenge enthaltenen Objekten ist unter An­ lehnung an das bereits ausführlich beschriebene Beispiel mit den Kombinationen der beiden Objektformen und der beiden Bewegungsmuster (Geschwindigkeiten) anhand von den in Fig. 3 und 4 skizzierten Beispielen veranschaulicht. In Fig. 3 sind im obe­ ren Teil fünf Bildfolgen (b=1 bis b=5) dargestellt, innerhalb derer die Form der Objekte im wesentlichen gleich ist, die Geschwindigkeit der Bewegung der Objekte von links nach rechts aber von der langsamen Bewegung der Objektklasse k=1 nach Fig. 2 in der Bildfolge b=1 bis zur schnellen Bewegung der Objektklasse k=2 in der Bildfolge b=5 schrittweise gesteigert ist. Jeweils eine Anzahl von z. B. 50 solcher Bildfolgen werden nach einem auf die Objektklassen k= 1 bis k=4 adaptierten Netzwerk der beschriebenen Art als Testbildfolgen verarbeitet. Jede Testbildfolge bewirkt die Ausgabe eines Satzes von Aktivierungswerten ω der Ausgangsneuronen zu den 4 Objektklassen nach Fig. 1 und Fig. 2.
Die Werte der Aktivierungen sind in den unterhalb der Bildfolgen angeordneten zugehö­ rigen vertikalen Bändern eingetragen, wobei leere Kreise die Aktivierungen des Aus­ gangsneurons zur Trainingsklasse k=1, Quadrate für Trainingsklasse k=2, Dreiecke für Trainingsklasse k=3 und ausgefüllte Kreise für Trainingsklasse k=4 stehen.
Für die erste Testobjektgruppe b=1, die aus Objekten der Trainingsklasse k=1 besteht, liegen korrekterweise die Aktivierungen des Ausgangsneurons zu k=1 ungefähr bei ω1=1 und die Aktivierungen der anderen Ausgangsneuronen sind wesentlich niedriger und um ω=0 gruppiert. Für die Testobjektgruppe b=5, die aus Objekten der Trainings­ klasse k=2 besteht, liegen die Ausgangsaktivierungen des Ausgangsneurons zu k=2 ungefähr bei ω2=1 und die übrigen Aktivierungen weit darunter.
Für die dazwischenliegenden Testobjektgruppen b=2, b=3 und b=4, deren Testobjekte wegen nicht übereinstimmender Geschwindigkeit zu keiner der Trainingsklassen gehö­ ren, liegen keine eindeutig einer Trainingsklasse zuzuordnenden Muster der Aktivierun­ gen der Ausgangsneuronen vor. Die Aktivierungen zeigen aber eine für jede Testobjekt­ gruppe charakteristische Verteilung. Für die Testobjektgruppe b=2 dominiert noch die Aktivierung ω1, die Aktivierung ω2 zur Trainingsklasse k=2 zeigt jedoch einen ω1 nahe­ kommenden Wert, für b=4 ist die Situation umgekehrt und für b=3 sind die Aktivierun­ gen ω1 und ω2 annähernd gleich groß. Die anderen Aktivierungen ω3 und ω4 sind demge­ genüber in allen Testobjektgruppen gering. In dem gegebenen einfachen Beispiel mit den schrittweise gesteigerten Geschwindigkeiten lassen sich die Verhältnisse der Akti­ vierungen ω1 und ω2 anschaulich zur Zuordnung einer neuen Geschwindigkeit durch Interpolation zwischen den trainierten Geschwindigkeiten der Trainingsklassen k=1 und k=2 interpretieren.
Bei dem in Fig. 4 skizzierten Beispiel sind wiederum fünf Bildfolgen mit c=1 bis c=5 ent­ sprechend fünf Testobjektgruppen gegeben. In diesem Beispiel ist die Geschwindigkeit der Objektbewegung in allen Testobjektgruppen gleich, die Form der Testobjektgruppen ist aber durch schrittweises Verändern des Hauptachsenverhältnisses der ellipsenför­ migen Objekte zwischen der Objektform der Trainingsklasse k=1 und der Trainingsklas­ se k=3 variiert, wobei die Testobjektgruppe mit c=3 Kreise als Sonderform von Ellipsen aufweist. Die Testobjektgruppe c=1 enthalte Bildfolgen der Trainingsklasse k=1, die Testobjektgruppe c=5 Bildfolgen der Trainingsklasse k=3. In diesen beiden Testobjekt­ gruppen erlauben die Aktivierungen der Ausgangsneuronen wie im unteren Teil der Fig. 4 eingetragen eine eindeutige Zuordnung der Testobjekte zu einer Trainingsklasse. Die Symbole im unteren Teil der Fig. 4 sind dieselben wie in Fig. 3. Für die mittleren Testobjektgruppen c=2 bis c=4 ergibt sich ähnlich der Fig. 3 keine eindeutige Zuord­ nung zu einer Trainingsklasse, aber eine charakteristische Verteilung der mehreren Ausgangsaktivierungen, wobei wieder anschaulich die Größenverhältnisse der größten Aktivierungen als Interpolationsschritte der Hauptachsenverhältnisse zwischen den Trainingsklassen k=1 und k=3 interpretiert werden können.
Das erfindungsgemäße Verfahren zeigt sich damit geeignet, auch nach Abschluß der Trainingsphase noch neue Objekte anhand von charakteristischen Mustern der Aus­ gangsaktivierungen erlernen zu können.
Bei den vorstehend erläuterten Beispielen wurden gezielt anschauliche einfache Situa­ tionen, Bewegungen und Objektformen gewählt. Das Verfahren ist aber insbesondere dadurch vorteilhaft, daß es nicht auf Anwendungen und Netzwerkstrukturen beschränkt ist, bei welchen Zwischenebenen oder Ausgangsaktivierungen des Netzwerks bildhaft anschaulich sind. Vielmehr liegt eine Stärke des Verfahrens gerade darin, daß durch die weitgehend selbständige Adaption der Gewichtsfaktoren auch bildlich gänzlich unver­ ständliche, aber für die Erkennung optimierte Aktivierungsmuster und Gewichtsmuster möglich sind.
Neben der Fähigkeit zur Erkennung neuer, nicht trainierter Objekte zeigt das Verfahren auch eine hohe Robustheit gegenüber Schwankungen der Bewegung und der Form von Objekten im Verlauf der Bildfolgen. Dabei erweist es sich als vorteilhaft, wenn solche Schwankungen bereits in den Trainingsfolgen auftreten. Die Variante der Netzwerk- Architektur mit kleineren rezeptiven Feldern in der ersten Ebene und größeren Raum- Zeit-Bereichen in der zweiten Ebene zeigt sich dabei in diesem speziellen Beispiel der Variante mit räumlich großen rezeptiven Feldern in der ersten Ebene überlegen. Die Fig. 5 zeigt für die vier Objektklassen der Fig. 2 Bewegungsabläufe mit starken Bewegungs­ schwankungen, welche aber die Erkennungsrate nicht stark beeinträchtigen, wenn be­ reits in der Trainingsphase Trainingsobjekte mit deutlichen Bewegungsschwankungen vorgegeben wurden.
Die Erfindung ist nicht auf die im Detail beschriebenen Merkmale beschränkt, sondern im Rahmen fachmännischen Könnens auf mancherlei Weise abwandelbar. Insbesondere können auch dreidimensionale Bilddaten als Grundlage dienen, wobei dann auch der Raum-Zeit-Bereich der ersten Ebene und evtl. die räumlich und zeitlich rezeptiven Fel­ der um eine Dimension erweitert werden. Die Erfindung ist aufgrund ihrer vorteilhaften Eigenschaften insbesondere geeignet zum Einsatz bei der automatischen Interpretation von Verkehrssituationen mittels eines Bildsensors aus einem Kraftfahrzeug heraus und dabei vor allem zur Erkennung und Unterscheidung von Fußgängern, Radfahrern oder anderen Fahrzeugen einschließlich deren Geschwindigkeit.
Referenzen
[1] C. Goerick, D. Noll, M. Werner. Artificial Neural Networks in Real Time Car Detection and Tracking Applications. In Pattern Recognition Letters, volume 17, pages 335-343, 1996.
[2] E. D. Dickmanns, R. Behringer, C. Brüdigam, D. Dickmanns, F. Thomanek, V. v. Holt. An all-transputer visual Autobahn-Autopilot/Copilot. In 4th
int. Conference on Com­ puter Vision, pages 608-615, 1993.
[3] T. Kolb. Fahrzeugklassifikation mit neuronalen Netzen. Diplomarbeit, Universität Ulm, 1995.
[4] S.A. Niyogi and E.H. Adelson. Analyzing and recognizing walking figures in xyt. In IEEE Conference on Computer Vision and Pattern Recognition, pages 469-474,1994.
[5] S.A. Niyogi and E.H. Adelson. Analyzing gait with spatiotemporal surfaces. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 64-69, Austin, 1994.
[6] J. Segan and S. Pingali. A camera-based system for tracking people in real time. In International Conference on Pattern Recognition, pages 63-67, Vienna, 1996.
[7] S. Shio and J. Sklansky. Segmentation of people in motion. In IEEE Workshop on Visual Motion, pages 325-332, 1991.
[8] R. Polana and R. Nelson. Low level recognition of human motion. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 77-82, Austin, 1994.

Claims (14)

1. Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder nach dem Prin­ zip neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural Network, TDNN), bei welchem
  • a) die erste Neuron-Ebene des Netzwerks die Bilddaten mehrerer zeitlich auf­ einanderfolgender Bilder enthält
  • b) die zweite Neuron-Ebene über einen oder mehrere erste Zweige mit der er­ sten Ebene verknüpft ist,
  • c) jedem ersten Zweig ein Satz von räumlich-zeitlichen rezeptiven ersten Fel­ dern aus dem Raum-Zeit-Bereich der Bilddaten zugeordnet ist,
  • d) Gewichte der rezeptiven Felder anhand von Trainings-Bildfolgen adaptiv ein­ gestellt werden, und
  • e) aus dem Aktivierungsmuster der Ausgangsneuronen des Netzwerks eine Aussage über Art und Bewegung eines Objekts ableitbar ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die rezeptiven Felder ei­ nes ersten Zweiges räumlich und/oder zeitlich überlappend gewählt werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Überlappung in den einzelnen Dimensionen mindestens gleich der halben Ausdehnung der rezeptiven Felder in der jeweiligen Dimension ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Aus­ dehnung der rezeptiven Felder in wenigstens einer Dimension kleiner als zwei Drittel der Ausdehnung des Raum-Zeit-Bereichs in der jeweiligen Dimension ist.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die rezeptiven Felder eines ersten Zweiges gleiche Form und Größe im Raum-Zeit- Bereich der ersten Ebene aufweisen.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß auf die rezeptiven Felder eines Zweiges dieselben Muster von Gewichtsfaktoren angewandt werden.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für die Gewichtsfaktoren verschiedener Zweige vorgegebene Muster von Initialwer­ ten für die Trainingsphase nicht korreliert sind.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die rezeptiven Felder in dem mehrdimensionalen Raum-Zeit-Bereich der ersten Ebe­ ne geschlossene Teilbereiche bilden.
9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß die re­ zeptiven Felder eines Zweigs um innerhalb einer Dimension gleiche Schrittweiten gegeneinander versetzt sind.
10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für Übergänge zwischen höheren Ebenen des neuronalen Netzwerks räumlich vollständig verbundene zeitlich rezeptive Felder gewählt werden.
11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Bilddaten räumlich zweidimensional vorgegeben werden.
12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in einem Vorverarbeitungsschritt ein Bildausschnitt aus einem größeren Ge­ samtbild ausgewählt wird (Vorsegmentierung).
13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das Netzwerk für mehrere verschiedene Objekte und/oder mehrere verschiede­ ne Bewegungsformen so dimensioniert und trainiert wird, daß jeder diskreten Ob­ jekt-Bewegungsform-Kombination ein Ausgangs-Neuron zugeordnet ist, und daß für neue Objekte und/oder Bewegungsformen charakteristische verteilte Aktivierungen der Ausgangsneuronen ermittelt werden.
14. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch seine Anwendung in einem Kraftfahrzeug zur Objekterkennung in einer Verkehrssituation.
DE19802261A 1998-01-22 1998-01-22 Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder Withdrawn DE19802261A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19802261A DE19802261A1 (de) 1998-01-22 1998-01-22 Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19802261A DE19802261A1 (de) 1998-01-22 1998-01-22 Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder

Publications (1)

Publication Number Publication Date
DE19802261A1 true DE19802261A1 (de) 1999-07-29

Family

ID=7855307

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19802261A Withdrawn DE19802261A1 (de) 1998-01-22 1998-01-22 Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder

Country Status (1)

Country Link
DE (1) DE19802261A1 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19942223A1 (de) * 1999-09-03 2001-03-15 Daimler Chrysler Ag Klassifikationsverfahren mit Rückweisungsklasse
DE10025678A1 (de) * 2000-05-24 2001-12-20 Daimler Chrysler Ag Kamerabasiertes Precrash-Erkennungssystem
DE10110038A1 (de) * 2001-03-02 2002-09-19 Daimler Chrysler Ag Verfahren zur autonomen Adaption eines Klassifikators
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017223206A1 (de) * 2017-12-19 2019-06-19 Robert Bosch Gmbh Niederdimensionale Ermittlung von abgegrenzten Bereichen und Bewegungspfaden
DE102021209840A1 (de) 2021-09-07 2023-03-09 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Betreiben eines Zugfahrzeugs mit einem Anhänger

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0488003A2 (de) * 1990-11-26 1992-06-03 RCA Thomson Licensing Corporation Neuronale Netzwerke für Videosignalverarbeitung
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition
DE4436692A1 (de) * 1993-10-14 1995-04-20 Ricoh Kk Trainingssystem für ein Spracherkennungssystem
US5440651A (en) * 1991-06-12 1995-08-08 Microelectronics And Computer Technology Corp. Pattern recognition neural network
US5537511A (en) * 1994-10-18 1996-07-16 The United States Of America As Represented By The Secretary Of The Navy Neural network based data fusion system for source localization
DE19636028C1 (de) * 1996-09-05 1997-11-20 Daimler Benz Ag Verfahren zur Stereobild-Objektdetektion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0488003A2 (de) * 1990-11-26 1992-06-03 RCA Thomson Licensing Corporation Neuronale Netzwerke für Videosignalverarbeitung
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition
US5440651A (en) * 1991-06-12 1995-08-08 Microelectronics And Computer Technology Corp. Pattern recognition neural network
DE4436692A1 (de) * 1993-10-14 1995-04-20 Ricoh Kk Trainingssystem für ein Spracherkennungssystem
US5537511A (en) * 1994-10-18 1996-07-16 The United States Of America As Represented By The Secretary Of The Navy Neural network based data fusion system for source localization
DE19636028C1 (de) * 1996-09-05 1997-11-20 Daimler Benz Ag Verfahren zur Stereobild-Objektdetektion

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANGUITA,Davide, et.al.: Neural structures for visual motion tracking. In: Machine Vision and Applications, 1995, H.5, S.275-288 *
COTTRELL,Marie, et.al.: Neural Modeling for Time Series: A Statistical Stepwise Method for Weight Elimination. In: IEEE Transactions On Neural Networks, Vol.6, No.6, Nov. 1995, S.1355- S.1364 *
KANOU,Naoyuki, et.al.: Composition of Messages on Winking by ALS Patients. In: Proc. of Sixth International Conference on Human Computer Interaction 1995, Elsevier 1995, S.911-916 *
MAZO,M., et.al.: Road Following By Artificial Vision Using Neural Network. In: IFAC Artificial Intelligence in Real Time, 1994, S.209-214 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19942223A1 (de) * 1999-09-03 2001-03-15 Daimler Chrysler Ag Klassifikationsverfahren mit Rückweisungsklasse
DE19942223C2 (de) * 1999-09-03 2003-03-13 Daimler Chrysler Ag Klassifikationsverfahren mit Rückweisungsklasse
US6690829B1 (en) 1999-09-03 2004-02-10 Daimlerchrysler Ag Classification system with reject class
DE10025678A1 (de) * 2000-05-24 2001-12-20 Daimler Chrysler Ag Kamerabasiertes Precrash-Erkennungssystem
US6838980B2 (en) 2000-05-24 2005-01-04 Daimlerchrysler Ag Camera-based precrash detection system
DE10025678B4 (de) * 2000-05-24 2006-10-19 Daimlerchrysler Ag Kamerabasiertes Precrash-Erkennungssystem
DE10110038A1 (de) * 2001-03-02 2002-09-19 Daimler Chrysler Ag Verfahren zur autonomen Adaption eines Klassifikators
DE10110038B4 (de) * 2001-03-02 2005-10-06 Daimlerchrysler Ag Verfahren zur autonomen Adaption eines Klassifikators
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
WO2018234250A1 (de) 2017-06-20 2018-12-27 Volkswagen Aktiengesellschaft Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
WO2018234251A1 (de) 2017-06-20 2018-12-27 Volkswagen Aktiengesellschaft Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
US11430267B2 (en) 2017-06-20 2022-08-30 Volkswagen Aktiengesellschaft Method and device for detecting a user input on the basis of a gesture
US11644901B2 (en) 2017-06-20 2023-05-09 Volkswagen Aktiengesellschaft Method and device for detecting a user input on the basis of a gesture
DE102017223206A1 (de) * 2017-12-19 2019-06-19 Robert Bosch Gmbh Niederdimensionale Ermittlung von abgegrenzten Bereichen und Bewegungspfaden
US11263465B2 (en) 2017-12-19 2022-03-01 Robert Bosch Gmbh Low-dimensional ascertaining of delimited regions and motion paths
DE102021209840A1 (de) 2021-09-07 2023-03-09 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Betreiben eines Zugfahrzeugs mit einem Anhänger

Similar Documents

Publication Publication Date Title
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE102006057552B4 (de) System und Verfahren zur Messung des Abstands eines vorausfahrenden Fahrzeugs
DE19955919C1 (de) Verfahren zur Erkennung von Objekten in Bildern auf der Bildpixelebene
EP2005361A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
EP3291172B1 (de) Verfahren zur ermittlung von ergebnisbilddaten
EP0973121A2 (de) Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr
DE102013019138A1 (de) Verfahren zum Erkennen eines verdeckten Zustands einer Kamera, Kamerasystem und Kraftfahrzeug
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE102012000459A1 (de) Verfahren zur Objektdetektion
AT521647A1 (de) Verfahren und System zur Datenaufbereitung, zum Trainieren eines künstlichen neuronalen Netzes und zum Analysieren von Sensordaten
DE19802261A1 (de) Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder
DE102008036219A1 (de) Verfahren zur Erkennung von Objekten im Umfeld eines Fahrzeugs
DE19942223C2 (de) Klassifikationsverfahren mit Rückweisungsklasse
DE102019204602B4 (de) Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten
DE102018132627A1 (de) Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
DE102022204722A1 (de) Verfahren zum Trainieren eines neuronalen Konvolutionsnetzwerks
DE102018109680A1 (de) Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt
DE10252731A1 (de) Verfahren zur Überwachung einer Szene mit wenigstens einem bildgebenden Sensor
DE102007025620A1 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichtkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm
EP2399241B1 (de) Verfahren zur entropie-basierten bestimmung von objektrandkurven
DE10136649B4 (de) Verfahren und Vorrichtung zur Objekterkennung von sich bewegenden Kraftfahrzeugen
DE102019207575A1 (de) Verfahren zum Beurteilen einer funktionsspezifischen Robustheit eines Neuronalen Netzes
DE102018126826A1 (de) Verfahren zum Bestimmen eines Konfidenzwerts für eine Erfassungsqualität einer Fahrbahnmarkierungsgrenze, Fahrerassistenzsystem sowie Kraftfahrzeug
DE4404775C1 (de) Verfahren zum Betrieb eines hybriden neuronalen Netzwerks zur automatischen Objekterkennung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE

8127 New person/name/address of the applicant

Owner name: DAIMLER AG, 70327 STUTTGART, DE

8139 Disposal/non-payment of the annual fee