DE19802261A1 - Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder - Google Patents
Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter BilderInfo
- Publication number
- DE19802261A1 DE19802261A1 DE19802261A DE19802261A DE19802261A1 DE 19802261 A1 DE19802261 A1 DE 19802261A1 DE 19802261 A DE19802261 A DE 19802261A DE 19802261 A DE19802261 A DE 19802261A DE 19802261 A1 DE19802261 A1 DE 19802261A1
- Authority
- DE
- Germany
- Prior art keywords
- level
- receptive fields
- time
- branch
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/04—Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
Description
Die Erfindung betrifft ein Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter
Bilder.
Für die automatische Interpretation von Bildern bewegter Szenarien sind sowohl die
Erkennung und Unterscheidung von Objekten als auch die Analyse deren Bewegung
relativ zu dem aufnehmenden Bildsensor von wesentlicher Bedeutung.
Ein wichtiger und viel behandelter Anwendungsfall des automatischen Bildverstehens
ist die Interpretation von Verkehrsszenarien im Straßenverkehr, insbesondere die Ob
jekterkennung und Bewertung von einem bewegten Straßenfahrzeug aus, beispielswei
se zur Erkennung, Unterscheidung und Klassifizierung und ortsfester und bewegter
Objekte, wozu insbesondere auch andere Verkehrsteilnehmer wie Fußgänger und Rad
fahrer zählen.
In Referenz [1] werden klassische, statische neuronale Netze einer Architektur ähnlich
der des Multi-Layer-Perzeptrons (MLP) dazu verwendet, mit einer speziellen Technik aus
Grauwert-Kantenbildern erhaltene Histogramme daraufhin zu untersuchen, ob die ent
sprechende Bildregion ein Fahrzeug enthält. Wichtigstes Klassifikationskriterium ist
hierbei das Vorhandensein einer rechteckigen Box im Bildfeld, das auf die Rückansicht
eines Fahrzeugs schließen läßt - dies ist ausreichend für das dort ausschließlich be
trachtete Autobahnszenario, in dem Fahrzeuge nie seitlich zu sehen sind. Ebenfalls spe
ziell für das Autobahnszenario entwickelt wurden die in Referenz [2] beschriebenen
Verfahren zur Detektion von Kraftfahrzeugen.
Die Auswertung findet ausschließlich auf Einzelbildern und nicht auf der Bildsequenz
statt; zur Ermittlung der Bewegungsweise des Objekts werden relevante Merkmale von
Bild zu Bild verfolgt. Problem hierbei ist die Identifikation korrespondierender Merkmale
in aufeinanderfolgenden Bildern.
In Referenz [3] werden zunächst Farbflecken in der Bildsequenz ermittelt, die sich in
ähnlicher Weise bewegen, und zu Objekthypothesen zusammengefaßt. Ein neuronales
Netz, z. B. ein MLP, verifiziert anschließend, ob es sich tatsächlich um ein wiederer
kennbares Objekt, in diesem speziellen Falle ein Kraftfahrzeug oder Motorrad, handelt.
Auch hier geschieht die Objekterkennung ausschließlich auf Basis von Einzelbildern.
Arbeiten zur Fußgängererkennung beschränken sich i.a. auf reine Detektion und Verfol
gung, d. h., jedes bewegliche Objekt, das einer Vorauswahl einiger grober Form- und
Größenkriterien genügt, wird als Fußgänger betrachtet (siehe Referenzen [4] und [5]).
Modellbasierte Ansätze, die die raumzeitlichen Muster der Beinbewegungen des Fuß
gängers betrachten, sind in Referenz [6] und [7] zu finden. Untersucht wird hier sowohl
die XT-Ebene der Bildsequenz als auch das komplette XYT-Volumen. Es handelt sich
jedoch nicht um lernende, sondern um auf Modellen basierende Verfahren, die somit
ggf. sehr viele Modellparameter benötigen und deren Leistung daher stark von der Wahl
dieser Parameter abhängt. Die in den Referenzen [4] bis [7] beschriebenen Ansätze
arbeiten ausschließlich mit stationären Kameras, da die wichtigste Stufe der Detektion
durchweg darin besteht, bewegte Objekte vom ruhenden Hintergrund zu trennen.
Eine Methode, die keine stationäre Kamera erfordert, ist in Referenz [8] beschrieben.
Für jedes sich unabhängig vom Hintergrund bewegende Objekt wird eine zeitliche Folge
von Bildregionen extrahiert, die anschließend größennormiert werden. Das Bewe
gungsmuster in einer solchen Sequenz wird anhand des optischen Flusses klassifiziert.
Auch hierbei handelt es sich nicht um ein lernendes Verfahren.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren der einleitend genannten Art
anzugeben, welches durch hohe Erkennungsleistung sowohl hinsichtlich der Objekte als
auch deren Bewegungsmuster eine zuverlässige Interpretation wichtiger Bildinhalte
ermöglicht.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vor
teilhafte Ausführungen und Weiterbildungen der Erfindung.
Das erfindungsgemäße Verfahren basiert auf dem bei Erkennungsproblemen häufig
eingesetzten Verarbeitungsprinzip der sogenannten neuronalen Netzwerke und dabei
auf der Sonderform neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural
Network), im folgenden auch TDNN genannt. Ein wesentliches Merkmal eines TDNN
gegenüber beispielsweise dem Verarbeitungsmodell eines sogenannten Multi-Layer-
Perzeptrons liegt darin, daß das TDNN nicht vollständig verbunden ist, d. h. daß ein Neu
ron einer bestimmten Ebene nicht die Informationen von allen Neuronen der darunter
liegenden Ebene empfängt, sondern nur von einer vorgebbaren Untermenge davon.
Eine solche Untermenge wird als rezeptives Feld bezeichnet.
Wesentlich an der Erfindung ist, daß die Verknüpfung der untersten Ebene, welche bei
spielsweise die digitalen Rohbilddaten in Form mehrerer zeitlich nacheinander aufge
nommener Bilder enthält, mit Neuronen der zweiten Ebene sowohl in zeitlicher als auch
in räumlicher Dimension nicht vollständig ist, d. h., daß die ausgewählten Bereiche so
wohl räumlich als auch zeitlich rezeptiv sind. Wenn in den nachfolgenden Erläuterungen
von räumlich-zeitlich rezeptiven Feldern oder einfach nur von rezeptiven Feldern die
Rede ist, so sind damit, soweit sich aus dem Zusammenhang nichts anderes ergibt, die
räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene für die Verbindung mit
Neuronen der zweiten Ebene gemeint.
Durch die räumlich und zeitlich rezeptiven Felder kann besonders vorteilhaft den Eigen
schaften der Dreidimensionalität der Zeitfolge von Bildern und dem lokalen Eingrenzen
von Merkmalen bewegter Objekte Rechnung getragen werden.
Bei der Erfindung werden die Gewichte der rezeptiven Felder anhand von Trainings-
Bildfolgen adaptiv eingestellt, so daß die Aufstellung von Regeln aus Wissen über be
stimmte Eigenschaften von Objekten und Bewegungsmustern sowie die Umsetzung
solcher Regeln in einen Signalverarbeitungsablauf nicht erforderlich sind.
Aus dem Aktivierungsmuster der Ausgangs-Neuronen des Netzwerks können Aussagen
über Art und Bewegung eines Objekts abgeleitet werden. Im bevorzugten Anwendungs
fall in einem Kraftfahrzeug kann damit insbesondere eine Gefahrenabschätzung inner
halb eines Bildüberwachungsbereichs vorgenommen werden. Da die Erfindung nicht auf
Farbinformation in den Bilddaten angewiesen ist, sondern im Regelfall mit einer gerin
gen Grautonabstufung bereits eine hohe Erkennungsrate zeigt, kann als Bildsensor ein
preisgünstiger Schwarz-Weiß-Sensor eingesetzt werden.
Der Aufbau der Netzwerkarchitektur, insbesondere bei Realisierung bevorzugter Aus
führungsformen, ermöglicht unter Einsatz von Standard-Hardware sehr kurze Signalver
arbeitungszeiten und damit eine für eine Gefahrenabschätzung besonders wichtige
Echtzeit-Verarbeitung.
Die kombinierte Verarbeitung von räumlicher und zeitlicher Bildinformation auch in der
Trainingsphase führt auch bei nicht formstabilen Objekten wie beispielsweise Beinpha
sen von Fußgängern zu guten Erkennungsergebnissen. Die Formveränderung kann so
gar als objekttypische Eigenschaft die Erkennungsleistung fördern. Die Verteilung einer
Mehrzahl kleinerer rezeptiver Felder auf den gesamten Raum-Zeit-Bereichs der bearbei
teten Bilddaten ergibt eine hohe Robustheit des Verfahrens gegenüber verschiedenen
räumlichen Lagen eines Objekts, so daß für eine gegebenenfalls vorgenommene Vor
segmentierung eines größeren räumlichen Sensorbildes nur eine ungefähre Aus
schnittsbestimmung vorzunehmen ist. Auf eine Vorsegmentierung kann insbesondere
dann verzichtet werden, wenn die zu detektierenden Objekte im Bild so groß sind, daß
das gesamte Bildfeld mit wenigen festen Klassifikationsfenstern abgedeckt werden
kann oder wenn die Objektposition im Bildfeld ungefähr bekannt ist.
Als weitere besonders vorteilhafte Eigenschaft zeigt sich, daß aus dem Aktivierungsmu
ster der Ausgangsneuronen teilweise auch solche Objekte oder Bewegungsmuster er
kannt werden können, die nicht als eigene Klassen für die Erkennung vorgegeben und
nicht in den Trainingsproben enthalten waren, wenn solche neuen Objekte charakteri
stische verteilte Aktivierungen der Ausgangsneuronen zeigen. Solche charakteristische
Verteilungen können in einem zusätzlichen Auswertungsschritt berücksichtigt und zur
Erkennung neuer, nicht trainierter Objekte herangezogen werden.
Vorzugsweise sind die rezeptiven Felder eines Zweigs beim Übergang von der ersten
zur zweiten Ebene des Netzwerks räumlich und zeitlich gegeneinander versetzt und
überlappend in dem Raum-Zeit-Bereich der Bilddaten angeordnet. Durch Vorgabe von
Feldgröße, Versatz und Überlappung der rezeptiven Felder eines Zweiges kann die
Schwerpunktsetzung bei der Erkennung, z. B. langsam oder schnell bewegte Objekte,
formstabile oder nicht formstabile Objekte, usw. beeinflußt werden.
Die Ausdehnung der rezeptiven Felder ist vorzugsweise in wenigstens einer, bevorzugt
in allen Dimensionen kleiner als zwei Drittel der Ausdehnung des gesamten betrachte
ten Raum-Zeit-Bereichs in der jeweiligen Dimension. Die Überlappung in den einzelnen
Dimensionen ist vorteilhafterweise mindestens gleich einem Drittel, vorzugsweise min
destens gleich der Hälfte der Ausdehnung der rezeptiven Felder in der jeweiligen Di
mension. Die Überlappung der rezeptiven Felder führt zu einer hohen Toleranz des Ver
fahrens gegen Verschiebungen und/oder Größenänderungen von Objekten.
Vorzugsweise weisen alle rezeptiven Felder eines Zweigs dieselbe Größe und Form auf.
Für die gewichtete Zusammenfassung der Werte eines rezeptiven Felds zu einem Aus
gangswert eines Neurons der zweiten Ebene können dann die Gewichtsmuster zu allen
rezeptiven Feldern des Zweigs gleichgesetzt werden (Shared Weights).
Vorzugsweise sind die rezeptiven Felder eines Zweigs um innerhalb jeweils einer Di
mension gleiche Schrittweiten gegeneinander versetzt und bilden in dem Raum-Zeit-
Bereich der Bilddaten geschlossene Teilbereiche.
Für die Übergänge zwischen höheren Ebenen des Netzwerks können teilweise wieder
um räumlich-zeitlich rezeptive Felder gebildet werden. Es können aber auch andere
Verknüpfungen, insbesondere mit vollständigen Verbindungen in einer oder mehreren
Dimensionen gewählt werden. Gestaltungsmöglichkeiten für die Architektur des Netz
werks in den höheren Ebenen sind dem Fachmann ausreichend bekannt. Das Netzwerk
weist vorzugsweise durchgehend eine vorwärts gerichtete (feed forward) Signalverar
beitung auf.
Die Erfindung ist nachfolgend anhand von Beispielen und durch Bezugnahme auf die
Abbildungen noch eingehend veranschaulicht. Dabei zeigt:
Fig. 1 eine Architektur eines TDNN für ein erfindungsgemäßes
Verfahren,
Fig. 2 einfache Musterbeispiele für Objekt-Bewegung-Kombinationen,
Fig. 3 Zuordnung von Testobjekten mit neuen Bewegungsmustern,
Fig. 4 Zuordnung von Testobjekten mit neuen Objektformen,
Fig. 5 Bewegungsschwankungen bei Objekten.
In Fig. 1 ist ein vorteilhaftes Beispiel einer Netzwerkarchitektur für ein erfindungsgemä
ßes Verfahren skizziert. Die Neuronen der untersten Neuron-Ebene NE1 sind der An
schaulichkeit halber als in einem dreidimensionalen Raum-Zeit-Bereich RZB1 vorgege
bener Größe mit zwei räumlichen Koordinaten x und y und einer Zeitkoordinate t ange
ordnet betrachtet. Der Raum-Zeit-Bereich sei als quaderförmiges Volumen mit Ausdeh
nungen Rx, Ry und Rt in den einzelnen Koordinatenrichtungen angenommen. Die Aktivie
rungen der Neuronen der ersten Ebene über Bildpunktdaten einer Folge von flächigen
Bildern läßt sich dann vorteilhafterweise so darstellen, daß ein Bild jeweils einer Fläche
mit t = konstant in dem Volumen von RZB1 zugeordnet ist und die Pixel der Bildfläche
auf die Neuronen der Neuronfläche mit jeweils entsprechenden Koordinaten abgebildet
sind. Die Zeitfolge von Bildern stellt sich dann in dem Volumen von RZB1 als eine Hin
tereinanderanordnung von flächigen Bildern in Richtung der Zeitkoordinate t dar. Auf
dieser Darstellung basieren die nachfolgenden Erläuterungen der Erfindung und der zur
Veranschaulichung gegebenen Beispiele.
Die Dimension des Raum-Zeit-Bereichs RZB1 der ersten Neuron-Ebene NE1 besitze die
Dimension von Sx(1) × Sy(1) × St(1) Neuronen entsprechend einer Anzahl von S,ii aufeinander
folgender Bilder mit jeweils Sx(1) × Sy(1) Pixeln. Für den Übergang von der ersten Neuron-
Ebene NE1 zur zweiten Neuron-Ebene NE2 seien ein oder mehrere Zweige BR mit 1 ≦ s
≦ N vorgesehen. Zu jedem Zweig existiert ein Satz von räumlich-zeitlich rezeptiven Fel
dern, die innerhalb des Raum-Zeit-Bereichs RZB1 Teilbereiche bilden. In Fig. 1 sind ein
erstes rezeptives Feld RF1 aus dem Satz der Felder für einen ersten Zweig BR1 mit als
ausgefüllte Kreise gezeichneten Neuronen und ein weiteres rezeptives Feld RFN zu dem
Zweig BRN mit als leere Kreise eingezeichneten Neuronen eingetragen.
Die rezeptiven Felder eines Satzes seien als quaderförmige Teilbereiche in dem Raum-
Zeit-Bereich RZB1 angenommen, die dieselbe Größe und Form mit Ausdehnungen Rx, Ry
und Rt in den jeweiligen Koordinatenrichtungen aufweisen. Innerhalb eines rezeptiven
Feldes seien die Positionen der einzelnen Neuronen des Feldes durch die feldinternen
Laufzahlen m, n und p mit 1 ≦ m ≦ Rx, 1 ≦ n ≦ Rt und 1 ≦ p ≦ Rt bestimmt. In Fig. 1 ist
der Anschaulichkeit halber nur die räumliche Koordinate y in der Zeichenebene einge
tragen. Die andere räumliche Koordinate verlaufe senkrecht zur Zeichenebene. Die
mehreren rezeptiven Felder eines Satzes zu einem Zweig BRs sind vorzugsweise in den
drei Koordinatenrichtungen um innerhalb einer Richtung konstante Schrittweiten Dx, Dy,
Dt gegeneinander versetzt, so daß jedes rezeptive Feld innerhalb eines Satzes durch
Schrittnummern i, j, q eindeutig bestimmt ist.
Jedem rezeptiven Feld ist zur Erzeugung eines Ausgangswerts für ein Neuron der zwei
ten Ebene NE2 ein Satz von Gewichtsfaktoren {rsmnp }ijq zugeordnet, wobei nach dem als
shared weights bekannten Prinzip vorteilhafterweise die Sätze von Gewichtsfaktoren zu
allen rezeptiven Feldern RFijq eines Zweiges untereinander gleich sind und deshalb ver
kürzt mit {rsmnp } bezeichnet werden. Die Gewichtsfaktoren können wieder als dreidimen
sionales Muster mit zwei räumlichen und einer zeitlichen Koordinate betrachtet werden.
Von Zweig zu Zweig sind die Sätze von Gewichtsfaktoren verschieden; diese Unter
scheidung findet durch den Index s statt.
Die Ausgänge der Neuronen der zweiten Ebene ergeben sich dann zu
wobei g2 die Aktivierungsfunktion für die Neuronen der zweiten Ebene und Θs die Akti
vierungsschwelle im Zweig BRs ist. Als Aktivierungsfunktion wird beispielsweise die
Standard-Sigmoid-Funktion g2(x) = tanh(x) gewählt.
Die Erzeugung der Ausgangswerte der Neuronen der zweiten Ebene über einen Satz
regelmäßig gegeneinander verschobener rezeptiver Felder mit gleichen Gewichtsfakto
renmustern erzeugt in der zweiten Ebene gefilterte Versionen der Bildfolge der ersten
Ebene. Für den Übergang von der zweiten Neuron-Ebene NE2 zur dritten Neuron-Ebene
NE3 werden für jeden Zweig s in dem zugehörigen Raum-Zeit-Bereich der zweiten Ebe
ne Teilbereiche als nur zeitlich rezeptive Felder gebildet, wogegen die räumliche Ver
bindung vollständig ist. Der Ausgangswert eines Neurons der dritten Ebene wird aus je
einem rezeptiven Feld jedes Zweigs abgeleitet. In der dritten Ebene sind die Neuronen
nach Objektklassen K verschiedenen Objekt/Bewegungsklassen, durchnumeriert mit
dem Index k, i≦k≦K und nach einer Zeitdimension unterschieden, die einer zeitlichen
Verschiebung der zeitlich rezeptiven Felder in der zweiten Neuron-Ebene entspricht.
Diese zeitliche Verschiebung erfolgt wieder vorteilhaft um eine konstante Schrittweite
Dh, die vorzugsweise Dh = 1 gewählt ist. Die gegeneinander verschobenen zeitlich rezep
tiven Felder sind vorzugsweise wieder gegenseitig überlappend. Der Übergang von der
zweiten zur dritten Neuron-Ebene extrahiert dann insbesondere typische Bewegungs
muster aus den gefilterten Bildfolgen der zweiten Ebene. Dies resultiert vorteilhafter
weise in einer starken Zeitinvarianz des erfindungsgemäßen Verfahrens in dem Sinne,
daß typische Bewegungsmuster, die deutlich kürzer sind als die zeitliche Länge der Bild
folge, unabhängig von ihrer zeitlichen Position innerhalb der Bildfolge detektiert werden.
Bei einer Länge der zeitlich rezeptiven Felder der zweiten Ebene von Rh Neuronen und
mit q als zeitlicher Index innerhalb eines Feldes ergeben sich die Ausgangswerte σkh der
dritten Ebene zu
mit g3 als Aktivierungsfunktion der Neuronen der dritten Ebene und vsijk als Gewichtsfak
toren für den Übergang von der zweiten zur dritten Neuron-Ebene. Als Aktivierungsfunk
tion wird vorzugsweise wiederum die Standard Sigmoid-Funktion g3(x) = tanh(x) gewählt.
Die Ausgangswerte σkh der Neuronen der dritten Ebene werden innerhalb jeder Klasse k
über die Zeit summiert, woraus sich die Aktivierungen ωk der Ausgangsneuronen, die
einzeln jeweils einer Objektklasse zugeordnet sind, zu
ergeben. Die Aktivierungen der Ausgangsneuronen stellen eine klassenweise zeitliche
Integration der Neuronen der dritten Ebene dar und bilden die Ausgabewerte des Netz
werks als Zuordnung einer Testbildfolge im Idealfall zu genau einer von mehreren Ob
jektklassen. Im Realfall werden sich Aktivierungen in mehreren oder allen Ausgangs
neuronen zeigen, wobei dann die Höhe der Aktivierung ein Maß für die Ähnlichkeit des
Testobjekts mit dem Trainingsobjekt der jeweiligen Klasse ist. Es zeigt sich, daß auch
neue, d. h. nicht trainierte Objekte anhand eines charakteristischen Aktivierungsmusters-
über mehrere Klassen durch Auswertung dieses Aktivierungsmusters erkannt und zu
geordnet werden können.
Für den Ausbau des Netzwerks ab der zweiten Ebene sind neben der skizzierten bevor
zugten Ausführungsform verschiedene Abwandlungen denkbar, insbesondere können
für den Übergang von der zweiten zur dritten Ebene die rezeptiven Felder auch räumlich
rezeptiv sein und/oder weitere Neuron-Ebenen vorgesehen sein.
Für die Trainingsphase, in welcher die Gewichte für die rezeptiven Felder anhand von
Trainingsbeispielen adaptiv eingestellt werden, werden vorzugsweise Initialwerte für die
Gewichtsfaktoren vorgegeben, welche zwischen den verschiedenen Zweigen unkorre
liert sind, so daß sich die verschiedenen Zweige auf verschiedene Merkmalsschwer
punkte adaptieren, ohne daß eine explizite Merkmalsvorgabe (wie beispielsweise unter
schiedlich orientierte Kanten) gemacht werden muß. Die Initialwerte sind vorzugsweise
kleine positive und negative Zufallszahlen.
Die Adaption der Gewichtsfaktoren erfolgt vorzugsweise nach dem an sich bekannten
Fehlergradientenverfahren, wobei als Fehlergröße vorteilhafterweise die Quadratfehler
summe der Ausgangswerte des Netzwerks über alle Klassen gebildet wird.
Das erfindungsgemäße Verfahren ist nachfolgend an einem Beispiel mit einfachen Ob
jekten und wenigen Objektklassen weiter veranschaulicht. Es seien die in Fig. 2 skiz
zierten vier Objektklassen
k=1 von links oben nach rechts unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=2 von links oben nach rechts unten geneigte, langsam von links nach rechts bewegte -Ellipsen
k=3 von rechts oben nach links unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=4 von rechts oben nach links unten geneigte, langsam von links nach rechts bewegte Ellipsen
unterschieden, so daß lediglich Kombinationen von zwei Objektformen und zwei Bewe gungsmustern als Klassen vorgegeben sind. In der Darstellung der Fig. 2 sind die auf einanderfolgenden zweidimensionalen Grauwertbilder jeweils einer Klasse untereinan der angeordnet. Den gleichmäßigen Bewegungen sind leichte Bewegungsschwankun gen (jitter) überlagert. Die Objektformen sind gleichfalls zufällig leicht variiert. Die Startposition der Objekte, d. h. ihre Position in x-Richtung wird in den Trainingsbeispie len zufällig leichtvariiert.
k=1 von links oben nach rechts unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=2 von links oben nach rechts unten geneigte, langsam von links nach rechts bewegte -Ellipsen
k=3 von rechts oben nach links unten geneigte, schnell von links nach rechts bewegte Ellipsen
k=4 von rechts oben nach links unten geneigte, langsam von links nach rechts bewegte Ellipsen
unterschieden, so daß lediglich Kombinationen von zwei Objektformen und zwei Bewe gungsmustern als Klassen vorgegeben sind. In der Darstellung der Fig. 2 sind die auf einanderfolgenden zweidimensionalen Grauwertbilder jeweils einer Klasse untereinan der angeordnet. Den gleichmäßigen Bewegungen sind leichte Bewegungsschwankun gen (jitter) überlagert. Die Objektformen sind gleichfalls zufällig leicht variiert. Die Startposition der Objekte, d. h. ihre Position in x-Richtung wird in den Trainingsbeispie len zufällig leichtvariiert.
Die Bildgröße der einzelnen Bilder sei beispielsweise 32×16 Pixel, eine Bildfolge um
fasse 8 aufeinanderfolgende Bilder, so daß der Raum-Zeit-Bereich RZB1 der ersten Neu
ron-Ebene NE1 die Ausdehnung Sx(1) = 32, Sy(1) = 16 und St(1) = 8 Neuronen in den je
weiligen Richtungen aufweist.
Solange die Ausdehnung der rezeptiven Felder in räumlicher und zeitlicher Richtung
gering, z. B. Rx, = Ry = Rt = 3 ist, bilden sie im wesentlichen schrittweise eine gewichtete
Summe von in diesem Falle R = 3 aufeinanderfolgenden Bildern, was in der zweiten
Neuron-Ebene NE2 zu Aktivierungsmustern führt, in welchen sowohl die Objektform als
auch die Bewegung noch erkennbar sind. Die zeitlich rezeptiven Felder für den Über
gang von der zweiten zur dritten Ebene bilden dann Detektoren sowohl für die Objekt
form als auch für die Bewegung. Die Bewegungsinformation wird jeweils aus drei zeit
lich zusammenhängenden räumlich zweidimensionalen Neuron-Rahmen extrahiert.
Die räumlich-zeitlich rezeptiven Felder der ersten Neuron-Ebene bewirken eine an die
speziellen Objekte adaptierte Vorverarbeitung, während die Erkennung der Objektform
und Bewegung selbst in den höheren Neuron-Ebenen erfolgt. Obwohl unterschiedliche
Anfangspositionen eines Objekts zu verschiedenen Aktivierungsmustern in der zweiten
Neuron-Ebene NE2 führen, bewirkt der Einsatz zeitlich rezeptiver Felder in der zweiten
Neuron-Ebene NE2 mit relativ kurzer Ausdehnung in Zeitrichtung eine hohe Toleranz
gegenüber einer Verschiebung der Anfangsposition. Die Anfangsposition und damit der
Zeitpunkt, zu dem ein Objekt an einer bestimmten Position des Bildfelds erscheint, be
einflußt die korrekte Erkennung der Bewegung kaum.
Mit zunehmender zeitlicher Ausdehnung der räumlich-zeitlich rezeptiven Felder der er
sten Neuron-Ebene NE1 wird der Schwerpunkt der Bewegungserkennung mehr und
mehr in den Übergang zwischen der ersten und der zweiten Ebene verlagert, insbeson
dere wenn gleichzeitig die zeitliche Ausdehnung der Raum-Zeit-Bereiche der zweiten
Ebene abnimmt, beispielsweise für Rt = 5, Dt = 4 und Rh = 1, wo in der zweiten Ebene
nur noch zweidimensionale räumliche Neuron-Aktivierungsmuster ohne zeitliche Aus
dehnung vorliegen. Diese Aktivierungsmuster sind aber bereits nach unterschiedlichen
Objektbewegungen unterscheidbar. Die Gewichte beim Übergang von der zweiten Ebe
ne zur dritten Ebene bewirken dann hauptsächlich eine Extraktion der Objektform aus
diesen zweidimensionalen Aktivierungsmustern.
Räumlich stark ausgedehnte räumlich-zeitlich rezeptive Felder mit beispielsweise Rx = Ry
= 15, Rt = 3 können teilweise vollständige Objekte detektieren und führen zu stark ob
jektformabhängigen Aktivierungsmustern in der zweiten Neuron-Ebene NE2, in welchen
die Bewegung des Objekts in Bewegungen einzelner Neuron-Aktivierungen der zweiten
Ebene transformiert ist, welche dann beim Übergang von der zweiten Neuron-Ebene in
die dritte Ebene extrahiert wird. Bei einer solchen Wahl der rezeptiven Felder der ersten
Neuron-Ebene NE1 sind die zweiten und dritten Ebenen NE2 und NE3 vorteilhafterweise
vollständig verbunden, da zeitlich gering ausgedehnte zeitlich rezeptive Felder in der
zweiten Neuron-Ebene die Bewegungsinformation mit geringerer Genauigkeit extrahie
ren würden. Der Schwerpunkt der Erkennung der Objektform liegt dann im Übergang
von der ersten zur zweiten Ebene und der Schwerpunkt der Bewegungserkennung in
den höheren Ebenen.
Dem Aktivierungsmuster der Ausgangsneuronen ist in dem skizzierten Beispiel der
Zeitpunkt des Auftretens eines Objekts nicht mehr entnehmbar, da die klassenweise
Summierung der Aktivierungen der Neuronen in der dritten Neuron-Ebene eine zeitliche
Integration bewirkt, die nur noch auf das Auftreten eines Objekts zu einem beliebigen
Zeitpunkt innerhalb des Zeitrahmens der Bildfolge hinweist. Die Information über den
Zeitpunkt des Auftretens eines detektierten Objekts kann aber aus den Aktivierungen
der Neuronen der dritten Ebene, die innerhalb einer Objektklasse noch zeitlich gestaf
felt sind, entnommen werden.
Die Fähigkeit des erfindungsgemäßen Verfahrens zur allgemeineren Objekterkennung,
d. h. zur Erkennung von nicht in der Trainingsmenge enthaltenen Objekten ist unter An
lehnung an das bereits ausführlich beschriebene Beispiel mit den Kombinationen der
beiden Objektformen und der beiden Bewegungsmuster (Geschwindigkeiten) anhand
von den in Fig. 3 und 4 skizzierten Beispielen veranschaulicht. In Fig. 3 sind im obe
ren Teil fünf Bildfolgen (b=1 bis b=5) dargestellt, innerhalb derer die Form der Objekte
im wesentlichen gleich ist, die Geschwindigkeit der Bewegung der Objekte von links
nach rechts aber von der langsamen Bewegung der Objektklasse k=1 nach Fig. 2 in der
Bildfolge b=1 bis zur schnellen Bewegung der Objektklasse k=2 in der Bildfolge b=5
schrittweise gesteigert ist. Jeweils eine Anzahl von z. B. 50 solcher Bildfolgen werden
nach einem auf die Objektklassen k= 1 bis k=4 adaptierten Netzwerk der beschriebenen
Art als Testbildfolgen verarbeitet. Jede Testbildfolge bewirkt die Ausgabe eines Satzes
von Aktivierungswerten ω der Ausgangsneuronen zu den 4 Objektklassen nach Fig. 1
und Fig. 2.
Die Werte der Aktivierungen sind in den unterhalb der Bildfolgen angeordneten zugehö
rigen vertikalen Bändern eingetragen, wobei leere Kreise die Aktivierungen des Aus
gangsneurons zur Trainingsklasse k=1, Quadrate für Trainingsklasse k=2, Dreiecke für
Trainingsklasse k=3 und ausgefüllte Kreise für Trainingsklasse k=4 stehen.
Für die erste Testobjektgruppe b=1, die aus Objekten der Trainingsklasse k=1 besteht,
liegen korrekterweise die Aktivierungen des Ausgangsneurons zu k=1 ungefähr bei
ω1=1 und die Aktivierungen der anderen Ausgangsneuronen sind wesentlich niedriger
und um ω=0 gruppiert. Für die Testobjektgruppe b=5, die aus Objekten der Trainings
klasse k=2 besteht, liegen die Ausgangsaktivierungen des Ausgangsneurons zu k=2
ungefähr bei ω2=1 und die übrigen Aktivierungen weit darunter.
Für die dazwischenliegenden Testobjektgruppen b=2, b=3 und b=4, deren Testobjekte
wegen nicht übereinstimmender Geschwindigkeit zu keiner der Trainingsklassen gehö
ren, liegen keine eindeutig einer Trainingsklasse zuzuordnenden Muster der Aktivierun
gen der Ausgangsneuronen vor. Die Aktivierungen zeigen aber eine für jede Testobjekt
gruppe charakteristische Verteilung. Für die Testobjektgruppe b=2 dominiert noch die
Aktivierung ω1, die Aktivierung ω2 zur Trainingsklasse k=2 zeigt jedoch einen ω1 nahe
kommenden Wert, für b=4 ist die Situation umgekehrt und für b=3 sind die Aktivierun
gen ω1 und ω2 annähernd gleich groß. Die anderen Aktivierungen ω3 und ω4 sind demge
genüber in allen Testobjektgruppen gering. In dem gegebenen einfachen Beispiel mit
den schrittweise gesteigerten Geschwindigkeiten lassen sich die Verhältnisse der Akti
vierungen ω1 und ω2 anschaulich zur Zuordnung einer neuen Geschwindigkeit durch
Interpolation zwischen den trainierten Geschwindigkeiten der Trainingsklassen k=1 und
k=2 interpretieren.
Bei dem in Fig. 4 skizzierten Beispiel sind wiederum fünf Bildfolgen mit c=1 bis c=5 ent
sprechend fünf Testobjektgruppen gegeben. In diesem Beispiel ist die Geschwindigkeit
der Objektbewegung in allen Testobjektgruppen gleich, die Form der Testobjektgruppen
ist aber durch schrittweises Verändern des Hauptachsenverhältnisses der ellipsenför
migen Objekte zwischen der Objektform der Trainingsklasse k=1 und der Trainingsklas
se k=3 variiert, wobei die Testobjektgruppe mit c=3 Kreise als Sonderform von Ellipsen
aufweist. Die Testobjektgruppe c=1 enthalte Bildfolgen der Trainingsklasse k=1, die
Testobjektgruppe c=5 Bildfolgen der Trainingsklasse k=3. In diesen beiden Testobjekt
gruppen erlauben die Aktivierungen der Ausgangsneuronen wie im unteren Teil der Fig.
4 eingetragen eine eindeutige Zuordnung der Testobjekte zu einer Trainingsklasse. Die
Symbole im unteren Teil der Fig. 4 sind dieselben wie in Fig. 3. Für die mittleren
Testobjektgruppen c=2 bis c=4 ergibt sich ähnlich der Fig. 3 keine eindeutige Zuord
nung zu einer Trainingsklasse, aber eine charakteristische Verteilung der mehreren
Ausgangsaktivierungen, wobei wieder anschaulich die Größenverhältnisse der größten
Aktivierungen als Interpolationsschritte der Hauptachsenverhältnisse zwischen den
Trainingsklassen k=1 und k=3 interpretiert werden können.
Das erfindungsgemäße Verfahren zeigt sich damit geeignet, auch nach Abschluß der
Trainingsphase noch neue Objekte anhand von charakteristischen Mustern der Aus
gangsaktivierungen erlernen zu können.
Bei den vorstehend erläuterten Beispielen wurden gezielt anschauliche einfache Situa
tionen, Bewegungen und Objektformen gewählt. Das Verfahren ist aber insbesondere
dadurch vorteilhaft, daß es nicht auf Anwendungen und Netzwerkstrukturen beschränkt
ist, bei welchen Zwischenebenen oder Ausgangsaktivierungen des Netzwerks bildhaft
anschaulich sind. Vielmehr liegt eine Stärke des Verfahrens gerade darin, daß durch die
weitgehend selbständige Adaption der Gewichtsfaktoren auch bildlich gänzlich unver
ständliche, aber für die Erkennung optimierte Aktivierungsmuster und Gewichtsmuster
möglich sind.
Neben der Fähigkeit zur Erkennung neuer, nicht trainierter Objekte zeigt das Verfahren
auch eine hohe Robustheit gegenüber Schwankungen der Bewegung und der Form von
Objekten im Verlauf der Bildfolgen. Dabei erweist es sich als vorteilhaft, wenn solche
Schwankungen bereits in den Trainingsfolgen auftreten. Die Variante der Netzwerk-
Architektur mit kleineren rezeptiven Feldern in der ersten Ebene und größeren Raum-
Zeit-Bereichen in der zweiten Ebene zeigt sich dabei in diesem speziellen Beispiel der
Variante mit räumlich großen rezeptiven Feldern in der ersten Ebene überlegen. Die Fig.
5 zeigt für die vier Objektklassen der Fig. 2 Bewegungsabläufe mit starken Bewegungs
schwankungen, welche aber die Erkennungsrate nicht stark beeinträchtigen, wenn be
reits in der Trainingsphase Trainingsobjekte mit deutlichen Bewegungsschwankungen
vorgegeben wurden.
Die Erfindung ist nicht auf die im Detail beschriebenen Merkmale beschränkt, sondern
im Rahmen fachmännischen Könnens auf mancherlei Weise abwandelbar. Insbesondere
können auch dreidimensionale Bilddaten als Grundlage dienen, wobei dann auch der
Raum-Zeit-Bereich der ersten Ebene und evtl. die räumlich und zeitlich rezeptiven Fel
der um eine Dimension erweitert werden. Die Erfindung ist aufgrund ihrer vorteilhaften
Eigenschaften insbesondere geeignet zum Einsatz bei der automatischen Interpretation
von Verkehrssituationen mittels eines Bildsensors aus einem Kraftfahrzeug heraus und
dabei vor allem zur Erkennung und Unterscheidung von Fußgängern, Radfahrern oder
anderen Fahrzeugen einschließlich deren Geschwindigkeit.
[1] C. Goerick, D. Noll, M. Werner. Artificial Neural Networks in Real Time Car Detection
and Tracking Applications. In Pattern Recognition Letters,
volume 17, pages 335-343, 1996.
[2] E. D. Dickmanns, R. Behringer, C. Brüdigam, D. Dickmanns, F. Thomanek, V. v. Holt. An all-transputer visual Autobahn-Autopilot/Copilot. In 4th
[2] E. D. Dickmanns, R. Behringer, C. Brüdigam, D. Dickmanns, F. Thomanek, V. v. Holt. An all-transputer visual Autobahn-Autopilot/Copilot. In 4th
int. Conference on Com
puter Vision, pages 608-615, 1993.
[3] T. Kolb. Fahrzeugklassifikation mit neuronalen Netzen. Diplomarbeit, Universität Ulm, 1995.
[4] S.A. Niyogi and E.H. Adelson. Analyzing and recognizing walking figures in xyt. In IEEE Conference on Computer Vision and Pattern Recognition, pages 469-474,1994.
[5] S.A. Niyogi and E.H. Adelson. Analyzing gait with spatiotemporal surfaces. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 64-69, Austin, 1994.
[6] J. Segan and S. Pingali. A camera-based system for tracking people in real time. In International Conference on Pattern Recognition, pages 63-67, Vienna, 1996.
[7] S. Shio and J. Sklansky. Segmentation of people in motion. In IEEE Workshop on Visual Motion, pages 325-332, 1991.
[8] R. Polana and R. Nelson. Low level recognition of human motion. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 77-82, Austin, 1994.
[3] T. Kolb. Fahrzeugklassifikation mit neuronalen Netzen. Diplomarbeit, Universität Ulm, 1995.
[4] S.A. Niyogi and E.H. Adelson. Analyzing and recognizing walking figures in xyt. In IEEE Conference on Computer Vision and Pattern Recognition, pages 469-474,1994.
[5] S.A. Niyogi and E.H. Adelson. Analyzing gait with spatiotemporal surfaces. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 64-69, Austin, 1994.
[6] J. Segan and S. Pingali. A camera-based system for tracking people in real time. In International Conference on Pattern Recognition, pages 63-67, Vienna, 1996.
[7] S. Shio and J. Sklansky. Segmentation of people in motion. In IEEE Workshop on Visual Motion, pages 325-332, 1991.
[8] R. Polana and R. Nelson. Low level recognition of human motion. In IEEE Workshop on Motion of Non-Rigid and Articulated Objects, pages 77-82, Austin, 1994.
Claims (14)
1. Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder nach dem Prin
zip neuronaler Netzwerke mit Zeitverzögerung (Time Delay Neural Network, TDNN),
bei welchem
- a) die erste Neuron-Ebene des Netzwerks die Bilddaten mehrerer zeitlich auf einanderfolgender Bilder enthält
- b) die zweite Neuron-Ebene über einen oder mehrere erste Zweige mit der er sten Ebene verknüpft ist,
- c) jedem ersten Zweig ein Satz von räumlich-zeitlichen rezeptiven ersten Fel dern aus dem Raum-Zeit-Bereich der Bilddaten zugeordnet ist,
- d) Gewichte der rezeptiven Felder anhand von Trainings-Bildfolgen adaptiv ein gestellt werden, und
- e) aus dem Aktivierungsmuster der Ausgangsneuronen des Netzwerks eine Aussage über Art und Bewegung eines Objekts ableitbar ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die rezeptiven Felder ei
nes ersten Zweiges räumlich und/oder zeitlich überlappend gewählt werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Überlappung in den
einzelnen Dimensionen mindestens gleich der halben Ausdehnung der rezeptiven
Felder in der jeweiligen Dimension ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Aus
dehnung der rezeptiven Felder in wenigstens einer Dimension kleiner als zwei Drittel
der Ausdehnung des Raum-Zeit-Bereichs in der jeweiligen Dimension ist.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die rezeptiven Felder eines ersten Zweiges gleiche Form und Größe im Raum-Zeit-
Bereich der ersten Ebene aufweisen.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß auf die rezeptiven Felder
eines Zweiges dieselben Muster von Gewichtsfaktoren angewandt werden.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
für die Gewichtsfaktoren verschiedener Zweige vorgegebene Muster von Initialwer
ten für die Trainingsphase nicht korreliert sind.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die rezeptiven Felder in dem mehrdimensionalen Raum-Zeit-Bereich der ersten Ebe
ne geschlossene Teilbereiche bilden.
9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß die re
zeptiven Felder eines Zweigs um innerhalb einer Dimension gleiche Schrittweiten
gegeneinander versetzt sind.
10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß für Übergänge zwischen höheren Ebenen des neuronalen Netzwerks räumlich
vollständig verbundene zeitlich rezeptive Felder gewählt werden.
11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß die Bilddaten räumlich zweidimensional vorgegeben werden.
12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß in einem Vorverarbeitungsschritt ein Bildausschnitt aus einem größeren Ge
samtbild ausgewählt wird (Vorsegmentierung).
13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß das Netzwerk für mehrere verschiedene Objekte und/oder mehrere verschiede
ne Bewegungsformen so dimensioniert und trainiert wird, daß jeder diskreten Ob
jekt-Bewegungsform-Kombination ein Ausgangs-Neuron zugeordnet ist, und daß für
neue Objekte und/oder Bewegungsformen charakteristische verteilte Aktivierungen
der Ausgangsneuronen ermittelt werden.
14. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch seine
Anwendung in einem Kraftfahrzeug zur Objekterkennung in einer Verkehrssituation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19802261A DE19802261A1 (de) | 1998-01-22 | 1998-01-22 | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19802261A DE19802261A1 (de) | 1998-01-22 | 1998-01-22 | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19802261A1 true DE19802261A1 (de) | 1999-07-29 |
Family
ID=7855307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19802261A Withdrawn DE19802261A1 (de) | 1998-01-22 | 1998-01-22 | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19802261A1 (de) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19942223A1 (de) * | 1999-09-03 | 2001-03-15 | Daimler Chrysler Ag | Klassifikationsverfahren mit Rückweisungsklasse |
DE10025678A1 (de) * | 2000-05-24 | 2001-12-20 | Daimler Chrysler Ag | Kamerabasiertes Precrash-Erkennungssystem |
DE10110038A1 (de) * | 2001-03-02 | 2002-09-19 | Daimler Chrysler Ag | Verfahren zur autonomen Adaption eines Klassifikators |
DE102017210317A1 (de) | 2017-06-20 | 2018-12-20 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste |
DE102017210316A1 (de) | 2017-06-20 | 2018-12-20 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste |
DE102017223206A1 (de) * | 2017-12-19 | 2019-06-19 | Robert Bosch Gmbh | Niederdimensionale Ermittlung von abgegrenzten Bereichen und Bewegungspfaden |
DE102021209840A1 (de) | 2021-09-07 | 2023-03-09 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Betreiben eines Zugfahrzeugs mit einem Anhänger |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0488003A2 (de) * | 1990-11-26 | 1992-06-03 | RCA Thomson Licensing Corporation | Neuronale Netzwerke für Videosignalverarbeitung |
US5263107A (en) * | 1991-01-31 | 1993-11-16 | Sharp Kabushiki Kaisha | Receptive field neural network with shift-invariant pattern recognition |
DE4436692A1 (de) * | 1993-10-14 | 1995-04-20 | Ricoh Kk | Trainingssystem für ein Spracherkennungssystem |
US5440651A (en) * | 1991-06-12 | 1995-08-08 | Microelectronics And Computer Technology Corp. | Pattern recognition neural network |
US5537511A (en) * | 1994-10-18 | 1996-07-16 | The United States Of America As Represented By The Secretary Of The Navy | Neural network based data fusion system for source localization |
DE19636028C1 (de) * | 1996-09-05 | 1997-11-20 | Daimler Benz Ag | Verfahren zur Stereobild-Objektdetektion |
-
1998
- 1998-01-22 DE DE19802261A patent/DE19802261A1/de not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0488003A2 (de) * | 1990-11-26 | 1992-06-03 | RCA Thomson Licensing Corporation | Neuronale Netzwerke für Videosignalverarbeitung |
US5263107A (en) * | 1991-01-31 | 1993-11-16 | Sharp Kabushiki Kaisha | Receptive field neural network with shift-invariant pattern recognition |
US5440651A (en) * | 1991-06-12 | 1995-08-08 | Microelectronics And Computer Technology Corp. | Pattern recognition neural network |
DE4436692A1 (de) * | 1993-10-14 | 1995-04-20 | Ricoh Kk | Trainingssystem für ein Spracherkennungssystem |
US5537511A (en) * | 1994-10-18 | 1996-07-16 | The United States Of America As Represented By The Secretary Of The Navy | Neural network based data fusion system for source localization |
DE19636028C1 (de) * | 1996-09-05 | 1997-11-20 | Daimler Benz Ag | Verfahren zur Stereobild-Objektdetektion |
Non-Patent Citations (4)
Title |
---|
ANGUITA,Davide, et.al.: Neural structures for visual motion tracking. In: Machine Vision and Applications, 1995, H.5, S.275-288 * |
COTTRELL,Marie, et.al.: Neural Modeling for Time Series: A Statistical Stepwise Method for Weight Elimination. In: IEEE Transactions On Neural Networks, Vol.6, No.6, Nov. 1995, S.1355- S.1364 * |
KANOU,Naoyuki, et.al.: Composition of Messages on Winking by ALS Patients. In: Proc. of Sixth International Conference on Human Computer Interaction 1995, Elsevier 1995, S.911-916 * |
MAZO,M., et.al.: Road Following By Artificial Vision Using Neural Network. In: IFAC Artificial Intelligence in Real Time, 1994, S.209-214 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19942223A1 (de) * | 1999-09-03 | 2001-03-15 | Daimler Chrysler Ag | Klassifikationsverfahren mit Rückweisungsklasse |
DE19942223C2 (de) * | 1999-09-03 | 2003-03-13 | Daimler Chrysler Ag | Klassifikationsverfahren mit Rückweisungsklasse |
US6690829B1 (en) | 1999-09-03 | 2004-02-10 | Daimlerchrysler Ag | Classification system with reject class |
DE10025678A1 (de) * | 2000-05-24 | 2001-12-20 | Daimler Chrysler Ag | Kamerabasiertes Precrash-Erkennungssystem |
US6838980B2 (en) | 2000-05-24 | 2005-01-04 | Daimlerchrysler Ag | Camera-based precrash detection system |
DE10025678B4 (de) * | 2000-05-24 | 2006-10-19 | Daimlerchrysler Ag | Kamerabasiertes Precrash-Erkennungssystem |
DE10110038A1 (de) * | 2001-03-02 | 2002-09-19 | Daimler Chrysler Ag | Verfahren zur autonomen Adaption eines Klassifikators |
DE10110038B4 (de) * | 2001-03-02 | 2005-10-06 | Daimlerchrysler Ag | Verfahren zur autonomen Adaption eines Klassifikators |
DE102017210317A1 (de) | 2017-06-20 | 2018-12-20 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste |
DE102017210316A1 (de) | 2017-06-20 | 2018-12-20 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste |
WO2018234250A1 (de) | 2017-06-20 | 2018-12-27 | Volkswagen Aktiengesellschaft | Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste |
WO2018234251A1 (de) | 2017-06-20 | 2018-12-27 | Volkswagen Aktiengesellschaft | Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste |
US11430267B2 (en) | 2017-06-20 | 2022-08-30 | Volkswagen Aktiengesellschaft | Method and device for detecting a user input on the basis of a gesture |
US11644901B2 (en) | 2017-06-20 | 2023-05-09 | Volkswagen Aktiengesellschaft | Method and device for detecting a user input on the basis of a gesture |
DE102017223206A1 (de) * | 2017-12-19 | 2019-06-19 | Robert Bosch Gmbh | Niederdimensionale Ermittlung von abgegrenzten Bereichen und Bewegungspfaden |
US11263465B2 (en) | 2017-12-19 | 2022-03-01 | Robert Bosch Gmbh | Low-dimensional ascertaining of delimited regions and motion paths |
DE102021209840A1 (de) | 2021-09-07 | 2023-03-09 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Betreiben eines Zugfahrzeugs mit einem Anhänger |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60313941T2 (de) | Personendetektion durch Gesichtsdetektion und Bewegungsdetektion | |
DE102006057552B4 (de) | System und Verfahren zur Messung des Abstands eines vorausfahrenden Fahrzeugs | |
DE19955919C1 (de) | Verfahren zur Erkennung von Objekten in Bildern auf der Bildpixelebene | |
EP2005361A1 (de) | Multisensorieller hypothesen-basierter objektdetektor und objektverfolger | |
EP3291172B1 (de) | Verfahren zur ermittlung von ergebnisbilddaten | |
EP0973121A2 (de) | Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr | |
DE102013019138A1 (de) | Verfahren zum Erkennen eines verdeckten Zustands einer Kamera, Kamerasystem und Kraftfahrzeug | |
DE102007013664A1 (de) | Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger | |
DE102012000459A1 (de) | Verfahren zur Objektdetektion | |
AT521647A1 (de) | Verfahren und System zur Datenaufbereitung, zum Trainieren eines künstlichen neuronalen Netzes und zum Analysieren von Sensordaten | |
DE19802261A1 (de) | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder | |
DE102008036219A1 (de) | Verfahren zur Erkennung von Objekten im Umfeld eines Fahrzeugs | |
DE19942223C2 (de) | Klassifikationsverfahren mit Rückweisungsklasse | |
DE102019204602B4 (de) | Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten | |
DE102018132627A1 (de) | Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt | |
DE102018201909A1 (de) | Verfahren und Vorrichtung zur Objekterkennung | |
DE102022204722A1 (de) | Verfahren zum Trainieren eines neuronalen Konvolutionsnetzwerks | |
DE102018109680A1 (de) | Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt | |
DE10252731A1 (de) | Verfahren zur Überwachung einer Szene mit wenigstens einem bildgebenden Sensor | |
DE102007025620A1 (de) | Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichtkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm | |
EP2399241B1 (de) | Verfahren zur entropie-basierten bestimmung von objektrandkurven | |
DE10136649B4 (de) | Verfahren und Vorrichtung zur Objekterkennung von sich bewegenden Kraftfahrzeugen | |
DE102019207575A1 (de) | Verfahren zum Beurteilen einer funktionsspezifischen Robustheit eines Neuronalen Netzes | |
DE102018126826A1 (de) | Verfahren zum Bestimmen eines Konfidenzwerts für eine Erfassungsqualität einer Fahrbahnmarkierungsgrenze, Fahrerassistenzsystem sowie Kraftfahrzeug | |
DE4404775C1 (de) | Verfahren zum Betrieb eines hybriden neuronalen Netzwerks zur automatischen Objekterkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8127 | New person/name/address of the applicant |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8139 | Disposal/non-payment of the annual fee |