-
Die vorliegende Erfindung betrifft die Verfolgung von Objekten in Bildsequenzen, die beispielsweise eine Verkehrssituation darstellen können.
-
Stand der Technik
-
Damit sich ein Fahrzeug zumindest teilweise automatisiert im Straßenverkehr bewegen kann, ist es erforderlich, das Umfeld des Fahrzeugs zu erfassen und Gegenmaßnahmen einzuleiten, falls eine Kollision mit einem Objekt im Umfeld des Fahrzeugs droht. Auch die Erstellung einer Umfeld-Repräsentation und Lokalisierung sind für sicheres automatisiertes Fahren notwendig.
-
Typischerweise wird das Umfeld des Fahrzeugs mit mindestens einem Sensor beobachtet, und aus den aufgenommenen Messdaten werden die daraus ersichtlichen Objekte mit einem trainierten Machine Learning-Modell klassifiziert. Für bewegte Objekte ist es ebenfalls wichtig, die Trajektorie zu kennen, die das Objekt verfolgt. Die
DE 10 2017 223 206 A1 offenbart eine Vorrichtung, die mittels eines künstlichen neuronalen Netzwerks linienförmige Trajektorien von Objekten ermittelt.
-
Auch im Rahmen der Videoüberwachung von Bereichen, wie etwa Flughäfen, ist eine Verfolgung von Objekten wichtig.
-
Offenbarung der Erfindung
-
Im Rahmen der Erfindung wurde ein Verfahren zur Verfolgung und/oder Charakterisierung mehrerer Objekte in einer Sequenz aus Bildern entwickelt.
-
Der Begriff des Bildes ist nicht auf Kamera-Standbilder beschränkt, sondern umfasst beispielsweise auch Videobilder, Radarbilder, Lidar-Bilder oder Wärmebilder.
-
Das Verfahren beginnt damit, dass jedem zu verfolgenden Objekt ein neuronales Netzwerk zugeordnet wird. Beispielsweise können zu Beginn der Bildsequenz die im Bild enthaltenen verschiedenen Objekte mit einer beliebigen Methode, etwa durch Klassifikation und/oder (etwa semantische) Segmentierung, erkannt werden. Auf jedes dieser Objekte kann dann jeweils ein neuronales Netzwerk nach Art eines „Agenten“ angesetzt werden. Ein jedes neuronales Netzwerk kümmert sich somit nur darum, das ihm zugeordnete Objekt zu verfolgen, zu identifizieren, und/oder weitere Informationen über das Verhalten oder andere gesuchte Eigenschaften dieses Objekts zu gewinnen.
-
Es wird ein für alle neuronalen Netzwerke gemeinsamer Speicher bereitgestellt. Weiterhin wird für jedes neuronales Netzwerk jeweils ein lokaler Speicher bereitgestellt, auf den nur dieses jeweilige neuronale Netzwerk Zugriff hat.
-
Jedem neuronalen Netzwerk werden Bilder aus der Sequenz, und/oder Ausschnitte dieser Bilder, zugeführt. Dabei können insbesondere beispielsweise die Bildausschnitte so gewählt werden, dass sie jeweils vorher identifizierte Objekte enthalten. Während der Verarbeitung jedes Bildes und/oder Bildausschnittes durch eines der neuronalen Netzwerke wird aus mindestens einem Verarbeitungsprodukt dieses neuronalen Netzwerks ein Adressvektor erzeugt. Anhand dieses Adressvektors wird mindestens ein weiteres Verarbeitungsprodukt des neuronalen Netzwerks in den gemeinsamen Speicher, und/oder in den lokalen Speicher, geschrieben. Alternativ oder in Kombination hierzu werden Daten aus diesem gemeinsamen Speicher, und/oder aus dem lokalen Speicher, ausgelesen und durch das neuronale Netzwerk weiterverarbeitet.
-
Als Ausgabe liefert jedes neuronale Netzwerk Positionen des jeweils zugeordneten Objekts in den ihm zugeführten Bildern bzw. Bildausschnitten, und/oder Informationen über das Verhalten oder andere gesuchte Eigenschaften des jeweils zugeordneten Objekts.
-
Beispielsweise kann ausgehend davon, dass ein Objekt zu Beginn der Bildsequenz bloß als nicht näher bezeichnetes separates Objekt erkannt wurde, dieses Objekt im Laufe der Bildsequenz schrittweise immer genauer identifiziert werden. So kann etwa ein Fußgänger zunächst überhaupt als Fußgänger, dann als Kind und schließlich als Junge oder Mädchen erkannt werden.
-
Die Analyse des Verhaltens des Objekts muss nicht auf die Trajektorie des Objekts beschränkt sein, sondern kann beispielsweise auch Gestik, Mimik und andere Verhaltensweisen eines Fußgängers umfassen. Auch solche Verhaltensweisen können beispielsweise für eine Prognose herangezogen werden, ob der Fußgänger auf dem Gehweg bleiben oder etwa einen Versuch unternehmen wird, die Fahrbahn zu überqueren.
-
Es wurde erkannt, dass die gleichzeitige Verfolgung mehrerer Objekte in einer Bildsequenz insbesondere bei der Analyse von Verkehrssituationen schwierig ist. Zum einen können in solchen Szenen einzelne Objekte zeitweise ganz oder teilweise verdeckt sein. Zum anderen können sich die Trajektorien verschiedener Objekte, wie etwa verschiedener Fußgänger in einer Menschenansammlung, überlappen. Daher ist es vorteilhaft, ein neuronales Netzwerk auf jedes zu verfolgende Objekt anzusetzen. Wird nun beispielsweise ein Fußgänger kurzzeitig verdeckt, wirkt sich dies nicht auf die Verfolgung der übrigen Fußgänger aus, die noch voll sichtbar sind.
-
Das individuelle Verfolgen von Objekten wird jedoch bislang damit erkauft, dass die Information über den Gesamtkontext der Situation verlorengeht. Durch den gemeinsamen Speicher wird eine Möglichkeit geschaffen, diesen Gesamtkontext zu bewahren. In dem genannten Beispiel einer Menschenansammlung, oder auch in einer Fahrzeugkolonne, sind die Bewegungen von Verkehrsteilnehmern nicht völlig unabhängig, sondern korreliert. Wenn eine solche Korrelation berücksichtigt wird, kann die Genauigkeit der mit jedem neuronalen Netzwerk ermittelten Ausgabe weiter verbessert werden.
-
Es ist auch möglich, dass dasjenige neuronale Netzwerk, das ein Verarbeitungsprodukt in dem gemeinsamen Speicher hinterlegt hat, dieses Verarbeitungsprodukt zu einem späteren Zeitpunkt selbst wieder abruft. Auf diese Weise kann sich ein jedes neuronales Netzwerk beispielsweise bei der Verfolgung eines Objekts eine Vorgeschichte der Bewegung merken.
-
Bislang war die Fähigkeit neuronaler Netzwerke, durch eine konkrete Anwendung vorgegebene Variablen und Datenstrukturen abzubilden sowie Daten über einen längeren Zeitraum zu speichern, in ihrer Flexibilität eingeschränkt. So war es beispielsweise schwierig, Informationen zwischen verschiedenen neuronalen Netzwerken zu teilen.
-
Unabhängig von diesem Informationsaustausch ist ein grundsätzlicher Bedarf für ein jedes neuronales Netzwerk gegeben, Informationen schon deshalb längerfristig zu speichern, weil dieses neuronale Netzwerk sie später noch einmal brauchen kann. Dieser Bedarf ist unabhängig davon, ob die gleiche Information auch für andere neuronale Netzwerke von Interesse ist. So wird beispielsweise die zuvor erwähnte schrittweise Charakterisierung eines Objekts erst als Fußgänger, dann als Kind und schließlich als Junge oder Mädchen erleichtert, wenn sich das neuronale Netzwerk die bereits erarbeitete Information merken kann.
-
Um diesen Bedarf abzudecken, wird zusätzlich der lokale Speicher für jedes neuronale Netzwerk bereitgestellt. Damit kann das neuronale Netzwerk lernen, Information, die nur für dieses neuronale Netzwerk selbst relevant ist, im lokalen Speicher zu hinterlegen und Information von allgemeinem Interesse in dem gemeinsamen Speicher zu hinterlegen. Das Speichern von Information, die nur für ein einziges neuronales Netzwerk relevant ist, wird also nicht damit erkauft, dass die Information von allgemeinem Interesse in dem gemeinsamen Speicher „verwässert“ wird.
-
Insgesamt kann sich somit beim gemeinsamen Training der mehreren neuronalen Netzwerke sowohl ein Merken von Information, die jeweils für ein einziges neuronales Netzwerk relevant ist, als auch ein Informationsaustausch zwischen verschiedenen neuronalen Netzwerken herausbilden. Dabei muss nicht vorab bekannt sein, welche in einem neuronalen Netzwerk erarbeiteten Informationen denn jetzt von diesem neuronalen Netzwerk später noch einmal gebraucht werden und welche Informationen für welche anderen neuronalen Netzwerke hilfreich sein können.
-
Die Quintessenz des Verfahrens ist, dass einerseits das Merken von Informationen über einen längeren Zeitraum die Genauigkeit der Verfolgung und Charakterisierung von Objekten verbessert und andererseits die Verfolgungen unabhängiger Objekte in einer Szenerie nicht so unabhängig voneinander sind wie dies zunächst den Anschein hat. Stattdessen gibt es Synergieeffekte, die mit dem gemeinsamen Speicher ausgenutzt werden können, um so genauere Informationen über alle vorhandenen Objekte und ihre Bewegung zu gewinnen. Dies trifft insbesondere auf Verkehrssituationen zu.
-
In einer besonders vorteilhaften Ausgestaltung ist der gemeinsame Speicher, und/oder mindestens ein lokaler Speicher eines neuronalen Netzwerks, dazu ausgebildet, einen Adressvektor von Adresskomponenten durch differenzierbare Operationen auf eine oder mehrere Speicherstellen abzubilden und Daten aus diesen Speicherstellen zu lesen oder in diese Speicherstellen zu schreiben. Der gemeinsame Speicher kann insbesondere beispielsweise in Kombination mit jedem einzelnen neuronalen Netzwerk einen sogenannten „differentiable neural computer“, DNC, bilden. Die neuronalen Netzwerke werden dann zu einem Verbund aus vielen solchen DNCs, die den Speicher gemeinsam haben. Weiterhin kann auch ein lokaler Speicher in Kombination mit dem neuronalen Netzwerk, zu dem er gehört, einen „differential neural computer“ bilden.
-
Die Verwendung eines Speichers, der gemeinsam mit einem neuronalen Netzwerk einen „diffferentiable neural computer“ bildet, ist besonders vorteilhaft, weil der Austausch relevanter Informationen über den gemeinsamen Speicher dann nahtlos in das Training der jeweiligen neuronalen Netze integriert werden kann. Die Differenzierbarkeit der Operationen, mit denen der Adressvektor ausgewertet wird, sorgt dann dafür, dass beim überwachten Lernen der aus einem Vergleich der Ausgabe mit vorab bekannter „ground truth“ ermittelte Fehler in Form von Gradienten der Parameter, die das Verhalten des jeweiligen neuronalen Netzwerks charakterisieren, durch das jeweilige neuronale Netzwerk zurückpropagiert werden kann. Der Zugriff auf den gemeinsamen Speicher, bzw. auf den lokalen Speicher, wirkt also nicht als „Staustufe“, die in rückwärtiger Richtung nicht überwunden werden kann.
-
Eine differenzierbare Auswertung des Adressvektors ist auch vorteilhaft für das graduelle Annähern an einen optimalen Zustand während des Trainings. Wenn beispielsweise ein erstes neuronales Netzwerk eine Information in dem gemeinsamen Speicher hinterlegt, die für die Verfolgung eines anderen Objekts durch ein zweites neuronales Netzwerk hilfreich sein kann, dann wird die mit einer Kostenfunktion (Loss-Funktion) gemessene Leistung des zweiten neuronalen Netzwerks umso besser, je mehr von dieser Information von dem zweiten neuronalen Netzwerk bei der weiteren Verarbeitung berücksichtigt wird. Bedingt durch die differenzierbare Auswertung des Adressvektors im Speicher gelangt bereits ein Anteil der besagten nützlichen Information in das zweite neuronale Netzwerk, wenn die Speicheradresse, von der das zweite neuronale Netzwerk Daten abruft, sich lediglich derjenigen Speicheradresse annähert, an der das erste neuronale Netzwerk die nützliche Information hinterlegt hat. Somit gibt es beim Training ein Feedback dahingehend, dass es die Leistung verbessert, wenn sich die vom zweiten neuronalen Netzwerk abgerufene Adresse weiter an die vom ersten neuronalen Netzwerk geschriebene Adresse annähert. Auch diese geschriebene Adresse kann sich bei der Optimierung ebenfalls bewegen.
-
Wenn hingegen die Operationen, mit denen der Adressvektor ausgewertet wird, nicht differenzierbar sind, können diese Operationen während des Trainings beispielsweise mit differenzierbaren Funktionen approximiert werden. Über diese Approximationen können dann Gradienten von Parametern zurückpropagiert werden. Ein Beispiel für eine solche Approximation ist eine Sigmoid-Funktion, mit der eine binäre Diskretisierung auf Werte von 0 und 1 in differenzierbarer Form nachgebildet werden kann. In der obigen Analogie der „Staustufe“ ist die Approximation die „Fischtreppe“ für die Gradienten während des Trainings.
-
In einer besonders vorteilhaften Ausgestaltung repräsentiert das Verarbeitungsprodukt, aus dem der Adressvektor erzeugt wird, an dem zu verfolgenden Objekt erkannte visuelle Merkmale. Beispielsweise kann das neuronale Netzwerk eine Abfolge aus Faltungsschichten umfassen, in denen jeweils durch das Anwenden eines oder mehrerer Filterkerne eine oder mehrere Merkmalskarten mit jeweils deutlich verminderter Dimensionalität erzeugt werden. Die Merkmalskarten in der ersten Faltungsschicht können dann das Vorhandensein bestimmter visueller Grundmerkmale im Bild bzw. Bildausschnitt anzeigen, während die Merkmalskarten in weiteren Faltungsschichten das Vorhandensein komplexerer visueller Merkmale anzeigen.
-
Der gemeinsame Speicher, und/oder mindestens ein lokaler Speicher, kann insbesondere beispielsweise als assoziativer Speicher ausgebildet sein, in dem Daten in Assoziation mit Verarbeitungsprodukten der neuronalen Netzwerke ablegbar sind. Dies ist ein Stück weit analog zu Datenbanken, die einem bestimmten Schlüssel (hier: dem Verarbeitungsprodukt) einen bestimmten Wert zuordnen. Eine solche Struktur setzt zunächst nicht voraus, dass diejenigen Informationen, deren längerfristiges Merken und/oder deren Austausch zwischen den neuronalen Netzwerken besonders vorteilhaft ist, vorab bekannt sind. Wenn jedoch entsprechende Hinweise gleich welcher Art vorab bekannt sind, so lassen sich diese nutzen. Beispielsweise können die neuronalen Netzwerke untereinander austauschen, um welchen Typ von Objekt es sich bei dem von ihnen verfolgten Objekt jeweils handelt, und/oder welche konkrete Instanz von mehreren vorhandenen Objekten dieses Typs sie jeweils verfolgen. Ein einzelnes neuronales Netzwerk kann beispielsweise schrittweise Fortschritte bei der immer genaueren Charakterisierung (Fußgänger - Kind - Junge oder Mädchen) in assoziativer Form in seinem lokalen Speicher hinterlegen.
-
Ein Vorwissen in dieser Hinsicht kann beispielsweise eingebracht werden, indem der assoziative Speicher im Rahmen der Bereitstellung mit Identifikationen von Objekten, und/oder mit Daten, die das Verhalten oder andere gesuchte Eigenschaften von Objekten charakterisieren, vorbelegt wird. Hierbei muss noch keine konkrete Assoziation zu irgendeinem Verarbeitungsprodukt vorgegeben werden. Die Identifikationen bzw. Daten können also beispielsweise einfach als Liste in dem assoziativen Speicher stehen, und wenn ein neuronales Netzwerk beispielsweise der Meinung ist, etwa ein Objekt mit einer bestimmten Identifikation erkannt zu haben, kann es diese im Speicher bereits vorhandene Identifikation mit einem bestimmten von diesem Netzwerk gebildeten Verarbeitungsprodukt assoziieren. Beispielsweise kann in einer Liste von 10 numerischen Identifikationen von 1 bis 10 für Objektinstanzen, auf die zunächst jeweils noch kein Verweis führt, von einem neuronalen Netzwerk vermerkt werden, dass bestimmte visuelle Merkmale ein starkes Anzeichen dafür sind, dass es sich bei dem verfolgten Objekt um Objektinstanz Nr. 6 handelt.
-
In einer weiteren vorteilhaften Ausgestaltung werden die aus dem gemeinsamen Speicher, und/oder aus mindestens einem lokalen Speicher, ausgelesenen Daten bei der Weiterverarbeitung durch ein neuronales Netzwerk mit mindestens einem Verarbeitungsprodukt dieses neuronalen Netzwerks zusammengeführt. Hiermit wird berücksichtigt, dass die Daten in dem gemeinsamen Speicher zwar Auskunft über Gemeinsamkeiten zwischen den verfolgten Objekten und über die beobachtete Szenerie als Ganzes enthalten können, aber die Verfolgung eines Objekts durch ein auf dieses Objekt angesetztes neuronales Netzwerk nicht vollständig ersetzen können. Auch die Speicherung von Daten im lokalen Speicher bewirkt am meisten, wenn diese Daten später mit weiteren Verarbeitungsprodukten des neuronalen Netzwerks zusammengeführt werden. Ein wesentlicher Grund dafür, die Daten zunächst zu speichern und nicht sofort endgültig zu verarbeiten, kann darin bestehen, dass für diese endgültige Verarbeitung eben noch ein weiteres Verarbeitungsprodukt des neuronalen Netzwerks benötigt wird. Dies ist ein Stück weit vergleichbar damit, dass die „Memory“-Taste für die Speicherung von Zahlenwerten an einem Taschenrechner meistens verwendet wird, um mit den Zahlenwerten später weiterzurechnen, und nicht, um sich diese Zahlenwerte lediglich noch einmal anzuschauen.
-
In einer weiteren besonders vorteilhaften Ausgestaltung enthalten mindestens ein erstes und ein zweites neuronales Netzwerk zueinander korrespondierende Abfolgen von Schichten, in denen die jeweiligen Neuronen bzw. anderen Verarbeitungseinheiten des jeweiligen neuronalen Netzwerks organisiert sind. Hierbei schreibt das erste neuronale Netzwerk ein Verarbeitungsprodukt aus einer ersten Schicht in eine oder mehrere Speicherstellen des gemeinsamen Speichers. Das zweite neuronale Netzwerk liest Daten von dieser oder diesen Speicherstellen und verarbeitet sie in einer zweiten Schicht, die in der Abfolge auf die erste Schicht folgt, weiter. Hiermit wird die Weiterverwendung der Daten in dem zweiten neuronalen Netzwerk erleichtert, da die Daten genau in dem Format und in der Dimensionalität vorliegen, die von der zweiten Schicht benötigt wird.
-
Wenn beispielsweise in beiden neuronalen Netzwerken jeweils vorgesehen ist, dass die Ausgabe von Schicht Nr. 5 als Eingabe in Schicht Nr. 6 geführt wird, kann das erste neuronale Netzwerk ein in Schicht Nr. 5 gebildetes Verarbeitungsprodukt in dem gemeinsamen Speicher hinterlegen. Das zweite neuronale Netzwerk kann dann dieses Verarbeitungsprodukt aus dem gemeinsamen Speicher abrufen und, gegebenenfalls zusammengeführt mit einem in diesem zweiten neuronalen Netzwerk selbst generierten Verarbeitungsprodukt, seiner Schicht Nr. 6 zuführen.
-
Wie zuvor erläutert, kann insbesondere beispielsweise eine Bildsequenz mit Bildern einer Verkehrssituation, die mit mindestens einem von einem Fahrzeug mitgeführten Sensor aufgenommen wurden, gewählt werden. Gerade in Verkehrssituationen gibt es viele Objekte, die zwar voneinander unabhängig sind, deren Bewegungen aber zu einem gewissen Grade korreliert sind. Hierbei können dann insbesondere beispielsweise die Ausgaben der neuronalen Netzwerke zu einer Gesamtbeurteilung der Verkehrssituation zusammengeführt werden.
-
Aus den Ausgaben der neuronalen Netzwerke, und/oder aus der hieraus generierten Gesamtbeurteilung der Verkehrssituation, kann insbesondere beispielsweise ein Ansteuersignal für das Fahrzeug generiert werden. Anschließend kann das Fahrzeug mit diesem Ansteuersignal angesteuert werden. Auf Grund der verbesserten Genauigkeit, mit der die neuronalen Netzwerke jeweils Positionen, Informationen über das Verhalten oder sonstige Eigenschaften von Objekten ermitteln, ist dann die Wahrscheinlichkeit erhöht, dass die durch das Ansteuern des Fahrzeugs ausgelöste Aktion (etwa ein Ausweichmanöver oder eine Bremsung) der mit der Sequenz von Bildern beobachteten Verkehrssituation angemessen ist.
-
In einem weiteren Anwendungsbeispiel wird eine Sequenz mit Bildern gewählt, die bei der optischen Beobachtung eines überwachten Bereichs aufgenommen wurden. Indem die Positionen und/oder das Verhalten erkannter Objekte verfolgt werden, kann beispielsweise auf die Absichten von Personen geschlossen werden, die sich im überwachten Bereich aufhalten. So kann beispielsweise ein vorbeigehender Passant von einer Person unterschieden werden, die eine Örtlichkeit gezielt auskundschaftet.
-
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
-
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
-
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
-
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
-
Ausführungsbeispiele
-
Es zeigt:
- 1 Ausführungsbeispiel des Verfahrens 100 zur Verfolgung und/oder Charakterisierung von Objekten 2a-2c;
- 2 Beispielhafte Anwendung des Verfahrens 100 zur Verfolgung dreier Fußgänger 2a-2c in einer Sequenz aus Bildern 1.
-
1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Verfolgung und/oder Charakterisierung von Objekten 2a-2c anhand einer Sequenz von Bildern 1. In Schritt 105 wird optional eine Sequenz mit Bildern 1 einer Verkehrssituation gewählt. Die Bilder 1 wurden mit mindestens einem von einem Fahrzeug 50 mitgeführten Sensor 51 aufgenommen.
-
In Schritt 110 wird jedem zu verfolgenden Objekt 2a-2c ein neuronales Netzwerk 3a-3c zugeordnet. Wie zuvor erläutert, können beispielsweise die zu verfolgenden Objekte 2a-2c im ersten Bild 1 der Sequenz ausfindig gemacht werden, ohne dass hierbei analysiert wird, um welche Art von Objekt 2a-2c es sich im Einzelnen handelt.
-
In Schritt 120 wird ein für alle neuronalen Netzwerke 3a-3c gemeinsamer Speicher 4 mit Speicherstellen 4b bereitgestellt. Gemäß Block 121 kann dieser Speicher 4 bereits mit Identifikationen von Objekten 2a-2c, und/oder mit Daten, die das Verhalten oder andere gesuchte Eigenschaften von Objekten 2a-2c charakterisieren, vorbelegt werden.
-
In Schritt 125 wird für jedes neuronale Netzwerk 3a-3c jeweils ein lokaler Speicher 9a-9c bereitgestellt.
-
In Schritt 130 werden jedem neuronalen Netzwerk 3a-3c Bilder 1 aus der Sequenz, und/oder Ausschnitte aus diesen Bildern, zugeführt. Während der Verarbeitung jedes Bildes 1 bzw. Bildausschnitts durch eines der neuronalen Netzwerke 3a-3c wird in Schritt 140 aus mindestens einem Verarbeitungsprodukt 5a-5c dieses neuronalen Netzwerks 3a-3c ein Adressvektor 4a erzeugt. Dieser Adressvektor 4a wird durch den konstruktiven Aufbau des Speichers 4 durch differenzierbare Operationen auf Speicherstellen 4b abgebildet und kann auf zweierlei Weise genutzt werden.
-
In Schritt 150 wird anhand des Adressvektors 4a mindestens ein weiteres Verarbeitungsprodukt 6a-6c des neuronalen Netzwerks 3a-3c in den gemeinsamen Speicher 4, und/oder in den lokalen Speicher 9a-9c, geschrieben. Gemäß Block 151 kann dieses Verarbeitungsprodukt 6a-6c einer ersten Schicht eines ersten in Schichten organisierten neuronalen Netzwerks 3a stammen.
-
Alternativ oder auch in Kombination hierzu werden in Schritt 160 Daten 4c aus dem gemeinsamen Speicher 4, und/oder aus dem lokalen Speicher 9a-9c, ausgelesen, und diese Daten werden in Schritt 170 durch das neuronale Netzwerk 3a-3c weiterverarbeitet. Gemäß Block 171 kann dieses Weiterverarbeiten insbesondere beispielsweise beinhalten, die Daten 4c mit mindestens einem Verarbeitungsprodukt dieses neuronalen Netzwerks 3a-3c zusammenzuführen. Gemäß Block 172 kann die Weiterverarbeitung in einem zweiten neuronalen Netzwerk 3b in einer zweiten Schicht durchgeführt werden, die auf die erste Schicht folgt, aus der die Daten 4c gemäß Block 151 entnommen wurden.
-
In Schritt 180 liefert jedes neuronale Netzwerk 3a-3c als Ausgabe 7a-7c Positionen des jeweils zugeordneten Objekts 2a-2c in den ihm zugeführten Bildern 1 bzw. Bildausschnitten, und/oder Informationen über das Verhalten oder andere gesuchte Eigenschaften des jeweils zugeordneten Objekts 2a-2c.
-
In Schritt 190 können die Ausgaben 7a-7c der neuronalen Netzwerke 3a-3c zu einer Gesamtbeurteilung 8 der Verkehrssituation zusammengeführt werden.
-
In Schritt 191 kann aus den Ausgaben 7a-7c der neuronalen Netzwerke 3a-3c, und/oder aus der hieraus generierten Gesamtbeurteilung 8 der Verkehrssituation, ein Ansteuersignal 191a für das Fahrzeug 50 generiert werden. In Schritt 192 kann das Fahrzeug 50 mit diesem Ansteuersignal 191a angesteuert werden.
-
2 zeigt schematisch eine beispielhafte Anwendung des Verfahrens 100 zur Verfolgung dreier Fußgänger 2a-2c in einer Sequenz aus Bildern 1. In Antwort darauf, dass drei Objekte 2a-2c im ersten Bild 1 der Sequenz erkannt wurden, wird auf die Verfolgung und Charakterisierung jedes einzelnen Objekts 2a-2c ein separates neuronales Netzwerk 3a-3c abgestellt. Jedes dieser Netzwerke 3a-3c hat in diesem Beispiel die Aufgabe, aus einer Vorgeschichte der jeweiligen Trajektorie des ihm zugeordneten Fußgängers 2a-2c eine Vorhersage der künftigen Trajektorie dieses Fußgängers 2a-2c zu ermitteln und als Ausgabe 7a-7c bereitzustellen.
-
Um sich insbesondere die Vorgeschichte und frühere Vorhersagen merken zu können, verfügt jedes neuronale Netzwerk 3a-3c über einen lokalen Speicher 9a-9c, der jeweils Speicherstellen 4b aufweist und auf den nur das jeweilige neuronale Netzwerk 3a-3c Zugriff hat. Zusätzlich ist auch ein gemeinsamer Speicher 4 vorgesehen. Anhand von Verarbeitungsprodukten 5a-5c der neuronalen Netzwerke 3a-3c können Adressvektoren 4a gebildet werden, mit denen anschließend weitere Verarbeitungsprodukte 6a-6c in dem gemeinsamen Speicher 4 hinterlegt und/oder Daten 4c aus dem gemeinsamen Speicher 4 abgerufen werden können. Auf die lokalen Speicher 9a-9c der einzelnen neuronalen Netzwerke 3a-3c kann in genau der gleichen Weise zugegriffen werden. Dies ist in 2 aus Platzgründen nicht eingezeichnet.
-
In dem in 2 gezeigten Beispiel kann der gemeinsame Speicher 4 nicht nur von den neuronalen Netzwerken 3a-3c für den Datenaustausch untereinander genutzt werden, sondern auch übergeordnete Informationen liefern, die außerhalb der neuronalen Netzwerke 3a-3c weiterverwendet werden können. Wenn beispielsweise mehrere Objekte (hier: Fußgänger) 2a, 2b gleiche oder ähnliche Wege verfolgen, kann hieraus eine Information 10 über die statische Topologie der beobachteten Szene gewonnen werden. In dem in 2 gezeigten Beispiel ist ein Zebrastreifen der Grund dafür, warum sich die Trajektorien mehrerer Fußgänger an einer bestimmten Stelle bündeln. Weiterhin können beispielsweise Trajektorien erkennen lassen, dass plötzlich und ungeplant die Richtung gewechselt wurde und/oder dass ab einem bestimmten Zeitpunkt vermehrt Trajektorien auftreten, die bestimmte Orte umgehen. Dies kann eine Information 11 über dynamische Behinderungen liefern, wie hier eine Baustelle.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102017223206 A1 [0003]