-
Die Erfindung betrifft ein Verfahren und ein System zum Bestimmen einer kinematischen Eigenschaft eines Objekts sowie ein Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs. Die Erfindung betrifft weiterhin ein Kraftfahrzeug mit einem derartigen System zum Bestimmen einer kinematischen Eigenschaft eines Objekts.
-
Aus der
CN 105654130 A ist ein Erkennungssystem zum Erkennen komplexer Bildzeichensequenzen bekannt. Das System umfasst dabei ein faltendes neuronales Netz, welches Bildmerkmale extrahiert und an ein rekurrentes neuronales Netz ausgibt. Das rekurrente neuronale Netz erkennt vordere und hintere Teile chinesischer Schriftzeichen sowie Zahlen, Buchstaben und Satzzeichen.
-
Aus der
CN 105678292 A ist ein Identifikationssystem zum Identifizieren komplexer optischer Textsequenzen basierend auf einem faltenden und einem rekurrenten neuronalen Netz bekannt. Auch hier werden mittels des faltenden neuronalen Netzes Bildeigenschaften extrahiert und an das rekurrente neuronale Netz ausgegeben.
-
Die
US 2016/0275375 A1 beschreibt eine Objektdetektion und Klassifizierung. Dabei werden ein erstes und ein zweites Bild mit unterschiedlichen Sichtfeldern generiert. In dem Sichtfeld des ersten Bildes wird ein erstes Objekt detektiert und in dem Sichtfeld des zweiten Bildes wird ein zweites Objekt detektiert. Das erste Objekt wird mit dem zweiten Objekt korreliert basierend auf einer Beschreibung des ersten Objekts, einem zugeordneten Wahrscheinlichkeitswert oder einer Beschreibung des zweiten Objekts. Dabei kann für die Objektklassifizierung beispielsweise einen faltendes oder rekurrentes oder sonstiges künstliches neuronales Netz eingesetzt werden.
-
Für die Weiterentwicklung von Fahrerassistenzsystemen und automatisierten Fahrfunktionen von Kraftfahrzeugen wird eine immer weiter steigende Zahl von Informationen über eine Fahrzeugumgebung benötigt. Dazu wird heutzutage oftmals eine Kamera des Kraftfahrzeugs eingesetzt, welche für verschiedene Assistenzsysteme, wie etwa einen Spurhalteassistenten, eine Verkehrszeichenerkennung oder eine automatische Notbremsfunktion, genutzt werden kann. Dabei erfasst die Kamera verschiedene Objekte, wie etwa Fahrzeuge, Fußgänger, Verkehrszeichen, Fahrbahnmarkierungen oder Fahrbahnbegrenzungen, in ihrem Sichtfeld und gibt entsprechende Umgebungsdaten an andere Systeme oder Einrichtungen des Kraftfahrzeugs, beispielsweise Steuergeräte, weiter. Die erfassten Objekte können beispielweise mit neuronalen Netzen detektiert und/oder klassifiziert werden.
-
Aufgabe der vorliegenden Erfindung ist es, eine einfache und zuverlässige Bestimmung einer kinematischen Eigenschaft eines Objekts zu ermöglichen.
-
Diese Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in den abhängigen Patentansprüchen sowie in der nachfolgenden Beschreibung und der Zeichnung angegeben.
-
Bei einem erfindungsgemäßen Verfahren zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts werden zunächst Bilddaten erfasst, welche eine Sequenz von Einzelbildern umfassen. Die Einzelbilder bilden jeweils zumindest das Objekt zumindest teilweise ab. Die Bilddaten können also beispielsweise Ausgabedaten einer Kamera sein, wobei jedes Einzelbild beispielsweise das Objekt oder zumindest einen Teilbereich des Objekts sowie eine Umgebung des Objekts abbilden oder darstellen kann. Die erfassten Bilddaten werden dann an ein faltendes neuronales Netz (CNN, englisch: convolutional neural net) bereitgestellt, also übermittelt. Das faltende neuronale Netz verarbeitet die Bilddaten und liefert korrespondierende Ausgangsdaten. Diese Ausgangsdaten des faltenden neuronalen Netzes werden an ein rekurrentes neuronales Netz bereitgestellt, welches diese Ausgangsdaten verarbeitet beziehungsweise weiterverarbeitet und zu den ihm als Input bereitgestellten Ausgangsdaten korrespondierende Ergebnisdaten liefert. Diese Ergebnisdaten geben die zumindest eine kinematische Eigenschaft des Objekts an.
-
Bei den Bilddaten kann es sich beispielsweise um eine Abfolge von in einem zeitlichen Abstand zueinander aufgenommenen Einzelbildern oder um einen kontinuierlich erfassten Videostrom handeln. In letzterem Fall können beispielsweise je nach verwendetem Kodierer oder Codec Daten unterschiedlicher Einzelbilder miteinander verknüpft sein. Dennoch sind auch bei einem Videostrom Einzelbilder beispielsweise als einzelne Frames des entsprechenden Videos identifizierbar.
-
Da sich das Objekt während eines Erfassungszeitraums, in dem die Bilddaten erfasst werden, bewegen kann - insbesondere relativ zu einer Aufnahme- oder Erfassungseinrichtung mittels welcher die Bilddaten erfasst werden - kann das Objekt beispielsweise in einem Einzelbild vollständig erfasst oder abgebildet sein, während es in einem anderen Einzelbild beispielsweise nur teilweise oder bereichsweise abgebildet oder erfasst sein kann. Auch in solchen Fällen kann durch die Verarbeitung der Bilddaten mittels der neuronalen Netze vorteilhaft die zumindest eine kinematische Eigenschaft des Objekts bestimmt werden.
-
Das CNN, also das faltende neuronale Netz, kann ein Feedforward-Netz sein. Bevorzugt handelt es sich bei dem CNN um ein tiefes neuronales Netz, das heißt ein neuronales Netz, welches mehrere Schichten oder Lagen, insbesondere eine oder mehrere zwischen einer Eingangs- oder Eingabeschicht und einer Ausgangs- oder Ausgabeschicht angeordnete, versteckte Lagen oder Zwischenlagen, aufweist. Beispielsweise kann das CNN sechs bis 15 Schichten aufweisen. Hierdurch kann vorteilhaft eine effektive Verarbeitung auch komplexer Bilddaten ermöglicht werden, während dennoch eine auch für Echtzeitanwendungen ausreichende Verarbeitungsgeschwindigkeit auch mit heutzutage verfügbarer Hardware erzielt werden kann. Das CNN verarbeitet die Einzelbilder sequenziell, wobei also jedes Einzelbild einzeln und unabhängig von den anderen Einzelbildern verarbeitet wird. Bei der Verarbeitung der Einzelbilder durch das CNN können beispielsweise in jedem Einzelbild, das heißt also für jeden einzelnen Frame oder Bildframe der Bilddaten, jeweilige Eigenschaften, Merkmale und/oder Charakteristika erkannt beziehungsweise extrahiert werden. So ist beispielsweise eine Detektion des Objekts oder auch mehrerer Objekte in jedem der Einzelbilder möglich. Ebenso können das Objekt oder die Objekte klassifiziert werden.
-
Die von dem CNN ausgegebenen oder bereitgestellten Ausgangsdaten können beispielsweise als relevante, das heißt dem Objekt zugehörige Bildbereiche oder Pixelkoordinaten, Eigenschaften oder Angaben beziehungsweise eine Klassifikation zu dem Objekt oder den Objekten und/oder abstrakte Werte umfassen oder beschreiben. Die sequenzielle Verarbeitung der Bilddaten, insbesondere die Extraktion jeweiliger relevanter Merkmale oder Features, die der Detektion und gegebenenfalls der Klassifizierung von Objekten dienen, kann durch das CNN vorteilhaft besonders schnell und genau durchgeführt werden.
-
Das rekurrente neuronale Netz (RNN) weist im Gegensatz zu dem als Feedforward-Netz ausgebildeten CNN eine interne Rückkopplung auf. Das RNN kann ebenfalls mehrere Lagen oder Schichten aufweisen, beispielsweise eine Schicht zur, zumindest temporären, Speicherung der in den Bilddaten enthaltenen Merkmale beziehungsweise entsprechender zeitlicher oder temporaler Informationen oder Zusammenhänge zwischen verschiedenen Einzelbildern, sowie eine Schicht von Ausgangsneuronen, welche die Ergebnisdaten ausgibt oder bereitstellt. Die Schicht von Ausgangsneuronen, das heißt also die Ausgangsschicht des RNN, kann eine vollständig verbundene oder verknüpfte Schicht (englisch: fully connected layer) sein. Durch diese Speicherung der Merkmale können in den Bilddaten enthaltene zeitliche beziehungsweise zeitlich kodierte Merkmale oder Informationen detektiert oder extrahiert werden. Dazu verarbeitet das RNN mehrere der Einzelbilder, wodurch zeitliche Zusammenhänge zwischen verschiedenen Einzelbildern erkannt werden. Im Gegensatz zu dem CNN verarbeitet das RNN die Einzelbilder also nicht rein sequenziell und unabhängig voneinander, sondern berücksichtigt Daten, Merkmale oder Informationen unterschiedlicher, insbesondere aufeinanderfolgender, Einzelbilder.
-
Das CNN und das RNN können direkt miteinander verknüpft beziehungsweise direkt aneinander angeschlossen oder miteinander verbunden sein, sodass die Ausgangsdaten des CNN unmittelbar an eine Eingangsschicht des RNN ausgegeben werden können. In diesem Fall stellen das CNN und das RNN also einen Verbund dar, welcher als rekurrentes faltendes neuronales Netz (RCNN) bezeichnet werden kann. Hierdurch können vorteilhaft ein Schaltungsaufwand, eine Verarbeitungsgeschwindigkeit und/oder eine Latenz bei der Verarbeitung der Bilddaten minimiert werden. Grundsätzlich können das CNN und das RNN jedoch separat voneinander angeordnet sein, wobei die Ausgangsdaten des CNN beispielsweise durch eine Datenverarbeitungseinrichtung an das RNN weitergeleitet und/oder gespeichert oder zwischengespeichert werden können. Hierdurch können die Ausgangsdaten des CNN beispielsweise für weitere Anwendungen, Verarbeitungsschritte und/oder eine nachträgliche Analyse oder Kontrolle gespeichert und/oder verarbeitet werden.
-
Die von dem RNN ausgegebenen oder bereitgestellten Ergebnisdaten können beispielsweise jeweilige Ausgangsvektoren sein, welche die kinematische Eigenschaft, insbesondere für jedes Einzelbild oder für jeden Zeitschritt - etwa zwischen zwei aufeinanderfolgenden Einzelbildern -, enthalten beziehungsweise beschreiben.
-
Bevorzugt werden sowohl das CNN als auch das RNN unter vorgegebenen Bedingungen vor einem produktiven Einsatz trainiert. Das Trainieren beziehungsweise das Training kann bevorzugt durch Bereitstellen vorgegebener annotierter oder gelabelter Trainingsdaten beziehungsweise Trainingsbildsequenzen an das CNN erfolgen. Bevorzugt wird dabei der Verbund aus dem CNN und dem RNN gemeinsam trainiert (Ende-zu Ende-Training). Hierfür können bekannte Trainingsmethoden für neuronale Netze eingesetzt werden. Durch das gemeinsame Training des CNN und des RNN, also des Verbundes oder RCNN, kann vorteilhaft sichergestellt werden, dass das CNN und das RNN in konsistenter Art und Weise zusammenarbeiten. Dadurch kann beispielsweise eine separate oder zusätzliche Einzelkontrolle oder Absicherung für das CNN und/oder das RNN entfallen. Somit können also ein Trainings-, Absicherungs- oder Verifizierungs- und Herstellungsaufwand verringert werden.
-
Bei bisherigen Verfahren wird beispielsweise ein CNN dazu genutzt, aus einem Bild statische Merkmale zu extrahieren, während kinematische Größen anschließend mittels eines Kalman-Filters berechnet werden. Diese Methodik ist jedoch fehleranfällig und nur auf idealisierten Daten zuverlässig, eine Generalisierung ist üblicherweise nicht möglich. Nachteilig ist auch, dass es sich bei der Verwendung des Kalman-Filters um eine Schätzung handelt, deren Ergebnis abhängig ist von einer Definition eines Schätzers und bereitgestelltem a priori Wissen. Auch wird das Ergebnis bereits vorab beeinflusst durch eine manuelle Auswahl oder Vorgabe auszuwertender Merkmale oder Eigenschaften. Diese Nachteile können durch die erfindungsgemäße Verwendung eines dem CNN nachgeschalteten rekurrenten neuronalen Netzes umgangen werden.
-
Das RNN ermöglicht vorteilhaft die Verarbeitung von Datensequenzen zur Bestimmung der zumindest einen kinematischen Eigenschaft oder Größe des Objekts, wobei durch das RNN beziehungsweise das RCNN vorteilhaft auch nicht explizit manuell vorgegebene Eigenschaften, welche in den Bilddaten enthalten sind, automatisch ausgewertet oder berücksichtigt werden können. Da also automatisch mehrere oder alle relevanten Bildeigenschaften verwertet werden, kann eine verbesserte Genauigkeit und Zuverlässigkeit bei der Bestimmung der zumindest einen kinematischen Größe erzielt werden. Dies ließe sich mit dem bisherigen Verfahren unter Verwendung eines Kalman-Filters nicht oder nur mit prohibitivem Aufwand realisieren. Weiterhin bietet das erfindungsgemäße Verfahren den Vorteil, neben bisherigen bekannten direkten Messverfahren, beispielsweise mittels eines Radar-, Lidar- oder Laserscannersystems einen weiteren zuverlässigen Kanal zur Bestimmung der zumindest einen kinematischen Größe bereitzustellen. Hierdurch kann also eine Redundanz erzielt werden, wobei durch den Einsatz unterschiedlicher Methoden vorteilhaft ein Funktionieren in einem größeren Spektrum von Umgebungs- oder Betriebsbedingungen sichergestellt werden kann. Dabei lässt sich die erfindungsgemäße Methodik besonders einfach und kostengünstig realisieren, da als Sensorik bereits eine Kamera ausreichend sein kann. Vorteilhaft ist auch, dass die durch das CNN ermittelten Merkmale über die Objektdetektion hinaus genutzt werden können. Das RNN verarbeitet die zeitlichen Zusammenhänge in den Daten und ermöglicht so eine besonders effiziente Bestimmung der kinematischen Eigenschaften oder Größen von Objekten direkt aus Bildsequenzen. Da - beispielsweise in einem Kraftfahrzeug - eine Kamera oftmals ohnehin vorhanden und zudem kostengünstiger ist als beispielsweise ein Radar- oder Laserscannersystem, kann beispielsweise in Situationen, in denen keine Redundanz gefordert ist, die Funktionalität der Bestimmung der zumindest einen kinematischen Größe des Objekts vorteilhaft mit besonders geringerem Aufwand realisiert werden.
-
In bevorzugter Ausgestaltung der vorliegenden Erfindung ist das Objekt ein Fahrzeug oder Fremdfahrzeug und als kinematische Eigenschaft wird eine Geschwindigkeit und/oder eine Beschleunigung und/oder eine Fahrtrichtung des Fahrzeugs bestimmt. Mit anderen Worten kann das erfindungsgemäße Verfahren also beispielsweise an oder in einem Kraftfahrzeug angewendet oder durchgeführt werden und im Straßenverkehr dazu dienen, eine Geschwindigkeit, Beschleunigung und/oder Fahrtrichtung eines anderen Verkehrsteilnehmers beziehungsweise eines anderen Fahrzeugs zu bestimmen. Die kinematische Eigenschaft oder Größe kann insbesondere relativ zu einer Erfassungseinrichtung, mittels welcher die Bilddaten erfasst werden, bestimmt werden. Bei der bestimmten Geschwindigkeit und/oder eine Beschleunigung und/oder eine Fahrtrichtung des Fahrzeugs kann es sich also insbesondere um relative Größen handeln, beispielsweise bezogen auf ein Kraftfahrzeug, in welchem das erfindungsgemäße Verfahren durchgeführt wird. Besonders vorteilhaft können die Bilddaten dabei mittels einer Frontkamera des Kraftfahrzeugs erfasst werden, wobei es sich bei dem Objekt dann beispielsweise um ein vorausfahrendes Fahrzeug handeln kann. Die Bestimmung der Geschwindigkeit, Beschleunigung und/oder Fahrtrichtung des vorausfahrenden Fahrzeugs ist für ein sicheres Führen des eigenen Kraftfahrzeugs besonders relevant. Ebenso können jedoch zusätzlich oder alternativ eine oder mehrere weitere Kameras zum Erfassen der Bilddaten verwendet werden. Somit kann vorteilhaft beispielsweise eine Umgebung des eigenen Kraftfahrzeugs, an oder in dem das erfindungsgemäße Verfahren durchgeführt oder verwendet wird, vollständig oder überwiegend erfasst werden. Dabei können dann bevorzugt mehrere Objekte, das heißt beispielsweise mehrere verschiedene andere Verkehrsteilnehmer, wie etwa Kraftfahrzeuge, Fahrräder und/oder Fußgänger erkannt sowie deren kinematische Eigenschaften bestimmt werden. So kann also eine umgebende Verkehrssituation durch das erfindungsgemäße Verfahren besonders einfach, schnell und zuverlässig erfasst und charakterisiert werden. Ebenso kann es beispielsweise möglich sein, eine stationäre Kamera, beispielsweise als Teil einer Verkehrsinfrastruktur, zum Erfassen der Bilddaten zu verwenden. Dies kann es vorteilhaft ermöglichen, mit besonders geringem Material- und Kostenaufwand eine Verkehrssituation oder einen Verkehrsfluss automatisch zu charakterisieren und zu überwachen.
-
In vorteilhafter Ausgestaltung der vorliegenden Erfindung wird durch die Ergebnisdaten ein jeweiliger Wert der zumindest einen kinematischen Eigenschaft oder Größe angegeben. Dieser jeweilige Wert wird dann einem der Einzelbilder zugeordnet. Mit anderen Worten kann also immer dann, wenn ein bestimmter oder konkreter Wert der kinematischen Eigenschaft bestimmt worden ist, dieser Wert einem bestimmten der Einzelbilder, anhand derer der Wert bestimmt worden ist, zugeordnet werden. Hierdurch ergibt sich vorteilhaft eine besonders leicht verständliche und einfach weiter zu verarbeitende Datenbasis aus Einzelbildern, welche beispielsweise einen spezifischen Zeitstempel aufweisen können, und zugeordneten Werten der kinematischen Eigenschaft oder Eigenschaften des in diesem Einzelbild dargestellten Objekts beziehungsweise der in diesem Einzelbild dargestellten Objekte.
-
Besonders bevorzugt können die Bilddaten kontinuierlich erfasst werden, wobei dann die zumindest eine kinematische Eigenschaft mit jedem neu erfassten Einzelbild neu bestimmt wird. Durch die kontinuierliche Erfassung der Bilddaten und die korrespondierende kontinuierliche Bestimmung der kinematischen Eigenschaft wird also eine kontinuierliche Aktualisierung der Ergebnisdaten realisiert. Hierdurch ist vorteilhaft sichergestellt, dass zu jedem Zeitpunkt stets eine reale Situation möglichst genau durch die Ergebnisdaten charakterisiert oder beschrieben wird. Bevorzugt findet die kontinuierliche Bestimmung der kinematischen Eigenschaft dabei in Echtzeit, das heißt ebenso schnell wie das Erfassen der Bilddaten, statt. Dadurch kann neben einer optimalen Aktualität der Ergebnisdaten auch sichergestellt werden, dass sich keine unverarbeiteten Bilddaten ansammeln. Bevorzugt kann die mit jedem neu erfassten Einzelbild neu bestimmte kinematische Eigenschaft beziehungsweise ein mit jedem neu erfassten Einzelbild neu bestimmter Wert der kinematischen Eigenschaft jeweils genau diesem neu erfassten Einzelbild zugeordnet werden.
-
Bevorzugt kann ein Umfang der Bilddaten, anhand derer die kinematische Eigenschaft bestimmt wird, beschränkt sein. Mit anderen Worten müssen also nicht alle erfassten Bilddaten dauerhaft gespeichert oder vorgehalten werden, um die kinematische Eigenschaft zu bestimmen beziehungsweise bei einer kontinuierlichen Erfassung von Bilddaten zu aktualisieren. Hierdurch kann also vorteilhaft ein für das erfindungsgemäße Verfahren notwendiger Hardwareaufwand, insbesondere ein Speicherumfang, begrenzt werden. Eine zuverlässige Bestimmung der kinematischen Größe kann dabei vorteilhaft bereits dann erreicht werden, wenn die erfassten Bilddaten nach ihrer jeweiligen Verarbeitung durch das RNN verworfen, das heißt nicht in einem separaten Speicher abgelegt, werden. Dies ist deshalb möglich, da während des Trainings oder Trainingsprozesses das RNN automatisch erlernt, welche Daten, Merkmale, Eigenschaften und/oder Charakteristika der Bilddaten beziehungsweise der von dem CNN bereitgestellten Ausgangsdaten für welche Zeitdauer innerhalb des RNN vorgehalten werden beziehungsweise werden müssen.
-
Ebenso ist es jedoch denkbar, beispielsweise einen Ringspeicher vorzusehen, der eine vorgegebene Menge von Bilddaten, beispielsweise eine vorgegebene Anzahl von Einzelbildern oder eine Sequenz vorgegebener Länge, speichert, wobei die jeweils ältesten gespeicherten Bilddaten durch jeweils neu erfasste Bilddaten ersetzt oder überschrieben werden. Hierdurch kann beispielsweise eine zusätzliche Absicherung oder Verifizierung oder eine nachträgliche, beispielsweise manuelle Analyse oder Auswertung der kinematischen Eigenschaft und/oder des Verhaltens der neuronalen Netze ermöglicht werden. So kann beispielsweise anhand der in dem Ringspeicher oder in einer vergleichbaren Speichereinrichtung vorgehaltenen Bilddaten nachträglich beispielsweise ein Unfallhergang rekonstruiert oder nachvollzogen werden.
-
In vorteilhafter Ausgestaltung der vorliegenden Erfindung werden dem rekurrenten neuronalen Netz zusätzlich zu den Ausgangsdaten des faltenden neuronalen Netzes zum Bestimmen der zumindest einen kinematischen Eigenschaft, beziehungsweise von deren Wert, weitere Daten, insbesondere Sensordaten bereitgestellt. Bei einer Anwendung des erfindungsgemäßen Verfahrens in einem Kraftfahrzeug können diese weiteren Daten beispielsweise eine Geschwindigkeit, Beschleunigung und/oder Fahrtrichtung des eigenen Kraftfahrzeugs, welches das CNN und das RNN aufweist, umfassen. Ebenso können beispielsweise ein Lenkwinkel, eine mittels einer Umgebungssensorik erfasste Umgebungsbedingung, beispielsweise ein Wetterzustand, eine Art und/oder einen Zustand einer Fahrbahnoberfläche oder dergleichen mehr dem RNN als weitere Daten bereitgestellt werden. Durch die Berücksichtigung dieser weiteren Daten kann vorteilhaft eine verbesserte Genauigkeit und Zuverlässigkeit bei der Bestimmung der zumindest einen kinematischen Größe erzielt werden.
-
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung ist ein - Hardware und/oder Software umfassendes - System, vorgesehen, welches die Bilddaten erfasst und die zumindest eine kinematische Eigenschaft bestimmt. Dieses System kann als Beispiel zumindest eine Bilderfassungseinrichtung, insbesondere eine Kamera, das CNN und das RNN umfassen. Bevorzugt kann dieses System Teil eines Kraftfahrzeugs sein. Einige oder alle der erfassten Bilddaten werden über eine Datenverbindung von dem System an eine zentrale Servereinrichtung übermittelt. Dabei kann es insbesondere vorgesehen sein, dass mehrere derartige Systeme ihre jeweiligen Bilddaten an die zentrale Servereinrichtung übermitteln. Durch die zentrale Servereinrichtung wird anhand der übermittelten Bilddaten ein separater Verbund aus einem faltenden neuronalen Netz und einem rekurrenten neuronalen Netz zum Bestimmen der wenigstens einen kinematischen Eigenschaft trainiert. Das bedeutet also, dass der durch die zentrale Servereinrichtung trainierte Verbund separat und verschieden ist von dem System. Der derart trainierte Verbund wird dann in Gegenrichtung über die - oder eine andere - Datenverbindung an das System zu dessen Aktualisierung übermittelt. Mit anderen Worten kann der durch die zentrale Servereinrichtung trainierte Verbund also beispielsweise das CNN und das RNN des Systems ersetzen. Ebenso ist es möglich, dass lediglich eine Veränderung oder Differenz zwischen dem trainierten Verbund und dem System beziehungsweise dem CNN und dem RNN des Systems übermittelt und/oder in dem System aktualisiert wird. Durch diese Ausgestaltung des erfindungsgemäßen Verfahrens kann vorteilhaft das Training durch bei einem realen Einsatz, das heißt also unter realen Einsatzbedingungen, erfasste Bilddaten weiter trainiert und verbessert werden, wodurch also mit der Zeit eine immer größer werdende Datenbasis zum Trainieren zur Verfügung steht beziehungsweise verwendet wird.
-
Da das Training des Verbundes durch die zentrale Servereinrichtung durchgeführt wird, können vorteilhaft die über die Datenverbindung übermittelten Bilddaten vor ihrer Verwendung als Trainingsdaten zum Trainieren des Verbundes beispielsweise gefiltert werden, um ein Bias oder eine Verzerrung in den Trainingsdaten und damit letztlich im Verhalten oder den Eigenschaften des Verbundes zu vermeiden. Um ein besonders zuverlässiges Trainieren des Verbundes zu ermöglichen, können bevorzugt zusammen mit den Bilddaten zusätzliche Daten übermittelt werden. Dies können beispielsweise gleichzeitig mit den Bilddaten erfasste Sensordaten eines Radar-, Lidar- und/oder Laserscannersystems sein, welche als Referenz für das Training dienen können. Die erfassten Bilddaten können beispielsweise kontinuierlich über eine kabellose Datenverbindung übermittelt werden. Ebenso kann es jedoch beispielsweise möglich sein, die erfassten Bilddaten in dem System, beispielsweise in dem jeweiligen Kraftfahrzeug, zwischenzuspeichern und gebündelt nur zu vorgegebenen Zeitpunkten oder zu bestimmten Anlässen an die zentrale Servereinrichtung zu übertragen. Hierdurch kann beispielsweise eine bandbreitensparende und besonders effiziente Datenübermittlung realisiert werden. Ebenso kann die Aktualisierung in vorgegebenen Zeitabständen und/oder zu vorgegebenen Anlässen durchgeführt werden. Ein solcher Anlass kann beispielsweise eine Wartung oder ein Werkstattaufenthalt des Kraftfahrzeugs, eine bestimmte Menge angesammelter Daten oder eine bestimmte Veränderung des trainierten Verbundes gegenüber dem System sein. Beispielsweise bei einer Datenübermittlung während eines Werkstattaufenthalt kann eine kabelgebundene Datenverbindung genutzt und somit vorteilhaft Bandbreite in kabellosen Datennetzen eingespart werden. Ein Verzicht auf eine kontinuierliche Datenübertragen bedeutet dabei keinen Sicherheitsverlust, da erst durch ein Trainieren des Verbundes mit einer sehr großen Menge von Bilddaten eine signifikante Verbesserung des Verhaltens oder der Performanz des Verbundes gegenüber dem System erreicht wird. Vorteilhaft ist bei dieser Ausgestaltung des erfindungsgemäßen Verfahrens zudem, dass der durch die zentrale Servereinrichtung trainierte Verbund vor seinem Einsatz, beispielsweise in einem realen Verkehrsgeschehen, in seinen Eigenschaften und seinem Verhalten überprüft und abgesichert werden kann, wodurch eine besonders hohe Zuverlässigkeit und Sicherheit erreicht wird.
-
Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs. Dabei wird mittels eines erfindungsgemäßen Verfahrens zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts zumindest eine kinematische Eigenschaft eines von dem Kraftfahrzeug verschiedenen Fahrzeugs, welches also das Objekt bildet, bestimmt. Auf Basis oder in Abhängigkeit von der zumindest einen bestimmten kinematischen Eigenschaft des Fahrzeugs wird das Assistenzsystem gesteuert. Bei dem Assistenzsystem kann es sich beispielsweise um eine Anzeige oder Warneinrichtung, beispielsweise eine Kollisionswarnung, handeln. Insbesondere kann das Assistenzsystem jedoch eine oder mehrere autonome oder teilautonome Fahrfunktionen des Kraftfahrzeugs umfassen oder steuern. So kann auf Basis der bestimmten kinematischen Eigenschaft beispielsweise eine Längs- und/oder Querführung des Kraftfahrzeugs erfolgen. Weder das Assistenzsystem noch das Verfahren zu dessen Steuerung sollen jedoch auf diese genannten Beispiele beschränkt sein.
-
Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein System zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts. Das System weist dabei zumindest eine Erfassungseinrichtung auf zum Erfassen von Bilddaten, welche eine Sequenz von Einzelbildern umfassen, welche jeweils zumindest das Objekt zumindest teilweise abbilden. Weiterhin weist das System eine Datenverarbeitungseinrichtung, ein faltendes neuronales Netz (CNN) und ein rekurrentes neuronales Netz (RNN) auf. Die Datenverarbeitungseinrichtung ist dabei eingerichtet zum Bereitstellen der erfassten Bilddaten an das faltende neuronale Netz. Das faltende neuronale Netz ist dazu trainiert, die Bilddaten zu verarbeiten und korrespondierende Ausgangsdaten zu liefern. Das faltende neuronale Netz oder die Datenverarbeitungseinrichtung ist eingerichtet zum Bereitstellen der Ausgangsdaten des faltenden neuronalen Netzes an das rekurrente neuronale Netz. Das rekurrente neuronale Netz ist dazu trainiert, diese Ausgangsdaten zu verarbeiten und dazu korrespondierende Ergebnisdaten zu liefern, welche die zumindest eine kinematische Eigenschaft des Objekts angeben. Darüber hinaus kann das erfindungsgemäße System für eine konkrete Umsetzung benötigte Datenverbindungen, Kabel oder Leitungen, Schnittstellen und dergleichen umfassen. Die Datenverarbeitungseinrichtung kann beispielsweise eine Schnittstelle zum Empfangen der mittels der Erfassungseinrichtung erfassten Bilddaten sowie das CNN und das RNN umfassen. Das System kann beispielsweise auch eine Ausgangsschnittstelle zum Ausgeben oder Bereitstellen der von dem RNN erzeugten oder bereitgestellten Ergebnisdaten, beispielsweise an ein Assistenzsystems eines Kraftfahrzeugs, umfassen. Die Erfassungseinrichtung des erfindungsgemäßen Systems kann beispielsweise eine Kamera oder vergleichbare Sensorik sein oder umfassen. Ebenso kann es sich bei der Erfassungseinrichtung jedoch beispielsweise um eine zum Empfangen der Bilddaten ausgelegte und eingerichtete Schnittstelle handeln, über welche die Bilddaten beispielsweise von einer Kamera empfangen werden. Daher kann das erfindungsgemäße System beispielsweise als Gerät mit einer Prozessoreinrichtung und einem Datenträger mit einem Programmcode und/oder Dateninhalt, welcher die Verfahrensschritte des erfindungsgemäßen Verfahrens repräsentiert und/oder kodiert, realisiert sein. Die Prozessoreinrichtung ist dabei dazu eingerichtet, den Programmcode auszuführen und/oder den Dateninhalt zu verarbeiten, also zumindest eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller aufweisen.
-
In vorteilhafter Weiterbildung des erfindungsgemäßen Systems weist das rekurrente neuronale Netz eine Vielzahl von Speicherzellen (LSTM, englisch: Long Short Term Memory Units) auf, welche Merkmale, Eigenschaften und/oder Charakteristika der Ausgangsdaten über eine Verarbeitungszeit mehrerer Einzelbilder hinweg speichern. Die Verarbeitungszeit eines Einzelbildes kann dabei zumindest eine Zeitdauer umfassen, welche das CNN zur Verarbeitung dieses Einzelbildes benötigt. Die Verarbeitungszeit kann jedoch alternativ oder zusätzlich die Zeitdauer umfassen, welche das RNN zur Verarbeitung der von dem CNN bei der Verarbeitung des Einzelbildes erzeugten Ausgangsdaten benötigt. Durch die Speicherzellen können also zeitliche Zusammenhänge oder Entwicklungen zwischen verschiedenen, nacheinander erfassten und verarbeiteten Einzelbildern erkannt beziehungsweise extrahiert werden.
-
Ein weiterer Aspekt der vorliegenden Erfindung ist oder betrifft ein Kraftfahrzeug mit einem erfindungsgemäßen System zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts.
-
Zu der Erfindung gehören auch Weiterbildungen aller Aspekte der Erfindung, wie sie jeweils nur für einen oder im Zusammenhang mit einem Aspekt der Erfindung oder dessen Weiterbildungen beschrieben sind. Aspekte der Erfindung umfassen zumindest das Verfahren und das System zum Bestimmen einer kinematischen Eigenschaft eines Objekts, das Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs und das Kraftfahrzeug. Aus diesem Grund sind die entsprechenden Weiterbildungen aller Aspekte der Erfindung nicht noch einmal explizit in allen Kombinationen beschrieben.
-
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt die einzige Fig. ein Schema eines Verfahrens und Systems zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts.
-
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
-
Die einzige Fig. zeigt ein Schema eines Verfahrens und eines Systems 1 zum Bestimmen zumindest einer kinematischen Eigenschaft eines Objekts. Das System 1 umfasst dabei zwei künstliche neuronale Netze, nämlich ein konvolutionales oder faltendes neuronales Netz 2 (CNN) sowie ein rekurrentes neuronales Netz 3 (RNN). Das CNN 2 und das RNN 3 bilden dabei einen Verbund, da eine Ausgangsschicht des CNN 2 direkt mit einer Eingangsschicht des RNN 3 verbunden ist. Dem CNN 2 wird dabei als Input oder Eingangsdaten eine Sequenz 4 von Einzelbildern zugeführt beziehungsweise bereitgestellt.
-
Ein Datenfluss ist hier durch entsprechende Pfeile veranschaulicht, welche anzeigen, dass die Sequenz 4 dem CNN 2 bereitgestellt wird, welches die Einzelbilder der Sequenz 4 verarbeitet. Von dem CNN 2 durch Verarbeitung der Einzelbilder der Sequenz 4 erzeugte Ausgangsdaten werden dem RNN 3 als Input oder Eingangsdaten bereitgestellt oder übermittelt. Das RNN 3 verarbeitet diese Ausgangsdaten des CNN 2 und erzeugt seinerseits korrespondierende Ergebnisdaten, welche es dann ausgibt oder bereitstellt. Vorliegend kann das System 1 bevorzugt in einem Kraftfahrzeug angeordnet sein, wobei die Sequenz 4 mittels einer Kamera, beispielsweise einer Frontkamera, des Kraftfahrzeugs erfasst wird. Somit können die Einzelbilder der Sequenz 4 also Momentaufnahmen einer Verkehrssituation in einer Umgebung des Kraftfahrzeugs sein. Dementsprechend können in den Einzelbildern der Sequenz 4 andere Verkehrsteilnehmer, insbesondere beispielsweise ein Fremdfahrzeug, erfasst oder abgebildet sein. Dieses Fremdfahrzeug stellt dann also das Objekt dar, dessen zumindest eine kinematische Eigenschaft bestimmt wird. Dabei kann die kinematische Eigenschaft des Fremdfahrzeugs insbesondere dessen Geschwindigkeit, Beschleunigung und/oder Fahrtrichtung, insbesondere relativ zu dem Kraftfahrzeug, sein.
-
Neuronale Netze sind im Allgemeinen in der Lage, anhand von annotierten Trainingsdaten (ground truth) Merkmale zu erlernen, diese zu generalisieren und anschließend auf unbekannte Daten anzuwenden. In der Bildverarbeitung können dafür faltende neuronale Netze eingesetzt werden, die eine Variante der tiefen neuronalen Netze darstellen. Mit diesen können Klassifizierungs- und Detektionsaufgaben mit hoher Geschwindigkeit und Genauigkeit erledigt werden. Bei faltenden neuronalen Netzen handelt es sich um Feedforward-Netze, das heißt die jeweilige Klassifikation oder Objektdetektion erfolgt für jedes Bild, hier also für jedes Einzelbild der Sequenz 4, einzeln. Bei bisherigen Verfahren werden kinematische Größen, die Informationen aus aufeinanderfolgenden Bildern benötigen, wie zum Beispiel die Geschwindigkeit oder Beschleunigung eines vorausfahrenden Fahrzeugs, aus den Informationen der Einzelbilder beispielsweise über einen Kalman-Filter ausgewertet. Dies ist jedoch fehleranfällig und es wird zudem nicht die Möglichkeit von neuronalen Netzen genutzt, auch Sequenzen von Daten zu verarbeiten.
-
Gerade dies wird vorliegend durch die Verwendung des RNN 3 erreicht, welches die Verarbeitung der Sequenz 4 beziehungsweise mehrerer Einzelbilder ermöglicht. Dazu umfasst das RNN 3 eine Vielzahl von Speicherzellen (LSTM), welche in der Lage sind, Merkmale für eine bestimmte Zeitdauer, insbesondere über eine Verarbeitungszeit mehrerer Einzelbilder der Sequenz 4 hinweg, abzuspeichern. Welche Merkmale dies sind, wird in einem Trainingsprozess erlernt.
-
Vorliegend sind das CNN 2 und das RNN 3 also miteinander gekoppelt und bilden einen Verbund, welcher als rekurrentes faltendes neuronales Netz (RCNN) bezeichnet werden kann. Dieser Verbund weist hier schematisch angedeutete eine Multiple-Input-Multiple-Output Architektur auf. Beispielsweise werden dem Verbund für den Trainingsprozess oder während des Trainingsprozesses Gruppen oder Stapel von Einzelbildern bereitgestellt (multiple input), woraus das System 1 mehrere, den jeweiligen Einzelbildern zugeordnete Ergebnisdaten liefert (multiple output), welche die zumindest eine kinematische Eigenschaft des Objekts in dem jeweiligen Einzelbild angeben. Das CNN 2 kann seinerseits eine bekannte Architektur, beispielsweise entsprechend dem GoogLeNet, aufweisen und mit vortrainierten Parametern initialisiert werden.
-
Vorliegend ist in der einzigen Fig. eine zeitliche Abfolge angedeutet, welche bei einem ersten Zeitpunkt 5 beginnt, an den sich ein zweiter Zeitpunkt 6 anschließt, auf welchen unmittelbar oder nach einem oder mehreren hier nicht dargestellten Zeitpunkten oder Zeitschritten ein dritter Zeitpunkt 7 folgt. Auf den dritten Zeitpunkt 7 können ebenfalls wiederum ein oder mehrere hier nicht angedeutete Zeitpunkte oder Zeitschritte folgen, worauf hin die zeitliche Abfolge mit einem vierten Zeitpunkt 8 endet. Zum ersten Zeitpunkt 5 wird als Teil der Sequenz 4 ein erstes Einzelbild aufgenommen oder erfasst, welches hier als erster Frame 9 bezeichnet wird. Dieser erste Frame 9 wird an das CNN 2 übermittelt, welches ihn verarbeitet und dem RNN 3 korrespondierende Ausgangsdaten bereitstellt. Das RNN 3 verarbeitet diese Ausgangsdaten, wobei ein oder mehrere Merkmale des ersten Frames 9 beziehungsweise der daraus mittels des CNN 2 erzeugten Ausgangsdaten oder aus diesen von dem RNN 3 extrahierte Merkmale in den Speicherzellen des RNN 3 gespeichert werden.
-
Zu dem zweiten Zeitpunkt 6 wird ein zweiter Frame 10 aufgenommen oder erfasst, welcher ebenfalls in entsprechender Art und Weise verarbeitet wird. Sind in dieser Art und Weise nacheinander genügend Einzelbilder der Sequenz 4 verarbeitet worden, kann das RNN 3 entsprechende Ergebnisdaten liefern. Vorliegend ist dies durch einen ersten Ergebnisvektor 13 angedeutet, welcher die bestimmte kinematische Eigenschaft oder Größe beziehungsweise einen entsprechenden Wert enthält oder angibt. Der erste Ergebnisvektor 13 kann beispielsweise dem ersten Frame 9 oder dem zweiten Frame 10 zugeordnet werden. In entsprechender Art und Weise kann ein zweiter Ergebnisvektor 14 beispielsweise dem zweiten Frame 10 oder einem auf diesen folgenden, hier nicht dargestellten Frame zugeordnet werden. Mit jedem neu erfassten und verarbeiteten Einzelbild der Sequenz 4 kann der jeweils zuletzt bestimmte oder ausgegebene Ergebnisvektor aktualisiert werden. Dementsprechend wird beispielsweise nach Erfassung und Verarbeitung eines zu dem dritten Zeitpunkt 7 erfassten dritten Frame 11 ein dritter Ergebnisvektor 15 und nach Erfassen und Verarbeiten eines zu dem vierten Zeitpunkt 8 erfassten vierten Frames 12 ein vierter Ergebnisvektor 16 erzeugt und ausgegeben.
-
Das System 1 kann beispielsweise bereits aus einer Sequenz von 30 Frames oder Einzelbildern zuverlässig aussagekräftige Ergebnisvektoren, das heißt kinematische Eigenschaften beziehungsweise deren Veränderungen berechnen. Eine Verarbeitung von Einzelbildsequenzen von etwa drei bis fünf Sekunden Länge kann eine weitere Verbesserung einer Genauigkeit oder Zuverlässigkeit der bestimmten Ergebnisdaten ermöglichen. Die Sequenz 4 kann grundsätzlich jedoch beliebig lang sein, da sie beispielsweise ein kontinuierlicher erfasster oder erzeugter Videostrom sein kann. Effektiv kann zu jedem Zeitpunkt 9, 10, 11, 12 eine jeweils aktuellste Datenmenge eines bestimmten Umfangs, welche beispielsweise eine bestimmte Anzahl der zuletzt erfassten Einzelbilder der Sequenz 4 oder daraus abgeleiteter Merkmale umfassen kann, zum Bestimmen der kinematischen Eigenschaft ausgewertet werden (sliding window). Diese Datenmenge kann mit jedem neu erfassten Einzelbild aktualisiert werden.
-
Werden durch die Sequenz 4 mehrere Objekte erfasst oder abgebildet, so können diese separat, also unabhängig voneinander verarbeitet werden . Es können also jeweilige kinematische Eigenschaften mehrerer Objekte separat oder unabhängig voneinander bestimmt werden.
-
Insgesamt zeigen die beschriebenen Beispiele, wie durch die Erfindung zumindest eine kinematische Eigenschaft eines Objekts unter Verwendung eines Verbundes aus einem faltenden neuronalen Netz 2 und einem mit diesem gekoppelten rekurrenten neuronalen Netz 3 direkt aus einer Sequenz 4 von Einzelbildern bestimmt werden können. Eine derartige Berechnung oder Bestimmung kinematische Größen mit der beschriebenen und veranschaulichten Architektur stellt einen gegenüber bekannten Verfahren neuen Ansatz dar.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- CN 105654130 A [0002]
- CN 105678292 A [0003]
- US 2016/0275375 A1 [0004]