EP4196379A1 - Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem - Google Patents

Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem

Info

Publication number
EP4196379A1
EP4196379A1 EP21745818.1A EP21745818A EP4196379A1 EP 4196379 A1 EP4196379 A1 EP 4196379A1 EP 21745818 A EP21745818 A EP 21745818A EP 4196379 A1 EP4196379 A1 EP 4196379A1
Authority
EP
European Patent Office
Prior art keywords
driving system
information
environment
layer
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21745818.1A
Other languages
English (en)
French (fr)
Inventor
Georg Schneider
Nils MURZYN
Vijay PARSI
Firas MUALLA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Publication of EP4196379A1 publication Critical patent/EP4196379A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3815Road data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Definitions

  • Computer-implemented method and computer program product for obtaining a representation of surrounding scenes for an automated driving system, computer-implemented method for learning a prediction of surrounding scenes for an automated driving system and control device for an automated driving system
  • the invention relates to a computer-implemented method and a computer program product for obtaining a representation of surrounding scenes for an automated driving system, a computer-implemented method for learning a prediction of surrounding scenes for an automated driving system, and a control unit for an automated driving system.
  • the environment is characterized by a large number of explicit, visible signs and markings, such as traffic signs, lane markings, curbs, roadsides, which are coupled with regionally different meanings, rules and real behavior and with a large number of underlying rules and standards, which do not visibly determine the behavior of the interactors in the environment, such as when an emergency vehicle approaches from behind, an emergency lane must be formed.
  • these rules are applied very differently from region to region and, on the other hand, they depend on accompanying events, such as the approach of an emergency vehicle in an acute traffic jam situation in the previous example.
  • all of these explicit, implicit, regional and event-driven rules/information must be considered and used for temporal prediction.
  • Occupancy grids are known in the prior art, a map-like representation of the static environment and road users located therein, see for example EP 2 771 873 B1. Spatial dependencies can be detected by means of such grid representations.
  • the disadvantage is that additional semantic information is usually not recorded or has to be managed separately.
  • the invention is based on the object of enabling improved movement planning for an intelligent agent including automated driving systems
  • the methods according to claims 1 and 8, the computer program product according to claim 7 and the control unit according to claim 12 each solve this task.
  • the environment scene representation according to the invention represents a hybrid representation.
  • the further processing based on this representation in order to enable, for example, a chronological prediction of all road users over several time steps into the future, becomes faster, more efficient, more powerful, more precise, less error-prone, more robust and reliable.
  • the advantages of the spatial and the semantic representation are brought into harmony with one another in an intelligent manner.
  • One aspect of the invention relates to a computer-implemented method for obtaining a representation of an environment scene for an automated driving system, comprising the steps
  • the static environment features include regional information, position data of the driving system and/or the environment features, traffic regulation information, traffic signs and anchor trajectories.
  • the dynamic environment features include semantic information and movement information of road users.
  • the driving system is regulated and/or controlled based on the scene representation.
  • a further aspect of the invention relates to a computer program for obtaining a representation of an environment scene for an automated driving system.
  • the computer program comprises instructions that cause a computer to carry out a method according to the invention when the program is run on the computer.
  • a further aspect of the invention relates to a computer-implemented method for learning a prediction of environmental scenes for an automated driving system.
  • a machine learning algorithm receives the environmental scene representations obtained according to a method according to the invention together with the respective reference predictions as input data pairs. Based on these pairs of input data, the gradient-based prediction is learned from the surrounding scene representations.
  • a further aspect of the invention relates to a control unit for an automated driving system.
  • the control unit includes first interfaces via which the control unit receives environmental sensor data from the driving system.
  • the control unit includes a processing unit that determines environmental features from the environmental sensor data, executes a machine learning algorithm learned according to a method according to the invention and receives predicted environmental scenes and, based on the predicted environmental scenes, determines regulation and/or control signals for automated operation of the driving system.
  • the control device includes second interfaces, via which the control device provides the control and/or control signals to actuators for longitudinal and/or lateral guidance of the driving system.
  • Computer-implemented means that the steps of the method are executed by a data processing device, for example a computer, a computing system, a computer network, for example a cloud system, or parts thereof.
  • a data processing device for example a computer, a computing system, a computer network, for example a cloud system, or parts thereof.
  • Automated driving systems include automated vehicles, road vehicles, people movers, robots and drones.
  • Environmental features include houses, streets, in particular street geometry and/or condition, signs, lane markings, vegetation, moving road users, vehicles, pedestrians, cyclists.
  • Surroundings sensor data include raw data and/or data preprocessed, for example with filters, amplifiers, serializers, compression and/or conversion units, from cameras, radar sensors, lidar sensors, ultrasonic sensors, acoustic sensors, Car2X units and/or real-time/offline maps arranged on the driving system .
  • the surroundings sensor data are actually data entered with the driving system.
  • the environmental sensor data includes virtually generated data, for example using software, hardware, model and/or vehicle-in-the-loop methods.
  • the surroundings sensor data are real data that have been virtually augmented and/or varied.
  • the environmental features are obtained from the environmental sensor data using object classifiers, for example artificial neural networks for semantic image segmentation.
  • the environment scene representation layers a scenario into several layers.
  • a real scenario is presented as a hybrid of static and dynamic and thus semantic information.
  • the environment scene representation according to the invention is also called Hybrid Scene Representation for Prediction, abbreviated HSRV.
  • the scenario is an image with i pixels in the x-direction and j pixels in the y-direction.
  • the individual layers can also be displayed as images and are arranged congruently with one another, for example the layers are spatially congruently one on top of the other.
  • the environment scene representation according to the invention can be imagined as a stack of digital photos lying one on top of the other, for example taken from a bird's eye view of an intersection.
  • this stack of images is combined with further layers of partly purely semantic information that is represented, for example, as pure feature vectors.
  • Static environmental characteristics are divided into two further categories. Elements that do not change at all or only after a long period of time do not change their state in the short term and are referred to as rigid.
  • HRSV also provides for an adaptation of these elements if, for example, there is a change in traffic routing. However, this aspect of adaptation takes place on a different time scale. Road markings are an example of this. In contrast, there are elements that can change state frequently and are therefore state-changing. Traffic lights or variable message signs, for example, are classified in the latter category.
  • Position data of the driving system and/or the environmental features are recorded via map information.
  • a map section is formed by assigning a value to each pixel of the map information corresponding layer of the environment scene representation. The values are based on discrete labels of the map, e.g. numeric codes for street, walkway, broken line, double line, etc.
  • the right of way rules are shown via the traffic regulation information.
  • a line is drawn in the middle of each lane. Additional lines are drawn at intersections, representing all permissible maneuvers.
  • implicitly regulated information such as "Right before left” is overlaid on the signage. Any conflicting rule information is aggregated to form a consistent rule in this layer, so that the rules then in effect are treated as having priority.
  • Traffic advisors include state-changing and stateful traffic advisors.
  • Status-changing traffic signs are usually used to summarize signals that are passed on to the driver visually and that can change their status several times in the course of a day. Examples of this category are traffic lights, variable message signs on motorways and entry signs at toll booths.
  • These traffic signs are represented as a pixel value representing the current state in the spatial context of the local scene representation. For reasons of redundancy, such pixel regions are generally not limited to one pixel, but rather mapped to a larger number of pixels. The exact size of the expansion is mostly learned from data to an optimum.
  • the anchor trajectories combine information from the right of way rules and from the status-changing traffic signs. According to one aspect of the invention, the anchor trajectories determined in this way are brought into line with the rules of the status-changing traffic indicators and prioritized accordingly. According to one aspect of the invention, the layer of the anchor trajectories can supplement or replace the layers of traffic instructions and/or traffic regulation information, depending on the time required of the driving system.
  • the computer program instructions include software and/or hardware instructions.
  • the computer program is loaded into a memory of the control device according to the invention, for example, or is already loaded into this memory. According to a further aspect of the invention, the computer program according to the invention is executed on hardware and/or software of a cloud facility.
  • the computer program is loaded into the memory, for example, by a computer-readable data carrier or a data carrier signal.
  • the invention is thus also implemented as an aftermarket solution.
  • the control unit prepares input signals, processes them using an electronic circuit and provides logic and/or power levels as regulation and/or control signals.
  • the control device according to the invention is scalable for assisted driving through to fully automated/autonomous/driverless driving.
  • control unit receives raw data from sensors and includes an evaluation unit that processes the raw data for HSRV. According to a further aspect of the invention, the control unit receives pre-processed raw data. According to a further aspect of the invention, the control unit includes an interface to an evaluation unit that processes the raw data for HSRV.
  • control unit includes a software and/or hardware level for trajectory planning or high-level controlling. After this level, the signals are then sent to the actuators.
  • the processing unit includes, for example, a programmable electronic circuit.
  • the processing unit or the control device is designed as a system-on-chip.
  • the scene representation includes:
  • the regional information and/or the weather information is provided in the form of codes or a machine learning algorithm learns a connection between the region and driving behavior by entering global coordinates and driving data of the driving system,
  • the position of the driving system is determined from a map section at a specific point in time and the map section is generated for each new time step or the map section is updated after a specified number of time steps, with each pixel of the second layer being assigned a value on the map,
  • the traffic regulation information is determined by means of traffic signs recorded from the environmental sensor data and/or traffic regulations derived from the regional information
  • the anchor trajectories which according to one aspect of the invention include lane lines that can be reached by a road user, are prioritized depending on the traffic signs,
  • the movement information is learned and determined using a machine learning algorithm via time steps and displayed spatially.
  • Adding the regional information for example in the form of a country code from a table, leads to an improvement in the prediction quality.
  • Each region is represented by a specific country or region code.
  • the current weather situation is processed via a weather code.
  • This code can also be global to the machine learning algorithm, i.e. not over one layer, to be provided.
  • the machine learning algorithm thus has the opportunity to learn the real connections between region and/or weather and actual driving behavior.
  • the same regional value is assigned to each pixel in a layer.
  • one option is to learn a connection between the region and driving behavior directly via the global coordinates instead of a country code and thus not having to carry out an expert-based delimitation of regions.
  • country codes are obtained from the following look-up table:
  • pixel values for traffic lights are taken from the following look-up table:
  • street line types are taken from the following look-up table, for example:
  • semantic information is bundled into a feature vector.
  • vehicle class for example truck, car, motorcycle, bicycle, pedestrian
  • the height and width of the objects or states of the flashing lights for example right, left, warning, off.
  • Descriptors describe these properties, i.e. they generate the feature vectors for input into a machine learning algorithm. These descriptors are arranged in the same way as the dynamic information descriptors and form the semantically explicit information layer.
  • latent feature vectors are calculated using artificial deep neural networks.
  • object classifiers which are upstream of the environmental scene representation according to the invention, are implemented as artificial deep neural networks.
  • latent feature vector is generated as an intermediate product during classification.
  • latent intermediate vectors of all Road users are spatially arranged in the manner described above and form the layer of semantic-latent information.
  • the semantically explicit layer is supplemented with the semantically latent layer.
  • An advantage of the semantically latent information is the robustness against noise signals of discrete classes.
  • the discrete classification varies between two classes, such as truck and passenger car, it is difficult to correctly interpret the class information.
  • the latent feature vector is a vector of continuous numbers, fluctuations have little to no effect and allow for a more robust interpretation of the object's semantic information.
  • the dynamic part describes the moving road users in the scene.
  • the coordinates of the road users are used over a certain period of time to generate a descriptor for this dynamic movement behavior.
  • Driving behavior can also be contained latently.
  • the calculation of this descriptor is learned on the one hand by means of an artificial deep neural network, for example a network comprising long-short-term memory layers, abbreviated LSTM.
  • LSTMs With LSTMs, after a settling phase, an iterative adjustment of the descriptor is only possible by entering the coordinates of the next time step.
  • parameters of a vehicle dynamics or movement dynamics model are used here, for example by means of a Kalman filter.
  • the descriptors of all road users are spatially arranged based on the last coordinate and form the layer of movement information.
  • the environmental features are represented in pixels of the layers and/or via feature vectors with spatial anchor points.
  • the feature vectors have a predetermined spatial anchor point.
  • the environmental features are interpreted as color values of the pixels.
  • a spatial position of the environment features is recorded in each layer via a corresponding position on a map. This is advantageous for a spatially corresponding arrangement of the environmental features.
  • spatial coordinates of the driving system and/or the environmental features are represented in pixels, with one pixel in each of the layers corresponding to the same route length.
  • a plurality of environment scene representations are provided, which depict the static and dynamic environment features including the road users over a variable number of x time steps.
  • the machine learning algorithm is trained, validated and tested using these environment scene representations. During the validation, meta-parameters included in the learning process are adjusted appropriately. During the test phase, the prediction of the learned machine learning algorithm is evaluated.
  • the environment scene representation is coupled to the neural structures.
  • the advantage of the environmental scene representation according to the invention is that a very large and very flexible amount of information is provided which the machine learning algorithm can access. Within the learning phase, in which the variable parameters/weights of the machine learning algorithm are adjusted, the use of the specific information that is best suited to perform the tasks of prediction then emerges.
  • the machine learning algorithm comprises an encoder-decoder structure
  • the convolutional network learns interactions between the layers of the environment scene representation, interactions between road users and/or interactions between road users and environment features and in the form of an output volume whose height and width is equal to the size of the environment scene representation, to output it, whereby a column based on the pixel-discrete position of the road user is determined from the output volume for each road user and the column with a vector that describes the dynamic behavior, is concatenated,
  • Composite feature vectors obtained from the concatenation are decoded into predicted trajectories of the driving system and/or the road users.
  • the encoders and/or decoders are based on long-short-term memory technology.
  • noise vectors are concatenated by generative adversarial learning and different trajectories in the future are generated by different noise vectors for identical trajectories in the past. This captures multimodal uncertainties of predictions.
  • the machine learning algorithm is a multi-agent tensor fusion encoder-decoder.
  • a multi-agent tensor fusion encoder-decoder for static environmental scenes is disclosed in arXiv: 1904.04776v2 [cs.CV].
  • the invention provides a multi-agent tensor fusion algorithm for the environment scene representation according to the invention, which also includes dynamic environment features in addition to static environment features.
  • the multi-agent tensor fusion algorithm according to the invention does not receive static environmental scenes as input, but rather the HSRV containing dynamic environmental features.
  • an encoder-decoder LSTM network is particularly well suited to solving sequence-based problems.
  • the noise vectors are generated by a generative adversarial network, abbreviated GAN, for example by the GAN disclosed in arXiv: 1904.04776v2 [cs.CV] under point 3.3.
  • FIG. 1 shows a representation of an environment scene representation according to the invention
  • FIG. 4 shows a representation of the method according to the invention for obtaining the environment scene representation from FIG.
  • FIG. 1 shows an example of a surrounding scene representation HSRV according to the invention.
  • a car as an example of a driving system R at a junction.
  • a pedestrian W At the junction there is a pedestrian W.
  • the right of way is controlled by a traffic light L.
  • the traffic light circuit L shows the car R the green traffic light phase and the pedestrian W the red one.
  • the various layers that are essential for the prediction of the trajectories of the road users are shown above the representation of this situation from a bird's eye view.
  • Layer A shows the regional information.
  • Layer B uses the map information, layer C the traffic regulation information.
  • the stateful traffic signs and the anchor trajectories are contained in layer D and layer E.
  • Layer F describes the semantic characteristics of the individual road users.
  • Layer G and Layer H contain latent information, where this information in layer G is based on properties that describe the road user, and in layer H on the dynamic movement behavior.
  • Layers A to E are static layers and describe static environmental features stat of environmental scene E.
  • Layers A to C describe rigid static environmental features stat_1 and layers D and E state-changing static environmental features stat_2.
  • the layers F to H are dynamic layers and describe dynamic environment features dyn of the environment scene E.
  • FIG. 2 shows an exemplary architecture of an artificial deep neural network DNN, which receives the environment scene representation HSRV as input.
  • the environment scene representation HSRV is input into the network DNN as a feature volume.
  • the network DNN includes a convolutional network-encoder-decoder structure, which uses multi-agent tensor fusion to control the interactions between the various layers AH and, due to its filter mask-based architecture, the interactions with elements of the environmental scenes located in the environment -Representation HSRV to be modeled.
  • a feature volume results from the network DNN, where height and width correspond to the input volume.
  • the input volume is the environment scene representation HSRV.
  • a column is now selected for each road user from the output volume V and concatenated with the vector that describes the dynamic behavior and a noise vector.
  • the column is determined based on the quantized position of the road user.
  • the assembled feature vectors are now each fed into an LSTM decoder. This decoder then generates the future trajectory for each road user. Since different noise vectors are concatenated in the training according to the GAN setup, different noise vectors for identical trajectories in the past can be used in the inference to generate different trajectories in the future.
  • the control unit ECU shown in FIG. 3 receives environment sensor data U via first interfaces INT 1 , for example from one or more cameras of the Driving system R.
  • a processing unit P for example a CPU, GPU or FPGA, carries out object classifiers and determines the static and/or dynamic surroundings features stat and dyn from the surroundings sensor data U.
  • the processing unit P processes the environmental features using a machine learning algorithm learned according to the invention and obtains predicted environmental scenes. Based on the predicted environmental scenes, the processing unit P determines regulation and/or control signals for automated operation of the driving system R.
  • the control unit ECU uses second interfaces INT 2 to provide the regulation and/or control signals to actuators for longitudinal and/or lateral guidance of the driving system R ready.
  • step V1 the environmental features stat and dyn are obtained.
  • step V2 the slices AH are generated with the respective environment features stat and dyn.
  • step V3 the driving system R is regulated and/or controlled based on the scene representation HSRV.

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

Computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsentation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend die Schritte: Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten des Fahrsystems (R) (V1) und Anordnen der Umfeldmerkmale in der Szenen-Repräsentation (HSRV) (V2) umfassend mehrere in räumlicher Relation angeordnete Schichten (A- H) umfassend jeweils statische (stat) oder dynamische (dyn) Umfeldmerkmale, wobei die statischen (stat) Umfeldmerkmale regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien umfassen, die dynamischen (dyn) Umfeldmerkmale semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer umfassen und das Fahrsystem (R) basierend auf der Szenen-Repräsentation (HSRV) geregelt und/oder gesteuert wird (V3).

Description

Computerimplementiertes Verfahren und Computerproqrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und Steuergerät für ein automatisiertes Fahrsystem
Die Erfindung bezieht sich auf ein computerimplementiertes Verfahren und ein Computerprogrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, ein computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und ein Steuergerät für ein automatisiertes Fahrsystems.
Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch-Roboter-Interaktion, reicht eine reine sensorielle Erfassung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterentwicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entscheidungen für beispielsweise automatisierte Fahrzeuge treffen zu können. Hierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, untereinander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.
Die Umwelt ist geprägt von einer Vielzahl von einerseits expliziten, sichtbaren Zeichen und Markierungen, beispielsweise Verkehrsschildern, Spurmarkierungen, Bordsteinen, Fahrbahnrändern, die mit zum Teil regional unterschiedlichen Bedeutungen, Regeln und realen Verhaltensweisen gekoppelt sind und mit einer großen Zahl von unterliegenden Regeln und Normen, die nicht sichtbar das Verhalten der Interakteure in der Umwelt bestimmen, wie zum Beispiel, dass wenn sich ein Rettungsfahrzeug von hinten nähert, eine Rettungsgasse zu bilden ist. Diese Regeln werden zum einen auch regional sehr unterschiedlich gelebt und zum anderen hängen sie von Begleitereignissen ab, wie im vorherigen Beispiel von dem Herannahen eines Rettungsfahrzeugs in einer akuten zu erkennenden Stausituation. Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu können, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgeprägten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden.
Im Stand der Technik sind occupancy grids bekannt, einer kartenartigen Repräsentation von statischer Umwelt und darin befindlichen Verkehrsteilnehmern, siehe beispielsweise EP 2 771 873 B1. Mittels derartigen Gitterdarstellungen sind räumliche Abhängigkeiten erfassbar. Nachteilig ist, dass zusätzliche semantische Informationen in der Regel nicht erfasst werden oder separat zu verwalten sind.
Der Erfindung hat die Aufgabe zugrunde gelegen, eine verbesserte Bewegungsplanung eines intelligenten Agenten umfassend automatisierte Fahrsysteme zu ermöglichen
Die Verfahren nach Anspruch 1 und 8, das Computerprogrammprodukt nach Anspruch 7 und das Steuergerät nach Anspruch 12 lösen jeweils diese Aufgabe. Die erfindungsgemäße Umfeldszenen-Repräsentation stellt eine hybride Repräsentation dar. Die auf dieser Repräsentation aufbauende weitere Verarbeitung, um zum Beispiel eine zeitliche Vorhersage von allen Verkehrsteilnehmern über mehrere Zeitschritte in die Zukunft zu ermöglichen, wird dadurch schneller, effizienter, leistungsstärker, exakter, weniger fehleranfällig, robuster und verlässlicher. Bei der erfindungsgemäßen Umfeldszenen-Repräsentation werden die Vorteile der räumlichen und der semantischen Repräsentation in einer intelligenten Weise miteinander in Einklang gebracht.
Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem umfassend die Schritte
Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten des Fahrsystems und • Anordnen der Umfeldmerkmale in der Szenen-Repräsentation umfassend mehrere in räumlicher Relation angeordnete Schichten umfassend jeweils statische oder dynamische Umfeldmerkmale.
Die statischen Umfeldmerkmale umfassen regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien. Die dynamischen Umfeldmerkmale umfassen semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer. Das Fahrsystem wird basierend auf der Szenen-Repräsentation geregelt und/oder gesteuert.
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem. Das Computerprogramm umfasst Befehle, die bewirken, dass ein Computer ein erfindungsgemäßes Verfahren ausführt, wenn das Programm auf dem Computer ausgeführt wird.
Ein weiterer Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem. Dabei erhält ein Maschinenlernalgorithmus die nach einem erfindungsgemäßen Verfahren erhaltenen Umfeldszenen-Repräsentationen zusammen mit jeweiligen Referenz-Prädiktionen als Eingangsdatenpaare. Basierend auf diesen Eingangsdatenpaare wird Gradienten-basiert die Prädiktion aus den Umfeldszenen-Repräsentationen gelernt.
Ein weiterer Aspekt der Erfindung betrifft ein Steuergerät für ein automatisiertes Fahrsystem. Das Steuergerät umfasst erste Schnittstellen, über die das Steuergerät Umfeldsensordaten des Fahrsystems erhält. Ferner umfasst das Steuergerät eine Prozesssiereinheit, die aus den Umfeldsensordaten Umfeldmerkmale bestimmt, einen nach einem erfindungsgemäßen Verfahren angelernten Maschinenlernalgorithmus ausführt und prädizierte Umfeldszenen erhält und basierend auf den prädizier- ten Umfeldszenen Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems bestimmt. Außerdem umfasst das Steuergerät zweite Schnittstellen, über die das Steuergerät die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems bereitstellt. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.
Computerimplementiert bedeutet, dass die Schritte des Verfahrens von einer Datenverarbeitungsvorrichtung, beispielsweise einem Computer, einem Rechensystem, einem Rechnernetzwerk, beispielsweise einem Cloud-System, oder Teilen davon, ausgeführt werden.
Automatisierte Fahrsysteme umfassen automatisierte Fahrzeuge, Straßenfahrzeuge, People Mover, Roboter und Drohnen.
Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/oder -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilnehmer, Fahrzeuge, Fußgänger, Fahrradfahrer.
Umfeldsensordaten umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprimierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsensoren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offline- karten. Nach einem Aspekt der Erfindung sind die Umfeldsensordaten mit dem Fahrsystem real eingefahrene Daten. Nach einem weiteren Aspekt der Erfindung umfassen die Umfeldsensordaten virtuell erzeugte Daten, beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren. Nach einem weiteren Aspekt der Erfindung sind die Umfeldsensordaten reale Daten, die virtuell augmen- tiert und/oder variiert wurden.
Die Umfeldmerkmale werden aus den Umfeldsensordaten mittels Objekt-Klassifikatoren erhalten, beispielsweise künstlichen neuronalen Netzwerken zur semantischen Bildsegmentierung. Die Umfeldszenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen und damit semantischen Informationen dargestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen-Repräsentation auch Hybride Szenen Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße Umfeldszenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fotos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelperspektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weiteren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.
Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zustand kurzfristig nicht und werden als starr bezeichnet. Natürlich sieht HRSV auch eine Adaption dieser Elemente vor, wenn es beispielsweise zu einer Änderung der Verkehrsführung kommt. Dieser Aspekt der Adaption spielt sich allerdings auf einer anderen zeitlichen Skala ab. Ein Beispiel dafür bilden die Fahrbahnmarkierungen. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrszeichen eingeordnet.
Je nach der Region unterscheidet sich das Verhalten der Verkehrsteilnehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehalten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw.
Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale werden über Karteninformationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Karteninformation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zugeordnet wird. Die Werte basieren auf diskreten Labeln der Karte, beispielsweise Zahlencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebildet. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzungen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise “Rechts vor Links” mit der Beschilderung überlagert. Gegebenenfalls widersprüchliche Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggregiert, so dass die dann geltenden Regeln als vorrangig behandelt werden.
Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wechselverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel beschränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt.
Die Ankertrajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustandswechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach einem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an das Fahrsystem die Schichten der Verkehrsweiser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.
Die Befehle des Computerprogramms umfassen Software- und/oder Hardwarebefehle. Das Computerprogramm wird beispielsweise in einen Speicher des erfindungsgemäßen Steuergeräts geladen oder ist in diesem Speicher bereits geladen. Nach einem weiteren Aspekt der Erfindung wird das erfindungsgemäße Computerprogramm auf einer Hardware und/oder Software einer Cloud-Einrichtung ausgeführt.
Das Computerprogramm wird beispielsweise durch einen computerlesbaren Datenträger oder ein Datenträgersignal in den Speicher geladen. Damit wird die Erfindung auch als eine Aftermarket-Lösung realisiert.
Das Steuergerät, im Englischen electronic control unit, abgekürzt ECU, genannt, bereitet Eingangssignale auf, verarbeitet diese mittels einer elektronischen Schaltung und stellt Logik- und/oder Leistungspegel als Regel- und/oder Steuersignale bereit. Das erfindungsgemäße Steuergerät ist skalierbar für assistiertes Fahren bis hin zu vollautomatisiertes/autonomes/fahrerloses Fahren.
Nach einem Aspekt der Erfindung erhält das Steuergerät Rohdaten von Sensoren und umfasst eine Auswerteeinheit, die die Rohdaten für HSRV prozessiert. Nach einem weiteren Aspekt der Erfindung erhält das Steuergerät vorverarbeitete Rohdaten. Nach einem weiteren Aspekt der Erfindung umfasst das Steuergerät eine Schnittstelle zu einer Auswerteeinheit, die die Rohdaten für HSRV prozessiert.
Nach einem weiteren Aspekt der Erfindung umfasst das Steuergerät eine Software- und/oder Hardwareebene für die Trajektorienplanung Planung oder High-Level Controlling. Nach dieser Ebene werden dann die Signale an die Aktuatoren gesendet.
Die Prozessiereinheit umfasst beispielsweise eine programmierbare elektronische Schaltung. Nach einem Aspekt der Erfindung ist die Prozessiereinheit oder das Steuergerät als ein System-on-Chip ausgeführt.
Nach einem Aspekt der Erfindung umfasst die Szenen-Repräsentation:
• eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen,
• eine zweite Schicht umfassend Karteninformationen zur Bestimmung der Position des Fahrsystems,
• eine dritte Schicht umfassend die Verkehrsregelinformationen, • eine vierte Schicht umfassend die Verkehrsweiser,
• eine fünfte Schicht umfassend die Ankertrajektorien,
• eine sechste Schicht umfassend semantisch-explizite Informationen,
• eine siebte Schicht umfassend semantisch-latente Informationen und
• eine achte Schicht umfassend die Bewegungsinformationen.
Nach einem weiteren Aspekt der Erfindung werden
• die regionalen Informationen und/oder die Wetterinformationen in Form von Codes bereitgestellt oder ein Maschinenlernalgorithmus lernt über eine Eingabe von globalen Koordinaten und Fahrdaten des Fahrsystems einen Zusammenhang zwischen Region und Fahrverhalten,
• die Position des Fahrsystems zu einem bestimmten Zeitpunkt aus einem Kartenausschnitt bestimmt und der Kartenausschnitt für jeden neuen Zeitschritt generiert oder der Kartenausschnitt nach einer vorgegebenen Anzahl von Zeitschritten aktualisiert, wobei jedem Pixel der zweiten Schicht ein Wert der Karte zugeordnet wird,
• die Verkehrsregelinformationen mittels aus den Umfeldsensordaten erfassten Verkehrsschildern und/oder aus den regionalen Informationen abgeleiteten Verkehrsregeln bestimmt,
• ein Zustand der Verkehrsweiser als Pixelwert in der vierten Schicht dargestellt,
• die Ankertrajektorien, die nach einem Aspekt der Erfindung von einem Verkehrsteilnehmer erreichbaren Fahrbahnlinien umfassen, in Abhängigkeit der Verkehrsweiser priorisiert,
• die semantischen Informationen in Form von Merkmalsvektoren dargestellt und/oder
• die Bewegungsinformationen mittels eines Maschinenlernalgorithmus über Zeitschritte gelernt und bestimmt und räumlich dargestellt.
Das hinzuführen der regionalen Information, beispielsweise in Form eines Landescodes aus einer Tabelle, führt zu einer Verbesserung der Prädiktionsgüte. Jede Region wird über einen bestimmten Landes- oder Regionscode repräsentiert ist. Äquivalent dazu wird die aktuelle Wettersituation über einen Wettercode verarbeitet. Dieser Code kann dem Maschinenlernalgorithmus auch global, das heißt nicht über eine Schicht, zur Verfügung gestellt werden. Der Maschinenlernalgorithmus hat damit die Möglichkeit, die realen Zusammenhänge von Region und/oder Wetter und gelebtem Fahrverhalten zu erlernen. Alternativ wird, um den räumlichen Aspekt auch bei einem Faltungsnetzwerk zu erhalten, derselbe regionale Wert jedem Pixel in einer Schicht zugeordnet. In Bezug auf die regionale Information ist es eine Option, statt eines Landescodes unmittelbar über die globalen Koordinaten einen Zusammenhang zwischen Region und Fahrverhalten zu erlernen und somit eine Experten basierte Abgrenzung von Regionen nicht durchführen zu müssen. Solche Landes- oder Wettercodes bleiben meistens über einen längeren Zeitpunkt für denselben Ort gleich, sind damit also starr. Das Wetter ändert sich natürlich und dieser Änderung wird Rechnung getragen, aber zumeist ist die Änderung auch noch etwas langsamer als zum Beispiel die Änderungen einer Ampel und noch langsamer als die Bewegungen von anderen Verkehrsteilnehmern.
Beispielsweise werden Ländercodes über folgende Look-Up-Tabelle erhalten:
Pixelwerte für Ampeln werden beispielsweise aus folgender Look-Up-Tabelle entnommen: Nach einem weiteren Aspekt der Erfindung werden Straßenlinienarten beispielsweise aus folgender Look-Up-Tabelle entnommen:
Neben dem dynamischen Verhalten ist auch eine semantische Beschreibung der Verkehrsteilnehmer und ihrer Eigenschaften für die Prädiktion der Bewegung hilfreich. Beispielsweise hat ein Lastkraftwagen andere Begrenzungen des dynamischen Verhaltens als ein Fahrradfahrer. Nach einem Aspekt der Erfindung werden semantische Informationen in einem Merkmalsvektor gebündelt. Beispiele für diese Art von Information sind die Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Fahrrad, Fußgänger, die Höhe und Breite der Objekte oder Zustände der Blinklichter, beispielsweise rechts, links, warnen, aus. Deskriptoren beschreiben diese Eigenschaften, das heißt sie erzeugen die Merkmalsvektoren zur Eingabe in einen Maschinenlernalgorithmus. Diese Deskriptoren werden in gleicher Art und Weise wie die Deskriptoren der dynamischen Information angeordnet und bilden die Schicht der semantisch-expliziten Information.
Optional wird zusätzliche semantische Information des Verkehrsteilnehmers durch die Verwendung latenter Merkmalsvektoren realisiert. Latent bedeutet, dass die Information vom Menschen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten sind. Die Berechnung dieser latenten Merkmalsvektoren wird nach einem Aspekt der Erfindung mit künstlichen tiefen neuronalen Netzwerken durchgeführt. Beispielsweise sind Objekt-Klassifikatoren, die der erfindungsgemäßen Umfeldszenen-Repräsentation vorgelagert sind, als künstliche tiefe neuronale Netzwerke realisiert. Im Allgemeinen wird bei der Klassifikation ein solcher latenter Merkmalsvektor als Zwischenprodukt generiert. Diese latenten Zwischenvektoren aller Verkehrsteilnehmer werden in oben beschriebener Art und Weise räumlich angeordnet und bilden die Schicht der semantisch-latenten Information. Nach einem Aspekt der Erfindung wird die semantisch-explizite Schicht mit der semantisch-latenten Schicht ergänzt. Ein Vorteil der semantisch latenten Information ist die Robustheit gegenüber Rauschsignalen diskreter Klassen. Wenn die diskrete Klassifikation zwischen zwei Klassen schwankt, beispielsweise LKW und PKW, ist es schwierig, die Klasseninformation richtig zu interpretieren. Da der latente Merkmalsvektor ein Vektor kontinuierlicher Zahlen ist, wirken sich Schwankungen kaum bis gar nicht aus und es wird eine robustere Interpretation der semantischen Information des Objekts ermöglicht.
Der dynamische Teil beschreibt die beweglichen Verkehrsteilnehmer der Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer über einen bestimmten Zeitraum genutzt, um mit einem Deskriptor dieses dynamischen Bewegungsverhaltens zu generieren. Das Fahrverhalten kann durchaus auch latent enthalten sein. Die Berechnung dieses Deskriptors wird einerseits mittels eines künstlichen tiefen neuronalen Netzwerks gelernt, beispielsweise einem Netzwerk umfassend Long-Short-Term- Memory-Schichten, abgekürzt LSTM. Bei LSTMs ist nach einer Einschwingphase eine iterative Anpassung des Deskriptors nur durch Eingabe der Koordinate des nächsten Zeitschrittes möglich. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mittels Kalman-Filter. Die Deskriptoren aller Verkehrsteilnehmer werden basierend auf der letzten Koordinate räumlich angeordnet und bilden die Schicht der Bewegungsinformation.
Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten dargestellt werden. Die Merkmalsvektoren haben einen vorgegebenen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Farbwerte der Pixeln interpretiert.
Nach einem weiteren Aspekt der Erfindung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine korrespondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.
Nach einem weiteren Aspekt der Erfindung werden räumliche Koordinaten des Fahrsystems und/oder der Umfeldmerkmale in Pixeln dargestellt, wobei ein Pixel in jeder der Schichten einer gleichen Streckenlänge entspricht.
In einer Ausgestaltung des erfindungsgemäßen Verfahrens zum Lernen einer Prädiktion werden mehrere Umfeldszenen-Repräsentationen bereitgestellt, die die statischen und dynamischen Umfeldmerkmale umfassend die Verkehrsteilnehmer über eine variable Anzahl von x Zeitschritten abbilden.
Mittels dieser Umfeldszenen-Repräsentationen wird der Maschinenlernalgorithmus angelernt, validiert und getestet. Während der Validierung werden in dem Lernprozess enthaltene Meta-Parameter geeignet eingestellt. Während der Testphase wird die Vorhersage des angelernten Maschinenlernalgorithmus bewertet.
Die Umfeldszenen-Repräsentation wird erfindungsgemäß an die neuronalen Strukturen angekoppelt. Der Vorteil der erfindungsgemäßen Umfeldszenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die der Maschinenlernalgorithmus zugreifen kann. Innerhalb der Lernphase, in der die variablen Parameter/Gewichte des Maschinenlernalgorithmus eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgate der Prädiktion zu leisten.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens zum Lernen einer Prädiktion von Umfeldszenen umfasst der Maschinenlernalgorithmus eine Enco- dierer-Decodierer-Struktur umfasst,
• die Umfeldszenen-Repräsentationen encodiert in ein Faltungsnetzwerk eingegeben werden,
• das Faltungsnetzwerk lernt, Interaktionen zwischen den Schichten der Umfeldszenen-Repräsentation, Interaktionen zwischen Verkehrsteilnehmern und/oder Interaktionen zwischen Verkehrsteilnehmer und Umfeldmerkmalen darzustellen und in Form eines Ausgabevolumens, dessen Höhe und Breite gleich der Größe der Umfeldszenen-Repräsentation ist, auszugeben, wobei aus dem Ausgabevolumen für jeden Verkehrsteilnehmer eine Spalte basierend auf der Pixel-diskreten Position des Verkehrsteilnehmers ermittelt wird und die Spalte mit einem Vektor, der das dynamische Verhalten beschreibt, konkateniert wird,
• aus dem Konkatenieren erhaltenen zusammengesetzten Merkmalsvektoren in prädizierte Trajektorien des Fahrsystems und/oder der Verkehrsteilnehmer decodiert werden.
Nach einem weiteren Aspekt der Erfindung basieren die Encodierer und/oder Decodierer auf Long-Short-Term-Memory Technik.
Nach einem weiteren Aspekt der Erfindung werden durch generatives adversariales Lernen Rauschvektoren konkateniert und durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert. Dadurch werden multimodale Unsicherheiten von Prädiktionen erfasst.
In einer Ausführungsform der Erfindung ist der Maschinenlernalgorithmus ein Multi- Agent Tensor Fusion Encodierer-Decodierer. Ein Multi-Agent Tensor Fusion Enco- dierer-Decodierer für statische Umfeldszenen ist in arXiv: 1904.04776v2 [cs.CV] offenbart. Die Erfindung stellt einen Multi-Agent Tensor Fusion Algorithmus für die erfindungsgemäße Umfeldszenen-Repräsentation bereit, die neben statischen Umfeldmerkmalen auch dynamische Umfeldmerkmale umfasst. Der erfindungsgemäße Multi-Agent Tensor Fusion Algorithmus erhält keine statischen Umfeldszenen als Eingabe, sondern die HSRV umfassend dynamische Umfeldmerkmale.
Ein Encodierer-Decodierer-LSTM-Netzwerk ist besonders gut geeignet, um sequenzbasierte Probleme zu lösen. Nach einem Aspekt der Erfindung werden die Rauschvektoren durch ein generatives adversariales Netzwerk, abgekürzt GAN, erzeugt, beispielsweise durch das in arXiv: 1904.04776v2 [cs.CV] unter Punkt 3.3 offenbarte GAN.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:
Fig. 1 eine Darstellung einer erfindungsgemäßen Umfeldszenen-Repräsentation,
Fig. 2 eine Darstellung eines erfindungsgemäßen Maschinenlernverfahrens,
Fig. 3 eine Darstellung eines erfindungsgemäßen Steuergeräts und
Fig. 4 eine Darstellung des erfindungsgemäßen Verfahrens zum Erhalten der Umfeldszenen-Repräsentation aus Fig. 1.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.
Fig. 1 zeigt beispielhaft eine erfindungsgemäße Umfeldszenen-Repräsentation HSRV. In der dargestellten Umfeldszene E befindet sich ein PKW als Beispiel eines Fahrsystems R an einer Einmündung. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Prädiktion der Trajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet. In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.
Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene E. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.
Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene E.
Fig. 2 zeigt eine exemplarische Architektur eines künstlichen tiefen neuronalen Netzwerks DNN, das die Umfeldszenen-Repräsentation HSRV als Eingabe bekommt, die Die Umfeldszenen-Repräsentation HSRV wird als Feature Volumen in das Netzwerk DNN eingegeben. Beispielsweise umfasst das Netzwerk DNN eine Faltungsnetz- werk-Encodierer-Decodierer Struktur, über die mittels Multi-Agent Tensor Fusion die Interaktionen zwischen den verschiedenen Schichten A-H und, aufgrund seiner auf Filtermasken basierenden Architektur, die Interaktionen mit sich in der Umgebung befindenden Elementen der Umfeldszenen-Repräsentation HSRV modelliert werden. Ein Feature Volumen resultiert aus dem Netzwerk DNN, wobei Höhe und Breite dem Eingabevolumen entsprechen. Das Eingabevolumen ist die Umfeldszenen-Repräsentation HSRV. Aus dem Ausgabevolumen V wird für jeden Verkehrsteilnehmer nun eine Spalte gewählt und mit dem Vektor, der das dynamische Verhalten beschreibt, und einem Rauschvektor konkateniert. Die Spalte wird basierend auf der quantisierten Position des Verkehrsteilnehmers ermittelt. Die zusammengesetzte Feature-Vektoren werden nun jeweils in einen LSTM Decoder gegeben. Dieser Decoder generiert dann die zukünftige Trajektorie pro Verkehrsteilnehmer. Da im Training gemäß des GAN Setups verschiedene Rauschvektoren konkateniert werden, können in der Inferenz durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert werden.
Das in Fig. 3 gezeigte Steuergerät ECU erhält über erste Schnittstellen INT 1 Umfeldsensordaten U, beispielsweise von einer oder mehreren Kameras des Fahrsystems R. Eine Prozessiereinheit P, beispielsweise eine CPU, GPU oder FPGA, führt Objekt-Klassifikatoren aus und bestimmt dabei aus den Umfeldsensordaten U die statischen und/oder dynamischen Umfeldmerkmale stat und dyn. Die Prozessiereinheit P prozessiert die Umfeldmerkmale mit einem erfindungsgemäß angelernten Maschinenlernalgorithmus und erhält prädizierte Umfeldszenen. Basierend auf den prädizierten Umfeldszenen bestimmt die Prozessiereinheit P Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems R. Über zweite Schnittstellen INT 2 stellt das Steuergerät ECU die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems R bereit.
Fig. 4 zeigt die Schritte des Verfahren zum Erhalten einer Umfeldszenen-Repräsen- tation. In Schritt V1 werden die Umfeldmerkmalen stat und dyn erhalten. In Schritt V2 werden die Schichten A-H mit den jeweiligen Umfeldmerkmalen stat und dyn erzeugt. In Schritt V3 wird das Fahrsystem R basierend auf der Szenen-Repräsentation HSRV geregelt und/oder gesteuert.
Bezuqszeichen
HSRV Umfeldszenen-Repräsentation stat statisches Umfeldmerkmal stat_1 statisch starre Umfeldmerkmale stat_2 statisch zustandswechselnde Umfeldmerkmale dyn dynamisches Umfeldmerkmal
A-H Schichten
E Umfeldszene
U Umfeldsensordaten
V Ausgabevolumen
W Fußgänger
L Ampel
DNN künstliches tiefes neuronales Netzwerk
V1 -V3 Verfahrensschritte
ECU Steuergerät
INT1 erste Schnittstellen
INT2 zweite Schnittstellen
P Prozessiereinheit

Claims

Patentansprüche
1. Computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsen- tation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend die Schritte
• Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten (U) des Fahrsystems (R) (V1 ) und
• Anordnen der Umfeldmerkmale in der Szenen-Repräsentation (HSRV) (V2) umfassend mehrere in räumlicher Relation angeordnete Schichten (A-H) umfassend jeweils statische (stat) oder dynamische (dyn) Umfeldmerkmale, wobei
• die statischen (stat) Umfeldmerkmale regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien umfassen,
• die dynamischen (dyn) Umfeldmerkmale semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer umfassen und
• das Fahrsystem (R) basierend auf der Szenen-Repräsentation (HSRV) geregelt und/oder gesteuert wird (V3).
2. Verfahren nach Anspruch 1 , wobei die Szenen-Repräsentation (HSRV) umfasst:
• eine erste Schicht (A) umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen,
• eine zweite Schicht (B) umfassend Karteninformationen zur Bestimmung der Position des Fahrsystems,
• eine dritte Schicht (C) umfassend die Verkehrsregelinformationen,
• eine vierte Schicht (D) umfassend die Verkehrsweiser,
• eine fünfte Schicht (E) umfassend die Ankertrajektorien,
• eine sechste Schicht (F) umfassend semantisch-explizite Informationen,
• eine siebte Schicht (G) umfassend semantisch-latente Informationen und
• eine achte Schicht (H) umfassend die Bewegungsinformationen.
3. Verfahren nach Anspruch 1 oder 2, wobei • die regionalen Informationen und/oder die Wetterinformationen in Form von Codes bereitgestellt werden oder wobei ein Maschinenlernalgorithmus über eine Eingabe von globalen Koordinaten und Fahrdaten des Fahrsystems einen Zusammenhang zwischen Region und Fahrverhalten lernt,
• die Position des Fahrsystems zu einem bestimmten Zeitpunkt aus einem Kartenausschnitt bestimmt wird und der Kartenausschnitt für jeden neuen Zeitschritt generiert wird oder der Kartenausschnitt nach einer vorgegebenen Anzahl von Zeitschritten aktualisiert wird, wobei jedem Pixel der zweiten Schicht ein Wert basierend auf der Klasse des Kartensegments zugeordnet wird,
• die Verkehrsregelinformationen mittels aus den Umfeldsensordaten erfassten Verkehrsschildern und/oder aus den regionalen Informationen abgeleiteten Verkehrsregeln bestimmt werden,
• ein Zustand der Verkehrsweiser als Pixelwert in der vierten Schicht (D)darge- stellt wird,
• die Ankertrajektorien die von einem Verkehrsteilnehmer erreichbaren Fahrbahnlinien umfassen und/oder in Abhängigkeit der Verkehrsweiser priorisiert werden,
• die semantischen Informationen in Form von Merkmalsvektoren dargestellt werden und/oder
• die Bewegungsinformationen mittels eines Maschinenlernalgorithmus über Zeitschritte gelernt und bestimmt werden und räumlich dargestellt werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Umfeldmerkmale (stat, dyn) in Pixeln der Schichten (A-H) und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten dargestellt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei in jeder Schicht (A-H) eine räumliche Lage der Umfeldmerkmale (stat, dyn) über eine korrespondierende Position in einer Karte erfasst wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei räumliche Koordinaten des Fahrsystems (R) und/oder der Umfeld merkmale (stat, dyn) in Pixeln dargestellt werden, wobei ein Pixel in jeder der Schichten (A-H) einer gleichen Streckenlänge entspricht.
7. Computerprogramm zum Erhalten einer Umfeldszenen-Repräsentation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend Befehle, die bewirken, dass ein Computer eines der Verfahren der Ansprüche 1 bis 6 ausführt, wenn das Programm auf dem Computer ausgeführt wird.
8. Computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen (E) für ein automatisiertes Fahrsystem (R), wobei ein Maschinenlernalgorithmus die nach einem der Verfahren der Ansprüche 1 bis 6 erhaltenen Umfeldszenen-Re- präsentationen (HSRV) zusammen mit jeweiligen Referenz-Prädiktionen als Eingangsdatenpaare erhält und basierend auf diesen Eingangsdatenpaare Gradientenbasiert die Prädiktion aus den Umfeldszenen-Repräsentationen (HSRV) lernt.
9. Verfahren nach Anspruch 8, wobei der Maschinenlernalgorithmus eine Encodierer- Decodierer-Struktur umfasst, wobei
• die Umfeldszenen-Repräsentationen (HSRV) encodiert in ein Faltungsnetzwerk eingegeben werden,
• das Faltungsnetzwerk lernt, Interaktionen zwischen Schichten (A-H) der Umfeldszenen-Repräsentation (HSRV), Interaktionen zwischen Verkehrsteilnehmern und/oder Interaktionen zwischen Verkehrsteilnehmer und Umfeldmerkmalen (stat, dyn) darzustellen und in Form eines Ausgabevolumens (V), dessen Höhe und Breite gleich der Größe der Umfeldszenen-Repräsentation ist, auszugeben, wobei aus dem Ausgabevolumen (V) für jeden Verkehrsteilnehmer eine Spalte basierend auf der Pixel-diskreten Position des Verkehrsteilnehmers ermittelt wird und die Spalte mit einem Vektor, der das dynamische Verhalten beschreibt, konkateniert wird,
• aus dem Konkatenieren erhaltenen zusammengesetzten Merkmalsvektoren in prädizierte Trajektorien des Fahrsystems (R) und/oder der Verkehrsteilnehmer decodiert werden.
10. Verfahren nach Anspruch 9, wobei die Encodierer und/oder Decodierer auf Long- Short-Term-Memory Technik basieren.
11 . Verfahren nach Anspruch 9 oder 10, wobei durch generatives adversariales Lernen Rauschvektoren konkateniert werden und durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert werden.
12. Steuergerät (ECU) für ein automatisiertes Fahrsystem (R)umfassend
• erste Schnittstellen (INT 1 ), über die das Steuergerät (ECU) Umfeldsensordaten des Fahrsystems (R) erhält,
• eine Prozesssiereinheit (P), die aus den Umfeldsensordaten Umfeldmerkmale (S, D) bestimmt, einen nach einem der Verfahren der Ansprüche 7 bis 10 angelernten Maschinenlernalgorithmus ausführt und prädizierte Umfeldszenen erhält und basierend auf den prädizierten Umfeldszenen Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems (R) bestimmt, und
• zweite Schnittstellen (INT2), über die das Steuergerät (ECU) die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems (R) bereitstellt.
21
EP21745818.1A 2020-08-14 2021-07-19 Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem Pending EP4196379A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020210379.8A DE102020210379A1 (de) 2020-08-14 2020-08-14 Computerimplementiertes Verfahren und Computerprogrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und Steuergerät für ein automatisiertes Fahrsystem
PCT/EP2021/070099 WO2022033810A1 (de) 2020-08-14 2021-07-19 Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem

Publications (1)

Publication Number Publication Date
EP4196379A1 true EP4196379A1 (de) 2023-06-21

Family

ID=77042979

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21745818.1A Pending EP4196379A1 (de) 2020-08-14 2021-07-19 Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem

Country Status (3)

Country Link
EP (1) EP4196379A1 (de)
DE (1) DE102020210379A1 (de)
WO (1) WO2022033810A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021203440A1 (de) 2021-04-07 2022-10-13 Zf Friedrichshafen Ag Computerimplementiertes Verfahren, Computerprogramm und Anordnung zum Vorhersagen und Planen von Trajektorien
DE102022201127A1 (de) 2022-02-03 2023-08-03 Zf Friedrichshafen Ag Verfahren und Computerprogramm zum Charakterisieren von zukünftigen Trajektorien von Verkehrsteilnehmern
CN114926788B (zh) * 2022-03-11 2024-10-29 武汉理工大学 一种多模态自动提取交通场景信息的方法、系统及设备
CN115468778B (zh) * 2022-09-14 2023-08-15 北京百度网讯科技有限公司 车辆测试方法、装置、电子设备及存储介质
CN115662167B (zh) * 2022-10-14 2023-11-24 北京百度网讯科技有限公司 自动驾驶地图构建方法、自动驾驶方法及相关装置
DE102022131178B3 (de) 2022-11-24 2024-02-08 Cariad Se Verfahren zum automatisierten Führen eines Fahrzeugs sowie Verfahren zum Erzeugen eines hierzu fähigen Modells des Maschinellen Lernens sowie Prozessorschaltung und Fahrzeug

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2771873B1 (de) 2011-10-28 2018-04-11 Conti Temic microelectronic GmbH Gitterbasiertes umfeldmodell für ein fahrzeug
US11169531B2 (en) * 2018-10-04 2021-11-09 Zoox, Inc. Trajectory prediction on top-down scenes

Also Published As

Publication number Publication date
WO2022033810A1 (de) 2022-02-17
DE102020210379A1 (de) 2022-02-17

Similar Documents

Publication Publication Date Title
WO2022033810A1 (de) Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem
WO2022214414A1 (de) Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien
DE112017006530B4 (de) Rückmeldung für ein autonomes fahrzeug
DE102016205152A1 (de) Fahrerassistenzsystem zum Unterstützen eines Fahrers beim Führen eines Fahrzeugs
DE112020001103T5 (de) Multitasking-Wahrnehmungsnetzwerk mit Anwendungen für ein Szenenverständnis und ein fortschrittliches Fahrerassistenzsystem
DE102016007899B4 (de) Verfahren zum Betreiben einer Einrichtung zur Verkehrssituationsanalyse, Kraftfahrzeug und Datenverarbeitungseinrichtung
DE102019209736A1 (de) Verfahren zur Bewertung möglicher Trajektorien
DE102018203583B4 (de) Verfahren, Fahrerassistenzsystem sowie Kraftfahrzeug zur Prädiktion einer Position oder einer Trajektorie mittels eines graphbasierten Umgebungsmodells
DE102021109395A1 (de) Verfahren, systeme und vorrichtungen für benutzerverständliche erklärbare lernmodelle
DE102013203239A1 (de) Gridbasierte Vorhersage der Position eines Objektes
DE112022002869T5 (de) Verfahren und System zur Verhaltensprognose von Akteuren in einer Umgebung eines autonomen Fahrzeugs
DE112021006846T5 (de) Systeme und Verfahren zur szenarioabhängigen Trajektorienbewertung
EP4027245A1 (de) Computerimplementiertes verfahren zur bestimmung von ähnlichkeitswerten von verkehrsszenarien
DE102022003079A1 (de) Verfahren zu einer automatisierten Generierung von Daten für rasterkartenbasierte Prädiktionsansätze
DE112022001546T5 (de) Systeme und Verfahren zur Erzeugung von Objekterkennungs-Labels unter Verwendung fovealer Bildvergrößerung für autonomes Fahren
EP3983936A1 (de) Verfahren und generator zum erzeugen von gestörten eingangsdaten für ein neuronales netz
EP3850536A1 (de) Analyse dynamisscher räumlicher szenarien
EP4224436A1 (de) Verfahren und computerprogramm zum charakterisieren von zukünftigen trajektorien von verkehrsteilnehmern
DE102021000792A1 (de) Verfahren zum Betrieb eines Fahrzeuges
DE112021005432T5 (de) Verfahren und System zum Vorhersagen von Trajektorien zur Manöverplanung basierend auf einem neuronalen Netz
DE102020200876B4 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102020115233B3 (de) Verfahren zum Koordinieren von Verkehrsteilnehmern durch eine Servervorrichtung sowie eine Servervorrichtung und eine Steuerschaltung zum Durchführen des Verfahrens
WO2022263175A1 (de) Bewegungsvorhersage für verkehrsteilnehmer
DE102022109385A1 (de) Belohnungsfunktion für Fahrzeuge

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230227

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20240405