EP3895415A1 - Transfer von zusatzinformation zwischen kamerasystemen - Google Patents

Transfer von zusatzinformation zwischen kamerasystemen

Info

Publication number
EP3895415A1
EP3895415A1 EP19797243.3A EP19797243A EP3895415A1 EP 3895415 A1 EP3895415 A1 EP 3895415A1 EP 19797243 A EP19797243 A EP 19797243A EP 3895415 A1 EP3895415 A1 EP 3895415A1
Authority
EP
European Patent Office
Prior art keywords
source
pixels
image
target
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP19797243.3A
Other languages
English (en)
French (fr)
Inventor
Dirk Raproeger
Paul Robert Herzog
Lidia Rosario Torres Lopez
Paul-Sebastian Lauer
Uwe Brosch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of EP3895415A1 publication Critical patent/EP3895415A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R2300/00Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle
    • B60R2300/10Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of camera system used
    • B60R2300/107Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of camera system used using stereoscopic cameras
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R2300/00Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle
    • B60R2300/30Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of image processing
    • B60R2300/304Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of image processing using merged images, e.g. merging camera image with stored images

Definitions

  • the present invention relates to a method for processing images that have been recorded with different camera systems.
  • the method can be used in particular for driver assistance systems and systems for at least partially automated driving.
  • US Pat. No. 8,958,630 B1 discloses a method for producing a classifier for the semantic classification of image pixels that belong to different object types.
  • the database of the learning data is enlarged in an unsupervised learning process.
  • the additional information is a source image, which a source camera system has recorded from the same scenery from a different perspective, or source pixels of this source image.
  • the source image is already with this
  • the additional information can be of any type.
  • it can contain physical measurement data that were acquired in connection with the acquisition of the source image.
  • the source camera system can be a camera system that includes a source camera that is sensitive to visible light and a thermal imaging camera that is oriented to the same observation area. This source camera system can then record a source image with visible light, and each pixel of the source image is then assigned additional information as an intensity value from the thermal image recorded at the same time.
  • the source pixels of the source image are assigned 3D locations in three-dimensional space, which correspond to the positions of the source pixels in the source image.
  • a three-dimensional representation of the scenery is thus determined, which, when imaged with the source camera system, leads to the input source image.
  • This representation does not have to be continuous and / or complete in the three-dimensional space like a conventional three-dimensional scenery, especially since a particular three-dimensional scenery cannot be inferred from a single two-dimensional picture in particular.
  • the three-dimensional representation obtained from a single source image can thus be, for example, a point cloud in three-dimensional space in which there are as many points as the source image has source pixels and in which the three-dimensional space is otherwise assumed to be empty.
  • the three-dimensional volume is thus sparsely populated.
  • Additional information that is assigned to source pixels is assigned to the respectively associated 3D locations.
  • each point in the three-dimensional point cloud that corresponds to the source image is assigned the intensity value of the thermal image associated with the corresponding pixel in the source image.
  • the 3D locations are now assigned those target pixels of the target image whose positions in the target image correspond to the 3D locations. It is determined which target pixels in the target image the 3D locations are mapped to when the three-dimensional scenery is recorded with the target camera system. This assignment results from the interaction of the arrangement of the target camera system in space with the imaging properties of the target camera system.
  • the additional information that is assigned to the 3D locations is now assigned to the associated target pixels.
  • the additional information that was originally developed in connection with the source image can be transferred to the target image. It is therefore possible to provide the target image with this additional information without having to physically record the additional information.
  • the additional information such as the infrared intensity from the thermal image in the above example, is not primarily physically linked to the source pixel of the source image, but to the associated 3D location in three-dimensional space.
  • this 3D location there is matter at this 3D location that emits infrared radiation. This 3D location is only mapped to different positions in the source image and in the target image, since the source camera and the target camera select the 3D location
  • the method takes advantage of this connection by reconstructing 3D locations in a three-dimensional “world coordinate system” for source pixels of the source image and then assigning these 3D locations to target pixels of the target image.
  • Such a semantic classification can, for example, assign information to each pixel of the type of the object to which the pixel belongs.
  • the object can be, for example, a vehicle, a roadway, a roadway marking, a roadway boundary, a structural obstacle or a traffic sign.
  • the semantic classification is often carried out with neural networks or other KL modules. These KL modules are trained by you are given a variety of learning images, for which the correct semantic classification is known as "ground truth”. It is checked to what extent the classification issued by the KL module corresponds to the "ground truth", and lessons are learned from the deviations by the
  • Processing of the KL module is optimized accordingly.
  • Ground truth is usually obtained by semantically classifying a large number of images of people.
  • people mark in the pictures which pixels belong to objects of which classes. This process, called “labeling”, is time-consuming and expensive. So far, the additional information entered by people in this way has always been just that
  • Bound camera system with which the learning images were taken If you switched to a different type of camera system, such as from a normal perspective camera to a fish-eye camera, or just changed the perspective of the existing camera system, the labeling process had to start all over again. Since the semantic classification already available for the source images recorded with the source camera system can now be transferred to the target images recorded with the target camera system, the work previously invested in connection with the source images can be used further.
  • Driver assistance systems and systems for at least partially automated driving are using more and more cameras and more and more different camera perspectives.
  • the source pixels can be assigned to 3D locations in any way.
  • the associated 3D location for at least one source pixel can be determined from a time program, according to which at least one source camera of the source camera system moves in space.
  • a “structure from motion” algorithm can be used to convert the time program of the movement of a single source camera into an assignment of the source pixels to 3D locations.
  • a source camera system with at least two source cameras is selected.
  • the 3D locations associated with source pixels can then be determined by stereoscopic evaluation of source images that were recorded by both 3D cameras.
  • the at least two source cameras can in particular be contained in a stereo camera system that has one for each pixel
  • This depth information can be used to directly assign the source pixels of the source image to 3D locations.
  • source pixels from source images that were recorded by both source cameras can also be combined in order to assign additional information to more target pixels of the target image. Since the perspectives of the source camera system and the target camera system are different, both camera systems do not depict exactly the same section of the three-dimensional scene. Thus, if the additional information is transferred from all source pixels of a single source image to target pixels of the target image, not all target pixels of the target image will be covered by this. There will therefore be target pixels to which no additional information has yet been assigned. If several source cameras are used, preferably two or three source cameras, then gaps in the target image can be filled. However, this is not absolutely necessary for training a neural network or other CI module on the basis of the target image. In particular, with one such training target pixels of the target image, for which there is no additional information, from the evaluation by that during training
  • any 3D sensor can deliver a point cloud that is compatible with a suitable one to obtain the 3D structure observed by both the source and the target camera system
  • the calibration procedure locates both the source pixels and the target pixels in 3D space, thus ensuring that the training information can be transferred from the source system to the target system.
  • Additional 3D sensors that only determine the connecting 3D structure of the observed scene for the training could be an additional one
  • TOF imaging time-of-flight
  • a source image and a target image are selected which have been recorded simultaneously. In this way it is ensured that, especially in the case of dynamic scenery with moving objects, the source image and the target image, apart from the different camera perspective, show the same state of the scenery. If, on the other hand, there is a temporal offset between the source image and the target image, an object that was still present in one image may already be out of the detection range until the other image is captured
  • a source camera system and a target camera system are selected, which are mounted on the same vehicle in a fixed relative orientation to one another.
  • the fixed connection of the two camera systems ensures that the difference in perspective between the two camera systems remains constant while driving.
  • the invention also relates to a method for training a Kl module, the image taken by a camera system and / or pixels of such an image, by processing in an internal module
  • Processing chain assigns additional information.
  • This additional information can in particular be a classification of image pixels.
  • Processing chain of the KL module can in particular include an artificial neural network (KNN).
  • KNN artificial neural network
  • the behavior of the internal processing chain is determined by parameters. These parameters are optimized when training the Kl module. For a KNN, for example, the parameters can be weights with which the
  • Inputs received by a neuron are weighted among each other.
  • an error function (Loess function) can depend on the deviation determined in the comparison, and the parameters can be optimized with the aim of minimizing this error function. Any multivariate optimization method can be used for this, such as a gradient descent method.
  • the additional learning information is at least partially with the previous one
  • the methods can in particular be carried out on a computer and / or on a control device and can be embodied in software to that extent.
  • This software is an independent product with customer benefits.
  • the invention therefore also relates to a computer program with machine-readable instructions which, when executed on a computer and / or a control device, cause the computer and / or the control device to carry out one of the methods described.
  • Figure 2 Exemplary source image 21
  • FIG. 3 exemplary translation of the source image 21 into a point cloud in three-dimensional space
  • FIG. 4 Exemplary target image 31 with additional information 4, 41, 42 transferred from the source image 21;
  • FIG. 5 shows an exemplary arrangement of a source camera system 2 and a target camera system 3 on a vehicle 6;
  • FIG. 6 embodiment of the method 200.
  • source pixels 21a of a source image 21 are assigned to 3D values 5 in three-dimensional space.
  • the associated 3D location 5 for at least one source pixel 21a can be determined from a time program, according to which at least one source camera of the source camera system 2 moves in space.
  • the associated 3D location 5 for at least one source pixel 21a can be determined by stereoscopic evaluation of source images 21, which were recorded by two source cameras.
  • a source camera system with at least two source cameras was selected in step 105.
  • a source image 21a and a target image 31a can be selected which have been recorded simultaneously.
  • a source camera system 2 and a target camera system 3 can also be selected, which are mounted on the same vehicle 6 in a fixed relative orientation 61 to one another.
  • step 120 the additional information 4, 41, 42, which is assigned to the source pixels 21a of the source image 21, is assigned to the respectively associated 3D locations 5.
  • step 130 those target pixels 31a of the target image 31 are assigned to the 3D locations whose positions in the target image 31 correspond to the 3D locations 5.
  • step 140 the additional information 4, 41, 42, which is assigned to 3D locations 5, is assigned to the associated target pixels 31a.
  • FIG. 2 shows a two-dimensional source image 21 with coordinate directions x and y, which a source camera system 2 has recorded from a scenery 1.
  • the source image 21 was segmented semantically. In the example shown in FIG. 2, the became part of the source image 21
  • Additional information 4, 41 acquired that this subarea belongs to a vehicle 11 present in scenery 1.
  • the additional information 4, 42 was acquired that this
  • Sub-areas belong to existing road markings 12 in the scenery 1.
  • a single pixel 21a of the source image 21 is marked as an example in FIG.
  • the source pixels 21a are translated into 3D locations 5 in three-dimensional space, this being denoted by the reference symbol 5 for the target pixel 21a from FIG.
  • the additional information 4, 41 was stored for a source pixel 21a that the source pixel 21a belongs to a vehicle 11, then this additional information 4, 41 was also assigned to the corresponding 3D location 5.
  • the additional information 4, 42 was stored for a source pixel 21a that the source pixel 21a belongs to a road marking 12, then this additional information 4, 42 was also assigned to the corresponding 3D location 5. This is represented by different symbols with which the respective 3D locations 5 are represented in the point cloud shown in FIG. 3.
  • FIG. 3 also shows that the source image 21 shown in FIG. 2 was taken from perspective A.
  • the target image 31 is taken from the perspective B drawn in FIG. 3.
  • This exemplary target image 31 is shown in FIG. 4. It is shown here by way of example that the source pixel 21a was ultimately assigned to the target pixel 31a on the detour via the associated 3D location 5. All target pixels 31a, for which there is an associated source pixel 21a with a stored one in FIG. 4.
  • Additional information 4, 41, 42 is, accordingly, associated with this additional information 4, 41, 42 on the detour via the associated 3D location 5. The work so far invested in the semantic segmentation of the source image 21 was therefore completely recycled.
  • Additional information 4, 41 that source pixels 21a belong to vehicle 11 was only recorded with respect to the rear area of vehicle 11 visible in FIG. 2. Thus, the front area of the vehicle 11 shown in dashed lines in FIG. 4 is not provided with this additional information 4, 41.
  • This extreme The constructed example shows that it is advantageous to combine source images 21 from several source cameras in order to provide as many target pixels 31a of the target image 31 with additional information 4, 41, 42.
  • FIG. 5 shows an exemplary arrangement of a source camera system 2 and a target camera system 3, both of which are mounted on the same vehicle 6 in a fixed relative orientation 61 to one another. This fixed relative
  • Orientation 61 is specified in the example shown in FIG. 5 by a rigid test vehicle.
  • the source camera system 2 observes the scenery 1 from a first
  • the target camera system 3 observes the same scenery 1 from a second perspective B '.
  • the described method 100 enables additional information 4, 41, 42, which was acquired in connection with the source camera system 2, to be used in the context of the target camera system 3.
  • FIG. 6 shows an exemplary embodiment of the method 200 for training a Kl module 50.
  • the Kl module 50 comprises an internal processing chain 51, the behavior of which is determined by parameters 52.
  • step 210 of the method 200 learning images 53 with pixels 53a are input into the KL module 50.
  • the KL module 50 supplies these learning images
  • step 220 the additional information 4, 41, 42 actually supplied by the KL module 50 is compared with the additional learning information 54.
  • the result 220a of this comparison 220 is used in step 230 in order to optimize the parameters 52 of the internal processing chain 51 of the KL module 50.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Mechanical Engineering (AREA)

Abstract

Verfahren (100) zur Anreicherung eines Ziel-Bildes (31), welches ein Ziel-Kamerasystem (3) von einer Szenerie (1) aufgenommen hat, mit Zusatzinformation (4, 41, 42), mit der mindestens ein Quell-Bild (21), welches ein Quell-Kamerasystem (2) von der gleichen Szenerie (1) aus einer anderen Perspektive aufgenommen hat, bereits angereichert ist, mit den Schritten: • Quell-Pixeln (21a) des Quell-Bildes (21) werden 3D-Orte (5) im dreidimensionalen Raum zugeordnet (110), die zu den Positionen der Quell-Pixel (21a) im Quell-Bild (21) korrespondieren; • Zusatzinformation (4, 41, 42), die Quell-Pixeln (21a) zugeordnet ist, wird den jeweils zugehörigen 3D-Orten (5) zugeordnet (120); • den 3D-Orten (5) werden diejenigen Ziel-Pixel (31a) des Ziel-Bildes (31) zugeordnet (130), deren Positionen im Ziel-Bild (31) zu den 3D-Orten (5) korrespondieren; Zusatzinformation (4, 41, 42), die 3D-Orten (5) zugeordnet ist, wird den zugehörigen Ziel-Pixeln (31a) zugeordnet (140). Verfahren (200) zum Trainieren eines Kl-Moduls (50), wobei Lern-Zusatzinformation (54) mindestens teilweise mit dem Verfahren (100) den Pixeln (53a) eines Lern-Bildes (53) als Ziel-Pixeln (31a) zugeordnet wird (215). Zugehöriges Computerprogramm.

Description

Beschreibung
Titel:
Transfer von Zusatzinformation zwischen Kamerasystemen
Die vorliegende Erfindung betrifft ein Verfahren zur Verarbeitung von Bildern, die mit unterschiedlichen Kamerasystemen aufgenommen worden sind. Das Verfahren ist insbesondere für Fahrassistenzsysteme und Systeme zum zumindest teilweise automatisierten Fahren nutzbar.
Stand der Technik
Für Fahrassistenzsysteme und für Systeme zum zumindest teilweise
automatisierten Fahren sind Bilder, die mit Kamerasystemen vom
Fahrzeugumfeld aufgenommen werden, die wichtigste Informationsquelle. Häufig existiert zu den Bildern eine Zusatzinformation, wie beispielsweise eine semantische Segmentierung, die mit einem künstlichen neuronalen Netzwerk erhalten wurde. Die Zusatzinformation ist an das jeweils verwendete
Kamerasystem gebunden.
Die US 8,958,630 Bl offenbart ein Verfahren zur Herstellung eines Klassifizierers für die semantische Klassifikation von Bildpixeln, die zu unterschiedlichen Objekttypen gehören. Dabei wird die Datenbasis der Lern-Daten in einem unüberwachten Lernprozess vergrößert.
Die US 9,414,048 B2 und die US 8,330,801 B2 offenbaren Verfahren, mit denen zweidimensionale Bilder und Videosequenzen in dreidimensionale Bilder umgewandelt werden können.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Anreicherung eines Ziel- Bildes, welches ein Ziel- Kamerasystem von einer Szenerie aufgenommen hat, mit Zusatzinformation entwickelt. Die Zusatzinformation ist einem Quell-Bild, welches ein Quell- Kamerasystem von der gleichen Szenerie aus einer anderen Perspektive aufgenommen hat, bzw. Quell-Pixeln dieses Quell-Bildes, zugeordnet. Mit anderen Worten, das Quell-Bild ist bereits mit dieser
Zusatzinformation angereichert.
Die Zusatzinformation kann von beliebiger Art sein. Sie kann beispielsweise physikalische Messdaten beinhalten, die im Zusammenhang mit der Aufnahme des Quell-Bildes erfasst worden sind. Beispielsweise kann das Quell- Kamerasystem ein Kamerasystem sein, welches eine auf sichtbares Licht sensitive Quell- Kamera und eine auf den gleichen Beobachtungsbereich ausgerichtete Wärmebildkamera umfasst. Dieses Quell- Kamerasystem kann dann ein Quell-Bild mit sichtbarem Licht aufnehmen, und jedem Pixel des Quell- Bildes ist dann als Zusatzinformation ein Intensitätswert aus dem gleichzeitig aufgenommenen Wärmebild zugeordnet.
Den Quell-Pixeln des Quell-Bildes werden 3D-Orte im dreidimensionalen Raum zugeordnet, die zu den Positionen der Quell-Pixel im Quell-Bild korrespondieren. Es wird also eine dreidimensionale Darstellung der Szenerie bestimmt, die bei Abbildung mit dem Quell- Kamerasystem auf das eingegebene Quell-Bild führt. Diese Darstellung muss im dreidimensionalen Raum nicht kontinuierlich und/oder vollständig sein wie eine herkömmliche dreidimensionale Szenerie, zumal insbesondere aus einem einzelnen zweidimensionalen Bild gar nicht eindeutig auf eine bestimmte dreidimensionale Szenerie geschlossen werden kann.
Vielmehr gibt es mehrere dreidimensionale Szenerien, die bei Abbildung mit dem Quell- Kamerasystem das gleiche zweidimensionale Quell-Bild erzeugen. Die aus einem einzelnen Quell-Bild gewonnene dreidimensionale Darstellung kann also beispielsweise eine Punktwolke im dreidimensionalen Raum sein, in der es genauso viele Punkte gibt wie das Quell-Bild Quell-Pixel hat und in der der dreidimensionale Raum im Übrigen als leer angenommen wird. Bei einer Auftragung dieser Punkte in einer dreidimensionalen Darstellung ist das dreidimensionale Volumen somit dünn besetzt.
Zusatzinformation, die Quell-Pixeln zugeordnet ist, wird den jeweils zugehörigen 3D-Orten zugeordnet. In dem zuvor genannten Beispiel mit der zusätzlichen Wärmebildkamera wird also jedem Punkt in der dreidimensionalen Punktwolke, die zu dem Quell-Bild korrespondiert, der zu dem entsprechenden Pixel im Quell- Bild gehörige Intensitätswert des Wärmebildes zugeordnet. Den 3D-Orten werden nun diejenigen Ziel-Pixel des Ziel-Bildes zugeordnet, deren Positionen im Ziel-Bild zu den 3D-Orten korrespondieren. Es wird also ermittelt, auf welche Ziel-Pixel im Ziel-Bild die 3D-Orte abgebildet werden, wenn die dreidimensionale Szenerie mit dem Ziel- Kamerasystem aufgenommen wird. Diese Zuordnung ergibt sich aus dem Zusammenspiel der Anordnung des Ziel- Kamerasystems im Raum mit den Abbildungseigenschaften des Ziel- Kamerasystems.
Die Zusatzinformation, die den 3D-Orten zugeordnet ist, wird nun den zugehörigen Ziel-Pixeln zugeordnet.
Auf diese Weise kann die Zusatzinformation, die ursprünglich im Zusammenhang mit dem Quell-Bild erarbeitet wurde, auf das Ziel-Bild übertragen werden. Es ist also möglich, das Ziel-Bild mit dieser Zusatzinformation zu versehen, ohne die Zusatzinformation physikalisch neu aufnehmen zu müssen.
Der Grundgedanke hinter dem Verfahren ist, dass die Zusatzinformation, wie in dem genannten Beispiel die Infrarot- Intensität aus dem Wärmebild, physikalisch primär nicht an das Quell-Pixel des Quell-Bildes gebunden ist, sondern an den zugehörigen 3D-Ort im dreidimensionalen Raum. An diesem 3D-Ort befindet sich in diesem Beispiel Materie, die Infrarotstrahlung abgibt. Dieser 3 D-Ort wird lediglich im Quell-Bild und im Ziel-Bild jeweils auf unterschiedliche Positionen abgebildet, da die Quell-Kamera und die Ziel-Kamera den 3D-Ort aus
unterschiedlichen Perspektiven betrachten. Diesen Zusammenhang macht sich das Verfahren zu Nutze, indem zu Quell-Pixeln des Quell-Bildes 3D-Orte in einem dreidimensionalen„Weltkoordinatensystem“ rekonstruiert werden und anschließend diese 3D-Orte Ziel-Pixeln des Ziel-Bildes zugeordnet werden.
In einer besonders vorteilhaften Ausgestaltung wird eine semantische
Klassifikation von Bildpixeln als Zusatzinformation gewählt. Eine solche semantische Klassifikation kann beispielsweise jedem Pixel die Information zuordnen, von welchem Typ das Objekt ist, zu dem das Pixel gehört. Das Objekt kann beispielsweise ein Fahrzeug, eine Fahrbahn, eine Fahrbahnmarkierung, eine Fahrbahnbegrenzung, ein bauliches Hindernis oder ein Verkehrszeichen sein. Die semantische Klassifikation wird häufig mit neuronalen Netzwerken oder anderen Kl-Modulen vorgenommen. Diese Kl-Module werden trainiert, indem ihnen eine Vielzahl von Lern-Bildern eingegeben wird, zu denen jeweils die korrekte semantische Klassifikation als„ground truth“ bekannt ist. Es wird geprüft, inwieweit die vom Kl-Modul ausgegebene Klassifikation der„ground truth“ entspricht, und aus den Abweichungen wird gelernt, indem die
Verarbeitung des Kl-Moduls entsprechend optimiert wird.
Die„ground truth“ wird üblicherweise erhalten, indem eine Vielzahl von Bildern von Menschen semantisch klassifiziert wird. D.h., der Mensch markiert in den Bildern, welche Pixel zu Objekten welcher Klassen gehören. Dieser„Labelling“ genannte Prozess ist zeitaufwändig und teuer. Bislang war die auf diese Weise von Menschen eingepflegte Zusatzinformation immer an genau das
Kamerasystem gebunden, mit dem die Lern-Bilder aufgenommen worden waren. Wurde zu einem Kamerasystem eines anderen Typs gewechselt, wie etwa von einer normalen perspektivischen Kamera zu einer Fish- Eye- Kamera, oder wurde auch nur die Perspektive des bestehenden Kamerasystems geändert, so musste der Prozess des„Labellings“ komplett von vorne beginnen. Indem nun die für die mit dem Quell- Kamerasystem aufgenommenen Quell-Bilder schon vorhandene semantische Klassifikation auf die mit dem Ziel- Kamerasystem aufgenommenen Ziel-Bilder übertragen werden kann, kann die zuvor im Zusammenhang mit den Quell- Bildern investierte Arbeit weiter genutzt werden.
Dies ist insbesondere wichtig im Zusammenhang mit Anwendungen in
Fahrzeugen. In Fahrassistenzsystemen und Systemen für das zumindest teilweise automatisierte Fahren kommen immer mehr Kameras und immer mehr unterschiedliche Kameraperspektiven zum Einsatz.
So ist es beispielsweise gängig, eine Frontkamera mittig hinter der
Windschutzscheibe zu verbauen. Für diese Kameraperspektive liegt in großer Menge„ground truth“ in Form von durch Menschen semantisch klassifizierten Bildern vor und wird derzeit noch immer angefertigt. Daneben entstehen jedoch auch immer mehr Systeme, die zusätzlich zu dem Frontkamerasystem weitere Kameras enthalten, etwa im Frontbereich im Kühlerbereich, im Seitenspiegel oder in der Heckklappe. Das neuronale Netzwerk, das mit Aufnahmen der Frontkamera und zugehöriger„ground truth“ trainiert wurde, liefert nun eine semantische Klassifikation dessen, was die übrigen Kameras aus ihren anderen Perspektiven sehen. Diese semantische Klassifikation kann als„ground truth“ für das Training eines neuronalen Netzwerks mit Aufnahmen dieser übrigen Kameras verwendet werden. Die im Zusammenhang mit der Frontkamera als Quell- Kamera erworbene„ground truth“ kann also für das Training der übrigen Kameras als Ziel- Kameras weitergenutzt werden. Es muss also für das Training mehrerer Kameras nur einmal„ground truth“ erworben werden, d.h., der Aufwand für das Erwerben von„ground truth“ vervielfacht sich nicht mit der Anzahl der Kameras und Perspektiven.
Die Zuordnung der Quell-Pixel zu 3D-Orten kann auf beliebige Weise erfolgen. Beispielsweise kann zu mindestens einem Quell-Pixel der zugehörige 3D-Ort aus einem Zeitprogramm ermittelt werden, nach dem sich mindestens eine Quell- Kamera des Quell- Kamerasystems im Raum bewegt. Beispielsweise kann ein „Structure from Motion“-Algorithmus verwendet werden, um das Zeitprogramm der Bewegung einer einzelnen Quell-Kamera in eine Zuordnung der Quell-Pixel zu 3D-Orten umzuwandeln.
In einer besonders vorteilhaften Ausgestaltung wird ein Quell- Kamerasystem mit mindestens zwei Quell- Kameras gewählt. Zum einen können dann die zu Quell- Pixeln zugehörigen 3D-Orte durch stereoskopische Auswertung von Quell- Bildern ermittelt werden, die von beiden 3D-Kameras aufgenommen wurden. Die mindestens zwei Quell- Kameras können insbesondere in einem Stereo- Kamerasystem enthalten sein, das zu jedem Pixel unmittelbar eine
Tiefeninformation liefert. Diese Tiefeninformation kann genutzt werden, um die Quell-Pixel des Quell-Bildes unmittelbar 3D-Orten zuzuordnen.
Zum anderen können auch Quell-Pixel aus Quell-Bildern, die von beiden Quell- Kameras aufgenommen wurden, zusammengeführt werden, um mehr Ziel-Pixeln des Ziel-Bildes Zusatzinformationen zuzuordnen. Da die Perspektiven des Quell- Kamerasystems und des Ziel- Kamerasystems unterschiedlich sind, bilden beide Kamerasysteme nicht genau den gleichen Ausschnitt der dreidimensionalen Szenerie ab. Wenn also die Zusatzinformation von allen Quell-Pixeln eines einzigen Quell-Bildes auf Ziel-Pixel des Ziel-Bildes transferiert ist, werden hiervon nicht alle Ziel-Pixel des Ziel-Bildes abgedeckt sein. Es wird also Ziel-Pixel geben, denen noch keine Zusatzinformation zugeordnet ist. Wenn mehrere Quell- Kameras verwendet werden, vorzugsweise zwei oder drei Quell- Kameras, dann können diesbezügliche Lücken im Ziel-Bild gefüllt werden. Für das Training eines neuronalen Netzwerks oder anderen Kl-Moduls auf der Basis des Ziel-Bildes ist dies jedoch nicht zwingend notwendig. Insbesondere können bei einem derartigen Training Ziel-Pixel des Ziel-Bildes, zu denen es keine Zusatzinformationen gibt, von der Bewertung durch das beim Training
verwendete Gütemaß (etwa eine Fehlerfunktion) ausgenommen werden.
In einer weiteren Ausprägung des Systems kann zur Erlangung der sowohl von dem Quell- als auch von dem Ziel- Kamera-System beobachteten 3D-Struktur ein beliebiger 3D-Sensor eine Punktwolke liefern, die mit geeignetem
Kalibrierverfahren sowohl die Quell-Pixel als auch die Ziel-Pixel im 3D-Raum verortet und damit die Übertragbarkeit der Trainingsinformation vom Quellsystem zum Zielsystem sicherstellt.
Mögliche weitere 3D Sensoren, die für das Training lediglich die verbindende 3D- Struktur der beobachteten Szene bestimmen, könnte ein zusätzlicher
bildgebender Time-of-Flight-(TOF)-Sensor oder etwa ein Lidar-Sensor sein.
In einer weiteren vorteilhaften Ausgestaltung werden ein Quell-Bild und ein Ziel- Bild gewählt, die gleichzeitig aufgenommen worden sind. Auf diese Weise ist sichergestellt, dass gerade bei einer dynamischen Szenerie mit bewegten Objekten das Quell-Bild und das Ziel-Bild, abgesehen von der unterschiedlichen Kameraperspektive, den gleichen Zustand der Szenerie abbilden. Gibt es hingegen einen zeitlichen Versatz zwischen dem Quell-Bild und dem Ziel-Bild, ist ein Objekt, das in dem einen Bild noch vorhanden war, bis zur Aufnahme des anderen Bildes möglicherweise schon aus dem Erfassungsbereich
verschwunden.
In einer besonders vorteilhaften Ausgestaltung werden ein Quell- Kamerasystem und ein Ziel- Kamerasystem gewählt, die in fester relativer Orientierung zueinander an ein und dasselbe Fahrzeug montiert sind. Gerade bei
Anwendungen in und an Fahrzeugen sind die beobachteten Szenerien in der Regel dynamisch. Sind die beiden Kamerasysteme in fester relativer
Orientierung zueinander montiert, ist insbesondere eine gleichzeitige
Bildaufnahme möglich. Die feste Verbindung der beiden Kamerasysteme bewirkt, dass der Unterschied der Perspektiven zwischen beiden Kamerasystemen während der Fahrt konstant bleibt.
Wie zuvor erläutert, ist die Übertragung von Zusatzinformation von einem Quell- Bild zu einem Ziel-Bild unabhängig davon nützlich, worin die Zusatzinformation konkret besteht. Jedoch ist eine wichtige Anwendung die Weiternutzung von „ground truth“, die für die Verarbeitung von Bildern eines Kamerasystems mit einem Kl-Modul generiert wurde, für die Verarbeitung von Bildern eines anderen Kamerasystems.
Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren eines Kl- Moduls, das einem von einem Kamerasystem aufgenommenen Bild, und/oder Pixeln eines solchen Bildes, durch Verarbeitung in einer internen
Verarbeitungskette Zusatzinformation zuordnet. Diese Zusatzinformation kann insbesondere eine Klassifikation von Bildpixeln sein. Die interne
Verarbeitungskette des Kl-Moduls kann insbesondere ein künstliches neuronales Netzwerk (KNN) beinhalten.
Das Verhalten der internen Verarbeitungskette ist durch Parameter festgelegt. Diese Parameter werden beim Trainieren des Kl-Moduls optimiert. Bei einem KNN können die Parameter beispielsweise Gewichte sein, mit denen die
Eingaben, die ein Neuron erhält, untereinander gewichtet werden.
Beim Trainieren werden Lern-Bilder in das Kl-Modul eingegeben. Die vom Kl- Modul ausgegebene Zusatzinformation wird mit Lern-Zusatzinformation verglichen, die dem jeweiligen Lern-Bild zugeordnet ist. Das Ergebnis des Vergleichs wird zur Anpassung der Parameter herangezogen. Beispielsweise kann eine Fehlerfunktion (Löss- Funktion) von der im Vergleich ermittelten Abweichung abhängen, und die Parameter können mit dem Ziel optimiert werden, diese Fehlerfunktion zu minimieren. Hierzu kann jedes beliebige multivariate Optimierungsverfahren genutzt werden, wie beispielsweise ein Gradientenabstiegsverfahren.
Die Lern-Zusatzinformation wird mindestens teilweise mit dem zuvor
beschriebenen Verfahren den Pixeln des Lern-Bildes als Ziel-Pixeln zugeordnet. Das heißt, es wird für ein anderes Kamerasystem, und/oder für ein aus einer anderen Perspektive beobachtendes Kamerasystem, erstellte Lern- Zusatzinformation weitergenutzt. Die Generierung von„ground truth“ für das konkrete Kamerasystem, das im Zusammenhang mit dem trainierten Kl-Modul eingesetzt werden soll, kann also zumindest teilweise automatisiert werden. Da die manuelle Generierung von„ground truth“ sehr arbeitsaufwändig war, werden somit die Entwicklungskosten für Kombinationen von Kl-Modulen und neuen Kamerasystemen deutlich reduziert. Weiterhin wird auch die Fehleranfälligkeit vermindert, da einmal geprüfte„ground truth“ vielfach weitergenutzt werden kann.
Die Verfahren können insbesondere auf einem Computer, und/oder auf einem Steuergerät, durchgeführt werden und insoweit in einer Software verkörpert sein. Diese Software ist ein eigenständiges Produkt mit Kundennutzen. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem Computer, und/oder einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, eines der beschriebenen Verfahren auszuführen.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:
Figur 1 Ausführungsbeispiel des Verfahrens 100;
Figur 2 Beispielhaftes Quell-Bild 21;
Figur 3 Beispielhafte Übersetzung des Quell-Bildes 21 in eine Punktwolke im dreidimensionalen Raum;
Figur 4 Beispielhaftes Ziel-Bild 31 mit aus dem Quell-Bild 21 übertragener Zusatzinformation 4, 41, 42;
Figur 5 Beispielhafte Anordnung eines Quell- Kamerasystems 2 und eines Ziel- Kamerasystems 3 an einem Fahrzeug 6;
Figur 6 Ausführungsbeispiel des Verfahrens 200. Nach Figur 1 werden in Schritt 110 des Verfahrens 100 Quell-Pixeln 21a eines Quell-Bildes 21 3D-0rte 5 im dreidimensionalen Raum zugeordnet. Dabei kann gemäß Block 111 zu mindestens einem Quell-Pixel 21a der zugehörige 3D-Ort 5 aus einem Zeitprogramm ermittelt werden, nach dem sich mindestens eine Quell- Kamera des Quell- Kamerasystems 2 im Raum bewegt. Alternativ oder auch in Kombination hierzu kann gemäß Block 112 zu mindestens einem Quell-Pixel 21a der zugehörige 3D-Ort 5 durch stereoskopische Auswertung von Quell-Bildern 21 ermittelt werden, die von zwei Quell- Kameras aufgenommen wurden.
Letztere Option setzt voraus, dass in Schritt 105 ein Quell- Kamerasystem mit mindestens zwei Quell-Kameras gewählt wurde. Des Weiteren können gemäß dem optionalen Schritt 106 ein Quell-Bild 21a und ein Ziel-Bild 31a gewählt werden, die gleichzeitig aufgenommen worden sind. Gemäß dem optionalen Schritt 107 können weiterhin ein Quell- Kamerasystem 2 und ein Ziel- Kamerasystem 3 gewählt werden, die in fester relativer Orientierung 61 zueinander an ein und dasselbe Fahrzeug 6 montiert sind.
In Schritt 120 wird die Zusatzinformation 4, 41, 42, die den Quell-Pixeln 21a des Quell-Bildes 21 zugeordnet ist, den jeweils zugehörigen 3D-Orten 5 zugeordnet. In Schritt 130 werden den 3D-Orten diejenigen Ziel-Pixel 31a des Ziel-Bildes 31 zugeordnet, deren Positionen im Ziel-Bild 31 zu den 3D-Orten 5 korrespondieren. In Schritt 140 wird die Zusatzinformation 4, 41, 42, die 3D-Orten 5 zugeordnet ist, den zugehörigen Ziel-Pixeln 31a zugeordnet.
Dieser Prozess wird in den Figuren 2 bis 4 näher erläutert.
Figur 2 zeigt ein zweidimensionales Quell-Bild 21 mit Koordinatenrichtungen x und y, das ein Quell- Kamerasystem 2 von einer Szenerie 1 aufgenommen hat. Das Quell-Bild 21 wurde semantisch segmentiert. In dem in Figur 2 gezeigten Beispiel wurde somit zu einem Teilbereich des Quell-Bildes 21 die
Zusatzinformation 4, 41 erworben, dass dieser Teilbereich zu einem in der Szenerie 1 vorhandenen Fahrzeug 11 gehört. Zu anderen Teilbereichen des Quell-Bildes 21 wurde die Zusatzinformation 4, 42 erworben, dass diese
Teilbereiche zu in der Szenerie 1 vorhandenen Fahrbahnmarkierungen 12 gehören. Ein einzelnes Pixel 21a des Quell-Bildes 21 ist in Figur 2 exemplarisch markiert. In Figur 3 sind die Quell-Pixel 21a in 3D-0rte 5 im dreidimensionalen Raum übersetzt, wobei dies für das Ziel-Pixel 21a aus Figur 2 mit dem Bezugszeichen 5 bezeichnet ist. Wenn zu einem Quell-Pixel 21a die Zusatzinformation 4, 41 hinterlegt war, dass das Quell-Pixel 21a zu einem Fahrzeug 11 gehört, dann wurde diese Zusatzinformation 4, 41 auch dem entsprechenden 3D-Ort 5 zugewiesen. Wenn zu einem Quell-Pixel 21a die Zusatzinformation 4, 42 hinterlegt war, dass das Quell-Pixel 21a zu einer Fahrbahnmarkierung 12 gehört, dann wurde diese Zusatzinformation 4, 42 auch dem entsprechenden 3D-Ort 5 zugewiesen. Dies ist durch unterschiedliche Symbole dargestellt, mit denen die jeweiligen 3D-Orte 5 in der in Figur 3 gezeigten Punktwolke dargestellt sind.
In Figur 3 sind nur genauso viele 3D-Orte 5 verzeichnet wie es Quell-Pixel 21a im Quell-Bild 21 gibt. Daher ist der dreidimensionale Raum in Figur 3 nicht vollständig ausgefüllt, sondern vielmehr durch die Punktwolke nur dünn besetzt. Insbesondere ist nur der Heckbereich des Fahrzeugs 11 dargestellt, da auch nur dieser Bereich in Figur 2 sichtbar ist.
In Figur 3 ist weiterhin eingezeichnet, dass das in Figur 2 gezeigte Quell-Bild 21 aus der Perspektive A aufgenommen wurde. Als rein illustratives Beispiel ohne Anspruch auf reale Anwendbarkeit sei das Ziel-Bild 31 aus der in Figur 3 eingezeichneten Perspektive B aufgenommen.
Dieses beispielhafte Ziel-Bild 31 ist in Figur 4 dargestellt. Hier ist exemplarisch eingezeichnet, dass das Quell-Pixel 21a auf dem Umweg über den zugehörigen 3D-Ort 5 letztendlich dem Ziel-Pixel 31a zugeordnet wurde. Allen Ziel-Pixeln 31a, zu denen es in Figur 2 ein zugehöriges Quell-Pixel 21a mit hinterlegter
Zusatzinformation 4, 41, 42 gibt, ist dementsprechend, auf dem Umweg über den zugehörigen 3D-Ort 5, diese Zusatzinformation 4, 41, 42 zugeordnet. Die insoweit in die semantische Segmentierung des Quell-Bildes 21 investierte Arbeit wurde also vollständig wiederverwertet.
Wie in Figur 4 angedeutet ist, ist in der hier gezeigten Perspektive B mehr von dem Fahrzeug 11 sichtbar als in der Perspektive A des Quell-Bildes. Die
Zusatzinformation 4, 41, dass Quell-Pixel 21a zum Fahrzeug 11 gehören, wurde aber nur bezüglich des in Figur 2 sichtbaren Heckbereichs des Fahrzeugs 11 erfasst. Somit ist der in Figur 4 gestrichelt eingezeichnete Frontbereich des Fahrzeugs 11 nicht mit dieser Zusatzinformation 4, 41 versehen. Dieses extreme konstruierte Beispiel zeigt, dass es vorteilhaft ist, Quell-Bilder 21 von mehreren Quell-Kameras zu kombinieren, um möglichst viele Ziel-Pixel 31a des Ziel-Bildes 31 mit Zusatzinformation 4, 41, 42 zu versehen.
Figur 5 zeigt eine beispielhafte Anordnung aus einem Quell- Kamerasystem 2 und einem Zielkamerasystem 3, die beide in einer festen relativen Orientierung 61 zueinander an das gleiche Fahrzeug 6 montiert sind. Diese feste relative
Orientierung 61 wird in dem in Figur 5 gezeigten Beispiel durch einen starren Versuchsträger vorgegeben.
Das Quell- Kamerasystem 2 beobachtet die Szenerie 1 aus einer ersten
Perspektive A'. Das Ziel- Kamerasystem 3 beobachtet die gleiche Szenerie 1 aus einer zweiten Perspektive B'. Das beschriebene Verfahren 100 ermöglicht es, Zusatzinformation 4, 41, 42, die im Zusammenhang mit dem Quell- Kamerasystem 2 erworben wurde, im Kontext des Ziel- Kamerasystems 3 nutzbar zu machen.
Figur 6 zeigt ein Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines Kl-Moduls 50. Das Kl-Modul 50 umfasst eine interne Verarbeitungskette 51, deren Verhalten durch Parameter 52 festgelegt ist.
In Schritt 210 des Verfahrens 200 werden Lern-Bilder 53 mit Pixeln 53a in das Kl-Modul 50 eingegeben. Das Kl-Modul 50 liefert zu diesen Lern-Bildern
Zusatzinformation 4, 41, 42, wie beispielsweise eine semantische
Segmentierung. Lern-Daten 54 dahingehend, welche Zusatzinformation 4, 41, 42 zu einem gegebenen Lern-Bild 53 jeweils erwartet wird, wird gemäß Schritt 215 mittels des Verfahrens 100 in die Perspektive transferiert, aus der das Lern-Bild 53 aufgenommen wurde.
In Schritt 220 wird die tatsächlich vom Kl-Modul 50 gelieferte Zusatzinformation 4, 41, 42 mit der Lern-Zusatzinformation 54 verglichen. Das Ergebnis 220a dieses Vergleichs 220 wird in Schritt 230 genutzt, um die Parameter 52 der internen Verarbeitungskette 51 des Kl-Moduls 50 zu optimieren.

Claims

Ansprüche
1. Verfahren (100) zur Anreicherung eines Ziel-Bildes (31), welches ein Ziel- Kamerasystem (3) von einer Szenerie (1) aufgenommen hat, mit
Zusatzinformation (4, 41, 42), mit der mindestens ein Quell-Bild (21), welches ein Quell- Kamerasystem (2) von der gleichen Szenerie (1) aus einer anderen Perspektive aufgenommen hat, bereits angereichert ist, mit den Schritten:
• Quell-Pixeln (21a) des Quell-Bildes (21) werden 3D-Orte (5) im
dreidimensionalen Raum zugeordnet (110), die zu den Positionen der Quell-Pixel (21a) im Quell-Bild (21) korrespondieren;
• Zusatzinformation (4, 41, 42), die Quell-Pixeln (21a) zugeordnet ist, wird den jeweils zugehörigen 3D-Orten (5) zugeordnet (120);
• den 3D-Orten (5) werden diejenigen Ziel-Pixel (31a) des Ziel-Bildes (31) zugeordnet (130), deren Positionen im Ziel-Bild (31) zu den 3D-Orten (5) korrespondieren;
• Zusatzinformation (4, 41, 42), die 3D-Orten (5) zugeordnet ist, wird den zugehörigen Ziel-Pixeln (31a) zugeordnet (140).
2. Verfahren (100) nach Anspruch 1, wobei zu mindestens einem Quell- Pixel (21a) der zugehörige 3D-Ort (5) aus einem Zeitprogramm ermittelt wird (111), nach dem sich mindestens eine Quell-Kamera des Quell- Kamerasystems (2) im Raum bewegt.
3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei ein Quell- Kamerasystem (2) mit mindestens zwei Quell- Kameras gewählt wird (105).
4. Verfahren (100) nach Anspruch 3, wobei zu mindestens einem Quell- Pixel (21a) der zugehörige 3D-Ort (5) durch stereoskopische Auswertung von Quell-Bildern (21) ermittelt wird (112), die von beiden Quell-Kameras
aufgenommen wurden.
5. Verfahren (100) nach einem der Ansprüche 3 bis 4, wobei Quell-Pixel aus Quell-Bildern (21), die von beiden Quell-Kameras aufgenommen wurden, zusammengeführt werden, um mehr Ziel-Pixeln (31a) des Ziel-Bildes (31) Zusatzinformation (4, 41, 42) zuzuordnen. 6. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei ein Quell-Bild (21a) und ein Ziel-Bild (31a) gewählt werden (106), die gleichzeitig
aufgenommen worden sind.
7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei ein Quell- Kamerasystem (2) und ein Ziel- Kamerasystem (3) gewählt werden (107), die in fester relativer Orientierung (61) zueinander an ein und dasselbe Fahrzeug (6) montiert sind.
8. Verfahren (200) zum Trainieren eines Kl-Moduls (50), welches einem von einem Kamerasystem (3) aufgenommenen Bild (31), und/oder Pixeln (31a) eines solchen Bildes (31), durch Verarbeitung in einer internen
Verarbeitungskette (51) Zusatzinformation (4, 41, 42) zuordnet, wobei das Verhalten der internen Verarbeitungskette (51) durch Parameter (52) festgelegt ist, wobei
• Lern-Bilder (53) in das Kl-Modul (50) eingegeben werden (210),
• die vom Kl-Modul (50) ausgegebene Zusatzinformation (4, 41, 42) mit dem jeweiligen Lern-Bild (53) zugeordneter Lern-Zusatzinformation (54) verglichen wird (220),
• das Ergebnis (220a) des Vergleichs (220) zur Anpassung der Parameter
(52) herangezogen wird (230) und
• die Lern-Zusatzinformation (54) mindestens teilweise mit dem Verfahren (100) nach einem der Ansprüche 1 bis 5 den Pixeln (53a) des Lern-Bildes
(53) als Ziel-Pixeln (31a) zugeordnet wird (215).
9. Verfahren (100, 200) nach einem der Ansprüche 1 bis 8, wobei eine semantische Klassifikation von Bildpixeln (21a, 31a) als Zusatzinformation (4, 41, 42) gewählt wird.
10. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem Computer, und/oder einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 9 auszuführen.
EP19797243.3A 2018-12-13 2019-10-29 Transfer von zusatzinformation zwischen kamerasystemen Withdrawn EP3895415A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018221625.8A DE102018221625A1 (de) 2018-12-13 2018-12-13 Transfer von Zusatzinformation zwischen Kamerasystemen
PCT/EP2019/079535 WO2020119996A1 (de) 2018-12-13 2019-10-29 Transfer von zusatzinformation zwischen kamerasystemen

Publications (1)

Publication Number Publication Date
EP3895415A1 true EP3895415A1 (de) 2021-10-20

Family

ID=68424887

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19797243.3A Withdrawn EP3895415A1 (de) 2018-12-13 2019-10-29 Transfer von zusatzinformation zwischen kamerasystemen

Country Status (5)

Country Link
US (1) US20210329219A1 (de)
EP (1) EP3895415A1 (de)
CN (1) CN113196746A (de)
DE (1) DE102018221625A1 (de)
WO (1) WO2020119996A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020211808A1 (de) 2020-09-22 2022-03-24 Robert Bosch Gesellschaft mit beschränkter Haftung Erzeugen gestörter Abwandlungen von Bildern

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10246355A1 (de) * 2002-10-04 2004-04-15 Rust, Georg-Friedemann, Dr. Interaktive virtuelle Endoskopie
CN101443817B (zh) * 2006-03-22 2013-06-12 皮尔茨公司 用于确定场景的三维重建时的对应关系的方法和装置
US8330801B2 (en) 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion
US8958630B1 (en) 2011-10-24 2015-02-17 Google Inc. System and method for generating a classifier for semantically segmenting an image
US9414048B2 (en) 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
US20140071240A1 (en) * 2012-09-11 2014-03-13 Automotive Research & Testing Center Free space detection system and method for a vehicle using stereo vision
WO2014115817A1 (ja) * 2013-01-23 2014-07-31 株式会社東芝 動作情報処理装置
JP7018566B2 (ja) * 2017-04-28 2022-02-14 パナソニックIpマネジメント株式会社 撮像装置、画像処理方法及びプログラム
JP2018188043A (ja) * 2017-05-10 2018-11-29 株式会社ソフトウェア・ファクトリー 操船支援装置
US10977818B2 (en) * 2017-05-19 2021-04-13 Manor Financial, Inc. Machine learning based model localization system
CN111238494B (zh) * 2018-11-29 2022-07-19 财团法人工业技术研究院 载具、载具定位系统及载具定位方法

Also Published As

Publication number Publication date
WO2020119996A1 (de) 2020-06-18
DE102018221625A1 (de) 2020-06-18
CN113196746A (zh) 2021-07-30
US20210329219A1 (en) 2021-10-21

Similar Documents

Publication Publication Date Title
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
DE112020001103T5 (de) Multitasking-Wahrnehmungsnetzwerk mit Anwendungen für ein Szenenverständnis und ein fortschrittliches Fahrerassistenzsystem
DE102016208056A1 (de) Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
WO2010102840A1 (de) Verfahren und vorrichtung zur reduktion des speicherbedarfs bei der bestimmung von disparitätswerten für mindestens zwei stereoskopisch aufgenommene bilder
DE102019131971A1 (de) Ein Bildverarbeitungsmodul
DE10141055B4 (de) Verfahren zur Bestimmung von Bewegungsinformationen
DE102019132996A1 (de) Schätzen einer dreidimensionalen Position eines Objekts
DE102016114693A1 (de) Verfahren zum Unterstützen eines Fahrers eines Kraftfahrzeugs beim Führen des Kraftfahrzeugs, Fahrerassistenzsystem sowie Kraftfahrzeug
EP3895415A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE102020200728A1 (de) Rekonstruieren von Elevationsinformationen aus Radardaten
DE102017201796A1 (de) Steuervorrichtung zum Ermitteln einer Eigenbewegung eines Kraftfahrzeugs sowie Kraftfahrzeug und Verfahren zum Bereitstellen der Steuervorrichtung
DE102019219734A1 (de) Auswertungssystem für Messdaten aus mehreren Domänen
DE102019220335A1 (de) Semantische segmentierung unter verwendung von fahreraufmerksamkeitsinformationen
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102017210415B4 (de) Verfahren zum Bereitstellen einer Bildmaske für die Abgrenzung einer Interessensregion in einem Kamerabild einer Umfeldkamera eines Kraftfahrzeugs sowie Steuervorrichtung, Umfeldkamera und Kraftfahrzeug
DE102019102672A1 (de) Intersensorisches lernen
DE102014219418B4 (de) Verfahren zur Stereorektifizierung von Stereokamerabildern und Fahrerassistenzsystem
WO2021245151A1 (de) Unüberwachtes lernen einer gemeinsamen darstellung von daten von sensoren unterschiedlicher modalität
DE102020110243A1 (de) Computerimplementiertes Verfahren zur Datenaugmentation
EP3754544A1 (de) Erkennungssystem, arbeitsverfahren und trainingsverfahren
DE102019103192A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein digitales, lernfähiges Kamerasystem
DE102005002636A1 (de) Verfahren und System zur Verarbeitung von Videodaten eines Kamerasystems
DE102023002181B3 (de) Adaptive Filterkette zum Anzeigen eines Umfeldmodells in einem Fahrzeug
DE102022130692B3 (de) Computerimplementiertes Verfahren zur Erstellung eines dreidimensionalen virtuellen Modells einer Umgebung eines Kraftfahrzeugs
DE102018207976A1 (de) Verfahren und Vorrichtung zum Anzeigen einer Fahrzeugumgebung

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210713

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230509

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20240227