DE102021133203A1 - Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device - Google Patents

Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device Download PDF

Info

Publication number
DE102021133203A1
DE102021133203A1 DE102021133203.6A DE102021133203A DE102021133203A1 DE 102021133203 A1 DE102021133203 A1 DE 102021133203A1 DE 102021133203 A DE102021133203 A DE 102021133203A DE 102021133203 A1 DE102021133203 A1 DE 102021133203A1
Authority
DE
Germany
Prior art keywords
segmentation
semantic
model
correction
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021133203.6A
Other languages
German (de)
Inventor
Christopher Kuhn
Goran Petrovic
Markus Hofbauer
Eckehard Steinbach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Technische Universitaet Muenchen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG, Technische Universitaet Muenchen filed Critical Bayerische Motoren Werke AG
Priority to DE102021133203.6A priority Critical patent/DE102021133203A1/en
Publication of DE102021133203A1 publication Critical patent/DE102021133203A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Segmentierungseinrichtung (2) zum Erzeugen einer semantischen Segmentierung (12) eines Bildes sowie ein Verfahren zum Herstellen einer entsprechenden Segmentierungseinrichtung (2). Zum Erzeugen der semantischen Segmentierung (12) wird ein aus ursprünglichen Bilddaten durch Komprimieren erzeugtes komprimiertes Bild (1) erfasst. Das komprimierte Bild (1) wird dann unabhängig von dessen Kompressionsstufe mittels eines vorgegebenen trainierten Segmentierungsmodells (4) verarbeitet, um eine vorläufige semantische Segmentierung (5) zu erzeugen. Basierend darauf wird dann mittels eines vorgegebenen Korrekturmodells (9, 10), das zum Korrigieren von Segmentierungsfehlern (7) aufgrund von Kompressionsartefakten trainiert ist, eine korrigierte semantische Segmentierung (12) erzeugt.The invention relates to a method and a segmentation device (2) for generating a semantic segmentation (12) of an image and a method for producing a corresponding segmentation device (2). To generate the semantic segmentation (12), a compressed image (1) generated from original image data by compression is recorded. The compressed image (1) is then processed, regardless of its compression level, using a predetermined trained segmentation model (4) in order to generate a preliminary semantic segmentation (5). Based on this, a corrected semantic segmentation (12) is then generated using a predetermined correction model (9, 10), which is trained to correct segmentation errors (7) due to compression artifacts.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen einer semantischen Segmentierung eines Bildes sowie eine entsprechende Segmentierungseinrichtung. Die Erfindung betrifft weiter ein Verfahren zum Herstellen einer Segmentierungseinrichtung zum Erzeugen einer semantischen Segmentierung von Bildern.The present invention relates to a method for generating a semantic segmentation of an image and a corresponding segmentation device. The invention further relates to a method for producing a segmentation device for generating a semantic segmentation of images.

Bilddaten werden heutzutage in vielfältiger Form für unterschiedlichste Anwendungen genutzt. Um eine Grundlage für weitere automatisierte Abläufe zur Verfügung zu stellen, ist dabei oftmals eine semantischen Segmentierung der Bilddaten notwendig. Problematisch ist jedoch, dass für das Aufnehmen, Zwischenspeichern, Übermitteln und Verarbeiten der Bilddaten ein signifikanter Datenverarbeitungsaufwand und ein damit einhergehender Ressourcenaufwand verbunden sein kann, an zumindest einem Punkt einer entsprechenden Datenverarbeitungskette aber nur begrenzte Ressourcen zur Verfügung stehen. Dies können beispielsweise eine begrenzte Rechenleistung und/oder Speicherkapazität in einem mobilen bildaufnehmenden Gerät oder einem Fahrzeug oder dergleichen, eine limitierte Bandbreite einer kabellosen Datenverbindung, etwa zum Übermitteln eines Bildes an einen Server oder einen anderen Empfänger, und dergleichen mehr sein. Dementsprechend können grundsätzlich technisch mögliche Anwendungen oftmals nicht oder nur mit begrenzter Qualität genutzt oder eingesetzt werden. Oftmals wird beispielsweise eine Qualität von Bilddaten begrenzt oder reduziert, um damit einhergehend auch eine entsprechende zu verarbeitende und zu transportierende Datenmenge zu reduzieren. Dies kann jedoch zu Artefakten oder Fehlern bei einer weiteren Verarbeitung entsprechender Bilddaten führen und somit letztlich je nach Anwendungsfall eine Genauigkeit, Zuverlässigkeit oder sogar eine Sicherheit darauf basierender Ergebnisse oder Entscheidungen beeinträchtigen. Da Datenverarbeitungsressourcen, wie etwa Berechnungshardware und Übertragungsbandbreite, in vielen Fällen nicht ohne Weiteres aufgestockt werden können, besteht Bedarf für Lösungen der genannten Probleme, die keine aufwändige, kostenintensive und oftmals nicht praktikable Verbesserung oder Vergrößerung der limitierenden Ressourcen verlangen.Today, image data is used in a variety of forms for a wide variety of applications. In order to provide a basis for further automated processes, a semantic segmentation of the image data is often necessary. The problem, however, is that recording, temporarily storing, transmitting and processing the image data can involve a significant data processing effort and an associated resource effort, but only limited resources are available at at least one point in a corresponding data processing chain. This can be, for example, limited computing power and/or storage capacity in a mobile image-recording device or a vehicle or the like, a limited bandwidth of a wireless data connection, for example for transmitting an image to a server or another recipient, and the like. Accordingly, technically possible applications can often not be used or used or only with limited quality. For example, the quality of image data is often limited or reduced in order to thereby also reduce a corresponding amount of data to be processed and transported. However, this can lead to artefacts or errors in further processing of corresponding image data and thus ultimately, depending on the application, impair the accuracy, reliability or even certainty of results or decisions based thereon. Since data processing resources, such as computing hardware and transmission bandwidth, cannot easily be increased in many cases, there is a need for solutions to the problems mentioned that do not require a complex, costly and often impractical improvement or increase in the limiting resources.

Beispielsweise beschreibt die US 2021 / 0 073 949 A1 ein Verfahren zum Verbessern einer Qualität von digitalen Bildern. Darin wird ein Originalbild mittels eines künstlichen neuronalen Netzwerks segmentiert in ein segmentiertes Bild mit einer Vielzahl von Segmenten. Es wird dann eine Kurvenanpassung auf das segmentierte Bild angewendet, um Grenzartefakte zu bestimmen. Die bestimmten Grenzartefakte werden aus dem segmentierten Bild entfernt, um eine geglättetes Umrissbild zu generieren. Aus dem Originalbild und dem geglätteten Umrissbild wird dann ein verbessertes Bild generiert.For example, US 2021/0 073 949 A1 describes a method for improving the quality of digital images. Therein, an original image is segmented into a segmented image having a plurality of segments by means of an artificial neural network. A curve fit is then applied to the segmented image to determine border artifacts. The determined boundary artifacts are removed from the segmented image to generate a smoothed outline image. An enhanced image is then generated from the original image and the smoothed outline image.

Ein wichtiger Anwendungsfall für die Nutzung von Bilddaten für unterschiedliche Funktionen oder Zwecke stellen Kraftfahrzeuge bzw. Assistenzsystem für Kraftfahrzeuge dar. Gleichzeitig ist dies ein Bereich, in dem typischerweise nur begrenzte Ressourcen zur Datenverarbeitung und Datenübertragung zur Verfügung stehen, die zudem nicht ohne Weiteres verbessert oder vergrößert werden können. Auf diesem technischen Gebiet beschreibt die US 2021 / 0 063 198 A1 eine Kartenerzeugung und Lokalisierung für Anwendungen des autonomen Fahrens. Dabei werden für wenigstens zwei Frames aus einer Vielzahl von zu einer Fahrt eines Fahrzeugs korrespondierenden Frames mehrere Verfahrensschritte durchgeführt. Diese umfassen ein Generieren von Sensordaten eines Sensors des Fahrzeugs, ein zumindest teilweise darauf basierendes Berechnen von Outputs, die indikativ sind für Orte von Landmarken, mittels eines neuronalen Netzwerks und ein Konvertieren der Orte zu dreidimensionalen Weltkoordinatenorten relativ zu einem Ursprung des Fahrzeugs. Weiter werden die dreidimensionalen Weltkoordinatenorte encodiert, um zu dem jeweiligen Frame korrespondierende encodierte Daten zu generieren. Diese encodierten Daten werden dann an einen Server übermittelt, um diesen dazu zu veranlassen, eine Karte zu generieren, welche die Landmarken umfasst.Motor vehicles or assistance systems for motor vehicles represent an important application for the use of image data for different functions or purposes. At the same time, this is an area in which typically only limited resources are available for data processing and data transmission, which are not easily improved or increased can become. In this technical field, US 2021/0 063 198 A1 describes map generation and localization for autonomous driving applications. In this case, several method steps are carried out for at least two frames from a large number of frames corresponding to a journey of a vehicle. These include generating sensor data from a sensor of the vehicle, calculating outputs indicative of locations of landmarks based at least in part thereon using a neural network, and converting the locations to three-dimensional world coordinate locations relative to an origin of the vehicle. Furthermore, the three-dimensional world coordinate locations are encoded in order to generate encoded data corresponding to the respective frame. This encoded data is then sent to a server to cause it to generate a map that includes the landmarks.

Aufgabe der vorliegenden Erfindung ist es, eine verbesserte semantische Segmentierung in Anwendungen mit begrenzten Datenverarbeitungsressourcen zu ermöglichen.The object of the present invention is to enable improved semantic segmentation in applications with limited data processing resources.

Diese Aufgabe wird erfindungsgemäß durch die Gegenstände der unabhängigen Patentansprüche gelöst. Mögliche Ausgestaltungen und Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Patentansprüchen, in der Beschreibung und in der Figur offenbart.According to the invention, this object is achieved by the subject matter of the independent patent claims. Possible refinements and developments of the present invention are disclosed in the dependent patent claims, in the description and in the figure.

Das erfindungsgemäße Verfahren dient, kann also angewendet werden zum Erzeugen einer semantischen Segmentierung von Bildern. Bei einem solchen jeweiligen Bild kann es sich beispielsweise um ein mittels einer Kamera aufgenommenes Einzelbild oder einen Frame aus einer Videosequenz handeln. So kann das erfindungsgemäße Verfahren, beispielsweise angewendet werden, um letztlich eine semantische Segmentierung für eine mit einer Kamera eines Kraftfahrzeugs aufgenommene Umgebungs- oder Verkehrsszene zu erzeugen. Das erfindungsgemäße Verfahren kann aber ebenso für beliebige Bilder oder Arten von Bildern in vielfältigen Anwendungen oder Einsatzzwecken genutzt werden.The method according to the invention serves and can therefore be used to generate a semantic segmentation of images. Such a respective image can be, for example, a single image recorded by a camera or a frame from a video sequence. The method according to the invention can thus be used, for example, in order ultimately to generate a semantic segmentation for an environment or traffic scene recorded with a camera of a motor vehicle. However, the method according to the invention can also be used for any images or types of images in a variety of applications or purposes.

In einem Verfahrensschritt des erfindungsgemäßen Verfahrens wird ein aus ursprünglichen Bilddaten durch Komprimieren erzeugtes komprimiertes Bild erfasst. Ein solches Erfassen kann im Sinne der vorliegenden Erfindung beispielsweise bedeuten, dass das komprimierte Bild über eine Daten- oder Eingangsschnittstelle oder eine Datenverbindung empfangen oder aus einem Datenspeicher abgerufen oder ausgelesen wird, beispielsweise durch eine Datenverarbeitungs- bzw. Segmentierungseinrichtung, die zum, insbesondere automatischen oder teilautomatischen, Ausführen des erfindungsgemäßen Verfahrens eingerichtet ist. Die ursprünglichen Bilddaten können beispielsweise das genannte aufgenommene Bild, entsprechende Rohdaten oder beispielsweise aus den Rohdaten oder dem aufgenommenen Bild erzeugte oder abgeleitete vorverarbeitete Daten sein oder umfassen. Das komprimierte Bild kann insbesondere mit einer klassischen oder konventionellen Methode komprimiert sein, wie etwa der JPEG-Komprimierung. Dabei können je nach Anwendungsfall oder beispielsweise für unterschiedliche Bilder bzw. ursprüngliche Bilddaten unterschiedliche Kompressionen bzw. Kompressionsstufen, also etwa unterschiedliche Bit-pro-Pixel-Werte, verwendet werden.In a method step of the method according to the invention, a compressed image generated from original image data by compression is recorded. In the context of the present invention, such a detection can mean, for example, that the compressed image is received via a data or input interface or a data connection or is retrieved or read from a data memory, for example by a data processing or segmentation device which is used for, in particular automatic or semi-automatic, running the method is set up. The original image data can be or include, for example, the recorded image mentioned, corresponding raw data or, for example, preprocessed data generated or derived from the raw data or the recorded image. In particular, the compressed image can be compressed using a classic or conventional method, such as JPEG compression. Depending on the application or, for example, for different images or original image data, different compressions or compression levels, ie, for example, different bit-per-pixel values, can be used.

Das Erzeugen des komprimierten Bildes kann beispielsweise durch die jeweilige Segmentierungseinrichtung, die auch zum Erzeugen der letztendlichen semantischen Segmentierung eingerichtet ist, durchgeführt werden. In diesem Fall kann die Segmentierungseinrichtung beispielsweise die ursprünglichen Bilddaten erfassen und komprimieren und das so erzeugte komprimierte Bild beispielsweise in einem Zwischenspeicher ablegen. Das Erfassen des komprimierten Bildes kann dann dessen Auslesen oder Abrufen aus dem Zwischenspeicher bedeuten oder umfassen. Ebenso kann das komprimierte Bild beispielsweise durch die zum Aufnehmen des Bildes verwendete Kamera oder eine mit dieser verbundene Datenverarbeitungs- oder Vorverarbeitungseinrichtung erzeugt werden, die dann das jeweilige komprimierte Bild beispielsweise an die Segmentierungseinrichtung senden kann - sei es direkt oder beispielsweise über eine oder mehrere Zwischenstationen, wie etwa einen Server oder ein Backend dergleichen.The compressed image can be generated, for example, by the respective segmentation device, which is also set up to generate the final semantic segmentation. In this case, the segmentation device can, for example, capture and compress the original image data and store the compressed image thus generated, for example, in an intermediate memory. Capturing the compressed image can then mean or include reading it out or retrieving it from the buffer. Likewise, the compressed image can be generated, for example, by the camera used to record the image or a data processing or pre-processing device connected to it, which can then send the respective compressed image to the segmentation device, for example - be it directly or, for example, via one or more intermediate stations, such as a server or a backend of the like.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird das jeweilige erfasste komprimierte Bild unabhängig von dessen Kompressionsstufe mittels eines vorgegebenen trainierten Segmentierungsmodells verarbeitet, um eine vorläufige semantische Segmentierung zu erzeugen. Mit anderen Worten kann also ein einziges trainiertes Segmentierungsmodell bereitgestellt und verwendet werden, um beispielsweise in unterschiedlichen Kompressionsstufen komprimierte Bilder zu verarbeiten und zu diesen eine jeweilige vorläufige semantische Segmentierung zu erzeugen. Das jeweilige komprimierte Bild dient hier also als Input für das Segmentierungsmodell, während dessen Output zumindest die jeweilige vorläufige semantische Segmentierung umfasst.In a further method step of the method according to the invention, the respective recorded compressed image is processed independently of its compression level using a predetermined trained segmentation model in order to generate a preliminary semantic segmentation. In other words, a single trained segmentation model can be provided and used, for example, to process images compressed in different compression stages and to generate a respective provisional semantic segmentation for them. The respective compressed image thus serves here as an input for the segmentation model, while its output at least includes the respective preliminary semantic segmentation.

Das Segmentierungsmodell kann beispielsweise ein, insbesondere tiefes, insbesondere faltendes, künstliches neuronales Netz sein oder umfassen. Das Segmentierungsmodell kann anhand von Trainingsdaten trainiert sein, die eine Vielzahl von, insbesondere pixelweise oder pixelgenau, semantisch annotierten Trainingsbildern umfassen können. Dabei können insbesondere mit oder in unterschiedlichen Kompressionsstufen komprimierte Bilder verwendet werden. Letztlich kann hier aber ein zumindest im Wesentlichen beliebiges Segmentierungsmodell verwendet werden, das zum Erzeugen semantischer Segmentierungen aus Bildern oder Bilddaten trainiert ist.The segmentation model can be or include, for example, an in particular deep, in particular convolutional, artificial neural network. The segmentation model can be trained on the basis of training data, which can include a large number of training images, in particular pixel-by-pixel or pixel-precise, semantically annotated. In this case, in particular, images compressed with or in different compression stages can be used. Ultimately, however, an at least essentially arbitrary segmentation model that is trained to generate semantic segmentations from images or image data can be used here.

Der von dem Segmentierungsmodell erzeugte Output wird hier als vorläufige semantische Segmentierung bezeichnet, da sie in aller Regel fehlerbehaftet ist, insbesondere aufgrund der Kompression des als Input dienenden komprimierten Bildes. Da Komprimierungsverfahren für Bilddaten oftmals angewendet werden, um deren Größe, also Datenvolumen zu reduzieren, kann mit der Komprimierung insbesondere ein Informationsverlust verbunden sein und es können Komprimierungsartefakte entstehen, die eine korrekte semantische Segmentierung erschweren bzw. zu Segmentierungsfehlern führen können.The output generated by the segmentation model is referred to here as preliminary semantic segmentation, since it is usually subject to errors, in particular due to the compression of the compressed image serving as input. Since compression methods are often used for image data in order to reduce their size, ie data volume, the compression can in particular be associated with a loss of information and compression artifacts can arise which make correct semantic segmentation more difficult or can lead to segmentation errors.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird basierend auf der vorläufigen semantischen Segmentierung, die hier also auch als fehlerhafte oder fehlerbehaftete semantische Segmentierung bezeichnet werden kann, mittels wenigstens eines vorgegebenen Korrekturmodells eine korrigierte semantische Segmentierung erzeugt. Die vorläufige semantische Segmentierung kann also direkt als Input für das Korrekturmodell verwendet oder zunächst zwischen- oder weiterverarbeitet, beispielsweise neu encodiert oder mit weiteren Daten kombiniert werden, um einen Input für das Korrekturmodell zu erzeugen. Das vorgegebene Korrekturmodell ist zum Korrigieren von aufgrund von Kompressionsartefakten entstandenen Segmentierungsfehlern trainiert. Die korrigierte semantische Segmentierung kann eine korrekte semantische Segmentierung des zugrunde liegenden aufgenommenen Bildes bzw. der ursprünglichen Bilddaten reproduzieren oder zumindest annähern. Das Verarbeiten der vorläufigen semantischen Segmentierung mittels des Korrekturmodells kann effektiv als Nachbearbeitung, also Postprocessing der von dem Segmentierungsmodell erzeugten vorläufigen semantischen Segmentierung aufgefasst werden. Dabei kann die vorläufige semantische Segmentierung pixelgenau oder pixelweise aktualisiert und letztlich als korrigierte oder finale semantische Segmentierung ausgegeben oder bereitgestellt, beispielsweise in einem vorgegebenen oder Datenspeicher abgelegt oder an eine weitere Datenverarbeitungseinrichtung gesendet werden.In a further method step of the method according to the invention, a corrected semantic segmentation is generated based on the provisional semantic segmentation, which can also be referred to here as erroneous or erroneous semantic segmentation, using at least one predetermined correction model. The provisional semantic segmentation can therefore be used directly as input for the correction model or initially processed intermediately or further, for example re-encoded or combined with further data in order to generate an input for the correction model. The predefined correction model is trained to correct segmentation errors that have arisen due to compression artifacts. The corrected semantic segmentation can reproduce or at least approximate a correct semantic segmentation of the underlying captured image or the original image data. The processing of the preliminary semantic segmentation by means of the correction model can effectively be understood as post-processing, ie post-processing of the preliminary semantic segmentation generated by the segmentation model become. The provisional semantic segmentation can be updated pixel-by-pixel or pixel-by-pixel and ultimately output or provided as a corrected or final semantic segmentation, for example stored in a specified or data memory or sent to a further data processing device.

Das vorgegebene Korrekturmodell kann beispielsweise ein trainiertes, insbesondere tiefes, insbesondere faltendes, künstliches neuronales Netz sein oder umfassen. Das Korrekturmodell kann mit komprimierten Trainingsbilddaten trainiert sein, die mit der, insbesondere pixelgenauen, korrekten semantischen Segmentierung des jeweils zugrundeliegenden unkomprimierten Bildes als Zielgröße annotiert, also gelabelt sein können.The predefined correction model can be or include, for example, a trained, in particular deep, in particular convolutional, artificial neural network. The correction model can be trained with compressed training image data, which can be annotated, ie labeled, with the, in particular pixel-precise, correct semantic segmentation of the respective underlying uncompressed image as a target variable.

Das zum initialen semantischen Segmentieren des jeweiligen komprimierten Bildes verwendete Segmentierungsmodell kann als implizite Fehlerfunktion aufgefasst werden, die einigen Bereichen oder Pixeln der jeweiligen korrekten semantischen Segmentierung oder semantischen Karte der unkomprimierten ursprünglichen Bilddaten, aus denen das jeweilige komprimierte Bild erzeugt wurde, fehlerhafte Werte oder Klassifizierungen zuweist. Diese korrekte semantische Segmentierung der ursprünglichen Bilddaten stellt jeweils die zu bestimmende Zielgröße dar und wird fachsprachlich auch als ground truth bezeichnet.The segmentation model used to initially semantically segment each compressed image can be thought of as an implicit error function that assigns incorrect values or classifications to some areas or pixels of each correct semantic segmentation or semantic map of the original uncompressed image data from which each compressed image was generated . This correct semantic segmentation of the original image data represents the target variable to be determined and is also referred to as ground truth in technical terms.

Effektiv kann das Korrekturmodell während seines Trainings lernen oder gelernt haben, eine entsprechende umgekehrte Fehlerfunktion, also die Umkehrfunktion der implizit durch das Segmentierungsmodell angewendeten Fehlerfunktion, anzuwenden oder zu approximieren. Dabei können für unterschiedliche Kompressionsstufen unterschiedliche umgekehrte Fehlerfunktionen durch das Korrekturmodell gelernt werden oder es kann beispielsweise für mehrere unterschiedliche Kompressionsstufen ein jeweiliges Korrekturmodell trainiert werden bzw. trainiert sein. Durch die Verwendung der tatsächlichen fehlerhaften Prädiktionen, also der vorläufigen semantischen Segmentierungen, die durch das Segmentierungsmodell erzeugt wurden, als degradierte oder fehlerbehaftete semantische Segmentierungen und als Input für das Korrekturmodell muss hier keine entsprechende Degradations- oder Fehlerfunktion manuell bestimmt, abgeschätzt oder designt werden.During its training, the correction model can effectively learn or have learned to apply or to approximate a corresponding inverse error function, ie the inverse function of the error function implicitly applied by the segmentation model. In this case, different inverse error functions can be learned by the correction model for different compression stages, or a respective correction model can be or has been trained for a number of different compression stages, for example. By using the actual incorrect predictions, i.e. the preliminary semantic segmentations generated by the segmentation model, as degraded or error-prone semantic segmentations and as input for the correction model, no corresponding degradation or error function has to be determined, estimated or designed manually.

Zum Trainieren des wenigstens einen Korrekturmodells können insbesondere von dem jeweiligen Segmentierungsmodell erzeugte fehlerbehaftete semantische Segmentierungen als Trainingsinput und die ground truth Annotierungen, also die jeweiligen korrekten semantischen Segmentierungen der zugrundeliegenden unkomprimierten ursprünglichen Bilddaten, als Zielgrößen verwendet werden. Das Korrekturmodell wird dann darauf trainiert, die korrekten semantischen Segmentierungen aus den fehlerbehafteten semantischen Segmentierungen zu rekonstruieren.To train the at least one correction model, error-prone semantic segmentations generated by the respective segmentation model can be used as training input and the ground truth annotations, i.e. the respective correct semantic segmentations of the underlying uncompressed original image data, can be used as target variables. The correction model is then trained to reconstruct the correct semantic segmentations from the erroneous semantic segmentations.

Die vorliegende Erfindung ermöglicht es, Segmentierungsfehler des Segmentierungsmodells zu korrigieren, die letztlich durch die Kompression der ursprünglichen Bilddaten verursacht werden. Damit kann ein einziges Segmentierungsmodell für eine große Variationsbreite unterschiedlicher Kompressionsstufen verwendet werden.The present invention makes it possible to correct segmentation errors in the segmentation model, which are ultimately caused by the compression of the original image data. A single segmentation model can thus be used for a wide range of different compression levels.

Das Trainieren eines oder auch mehrerer Korrekturmodelle kann dabei wesentlich weniger aufwendig sein als das Trainieren vollständiger individueller Segmentierungsmodelle für jede der unterschiedlichen Kompressionsstufen. Damit kann trotz der hier vorgeschlagenen Anwendung wenigstens zweier unterschiedlicher Modelle, nämlich des Segmentierungsmodells und des mindestens ein Korrekturmodells, ein letztlich verbessertes Segmentierungsergebnis mit vergleichsweise geringem Aufwand erreicht werden.The training of one or more correction models can be significantly less complex than the training of complete individual segmentation models for each of the different compression levels. Despite the use of at least two different models proposed here, namely the segmentation model and the at least one correction model, an ultimately improved segmentation result can be achieved with comparatively little effort.

Im Vergleich zu bisherigen Anwendungen sind durch die vorliegende Erfindung keine zusätzlichen Datenverarbeitungsressourcen in der Kette oder Pipeline von der aufnehmenden Kamera bis zu der Segmentierungseinrichtung notwendig, um ein verbessertes Segmentierungsergebnis zu erzielen. Gegebenenfalls kann sogar durch eine zusätzliche Komprimierung der ursprünglichen Bilddaten die bisher zu unbrauchbaren Segmentierungsergebnissen geführt hätte, Bandbreite eingespart werden, ohne die Funktionalität, Zuverlässigkeit und Sicherheit von Anwendungen zu reduzieren, die auf der semantischen Segmentierung aufbauen, diese also ihrerseits als Input oder Datenbasis verwenden. Ebenso kann beispielsweise in Fällen, wo bisher bereits eine Kompression der ursprünglichen Bilddaten angewendet wird, ein verbessertes, also insbesondere genaueres und/oder zuverlässigeres, Segmentierungsergebnis erzielt werden. Dies kann darauf aufbauende Anwendungen genauer, zuverlässiger und/oder sicherer machen. Im Anwendungsfall des ganz oder teilweise automatisierten Fahrens können so durch die vorliegende Erfindung beispielsweise durch entsprechende Fahr- oder Fahrzeugführungsassistenzsysteme robustere Entscheidungen getroffen bzw. mehr Situationen automatisiert bewältigt werden.Compared to previous applications, the present invention does not require any additional data processing resources in the chain or pipeline from the recording camera to the segmentation device in order to achieve an improved segmentation result. If necessary, bandwidth can even be saved by additional compression of the original image data, which would previously have led to unusable segmentation results, without reducing the functionality, reliability and security of applications that are based on the semantic segmentation, i.e. use it as an input or database. Likewise, for example, in cases where compression of the original image data has already been used, an improved, ie in particular more accurate and/or more reliable, segmentation result can be achieved. This can make applications based on it more accurate, more reliable and/or more secure. In the application of fully or partially automated driving, more robust decisions can be made or more situations can be dealt with automatically by the present invention, for example by appropriate driving or vehicle guidance assistance systems.

Die in der vorliegenden Erfindung vorgeschlagene Anwendung des Korrekturmodells auf die von dem Segmentierungsmodell erzeugten vorläufigen semantischen Segmentierungen kann als finaler Postprocessingschritt der vorläufigen semantischen Segmentierungen aufgefasst oder angewendet werden, insbesondere unabhängig davon, wie die vorläufigen semantischen Segmentierungen erzeugt oder generiert wurden. Somit kann das erfindungsgemäß vorgesehene Korrekturmodell ohne Weiteres mit verschiedenen bereits zur Verbesserung des letztendlichen Segmentierungsergebnisses vorgeschlagenen Komprimierungsschemata und/oder Segmentierungsmethoden kombiniert werden.The application of the correction model proposed in the present invention to the preliminary semantic segmentations generated by the segmentation model can be understood or used as a final post-processing step of the preliminary semantic segmentations be det, in particular regardless of how the preliminary semantic segmentations were created or generated. Thus, the correction model provided according to the invention can easily be combined with various compression schemes and/or segmentation methods that have already been proposed for improving the final segmentation result.

In einer möglichen Ausgestaltung der vorliegenden Erfindung werden mehrere trainierte Korrekturmodelle bereitgestellt, die zum Korrigieren von bei der semantischen Segmentierung von in unterschiedlichen Kompressionsstufen komprimierten Bildern auftretenden, also durch das Segmentierungsmodell gemachten, Segmentierungsfehlern trainiert sind. Es wird hier also die Kompressionsstufe ein dediziertes, für oder anhand dieser, insbesondere nur dieser, Kompressionsstufe trainiertes Korrekturmodell erzeugt oder bereitgestellt. Beispielsweise können die unterschiedlichen Korrekturmodelle in einem Datenspeichern der genannten Segmentierungseinrichtung hinterlegt sein oder werden. Es wird dann für das jeweils erfasste komprimierte Bild automatisch dessen Kompressionsstufe ermittelt. Diese kann beispielsweise aus Metadaten des jeweiligen komprimierten Bildes ausgelesen oder anhand von dessen Dateigröße abgeschätzt werden.In one possible embodiment of the present invention, several trained correction models are provided, which are trained to correct segmentation errors that occur during the semantic segmentation of images compressed in different compression stages, that is, made by the segmentation model. Here the compression level, a dedicated correction model trained for or on the basis of this, in particular only this, compression level is generated or provided. For example, the different correction models can be stored in a data store of the segmentation device mentioned. The compression level is then automatically determined for the compressed image recorded in each case. This can, for example, be read from metadata of the respective compressed image or estimated based on its file size.

Aus den bereitgestellten Korrekturmodellen wird dann jeweils das zu der ermittelten Kompressionsstufe des jeweiligen komprimierten Bildes korrespondierende Korrekturmodell ausgewählt, also bestimmt. Das jeweils korrespondierende Korrekturmodell kann jeweils das spezifisch für die ermittelte Kompressionsstufe trainierte Korrekturmodell sein. Ist für die ermittelte Kompressionsstufe kein Korrekturmodell verfügbar, so kann als korrespondierendes Korrekturmodell dasjenige der bereitgestellten Korrekturmodelle verwendet werden, das hinsichtlich der Kompressionsstufe, für die es trainiert ist, der für das jeweilige komprimierte Bild ermittelten Kompressionsstufe am nächsten kommtThe correction model corresponding to the determined compression level of the respective compressed image is then selected, ie determined, from the correction models provided. The respectively corresponding correction model can be the correction model specifically trained for the determined compression level. If no correction model is available for the determined compression level, the correction model provided that comes closest to the compression level determined for the respective compressed image in terms of the compression level for which it is trained can be used as the corresponding correction model

Das jeweils ausgewählte korrespondierende Korrekturmodell wird dann zum Erzeugen der korrigierten semantischen Segmentierung basierend auf der vorläufigen semantischen Segmentierung des jeweiligen komprimierten Bildes verwendet. Dazu kann beispielsweise nur dieses Korrekturmodell geladen werden, etwa in einen Arbeitsspeicher der Segmentierungseinrichtung. Wie auch an anderer Stelle erwähnt, können mehrere unterschiedliche Korrekturmodelle mit Vergleichsweise geringem Aufwand trainiert und zur Verwendung bereitgestellt oder vorgehalten werden, etwa im Vergleich zu mehreren unterschiedlichen Segmentierungsmodellen. Durch die unterschiedlichen, jeweils für eine spezifische Kompressionsstufe trainierten Korrekturmodelle können auch in komplexeren oder dynamischen Anwendungen oder über eine Vielzahl unterschiedlicher Anwendungen hinweg, in denen unterschiedliche Kompressionsstufen verwendet werden, besonders gute Segmentierungsergebnisse erzielt werden.The respectively selected corresponding correction model is then used to generate the corrected semantic segmentation based on the preliminary semantic segmentation of the respective compressed image. For this purpose, for example, only this correction model can be loaded, for example into a working memory of the segmentation device. As also mentioned elsewhere, a number of different correction models can be trained and made available for use or kept available with comparatively little effort, for example in comparison to a number of different segmentation models. Due to the different correction models, each trained for a specific compression level, particularly good segmentation results can also be achieved in more complex or dynamic applications or across a large number of different applications in which different compression levels are used.

Beispielsweise kann die verwendete Kompressionsstufe in einer Anwendung dynamisch angepasst werden in Abhängigkeit von einer jeweils verfügbaren Bandbreite einer instabilen oder wechselnden Datenverbindung, die zum Übertragen oder Erfassen der komprimierten Bilder verwendet wird. In einem laufenden oder kontinuierlichen Betrieb können dann beispielsweise unterschiedliche Frames oder Framesequenzen eines Videostroms in unterschiedlichen Kompressionsstufen komprimiert werden. Dementsprechend kann dann das jeweils verwendete Korrekturmodell entsprechend dynamisch gewechselt werden, um einen korrespondierenden Strom oder eine korrespondierende Sequenz von korrigierten semantischen Segmentierungen zu den Frames zu erzeugen. Somit können stets besonders gute, insbesondere unabhängig von der verwendeten Kompressionsstufe - also dem verwendeten Kompressionslevel oder Kompressionsgrad - der komprimierten Bilder zumindest im Wesentlichen gleichbleibend gute oder verlässliche korrigierte semantische Segmentierungen erzeugt werden und zwar auf eine praxistaugliche Art und Weise, da der erhebliche Aufwand für ein Trainieren und Bereitstellen entsprechend unterschiedlicher Segmentierungsmodell eingespart werden kann.For example, the level of compression used in an application can be dynamically adjusted depending on a particular available bandwidth of an unstable or changing data link used to transmit or capture the compressed images. In an ongoing or continuous operation, different frames or frame sequences of a video stream can then be compressed in different compression stages, for example. Accordingly, the correction model used in each case can then be dynamically changed in order to generate a corresponding stream or a corresponding sequence of corrected semantic segmentations for the frames. Thus, particularly good, in particular independent of the compression level used - i.e. the compression level or degree of compression used - of the compressed images, at least essentially consistently good or reliable corrected semantic segmentations can be generated in a practicable manner, since the considerable effort for a Training and deploying according to different segmentation model can be saved.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird als das wenigstens eine Korrekturmodell ein jeweiliges künstliches neuronales Netz mit einer vollständig faltenden Encoder-Decoder-Schichtstruktur oder -Architektur verwendet. Das Korrekturmodell kann insbesondere einen Autoencoder umfassen oder als Autoencoder ausgestaltet sein. Gemäß einer der vorliegenden Erfindung zugrunde liegenden Erkenntnis kann eine solche Ausgestaltung des Korrekturmodells mit besonders geringem Aufwand besonders gute Ergebnisse liefern. Insbesondere können so besonders gute Segmentierungsergebnisse in Anwendungen erzielt werden, in denen es eine Vielzahl unterschiedlicher Klassen von in den Bilddaten abgebildeten Objekten gibt, die sich zudem signifikant hinsichtlich ihrer Formen und/oder relativen Positionen unterscheiden und/oder von Bild zu Bild variieren können. Eine solche Anwendung stellt beispielsweise die semantische Segmentierung von in einem realen Verkehrsgeschehen mittels einer Kamera eines Kraftfahrzeugs aufgenommenen Bilddaten einer jeweiligen Fahrzeugumgebung dar. Durch die vollständig faltende Schichtstruktur kann ein Verlust räumlicher Informationen minimiert werden, beispielsweise im Gegensatz zu einer Verwendung von vollständig verbundenen Schichten im latenten Raum.In a further possible embodiment of the present invention, a respective artificial neural network with a completely convolutional encoder-decoder layer structure or architecture is used as the at least one correction model. The correction model can in particular include an autoencoder or be designed as an autoencoder. According to one finding on which the present invention is based, such an embodiment of the correction model can deliver particularly good results with particularly little effort. In particular, particularly good segmentation results can be achieved in applications in which there are a large number of different classes of objects depicted in the image data, which also differ significantly in terms of their shapes and/or relative positions and/or can vary from image to image. Such an application is, for example, the semantic segmentation of image data of a respective vehicle environment recorded in a real traffic situation by means of a camera of a motor vehicle. The completely folding layer structure can minimize a loss of spatial information, for example in contrast to use of fully connected layers in latent space.

In einer möglichen Weiterbildung der vorliegenden Erfindung weist das als das wenigstens eine Korrekturmodell verwendete künstliche neuronale Netz mehrere Downsamplingschichten gefolgt von mehreren Upsamplingschichten auf. Dabei wird nach jeder dieser Schichten mit Ausnahme der letzten ausgangsseitigen Schicht eine Gleichrichteraktivierungsfunktion - auch bezeichnet als Rectifier oder rectifing linear Unit (ReLu) - angewendet. Damit kann das wenigstens eine Korrekturmodell auf besonders einfache und effektive Weise realisiert werden. Dies basiert auf der Erkenntnis, dass eine solche vergleichsweise einfache und mit entsprechend wenig Berechnungsaufwand anwendbare Architektur für den hier beschriebenen Anwendungsfall ausreichend ist, da als Input für das Korrekturmodell bereits semantische Segmentierungen bzw. semantische Karten verwendet werden, die durch die Verarbeitungsprozesse des Segmentierungsmodells bereits in einem hochabstrakten Raum vorliegen, etwa im Vergleich zu den ursprünglichen Bilddaten. Durch das Korrekturmodell müssen also - anders als durch das Segmentierungsmodell - beispielsweise keine niederdimensionalen Merkmale aus RGB-Bilddaten extrahiert werden. Stattdessen muss das Korrekturmodell nur lernen bzw. gelernt haben, wie die durch das Segmentierungsmodell prädizierten, also ausgegebenen und in der vorläufigen semantischen Segmentierung angegebenen semantischen Klassen in Relation zu den tatsächlich korrekten semantischen Klassen stehen.In one possible development of the present invention, the artificial neural network used as the at least one correction model has a number of downsampling layers followed by a number of upsampling layers. A rectifier activation function—also known as a rectifier or rectifying linear unit (ReLu)—is applied after each of these layers, with the exception of the last layer on the output side. The at least one correction model can thus be implemented in a particularly simple and effective manner. This is based on the knowledge that such a comparatively simple architecture, which can be used with correspondingly little calculation effort, is sufficient for the application described here, since semantic segmentations or semantic maps are already used as input for the correction model, which are already used in the processing of the segmentation model in in a highly abstract space, for example in comparison to the original image data. In contrast to the segmentation model, the correction model does not have to extract any low-dimensional features from RGB image data, for example. Instead, the correction model only needs to learn or have learned how the semantic classes predicted by the segmentation model, ie output and specified in the provisional semantic segmentation, are related to the actually correct semantic classes.

Durch den relativ geringen mit dem Trainieren, Bereitstellen und Anwenden des wenigstens einen Korrekturmodells verbundenen Aufwand kann das wenigstens eine Korrekturmodell in der vorliegend vorgeschlagenen Art und Weise besonders einfach als Postprocessingschritt in nahezu beliebigen bisherigen Segmentierungsanwendungen ergänzt werden.Due to the relatively low effort associated with training, providing and using the at least one correction model, the at least one correction model can be supplemented particularly easily as a post-processing step in almost any previous segmentation application in the manner proposed here.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird zum Erzeugen des Inputs für das Korrekturmodell, basierend auf dem das jeweilige Korrekturmodell dann die korrigierte semantische Segmentierung erzeugt, auf die jeweilige von dem Segmentierungsmodell erzeugte vorläufige semantische Segmentierung eine 1-aus-n-Kodierung - auch als One-Hot-Kodierung bezeichnet - angewendet. Dies kann insbesondere dann nützlich sein, wenn die semantischen Klassen der in den Bilddaten dargestellten Objekte keine natürliche Reihenfolge oder Hierarchie aufweisen. In solchen Fällen kann durch die One-Hot-Kodierung eine verbesserte Genauigkeit des Korrekturmodells erreicht und das Auftreten unerwarteter oder unbrauchbarer Ausgaben, wie etwa zwischen zwei Klassen oder Kategorien liegende Prädiktionen, vermieden werden, indem dem Korrekturmodell nicht erlaubt wird, eine bestimmte Reihenfolge der semantischen Klassen oder Kategorien anzunehmen.In a further possible embodiment of the present invention, to generate the input for the correction model, based on which the respective correction model then generates the corrected semantic segmentation, a 1-out-of-n coding is applied to the respective provisional semantic segmentation generated by the segmentation model referred to as one-hot encoding - applied. This can be particularly useful when the semantic classes of the objects represented in the imagery do not have a natural order or hierarchy. In such cases, one-hot coding can improve the accuracy of the correction model and avoid the occurrence of unexpected or unusable outputs, such as predictions lying between two classes or categories, by not allowing the correction model to follow a specific order of the semantic to accept classes or categories.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird für den Input des Korrekturmodells, basierend auf dem das jeweilige Korrekturmodell dann die korrigierte semantische Segmentierung erzeugt, auch eine von dem Segmentierungsmodell beim Verarbeiten des jeweiligen komprimierten Bildes ausgegebene Softmax-Bewertung verwendet. Die Softmax-Bewertung kann dabei eine ausgangsseitig an dem Segmentierungsmodell vorliegende oder erzeugte pixelgenaue Angabe von Ergebnissen oder Outputs der bzw. einer Softmaxfunktion sein. Die hier verwendete Softmax-Bewertung wird auch als Softmax-Score bezeichnet. Die Softmax-Bewertung kann dem Korrekturmodell eine Konfidenz des Segmentierungsmodells in seine semantische Klassifizierung, also in die vorläufige semantische Segmentierung angeben. Durch die Verwendung der Softmax-Bewertung können also dem Korrekturmodell mehr Informationen dazu bereitgestellt werden, welche Pixel der vorläufigen semantischen Segmentierung voraussichtlich oder mit besonders hoher Wahrscheinlichkeit korrigiert werden müssen. Durch die hier vorgeschlagene Ausgestaltung der vorliegenden Erfindung kann letztlich ein weiter verbessertes Segmentierungsergebnis erzielt werden.In a further possible embodiment of the present invention, a softmax evaluation output by the segmentation model when processing the respective compressed image is also used for the input of the correction model, based on which the respective correction model then generates the corrected semantic segmentation. The soft-max evaluation can be a pixel-precise specification of results or outputs of the or a soft-max function that is present or generated on the output side of the segmentation model. The softmax rating used here is also referred to as the softmax score. The softmax evaluation can indicate to the correction model a confidence of the segmentation model in its semantic classification, ie in the provisional semantic segmentation. By using the softmax evaluation, the correction model can be provided with more information about which pixels of the provisional semantic segmentation are expected to be corrected or have a particularly high probability of being corrected. A further improved segmentation result can ultimately be achieved by the embodiment of the present invention proposed here.

In einer möglichen Weiterbildung der vorliegenden Erfindung wird zum Erzeugen des Inputs für das Korrekturmodell, basierend auf dem das jeweilige Korrekturmodell dann die jeweilige korrigierte semantische Segmentierung erzeugt, die 1-aus-n-Kodierung der vorläufigen semantischen Segmentierung mit der Softmax-Bewertung kombiniert. Dazu werden für jeden Pixel der vorläufigen semantischen Segmentierung der jeweilige 1-aus-n-Vektor, also der dem jeweiligen Pixel zugeordnete Vektor der One-Hot-Kodierung, und die Softmax-Bewertung für den jeweiligen Pixel miteinander multipliziert. Auf diese Weise können die genannten Daten oder Informationen in den Input des Korrekturmodells einfließen, ohne beispielsweise dessen Dimensionalität zu verändern. Dies kann eine besonders einfache Verwendung des so erzeugten Inputs für das Korrekturmodell und eine besonders einfache Erzeugung der korrigierten semantischen Segmentierung in der gleichen Dimensionalität oder Größe wie die vorläufige semantische Segmentierung ermöglichen. Somit kann letztlich die vorläufige Erfindung besonders einfach angewendet oder implementiert werden.In a possible development of the present invention, the 1-out-of-n coding of the provisional semantic segmentation is combined with the softmax evaluation to generate the input for the correction model, based on which the respective correction model then generates the respective corrected semantic segmentation. For this purpose, for each pixel of the provisional semantic segmentation, the respective 1-out-of-n vector, ie the vector of the one-hot coding assigned to the respective pixel, and the softmax evaluation for the respective pixel are multiplied with one another. In this way, the data or information mentioned can flow into the input of the correction model without changing its dimensionality, for example. This can enable a particularly simple use of the input thus generated for the correction model and a particularly simple generation of the corrected semantic segmentation in the same dimensionality or size as the preliminary semantic segmentation. Thus, ultimately, the preliminary invention can be applied or implemented in a particularly simple manner.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Verfahren zum Herstellen einer Segmentierungseinrichtung zum Erzeugen einer semantischen Segmentierung von Bildern. In einem Verfahrensschritt dieses Herstellverfahrens werden Segmentierungstrainingsdaten für ein Segmentierungsmodell erzeugt bzw. bereitgestellt oder erfasst. Diese Segmentierungstrainingsdaten umfassen eine Vielzahl aus Datentupeln, die jeweils ein Bild in einer unkomprimierten Form und/oder wenigstens einer komprimierten Form als Input und eine korrekte semantische Referenzsegmentierung des unkomprimierten Bildes als Zieloutput umfassen. Dabei können unterschiedliche Kompressionsstufen für verschiedene Bilder verwendet werden. Ebenso können die Datentupel oder zumindest ein Teil der Datentupel beispielsweise unterschiedlich stark, also in unterschiedlichen Kompressionsstufen komprimierte Formen bzw. Versionen desselben Bildes enthalten.Another aspect of the present invention is a method of manufacturing a segmentation device for generating a semantic segmentation of images. in one Method step of this manufacturing method, segmentation training data for a segmentation model is generated or provided or recorded. This segmentation training data comprises a plurality of data tuples, each comprising an image in an uncompressed form and/or at least one compressed form as input and a correct semantic reference segmentation of the uncompressed image as target output. Different compression levels can be used for different images. Likewise, the data tuples or at least some of the data tuples can, for example, contain forms or versions of the same image compressed to different extents, that is to say in different compression stages.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird mittels der Segmentierungstrainingsdaten ein, insbesondere genau ein, Segmentierungsmodell zum semantischen Segmentieren von Bildern, insbesondere unabhängig von deren Kompressionsstufe, trainiert.In a further method step of the method according to the invention, the segmentation training data is used to train one, in particular precisely one, segmentation model for the semantic segmentation of images, in particular independently of their compression level.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Herstellerverfahrens werden Korrekturtrainingsdaten für mindestens ein Korrekturmodell bereitgestellt. Diese Korrekturtrainingsdaten umfassten eine Vielzahl aus Datentupeln, die jeweils zumindest eine von dem trainierten Segmentierungsmodell durch Verarbeiten eines komprimierten Bildes erzeugte fehlerbehaftete semantische Segmentierung als Input und die zugehörige korrekte semantische Referenzsegmentierung der unkomprimierten Form des jeweiligen Bildes als Zieloutput umfassen.In a further method step of the manufacturer method according to the invention, correction training data are provided for at least one correction model. This correction training data comprised a large number of data tuples, each comprising at least one error-prone semantic segmentation generated by the trained segmentation model by processing a compressed image as input and the associated correct semantic reference segmentation of the uncompressed form of the respective image as target output.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Herstellerverfahrens wird mittels der Korrekturtrainingsdaten wenigstens ein Korrekturmodell zum Erzeugen korrigierter semantischer Segmentierungen von Bildern aus fehlerbehafteten semantischen Segmentierungen trainiert. Dabei können insbesondere mehrere Korrekturmodelle jeweils für eine spezifische Kompressionsstufe trainiert werden.In a further method step of the manufacturer method according to the invention, at least one correction model for generating corrected semantic segmentations of images from error-prone semantic segmentations is trained using the correction training data. In this case, in particular, a plurality of correction models can each be trained for a specific compression level.

In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens werden das trainierte Segmentierungsmodell und das wenigstens eine trainierte Korrekturmodell in einen Datenspeicher der Segmentierungseinrichtung geladen. Die Segmentierungseinrichtung kann ebenso eine mit diesem Datenspeicher gekoppelte Prozessoreinrichtung, also beispielsweise einen Mikrochip, Mikrocontroller oder Mikroprozessor oder dergleichen, zum Ausführen der in dem Datenspeicher gespeicherten Modelle umfassen.In a further method step of the method according to the invention, the trained segmentation model and the at least one trained correction model are loaded into a data memory of the segmentation device. The segmentation device can also include a processor device coupled to this data memory, ie for example a microchip, microcontroller or microprocessor or the like, for executing the models stored in the data memory.

Die mittels des erfindungsgemäßen Herstellerverfahrens erzeugte Segmentierungseinrichtung kann insbesondere die im Zusammenhang mit dem erfindungsgemäßen Verfahren zum Erzeugen einer semantischen Segmentierung genannte Segmentierungseinrichtung sein oder dieser entsprechen. Entsprechendes kann für die genannten Trainingsdaten, das Segmentierungsmodell und das wenigstens eine Korrekturmodell gelten. Die gemäß dem erfindungsgemäßen Verfahren erzeugte Segmentierungseinrichtung kann also derart erzeugt wird oder hergestellt werden, dass sie zum, insbesondere automatischen oder teilautomatischen, Ausführen wenigstens einer Ausgestaltung oder Weiterbildungsbeziehung bzw. Ausführungsform des erfindungsgemäßen Verfahrens zum Erzeugen einer semantischen Segmentierung eines Bildes eingerichtet ist.The segmentation device generated by means of the manufacturer method according to the invention can in particular be or correspond to the segmentation device mentioned in connection with the method according to the invention for generating a semantic segmentation. The same can apply to the training data mentioned, the segmentation model and the at least one correction model. The segmentation device generated according to the method according to the invention can therefore be generated or manufactured in such a way that it is set up for, in particular automatically or semi-automatically, executing at least one configuration or development relationship or embodiment of the method according to the invention for generating a semantic segmentation of an image.

In einer möglichen Weiterbildung der vorliegenden Erfindung werden mehrere unterschiedliche Sätze von Korrekturtrainingsdaten erzeugt oder bereitgestellt. Diese unterschiedlichen Sätze von Korrekturtrainingsdaten unterscheiden sich voneinander durch die Kompressionsstufen der komprimierten Bilder, aus denen die in den Korrekturtrainingsdaten enthaltenen fehlerbehafteten semantischen Segmentierungen erzeugt wurden. Dabei umfasst jeder Satz von Korrekturtrainingsdaten aus komprimierten Bildern nur einer bestimmten Kompressionsstufe erzeugte fehlerbehaftete semantische Segmentierungen. Weiter werden dann durch Trainieren mit jeweils einem der Sätze von Korrekturtrainingsdaten mehrere unterschiedliche trainierte Korrekturmodelle erzeugt und in den Datenspeicher der Segmentierungseinrichtung geladen. Auf diese Weise können die unterschiedlichen Korrekturmodelle für eine bestimmte Kompressionsstufe spezialisiert sein und somit vorläufige semantische Segmentierungen, die aus in dieser jeweiligen Kompressionsstufen komprimierten Bildern von dem Segmentierungsmodell erzeugt wurden, besonders genau und zuverlässig korrigieren. Somit können letztlich auch bei Verwendung unterschiedlicher Kompressionsstufen zum Komprimieren der ursprünglichen Bilddaten besonders genaue korrigierte semantische Segmentierungen erzeugt werden.In a possible development of the present invention, several different sets of correction training data are generated or provided. These different sets of correction training data differ from one another in terms of the compression levels of the compressed images from which the erroneous semantic segmentations contained in the correction training data were generated. Each set of correction training data from compressed images only includes error-prone semantic segmentations generated from a specific compression level. Then, by training with one of the sets of correction training data, several different trained correction models are then generated and loaded into the data memory of the segmentation device. In this way, the different correction models can be specialized for a specific compression level and thus particularly accurately and reliably correct provisional semantic segmentations that were generated by the segmentation model from images compressed in these respective compression levels. In this way, particularly accurate corrected semantic segmentations can ultimately be generated even when using different compression stages for compressing the original image data.

Als unterschiedliche Kompressionsstufen können beispielsweise JPEG-90 %-Qualität, JPEG-50 %-Qualität und JPEG-10 %-Qualität verwendet werden. Ebenso können jedoch andere und/oder weitere Qualitätsabstufungen ebenso wie andere Komprimierungsverfahren verwendet werden.For example, JPEG 90% quality, JPEG 50% quality and JPEG 10% quality can be used as different compression levels. However, other and/or further quality gradations as well as other compression methods can also be used.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine Segmentierungseinrichtung, die eine Eingangsschnittstelle zum Erfassen von komprimierten Bildern, eine Prozessoreinrichtung, einen damit gekoppelten Datenspeicher und eine Ausgangsschnittstelle zum Ausgeben von aus den erfassten komprimierten Bildern erzeugten korrigierten semantischen Segmentierungen aufweist. Die erfindungsgemäße Segmentierungseinrichtung ist dabei zum Ausführen des erfindungsgemäßen Verfahrens zum Erzeugen einer semantischen Segmentierung eines Bildes eingerichtet und/oder gemäß dem erfindungsgemäßen Verfahren zum Herstellen einer Segmentierungseinrichtung zum Erzeugen einer semantischen Segmentierung von Bildern hergestellt. Die erfindungsgemäße Segmentierungseinrichtung kann also insbesondere die im Zusammenhang mit einem oder beiden der erfindungsgemäßen Verfahren genannte Segmentierungseinrichtung sein oder dieser entsprechen. Die erfindungsgemäße Segmentierungseinrichtung kann beispielsweise eine Servereinrichtung, ein Backend- oder Cloudserver, eine Datenverarbeitungseinrichtung oder zumindest ein Teil eines Assistenzsystems eines Kraftfahrzeugs, ein Kraftfahrzeug und/oder dergleichen mehr sein oder umfassen.Another aspect of the present invention is a segmenter that includes an input interface for detecting compressed th images, a processor device, a data memory coupled thereto and an output interface for outputting corrected semantic segmentations generated from the compressed images captured. The segmentation device according to the invention is set up to execute the method according to the invention for generating a semantic segmentation of an image and/or produced according to the method according to the invention for producing a segmentation device for generating a semantic segmentation of images. The segmentation device according to the invention can therefore in particular be or correspond to the segmentation device mentioned in connection with one or both of the methods according to the invention. The segmentation device according to the invention can be or include, for example, a server device, a backend or cloud server, a data processing device or at least part of an assistance system of a motor vehicle, a motor vehicle and/or the like.

Weitere Merkmale der Erfindung können sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung ergeben. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung und/oder in den Figuren allein gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.Further features of the invention can result from the claims, the figures and the description of the figures. The features and feature combinations mentioned above in the description and the features and feature combinations shown below in the description of the figures and/or in the figures alone can be used not only in the combination specified in each case, but also in other combinations or on their own, without going beyond the scope of the invention to leave.

Die Zeichnung zeigt in der einzigen Figur eine schematische Übersichtsdarstellung zur Veranschaulichung einer Erzeugung einer korrigierten semantischen Segmentierung für ein komprimiertes Bild.In the single figure, the drawing shows a schematic overview representation to illustrate the generation of a corrected semantic segmentation for a compressed image.

Eine semantische Segmentierung von Bilddaten erlaubt ein automatisiertes pixelgenaues Verständnis einer dargestellten Szene, beispielsweise im Rahmen des Computersehens. Daher kann eine semantische Segmentierung beispielsweise eine wichtige Aufgabe für verschiedene Anwendungen, wie etwa ein automatisiertes Fahren oder Führen eines Kraftfahrzeugs, sein. Mit bisherigen Architekturen und Einrichtungen zum semantischen Segmentieren von Bildern ist jedoch keine einhundertprozentige Genauigkeit erzielbar, sodass es also immer wieder zu Segmentierungsfehlern, also semantischen Fehlklassifikationen kommt. Dies kann insbesondere bei, beispielsweise durch Komprimierung, reduzierter Bildqualität der semantischen zu segmentierenden Bilddaten der Fall sein.A semantic segmentation of image data allows an automated, pixel-precise understanding of a displayed scene, for example in the context of computer vision. Therefore, for example, semantic segmentation can be an important task for various applications such as automated driving or driving a motor vehicle. However, one hundred percent accuracy cannot be achieved with previous architectures and devices for the semantic segmentation of images, so that segmentation errors, ie semantic misclassifications, occur again and again. This can be the case in particular when the image quality of the semantic image data to be segmented is reduced, for example due to compression.

Für Anwendungen im Bereich des automatisierten Fahrens können Bilddaten durch Kraftfahrzeuge im Straßenverkehr aufgenommenen, also gesammelt und an einen zentralen Server gesendet werden. Um dies praktikabel zu ermöglichen, kann jedoch abhängig von Bedingungen oder Qualitäten bzw. Bandbreiten verfügbarer Netzwerk- oder Datenverbindungen von den Fahrzeugen zu dem Server eine Komprimierung der Bilddaten angewendet werden bzw. notwendig sein. Dabei können in unterschiedlichen Situationen oder zu unterschiedlichen Zeiten unterschiedliche Kompressionsstufen angewendet, die Bilddaten also unterschiedlich stark komprimiert werden, um eine zuverlässige und ausreichende schnelle Übertragung zu dem Server zu ermöglichen. Ebenso können aber beispielsweise innerhalb eines Fahrzeugs Engpässe von verfügbaren Bandbreiten, Übertragungskapazitäten, Speicherkapazitäten und/oder Berechnungsressourcen auftreten, die gegebenenfalls eine Komprimierung aufgenommener Bilddaten erfordern können.For applications in the field of automated driving, image data can be recorded by motor vehicles on the road, i.e. collected and sent to a central server. In order to make this practicable, however, depending on the conditions or qualities or bandwidths of available network or data connections from the vehicles to the server, compression of the image data can be used or be necessary. Different compression levels can be used in different situations or at different times, ie the image data can be compressed to different extents in order to enable reliable and sufficiently fast transmission to the server. However, bottlenecks in available bandwidths, transmission capacities, storage capacities and/or calculation resources can also occur within a vehicle, for example, which may require compression of recorded image data.

Die so komprimierten Bilddaten können semantisch segmentiert werden, je nach Situation oder Anwendungsfall beispielsweise in dem aufnehmenden Fahrzeug oder durch den Server. Dabei kann es aufgrund von kompressionsbedingtem Datenverlust und Kompressionsartefakten im Vergleich zur semantischen Segmentierung von unkomprimierten Bilddaten zu einer signifikanten Degradierung der Leistung bzw. einer Ergebnisqualität der semantischen Segmentierung kommen. Aufgrund des relativ hohen Zeit- und Kostenaufwands ist es jedoch nicht praktikabel, beispielsweise für jede individuelle Kompressionsstufe ein spezifisches Modell für die semantische Segmentierung zu trainieren.The image data compressed in this way can be segmented semantically, depending on the situation or application, for example in the recording vehicle or by the server. Due to compression-related data loss and compression artefacts, there can be a significant degradation of the performance or the quality of the results of the semantic segmentation compared to the semantic segmentation of uncompressed image data. However, due to the relatively high expenditure of time and money, it is not practicable, for example, to train a specific model for the semantic segmentation for each individual compression level.

Vor diesem Hintergrund zeigt 1 eine schematische Übersichtsdarstellung, um zu veranschaulichen, wie den genannten Problemen und Herausforderungen begegnet werden kann.Against this background shows 1 a schematic overview to illustrate how the mentioned problems and challenges can be met.

Aus hier nicht dargestellten unkomprimierten ursprünglichen Bilddaten kann durch Anwenden eines letztlich beliebigen Komprimierungsverfahren ein komprimiertes Bild 1 erzeugt werden. Dieses kann dann als jeweiliger Input an eine Segmentierungseinrichtung 2 bereitgestellt bzw. von dieser erfasst werden. Dazu kann die Segmentierungseinrichtung 2 eine hier schematisch angedeutete Eingangsschnittstelle 3 aufweisen.A compressed image 1 can be generated from uncompressed original image data (not shown here) by using any desired compression method. This can then be provided as a respective input to a segmentation device 2 or recorded by it. For this purpose, the segmentation device 2 can have an input interface 3 indicated schematically here.

Das so erfasste komprimierte Bild 1 wird in der Segmentierungseinrichtung 2 dann mittels eines vorgegebenen zum semantischen Segmentieren von Bildern trainierten Segmentierungsmodells 4 verarbeitet. Das Segmentierungsmodell 4 erzeugt als Output eine vorläufige semantische Segmentierung 5 und eine pixelweise Softmax-Bewertung 6. Diese Softmax-Bewertung 6 gibt für jeden Pixel des komprimierten Bildes 1 bzw. der vorläufigen semantischen Segmentierung 5 den zugehörigen durch das Segmentierungsmodell 4 berechneten Softmax-Score an. Die vorläufige semantische Segmentierung 5 gibt für jeden Pixel die von dem Segmentierungsmodell 4 bestimmte semantische Klasse an. Aufgrund der Komprimierung des komprimierten Bildes 1 wird das Segmentierungsmodell 4 beim semantischen Segmentieren jedoch voraussichtlich Fehler machen, sodass die vorläufige semantische Segmentierung 5 entsprechende Segmentierungsfehler 7 enthält, von denen hier beispielhaft einige angedeutet sind.The compressed image 1 recorded in this way is then processed in the segmentation device 2 by means of a predetermined segmentation model 4 trained for the semantic segmentation of images. The segmentation model 4 generates a provisional semantic segmentation 5 and a pixel-by-pixel softmax evaluation 6 as output Softmax evaluation 6 indicates the associated softmax score calculated by segmentation model 4 for each pixel of compressed image 1 or provisional semantic segmentation 5 . The provisional semantic segmentation 5 specifies the semantic class determined by the segmentation model 4 for each pixel. Due to the compression of the compressed image 1, however, the segmentation model 4 will probably make errors during the semantic segmentation, so that the provisional semantic segmentation 5 contains corresponding segmentation errors 7, some of which are indicated here by way of example.

Für einen gegebenen Datensatz aus Bildern Ii und korrespondierenden pixelgenauen Labeln oder Annotationen Li kann das Segmentierungsmodell 4 dazu trainiert sein oder werden, jedem Pixel der Bilder Ii eine Prädiktion also eine prädizierte Annotation oder prädiziertes Label Li,pred zuzuweisen. Es gilt also die L i ,pred = S ( I i ) ,

Figure DE102021133203A1_0001
wobei S das jeweilige Modell, hier also das Segmentierungsmodell 4 bezeichnet.For a given data set of images I i and corresponding pixel-precise labels or annotations L i , the segmentation model 4 can be or will be trained to assign a prediction, ie a predicted annotation or predicted label L i,pred , to each pixel of the images I i . So it applies L i ,preach = S ( I i ) ,
Figure DE102021133203A1_0001
where S denotes the respective model, ie the segmentation model 4 here.

Pixelweise Differenzen oder Abweichungen zwischen den Prädiktionen Li,pred und tatsächlich korrekten Annotationen bzw. ground truth Labeln Li können als durch das Segmentierungsmodell 4 eingeführte Fehler aufgefasst werden. Mit anderen Worten kann also davon ausgegangen werden, dass das Segmentierungsmodell 4 eine Fehlerfunktion Es generiert bzw. auf die ground truth Label Li anwendet: L i ,pred = E S ( L i ) .

Figure DE102021133203A1_0002
Pixel-by-pixel differences or discrepancies between the predictions L i,pred and actually correct annotations or ground truth labels L i can be interpreted as errors introduced by the segmentation model 4 . In other words, it can be assumed that the segmentation model 4 generates an error function Es or applies it to the ground truth label L i : L i ,preach = E S ( L i ) .
Figure DE102021133203A1_0002

Die ground truth Labeln Li sind nur für vorgegebene Trainingsdaten, also während des Trainings des Segmentierungsmodells 4 bekannt, nicht aber für einen späteren bestimmungsgemäßen oder produktiven Einsatz des Segmentierungsmodells 4 zum semantischen Segmentieren beliebiger oder unbekannter Bilddaten, also während eines Testeinsatzes des Segmentierungsmodells 4 zum semantischen Segmentieren von Testdaten. Während eines solchen Testeinsatzes sind nur die prädizierten Li,pred, nicht aber die ground truth Label Li für die jeweiligen Bilddaten verfügbar. Die Fehlerfunktion ES kann eine hochkomplexe Funktion sein, die nicht explizit bekannt, sondern in der Struktur und den gelernten Parametern des Segmentierungsmodells 4 implizit codiert oder repräsentiert ist. Falls es möglich wäre, die Fehlerfunktion ES zu invertieren, könnten die ground truth Label Li aus den prädizierten Labeln Li,pred rekonstruiert werden gemäß L i = E S 1 ( L i ,pred ) .

Figure DE102021133203A1_0003
The ground truth labels L i are only known for given training data, i.e. during the training of the segmentation model 4, but not for a later intended or productive use of the segmentation model 4 for the semantic segmenting of any or unknown image data, i.e. during a test use of the segmentation model 4 for the semantic Segment test data. During such a test use, only the predicted L i,pred , but not the ground truth label L i for the respective image data, are available. The error function E S can be a highly complex function that is not explicitly known but implicitly encoded or represented in the structure and the learned parameters of the segmentation model 4 . If it were possible to invert the error function E S , the ground truth labels L i could be reconstructed from the predicted labels L i,pred according to L i = E S 1 ( L i ,preach ) .
Figure DE102021133203A1_0003

In der Praxis ist jedoch die Fehlerfunktion Es nicht explizit bekannt und/oder nicht invertierbar oder anwendbar, beispielsweise in Fällen, in denen das Segmentierungsmodell 4 ein in den Bilddaten vorhandenes, also abgebildetes Objekt gar nicht erkannt und dementsprechend auch nicht in den prädizierten Labeln Li,pred angegeben oder repräsentiert hat.In practice, however, the error function Es is not explicitly known and/or cannot be inverted or used, for example in cases in which the segmentation model 4 does not even recognize an object that is present in the image data, i.e. that is mapped, and accordingly also not in the predicted labels L i ,pred indicated or represented.

Um dieser Problematik zu begegnen, wird vorliegend ein Modell dazu trainiert, effektiv die inverse Fehlerfunktion Es-1 bestmöglich zu approximieren. Ein solches Modell wird hier als Korrekturmodell 9 bereitgestellt und in der Segmentierungseinrichtung 2 hinterlegt.In order to counteract this problem, a model is trained to effectively approximate the inverse error function Es -1 as best as possible. Such a model is provided here as a correction model 9 and is stored in the segmentation device 2 .

Um einen Input für das Korrekturmodell 9 zu erzeugen, findet eine Aufbereitung 8 des Outputs des Segmentierungsmodells 4 statt. Im Rahmen dieser Aufbereitung 8 kann eine One-Hot-Kodierung auf die vorläufige semantische Segmentierung 5 und eine Gewichtung mit der Softmax-Bewertung 6 angewendet werden.In order to generate an input for the correction model 9, the output of the segmentation model 4 is processed 8. As part of this processing 8, one-hot coding can be applied to the provisional semantic segmentation 5 and weighting with the softmax rating 6.

Der so erzeugte Input für das Korrekturmodell 9 umfasst also die von dem Segmentierungsmodell 4 für das jeweilige komprimierte Bild 1 prädizierten Labeln Li,pred oder basiert zumindest auf diesen. Das Korrekturmodell 9 ist dazu trainiert, aus einem derartigen Input die ground truth Label Li zu prädizieren bzw. zu rekonstruieren und auszugeben.The input generated in this way for the correction model 9 thus includes the labels L i,pred predicted by the segmentation model 4 for the respective compressed image 1 or is at least based on these. The correction model 9 is trained to predict or reconstruct and output the ground truth label L i from such an input.

Aufgrund der Art der hier zu verarbeitenden Daten kann das Korrekturmodell 9 mit einer faltenden Autoencoder-Architektur erzeugt bzw. bereitgestellt werden. Das Korrekturmodell 9 kann hier beispielsweise drei Downsamplingschichten und drei diesen folgende Upsamplingschichten aufweisen. Letztlich sind dabei je nach Anforderungen oder Anwendungsfall unterschiedliche Anzahlen, Arten und/oder Verknüpfungen der Schichten ebenso wie unterschiedliche Kernelgrößen und/oder Schrittweiten möglich, um das Korrekturmodell 9 zu implementieren.Due to the nature of the data to be processed here, the correction model 9 can be generated or provided with a convolutional autoencoder architecture. The correction model 9 can have three downsampling layers and three upsampling layers following these, for example. Ultimately, depending on the requirements or application, different numbers, types and/or linkages of the layers as well as different kernel sizes and/or increments are possible in order to implement the correction model 9 .

Da das komprimierte Bild 1 bzw. eine Vielzahl von zu verarbeitenden, also semantisch zu segmentierenden komprimierten Bildern 1 in unterschiedlichen Kompressionsstufen komprimiert sein können, kann das Korrekturmodell 9 entsprechend für unterschiedliche Kompressionsstufen trainiert sein. Mit anderen Worten kann das Korrekturmodell 9 dazu trainiert sein, die ground truth Label Lj aus unterschiedlichen vorläufigen semantischen Segmentierungen 5, die durch das Segmentierungsmodell 4 aus in unterschiedlichen Kompressionsstufen komprimierten Bildern 1 erzeugt wurden, zu prädizieren bzw. zu rekonstruieren.Since the compressed image 1 or a multiplicity of compressed images 1 to be processed, ie to be semantically segmented, can be compressed in different compression levels, the correction model 9 can be trained accordingly for different compression levels. In other words, the correction model 9 can be trained to use the ground truth label L j from different preliminary semantic segmentations 5, which come from the segmentation model 4 in different compression stages primed images 1 were generated to predict or to reconstruct.

Um für unterschiedliche Kompressionsstufen der komprimierten Bilder 1 verbesserte Ergebnisse zu erzielen, sind hier jedoch mehrere spezifisch für jeweils eine Kompressionsstufe trainierte weitere Korrekturmodelle 10 in der Segmentierungseinrichtung 2 bereitgestellt. Die Segmentierungseinrichtung 2 kann dann aus dem jeweils erfassten zu segmentierenden komprimierten Bild 1 die für dieses verwendete Kompressionsstufe ermitteln oder auslesen und automatisch das korrespondierende Korrekturmodell 9, 10 zur Verwendung laden. Der durch die Aufbereitung 8 erzeugte Input wird dann nur dem jeweils korrespondierenden bzw. geladenen Korrekturmodell 9, 10 zugeführt.In order to achieve improved results for different compression levels of the compressed images 1, however, a number of further correction models 10 specifically trained for each compression level are provided in the segmentation device 2. The segmentation device 2 can then determine or read out the compression level used for the compressed image 1 to be segmented and automatically load the corresponding correction model 9, 10 for use. The input generated by the processing 8 is then only supplied to the respectively corresponding or loaded correction model 9, 10.

Die Korrekturmodelle 9, 10 können anhand von durch das tatsächlich verwendete Segmentierungsmodell 4 erzeugten vorläufigen semantischen Segmentierungen 5 trainiert werden bzw. trainiert sein. Beim Trainieren von Modellen bzw. künstlichen neuronalen Netzen kann eine Überanpassung auf jeweilige Trainingsdaten problematisch sein. Es hat sich jedoch gezeigt, dass das Lernen von Fehlern, die ein Modell 4 beim Verarbeiten von Trainingsdaten gemacht hat, unter Umständen nützlich sein kann, beispielsweise zum Vorhersagen von Segmentierungsfehlern 7 bei der semantischen Segmentierung von Bilddaten. Derartige Segmentierungsfehler 7, die das Segmentierungsmodell 4 beim Verarbeiten der Trainingsdaten gemacht hat, wird es mit relativ großer Wahrscheinlichkeit auch beim Verarbeiten von nicht annotierten Testdaten machen, hier also beispielsweise beim Verarbeiten des komprimierten Bildes 1. Damit sind die Segmentierungsfehler 7 eine nützliche Quelle von Informationen oder Daten darüber, welche Segmentierungsfehler 7 des Segmentierungsmodells 4 auch für Testdaten, also im produktiven Einsatz des Segmentierungsmodells 4 mindestens zu erwarten sind. Somit kann durch die entsprechend trainierten Korrekturmodelle 9, 10 eine zumindest teilweise Korrektur dieser Segmentierungsfehler 7 erreicht werden.The correction models 9, 10 can be trained using preliminary semantic segmentations 5 generated by the segmentation model 4 actually used. When training models or artificial neural networks, overfitting to the respective training data can be problematic. However, it has been shown that learning errors made by a model 4 when processing training data can sometimes be useful, for example for predicting segmentation errors 7 in the semantic segmentation of image data. Such segmentation errors 7, which the segmentation model 4 made when processing the training data, will also be made with a relatively high probability when processing non-annotated test data, in this case, for example, when processing the compressed image 1. The segmentation errors 7 are therefore a useful source of information or data on which segmentation errors 7 of the segmentation model 4 are also to be expected at least for test data, ie when the segmentation model 4 is used productively. Thus, by means of the correspondingly trained correction models 9, 10, an at least partial correction of these segmentation errors 7 can be achieved.

Ein von dem jeweiligen Korrekturmodell 9, 10 erzeugter Output kann beispielsweise über eine Ausgangsschnittstelle 11 der Segmentierungseinrichtung 2 ausgegeben oder bereitgestellt werden. Bei diesem Output kann es sich um eine korrigierte semantische Segmentierung 12 mit Korrekturen 13 anstelle der in der vorläufigen semantischen Segmentierung 5 noch enthaltenen Segmentierungsfehler 7 handeln.An output generated by the respective correction model 9, 10 can be output or made available, for example, via an output interface 11 of the segmentation device 2. This output can be a corrected semantic segmentation 12 with corrections 13 instead of the segmentation errors 7 still contained in the provisional semantic segmentation 5 .

Diese korrigierte semantische Segmentierung 12 kann dann als Grundlage oder Datenbasis für weitergehende Anwendungen bereitgestellt oder verwendet werden.This corrected semantic segmentation 12 can then be provided or used as a basis or database for further applications.

Insgesamt zeigen die beschriebenen Beispiele wie Fehler einer semantischen Segmentierung, die durch eine Kompression eines jeweiligen semantisch zu segmentierenden Bildes verursacht wurden, besonders einfach und effektiv korrigiert werden können, um letztlich eine verbesserte semantische Segmentierung des jeweiligen Bildes zu erzeugen.Overall, the examples described show how errors in a semantic segmentation, which were caused by a compression of a respective image to be semantically segmented, can be corrected in a particularly simple and effective manner in order ultimately to produce an improved semantic segmentation of the respective image.

BezugszeichenlisteReference List

11
komprimiertes Bildcompressed image
22
Segmentierungseinrichtungsegmentation facility
33
Eingangsschnittstelleinput interface
44
Segmentierungsmodellsegmentation model
55
vorläufige semantische Segmentierungpreliminary semantic segmentation
66
Softmax-BewertungSoftmax rating
77
Segmentierungsfehlersegmentation error
88th
Aufbereitungprocessing
99
Korrekturmodellcorrection model
1010
weiteres Korrekturmodellanother correction model
1111
Ausgangsschnittstelleoutput interface
1212
korrigierte semantische Segmentierungcorrected semantic segmentation
1313
Korrekturcorrection

Claims (10)

Verfahren zum Erzeugen einer semantischen Segmentierung eines Bildes, wobei - ein aus ursprünglichen Bilddaten durch Komprimieren erzeugtes komprimiertes Bild erfasst wird, - das komprimierte Bild unabhängig von dessen Kompressionsstufe mittels eines vorgegebenen trainierten Segmentierungsmodells verarbeitet wird, um eine vorläufige semantische Segmentierung zu erzeugen, - basierend auf der vorläufigen semantischen Segmentierung mittels eines vorgegebenen Korrekturmodells, das zum Korrigieren von Segmentierungsfehlern aufgrund von Kompressionsartefakten trainiert ist, eine korrigierte semantischen Segmentierung erzeugt wird.Method for generating a semantic segmentation of an image, wherein - a compressed image generated from original image data by compression is captured, - the compressed image is processed independently of its compression level using a predefined trained segmentation model in order to generate a preliminary semantic segmentation, - a corrected semantic segmentation is generated based on the provisional semantic segmentation by means of a predetermined correction model which is trained to correct segmentation errors due to compression artifacts. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass - mehrere trainierte Korrekturmodelle bereitgestellt werden, die zum Korrigieren von bei der semantischen Segmentierung von in unterschiedlichen Kompressionsstufen komprimierten Bildern auftretenden Segmentierungsfehlern trainiert sind, - automatisch die Kompressionsstufe des jeweiligen komprimierten Bildes ermittelt wird, und - aus den bereitgestellten Korrekturmodellen das zu der ermittelten Kompressionsstufe des jeweiligen komprimierten Bildes korrespondierende Korrekturmodell ausgewählt und zum Erzeugen der korrigierten semantischen Segmentierung verwendet wird.procedure after claim 1 , characterized in that - several trained correction models are provided, which are trained to correct segmentation errors occurring during the semantic segmentation of images compressed in different compression levels, - the compression level of the respective compressed image is determined automatically, and - from the correction models provided, the the determined compression level of the respective compressed image corresponding correction model is selected and used to generate the corrected semantic segmentation. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als das Korrekturmodell ein künstliches neuronales Netz, insbesondere ein Autoencoder, mit einer vollständig faltenden Encoder-Decoder-Schichtstruktur verwendet wird.Method according to one of the preceding claims, characterized in that an artificial neural network, in particular an autoencoder, with a completely convolutional encoder-decoder layer structure is used as the correction model. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das als Korrekturmodell verwendete künstliche neuronale Netz mehrere Downsamplingschichten gefolgt von mehreren Upsamplingschichten aufweist, wobei nach jeder dieser Schichten mit Ausnahme der letzten ausgangsseitigen Schicht ein Gleichrichteraktivierungsfunktion angewendet wird.procedure after claim 3 , characterized in that the artificial neural network used as a correction model has a plurality of downsampling layers followed by a plurality of upsampling layers, a rectifier activation function being applied after each of these layers, with the exception of the last output-side layer. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Erzeugen eines Inputs für das Korrekturmodell auf die von dem Segmentierungsmodell erzeugte vorläufige semantische Segmentierung eine 1-aus-n-Kodierung angewendet wird.Method according to one of the preceding claims, characterized in that a 1-out-of-n coding is applied to the provisional semantic segmentation generated by the segmentation model in order to generate an input for the correction model. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für einen Input des Korrekturmodells auch eine von dem Segmentierungsmodell beim Verarbeiten des jeweiligen komprimierten Bildes ausgegebene Softmax-Bewertung verwendet wird.Method according to one of the preceding claims, characterized in that a soft-max evaluation output by the segmentation model when processing the respective compressed image is also used for an input of the correction model. Verfahren nach Anspruch 5 und 6, dadurch gekennzeichnet, dass zum Erzeugen des Inputs für das Korrekturmodell die 1-aus-n-kodierte vorläufige semantische Segmentierung und die Softmax-Bewertung miteinander kombiniert werden, indem für jeden Pixel der vorläufigen semantischen Segmentierung der jeweilige 1-aus-n-Vektor und die jeweilige Softmax-Bewertung miteinander multipliziert werden.procedure after claim 5 and 6 , characterized in that to generate the input for the correction model, the 1-out-of-n-coded provisional semantic segmentation and the softmax evaluation are combined with each other by the respective 1-out-n vector and for each pixel of the provisional semantic segmentation the respective Softmax rating are multiplied together. Verfahren zum Herstellen einer Segmentierungseinrichtung zum Erzeugen einer semantischen Segmentierung von Bildern, bei dem - Segmentierungstrainingsdaten für ein Segmentierungsmodell bereitgestellt werden, die eine Vielzahl aus Datentupeln umfassen, wobei die Datentupel jeweils ein Bild in einer unkomprimierten Form und/oder wenigstens einer komprimierten Form als Input und eine korrekte semantische Referenzsegmentierung des unkomprimierten Bildes als Zieloutput umfassen, - mittels der Segmentierungstrainingsdaten ein Segmentierungsmodell zum semantischen Segmentieren von Bildern, insbesondere unabhängig von deren Kompressionsstufe, trainiert wird, - Korrekturtrainingsdaten für ein Korrekturmodell bereitgestellt werden, die eine Vielzahl aus Datentupeln aus jeweils zumindest einer von dem trainierten Segmentierungsmodell durch Verarbeiten eines komprimierten Bildes erzeugten fehlerbehafteten semantischen Segmentierung als Input und der korrekten semantischen Referenzsegmentierung der unkomprimierten Form des jeweiligen Bildes als Zieloutput umfassen, - mittels der Korrekturtrainingsdaten ein Korrekturmodell zum Erzeugen korrigierter semantischer Segmentierungen von Bildern trainiert wird, und - das trainierte Segmentierungsmodell und das trainierte Korrekturmodell in einen Datenspeicher der Segmentierungseinrichtung geladen werden.Method for producing a segmentation device for generating a semantic segmentation of images, in which - segmentation training data are provided for a segmentation model, which comprise a large number of data tuples, the data tuples each comprising an image in an uncompressed form and/or at least one compressed form as input and a correct semantic reference segmentation of the uncompressed image as target output, - using the segmentation training data, a segmentation model for the semantic segmentation of images is trained, in particular independently of their compression level, - correction training data are provided for a correction model, which comprise a large number of data tuples from at least one error-prone semantic segmentation generated by the trained segmentation model by processing a compressed image as input and the correct semantic reference segmentation of the uncompressed form of the respective image as target output, - a correction model for generating corrected semantic segmentations of images is trained by means of the correction training data, and - The trained segmentation model and the trained correction model are loaded into a data memory of the segmentation device. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass - mehrere unterschiedliche Sätze von Korrekturtrainingsdaten bereitgestellt werden, die sich durch die Kompressionsstufen der komprimierten Bilder, aus denen die in den Korrekturtrainingsdaten enthaltenen fehlerbehafteten semantischen Segmentierungen erzeugt wurden, voneinander unterscheiden, wobei jeder Satz von Korrekturtrainingsdaten aus komprimierten Bildern nur einer bestimmten Kompressionsstufe erzeugte fehlerbehaftete semantische Segmentierungen umfasst, - durch Trainieren mit jeweils einem der Sätze von Korrekturtrainingsdaten mehrere unterschiedliche trainierte Korrekturmodelle erzeugt und in den Datenspeicher der Segmentierungseinrichtung geladen werden.procedure after claim 8 , characterized in that - several different sets of correction training data are provided, which differ from each other by the compression levels of the compressed images from which the error-prone semantic segmentations contained in the correction training data were generated, each set of correction training data from compressed images of only one specific Compression level generated error-prone semantic segmentations, - are generated by training with one of the sets of correction training data several different trained correction models and loaded into the data memory of the segmentation device. Segmentierungseinrichtung, aufweisend eine Eingangsschnittstelle zum Erfassen von komprimierten Bildern, eine Prozessoreinrichtung, einen damit gekoppelten Datenspeicher und eine Ausgangsschnittstelle zum Ausgeben von aus erfassten komprimierten Bildern erzeugten korrigierten semantischen Segmentierungen, wobei die Segmentierungseinrichtung zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 7 eingerichtet und/oder gemäß einem Verfahren nach Anspruch 8 oder 9 hergestellt ist.Segmentation device, comprising an input interface for capturing compressed images, a processor device, a data memory coupled thereto and an output interface for outputting corrected semantic segmentations generated from captured compressed images, the segmentation device for executing a method according to one of Claims 1 until 7 established and/or according to a method claim 8 or 9 is made.
DE102021133203.6A 2021-12-15 2021-12-15 Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device Pending DE102021133203A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021133203.6A DE102021133203A1 (en) 2021-12-15 2021-12-15 Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021133203.6A DE102021133203A1 (en) 2021-12-15 2021-12-15 Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device

Publications (1)

Publication Number Publication Date
DE102021133203A1 true DE102021133203A1 (en) 2023-06-15

Family

ID=86498705

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021133203.6A Pending DE102021133203A1 (en) 2021-12-15 2021-12-15 Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device

Country Status (1)

Country Link
DE (1) DE102021133203A1 (en)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Convolutional neural network. In: Wikipedia, The Free Encyclopedia. Bearbeitungsstand: 08.11.2021, 19:12 UTC . URL: https://en.wikipedia.org/w/index.php?title=Convolutional_neural_network&oldid=1054217311 [abgerufen am 07.06.2022]
HOANG, Trinh Man; ZHOU, Jinjia; FAN, Yibo: Image compression with encoder-decoder matched semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020. S. 160-161. thecv [online]. DOI: aufgerufen über: URL: https://openaccess.thecvf.com/content_CVPRW_2020/html/w7/Hoang_Image_Compression_With_Encoder-Decoder_Matched_Semantic_Segmentation_CVPRW_2020_paper.html. In: Google Scholar
HOANG, Trinh Man; ZHOU, Jinjia; FAN, Yibo: Supplemental zum Artikel der D1. thecv [online]. DOI: aufgerufen über: URL: https://openaccess.thecvf.com/content_CVPRW_2020/html/w7/Hoang_Image_Compression_With_Encoder-Decoder_Matched_Semantic_Segmentation_CVPRW_2020_paper.html. [recherchiert am 02.06.2022]
NVIDIA V100 TENSOR CORE GPU. Datasheet. NVIDIA Corporation, 14.10.2021. URL: https://web.archive.org/web/20211014215807/https://images.nvidia.com/content/technologies/volta/pdf/volta-v100-datasheet-update-us-1165301-r5.pdf [abgerufen am 07.06.2022].
One-hot. In: Wikipedia, The Free Encyclopedia . Bearbeitungsstand: 19.04.2021, 08:09 UTC. URL: https://en.wikipedia.org/w/index.php?title=One-hot&oldid=1018673079 [abgerufen am 07.06.2022]

Similar Documents

Publication Publication Date Title
DE102018130821A1 (en) Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product
DE102019100575A1 (en) METHOD AND SYSTEM FOR PRODUCING A AREA PICTURE USING LOW DEPTH DATA
DE112017005651T5 (en) Device for classifying data
DE112019007762T5 (en) Method for training a generative adversarial network, modified image generation module and system for detecting features in an image
DE102018217091A1 (en) Process, artificial neural network, device, computer program and machine-readable storage medium for the semantic segmentation of image data
DE102016216795A1 (en) Method for determining result image data
EP3948688A1 (en) Training for artificial neural networks with better utilization of learning data records
DE102020134755A1 (en) PROCESSING VIDEO FRAMES VIA NEURONAL FOLDING NETWORK USING STATISTICS OF PREVIOUS FRAMES
DE102020200503A1 (en) Method for generating labeled data, in particular for training a neural network, by improving initial labels
DE102018113621A1 (en) A method of training a convolutional neural network for processing image data for use in a driving support system
DE102015205502A1 (en) Image processing method and image processing system for extracting distorted circular picture elements
DE102021133203A1 (en) Segmentation device and method for generating a corrected image segmentation and method for producing a segmentation device
DE102022214330A1 (en) Method for generating at least one ground truth from a bird's eye view
DE102019129107A1 (en) Method and system for image analysis using boundary detection
DE102018132627A1 (en) Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product
EP4002217A1 (en) Method for reducing training data
DE102020128952A1 (en) Method and assistance device for two-stage image-based scene recognition and motor vehicle
DE102020133626A1 (en) Method for recognizing scenes, assistance devices and motor vehicles which are difficult to classify correctly for a neural network
DE102019217951A1 (en) Method and apparatus for determining a domain distance between at least two data domains
DE102021133878A1 (en) Image compression using artificial neural networks
DE202021102338U1 (en) Control unit for generating training data for training a machine learning algorithm
DE102021212731A1 (en) REVIEWING TESTING AND/OR TRAINING RECORDS FOR A COMPUTER-BASED MACHINE LEARNING MODULE
DE102021110069A1 (en) Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation
DE102022210890A1 (en) Confidence-dependent image brightening
DE102022208714A1 (en) Computer-implemented system and method for semantic analysis of a scene

Legal Events

Date Code Title Description
R163 Identified publications notified
R081 Change of applicant/patentee

Owner name: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, DE

Free format text: FORMER OWNER: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, 80809 MUENCHEN, DE

R081 Change of applicant/patentee

Owner name: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, DE

Free format text: FORMER OWNERS: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, 80809 MUENCHEN, DE; TECHNISCHE UNIVERSITAET MUENCHEN, 80333 MUENCHEN, DE