DE102021110069A1 - Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation - Google Patents
Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation Download PDFInfo
- Publication number
- DE102021110069A1 DE102021110069A1 DE102021110069.0A DE102021110069A DE102021110069A1 DE 102021110069 A1 DE102021110069 A1 DE 102021110069A1 DE 102021110069 A DE102021110069 A DE 102021110069A DE 102021110069 A1 DE102021110069 A1 DE 102021110069A1
- Authority
- DE
- Germany
- Prior art keywords
- segmentation
- model
- semantic
- semantic segmentation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
Die Erfindung betrifft ein Verfahren zum semantischen Segmentieren eines digitalen Bildes (14). Dabei wird aus dem Bild (14) durch ein entsprechend trainiertes Segmentierungsmodell (20) eine fehlerbehaftete vorläufige semantische Segmentierung (22) erzeugt. Diese wird einem Korrekturmodell (26) zugeführt, das zum Korrigieren solcher fehlerbehafteter semantischer Segmentierungen (22) trainiert ist. Durch das Korrekturmodell (26) wird unter Anpassen wenigstens einer durch das Segmentierungsmodell (20) als Teil der vorläufigen semantischen Segmentierung (22) bestimmten Klassifikation automatisch eine korrigierte semantische Segmentierung (34) des Bildes (14) erzeugt. Die Erfindung betrifft auch ein Verfahren (10) zum Bereitstellen eines solchen Korrekturmodells (26). Die Erfindung betrifft weiter eine Assistenzeinrichtung (12, 42) zum entsprechenden Erzeugen korrigierter semantischer Segmentierungen (34) sowie ein mit einer solchen Assistenzeinrichtung (12, 42) ausgestattetes Kraftfahrzeug (36).The invention relates to a method for semantically segmenting a digital image (14). An error-prone provisional semantic segmentation (22) is generated from the image (14) by a correspondingly trained segmentation model (20). This is supplied to a correction model (26) which is trained to correct such erroneous semantic segmentations (22). The correction model (26) automatically generates a corrected semantic segmentation (34) of the image (14) by adapting at least one classification determined by the segmentation model (20) as part of the preliminary semantic segmentation (22). The invention also relates to a method (10) for providing such a correction model (26). The invention further relates to an assistance device (12, 42) for correspondingly generating corrected semantic segmentations (34) and to a motor vehicle (36) equipped with such an assistance device (12, 42).
Description
Die vorliegende Erfindung betrifft ein Verfahren zum semantischen Segmentieren eines digitalen Bildes und ein Verfahren zum Bereitstellen eines dabei verwendeten Korrekturmodells. Die Erfindung betrifft weiter eine für ein solches semantisches Segmentieren von digitalen Bildern eingerichtete Assistenzeinrichtung und ein damit ausgestattetes Kraftfahrzeug.The present invention relates to a method for the semantic segmentation of a digital image and a method for providing a correction model used therein. The invention further relates to an assistance device set up for such a semantic segmentation of digital images and a motor vehicle equipped therewith.
Ein Aufnehmen und Verarbeiten von digitalen Bildern kann in einer Vielzahl von technischen Gebieten und Anwendungen eingesetzt werden. Dabei besteht die Herausforderung, entsprechende Bilder möglichst nutzbringend mit rein technischen Mitteln zu nutzen. Dazu gibt es heutzutage vermehrt Bestrebungen, sogenanntes Computersehen zu verwenden, wobei Bilder automatisch semantisch segmentiert werden. Eine solche semantische Segmentierung weist einzelnen Bildbereichen oder Pixeln des jeweiligen Bildes eine Bedeutung oder Objektklasse zu und ermöglicht so in gewissem Sinne ein maschinelles Verständnis einer in dem jeweiligen Bild dargestellten Szene, eine Reaktion auf erkannte Objekte und/oder dergleichen mehr. Problematisch ist dabei jedoch, dass solche Verfahren bisher keine hundertprozentige Genauigkeit oder Zuverlässigkeit aufweisen, also beispielsweise Fehler bei der semantischen Segmentierung machen. Dies kann je nach Anwendungsfall ein potenzielles Sicherheitsrisiko darstellen, einen Nutzerkomfort reduzieren und/oder praktikable Einsatzmöglichkeiten reduzieren.Digital image capture and processing can be used in a variety of technical fields and applications. The challenge here is to use the corresponding images as profitably as possible with purely technical means. In addition, there are now increasing efforts to use so-called computer vision, with images being automatically segmented semantically. Such a semantic segmentation assigns a meaning or object class to individual image areas or pixels of the respective image and thus in a certain sense enables a machine understanding of a scene represented in the respective image, a reaction to recognized objects and/or the like. The problem here, however, is that such methods have not yet been 100% accurate or reliable, meaning that they make errors in semantic segmentation, for example. Depending on the application, this can represent a potential security risk, reduce user comfort and/or reduce practicable application options.
Als ein Anwendungsfall einer Bildsegmentierung ist in der
Die semantische Segmentierung von Bilddaten kann jedoch sehr rechenintensiv und aufwendig sein, was insbesondere für Echtzeitanwendungen problematisch sein kann. Einige herkömmliche Ansätze zum Reduzieren des Rechenaufwandes können dabei auf Kosten der Genauigkeit, Zuverlässigkeit und Robustheit gehen, was gerade in sicherheitskritischen Anwendungen, wie etwa in der Fahrzeugtechnik, letztlich unerwünscht ist. Vor diesem Hintergrund schlägt die
Aufgabe der vorliegenden Erfindung ist es, eine verbesserte semantische Segmentierung von Bildern zu ermöglichen.The object of the present invention is to enable improved semantic segmentation of images.
Diese Aufgabe wird erfindungsgemäß durch die Gegenstände der unabhängigen Patentansprüche gelöst. Mögliche Ausgestaltungen und Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Patentansprüchen, in der Beschreibung und in den Figuren offenbart.According to the invention, this object is achieved by the subject matter of the independent patent claims. Possible refinements and developments of the present invention are disclosed in the dependent patent claims, in the description and in the figures.
Das erfindungsgemäße Verfahren dient, kann also angewendet werden zum semantischen Segmentieren digitaler Bilder, also entsprechender Bilddaten. In einem Verfahrensschritt des erfindungsgemäßen Verfahrens wird das zu segmentierende Bild als Input, also als Eingangsdaten, einem vorgegebenen bzw. bereitgestellten trainierten Segmentierungsmodell zugeführt. Dieses Segmentierungsmodell ist dabei zum semantischen Segmentieren von Bilddaten trainiert. Als dieses Segmentierungsmodell kann beispielsweise ein herkömmliches Modell für die semantische Bildsegmentierung verwendet werden.The method according to the invention serves and can therefore be used for the semantic segmentation of digital images, ie corresponding image data. In a method step of the method according to the invention, the image to be segmented is used as input, ie as input data supplied to a predetermined or provided trained segmentation model. This segmentation model is trained for the semantic segmentation of image data. For example, a conventional model for semantic image segmentation can be used as this segmentation model.
In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird durch das Segmentierungsmodell durch Verarbeiten des jeweiligen Bildes, also des ihm zugeführten Inputs, eine vorläufige semantische Segmentierung des jeweiligen Bildes erzeugt. Da heutzutage verfügbare Segmentierungsmodelle, wie eingangs bereits angedeutet, keine hundertprozentige Genauigkeit bei der semantischen Segmentierung erreichen, wird diese vorläufige semantische Segmentierung voraussichtlich oder typischerweise fehlerbehaftet sein. Die vorläufige semantische Segmentierung kann auch als initiale Segmentierungsvorhersage bezeichnet werden. Die vorläufige semantische Segmentierung bildet hier einen Output, also Ausgangsdaten, des Segmentierungsmodells. Dieser Output kann beispielsweise über eine entsprechende Schnittstelle ausgegeben und/oder in einem Datenspeicher oder Zwischenspeicher abgelegt werden.In a further method step of the method according to the invention, a provisional semantic segmentation of the respective image is generated by the segmentation model by processing the respective image, ie the input supplied to it. Since the segmentation models available today, as already indicated above, do not achieve 100% accuracy in the semantic segmentation, this provisional semantic segmentation is likely to be or typically error-prone. Preliminary semantic segmentation can also be referred to as initial segmentation prediction. The provisional semantic segmentation forms an output, i.e. initial data, of the segmentation model. This output can, for example, be output via a corresponding interface and/or stored in a data memory or buffer.
In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird die vorläufige semantische Segmentierung des jeweiligen Bildes als Input einem vorgegebenen bzw. bereitgestellten trainierten Korrekturmodell zugeführt. Dieses Korrekturmodell ist ein weiteres Modell, das anhand von fehlerbehafteten semantischen Segmentierungen zu deren Korrigieren trainiert ist. Dieses Trainieren des Korrekturmodells ist an anderer Stelle näher erläutert.In a further method step of the method according to the invention, the provisional semantic segmentation of the respective image is supplied as input to a predetermined or provided trained correction model. This correction model is another model that is trained to correct error-prone semantic segmentations. This training of the correction model is explained in more detail elsewhere.
Fehlerhafte semantische Segmentierungen von Bildern sind im vorliegenden Sinne semantische Segmentierungen, die einzelnen Bildbereichen oder Pixeln des jeweiligen Bildes eine bestimmte Klasse oder Klassifikation zuzuweisen bzw. entsprechende Karten solcher bereichs- oder pixelweiser Klassifikationen, worin wenigstens ein Bereich oder Pixel fehlerhaft, also nicht einer objektiven Wahrheit (englisch: ground truth) entsprechend, klassifiziert ist.Incorrect semantic segmentations of images are, in the present sense, semantic segmentations that assign a specific class or classification to the individual image areas or pixels of the respective image, or corresponding maps of such area-by-area or pixel-by-pixel classifications, in which at least one area or pixel is incorrect, i.e. not an objective truth (English: ground truth) accordingly, is classified.
Das Korrekturmodell und das Segmentierungsmodell können hier trainierbare bzw. trainierte Modelle, Algorithmen oder Einrichtungen des maschinellen Lernens sein. Eine konkrete Implementierung kann beispielsweise abhängig von einem jeweiligen Anwendungsfall, von verfügbaren Berechnungs- oder Ausführungsressourcen und/oder dergleichen mehr gewählt oder bestimmt werden.The correction model and the segmentation model can be trainable or trained models, algorithms or machine learning devices. A specific implementation may be selected or determined, for example, depending on a particular use case, available computational or execution resources, and/or the like.
In einem weiteren Verfahrensschritt des erfindungsgemäßen Verfahrens wird durch das Korrekturmodell durch Verarbeiten der vorläufigen semantischen Segmentierung, also des ihm zugeführten Inputs, automatisch als Output des Korrekturmodells eine korrigierte semantische Segmentierung des jeweiligen Bildes erzeugt bzw. ausgegeben. Dabei kann das Korrekturmodell wenigstens eine durch das Segmentierungsmodell als Teil der vorläufigen semantischen Segmentierung des jeweiligen Bildes bestimmte Klassifikation anpassen, also ändern. Es hat sich gezeigt, dass in dieser Weise ein signifikanter Anteil der durch das Segmentierungsmodell gemachten und in der vorläufigen semantischen Segmentierung enthaltenen Segmentierungsfehler durch das Korrekturmodell korrigiert werden kann. Dies bedeutet, dass das Korrekturmodell also entsprechende fehlerhafte Klassifikationen des Segmentierungsmodells durch die jeweilige wahre, also objektiv korrekte Klassifikation ersetzen kann.In a further method step of the method according to the invention, a corrected semantic segmentation of the respective image is automatically generated or output as an output of the correction model by the correction model by processing the provisional semantic segmentation, ie the input supplied to it. The correction model can adapt, ie change, at least one classification determined by the segmentation model as part of the provisional semantic segmentation of the respective image. It has been shown that in this way a significant proportion of the segmentation errors made by the segmentation model and contained in the provisional semantic segmentation can be corrected by the correction model. This means that the correction model can therefore replace corresponding incorrect classifications of the segmentation model with the respective true, ie objectively correct, classification.
Somit kann die korrigierte semantische Segmentierung insgesamt zumindest weniger Segmentierungsfehler aufweisen als die vorläufige semantische Segmentierung. Damit kann durch die vorliegende Erfindung insgesamt in Form der korrigierten semantischen Segmentierung eine semantische Segmentierung des jeweiligen Bildes erzeugt werden, die eine im Vergleich zu herkömmlichen Verfahren oder Ansätzen verbesserte Genauigkeit aufweisen kann. Wird beispielsweise ein herkömmliches Segmentierungsmodell verwendet, das eine Genauigkeit, also eine Rate korrekter Klassifikationen, von etwa 90 % aufweist, so kann durch die erfindungsgemäß vorgesehene zusätzliche Anwendung des Korrekturmodells beispielsweise eine letztendliche Gesamtgenauigkeit der korrigierten semantischen Segmentierung von beispielsweise etwa 95 % erreicht werden - abhängig vom konkreten Anwendungsszenario.The corrected semantic segmentation can thus have at least fewer segmentation errors overall than the provisional semantic segmentation. With the present invention, a semantic segmentation of the respective image can be generated overall in the form of the corrected semantic segmentation, which can have improved accuracy compared to conventional methods or approaches. If, for example, a conventional segmentation model is used that has an accuracy, i.e. a rate of correct classifications, of about 90%, the additional application of the correction model provided according to the invention can, for example, achieve an overall accuracy of the corrected semantic segmentation of, for example, about 95% - depending from the concrete application scenario.
Effektiv hat das entsprechend trainierte Korrekturmodell also gelernt, durch das Segmentierungsmodell gemachte oder eingeführte Fehler zu modellieren und umzukehren, also zu beheben. Mit anderen Worten kann das Korrekturmodell dazu trainiert sein, die korrekten Klassifikationen aus den Klassifikationsvorhersagen des Segmentierungsmodells, also aus der vorläufigen semantischen Segmentierung zu rekonstruieren.The correspondingly trained correction model has effectively learned to model and reverse errors made or introduced by the segmentation model, i.e. to correct them. In other words, the correction model can be trained to reconstruct the correct classifications from the classification predictions of the segmentation model, ie from the provisional semantic segmentation.
Konzeptionell kann dies als Entrauschen des jeweiligen Bildes aufgefasst werden. Segmentierungsfehler, die das Segmentierungsmodell gemacht hat, können in diesem Sinne als Rauschen aufgefasst werden, das durch das Segmentierungsmodell in die vorläufige semantische Segmentierung eingebracht wurde. Das Korrekturmodell ist in diesem Gedankenbild dann dazu trainiert, dieses Rauschen zu entfernen und dadurch die Klassifikationsgenauigkeit, also die Genauigkeit der semantischen Segmentierung zu verbessern.Conceptually, this can be understood as denoising the respective image. In this sense, segmentation errors made by the segmentation model can be understood as noise that was introduced into the preliminary semantic segmentation by the segmentation model. The correction model is then trained in this mental image to eliminate this noise to remove and thereby improve the classification accuracy, i.e. the accuracy of the semantic segmentation.
In einer fahrzeug- oder verkehrstechnischen Anwendung werden durch heutzutage verfügbare Segmentierungsmodelle beispielsweise Fußgänger aufgrund ihrer vielfältigen, sehr variablen Erscheinungen und Konturen oftmals teilweise fehlklassifiziert. Ausgehend von einem solchen nur partiell korrekt klassifizierten Fußgänger bzw. einem entsprechenden als Fußgänger klassifizierten Teilbereich der vorläufigen semantischen Segmentierung kann das Korrekturmodell dann fehlerhafte, also fehlklassifizierte Bereiche, die abweichend von der vorläufigen semantischen Segmentierung tatsächlich zu dem Fußgänger gehören, mit einer Fußgängerklassifikation ausfüllen und somit den gesamten, dem Fußgänger entsprechenden Bereich mit korrekter Klassifikation als Fußgänger rekonstruieren.In a vehicle or traffic engineering application, the segmentation models available today often misclassify pedestrians, for example, due to their diverse, very variable appearances and contours. Based on such a pedestrian that is only partially correctly classified or a corresponding partial area of the provisional semantic segmentation classified as a pedestrian, the correction model can then fill in erroneous, i.e. misclassified areas that, contrary to the provisional semantic segmentation, actually belong to the pedestrian, with a pedestrian classification and thus reconstruct the entire area corresponding to the pedestrian with correct classification as a pedestrian.
Es sei darauf hingewiesen, dass es in der klassischen Bildbearbeitung zwar bereits Entrauchungsalgorithmen gibt, beispielsweise zum Entfernen von Gauß'schem Rauschen. Die - hier wie beschrieben als Rauschen interpretierbaren - Fehler des Segmentierungsmodells, also der entsprechend fehlerbehafteten vorläufigen semantischen Segmentierung sind im Vergleich dazu jedoch wesentlich komplexer, abhängig von dem verwendeten Segmentierungsmodell und damit insgesamt kaum in praktikabler Weise genau und zuverlässig modellierbar oder vorhersagbar. Dementsprechend ist das Korrigieren der fehlerbehafteten vorläufigen semantischen Segmentierung beispielsweise mittels eines einfachen klassischen Entrauschungsalgorithmus oder -filters nicht praktikabel oder in der durch die vorliegende Erfindung erreichbaren Genauigkeit oder Qualität möglich.It should be noted that there are already smoke extraction algorithms in classical image processing, for example for removing Gaussian noise. The errors of the segmentation model - which can be interpreted here as noise - i.e. the correspondingly error-prone provisional semantic segmentation are in comparison to this much more complex, depending on the segmentation model used and thus overall hardly practicable exactly and reliably modelable or predictable. Accordingly, correcting the erroneous preliminary semantic segmentation using, for example, a simple classical denoising algorithm or filter is not practical or possible with the accuracy or quality achievable by the present invention.
Die vorliegende Erfindung beruht auf der Erkenntnis, dass Segmentierungsfehler, die von aktuellen Segmentierungsmodellen gemacht werden, jedoch oftmals auch nicht vollständig zufällig sind, sondern einer gewissen Struktur folgen. Diese Struktur kann durch das Korrekturmodell gelernt werden bzw. gelernt sein, allerdings nicht ohne Weiteres durch einen klassischen oder händisch erstellten Korrekturalgorithmus modelliert werden.The present invention is based on the knowledge that segmentation errors made by current segmentation models are often not completely random, but rather follow a certain structure. This structure can be learned or has been learned by the correction model, but not readily modeled by a conventional or manually created correction algorithm.
Ein weiterer Vorteil der vorliegenden Erfindung besteht darin, dass das Korrekturmodell, insbesondere nur oder vollständig, im semantischen Raum, also auf der Ebene der semantischen Segmentierungen arbeitet, da es die vorläufige semantische Segmentierung des Segmentierungsmodells als Input entgegennimmt und daraus die korrigierte semantische Segmentierung des jeweiligen Bildes erzeugt. Das Korrekturmodell verwendet also nicht direkt das jeweilige zugrundeliegende Bild selbst. Dadurch ist das erfindungsgemäße Verfahren besonders aufwandsarm und effizient, beispielsweise im Vergleich zu einem anderen oder herkömmlichen mehrstufigen Verfahren für die Bildbearbeitung, das für eine zweite Stufe wieder auf das jeweilige ursprüngliche Bild zurückgreift, also in mehreren Stufen jeweils zumindest teilweise im Bildraum arbeitet.Another advantage of the present invention is that the correction model, in particular only or completely, works in the semantic space, i.e. at the level of the semantic segmentations, since it accepts the preliminary semantic segmentation of the segmentation model as input and from this the corrected semantic segmentation of the respective image generated. The correction model therefore does not directly use the respective underlying image itself. As a result, the method according to the invention requires little effort and is efficient, for example in comparison to another or conventional multi-stage method for image processing, which uses the respective original image again for a second stage, i.e works at least partially in the pictorial space in several stages.
In einer möglichen Ausgestaltung der vorliegenden Erfindung wird zumindest als Teil des Segmentierungsmodells und/oder zumindest als Teil des Korrekturmodells ein jeweiliges tiefes künstliches neuronales Netz verwendet. Mit anderen Worten wird also ein jeweiliges mehrschichtiges künstliches neuronales Netz verwendet, das wenigstens eine mittlere, also versteckte Schicht aufweist. Es hat sich gezeigt, dass derartige tiefe künstliche neuronale Netze eine effektive Möglichkeit zum Realisieren oder Implementieren des Segmentierungsmodells bzw. des Korrekturmodells darstellen. Beispielsweise kann hier ein faltendes neuronales Netz (englisch: convolutional neural network, CNN) verwendet werden.In one possible embodiment of the present invention, a respective deep artificial neural network is used at least as part of the segmentation model and/or at least as part of the correction model. In other words, a respective multi-layer artificial neural network is used, which has at least one middle, ie hidden, layer. It has been shown that deep artificial neural networks of this type represent an effective way of realizing or implementing the segmentation model or the correction model. For example, a convolutional neural network (CNN) can be used here.
In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung sind das Segmentierungsmodell und das Korrekturmodell dazu trainiert bzw. dazu eingerichtet, als jeweiligen Output eine bezogen auf das jeweilige Bild pixelgenaue semantische Segmentierung zu erzeugen. Mit anderen Worten erzeugt das Segmentierungsmodell die vorläufige semantische Segmentierung und das Korrekturmodell die korrigierte semantische Segmentierung pixelgenau. Die vorläufige semantische Segmentierung und die korrigierte semantische Segmentierung können dabei also mit derselben Auflösung erzeugt werden, die auch das jeweilige zugrundeliegende Bild aufweist. Somit kann also jedem Pixel des jeweiligen Bildes eine individuelle Klassifikation zugeordnet werden. Auf diese Weise kann die semantische Segmentierung besonders genau und detailliert sein, wodurch eine entsprechend genaue und detaillierte Reaktion basierend auf der korrigierten semantischen Segmentierung ermöglicht wird, beispielsweise für ein Assistenzsystem eines Kraftfahrzeugs. Durch die pixelgenaue semantische Segmentierung kann so beispielsweise besonders schnell auf ein graduell in einen durch das Bild abgebildeten Sichtbereich eintretendes Objekt reagiert werden, da ein solches Objekt gegebenenfalls bereits detektiert werden kann, wenn es nur einen einzigen Pixel des jeweils aktuellen Bildes einnimmt.In a further possible embodiment of the present invention, the segmentation model and the correction model are trained or set up to generate a pixel-precise semantic segmentation as the respective output in relation to the respective image. In other words, the segmentation model creates the provisional semantic segmentation and the correction model creates the corrected semantic segmentation with pixel accuracy. The provisional semantic segmentation and the corrected semantic segmentation can thus be generated with the same resolution that the respective underlying image also has. An individual classification can thus be assigned to each pixel of the respective image. In this way, the semantic segmentation can be particularly precise and detailed, which enables a correspondingly precise and detailed reaction based on the corrected semantic segmentation, for example for an assistance system of a motor vehicle. The pixel-precise semantic segmentation makes it possible, for example, to react particularly quickly to an object gradually entering a field of view mapped by the image, since such an object can possibly already be detected if it only occupies a single pixel of the current image.
In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung ist das Segmentierungsmodell zum semantischen Segmentieren von Bildern, die Verkehrsszenen darstellen, trainiert. Als das dem Segmentierungsmodell als Input zugeführte Bild wird dann ein derartiges Bild, das eine Verkehrsszene darstellt, verwendet. Mit anderen Worten wird das erfindungsgemäße Verfahren der also insbesondere in der Verkehrs- oder Fahrzeugtechnik angewendet. Dies stellt einen Anwendungszweck oder -bereich dar, in dem hinsichtlich der derzeit laufenden Bestrebungen zum Entwickeln automatisierter Fahrzeuge eine automatisierte Bildverarbeitung von besonderer Bedeutung ist und der in besonderem Maße von einer verbesserten Genauigkeit der automatischen semantischen Segmentierung profitieren kann. Beispielsweise kann hier durch die vorliegende Erfindung eine verbesserte Sicherheit und Robustheit im Betrieb entsprechender Assistenzsysteme bzw. damit ausgestatteter zumindest teilweise automatisierter Kraftfahrzeuge, die eine automatische semantische Segmentierung von Bildern verwenden, erreicht werden.In a further possible embodiment of the present invention, the segmentation model is trained for the semantic segmentation of images that represent traffic scenes. The image supplied as input to the segmentation model is then such an image that a traffic depicting a scene. In other words, the method according to the invention is used in particular in traffic or vehicle technology. This represents an application purpose or area in which automated image processing is of particular importance in view of the current efforts to develop automated vehicles and which can benefit in particular from an improved accuracy of the automatic semantic segmentation. For example, the present invention can achieve improved safety and robustness in the operation of corresponding assistance systems or at least partially automated motor vehicles equipped therewith, which use automatic semantic segmentation of images.
In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung ist bzw. wird das Korrekturmodell bezogen auf das jeweilige bereitgestellte Segmentierungsmodell introspektiv trainiert. Das Korrekturmodell ist oder wird also anhand von tatsächlichen, von diesem oder einem entsprechenden Segmentierungsmodell erzeugten fehlerbehafteten semantischen Segmentierungen trainiert. Mit anderen Worten ist oder wird das Korrekturmodell also auf das jeweilige in dem erfindungsgemäßen Verfahren verwendete Segmentierungsmodell abgestimmt oder angepasst. Dadurch kann eine besonders hohe Genauigkeit und Zuverlässigkeit des Korrekturmodells erreicht werden. Dies ist der Fall, da das Korrekturmodell automatisch und implizit individuelle Eigenschaften oder Verhaltensweisen des jeweiligen Segmentierungsmodells lernt. Dies ist besonders nützlich, da unterschiedliche, beispielsweise mittels unterschiedlicher Trainingsdaten trainierte und/oder unterschiedliche interne Strukturen oder Größen aufweisende, Segmentierungsmodelle unterschiedliche Fehler beim Verarbeiten, also beim semantischen Segmentieren desselben Bildes machen können. Diese unterschiedlichen Fehler, Verhaltensweisen oder Eigenschaften des Segmentierungsmodells müssen durch das hier vorgeschlagene introspektive Training des Korrekturmodells nicht manuell bestimmt oder definiert und bei dem Trainieren des Korrekturmodells explizit eingebracht oder berücksichtigt werden. Somit kann das Korrekturmodell hier nicht nur eine verbesserte Genauigkeit aufweisen, sondern auch mit besonders geringem Aufwand erzeugt, also trainiert werden.In a further possible embodiment of the present invention, the correction model is or will be trained introspectively in relation to the respective segmentation model provided. The correction model is or will be trained using actual error-prone semantic segmentations generated by this or a corresponding segmentation model. In other words, the correction model is or will be matched or adapted to the respective segmentation model used in the method according to the invention. As a result, a particularly high level of accuracy and reliability of the correction model can be achieved. This is the case because the correction model automatically and implicitly learns individual properties or behaviors of the respective segmentation model. This is particularly useful since different segmentation models, for example trained using different training data and/or having different internal structures or sizes, can make different errors when processing, ie when semantically segmenting the same image. These different errors, behaviors or properties of the segmentation model do not have to be determined or defined manually by the introspective training of the correction model proposed here and explicitly introduced or taken into account when training the correction model. The correction model can therefore not only have improved accuracy here, but can also be generated, ie trained, with particularly little effort.
In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung verwendet das Korrekturmodell beim Verarbeiten der vorläufigen semantischen Segmentierung intern an wenigstens einer Stelle, insbesondere in wenigstens einer Schicht, eine im Vergleich zu der vorläufigen semantischen Segmentierung verkleinerte, also komprimierte und oder auflösungsreduzierte, Repräsentation oder Version der vorläufigen semantischen Segmentierung. Mit anderen Worten wird hier also ein Korrekturmodell verwendet, das eine interne Struktur aufweist, die dazu führt, dass eine Größe oder Auflösung des jeweiligen Inputs, hier also der jeweiligen vorläufigen semantischen Segmentierung, in zumindest einem Verarbeitungsschritt reduziert wird. Dadurch kann erreicht bzw. das Korrekturmodell dazu gezwungen werden, nur die jeweils letztlich zum möglichst fehlerfreien Erzeugen der korrigierten semantischen Segmentierung wichtigsten oder relevantesten Merkmale der vorläufigen semantischen Segmentierung zu verwenden. Mit anderen Worten kann so also eine Fokussierung des Korrekturmodells auf - zumindest voraussichtlich - fehlerbehaftete Bereiche oder Teile der jeweiligen vorläufigen semantischen Segmentierung erreicht oder erzwungen werden. Somit kann ein anschließender durch das Korrekturmodell durchgeführter oder aufgebrachter Rechenaufwand auf eben diese fehlerbehafteten Bereiche oder Teile oder Merkmale fokussiert oder beschränkt werden. Damit kann eine verbesserte Effizienz des Korrekturmodells bzw. des erfindungsgemäßen Verfahrens werden, da das Verarbeiten der verkleinerten Repräsentation der vorläufigen semantischen Segmentierung weniger Rechenaufwand oder Ressourcen benötigt als beispielsweise eine durchgängige 1-zu-1-Repräsentation oder Abbildung der vorläufigen semantischen Segmentierung an jeder Stelle oder in jeder Schicht des Korrekturmodells, während gleichzeitig durch die Fokussierung des Korrekturmodells auf die fehlerbehafteten Bereiche oder Teile der vorläufigen semantischen Segmentierung die Genauigkeit des Korrekturmodells erhalten oder sogar verbessert werden kann.In a further possible embodiment of the present invention, when processing the preliminary semantic segmentation, the correction model uses a representation or version of the preliminary that is reduced in comparison to the preliminary semantic segmentation internally at least at one point, in particular in at least one layer semantic segmentation. In other words, a correction model is used here that has an internal structure that results in a size or resolution of the respective input, in this case the respective preliminary semantic segmentation, being reduced in at least one processing step. As a result, the correction model can be achieved or forced to only use the most important or most relevant features of the provisional semantic segmentation for generating the corrected semantic segmentation as error-free as possible. In other words, a focussing of the correction model on areas or parts of the respective provisional semantic segmentation that are—at least presumably—incorrect can be achieved or enforced. In this way, a subsequent computing effort carried out or applied by the correction model can be focused or limited to precisely these faulty areas or parts or features. This can improve the efficiency of the correction model or the method according to the invention, since the processing of the reduced representation of the preliminary semantic segmentation requires less computing effort or resources than, for example, a continuous 1-to-1 representation or mapping of the preliminary semantic segmentation at each point or in each layer of the correction model, while at the same time the accuracy of the correction model can be maintained or even improved by focusing the correction model on the error-prone areas or parts of the preliminary semantic segmentation.
In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird als das Korrekturmodell ein Autoencoder mit einem eingangsseitigen Encoderteil und einem ausgangsseitigen Decoderteil verwendet. Zwischen diesem Encoderteil und Decoderteil kann eine Stelle oder Schicht des Korrekturmodells angeordnet sein, in der beim Verarbeiten der jeweiligen vorläufigen semantischen Segmentierung wie an anderer Stelle beschrieben eine verkleinerte Repräsentation der jeweiligen vorläufigen semantischen Segmentierung vorliegt, also durch das Korrekturmodell verwendet oder verarbeitet wird. Diese Stelle oder Schicht kann in diesem Sinne also einen Flaschenhals in einer Verarbeitungspipeline des Korrekturmodells bilden. Der Encoderteil kann dabei ein verkleinernder Teil sein, der ausgehend von der vorläufigen semantischen Segmentierung deren verkleinerte Repräsentation erzeugt. Der Decoderteil kann hingegen expandierend arbeiten, also ausgehend von dieser verkleinerten Repräsentation die im Vergleich dazu vergrößerte, korrigierte semantische Segmentierung erzeugen, insbesondere mit der Auflösung der vorläufigen semantischen Segmentierung. Die Verwendung eines solchen Autoencoders als Korrekturmodell, also die Verwendung eines Korrekturmodells mit einer solchen Autoencoderstruktur, hat sich dabei als besonders effektiv und effizient herausgestellt im Vergleich zu anderen möglichen Strukturen oder Arten von Korrekturmodellen. Somit kann durch die hier vorgeschlagene Ausgestaltung der vorliegenden Erfindung auf besonders einfache Weise eine besonders genaue und effiziente semantische Segmentierung von Bildern erreicht oder implementiert werden.In a further possible embodiment of the present invention, an autoencoder with an input-side encoder part and an output-side decoder part is used as the correction model. A location or layer of the correction model can be arranged between this encoder part and decoder part, in which, when processing the respective preliminary semantic segmentation as described elsewhere, there is a reduced representation of the respective preliminary semantic segmentation, i.e. it is used or processed by the correction model. In this sense, this point or layer can therefore form a bottleneck in a processing pipeline of the correction model. In this case, the encoder part can be a reducing part which, starting from the provisional semantic segmentation, generates its reduced representation. The decoder part, on the other hand, can work in an expanding manner, that is to say starting from this reduced representation, generate the corrected semantic segmentation which is enlarged in comparison thereto, in particular with the resolution of the provisional semantic segmentation. The use of such an autoencoder as a correction model, ie the use of a correction model with such an autoencoder structure, has turned out to be particularly effective and efficient compared to other possible structures or types of correction models. A particularly accurate and efficient semantic segmentation of images can thus be achieved or implemented in a particularly simple manner by the embodiment of the present invention proposed here.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Verfahren zum Bereitstellen oder Erzeugen eines Korrekturmodells für die semantische Segmentierung. Damit kann insbesondere das im Zusammenhang mit dem erfindungsgemäßen Verfahren zum semantischen Segmentieren eines digitalen Bildes genannte bzw. verwendete Korrekturmodell erzeugt bzw. bereitgestellt werden. In dem hier beschriebenen Verfahren werden als Trainingsdaten fehlerbehaftete semantische Segmentierungen von Bildern und zugehörige, insbesondere pixelgenaue, wahre Label oder Annotationen, die eine jeweilige korrekte Klassifikation, beispielsweise zumindest eines Bildbereiches oder eines Pixels, des jeweiligen Bildes angeben, erzeugt oder bereitgestellt. Die als Teil dieser Trainingsdaten verwendeten bzw. bereitgestellten semantischen Segmentierungen können insbesondere durch ein zum semantischen Segmentieren von digitalen Bilddaten trainiertes Segmentierungsmodell erzeugt sein oder werden. Dabei kann es sich insbesondere um das im Zusammenhang mit dem erfindungsgemäßen Verfahren zum semantischen Segmentieren eines digitalen Bildes genannte Segmentierungsmodell handeln, wodurch das an anderer Stelle genannte introspektive Trainieren des Korrekturmodells ermöglicht wird.Another aspect of the present invention is a method for providing or generating a correction model for semantic segmentation. In this way, in particular, the correction model mentioned or used in connection with the method according to the invention for the semantic segmentation of a digital image can be generated or provided. In the method described here, erroneous semantic segmentations of images and associated, in particular pixel-precise, true labels or annotations that indicate a respective correct classification, for example of at least one image area or one pixel, of the respective image are generated or provided as training data. The semantic segmentations used or provided as part of this training data can be or will be generated in particular by a segmentation model trained for the semantic segmentation of digital image data. This can in particular be the segmentation model mentioned in connection with the method according to the invention for the semantic segmentation of a digital image, as a result of which the introspective training of the correction model mentioned elsewhere is made possible.
Zusätzlich oder alternativ können ebenso synthetische, also anderweitig, gegebenenfalls ohne explizit dafür trainiertes Segmentierungsmodell erzeugte, semantische Segmentierungen als Teil der Trainingsdaten verwendet bzw. bereitgestellt werden.Additionally or alternatively, synthetic semantic segmentations, ie semantic segmentations generated in some other way, possibly without a segmentation model explicitly trained for this purpose, can also be used or provided as part of the training data.
In einem weiteren Verfahrensschritt wird ein Ausgangsmodell mit einer vorgegebenen Struktur bereitgestellt. Dieses Ausgangsmodell kann beispielsweise ein und trainiertes oder vortrainiertes Modell, insbesondere ein tiefes künstliches neuronales Netz, sein oder umfassen. Das Ausgangsmodell kann insbesondere, wie ebenfalls an anderer Stelle beschrieben, eine Autoencoderstruktur aufweisen.In a further method step, an initial model with a predetermined structure is provided. This starting model can, for example, be or include a trained or pre-trained model, in particular a deep artificial neural network. In particular, as also described elsewhere, the starting model can have an autoencoder structure.
In einem weiteren Verfahrensschritt wird das Ausgangsmodell anhand der bereitgestellten Trainingsdaten iterativ dazu trainiert, aus den fehlerbehafteten semantischen Segmentierungen deren zugehörige wahre Label oder Annotationen zu rekonstruieren. Dazu kann beispielsweise ein herkömmliches Fehlerrückführungsverfahren oder dergleichen angewendet werden.In a further method step, the initial model is iteratively trained using the training data provided to reconstruct the associated true labels or annotations from the erroneous semantic segmentations. A conventional error feedback method or the like can be used for this purpose, for example.
In einem weiteren Verfahrensschritt wird nach Abschluss dieses Trainings des Ausgangsmodells das so trainierte Ausgangsmodell als das Korrekturmodell bereitgestellt. Optional kann dieses Korrekturmodell dann mit dem oder einem Segmentierungsmodell kombiniert werden, um eine entsprechende Segmentierungseinrichtung zu schaffen bzw. bereitzustellen.In a further method step, after this training of the initial model has been completed, the initial model trained in this way is made available as the correction model. Optionally, this correction model can then be combined with the or a segmentation model in order to create or provide a corresponding segmentation device.
In dem hier vorgeschlagenen Verfahren wird also das Ausgangsmodell, insbesondere ein für ein tiefes Lernen (englisch: deep learning) eingerichtetes oder darauf basierendes Modell darauf trainiert, eine korrekte bzw. korrigierte semantische Segmentierung eines jeweiligen Bildes ausgehend von einer jeweiligen fehlerbehafteten semantischen Segmentierung, also einer teilweise inkorrekten Segmentierungsvorhersage des Segmentierungsmodells, zu erzeugen bzw. vorherzusagen. Dies wird erreicht, indem dem Ausgangsmodell während des Trainings die fehlerbehafteten semantischen Segmentierungen als Input zugeführt und die entsprechenden korrekten semantischen Segmentierungen, die also die in den fehlerbehafteten semantischen Segmentierungen enthaltenen Fehler des Segmentierungsmodells nicht aufweisen, als Zieloutput bereitgestellt oder vorgegebene werden.In the method proposed here, the initial model, in particular a model set up for deep learning or based on it, is trained to carry out a correct or corrected semantic segmentation of a respective image based on a respective error-prone semantic segmentation, i.e. a partially incorrect segmentation prediction of the segmentation model. This is achieved by feeding the error-prone semantic segmentations as input to the initial model during training and providing or pre-determining the corresponding correct semantic segmentations, which do not have the errors of the segmentation model contained in the error-prone semantic segmentations, as target output.
Wie bereits erläutert kann das Korrigieren der fehlerbehafteten semantischen Segmentierungen, das durch das Ausgangsmodell gelernt wird, als Entrauschen der fehlerbehafteten semantischen Segmentierungen aufgefasst werden. Im Gegensatz zu bekannten Entrauchungsalgorithmen oder -modellen wird hier jedoch nicht manuell ein Rauschen oder Rauschsignal zu vorgegebenen rauschfreien Ausgangsdaten hinzugefügt, um die Trainingsdaten zu erzeugen. Vielmehr werden die von dem Segmentierungsmodell gemachten und damit automatisch in den fehlerbehafteten semantischen Segmentierungen enthaltenen Segmentierungsfehler des Segmentierungsmodells als Rauschen oder Rauschsignal verwendet bzw. aufgefasst. Das Segmentierungsmodell, das die fehlerbehafteten semantischen Segmentierungen erzeugt, fungiert in diesem Sinne also als Fehlerfunktion, die Fehler in Form von fehlerhaften Klassifikationen in gedachte rauschfreie, also korrekte semantischen Segmentierungen einführt. Das Ausgangsmodell bzw. das Korrekturmodell lernt dann - zumindest effektiv oder konzeptionell - die entsprechende inverse Fehlerfunktion. Durch deren Anwenden auf die jeweilige fehlerbehaftete semantische Segmentierung können die darin enthaltenen Fehler entfernt werden können, um die - ursprünglich nur gedachte - korrekte bzw. korrigierte semantische Segmentierung nun tatsächlich als Output zu erzeugen.As already explained, the correction of the erroneous semantic segmentations, which is learned by the initial model, can be understood as denoising the erroneous semantic segmentations. In contrast to known smoke extraction algorithms or models, noise or a noise signal is not manually added to predetermined noise-free output data in order to generate the training data. Rather, the segmentation errors of the segmentation model made by the segmentation model and thus automatically contained in the error-prone semantic segmentations are used or interpreted as noise or noise signal. In this sense, the segmentation model that generates the erroneous semantic segmentations functions as an error function that introduces errors in the form of erroneous classifications into imaginary noise-free, i.e. correct, semantic segmentations. The starting model or the correction model then learns—at least effectively or conceptually—the corresponding inverse error function. By applying them to the respective error-prone semantic segmentation, the errors contained therein can be removed in order to actually generate the - originally only thought of - correct or corrected semantic segmentation as an output.
Ein weiterer Aspekt der vorliegenden Erfindung ist eine Assistenzeinrichtung, die insbesondere für ein Kraftfahrzeug vorgesehen ist, also in einem Kraftfahrzeug verwendet werden kann, beispielsweise zum semantischen Segmentieren von Bildern, die jeweils eine Verkehrsszene in einer Umgebung des jeweiligen Kraftfahrzeugs darstellen oder abbilden.A further aspect of the present invention is an assistance device which is provided in particular for a motor vehicle, ie can be used in a motor vehicle, for example for the semantic segmentation of images which each represent or depict a traffic scene in the vicinity of the respective motor vehicle.
Die erfindungsgemäße Assistenzeinrichtung weist eine Eingangsschnittstelle zum Erfassen von digitalen Bildern, ein damit gekoppeltes trainiertes Segmentierungsmodell zum automatischen semantischen Segmentieren der erfassten Bilder und ein dem Segmentierungsmodell nachgeschaltetes Korrekturmodell zum automatischen Erzeugen einer korrigierten semantischen Segmentierung der Bilder aus einem jeweiligen Output, also einer jeweiligen vorläufigen semantischen Segmentierung, des Segmentierungsmodells auf.The assistance device according to the invention has an input interface for capturing digital images, a trained segmentation model coupled thereto for automatic semantic segmentation of the captured images and a correction model downstream of the segmentation model for automatically generating a corrected semantic segmentation of the images from a respective output, i.e. a respective preliminary semantic segmentation , of the segmentation model.
Die erfindungsgemäße Assistenzeinrichtung kann zudem eine Ausgangs- oder Ausgabeschnittstelle zum Ausgeben der erzeugten korrigierten semantischen Segmentierungen und/oder einen computerlesbaren Datenspeicher zum Ablegen der korrigierten semantischen Segmentierungen aufweisen.The assistance device according to the invention can also have an output or output interface for outputting the corrected semantic segmentations that have been generated and/or a computer-readable data memory for storing the corrected semantic segmentations.
Die erfindungsgemäße Assistenzeinrichtung kann insbesondere zum automatischen Ausführen oder Durchführen des erfindungsgemäßen Verfahrens zum semantischen Segmentieren eines digitalen Bildes eingerichtet sein. Dazu kann die Assistenzeinrichtung beispielsweise einen computerlesbaren Datenspeicher umfassen, in dem ein entsprechendes Betriebs- oder Computerprogramm, das die Verfahrensschritte des erfindungsgemäßen Verfahrens repräsentiert, also codiert oder implementiert, gespeichert ist. Dieses Computerprogramm kann dann beispielsweise das Segmentierungsmodell und das Korrekturmodell umfassen oder dazu eingerichtet sein, auf diese Modelle zuzugreifen. Insbesondere in letzterem Fall können diese Modell beispielsweise ebenfalls in dem oder einem computerlesbaren Datenspeicher der erfindungsgemäßen Assistenzeinrichtung abgelegt sein.The assistance device according to the invention can in particular be set up to automatically execute or carry out the method according to the invention for the semantic segmentation of a digital image. For this purpose, the assistance device can include, for example, a computer-readable data memory in which a corresponding operating or computer program that represents the method steps of the method according to the invention, that is to say encoded or implemented, is stored. This computer program can then include the segmentation model and the correction model, for example, or be set up to access these models. In the latter case in particular, these models can also be stored, for example, in the or a computer-readable data memory of the assistance device according to the invention.
Die erfindungsgemäße Assistenzeinrichtung kann zudem eine Prozessoreinrichtung, also beispielsweise einen Mikrochip, Mikroprozessor oder Mikrocontroller, aufweisen, mittels welchem das Computerprogramm ausführbar ist, um das entsprechende erfindungsgemäße Verfahren auszuführen oder dessen Ausführung zu veranlassen.The assistance device according to the invention can also have a processor device, for example a microchip, microprocessor or microcontroller, by means of which the computer program can be executed in order to carry out the corresponding method according to the invention or to cause it to be carried out.
Obwohl das erfindungsgemäße Verfahren und die erfindungsgemäße Assistenzeinrichtung insbesondere im Bereich der Verkehrs- oder Fahrzeugtechnik nutzbringend angewendet oder eingesetzt werden können, kann die vorliegende Erfindung ebenso in anderen technischen Bereichen oder Einsatzgebieten angewendet werden.Although the method according to the invention and the assistance device according to the invention can be usefully applied or used in particular in the area of traffic or vehicle technology, the present invention can also be used in other technical areas or areas of use.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Kraftfahrzeug, das eine Kamera zum Aufnehmen von Bildern, die jeweils eine Verkehrsszene in einer jeweiligen Umgebung des Kraftfahrzeugs darstellen, und eine damit gekoppelte erfindungsgemäße Assistenzeinrichtung aufweist. Mit anderen Worten ist also das erfindungsgemäße Kraftfahrzeug zum Ausführen des erfindungsgemäßen Verfahrens zum semantischen Segmentieren eines digitalen Bildes eingerichtet. Das erfindungsgemäße Kraftfahrzeug kann also insbesondere das im Zusammenhang mit dem erfindungsgemäßen Verfahren und/oder im Zusammenhang mit der erfindungsgemäßen Assistenzeinrichtung genannte Kraftfahrzeug sein. Dementsprechend kann das erfindungsgemäße Kraftfahrzeug einige oder alle der in diesen Zusammenhängen genannten Eigenschaften und/oder Merkmale aufweisen.A further aspect of the present invention is a motor vehicle which has a camera for recording images, each of which represents a traffic scene in a respective area surrounding the motor vehicle, and an assistance device according to the invention coupled thereto. In other words, the motor vehicle according to the invention is set up to carry out the method according to the invention for the semantic segmentation of a digital image. The motor vehicle according to the invention can therefore in particular be the motor vehicle mentioned in connection with the method according to the invention and/or in connection with the assistance device according to the invention. Accordingly, the motor vehicle according to the invention can have some or all of the properties and/or features mentioned in these contexts.
Weitere Merkmale der Erfindung können sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung ergeben. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung und/oder in den Figuren allein gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.Further features of the invention can result from the claims, the figures and the description of the figures. The features and feature combinations mentioned above in the description and the features and feature combinations shown below in the description of the figures and/or in the figures alone can be used not only in the combination specified in each case, but also in other combinations or on their own, without going beyond the scope of the invention to leave.
Die Zeichnung zeigt in:
-
1 einen beispielhaften schematischen Ablaufplan für ein Verfahren zum Bereitstellen eines Korrekturmodells für die semantische Segmentierung von Bildern; -
2 eine schematische Darstellung zur Veranschaulichung eines Verfahrens und einer Einrichtung für eine verbesserte semantische Segmentierung unter Verwendung des Korrekturmodells; und -
3 eine schematische Darstellung eines Kraftfahrzeugs, das für eine verbesserte semantische Segmentierung von Umgebungsbildern eingerichtet ist.
-
1 an exemplary schematic flowchart for a method for providing a correction model for the semantic segmentation of images; -
2 a schematic representation to illustrate a method and a device for an improved semantic segmentation using the correction model; and -
3 a schematic representation of a motor vehicle that is set up for improved semantic segmentation of images of the surroundings.
In den Figuren sind gleiche und funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.In the figures, identical and functionally identical elements are provided with the same reference symbols.
In einem Verfahrensschritt S2 werden die bereitgestellten fehlerbehafteten semantischen Segmentierungen mit wahren Labels (englisch: ground truth labels) versehen, also annotiert, insbesondere pixelgenau oder pixelweise. Auf diese Weise werden Trainingsdaten erzeugt und bereitgestellt.In a method step S2, the provided error-prone semantic segmentations are provided with true labels (ground truth labels), ie annotated, in particular pixel-by-pixel or pixel-by-pixel. In this way, training data is generated and made available.
In einem Verfahrensschritt S3 wird ein trainierbares Ausgangsmodell bereitgestellt und dazu trainiert, aus fehlerbehafteten semantischen Segmentierungen korrigierte, also um die darin enthaltenen Fehler bereinigte, semantische Segmentierungen zu erzeugen. Dies kann in einem iterativen Trainingsprozess erreicht werden, was hier durch einen entsprechenden schleifenförmigen Programm- oder Ablaufpfad angedeutet ist.In a method step S3, a trainable starting model is provided and trained to generate corrected semantic segmentations from error-prone semantic segmentations, ie corrected for the errors contained therein. This can be achieved in an iterative training process, which is indicated here by a corresponding loop-shaped program or flow path.
Nach Abschluss des Trainings wird ein daraus resultierendes trainiertes Korrekturmodell 26 (siehe
Die Segmentierungseinrichtung 12 umfasst das Segmentierungsmodell 20, dem das Bild 14 als Input zugeführt wird. Das Segmentierungsmodell 20 kann beispielsweise ein tiefes künstliches neuronales Netz sein oder umfassen, was hier schematisch angedeutet ist. Das Segmentierungsmodell 20 erzeugt durch Verarbeiten des Bildes 14 aus diesem automatisch eine zugehörige vorläufige semantische Segmentierung 22 des Bildes 14. Da das Segmentierungsmodell 20 jedoch - unvermeidlicherweise - nicht immer hundertprozentig korrekt arbeiten kann, enthält die vorläufige semantische Segmentierung 22 einige Segmentierungsfehler 24, von denen hier beispielhaft einige gekennzeichnet sind. Die Segmentierungsfehler 24 geben also Bereiche oder Pixel der vorläufigen semantischen Segmentierung 22 an, die durch das Segmentierungsmodell 20 objektiv falsch klassifiziert sind oder repräsentieren oder betreffen solche Bereiche oder Pixel. Beispielsweise hat das Segmentierungsmodell 20 hier zwar einige Bereiche des in dem Bild 14 dargestellten Fußgängers 16 korrekt klassifiziert, andere, tatsächlich ebenfalls zu dem Fußgänger 16 gehörige Bereiche innerhalb eines Umfangs oder einer Umrisslinie des Fußgängers 16 bzw. eines dem Fußgänger 16 entsprechenden Bereiches jedoch anderweitig und damit fehlerhaft klassifiziert. Ebenso hat das Segmentierungsmodell 20 hier den Radfahrer 18 zumindest teilweise fehlklassifiziert.The
Die Segmentierungseinrichtung 12 umfasst weiter das Korrekturmodell 26. Dieses kann ebenfalls als tiefes künstliches neuronales Netz ausgebildet oder implementiert sein oder ein solches umfassen. Insbesondere weist das Korrekturmodell 26 hier eine Autoencoderstruktur mit einem eingangsseitigen Encoderteil 28, einem nachfolgenden Flaschenhals 30 und einem ausgangsseitigen Decoderteil 32 auf. Das Korrekturmodell 26 hat, wie anhand von
Die durch das Segmentierungsmodell 20 erzeugte vorläufige semantische Segmentierung 22 einschließlich der Segmentierungsfehler 24 wird hier als Input dem Korrekturmodell 26 zugeführt. Das Korrekturmodell 26 verarbeitet die vorläufige semantische Segmentierung 22, wobei als Zwischenschritt oder Zwischenergebnis in dem Flaschenhals 30 eine verkleinerte Repräsentation der vorläufigen semantischen Segmentierung erzeugt wird. Das Korrekturmodell 26 korrigiert die Segmentierungsfehler 24 gemäß seinem Training und erzeugt so als Output eine korrigierte semantische Segmentierung 34. Das Korrekturmodell 26 erzeugt also ausgehend von der vorläufigen semantischen Segmentierung in Form der korrigierten semantischen Segmentierung 34 eine Prädiktion, die einer wahren, also tatsächlichen oder objektiv korrekten semantischen Segmentierung des Bildes 14 entspricht oder dieser zumindest näherkommt als die vorläufige semantische Segmentierung 22.The provisional
Die Segmentierungseinrichtung 12 kann die so erzeugte korrigierte semantische Segmentierung 34 dann als Output, also als Endergebnis des semantischen Segmentierens des jeweiligen Bildes 14 ausgeben oder bereitstellen, beispielsweise zur Verwendung durch andere Systeme oder Einrichtungen.The
Eine solche semantischen Segmentierung von Bildern 14 kann beispielsweise für vollständig oder teilweise automatisierte Fahrzeuge verwendet werden. Dazu zeigt
Dazu weist das Assistenzsystem 42 hier eine Eingangsschnittstelle 44 auf, über die das jeweilige Bild 14 erfasst werden kann. Im Betrieb kann die Außenkamera 40 fortlaufend Bilder 14 oder einen entsprechenden Videostrom aufnehmen die bzw. der analog wie hier für das Bild 14 beschrieben verarbeitet werden können bzw. werden kann.For this purpose, the
Weiter umfasst das Assistenzsystem 42 einen Prozessor 46 und einen computerlesbaren Datenspeicher 48. In letzterem sind beispielsweise das Segmentierungsmodell 20 und das Korrekturmodell 26 abgespeichert. Mit anderen Worten umfasst oder implementiert das Assistenzsystem 42 also die Segmentierungseinrichtung 12.The
Weiter weist das Assistenzsystem 42 hier eine Ausgangsschnittstelle 50 auf. Über diese Ausgangsschnittstelle 50 kann das Assistenzsystem 42 beispielsweise die korrigierte semantische Segmentierung 34 an andere Einrichtungen oder Systeme des Kraftfahrzeugs 36 ausgeben. Zusätzlich oder alternativ kann das Assistenzsystem 42 basierend auf der korrigierten semantischen Segmentierung 34 wenigstens ein Steuer- oder Hinweissignals erzeugen und über die Ausgabeschnittstelle 50 ausgeben, beispielsweise an den Fahrzeuginsassen 38 und/oder eine Betriebseinrichtung 52 des Kraftfahrzeugs 36, beispielsweise zum Steuern oder Führen des Kraftfahrzeugs 36 oder zum Unterstützen des Fahrzeuginsassen 38.
Insgesamt zeigen die beschriebenen Beispiele wie eine umgekehrte Fehlermodellierung für eine verbesserte semantische Segmentierung von Bilddaten realisiert und implementiert werden kann.Overall, the examples described show how reverse error modeling can be realized and implemented for improved semantic segmentation of image data.
Bezugszeichenlistereference list
- 1010
- Ablaufplanschedule
- 1212
- Segmentierungseinrichtungsegmentation facility
- 1414
- Bildpicture
- 1616
- Fußgängerpedestrian
- 1818
- Radfahrercyclist
- 2020
- Segmentierungsmodellsegmentation model
- 2222
- vorläufige semantische Segmentierungpreliminary semantic segmentation
- 2424
- Segmentierungsfehlersegmentation error
- 2626
- Korrekturmodellcorrection model
- 2828
- Encoderteilencoder part
- 3030
- Flaschenhalsbottleneck
- 3232
- Decoderteildecoder part
- 3434
- korrigierte semantische Segmentierungcorrected semantic segmentation
- 3636
- Kraftfahrzeugmotor vehicle
- 3838
- Fahrzeuginsassevehicle occupant
- 4040
- Außenkameraoutdoor camera
- 4242
- Assistenzsystemassistance system
- 4444
- Eingangsschnittstelleinput interface
- 4646
- Prozessorprocessor
- 4848
- Datenspeicherdata storage
- 5050
- Ausgangsschnittstelleoutput interface
- 5252
- Betriebseinrichtungfacility
- S1 - S4S1 - S4
- Verfahrensschritteprocess steps
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent Literature Cited
- DE 112019000122 T5 [0003]DE 112019000122 T5 [0003]
- DE 112019000048 T5 [0004]DE 112019000048 T5 [0004]
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021110069.0A DE102021110069A1 (en) | 2021-04-21 | 2021-04-21 | Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021110069.0A DE102021110069A1 (en) | 2021-04-21 | 2021-04-21 | Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102021110069A1 true DE102021110069A1 (en) | 2022-10-27 |
Family
ID=83508024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102021110069.0A Pending DE102021110069A1 (en) | 2021-04-21 | 2021-04-21 | Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102021110069A1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365835A1 (en) | 2017-06-14 | 2018-12-20 | TuSimple | System and method for actively selecting and labeling images for semantic segmentation |
DE112019000048T5 (en) | 2018-03-15 | 2020-01-16 | Nvidia Corporation | DETERMINATION OF A ACCESSIBLE CLEARANCE FOR AUTONOMOUS VEHICLES |
DE112019000122T5 (en) | 2018-02-27 | 2020-06-25 | Nvidia Corporation | REAL-TIME DETECTION OF TRACKS AND LIMITATIONS BY AUTONOMOUS VEHICLES |
DE102019205085A1 (en) | 2019-04-09 | 2020-10-15 | Zf Friedrichshafen Ag | Self-monitoring of a function based on artificial intelligence |
-
2021
- 2021-04-21 DE DE102021110069.0A patent/DE102021110069A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365835A1 (en) | 2017-06-14 | 2018-12-20 | TuSimple | System and method for actively selecting and labeling images for semantic segmentation |
DE112019000122T5 (en) | 2018-02-27 | 2020-06-25 | Nvidia Corporation | REAL-TIME DETECTION OF TRACKS AND LIMITATIONS BY AUTONOMOUS VEHICLES |
DE112019000048T5 (en) | 2018-03-15 | 2020-01-16 | Nvidia Corporation | DETERMINATION OF A ACCESSIBLE CLEARANCE FOR AUTONOMOUS VEHICLES |
DE102019205085A1 (en) | 2019-04-09 | 2020-10-15 | Zf Friedrichshafen Ag | Self-monitoring of a function based on artificial intelligence |
Non-Patent Citations (1)
Title |
---|
KUHN, Christopher B.; HOFBAUER, Markus; LEE, Sungkyu; PETROVIC, Goran; STEINBACH, Eckehard: Introspective Failure Prediction for Semantic Image Segmentation. In IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC), 2020. URL: doi.org/10.1109/itsc45102.2020.9294308. |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018130821A1 (en) | Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product | |
EP3291172A1 (en) | Method for calculating final image data | |
WO2018158020A1 (en) | Method and device for determining a trajectory in off-road scenarios | |
DE102019212020A1 (en) | Method for recognizing an adversarial disturbance in input data of a neural network | |
DE102013002889A1 (en) | Method for modeling road edge of road for vehicle, involves determining road curvature using two curvature corrected inspection of search area in image, where inspection is corrected according to two different road curvature hypotheses | |
DE102019214558A1 (en) | PROJECTION INFORMATION RECOGNITION DEVICE BASED ON AN ARTIFICIAL NEURAL NETWORK AND PROCESSES OF THE SAME | |
DE102017208994A1 (en) | Method for determining result image data | |
DE102019129107A1 (en) | Method and system for image analysis using boundary detection | |
DE102021110069A1 (en) | Method, assistance device and motor vehicle for the semantic segmentation of a digital image and method for providing a correction model for the semantic segmentation | |
EP3576013A1 (en) | Estimation of a path of a rail path | |
DE102020128952A1 (en) | Method and assistance device for two-stage image-based scene recognition and motor vehicle | |
DE102018132627A1 (en) | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product | |
DE102021200643B3 (en) | Method for environment recognition for semi-autonomous or autonomous driving functions of a motor vehicle using a neural network | |
DE102018201909A1 (en) | Method and device for object recognition | |
DE102017221381A1 (en) | Method, apparatus and computer program for determining a distance to an object | |
DE102020126690A1 (en) | Method for determining a movement model of an object in an area surrounding a motor vehicle, computer program product, computer-readable storage medium and assistance system | |
WO2021078512A1 (en) | Method for making a neural network more robust against adversarial disruptions | |
DE102012020778B4 (en) | Method of tagging a sequence of images taken in time sequence with integrated quality control | |
DE102020215859A1 (en) | Correction of images from a camera in rain, light and dirt | |
DE102019217951A1 (en) | Method and apparatus for determining a domain distance between at least two data domains | |
DE102019220009A1 (en) | Procedure for recognizing road users | |
DE102019111608A1 (en) | Method for determining the proper movement of a motor vehicle, electronic computing device and electronic vehicle guidance system | |
DE102020117812A1 (en) | Method for providing a device for predicting errors when processing image data, device for predicting segmentation errors and motor vehicle | |
DE102017214666A1 (en) | Method and device for estimating a self-motion of a vehicle | |
DE102018114231A1 (en) | Method and system for capturing objects using at least one image of an area of interest (ROI) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |
|
R081 | Change of applicant/patentee |
Owner name: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, DE Free format text: FORMER OWNER: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, 80809 MUENCHEN, DE |
|
R081 | Change of applicant/patentee |
Owner name: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, DE Free format text: FORMER OWNERS: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT, 80809 MUENCHEN, DE; TECHNISCHE UNIVERSITAET MUENCHEN, KOERPERSCHAFT DES OEFFENTLICHEN RECHTS, 80333 MUENCHEN, DE |