DE102021206625A1

DE102021206625A1 - Computer-implemented method and system for supporting an imaging sensor installation and training method

Info

Publication number: DE102021206625A1
Application number: DE102021206625.9A
Authority: DE
Inventors: Jie Yu; Masato Takami; Christian Stresing; Uwe Brosch; Fabian Brickwedde
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-12-29
Also published as: CN115601720A

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors (10), insbesondere einer Innenraumkamera eines Kraftfahrzeugs, mit einem Berechnen (S3) einer geometrischen Verschiebung (GV) der Mehrzahl statisch-semantischer Szenenelemente (14a-h) des ersten Datensatzes (DS1) mit der Referenztopologie des zweiten Datensatzes (DS2) und einem Ausgeben (S4) zumindest einer Information (I) zur Unterstützung der Installation des bildgebenden Sensors (10) unter Verwendung der berechneten geometrischen Verschiebung (GV) der Mehrzahl statisch-semantischer Szenenelemente (14a-h). Ferner betrifft die Erfindung ein Computerprogramm sowie einen computerlesbaren Datenträger.The invention relates to a computer-implemented method and system for supporting the installation of an imaging sensor (10), in particular an interior camera of a motor vehicle, with a calculation (S3) of a geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h) of the first Data set (DS1) with the reference topology of the second data set (DS2) and an output (S4) of at least one piece of information (I) to support the installation of the imaging sensor (10) using the calculated geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h). The invention also relates to a computer program and a computer-readable data carrier.

Description

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Unterstützung einer Installation eines bildgebenden Sensors.The invention relates to a computer-implemented method for supporting the installation of an imaging sensor.

Die Erfindung betrifft des Weiteren ein System zur Unterstützung einer Installation eines bildgebenden Sensors.The invention further relates to a system for supporting an installation of an imaging sensor.

Darüber hinaus betrifft die Erfindung ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur Unterstützung einer Installation eines bildgebenden Sensors.In addition, the invention relates to a computer-implemented method for providing a trained machine learning algorithm to support an installation of an imaging sensor.

In Kraftfahrzeugen kommen aktuell mehr und mehr Innenraumkameras zum Einsatz. Ebenso werden stationäre Kameras zur Überwachung des öffentlichen Raums z.B. an Verkehrskreuzungen, an bzw. in Gebäuden, etc. verwendet, welche eine vorgegebene Szene mit definierten statischen Szenenelementen erfassen sollen. In diesem Zusammenhang sind die Ausrichtung und Positionierung des Kamerasensors bzw. der Kamera von Bedeutung, um eine optimale Erfassung der Szene zu gewährleisten.More and more interior cameras are currently being used in motor vehicles. Likewise, stationary cameras are used to monitor public space, e.g. at traffic intersections, on or in buildings, etc., which are intended to capture a given scene with defined static scene elements. In this context, the orientation and positioning of the camera sensor or camera are important to ensure optimal capture of the scene.

US 10820307 B2 beschreibt Systeme und Verfahren zur automatischen Kamera-Installationsführung. Ein 3D-Punktwolken-Datenverarbeitungsalgorithmus umfasst hierbei mehrere übergreifende Stufen. Eine 3D-Tiefenkamera erfasst 3D-Bilddaten eines Versandcontainers. Eine Anwendung zur Bewertung von Containereigenschaften bestimmt eine repräsentative Container-Punktwolke und wandelt die 3D-Bilddaten in 2D-Tiefenbilddaten um, vergleicht die 2D-Tiefenbilddaten mit einer oder mehreren Vorlagenbilddaten, führt eine Segmentierung durch, um 3D-Punktwolkenmerkmale zu extrahieren, bestimmt äußere Merkmale des Versandcontainers und bewertet die äußeren Merkmale unter Verwendung einer Metrik für äußere Merkmale, bestimmt innere Merkmale des Versandcontainers und bewertet die inneren Merkmale unter Verwendung einer Metrik für innere Merkmale und erzeugt eine Orientierungseinstellanweisung, um einem Bediener anzuzeigen, die 3D-Tiefenkamera in einer zweiten Richtung zur Verwendung während einer Versandcontainer-Beladungssitzung zu orientieren, wobei die zweite Richtung von der ersten Richtung verschieden ist. US10820307B2 describes systems and processes for automatic camera installation guidance. A 3D point cloud data processing algorithm comprises several overarching stages. A 3D depth camera captures 3D image data of a shipping container. A container property evaluation application determines a representative container point cloud and converts the 3D imagery to 2D depth image data, compares the 2D depth image data to one or more template image data, performs segmentation to extract 3D point cloud features, determines exterior features of the shipping container and scores the exterior features using an exterior feature metric, determines interior features of the shipping container and scores the interior features using an interior feature metric, and generates an orientation adjustment instruction to indicate to an operator, the 3D depth camera in a second direction for use during a shipping container loading session, wherein the second direction is different than the first direction.

Bei Verwendung des Kamerasensors in einem Kraftfahrzeug, beispielsweise bei einer Personenbeförderung dient dieser der Bereitstellung verschiedener Services für Fahrer und Mitfahrer wie einem Erkennen von Übergriffen bzw. sicherheitskritischen Ereignissen von Fahrer und/oder Mitfahrern. Ebenso kann der Kamerasensor einem Erkennen von Müdigkeit des Fahrers dienen. Die Kamera Ausrichtung muss vom Halter des Fahrzeuges selbst übernommen werden. Im einfachsten Fall kann die Position/Installation über eine Anleitung nachempfunden werden. Bekannte Verfahren lassen sich im Wesentlichen in zwei Kategorien unterteilen.When the camera sensor is used in a motor vehicle, for example when people are being transported, it serves to provide various services for the driver and passengers, such as detecting assaults or safety-critical events by the driver and/or passengers. Likewise, the camera sensor can be used to detect tiredness on the part of the driver. The camera alignment must be done by the owner of the vehicle himself. In the simplest case, the position/installation can be simulated using instructions. Known methods can essentially be divided into two categories.

Es existieren bildmerkmalsbasierte Verfahren, welche direkt auf Bildmerkmalen und -inhalten basieren. Dies können zuvor platziere Marker oder Schablonen sein, die erkannt werden müssen. Aber auch das Erkennen und Analysieren der Bildinhalte ist hierunter zu verstehen. Diese so erkannten Merkmale können mit einem Referenzmodel verglichen werden um entsprechende Instruktionen auszugeben.There are image feature-based methods that are based directly on image features and content. These can be previously placed markers or templates that need to be recognized. But this also includes recognizing and analyzing the image content. The features identified in this way can be compared with a reference model in order to issue appropriate instructions.

Parallel dazu können auch maschinelle Lernverfahren eingesetzt werden. Hierzu wird ein Datensatz mit entsprechenden Szenen einer Kamera aufgenommen oder synthetisch generiert. Ein maschinelles Lernverfahren wird dahingehend trainiert die aktuelle Position der Kamera zu berechnen oder direkt die nötigen Anweisungen auszugeben.Machine learning methods can also be used in parallel. For this purpose, a data set with corresponding scenes of a camera is recorded or synthetically generated. A machine learning process is trained to calculate the current position of the camera or to issue the necessary instructions directly.

Ferner existieren positionsbasierte Verfahren. In diesem Zusammenhang können Positionssensoren bzw. Beschleunigungssensoren genutzt werden, um die Position der Kamera zu berechnen. Auch sind hierunter geometrische Verfahren wie SLAM zu verstehen, die eine Position der Kamera im Raum berechnen.There are also position-based methods. In this context, position sensors or acceleration sensors can be used to calculate the position of the camera. This also includes geometric methods such as SLAM, which calculate a position of the camera in space.

Eines der Hauptprobleme ist die Vielfalt der Autos. Jeder Autotyp benötigt eine andere Positionierung der Kamera, bedingt durch die Möglichkeiten der Montage aber auch durch die Anordnung und Größe des Innenraums. Ein weiteres Problem ist, dass ein Benutzer in der Regel nicht weiß, was die Kamera sieht, bzw. was für das System relevant ist. Auch besteht die Gefahr, dass der Fahrer bestimmte Bereiche seines Innenraums vor der Kamera verbergen möchte.One of the main problems is the variety of cars. Each type of car requires a different positioning of the camera, depending on the installation options, but also on the arrangement and size of the interior. Another problem is that a user usually does not know what the camera sees or what is relevant for the system. There is also the risk that the driver will want to hide certain areas of his interior from the camera.

Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors vorzusehen.It is therefore an object of the invention to provide an improved method and system for supporting installation of an imaging sensor.

Die Aufgabe wird mit einem computerimplementierten Verfahren zur Unterstützung einer Installation eines bildgebenden Sensors mit den Merkmalen des Patentanspruchs 1 gelöst.The object is achieved with a computer-implemented method for supporting the installation of an imaging sensor having the features of patent claim 1.

Die Aufgabe wird darüber hinaus mit einem Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen zur Unterstützung einer Installation eines bildgebenden Sensors mit den Merkmalen des Patentanspruchs 12 gelöst.The object is also achieved with a method for providing a trained algorithm by machine to support the installation of an imaging sensor with the features of patent claim 12 .

Die Aufgabe wird des Weiteren mit einem System zur Unterstützung einer Installation eines bildgebenden Sensors mit den Merkmalen des Patentanspruchs 14 gelöst.The object is also achieved with a system for supporting the installation of an imaging sensor having the features of patent claim 14 .

Ferner wird die Aufgabe mit einem Computerprogramm mit den Merkmalen des Patentanspruchs 15 und einem Computerlesbarer Datenträger mit den Merkmalen des Patentanspruchs 16 gelöst.Furthermore, the object is achieved with a computer program having the features of patent claim 15 and a computer-readable data carrier having the features of patent claim 16.

Offenbarung der ErfindungDisclosure of Invention

Die vorliegende Erfindung schafft ein computerimplementiertes Verfahren zur Unterstützung einer Installation eines bildgebenden Sensors, insbesondere einer Innenraumkamera eines Kraftfahrzeugs.The present invention creates a computer-implemented method for supporting the installation of an imaging sensor, in particular an interior camera of a motor vehicle.

Das Verfahren umfasst ein Empfangen von Bilddaten eines durch den bildgebenden Sensor aufgenommenen Einzelbildes oder einer Sequenz von Einzelbildern durch einen Algorithmus maschinellen Lernens, welcher eine in einem jeweiligen Einzelbild enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente klassifiziert und einen eine Mehrzahl ermittelter Klassen repräsentierenden ersten Datensatz ausgibt.The method includes receiving image data of an individual image recorded by the imaging sensor or a sequence of individual images by a machine learning algorithm, which classifies a scene contained in a respective individual image into a plurality of static-semantic scene elements and a first data set representing a plurality of determined classes spends

Ferner umfasst das Verfahren ein Vergleichen des ersten Datensatzes mit einem eine Referenztopologie der Szene, insbesondere ein Vorkommen von Szenenelementen und/oder deren Anordnung in der Szene, repräsentierenden zweiten Datensatz.The method also includes comparing the first data set with a second data set representing a reference topology of the scene, in particular an occurrence of scene elements and/or their arrangement in the scene.

Das Verfahren umfasst darüber hinaus ein Berechnen einer geometrischen Verschiebung der Mehrzahl statisch-semantischer Szenenelemente des ersten Datensatzes mit der Referenztopologie des zweiten Datensatzes und ein Ausgeben zumindest einer Information zur Unterstützung der Installation des bildgebenden Sensors unter Verwendung der berechneten geometrischen Verschiebung der Mehrzahl statisch-semantischer Szenenelemente.The method also includes calculating a geometric displacement of the plurality of static-semantic scene elements of the first data set using the reference topology of the second data set and outputting at least one piece of information to support the installation of the imaging sensor using the calculated geometric displacement of the plurality of static-semantic scene elements .

Die vorliegende Erfindung schafft des Weiteren ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur Unterstützung einer Installation eines bildgebenden Sensors, insbesondere einer Innenraumkamera eines Kraftfahrzeugs.The present invention also provides a computer-implemented method for providing a trained machine learning algorithm to support the installation of an imaging sensor, in particular an interior camera of a motor vehicle.

Das Verfahren umfasst ein Empfangen eines ersten Trainingsdatensatzes von Bilddaten eines durch einen bildgebenden Sensor aufgenommenen Einzelbildes oder einer Sequenz von Einzelbildern.The method includes receiving a first training data set of image data of an individual image recorded by an imaging sensor or a sequence of individual images.

Ferner umfasst das Verfahren ein Empfangen eines zweiten Trainingsdatensatzes klassifizierter Bilddaten, wobei eine in einem jeweiligen Einzelbild enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente klassifiziert ist.The method also includes receiving a second training data set of classified image data, with a scene contained in a respective individual image being classified into a plurality of static-semantic scene elements.

Das Verfahren umfasst zusätzlich ein Trainieren des Algorithmus maschinellen Lernens durch einen Optimierungsalgorithmus, welcher einen Extremwert einer Verlustfunktion zur Klassifikation von in den Bilddaten enthaltenen statisch-semantischen Szenenelemente berechnet.The method also includes training the machine learning algorithm using an optimization algorithm, which calculates an extreme value of a loss function for the classification of static-semantic scene elements contained in the image data.

Die vorliegende Erfindung schafft überdies ein System zur Unterstützung einer Installation eines bildgebenden Sensors, insbesondere einer Innenraumkamera eines Kraftfahrzeugs.The present invention also creates a system for supporting the installation of an imaging sensor, in particular an interior camera of a motor vehicle.

Das System umfasst Mittel zum Empfangen von Bilddaten durch einen Algorithmus maschinellen Lernens, welcher eine in einem jeweiligen Einzelbild enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente klassifiziert und einen die Mehrzahl ermittelter Klassen repräsentierenden ersten Datensatz ausgibt.The system includes means for receiving image data using a machine learning algorithm, which classifies a scene contained in a respective frame into a plurality of static-semantic scene elements and outputs a first data set representing the plurality of determined classes.

Des Weiteren umfasst das System Mittel zum Vergleichen des ersten Datensatzes mit einem eine Referenztopologie der Szene, insbesondere ein Vorkommen von Szenenelementen und/oder deren Anordnung in der Szene, repräsentierenden zweiten Datensatz sowie Mittel zum Berechnen einer geometrischen Verschiebung der Mehrzahl statisch-semantischer Szenenelemente des ersten Datensatzes mit der Referenztopologie des zweiten Datensatzes.Furthermore, the system comprises means for comparing the first data set with a second data set representing a reference topology of the scene, in particular an occurrence of scene elements and/or their arrangement in the scene, and means for calculating a geometric displacement of the plurality of static-semantic scene elements of the first data set with the reference topology of the second data set.

Das System umfasst ferner Mittel zum Ausgeben zumindest einer Information zur Unterstützung der Installation des bildgebenden Sensors unter Verwendung der berechneten geometrischen Verschiebung der Mehrzahl statisch-semantischer Szenenelemente.The system further comprises means for outputting at least one item of information to support the installation of the imaging sensor using the calculated geometric displacement of the plurality of static-semantic scene elements.

Die Komponente Kamera beinhaltet den physikalischen Aufbau der Kamera einschließlich der Montierung innerhalb eines Fahrzeuges. Dabei sollte die Ausrichtung und oder die Position flexibel einstellbar sein.The camera component contains the physical structure of the camera including the mounting inside a vehicle. The alignment and/or the position should be flexibly adjustable.

Die Komponente Bild stellt ein Bild bereit, welches hinsichtlich sichtbaren Inhalts bewertet werden soll. Das Bild kann von einer Kamera im Live-Betrieb geliefert werden, aus einem Video extrahiert werden oder ein Einzelbild darstellen. Farb- und Grauwertbilder sind anwendbar.The Image component provides an image to be evaluated for visible content. The image can be supplied by a camera in live operation, extracted from a video or represent a single image. Color and grayscale images are applicable.

Die semantische Segmentierung stellt ein maschinelles Lernverfahren dar, welches semantisch-statische Szenenelemente detektiert. Dazu kann ein neuronales Faltungsnetz eingesetzt werden. Die Architektur kann beispielsweise ein UNet, VGG oder ResNet sein. Ein Datensatz mit Bildern und Ground-Truth Labeln der semantischen Segmentierung wird erstellt und das Netzwerk dahingehend trainiert, die semantischen Szenenelement pixelweise zu klassifizieren. Das Netzwerk kann trainiert werden, den Cross-Entropie Loss zu minimieren.The semantic segmentation is a machine learning method that detects semantic-static scene elements. A neural convolution network can be used for this purpose. For example, the architecture can be a UNet, be VGG or ResNet. A data set with images and ground truth labels of the semantic segmentation is created and the network is trained to classify the semantic scene elements pixel by pixel. The network can be trained to minimize cross-entropy loss.

Ein semantisches Modell ist eine weitere Abstraktionsstufe der Segmentierung und dient dazu Inhalte bewertbar und vergleichbar zu machen. In diesem Schritt werden Segmentierungsgruppen einer Klasse zu Instanzen zusammengefasst und auf einzelne Knotenpunkte gemappt. Diese Knotenpunkte beinhalten Information über die zentralen Koordinaten im Bild, Größe (Anzahl zugehöriger Pixel) und dürfen pro Element nur einmalig vorkommen. Andere nicht oder nur schwer bewertbare Elemente werden rausgefiltert, wie beispielsweise der Hintergrund welcher bedingt durch seine Vielfalt keinen weiteren Vergleich ermöglicht. Auch werden hier neue semantische Informationen generiert, wie beispielsweise das Zuordnen der Instanzen einer Seite im Fahrzeug. Die Segmentierung hat Schwierigkeiten diese zu unterscheiden ob beispielsweise ein Sitz links oder rechts in einem Fahrzeug verortet ist, da die bildgebenden Merkmale nicht unterscheidbar sind und nur aus dem Gesamt Kontext bewertbar sind.A semantic model is a further level of abstraction in segmentation and is used to make content assessable and comparable. In this step, segmentation groups of a class are combined into instances and mapped to individual nodes. These nodes contain information about the central coordinates in the image, size (number of associated pixels) and may only occur once per element. Other elements that cannot be evaluated or can only be evaluated with difficulty are filtered out, such as the background, which due to its diversity does not allow any further comparison. New semantic information is also generated here, such as assigning instances to a page in the vehicle. The segmentation has difficulties in distinguishing whether, for example, a seat is located on the left or right in a vehicle, since the imaging features cannot be distinguished and can only be evaluated from the overall context.

Im Rahmen der vorliegenden Erfindung ist ein Algorithmus maschinellen Lernens trainiert, die Funktion der semantischen Segmentierung als auch des semantischen Modells in einem einzigen Schritt durchzuführen. Alternativ kann dies jedoch beispielsweise wie oben erläutert in zwei separaten Schritten durchgeführt werden.In the context of the present invention, a machine learning algorithm is trained to perform the function of the semantic segmentation as well as the semantic model in a single step. Alternatively, however, this can be carried out in two separate steps, for example as explained above.

Das semantische Referenzmodell beschreibt die erwartete Abstraktion aus der Segmentierung der statischen Szene, wenn die Kamera optimal ausgerichtet ist. The semantic reference model describes the expected abstraction from the segmentation of the static scene when the camera is optimally aligned.

Dieses kann manuell erstellt werden oder anhand einer optimal ausgerichteten Kamera berechnet werden.This can be created manually or calculated using an optimally aligned camera.

In diesem Schritt wird das aktuelle Semantische Modell mit der Referenz verglichen. Dabei werden die jeweils zueinander gehörenden Knotenpunkte einzeln sowie als Gesamtkonstrukt bewertet. Der Vergleich einzelner Knotenpunkte gibt Informationen über die Existenz und Vergleichbarkeit (Größe, Position und Nachbarschaft) der Punkte. Je mehr Knotenpunkte, desto genauer ist die Gesamtbewertung. Über die jeweiligen Positionen aller einander zugeordneten Punkte kann beispielsweise eine Affine Transformation geschätzt werden.In this step, the current semantic model is compared with the reference. The nodes that belong to each other are evaluated individually and as an overall construct. The comparison of individual nodes provides information about the existence and comparability (size, position and neighborhood) of the points. The more nodes, the more accurate the overall rating. For example, an affine transformation can be estimated via the respective positions of all points associated with one another.

Andere Darstellungsformen wie Quaternionen sind ebenfalls denkbar. Diese gibt Informationen darüber, wie das aktuelle Modell im Vergleich zur Referenz verschoben ist. Dabei werden alle Freiheitsgrade wie Translation, Rotation und Skalierung berücksichtigt.Other forms of representation such as quaternions are also conceivable. This gives information about how the current model is shifted compared to the reference. All degrees of freedom such as translation, rotation and scaling are taken into account.

Mehr Punkte stabilisieren die Aussage, so ist beispielsweise bei nur einem Punkt nur noch die Aussage über die Translation möglich. Auch ist es möglich den Fehler zwischen dem Semantischen Referenzmodell und dem semantischen Modell welches verschoben wird mit der berechneten Translation zu ermitteln. Dies kann beispielsweise eine mittlere quadratische Abweichung sein und gibt Aussage darüber, wie gut die beiden Modelle zueinander passen.More points stabilize the statement, for example, with only one point, only the statement about the translation is possible. It is also possible to use the calculated translation to determine the error between the semantic reference model and the semantic model that is being shifted. This can be, for example, a mean square deviation and provides information about how well the two models fit together.

Aus der zuvor berechneten Transformation lassen sich Anweisungen für den Benutzer generieren. Diese können in Textform, Audio oder im Bild geschehen. Beispiele Audio/Text: „Verschiebe die Kamera nach links“ oder „Rotiere die Kamera um 20 Grad nach rechts“. Visuell ist denkbar Pfeile oder Kreuze auf das aktuelle Bild zu legen, um den Benutzer anzuleiten.Instructions for the user can be generated from the previously calculated transformation. This can be in the form of text, audio or images. Examples audio/text: "Move the camera to the left" or "Rotate the camera 20 degrees to the right". Visually, it is conceivable to place arrows or crosses on the current image in order to guide the user.

Eine Idee der vorliegenden Erfindung ist es somit, eine Anpassung einer Position des Kamerasensors durch einen Nutzer unter Verwendung der generierten Instruktion bzw. Anweisung zu ermöglichen.One idea of the present invention is therefore to enable a user to adjust a position of the camera sensor using the generated instruction.

Sobald der Kamerasensor durch den Nutzer unter Verwendung der Funktion neu ausgerichtet wurde, beginnt das Verfahren erneut, d.h. der neu ausgerichtete Kamerasensor wird wiederum mit dem Referenzmodell verglichen, um eine weitere Funktion zur Anpassung der Position des Kamerasensors zu generieren.Once the camera sensor has been realigned by the user using the function, the process starts again, i.e. the realigned camera sensor is again compared to the reference model to generate another function to adjust the position of the camera sensor.

Das Verfahren wird dabei solange wiederholt, bis der Kamerasensor korrekt ausgerichtet ist. Ferner kann anstelle eines Einzelbildes beispielsweise eine Sequenz von Einzelbildern herangezogen und bewertet werden, wobei das beste Einzelbild aus der Sequenz anschließend verwendet wird. Dadurch kann eine Robustheit des Systems verbessert werden, da hiermit ungünstige Einflüsse wie z.B. eine den Kamerasensor blendende tiefstehende Sonne und/oder etwaige Verdeckungen des Sensors durch Gegenstände, die in einem Einzelbild auftreten können nicht mehr ins Gewicht fallen.The process is repeated until the camera sensor is correctly aligned. Furthermore, instead of a single image, for example, a sequence of single images can be used and evaluated, with the best single image from the sequence then being used. This can improve the robustness of the system, since unfavorable influences such as a low-lying sun dazzling the camera sensor and/or any covering of the sensor by objects that can appear in a single image are no longer significant.

Die Information zur Unterstützung der Installation des bildgebenden Sensors unter Verwendung der berechneten geometrischen Verschiebung der Mehrzahl statisch-semantischer Szenenelemente minimiert somit eine Abweichung zwischen dem ersten Datensatz und dem zweiten Datensatz.The information to support the installation of the imaging sensor using the calculated geometric displacement of the plurality of static semantic scene elements thus minimizes a deviation between the first data set and the second data set.

Die Erfindung kombiniert maschinelle Lernverfahren zur semantischen Segmentierung mit modellbasiertem Wissen zur Detektion der Kameraposition und Beschreibung der daraus abgeleiteten Korrekturschritte. Die Erfindung ist für die Anwendung in einem semantisch-statischen Szenenumfeld konzipiert. Semanisich-statisch meint die Tatsache, dass wesentliche semantische Szenenelemente im Kamerabild an derselben Position vorhanden sind und sich zeitlich nicht verändern. Diese Tatsache liegt beispielsweise in einem Fahrzeuginnenraum mit semantischen Elementen wie Sitzen, Fußraum, Türen, Fenster, Lenkrad usw. vor.The invention combines machine learning methods for semantic segmentation with model-based knowledge for detecting the camera position and describing the correction steps derived therefrom. The invention is designed for use in a semantic-static scene environment. Semantic-static means the fact that essential semantic scene elements are present in the same position in the camera image and do not change over time. This fact is present, for example, in a vehicle interior with semantic elements such as seats, footwell, doors, windows, steering wheel, and so on.

Eine semantische Segmentierung wird mit Hilfe von maschinellen Lernverfahren dahingehend trainiert die semantisch-statischen Elemente der Szene zu detektieren.A semantic segmentation is trained with the help of machine learning methods to detect the semantic-static elements of the scene.

Während veränderte Lichtverhältnisse und Schatten den Bildinhalt und - Merkmale wesentlich verändern, hat dieses keinen Einfluss auf die semantische Bedeutung. Beispielsweise wird ein Sitz weiterhin als Sitz klassifiziert werden unabhängig von Lichtspots oder Schatten im Bild. Maschinelle Lernverfahren, insbesondere neuronale Netze, haben gezeigt, dass sie eine hohe Robustheit gegenüber variierenden Lichtverhältnissen erzielen können. Aus genannten Gründen erreicht die Erfindung eine hohe Robustheit, insbesondere gegenüber variierenden Lichtverhältnissen und Objekten oder Personen im Kamerabild.While changing light conditions and shadows change the image content and features significantly, this has no impact on the semantic meaning. For example, a seat will continue to be classified as a seat regardless of the presence of light spots or shadows in the image. Machine learning methods, in particular neural networks, have shown that they can achieve a high degree of robustness in the face of varying lighting conditions. For the reasons mentioned, the invention achieves a high level of robustness, in particular with regard to varying lighting conditions and objects or people in the camera image.

Ein weiteres wesentliches Unterscheidungsmerkmal ist, dass im Gegensatz zu einem Verfahren welches die Position der Kamera im Raum ermittelt, hier der zu interpretierende sichtbare Bereich der Kamera bewertet wird. Dies hat den Vorteil, dass ein optimalerer Arbeitsbereich nachgelagerter Algorithmen gefunden werden kann.Another essential distinguishing feature is that, in contrast to a method that determines the position of the camera in space, here the visible area of the camera to be interpreted is evaluated. This has the advantage that a more optimal working range of downstream algorithms can be found.

Die Erfindung zeigt ferner einen Vorteil der Interpretierbarkeit im Vergleich zu existierenden maschinellen Lernverfahren, welche „Black-Box“ Detektionen ohne zusätzliche Begründung oder Interpretierung liefern. Der Vergleich eines topologischen Modells mit einem Referenzmodell, wie in dieser Erfindung vorgeschlagen, folgt einen modellbasierten/probabilistischen Ansatz. Dieses erlaubt eine Aussage zu treffen, warum eine Kameraanpassung erfolgen muss und ermöglicht eine probabilistische Interpretation mit welcher Wahrscheinlichkeit eine Kameraposition richtig detektiert wurde.The invention also shows an advantage of interpretability compared to existing machine learning methods, which provide "black box" detections without additional reasoning or interpretation. The comparison of a topological model with a reference model as proposed in this invention follows a model-based/probabilistic approach. This allows a statement to be made as to why a camera adjustment must be made and enables a probabilistic interpretation of the probability of a camera position being correctly detected.

Der Vergleich zwischen Referenzmodell und semantischer Segmentierung integriert auch das Modellwissen, dass sich die Semantik in dieser speziellen Szene (z.B. Fahrzeuginnenraum für spezifisches Fahrzeugmodell) nicht über die Zeit verändert. Ein End2End maschinelles Lernverfahren hingegen müsste impliziert ein Szenenmodell aller möglicher Szenen abbilden (z.B. alle möglichen Fahrzeuginnenräume aller Fahrzeugtypen). Weiteres Szenenwissen kann integriert werden wie das ein Fahrzeuginnenraum je nach Perspektive und Fahrzeugtyp beispielsweise zwei Sitzen, zwei Türen und zwei Fenstern beinhalten muss.The comparison between reference model and semantic segmentation also integrates the model knowledge that the semantics in this particular scene (e.g. vehicle interior for specific vehicle model) does not change over time. An End2End machine learning method, on the other hand, would implicitly have to map a scene model of all possible scenes (e.g. all possible vehicle interiors of all vehicle types). Further knowledge of the scene can be integrated, such as that a vehicle interior must contain two seats, two doors and two windows depending on the perspective and vehicle type.

Das maschinelle Lernverfahren wird dahingehend trainiert, die statisch-semantischen Szenenelemente in unterschiedlichen Kamerapositionen zu detektieren. Trainingsdaten mit Kamerapositionen Anpassungs-Hinweisen sind nicht erforderlich, zumal diese Aufwändig zu labeln sind. Dies reduziert den Aufwand zur Generierung des Datensatzes.The machine learning method is trained to detect the static-semantic scene elements in different camera positions. Training data with camera positions Adjustment notes are not required, especially since these are laborious to label. This reduces the effort involved in generating the data set.

Die Erfindung verwendet für die Kamerapositionsbestimmung und Bestimmung der Installationsinstruktionen nur Merkmale, welche im Fahrzeug vorhanden sind (semantische Szenenelemente wie Sitze, Türen, Lenkrad usw.). Daher ist keine Anbringung von zusätzlichen Markierungen durch geschulte Personen notwendig. Außerdem werden Installationsinstruktionen in einer Form aufbereitet (z.B. „bewege Kamera nach rechts“), welche für ungeschultes Personal umsetzbar sind. Dadurch kann ein Halter des Fahrzeuges die nachträgliche Installation selbst übernehmen.The invention only uses features that are present in the vehicle (semantic scene elements such as seats, doors, steering wheel, etc.) for determining the camera position and determining the installation instructions. It is therefore not necessary for trained persons to attach additional markings. In addition, installation instructions are prepared in a form (e.g. "move camera to the right") that can be implemented by untrained personnel. As a result, a vehicle owner can take care of the subsequent installation himself.

Vorteilhafte Ausführungsformen und Weiterbildungen ergeben sich aus den Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren.Advantageous embodiments and developments result from the dependent claims and from the description with reference to the figures.

Gemäß einer bevorzugten Weiterbildung ist vorgesehen, dass der die Referenztopologie der Szene repräsentierende zweite Datensatz eine vorgegebene Mehrzahl von, in einem Einzelbild einer durch einen bildgebenden Sensor aufgenommenen Sequenz von Einzelbildern enthaltenen Szene, klassifizierte statisch-semantische Szenenelemente umfasst. Die statisch-semantischen Szenenelemente des zweiten Datensatzes sind somit mit den statisch-semantischen des ersten Datensatzes vergleichbar.According to a preferred development, it is provided that the second data set representing the reference topology of the scene includes a predetermined plurality of classified static-semantic scene elements contained in a single image of a sequence of single images recorded by an imaging sensor. The static-semantic scene elements of the second data set are thus comparable with the static-semantic elements of the first data set.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass ein jeweiliges Szenenelement des ersten Datensatzes der Mehrzahl statisch-semantischer Szenenelemente einem Knotenpunkt zugeordnet wird, wobei der jeweilige Knotenpunkt Informationen über zentrale Koordinaten, insbesondere eine Anzahl zugehöriger Pixel, des zugeordneten statisch-semantische Szenenelements und/oder über örtlich bedingte Nachbarschaften zu anderen Knotenpunkten aufweist.According to a further preferred development, it is provided that a respective scene element of the first data set of the plurality of static-semantic scene elements is assigned to a node, with the respective node containing information about central coordinates, in particular a number of associated pixels, of the assigned static-semantic scene element and/or has local neighborhoods to other nodes.

Dies ermöglicht es unter anderem unlogische Situationen bei fehlerhafter Segmentierung zu filtern und das Wissen über die statisch semantische Szene zu nutzen. Z.B. wird erwartet, dass eine linke und rechte Tür nicht direkt benachbart sein dürfen, sondern weitere Elemente wie Sitze dazwischenliegen müssen.This makes it possible, among other things, to filter illogical situations in the event of faulty segmentation and to gain knowledge about the static semantic use scene. For example, it is expected that a left and right door may not be directly adjacent, but other elements such as seats must be in between.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass zwischen Knotenpunkten des ersten Datensatzes und Knotenpunkten des zweiten Datensatzes eine affine Transformation durchgeführt wird.According to a further preferred development, it is provided that an affine transformation is carried out between nodes of the first data set and nodes of the second data set.

In diesem Schritt wird das aktuelle semantische Modell mit der Referenz verglichen. Dabei werden die jeweils zueinander gehörenden Knotenpunkte einzeln sowie als Gesamtkonstrukt bewertet. Der Vergleich einzelner Knotenpunkte gibt Information über die Existenz und Vergleichbarkeit der Punkte. Je mehr Knotenpunkte, desto genauer ist die Gesamtbewertung. Über die jeweiligen Positionen aller zueinander gematchten Punkte kann beispielsweise durch eine Affine Transformation geschätzt werden.In this step, the current semantic model is compared with the reference. The nodes that belong to each other are evaluated individually and as an overall construct. The comparison of individual nodes provides information about the existence and comparability of the points. The more nodes, the more accurate the overall rating. An affine transformation, for example, can be used to estimate the respective positions of all the points that are matched to one another.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die geometrische Verschiebung eine Translation, eine Rotation und/oder eine Skalierung der Mehrzahl statisch-semantischer Szenenelemente des ersten Datensatzes zur Referenztopologie des zweiten Datensatzes aufweist. Somit kann in vorteilhafter Weise eine optimale Positionierung und/oder Ausrichtung des Kamerasensors erreicht werden.According to a further preferred development, it is provided that the geometric shift has a translation, a rotation and/or a scaling of the plurality of static-semantic scene elements of the first data set with respect to the reference topology of the second data set. An optimal positioning and/or alignment of the camera sensor can thus be achieved in an advantageous manner.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die Information zur Unterstützung der Installation des bildgebenden Sensors eine Instruktion zur Änderung einer räumlichen Position des bildgebenden Sensors mit einem bis sechs Freiheitsgraden umfasst. Je nach Positionierungserfordernis wird somit die passende Information umfassend die entsprechenden Freiheitsgrade an den Nutzer ausgegeben.According to a further preferred development, it is provided that the information to support the installation of the imaging sensor includes an instruction to change a spatial position of the imaging sensor with one to six degrees of freedom. Depending on the positioning requirement, the appropriate information is thus output to the user, including the corresponding degrees of freedom.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die zumindest eine Information zur Unterstützung der Installation des bildgebenden Sensors an eine App eines Mobilgeräts und/oder einen, insbesondere Cloud-basierten, Online-Dienst ausgegeben wird.According to a further preferred development, it is provided that the at least one piece of information to support the installation of the imaging sensor is output to an app on a mobile device and/or an online service, in particular a cloud-based one.

Die Kamera-Installations-Hilfe kann somit auch auf einem externen Gerät wie beispielsweise in einer Cloud berechnet werden. Hierzu werden Bilder in die Cloud hochgeladen, welche bezüglich einer Kamera-Installation zu bewerten sind. Bei Durchführung der Installation über eine App des Mobilgeräts besteht der Vorteil, dass der Nutzer die Installation effizient und mit geringem Zeitaufwand durchführen kann, wenn sich der Nutzer z.B. am Installationsort aufhält und die Instruktionen somit unmittelbar umsetzen kann.The camera installation help can thus also be calculated on an external device such as in a cloud. For this purpose, images are uploaded to the cloud, which are to be evaluated with regard to a camera installation. If the installation is carried out via an app on the mobile device, there is the advantage that the user can carry out the installation efficiently and in a short time if the user is e.g. at the installation site and can therefore implement the instructions immediately.

Die Installation des bildgebenden Sensors ist abgeschlossen, wenn eine Ist-Position des bildgebenden Sensors innerhalb eines vorgegebenen Bereichs einer Soll-Position des bildgebenden Sensors liegt. Damit kann in vorteilhafter Weise vorgegeben werden, innerhalb welchen Toleranzbereiches die Installation als abgeschlossen gilt.Installation of the imaging sensor is complete when an actual position of the imaging sensor is within a predetermined range of a target position of the imaging sensor. In this way, the tolerance range within which the installation is considered to be complete can be specified in an advantageous manner.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass der Algorithmus maschinellen Lernens unbekannte Objekte und/oder Personen einer vorgegebenen Klasse, insbesondere einer Hintergrund-Klasse, zuordnet. Wenn diese Detektoren ein Objekt oder Person erkennen, kann davon ausgegangen werden, dass dieser Bereich nicht oder nur eingeschränkt bewertbar ist.According to a further preferred development, it is provided that the machine learning algorithm assigns unknown objects and/or people to a predefined class, in particular a background class. If these detectors detect an object or person, it can be assumed that this area cannot be evaluated or can only be evaluated to a limited extent.

Auch ist es darüber möglich bei großem Modell-Fehler oder wenn nur wenig Knotenpunkte detektiert werden bei gleichzeitig vielen Personen im Fahrzeug bzw. am Installationsort weitere Informationen zu generieren. So kann beispielsweise eine Anweisung lauten bei mehr als einer Person „Bitte Mitfahrer aussteigen lassen für eine möglichst stabile Installationsroutine“.It is also possible to generate further information in the event of a large model error or if only a few nodes are detected when there are many people in the vehicle or at the installation site at the same time. For example, if there is more than one person, an instruction can be “Please let passengers get out for the most stable installation routine possible”.

Damit soll das Halluzinieren verschiedener nicht sichtbarerer Objekte verhindert werden. Dies kann das Gesamtsystem in schweren oder auch unbekannten Situationen dahingehend stabilisieren, dass keine Falschaussage getroffen werden da der Hintergrund nicht bewertet wird.This is to prevent hallucinations of various non-visible objects. This can stabilize the entire system in difficult or unknown situations so that no false statements are made because the background is not evaluated.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die durch den bildgebenden Sensor empfangenen Bilddaten eines aufgenommenen Einzelbildes oder einer Sequenz von Einzelbildern zweidimensional sind, wobei der Algorithmus maschinellen Lernens über eine semantische Segmentierung Bildpositionen der statisch-semantischen Szenenelemente und/oder über Schätzwerte Tiefeninformationen der Bilddaten approximiert.According to a further preferred development, it is provided that the image data received by the imaging sensor of a recorded individual image or a sequence of individual images is two-dimensional, with the machine learning algorithm using semantic segmentation of image positions of the static-semantic scene elements and/or depth information of the image data using estimated values approximated.

In der aktuellen Variante wird von einer 2D-planaren Ebene ausgegangen. Das ist für den Aktionsradius einer Innenraumkamera ausreichend. Die Verschiebungen im Raum verhalten sich in der Regel aber anders als hier angenommen und es entsteht ein Fehler. Bei einer zusätzlichen 3D-Schätzung kann dieser Fehler minimiert werden.In the current variant, a 2D planar plane is assumed. This is sufficient for the range of action of an interior camera. However, the displacements in space usually behave differently than assumed here and an error occurs. This error can be minimized with an additional 3D estimation.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die statisch-semantischen Szenenelemente einen Fahrzeugsitz, einen Fußraum, eine Fahrzeugtür, ein Fahrzeugfenster und/oder ein Lenkrad eines Kraftfahrzeugs aufweisen. Somit können in vorteilhafter Weise eine Mehrzahl unterschiedlicher Szenenelemente des Fahrzeugs detektiert werden.According to a further preferred development, it is provided that the static-semantic scene elements have a vehicle seat, a footwell, a vehicle door, a vehicle window and/or a steering wheel of a motor vehicle senior A plurality of different scene elements of the vehicle can thus advantageously be detected.

Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.The configurations and developments described can be combined with one another as desired.

Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.Further possible configurations, developments and implementations of the invention also include combinations of features of the invention described above or below with regard to the exemplary embodiments that are not explicitly mentioned.

Figurenlistecharacter list

Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.The accompanying drawings are provided to provide a further understanding of embodiments of the invention. They illustrate embodiments and, together with the description, serve to explain principles and concepts of the invention.

Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.Other embodiments and many of the foregoing advantages will become apparent by reference to the drawings. The illustrated elements of the drawings are not necessarily shown to scale with respect to one another.

Es zeigen:

1 ein Ablaufdiagramm eines computerimplementierten Verfahrens zur Unterstützung einer Installation eines bildgebenden Sensors gemäß einer bevorzugten Ausführungsform der Erfindung;
2 ein Ablaufdiagramm des computerimplementierten Verfahrens zur Unterstützung der Installation des bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung;
3 ein Ablaufdiagramm computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur Unterstützung der Installation des bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung; und
4 eine schematische Darstellung eines Systems zur Unterstützung einer Installation eines bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung.

Show it:

1 a flowchart of a computer-implemented method for supporting an installation of an imaging sensor according to a preferred embodiment of the invention;
2 FIG. 14 is a flowchart of the computer-implemented method for supporting the installation of the imaging sensor according to the preferred embodiment of the invention;
3 a flow chart of a computer-implemented method for providing a trained machine learning algorithm to support the installation of the imaging sensor according to the preferred embodiment of the invention; and
4 12 is a schematic representation of a system for supporting an installation of an imaging sensor according to the preferred embodiment of the invention.

In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.In the figures of the drawings, the same reference symbols designate the same or functionally identical elements, parts or components, unless otherwise stated.

Das In 1 gezeigte Verfahren dient der Unterstützung einer Installation eines bildgebenden Sensors 10, insbesondere einer Innenraumkamera eines Kraftfahrzeugs.This in 1 The method shown is used to support the installation of an imaging sensor 10, in particular an interior camera of a motor vehicle.

Das Verfahren umfasst ein Empfangen S1 von Bilddaten BD eines durch den bildgebenden Sensor 10 aufgenommenen Einzelbildes 12 oder einer Sequenz von Einzelbildern 12 durch einen Algorithmus maschinellen Lernens A1, welcher eine in einem jeweiligen Einzelbild 12 enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente 14a-h klassifiziert und einen eine Mehrzahl ermittelter Klassen repräsentierenden ersten Datensatz DS1 ausgibt.The method includes receiving S1 image data BD of an individual image 12 recorded by the imaging sensor 10 or a sequence of individual images 12 by a machine learning algorithm A1, which divides a scene contained in a respective individual image 12 into a plurality of static-semantic scene elements 14a-h classified and outputs a first data record DS1 representing a plurality of determined classes.

Das Verfahren umfasst ferner ein Vergleichen S2 des ersten Datensatzes DS1 mit einem eine Referenztopologie der Szene, insbesondere ein Vorkommen von Szenenelementen 14a-h und/oder deren Anordnung in der Szene, repräsentierenden zweiten Datensatz DS2.The method also includes comparing S2 the first data set DS1 with a second data set DS2 representing a reference topology of the scene, in particular an occurrence of scene elements 14a-h and/or their arrangement in the scene.

Darüber hinaus umfasst das Verfahren ein Berechnen S3 einer geometrischen Verschiebung GV der Mehrzahl statisch-semantischer Szenenelemente 14a-h des ersten Datensatzes DS1 mit der Referenztopologie des zweiten Datensatzes DS2 und ein Ausgeben S4 zumindest einer Information I zur Unterstützung der Installation des bildgebenden Sensors 10 unter Verwendung der berechneten geometrischen Verschiebung GV der Mehrzahl statisch-semantischer Szenenelemente 14a-h.In addition, the method includes calculating S3 a geometric shift GV of the plurality of static-semantic scene elements 14a-h of the first data set DS1 with the reference topology of the second data set DS2 and outputting S4 at least one piece of information I to support the installation of the imaging sensor 10 using the calculated geometric displacement GV of the plurality of static semantic scene elements 14a-h.

Der die Referenztopologie der Szene repräsentierende zweite Datensatz DS2 umfasst eine vorgegebene Mehrzahl von, in einem Einzelbild 12 einer durch einen bildgebenden Sensor 10 aufgenommenen Sequenz von Einzelbildern 12 enthaltenen Szene, klassifizierte statisch-semantische Szenenelemente 14a-h.The second data set DS2 representing the reference topology of the scene comprises a predetermined plurality of classified static-semantic scene elements 14a-h scene contained in a single image 12 of a sequence of single images 12 recorded by an imaging sensor 10 .

Ein jeweiliges Szenenelement 14a-h der Mehrzahl statisch-semantischer Szenenelemente 14a-h des ersten Datensatzes wird einem Knotenpunkt 18a-h zugeordnet. Der jeweilige Knotenpunkt 18a-h weist Informationen I über zentrale Koordinaten, insbesondere eine Anzahl zugehöriger Pixel, des zugeordneten statisch-semantische Szenenelements 14a-h und/oder über örtlich bedingte Nachbarschaften zu anderen Knotenpunkten 18a-h auf.A respective scene element 14a-h of the plurality of static-semantic scene elements 14a-h of the first data set is assigned to a node 18a-h. The respective node 18a-h has information I about central coordinates, in particular a number of associated pixels, of the associated static-semantic scene element 14a-h and/or about location-related adjacencies to other nodes 18a-h.

Zwischen Knotenpunkten 18a-h des ersten Datensatzes DS1 und Knotenpunkten 18a-h des zweiten Datensatzes DS2 wird dabei eine affine Transformation durchgeführt.An affine transformation is carried out between nodes 18a-h of the first data record DS1 and nodes 18a-h of the second data record DS2.

Die zumindest eine Information I zur Unterstützung der Installation des bildgebenden Sensors 10 wird vorzugsweise an eine App 20 eines Mobilgeräts ausgegeben. Alternativ kann die eine Information I beispielsweise an einen, insbesondere Cloud-basierten, Online-Dienst 22 ausgegeben werden.The at least one piece of information I to support the installation of the imaging sensor 10 is preferably sent to an app 20 of a mobile device advised. Alternatively, the piece of information I can be output to an online service 22, in particular a cloud-based one.

Die Ausgabe durch die App 20, ein gesondertes Gerät und/oder den Online-Dienst 22 kann beispielsweise durch ein visuelles Feedback (z.B. Display am Gerät oder LEDs) oder über einen Lautsprecher (z.B. Anweisungen wie „Bitte drehe das Gerät nach unten“) erfolgen.The output by the app 20, a separate device and/or the online service 22 can, for example, take the form of visual feedback (e.g. display on the device or LEDs) or via a loudspeaker (e.g. instructions such as "Please turn the device down") .

Die Installation des bildgebenden Sensors 10 ist abgeschlossen, wenn eine Ist-Position P1 des bildgebenden Sensors 10 innerhalb eines vorgegebenen Bereichs einer Soll-Position P2 des bildgebenden Sensors 10 liegt. Der Algorithmus maschinellen Lernens A1 ist ferner konfiguriert, unbekannte Objekte und/oder Personen einer vorgegebenen Klasse, insbesondere einer Hintergrund-Klasse, zuzuordnen.Installation of the imaging sensor 10 is completed when an actual position P1 of the imaging sensor 10 is within a predetermined range of a target position P2 of the imaging sensor 10 . The machine learning algorithm A1 is also configured to assign unknown objects and/or persons to a predefined class, in particular a background class.

Die durch den bildgebenden Sensor 10 empfangenen Bilddaten BD eines aufgenommenen Einzelbildes 12 oder einer Sequenz von Einzelbildern 12 sind zweidimensional. Der Algorithmus maschinellen Lernens A1 ist darüber hinaus in der Lage, über eine semantische Segmentierung Bildpositionen der statisch-semantischen Szenenelemente 14a-h und/oder über Schätzwerte Tiefeninformationen der Bilddaten BD zu approximieren.The image data BD of a recorded individual image 12 or a sequence of individual images 12 received by the imaging sensor 10 are two-dimensional. The machine learning algorithm A1 is also capable of approximating image positions of the static-semantic scene elements 14a-h via semantic segmentation and/or depth information of the image data BD via estimated values.

Alternativ oder zusätzlich kann über eine semantische Segmentierung eine Verbauposition des bildgebenen Sensors 10 approximiert werden.Alternatively or additionally, an installation position of the imaging sensor 10 can be approximated via a semantic segmentation.

2 zeigt ein Ablaufdiagramm des computerimplementierten Verfahrens zur Unterstützung der Installation des bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung. 2 FIG. 12 shows a flow chart of the computer-implemented method to support the installation of the imaging sensor according to the preferred embodiment of the invention.

Die geometrische Verschiebung GV kann eine Translation, eine Rotation und/oder eine Skalierung der Mehrzahl statisch-semantischer Szenenelemente 14a-h des ersten Datensatzes DS1 zur Referenztopologie des zweiten Datensatzes DS2 aufweisen. In der vorliegenden Darstellung liegt eine Rotation der Mehrzahl statisch-semantischer Szenenelemente 14a-h des ersten Datensatzes DS1 zur Referenztopologie des zweiten Datensatzes DS2 vor.The geometric displacement GV can have a translation, a rotation and/or a scaling of the plurality of static-semantic scene elements 14a-h of the first data set DS1 for the reference topology of the second data set DS2. In the present representation, there is a rotation of the plurality of static-semantic scene elements 14a-h of the first data set DS1 in relation to the reference topology of the second data set DS2.

Die Information I zur Unterstützung der Installation des bildgebenden Sensors 10 umfasst eine Instruktion zur Änderung einer räumlichen Position P des bildgebenden Sensors 10 mit einem bis sechs Freiheitsgraden.The information I supporting the installation of the imaging sensor 10 includes an instruction for changing a spatial position P of the imaging sensor 10 with one to six degrees of freedom.

Die statisch-semantischen Szenenelemente 14a-h weisen einen Fahrzeugsitz, einen Fußraum, eine Fahrzeugtür, ein Fahrzeugfenster und ein Lenkrad eines Kraftfahrzeugs auf.The static-semantic scene elements 14a-h include a vehicle seat, a footwell, a vehicle door, a vehicle window and a steering wheel of a motor vehicle.

3 zeigt ein Ablaufdiagramm computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur Unterstützung der Installation des bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung. 3 12 shows a flow chart of a computer-implemented method for providing a trained machine learning algorithm to support the installation of the imaging sensor according to the preferred embodiment of the invention.

Das Verfahren umfasst ein Empfangen eines ersten Trainingsdatensatzes von Bilddaten BD eines durch einen bildgebenden Sensor 10 aufgenommenen Einzelbildes 12 oder einer Sequenz von Einzelbildern 12.The method includes receiving a first training data set of image data BD of an individual image 12 or a sequence of individual images 12 recorded by an imaging sensor 10.

Des Weiteren umfasst das Verfahren ein Empfangen S2` eines zweiten Trainingsdatensatzes TD2 klassifizierter Bilddaten BD, wobei eine in einem jeweiligen Einzelbild 12 enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente 14a-h klassifiziert ist.The method also includes receiving S2' a second training data set TD2 of classified image data BD, a scene contained in a respective individual image 12 being classified into a plurality of static-semantic scene elements 14a-h.

Das Verfahren umfasst darüber hinaus ein Trainieren S3` des Algorithmus maschinellen Lernens A1 durch einen Optimierungsalgorithmus, welcher einen Extremwert einer Verlustfunktion zur Klassifikation von in den Bilddaten BD enthaltenen statisch-semantischen Szenenelemente 14a-h berechnet.The method also includes training S3` of the machine learning algorithm A1 using an optimization algorithm which calculates an extreme value of a loss function for the classification of static-semantic scene elements 14a-h contained in the image data BD.

Bei Detektion einer Sichteinschränkung und/oder eines unbekannten Objekts durch den bildgebenden Sensor 10 wird ein Verlust des Optimierungsalgorithmus A2 derart angepasst, dass der Algorithmus maschinellen Lernens A1 eine vorgegebene Klasse oder eine Mehrzahl vorgegebener Klassen ausgibt.If a restricted view and/or an unknown object is detected by the imaging sensor 10, a loss in the optimization algorithm A2 is adjusted in such a way that the machine learning algorithm A1 outputs a predefined class or a plurality of predefined classes.

4 zeigt eine schematische Darstellung eines Systems zur Unterstützung einer Installation eines bildgebenden Sensors gemäß der bevorzugten Ausführungsform der Erfindung. 4 FIG. 12 shows a schematic representation of a system for supporting an installation of an imaging sensor according to the preferred embodiment of the invention.

Das System 1 zur Unterstützung einer Installation eines bildgebenden Sensors 10, insbesondere einer Innenraumkamera eines Kraftfahrzeugs, umfasst Mittel 24 zum Empfangen von Bilddaten BD durch einen Algorithmus maschinellen Lernens A1, welcher eine in einem jeweiligen Einzelbild 12 enthaltene Szene in eine Mehrzahl statisch-semantischer Szenenelemente 14a-h klassifiziert und einen die Mehrzahl ermittelter Klassen repräsentierenden ersten Datensatz DS1 ausgibt.The system 1 for supporting an installation of an imaging sensor 10, in particular an interior camera of a motor vehicle, comprises means 24 for receiving image data BD using a machine learning algorithm A1, which divides a scene contained in a respective individual image 12 into a plurality of static-semantic scene elements 14a -h classified and outputs a first data record DS1 representing the plurality of determined classes.

Das System umfasst ferner Mittel 26 zum Vergleichen des ersten Datensatzes DS1 mit einem eine Referenztopologie der Szene, insbesondere ein Vorkommen von Szenenelementen 14a-h und/oder deren Anordnung in der Szene, repräsentierenden zweiten Datensatz DS2.The system also includes means 26 for comparing the first data set DS1 with a reference topology of the scene, in particular an occurrence of scene elements 14a-h and/or their arrangement in the scene, representing the second data set DS2.

Darüber hinaus umfasst das System Mittel 28 zum Berechnen einer geometrischen Verschiebung GV der Mehrzahl statisch-semantischer Szenenelemente 14a-h des ersten Datensatzes DS1 mit der Referenztopologie des zweiten Datensatzes DS2 und Mittel 30 zum Ausgeben zumindest einer Information I zur Unterstützung der Installation des bildgebenden Sensors 10 unter Verwendung der berechneten geometrischen Verschiebung GV der Mehrzahl statisch-semantischer Szenenelemente 14a-h.In addition, the system comprises means 28 for calculating a geometric displacement GV of the plurality of static-semantic scene elements 14a-h of the first data set DS1 with the reference topology of the second data set DS2 and means 30 for outputting at least one piece of information I to support the installation of the imaging sensor 10 using the calculated geometric displacement GV of the plurality of static semantic scene elements 14a-h.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

US 10820307 B2 [0005]

Claims

Computer-implemented method for supporting the installation of an imaging sensor (10), in particular an interior camera of a motor vehicle, with the steps: Receiving (S1) of image data (BD) of an individual image (12) recorded by the imaging sensor (10) or of a sequence of individual images (12) by a machine learning algorithm (A1), which classifies a scene contained in a respective individual image (12) into a plurality of static-semantic scene elements (14a-h) and outputs a first data set (DS1) representing a plurality of determined classes; Comparing (S2) the first data set (DS1) with a second data set (DS2) representing a reference topology of the scene, in particular an occurrence of scene elements (14a-h) and/or their arrangement in the scene; calculating (S3) a geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h) of the first dataset (DS1) with the reference topology of the second dataset (DS2); and Outputting (S4) at least one piece of information (I) to support the installation of the imaging sensor (10) using the calculated geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h).

Computer-implemented method claim 1 , wherein the second data set (DS2) representing the reference topology of the scene contains a predetermined plurality of scene, classified static-semantic scene elements (14a- h) includes.

Computer-implemented method claim 1 or 2 , wherein a respective scene element (14a-h) of the plurality of static-semantic scene elements (14a-h) of the first data set (DS1) is assigned to a node (18a-h), the respective node (18a-h) containing information (I) via central coordinates, in particular a number of associated pixels, of the associated static-semantic scene element (14a-h) and/or via locally-related adjacencies to other nodes (18a-h).

Computer-implemented method claim 3 , An affine transformation being carried out between nodes (18a-h) of the first data set (DS1) and nodes (18a-h) of the second data set (DS2).

Computer-implemented method according to one of the preceding claims, wherein the geometric shift (GV) is a translation, a rotation and/or a scaling of the plurality of static-semantic scene elements (14a-h) of the first data set (DS1) to the reference topology of the second data set (DS2) having.

Computer-implemented method according to one of the preceding claims, wherein the information (I) to support the installation of the imaging sensor (10) comprises an instruction for changing a spatial position (P) of the imaging sensor (10) with one to six degrees of freedom.

Computer-implemented method according to one of the preceding claims, wherein the at least one piece of information (I) to support the installation of the imaging sensor (10) to an app (20) of a mobile device and / or an, in particular cloud-based, online service (22) is issued.

Computer-implemented method according to one of the preceding claims, wherein the installation of the imaging sensor (10) is complete when an actual position (P1) of the imaging sensor (10) is within a predetermined range of a target position (P2) of the imaging sensor (10 ) located.

Computer-implemented method according to one of the preceding claims, wherein the machine learning algorithm (A1) assigns unknown objects and/or persons to a predetermined class, in particular a background class.

Computer-implemented method according to one of the preceding claims, wherein the image data (BD) received by the imaging sensor (10) of a recorded individual image (12) or a sequence of individual images (12) are two-dimensional, the machine learning algorithm (A1) using a semantic Segmentation approximates image positions of the static-semantic scene elements (14a-h) and/or depth information of the image data (BD) via estimated values.

Computer-implemented method according to one of the preceding claims, wherein the static-semantic scene elements (14a-h) have a vehicle seat, a footwell, a vehicle door, a vehicle window and/or a steering wheel of a motor vehicle.

Computer-implemented method for providing a trained algorithm maschi nellen learning (A1) to support an installation of an imaging sensor (10), in particular an interior camera of a motor vehicle, with the steps: receiving a first training data set of image data (BD) of an imaging sensor (10) recorded individual image (12) or a sequence of frames (12); receiving (S2`) a second training data set (TD2) of classified image data (BD), a scene contained in a respective frame (12) being classified into a plurality of static-semantic scene elements (14a-h); and training (S3`) of the machine learning algorithm (A1) by an optimization algorithm which calculates an extreme value of a loss function for the classification of static-semantic scene elements (14a-h) contained in the image data (BD).

Computer-implemented method claim 12 , wherein upon detection of a restricted view and/or an unknown object by the imaging sensor (10), a loss of the optimization algorithm (A2) is adapted in such a way that the machine learning algorithm (A1) outputs a predefined class or a plurality of predefined classes.

System (1) for supporting the installation of an imaging sensor (10), in particular an interior camera of a motor vehicle, comprising: Means (24) for receiving image data (BD) by a machine learning algorithm (A1) which classifies a scene contained in a respective frame (12) into a plurality of static-semantic scene elements (14a-h) and a plurality of determined classes outputs the representative first data set (DS1); means (26) for comparing the first data set (DS1) with a second data set (DS2) representing a reference topology of the scene, in particular an occurrence of scene elements (14a-h) and/or their arrangement in the scene; means (28) for calculating a geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h) of the first data set (DS1) with the reference topology of the second data set (DS2); and Means (30) for outputting at least one piece of information (I) to support the installation of the imaging sensor (10) using the calculated geometric displacement (GV) of the plurality of static-semantic scene elements (14a-h).

Computer program with program code to implement the method according to one of Claims 1 until 11 to be performed when the computer program is run on a computer.

Computer-readable data carrier with program code of a computer program for the method according to one of Claims 1 until 11 to be performed when the computer program is run on a computer