DE102020209024A1 - Verfahren zum Generieren eines Überwachungs-Bildes - Google Patents

Verfahren zum Generieren eines Überwachungs-Bildes Download PDF

Info

Publication number
DE102020209024A1
DE102020209024A1 DE102020209024.6A DE102020209024A DE102020209024A1 DE 102020209024 A1 DE102020209024 A1 DE 102020209024A1 DE 102020209024 A DE102020209024 A DE 102020209024A DE 102020209024 A1 DE102020209024 A1 DE 102020209024A1
Authority
DE
Germany
Prior art keywords
image
area
surveillance
peripheral area
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020209024.6A
Other languages
English (en)
Inventor
Masato Takami
Gregor Blott
Uwe Bosch
Fabian Brickwedde
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020209024.6A priority Critical patent/DE102020209024A1/de
Priority to US17/370,331 priority patent/US11875581B2/en
Publication of DE102020209024A1 publication Critical patent/DE102020209024A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior

Abstract

Es wird ein Verfahren zum Generieren eines Überwachungs-Bildes vorgeschlagen, das die folgenden Schritte aufweist:Bereitstellen einer Bildersequenz (S1) der zu überwachenden Umgebung mittels eines bildgebenden Systems;Bestimmen zumindest eines Überwachungsbereichs und zumindest eines Peripherie-Bereichs (S2) von zumindest einem Bild der Bildersequenz mittels eines lernbasierten semantischen Segmentierungsverfahrens;Komprimieren des Überwachungsbereichs des zumindest einen Bildes der Bildersequenz mit einer ersten Komprimierungs-Qualität; undKomprimieren des Peripherie-Bereichs des zumindest einen Bildes der Bildersequenz mit einer zweiten Komprimierungs-Qualität, zum Generieren des komprimierten Überwachungsbildes, wobei die zweite Komprimierungs-Qualität geringer als die erste Komprimierungs-Qualität ist.

Description

  • Stand der Technik
  • Für eine Übertragung von Videodaten können allgemein Komprimierungsverfahren verwendet werden, um die Datengröße der Videos zu verringern. Dadurch können eine Wirtschaftlichkeit für eine Übertragung und Speicherung der Videos verbessert werden. Abhängig vom Verwendungszweck können unterschiedliche Anforderungen an die Komprimierungsverfahren gestellt werden. Während Videos für beispielsweise Unterhaltungszwecke visuell ansprechend aussehen sollen, haben Überwachungsvideos die Anforderung, dass wesentliche Informationen erkennbar und unverfälscht bleiben müssen.
  • Insbesondere ist bei einer videobasierten Fahrzeuginnenraumüberwachung, beispielsweise durch Mobilitätsanbieter wie Car-Sharing, Taxi- oder Busunternehmen, eine Übertragung der Videodaten über das Mobilfunknetz sowie eine Größe eines Datenspeichers, der auf einem Gerät zur Speicherung der Videodaten zur Verfügung stehen muss, ein wirtschaftlich bedeutender Faktor.
  • Die bekannten Verfahren im Bereich der Videokodierung können in zwei Gruppen aufgeilt werden. Dabei betrifft die erste Gruppe allgemeine Komprimierungsverfahren, die nicht anwendungsspezifisch ausgeführt sind und zum Beispiel auch zur Kodierung von Video-Filmen eingesetzt werden. Beispiele dafür sind die MPEG-Kodierung oder die Kodierungsverfahren H.264 und H.265.
  • Mittels der Differenzkodierung wird dabei genutzt, dass ein Bildbereich aus benachbarten Bildbereichen abgeleitet werden kann. Dadurch können beispielsweise homogene Bildbereiche mit einer geringeren Datenmenge kodiert werden. Mittels einer Bewegungskorrektur kann eine zeitliche Komponente der Bilder berücksichtigt werden, wobei dafür die Veränderung von Bildbereichen über die Zeit kodiert bzw. komprimiert werden. Dadurch kann die Datenmenge insbesondere für statische Bildbereiche reduziert werden.
  • Die zweite Gruppe betrifft anwendungsorientierte Komprimierungsverfahren für Videos, beispielsweise im Bereich von Monitoring- bzw. Überwachungssystemen. Diese Verfahren nutzen zusätzlich anwendungsspezifische Eigenschaften, wie zum Beispiel, dass nur gewisse Bereiche im Bild relevante Informationen für die Überwachung liefern. Beispielsweise sind im Bereich von Verkehrsüberwachungssystemen insbesondere bewegte Verkehrsteilnehmer von Interesse, der statische Hintergrund ist für diese Aufgaben weitgehend irrelevant. Eine Detektion relevanter Bereiche basiert bei diesen Verfahren auf einer Identifikation von bewegten Objekten bzw. einer Detektion von Veränderungen gegenüber dem Hintergrund oder einer manuellen Vorgabe von statischen Bildbereichen.
  • Offenbarung der Erfindung
  • Insbesondere für das Übertragen und Speichern solcher Videodateien, beispielsweise in eine Cloud, ist eine Erhöhung der Komprimierung bzw. Reduzierung der Datengröße wirtschaftlich gefordert, ohne dass dabei eine notwendige Qualität in Bereichen relevanter Informationen unzulässig verringert werden soll. Dabei kann auch berücksichtigt werden, dass bei bestimmten Anwendungen Bereiche der Videos aus datenschutzrechtlichen Gründen unkenntlich gemacht werden sollen.
  • Eine entsprechende Komprimierung von Videodaten kann allgemein zur Überwachung bzw. für ein Monitoring einer Umgebung verwendet werden und insbesondere in Bezug auf eine Fahrzeuginnenraumüberwachung kann es für Anwendungen im Bereich Car Sharing, Ruftaxis (engl. Ride Hailing) oder für Taxiunternehmen verwendet werden, um beispielsweise strafbare Handlungen zu vermeiden oder diese automatisch oder manuell zu identifizieren.
  • Zur Fahrzeuginnenraumüberwachung sind gewisse Bereiche von geringem Interesse, wie zum Beispiel ein Fensterbereich bzw. ein Fahrzeugaußenraum.
  • Gemäß Aspekten der Erfindung wird ein Verfahren zum Generieren eines Überwachungs-Bildes, ein Verfahren zum Trainieren eines lernbasierten semantischen Segmentierungsverfahrens, ein Verfahren zum Bereitstellen eines Steuersignals, eine Überwachungs-Vorrichtung, ein Computerprogramm und ein maschinenlesbares Speichermedium, gemäß den Merkmalen der unabhängigen Ansprüche vorgeschlagen. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
  • In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrensschritten so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fachmann wird aber erkennen, dass viele der Verfahrensschritte auch in einer anderen Reihenfolge durchlaufen werden können und zu dem gleichen oder einem entsprechenden Ergebnis führen. In diesem Sinne kann die Reihenfolge der Verfahrensschritte entsprechend geändert werden. Einige Merkmale sind mit Zählwörtern versehen, um die Lesbarkeit zu verbessern oder die Zuordnung eindeutiger zu machen, dies impliziert aber nicht ein Vorhandensein bestimmter Merkmale.
  • Gemäß einem Aspekt wird ein Verfahren zum Generieren eines Überwachungs-Bilde mit den folgenden Schritten vorgeschlagen:
    • In einem Schritt wird eine Bildersequenz der zu überwachenden Umgebung mittels eines bildgebenden Systems bereitgestellt. In einem weiteren Schritt werden zumindest ein Überwachungsbereich und zumindest ein Peripherie-Bereich von zumindest einem Bild der Bildersequenz mittels eines lernbasierten semantischen Segmentierungsverfahrens bestimmt. In einem weiteren Schritt wird der Überwachungsbereich des zumindest einen Bildes der Bildersequenz mit einer erster Komprimierungs-Qualität komprimiert. In einem weiteren Schritt wird der Peripherie-Bereich des zumindest einen Bildes der Bildersequenz mit einer zweiten Komprimierungs-Qualität komprimiert, um das komprimierte Überwachungs-Bild zu generieren, wobei die zweite Komprimierungs-Qualität geringer ist als die erste Komprimierungs-Qualität.
  • Mit diesem Verfahren zum Generieren eines Überwachungs-Bildes können irrelevante Bereiche eines Bildes der Bildersequenz mit einer wesentlich geringeren Qualität und benötigter Datenrate zur Übertragung komprimiert werden, wohingegen die Qualität der relevanten Bereiche weiterhin mit hoher Qualität komprimiert werden können. Die Bereiche, welche mit einer geringeren Qualität komprimiert werden, können mit einer Maske auf das Bild abgebildet werden, um die entsprechende Komprimierung mit der ersten und/oder zweiten Komprimierungs-Qualität durchzuführen. Diese Bereiche für die Überwachung bzw. der Peripherie werden somit vorteilhafterweise dynamisch dem Inhalt der jeweiligen Bildern der Bildersequenz angepasst.
    Bei diesem Verfahren wird beispielsweise ein Bild-Bereich vor Fenstern bzw. einem Fahrzeugaußenbereich, vor dem sich aber im Innenraum Passagiere befinden, im Gegensatz zu statischen Masken anderer Verfahren zur Komprimierung, weiterhin mit höherer Qualität komprimiert.
    Alternativ zur pixelweisen Ausgabe können die Überwachungsbereiche und/oder Peripheriebereiche, in Form eines Polygonzuges oder anderer geometrischer Formen bestimmt und definiert werden.
  • Das Verfahren kann typischerweise auf einem eingebetteten System eines bildgebenden Systems, wie beispielsweise einer Kamera, durchgeführt werden, kann aber auch mit einem Cloud-Service realisiert werden. In letzterem Fall können die Bilder zur Cloud geschickt werden, die Berechnung der Bereiche wird in der Cloud durchgeführt und anschließend die Beschreibung der Überwachungs- und/oder Peripherie-Bereiche an das eingebettete System übertragen. Typischerweise würden in diesem Fall die Bereiche nur sehr selten neu berechnet, um den Datenverkehr zur Cloud gering zu halten.
  • Die Anwendung des Verfahrens für eine Fahrzeuginnenraumüberwachung und Maskierung der Fenster-/Fahrzeugaußenraumbereiche zeigt das Potenzial die Datenrate abhängig von der Kamera, Kameraverbauposition und aufgenommenen Szenen um 20-50% zu reduzieren. Aufgrund der Bildbewegung im Fensterbereich durch die Fahrzeugeigenbewegung sind diese besonders datenintensiv bei der Komprimierung. Bewegungen im Fahrzeug durch beispielsweise Personen, aber auch durch Veränderungen der Licht/Schattenverhältnisse, sind weiterhin mit hoher Qualität zu kodieren.
  • Die Definition des Peripherie-Bereichs als Fensterbereich ist beispielhaft zu verstehen. Darüber hinaus kann bei einer Verwendung des Verfahrens für eine Fahrzeuginnenraumüberwachung das Verfahren verwendet werden, um z.B. zusätzlich den sichtbaren Bereich der Sitze dem Peripherie-Bereich zuzuordnen.
  • Die Komprimierung des Überwachungsbereiches und des Peripherie-Bereiches mit unterschiedlichen Komprimierungsqualitäten kann mit Komprimierungsverfahren erfolgen, welche die Komprimierung von Bereichen mit unterschiedlichen Qualitäten unterstützt.
  • Darüber hinaus kann das hier vorgeschlagene Verfahren mit jedem beliebigen Kodierungsverfahren zur Komprimierung, wie z.B. MPEG, H.264, H.265, verwendet werden und muss nicht auf proprietäre Kodierungsverfahren zurückgreifen. Die Datenreduktion wird erreicht, indem das Videobild so vorverarbeitet wird, dass sich beispielsweise die Eigenschaften der Differenzkodierung und Bewegungskorrektur dieser Verfahren zu Nutze gemacht wird. Beispielsweise kann der Peripherie-Bereich im Bild vorher Tiefpass-gefiltert werden.
  • Zur Bestimmung des Überwachungsbereiches und Peripherie-Bereiches können lernbasierte semantische Segmentierungsverfahren mittels eines trainierten neuronalen Faltungs-Netzwerks realisiert werden, die ggf. in Kombination mit vollständig verbundenen neuronalen Netzen, ggf. unter Nutzung von klassischen Regularisierungs- und Stabilisierungsschichten wie Batch-Normalisierung und Trainings-Drop-Outs, unter Nutzung verschiedener Aktivierungsfunktionen wie Sigmoid und ReLu, etc. strukturiert sind. Darüber hinaus können klassische Ansätze wie Support-Vector-Machines, Boosting, Entscheidungsbäume, sowie Random-Forrests auch für eine Realisierung eines lernbasierten semantischen Segmentierungsverfahrens und somit für das beschriebene Verfahren verwendet werden. Eine solche semantische Segmentierung kann mit einer hohen Genauigkeit eine pixelweise Klassifikation von Bildinhalten in semantische Klassen bestimmen, die dann dem Überwachungsbereich und/oder dem Peripherie-Bereich zugeordnet werden können.
  • Bei neuronalen Netzen kann das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl sein, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass nur dann ein Signal ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht; möglicherweise nach mehrmaligem Durchlaufen der Schichten.
  • Die Architektur eines solchen künstlichen neuronalen Netzes kann ein neuronales Netz sein, das ggf. mit weiteren, anders aufgebauten Schichten erweitert ist. Grundsätzlich weisen solche neuronalen Netze mindestens drei Schichten von Neuronen auf: eine Eingabe-Schicht, eine Zwischen-Schicht (hidden layer) und eine Ausgabe-Schicht. Das bedeutet, alle Neuronen des Netzwerks sind in Schichten eingeteilt.
  • Dabei sind in feed-forward Netzen keine Verbindungen zu vorherigen Schichten realisiert. Bis auf die Eingabeschicht bestehen die unterschiedlichen Schichten aus Neuronen, die einer nichtlinearen Aktivierungsfunktion unterliegen, und mit den Neuronen der nächsten Schicht verbunden sein können. Ein tiefes neuronales Netz kann viele solcher Zwischen-Schichten aufweisen.
  • Solche neuronalen Netze müssen für ihre spezifische Aufgabe trainiert werden. Dabei erhält jedes Neuron der entsprechenden Architektur des neuronalen Netzes z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netz gegeben, und jedes Neuron kann die Eingangs-Signale mit seinem Gewicht gewichten und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird dann das Gesamt-Ergebnis bereitgestellt. Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neuron an diesem Fehler hatte, um dann das Gewicht jedes Neurons in die Richtung zu verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, erneute Messungen des Fehlers und Anpassung der Gewichte, bis ein Fehlerkriterium erfüllt ist.
    Ein solches Fehlerkriterium kann z.B. der Klassifikationsfehler auf einem Test-Daten-Set sein, oder auch ein aktueller Wert einer Loss-Funktion, beispielsweise auf einem Trainings-Daten-Set. Alternativ oder zusätzlich kann das Fehlerkriterium ein Abbruchkriterium betreffen als einen Schritt, bei dem im Training ein Overfitting einsetzen würde oder die verfügbare Zeit zum Training abgelaufen ist.
    Die Definition des Überwachungsbereichs und Peripherie-Bereichs kann mittels gelabelter Referenzbildern bzw. Ground-Truth Labels der Trainingsdaten vorgegeben werden, wodurch eine flexible Definition der anwendungsspezifisch relevanten bzw. nicht-relevanten Bereiche ermöglicht wird. Das neuronale Netzwerk kann dahingehend trainiert werden, das der Überwachungsbereich und Peripherie-Bereiche für beliebige Bilder, insbesondere für Bilder des selben Anwendungsbereiches, bestimmt werden.
  • Das optische Bild wird in digitaler Form dem trainierten neuronalen Netzwerk als Eingangssignal bereitgestellt.
  • Insbesondere können einzelne Bilder ohne eine Aufteilung in einen Überwachungs- und einen Peripherie-Bereich und die entsprechende Komprimierung gespeichert und/oder übertragen werden.
  • Ein bildgebendes System kann ein Kamera-System und/oder ein Videosystem und/oder eine Wärmebildkamera und/oder ein System zur Entfernungsbestimmung sein. Diese Systeme können alternativ oder zusätzlich verwendet werden, um für ein Überwachungs-Bild einen Überwachungsbereich und/oder einen Peripherie-Bereich zu bestimmen. Beispielsweise kann mit einem System zur Entfernungsbestimmung ein Fahrzeug-Außenraum leicht bestimmt werden, wobei große Entfernungen bzw. Abstände einen Fahrzeugaußenraum implizieren. Beispielsweise kann eine Wärmebildkamera aufgrund einer Temperaturbestimmung Lebewesen identifizieren. Das Verfahren zum Generieren eines Überwachungs-Bildes kann für die Bestimmung des Überwachungsbereichs und/oder Peripherie-Bereichs einen optischen Fluss von Bildern eines Kamera- und/oder Videosystems bestimmen, wobei die Flussvektoren für den Fahrzeugaußenraum der Epipolargeometrie der Fahrzeugeigenbewegung entsprechen.
  • Insbesondere kann das Bestimmen des Überwachungsbereichs und/oder des Peripherie-Bereichs durch ein Level Set-Verfahren unterstützt werden, in dem segmentierte Bereiche über die Zeit verfolgt werden.
  • Das hier beschriebene Verfahren zur Generierung von Überwachungs-Bildern kann neben der Anwendung zur Überwachung von Fahrzeuginnenräumen auch für Überwachungskameras oder Dashcams verwendet werden, so wie für jegliche Anwendungen die Videodaten in eine Cloud senden, beispielsweise für eine Anwendung im Bereich Internet of Things (loT) und/oder Building Technologies (BT).
  • Mit anderen Worten werden bei diesem Verfahren lernbasierte Verfahren zur Segmentierung eingesetzt, um Masken für die Bestimmung eines Überwachungsbereichs und/oder eines Peripherie-Bereichs zu schätzen. Die Definition der Masken wird mittels gelabelter Referenzbilder bzw. Ground-Truth Labels der Trainingsdaten vorgegeben, welches eine flexible Definition anwendungsspezifisch relevanter bzw. nicht-relevanter Bereiche ermöglicht. Die Masken haben typischerweise eine semantische Bedeutung, wie z.B. ein Fenster oder einen Fahrzeugaußenraum. Dieses lernbasierte Verfahren ist außerdem in der Lage eine hohe Robustheit gegenüber Änderungen der Bildintensitäten, wie z.B. Änderung der Lichtverhältnisse, bei gleichbleibendem Bildinhalt zu erreichen.
    Dieses lernbasierte Verfahren kann generalisiert werden, indem ungesehene Szenen derselben Domäne in Bezug auf die Bereiche bestimmt werden können, auch wenn die exakte Szene nicht Teil der Trainingsdaten ist. Beispielsweise kann das Verfahren in verschiedenen und unbekannten Fahrzeuginnenräumen zur Bestimmung der Masken, für zum Beispiel ein Fenster und/oder einen Fahrzeugaußenraum, eingesetzt werden, ohne das eine zusätzliche Kalibrierung für das neue Fahrzeug notwendig ist. Das lernbasierte Verfahren kann laufend neue Masken berechnen und sich
    Änderungen des Bildinhalts anpassen. Damit kann zum Beispiel berücksichtigt werden, dass sich ein Passagier, dessen Verhalten überwacht werden soll, in einen Bildbereich bewegt, in dem ein Fenster angeordnet ist, wobei das Fenster sonst einem Peripherie-Bereich zugeordnet würde.
    Dabei werden nur die Bereiche die semantisch dem Peripherie-Bereich zugeordnet werden, mit geringerer Datenrate und Qualität komprimiert. Relevante Bildinhalte des Überwachungsbereichs werden mit gleichbleibend hoher Qualität komprimiert.
  • Gemäß einem Aspekt wird vorgeschlagen, dass mittels des lernbasierten semantischen Segmentierungsverfahrens zumindest ein Verdeckungs-Bereich bestimmt wird und das Überwachungs-Bild generiert wird, indem Pixel-Werte in dem zumindest einen bestimmten Verdeckung-Bereich des Überwachungs-Bildes mit vordefinierten Pixelwerten belegt werden.
    Mit einem solchen Verdeckungs-Bereich können Bereiche des Bildes der Bildersequenz unkenntlich gemacht werden, um beispielsweise anonymisierte Daten bzw. Bilder bereitzustellen oder Datenschutzauflagen zu erfüllen. Aus datenschutzrechtlichen Gründen kann es notwendig sein, gegebenenfalls Personen und Nummernschilder unkenntlich zu machen. Während Personen im Innenraum eines Fahrzeugs ein Einverständnis zur Aufzeichnung möglichweise gegeben haben, beispielsweise durch Zustimmung zu AGBs, kann dieses beispielsweise für Personen im Außenraum nicht sichergestellt werden.
    Alternativ oder zusätzlich können die Verdeckungs-Bereiche durch Schwärzen und/oder Blurren unkenntlich gemacht werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass mittels des Überwachungsbereichs und/oder Peripherie-Bereichs eines jeweiligen Bildes eine Maske für das jeweilige Bild generiert wird (S3), und das Überwachungs-Bild basierend auf einer gemittelten Mehrzahl von Masken einer entsprechenden Mehrzahl von jeweiligen Bildern der Bildersequenz generiert wird.
    Insbesondere kann aus einer solchen Mehrzahl von Masken eine gefilterte und/oder geglättete Maske für das Bild der Bildersequenz generiert werden. Sowohl durch das Mitteln über die Mehrzahl von Masken als auch das Filtern und/oder Glätten der Maske kann eine Erhöhung einer Datenrate verhindert werden, die auf eine zeitlich hochfrequente Änderung der Maskenränder zurückzuführen ist. Insbesondere kann eine jeweilige Maske an ihrem Rand stärker geglättet werden, um hochfrequente Änderungen an den Maskenrändern zu verringern.
  • Alternativ oder zusätzlich kann der Rand einer Maske, beispielsweise durch ein Alpha-Blending, fließend in den unmaskierten Teil des Bildes überführt werden, um am Übergang hochfrequente Änderungen zu unterdrücken und damit den Aufwand für die Komprimierung zu verringern
  • Alternativ oder zusätzlich kann die semantische Segmentierung des Bildes mit anderen Verfahren kombiniert werden, in dem beispielsweise ein Personenklassifikator, zum Beispiel in Form von Boundingboxen und/oder Personenmasken und/oder Personen-Keypoints verwendet werden, um bei der semantischen Segmentierung auszuschließen, dass Personen, die in dem jeweiligen Bild abgebildet sind, durch eine Maskierung dem Peripherie-Bereich zugeordnet werden.
  • Alternativ oder zusätzlich kann die semantische Segmentierung plausibilisiert werden, indem beispielsweise sehr kleine Maskensegmente ignoriert werden oder es können Modellannahmen in die semantische Segmentierung bzw. in die Festlegung eines Überwachungsbereiches und/oder Peripherie-Bereiches integriert werden. Mittels solcher Modellannahmen können beispielsweise vorher festgelegte Bereiche des Bildes grundsätzlich als Überwachungsbereich und/oder Peripherie-Bereich definiert werden.
  • Die bestimmten Überwachungsbereiche und/oder Peripherie-Bereiche können nachverarbeitet werden, indem beispielsweise die Kante der entsprechenden Bereiche für eine Maskierung Kanten im Bild angenähert wird, um die Bestimmung der entsprechenden Bereiche zu verbessern.
  • Gemäß einem Aspekt wird vorgeschlagen, dass das lernbasierte semantische Segmentierungsverfahren basierend auf einem trainierten neuronalen Faltungsnetzwerk und/oder einem aggregated Channel Feature-Verfahren und/oder einem AdaBoost-Verfahren durchgeführt wird. Während ein neuronales Faltungsnetzwerk sowohl die Merkmalsextraktion und Klassifikation umfasst, kann das Faltungsnetzwerk oder Teile des Faltungsnetzwerks durch andere Verfahren ersetzt werden. Beispielsweise liefern das aggregated Channel Feature-Verfahren Merkmalsvektoren, welche unter anderem Gradienten und Farbkanäle in benachbarten Bildbereichen repräsentieren können. Die Wahl der Berechnung der Merkmalsvektoren kann anstelle von einem lernbasierten Verfahren auch vorgegeben werden. Eine Klassifikationsentscheidung basierend auf einem gegebenen Merkmalsvektor kann beispielsweise mit dem AdaBoost-Verfahren erfolgen und erlernt werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass die zu überwachende Umgebung ein Fahrzeuginnenraum ist.
  • Gemäß einem Aspekt wird vorgeschlagen, dass das Überwachungs-Bild mittels des komprimierten Überwachungsbereichs und des komprimierten Peripherie-Bereichs gebildet wird. Dadurch kann das Verfahren zum Generieren des Überwachungs-Bildes mit anwendungsspezifischen Komprimierungsverfahren komprimiert werden. Diese Komprimierungsverfahren unterstützen die Komprimierung definierter Bereiche mit unterschiedlicher Qualität. Die entsprechenden Bereiche für die Überwachung bzw. Peripherie werden dadurch ohne Anwendung einer zusätzlichen Maskierung bestimmt. Dies kann als ein Klassifikationsproblem mit einem Zweiklassenproblem mit einem relevanten Überwachungsbereich bzw. einem nicht-relevanten Peripherie-Bereich, formuliert werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass der Peripherie-Bereich des zumindest einen Bildes der Bildersequenz mit der zweiten Komprimierungs-Qualität komprimiert wird, indem der zumindest eine Peripherie-Bereich weichgezeichnet und/oder mit vordefinierten Pixelwerten für Bild-Pixel des Peripherie-Bereichs belegt wird, bevor der Peripherie-Bereich mit einem Komprimierungs-Verfahren mit der ersten Komprimierungs-Qualität komprimiert wird.
  • Dadurch wird sowohl der Überwachungsbereich als auch der Peripherie-Bereich mit einem einzigen Komprimierungs-Verfahren, das eine erste Komprimierungs-Qualität erzeugt, komprimiert, wodurch das Verfahren vereinfacht wird. Durch Schwärzung und/oder Blurren von Bildbereichen wird die benötigte Datenrate zur Komprimierung bei Verwendung von allgemeinen Kodierungsverfahren reduziert. Dieses ist in den Eigenschaften der Differenzkodierung und Bewegungskorrektur begründet. Das Verfahren besitzt dadurch keine Einschränkung des zu verwendenden Kodierungs-bzw. Komprimierungsverfahrens, der Grad der Reduzierung kann allerdings variieren.
    Ein starkes Blurren anstelle eines Schwärzens von Bildbereichen hat den Vorteil, dass durch das Blurren der Peripherie-Bereiche das so komprimierte Überwachungs-Bild deutlich kleiner komprimiert wird, aber gleichzeitig durch die dennoch sichtbare Information im geblurrten bzw. weichgezeichneten Bildbereich das Maskieren zu einer höheren Akzeptanz bei einem Betrachter führt.
  • Gemäß einem Aspekt wird vorgeschlagen, dass der Peripherie-Bereich des zumindest einen Bildes der Bildersequenz mit der zweiten Komprimierungs-Qualität komprimiert wird, indem der zumindest eine Peripherie-Bereich mit einem vordefinierten Bildinhalt ersetzt wird. Dabei kann der vordefinierte Bildinhalt aus dem Original-Bild der Bildersequenz abgeleitet werden und/oder der entsprechende Bildbereich kann mit einer einheitlichen Farbe, die den Pixeln des Überwachungs-Bildes zugeordnet wird, belegt werden. Beispielsweise kann ein Fensterbereich des Bildes, der als Peripherie-Bereich bestimmt wurde mit demselben Bereich aus einem anderen Bild des Videos belegt werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass mittels des lernbasierten semantischen Segmentierungsverfahrens zumindest zwei Bereiche in zumindest einem Bild der Bildersequenz bestimmt werden, welchen jeweils verschiedene Komprimierungs-Qualitäten und/oder Komprimierungs-Eigenschaften und/oder Eigenschaften der Bildbearbeitung zugeordnet werden. Damit können mehr als zwei Bereichen abgestufte Qualitätsstufen, wie z.B. geringe Qualität, ggf. geschwärzt, mittlere Qualität, zum Beispiel geblurrt und hohe Qualität zugeordnet werden und/oder den Bereichen verschiedene Eigenschaften zur Komprimierung zuordnet werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass von einer Vielzahl von Bildern der Bildersequenz zumindest ein Überwachungsbereich und zumindest ein Peripherie-Bereich mittels des lernbasierten semantischen Segmentierungsverfahrens bestimmt werden. Diese Vielzahl kann dadurch bestimmt werden, dass regelmäßig von Bildern der Bildersequenz zumindest ein Überwachungsbereich und zumindest ein Peripherie-
  • Bereich mittels des lernbasierten semantischen Segmentierungsverfahrens bestimmt werden. Insbesondere können von jedem Bild der Bildersequenz zumindest ein Überwachungsbereich und ein Peripherie-Bereich mittels des lernbasierten semantischen Segmentierungsverfahrens bestimmt werden. Darüber hinaus kann zumindest ein Überwachungsbereich und zumindest ein Peripherie-Bereich mittels des lernbasierten semantischen Segmentierungsverfahrens abhängig von einem bestimmten Bildinhalt des Bildes der Bildersequenz und/oder einem anderen detektierten Ereignis bestimmt werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass Bildbereiche der jeweiligen Bilder mittels des lernbasierten semantischen Segmentierungsverfahrens in eine Vielzahl von Objekt-Klassen segmentiert werden und der Überwachungsbereich und/oder der Peripherie-Bereich bestimmt wird, indem die Bildbereiche basierend auf einer ersten Gruppe von Objekt-Klassen dem zumindest einen Überwachungsbereich zugeordnet werden, und Bildbereiche basierend auf einer zweiten Gruppe von Objekt-Klassen dem zumindest einen Peripherie-Bereich zugeordnet werden. Dabei kann die semantische Segmentierung also mehreren Klassen, wie beispielsweise Fenstern, Sitzen, Personen, Gegenständen, entsprechen. Eine Logik kann mit den Klassen die Überwachungsbereiche und/oder Peripherie-Bereiche definieren.
  • Basierend auf einer ersten und/oder zweiten Gruppe von Objekt-Klassen kann auch eine inverse Zuordnung zu dem Überwachungsbereich und/oder Peripherie-Bereich erfolgen. D. h. wenn die Objekt-Klasse dem Überwachungsbereich zuzuordnen wäre, kann dadurch der Peripherie-Bereich bestimmt werden und entsprechend kann für Objekt-Klassen des Peripherie-Bereichs ein Überwachungsbereich bestimmt werden.
  • Gemäß einem Aspekt wird vorgeschlagen, dass zusätzlich oder alternativ zum lernbasierten semantische Segmentierungsverfahren weitere Eingangsdaten von zumindest einer Wärmebildkamera und/oder aus Entfernungsmessungen und/oder weitere bildbasierte Größen, wie ein optischer Bildfluss, bereitgestellt werden und diese weiteren Eingangsdaten mittels eines lernbasierten oder modelbasierten Verfahrens den Peripherie- und/oder Überwachungsbereich bestimmen.
  • Es wird ein Verfahren zum Trainieren eines lernbasierten semantischen Segmentierungsverfahrens entsprechend einem der vorhergehend beschriebenen Verfahren zum Bestimmen zumindest eines Überwachungsbereichs und zumindest eines Peripherie-Bereichs von zumindest einem Bild einer Bildersequenz vorgeschlagen. Das Verfahren zum Trainieren weist eine Vielzahl von Trainings-Zyklen auf, für die eine Vielzahl von entsprechenden Referenz-Bildern einer zu überwachenden Umgebung, die mit einem bildgebenden Systems generiert werden, bereitgestellt werden. Dabei wird einem jeweiligen Trainings-Zyklus ein jeweiliges Referenz-Bild zugeordnet und jeder Trainings-Zyklus weist die folgenden Schritte auf: In einem Schritt wird das jeweilige Referenz-Bild bereitgestellt, wobei in dem jeweiligen Referenz-Bild zumindest ein Überwachungsbereich und zumindest ein Peripherie-Bereich gelabelt ist. In einem weiteren Schritt wird das lernbasierte semantische Segmentierungsverfahren adaptiert, um bei dem Bestimmen zumindest eines Überwachungsbereichs und zumindest eines Peripherie-Bereichs des jeweiligen Referenz-Bildes mit dem lernbasierten semantischen Segmentierungsverfahren eine Abweichung von dem jeweiligen gelabelten Referenz-Bild, beispielsweise mittels eines Cross-Entropy Loss, zu minimieren.
    Mit diesem Verfahren zum Trainieren eines lernbasierten semantischen Segmentierungsverfahrens kann ein trainiertes semantisches Segmentierungsverfahren bereitgestellt werden, das in den oben beschriebenen Verfahren zum Generieren eines Überwachungs-Bildes eingesetzt werden kann.
  • Mit diesen Verfahren zum Training eines lernbasierte semantischen Segmentierungsverfahrens können die schon oben beschriebenen Strukturen, auf dem das lernbasierte semantischen Segmentierungsverfahren beruht, wie beispielsweise ein neuronales Faltungs-Netzwerk oder Support-Vector-Machines, Boosting, Entscheidungsbäume, sowie Random-Forrests trainiert werden. Dabei kann das Adaptieren des lernbasierten semantischen Segmentierungsverfahrens in Form eines Adaptieres von Parametern des semantischen Segmentierungsverfahrens erfolgen, wie beispielsweise durch Anpassung der Parameter eines neuronalen Faltungs-Netzwerkes.
  • Referenz-Bilder sind Bilder, die insbesondere speziell für das Anlernen eines maschinellen Lern-Systems, wie einer Struktur für ein lernbasierte semantisches Segmentierungsverfahren, aufgenommen und beispielsweise manuell selektiert und annotiert wurden oder synthetisch generiert wurden und bei denen die Mehrzahl der Bereiche in Bezug auf die Klassifikation der Bereiche gelabelt sind. Beispielsweise kann ein solches Labeln der Bereiche manuell entsprechend in einen Überwachungsbereich und einen Peripherie-Bereich erfolgen.
  • Es wird ein Verfahren vorgeschlagen, bei dem, basierend auf einem Überwachungs-Bild, das entsprechend einem der oben beschriebenen Verfahren generiert wurde, ein Steuersignal zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs bereitgestellt wird; und/oder basierend auf dem Überwachungs-Bild, ein Warnsignal zur Warnung, bzw. Intervention, eines Fahrzeuginsassen bereitgestellt wird; und/oder basierend auf dem Überwachungs-Bild, ein Notsignal zur Alarmierung eines privaten und/oder öffentlichen Sicherheitsdienstes und/oder Rettungsdienstes bereitgestellt wird; und/oder basierend auf dem Überwachung-Bild ein Steuersignal zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs bereitgestellt wird, um das Fahrzeug in einen sicheren Zustand/ Stillstand zu bringen.
  • Mit dem Notsignal kann beispielsweise die Polizei und/oder ein Krankenwagen oder der Feuerwehr alarmiert werden.
  • Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass ein Steuersignal basierend auf einem Überwachungs-Bild, das entsprechend einem der oben beschriebenen Verfahren generiert wurde, bereitgestellt wird, breit zu verstehen. Er ist so zu verstehen, dass das Überwachungs-Bild für jedwede Bestimmung oder Berechnung eines Steuersignals herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen für diese Bestimmung des Steuersignals herangezogen werden. Dies gilt entsprechend für die Bereitstellung eines Warnsignals und/oder Notsignals. Die Bestimmung des Signals kann beispielsweise durch weitere Verfahren und/oder Personen, wie z.B. ein Operator in einer Überwachungszentrale, zur Analyse des Szeneninhalts geschehen.
  • Es wird eine Überwachungs-Vorrichtung vorgeschlagen, die eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen. Mit einer solchen Überwachungs-Vorrichtung kann das entsprechende Verfahren leicht in unterschiedliche Systeme integriert werden.
  • Es wird eine Verwendung eines der oben beschriebenen Verfahren zur Überwachung einer zu überwachenden Umgebung vorgeschlagen, wobei die Umgebung mittels eines bildgebenden Systems erfasst wird.
  • Gemäß einem Aspekt wird ein Computerprogramm angegeben, das Befehle umfasst, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfahrens in unterschiedlichen Systemen.
  • Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist. Mittels eines solchen maschinenlesbaren Speichermediums ist das oben beschriebene Computerprogramm transportabel.
  • Figurenliste
  • Ausführungsbeispiele der Erfindung werden mit Bezug auf die 1 bis 3 dargestellt und im Folgenden näher erläutert. Es zeigen:
    • 1 ein Daten-Flussdiagramm für das Verfahren zum Generieren eines Überwachung-Bildes;
    • 2 Beispielbilder aus dem Verfahren zum Generieren des Überwachungs-Bildes; und
    • 3 ein Schema für ein Training eines semantischen Segmentierungsverfahrens.
  • Die 1 skizziert schematisch das Verfahren zum Generieren und Übertragen bzw. Speichern eines Überwachungs-Bildes. In einem ersten Schritt wird ein Bild einer Bildsequenz der zu überwachenden Umgebung mittels eines bildgebenden Systems bereitgestellt S1. In einem zweiten Schritt wird in zumindest einem Bild der Bildsequenz mittels eines lernbasierten semantischen Segmentierungsverfahrens ein Überwachungsbereich und ein Peripherie-Bereich bestimmt S2. In einem weiteren Schritt S3 wird eine Maske generiert, mit der in einem weiteren Schritt S4 das zumindest eine Bild so maskiert werden kann, dass der Peripherie-Bereich mit einer zweiten Komprimierungs-Qualität komprimiert werden kann und der Überwachungsbereich mit einer ersten Komprimierungs-Qualität komprimiert werden kann. Dazu kann der Peripherie-Bereich entweder mit einer geringeren Komprimierungs-Qualität komprimiert werden und/oder der Peripherie-Bereich kann durch Weichzeichnung oder Belegung mit vordefinierten Pixelwerten in einem nachfolgenden Schritt S5, bei dem eine einheitliche Komprimierung für den Überwachungsbereich und den Peripherie-Bereich angewendet wird, mit einer geringeren Komprimierungs-Qualität komprimiert werden als der Überwachungsbereich. Anschließend kann in einem Schritt S6 das generierte Überwachungs-Bild gespeichert und/oder übertragen werden. Mit einem optionalen Schritt S 41 können zumindest Teile eines Bildes der Bildersequenz für die Maskierung des Bildes verwendet werden, indem Teile des Überwachungsbereichs und/oder des Peripherie-Bereichs mit Teilen bzw. Bereichen des Bildes belegt werden. Die beschriebene Bestimmung des Überwachungsbereich und/oder Peripherie-Bereichs wird fortlaufend wiederholt, um sich dynamisch Änderungen des Bildinhalts anzupassen. Basierend auf den geschätzten Bereichen werden die anwendungsspezifischen nicht-relevanten Bereiche geschwärzt und/oder geblurrt. Dies reduziert die benötigte Datenrate zur Komprimierung der Videos aufgrund der Kodierungseigenschaften „Differenzkodierung“ und „Bewegungskorrektur“. Die reduzierte Datenrate führt zu geringeren Kosten beispielsweise bei der Videoübertragung oder Videospeicherung. Dabei ist eine Häufigkeit der Berechnung der Überwachungsbereiche und/oder Peripherie-Bereiche parametrisierbar. Die Berechnung kann für jedes Bild durchgeführt werden oder für eine Untermenge, wie z.B. bei jedem x-ten Bild. Im zweiten Fall würde die vorher bestimmten Bereiche weiter für die Komprimierung verwendet werden, bis eine neue Bestimmung vorgenommen wurde. Im zweiten Fall können Verfahren zur Verfolgung von Bereichen/ Segmenten, wie z.B. basierend auf optischem Fluss oder Level-Set Verfahren, ergänzend eingesetzt werden.
  • Die 2 zeigt schematisch Beispielbilder aus dem Verfahren zum Generieren des Überwachungs-Bildes. Das Bild 210 steht für ein Beispielbild einer Bildersequenz aus einem Fahrzeuginnenraum in dem der Fahrzeuginnenraum, Personen und Fenster des Fahrzeugs abgebildet werden. Das Bild 220 skizziert mit der schraffierten Fläche des Fensters des Fahrzeugs einen Peripherie-Bereich. Und das Bild 230 skizziert eine Maske, die auf das Bild der Bildersequenz abgebildet werden kann, um einen schwarz gekennzeichneten Überwachungsbereich 231 und einen weiß gekennzeichneten Peripherie-Bereich 232 zu definieren. Das Bild 240 skizziert das resultierende Überwachungs-Bild, in dem der Peripherie-Bereich maskiert wurde, sodass der Bereich der Fenster mit einem einheitlichen Pixel Wert (z. B. schwarz) belegt wurde.
  • Die 3 skizziert schematisch ein Verfahren 300 zum Trainieren eines lernbasierten semantischen Segmentierungsverfahrens bei dem ein Referenzbild 310, das mit Ground-Truth Werten 320 gelabelt ist, dem Eingang einer Struktur 350 für ein lernbasiertes semantisch Segmentierungsverfahren bereitgestellt wird und einen Überwachungsbereich bzw. ein Peripherie-Bereich 330 bestimmt. In jedem Trainings-Zyklus werden die Ground-Truth Werte 320 mit dem bestimmten Überwachungsbereich bzw. ein Peripherie-Bereich 330 verglichen S7 und das lernbasierte semantische Segmentierungsverfahren adaptiert S8, um eine Abweichung von dem jeweiligen gelebten Referenz-Bild bzw. den Ground-Truth Werten S1 320 zu minimieren.

Claims (15)

  1. Verfahren zum Generieren eines Überwachungs-Bildes (240), mit den Schritten: Bereitstellen einer Bildersequenz (S1) der zu überwachenden Umgebung mittels eines bildgebenden Systems; Bestimmen zumindest eines Überwachungsbereichs (231) und zumindest eines Peripherie-Bereichs (232) (S2) von zumindest einem Bild (210) der Bildersequenz mittels eines lernbasierten semantischen Segmentierungsverfahrens; Komprimieren des Überwachungsbereichs (231) des zumindest einen Bildes (210) der Bildersequenz mit einer ersten Komprimierungs-Qualität; und Komprimieren des Peripherie-Bereichs (232) des zumindest einen Bildes (210) der Bildersequenz mit einer zweiten Komprimierungs-Qualität, zum Generieren des Überwachungs-Bildes (240), wobei die zweite Komprimierungs-Qualität geringer als die erste Komprimierungs-Qualität ist.
  2. Verfahren gemäß Anspruch 1, wobei mittels des lernbasierten semantischen Segmentierungsverfahrens zumindest ein Verdeckungs-Bereich bestimmt wird und das Überwachungs-Bild generiert wird, indem Pixel-Werte in dem zumindest einen bestimmten Verdeckungs-Bereich des Überwachungs-Bildes mit vordefinierten Pixelwerten belegt werden.
  3. Verfahren gemäß Anspruch 1 oder 2, wobei mittels des Überwachungsbereichs (231) und/oder Peripherie-Bereichs (232) eines jeweiligen Bildes (210) eine Maske für das jeweilige Bild (210) generiert wird (S3), und das Überwachungs-Bild (240) basierend auf einer gemittelten Mehrzahl von Masken einer entsprechenden Mehrzahl von jeweiligen Bildern der Bildersequenz generiert wird.
  4. Verfahren gemäß Anspruch 1, wobei das lernbasierte semantische Segmentierungsverfahren basierend auf einem trainierten neuronalen Faltungsnetzwerk (350) und/oder einem aggregated Channel Feature-Verfahren und/oder einem AdaBoost-Verfahren durchgeführt wird.
  5. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zu überwachende Umgebung ein Fahrzeuginnenraum ist.
  6. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das Überwachungs-Bild (240) mittels des komprimierten Überwachungsbereichs (231) und des komprimierten Peripherie-Bereichs (232) gebildet wird.
  7. Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der Peripherie-Bereich (232) des zumindest einen Bildes (210) der Bildersequenz mit der zweiten Komprimierungs-Qualität komprimiert wird, indem der zumindest eine Peripherie-Bereich (232) weichgezeichnet und/oder mit vordefinierten Pixelwerten für Bild-Pixel des Peripherie-Bereichs (232) belegt wird, bevor der Peripherie-Bereich (232) mit einem Komprimierungs-Verfahren mit der ersten Komprimierungs-Qualität komprimiert wird.
  8. Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der Peripherie-Bereich (232) des zumindest einen Bildes (210) der Bildersequenz mit der zweiten Komprimierungs-Qualität komprimiert wird, indem der zumindest eine Peripherie-Bereich (232) mit einem vordefinierten Bildinhalt ersetzt wird.
  9. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei von einer Vielzahl von Bildern der Bildersequenz zumindest ein Überwachungsbereich (231) und zumindest ein Peripherie-Bereich (232) mittels des lernbasierten semantischen Segmentierungsverfahrens bestimmt wird.
  10. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei Bildbereiche der jeweiligen Bilder (210) mittels des lernbasierten semantischen Segmentierungsverfahrens in eine Vielzahl von Objekt-Klassen segmentiert werden und der Überwachungsbereich (231) und/oder der Peripherie-Bereich (232) bestimmt wird, indem die Bildbereiche basierend auf einer ersten Gruppe von Objekt-Klassen dem zumindest einen Überwachungsbereich (231) zugeordnet werden, und Bildbereiche basierend auf einer zweiten Gruppe von Objekt-Klassen dem zumindest einen Peripherie-Bereich (232) zugeordnet werden.
  11. Verfahren zum Trainieren eines lernbasierten semantischen Segmentierungsverfahrens gemäß einem der vorhergehenden Ansprüche zum Bestimmen zumindest eines Überwachungsbereichs (231) und zumindest eines Peripherie-Bereichs (232) von zumindest einem Bild (210) einer Bildersequenz, mit einer Vielzahl von Trainings-Zyklen und einer Vielzahl von Referenz-Bildern (310) einer zu überwachenden Umgebung mittels eines bildgebenden Systems, wobei einem jeweiligen Trainings-Zyklus ein jeweiliges Referenz-Bild (310) zugeordnet wird, und wobei jeder Trainings-Zyklus die Schritte aufweist: Bereitstellen des jeweiligen Referenz-Bildes (310), wobei in dem jeweiligen Referenz-Bild (310) zumindest ein Überwachungsbereich (231) und zumindest ein Peripherie-Bereich (232) gelabelt ist; und Adaptieren des lernbasierten semantischen Segmentierungsverfahrens, um bei dem Bestimmen zumindest eines Überwachungsbereichs (231) und zumindest eines Peripherie-Bereichs (232) des jeweiligen Referenz-Bildes (310) mit dem lernbasierten semantischen Segmentierungsverfahren eine Abweichung von dem jeweiligen gelabelten Referenz-Bild (310) zu minimieren.
  12. Verfahren, bei dem, basierend auf einem Überwachungs-Bild (240) gemäß einem der Ansprüche 1 bis 10, ein Steuersignal zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs bereitgestellt wird; und/oder basierend auf dem Überwachungs-Bild ein Warnsignal zur Warnung eines Fahrzeuginsassen bereitgestellt wird; und/oder basierend auf dem Überwachungs-Bild ein Notsignal zur Alarmierung eines privaten und/oder öffentlichen Sicherheitsdienstes und/oder Rettungsdienstes bereitgestellt wird.
  13. Überwachungs-Vorrichtung die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 10 durchzuführen.
  14. Computerprogramm, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
  15. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 14 gespeichert ist.
DE102020209024.6A 2020-07-20 2020-07-20 Verfahren zum Generieren eines Überwachungs-Bildes Pending DE102020209024A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102020209024.6A DE102020209024A1 (de) 2020-07-20 2020-07-20 Verfahren zum Generieren eines Überwachungs-Bildes
US17/370,331 US11875581B2 (en) 2020-07-20 2021-07-08 Method for generating a monitoring image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020209024.6A DE102020209024A1 (de) 2020-07-20 2020-07-20 Verfahren zum Generieren eines Überwachungs-Bildes

Publications (1)

Publication Number Publication Date
DE102020209024A1 true DE102020209024A1 (de) 2022-01-20

Family

ID=79020843

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020209024.6A Pending DE102020209024A1 (de) 2020-07-20 2020-07-20 Verfahren zum Generieren eines Überwachungs-Bildes

Country Status (2)

Country Link
US (1) US11875581B2 (de)
DE (1) DE102020209024A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3893098B1 (de) * 2019-01-24 2023-07-26 Huawei Technologies Co., Ltd. Bildteilungsverfahren und mobile vorrichtung
CN115496818B (zh) * 2022-11-08 2023-03-10 之江实验室 一种基于动态物体分割的语义图压缩方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030174773A1 (en) 2001-12-20 2003-09-18 Dorin Comaniciu Real-time video object generation for smart cameras
US7020335B1 (en) 2000-11-21 2006-03-28 General Dynamics Decision Systems, Inc. Methods and apparatus for object recognition and compression
US20100265354A1 (en) 2009-04-20 2010-10-21 Fujifilm Corporation Image processing system, image processing method, and computer readable medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180105B2 (en) * 2009-09-17 2012-05-15 Behavioral Recognition Systems, Inc. Classifier anomalies for observed behaviors in a video surveillance system
US11295598B2 (en) * 2020-01-06 2022-04-05 Aptiv Technologies Limited Vehicle-occupant alert system
US11798270B2 (en) * 2020-04-27 2023-10-24 Molecular Devices, Llc Systems and methods for image classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020335B1 (en) 2000-11-21 2006-03-28 General Dynamics Decision Systems, Inc. Methods and apparatus for object recognition and compression
US20030174773A1 (en) 2001-12-20 2003-09-18 Dorin Comaniciu Real-time video object generation for smart cameras
US20100265354A1 (en) 2009-04-20 2010-10-21 Fujifilm Corporation Image processing system, image processing method, and computer readable medium

Also Published As

Publication number Publication date
US20220019821A1 (en) 2022-01-20
US11875581B2 (en) 2024-01-16

Similar Documents

Publication Publication Date Title
DE102013205810B4 (de) System und verfahren zum einschätzen von verfügbaren parkplätzen zum parken auf der strasse mit mehreren plätzen
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
DE19955919C1 (de) Verfahren zur Erkennung von Objekten in Bildern auf der Bildpixelebene
DE19744898A1 (de) Signaladaptives Filterverfahren und signaladaptives Filter
WO1994024634A1 (de) Verfahren zur detektion von änderungen in bewegtbildern
DE102020209024A1 (de) Verfahren zum Generieren eines Überwachungs-Bildes
DE102018214198A1 (de) System zum Bewerten eines Bildes, Betriebsassistenzverfahren und Steuereinheit für eine Arbeitsvorrichtung sowie Arbeitsvorrichtung
WO2021121491A2 (de) Umwandlung von eingangs-bilddaten einer mehrzahl von fahrzeugkameras eines rundumsichtsystems in optimierte ausgangs-bilddaten
EP3899808A1 (de) Verfahren zum trainieren eines neuronalen netzes
EP3948649A1 (de) Maskierung von in einem bild enthaltenen objekten
EP3876157B1 (de) Computerimplementiertes verfahren und system zum erzeugen synthetischer sensordaten und trainingsverfahren
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
EP3734557A1 (de) Verfahren zur bereitstellung von trainingsdaten für adaptierbare situationserkennungsalgorithmen sowie verfahren zur automatisierten situationserkennung von betriebssituationen eines fahrzeugs zur öffentlichen personenbeförderung
DE102020128952A1 (de) Verfahren und Assistenzeinrichtung zur zweistufigen bildbasierten Szenenerkennung und Kraftfahrzeug
EP3973466A1 (de) Verfahren zum funktionsspezifischen robustifizieren eines neuronalen netzes
WO2020233961A1 (de) Verfahren zum beurteilen einer funktionsspezifischen robustheit eines neuronalen netzes
DE102019103192A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein digitales, lernfähiges Kamerasystem
DE102022002448A1 (de) Verfahren und Vorrichtung zur Beschränkung von personenbezogenen Informationen in einem Kamerabild
DE102021201255A1 (de) Computerimplementiertes Verfahren und System zum Detektieren einer Sichteinschränkung eines bildgebenden Sensors und Trainingsverfahren
DE102020105477A1 (de) Computerimplementiertes Verfahren und System zum Erzeugen synthetischer Sensordaten und Trainingsverfahren
DE102021208825A1 (de) Verfahren zur Darstellung einer rückwärtigen Umgebung einer mobilen Plattform, die mit einem Anhänger gekoppelt ist
DE102022202229A1 (de) Computerimplemetiertes Verfahren zum Erkennen eines neuen Objektes in einem Innenraum eines Zuges
DE102021131179A1 (de) Formpriorisierte Bildklassifizierung unter Verwendung tiefer Faltungsnetze
DE102020209025A1 (de) Verfahren zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz
DE102022202827A1 (de) Verfahren zum Bestimmen einer Orientierung einer Kamera

Legal Events

Date Code Title Description
R163 Identified publications notified