DE102022203067A1 - Verfahren zum Erkennen von Objekten in Bilddaten - Google Patents

Verfahren zum Erkennen von Objekten in Bilddaten Download PDF

Info

Publication number
DE102022203067A1
DE102022203067A1 DE102022203067.2A DE102022203067A DE102022203067A1 DE 102022203067 A1 DE102022203067 A1 DE 102022203067A1 DE 102022203067 A DE102022203067 A DE 102022203067A DE 102022203067 A1 DE102022203067 A1 DE 102022203067A1
Authority
DE
Germany
Prior art keywords
image data
detection result
detector
object detector
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022203067.2A
Other languages
English (en)
Inventor
Matthias Kirschner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022203067.2A priority Critical patent/DE102022203067A1/de
Publication of DE102022203067A1 publication Critical patent/DE102022203067A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Erkennen von Objekten in Bilddaten, wobei das Verfahren (1,10) folgende Schritte aufweist: Bereitstellen von Bilddaten (2,11); Analysieren der Bilddaten durch einen Objektdetektor, um ein erstes Detektionsergebnis zu erzeugen (3,12); Analysieren der Bilddaten durch einen Hintergrunddetektor, um ein zweites Detektionsergebnis zu erzeugen (4,13); und Erkennen von Objekten in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis (5,14).

Description

  • Die Erfindung betrifft ein Verfahren zum Erkennen von Objekten in Bilddaten und insbesondere ein Verfahren zum Erkennen von Objekten in Bilddaten, bei dem ein Objektdetektor mit einem szenenspezifischen Hintergrundmodell kombiniert wird.
  • Algorithmen des maschinellen Lernens basieren allgemein darauf, dass Verfahren der Statistik verwendet werden, um eine Datenverarbeitungsanlage derart zu trainieren, dass diese eine bestimmte Aufgabe ausführen kann, ohne dass diese ursprünglich explizit hierzu programmiert wurde. Das Ziel des maschinellen Lernens besteht dabei darin, Algorithmen zu konstruieren, die aus Daten lernen und Vorhersagen treffen können.
  • Zum Einsatz kommen derartige Algorithmen des maschinellen Lernens beispielsweise bei Computer Vision Algorithmen, beispielsweise bei Objektdetektoren, welche es erlauben, Aufnahmen eines optischen Sensors automatisch zu prozessieren, um Objekte, beispielsweise Personen, in den Aufnahmen zu erkennen oder zu tracken.
  • Bei Objektdetektoren handelt es sich dabei weiter für gewöhnlich um auf Deep Learning beziehungsweise tiefgehendem Lernen basierende Algorithmen. Auf Deep Learning basierende Algorithmen sind eine besonders leistungsfähige Klasse von Algorithmen des maschinellen Lernens. Dabei wird der Algorithmus des maschinellen Lernens mit Hilfe von gelabelten beziehungsweise gekennzeichneten Trainingsdaten trainiert, um Objekte in bereitgestellten Daten erkennen zu können. Beispielsweise kann ein künstliches neuronales Netz zur Personendetektion trainiert werden, in dem zunächst Trainingsdaten durch einen menschlichen Annotator gelabelt werden, das heißt Personen in den Trainingsdaten durch den Annotator annotiert werden, wobei anschließend die Parameter des künstlichen neuronalen Netzes basierend auf den annotierten Trainingsdaten optimiert werden.
  • Wie gut die durch einen derartigen auf Deep Learning basierenden Algorithmus, beispielsweise eines derartigen künstlichen neuronalen Netzes gelieferte Detektionsergebnisse sind, hängt dabei unter anderem von der Qualität der Trainingsdaten sowie der Generalisierungsfähigkeit des entsprechenden Algorithmus ab.
  • Aus der Druckschrift WO 2004/055547 A1 ist ein Verfahren zur Objektdetektierung mit fahrzeuggebundenen Sensoren, deren Erfassungsbereiche sich wenigstens teilweise überlappen, bekannt, wobei Signale von wenigstens zwei Sensoren mit im Wesentlichen deckungsgleichen Erfassungsbereichen und zusätzliche Signale mindestens eines weiteren Sensors, dessen Erfassungsbereich sich nur teilweise mit den Erfassungsbereichen überlappt, ausgewertet wird, und wobei ein Objekt dann als relevant erkannt wird, wenn es von mindestens zwei Sensoren detektiert wird.
  • Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum Erkennen von Objekten in Bilddaten anzugeben.
  • Die Aufgabe wird mit einem Verfahren zum Erkennen von Objekten in Bilddaten gemäß den Merkmalen des Patentanspruchs 1 gelöst.
  • Die Aufgabe wird weiter auch mit einem Steuergerät zum Erkennen von Objekten in Bilddaten gemäß den Merkmalen des Patentanspruchs 6 gelöst.
  • Die Aufgabe wird außerdem auch mit einem System zum Erkennen von Objekten in Bilddaten gemäß den Merkmalen des Patentanspruchs 10 gelöst.
  • Offenbarung der Erfindung
  • Gemäß einer Ausführungsform der Erfindung wird diese Aufgabe gelöst durch ein Verfahren zum Erkennen von Objekten in Bilddaten, wobei Bilddaten bereitgestellt werden, die Bilddaten zum einen durch einen Objektdetektor analysiert werden, um ein erstes Detektionsergebnis zu erzeugen, die Bilddaten zum anderen durch einen Hintergrunddetektor analysiert werden, um ein zweites Detektionsergebnis zu erzeugen, und Objekte in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis erkannt werden.
  • Unter Bilddaten werden dabei Daten, welche durch Scannen beziehungsweise optisches Aufnehmen einer oder mehrerer Oberflächen durch ein optisches oder elektronisches Gerät beziehungsweise einen optischen Sensor erzeugt werden, verstanden.
  • Unter einem Hintergrunddetektor wird weiter ein Algorithmus des maschinellen Lernens verstanden, welcher rein auf szenenspezifischen Daten trainiert ist, beziehungsweise darauf optimiert ist, den typischen Hintergrund einer Szene zu erkennen und Hintergrund Informationen von Vordergrundinformationen zu unterscheiden.
  • Dass das erste Detektionsergebnis mit dem zweiten Detektionsergebnis fusioniert wird, bedeutet ferner, dass das erste Detektionsergebnis mit dem zweiten Detektionsergebnis verknüpft beziehungsweise in Verbindung gebracht wird.
  • Das Verfahren hat dabei den Vorteil, dass ein Verfahren zum Erkennen von Objekten in Bilddaten angegeben wird, bei dem sowohl die Stärken eines Objektdetektors als auch die hierzu komplementären Stärken eines Hintergrunddetektors genutzt werden können. So sind Objektdetektoren szeneagnostisch und darauf ausgelegt, auf allgemeinen Szenen eine möglichst gute Detektions- und Klassifikationsperformance zu liefern. Durch den Hintergrunddetektor kann die Detektion weiter szenenspezifisch angepasst und hierdurch die Detektionsgenauigkeit verbessert werden. Insgesamt wird somit ein verbessertes Verfahren zum Erkennen von Objekten in Bilddaten angegeben.
  • Dabei kann der Schritt des Erkennens von Objekten in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis ein Assoziieren beziehungsweise Vergleichen des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis aufweisen. Die Detektionsgenauigkeit kann somit auf einfache Art und Weise dadurch verbessert werden, dass das durch den Hintergrunddetektor erzeugte zweite Detektionsergebnis dazu verwendet wird, von dem Objektdetektor erzeugte Detektionsergebnisse beziehungsweise durch den Objektdetektor erkannte Objekte entweder zu bestätigen oder zu verwerfen.
  • In einer Ausführungsform handelt es sich bei dem Objektdetektor und dem Hintergrunddetektor weiter jeweils um ein Faster R-CNN beziehungsweise ein schnelleres regionales faltungsneuronales Netz.
  • Faster R-CNN (Region-based Convolutional Neural Network) beschreibt einen auf einem künstlichen neuronalen Netz basierenden Algorithmus des maschinellen Lernens, bei dem der selektive Suchalgorithmus durch ein Faltungsnetzwerk ersetzt wurde. Dabei erhält ein Faster R-CNN Bilddaten als Eingabe, verarbeitet diese anschließend und gibt eine Liste von Objektklassen zusammen mit den entsprechenden Begrenzungsrahmen aus.
  • Aufgrund der Ersetzung des selektiven Suchalgorithmus durch ein Faltungsnetzwerk können Faster R-CNN Objekte in Bilddaten deutlich schneller detektieren als andere Algorithmen zur Objekterkennung, insbesondere in Echtzeit, was in einer deutlichen Zeit- und Ressourceneinsparung resultiert.
  • Dabei, dass es sich bei dem Objektdetektor und dem Hintergrunddetektor jeweils um ein Faster R-CNN handelt, handelt es sich jedoch nur um eine mögliche Ausführungsform. Vielmehr können der Objektdetektor und/oder der Hintergrunddetektor auch basierend auf anderen Algorithmen zur Objekterkennung realisiert werden, beispielsweise einen YOLO (You Only Look Once) Ansatz.
  • In einer weiteren Ausführungsform werden der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert.
  • Dass der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden bedeutet dabei, dass lediglich ein neuronales Netz trainiert wird, dass sowohl die Aufgaben des Objektdetektors als auch die Aufgaben des Hintergrunddetektors übernimmt.
  • Dass der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden hat dabei den Vorteil, dass Ressourcen, insbesondere Speicher- und Prozessorkapazitäten eingespart werden können, zumal sich der Objektdetektor und der Hintergrunddetektor einen Großteil der notwendigen Berechnungen teilen können.
  • Zudem kann es sich bei den Bilddaten um Sensordaten handeln.
  • Ein Sensor, welcher auch als Detektor, (Messgrößen- oder Mess-)Aufnehmer oder (Mess-) Fühler bezeichnet wird, ist ein technisches Bauteil, das bestimmte physikalische oder chemische Eigenschaften und/oder die stoffliche Beschaffenheit seiner Umgebung qualitativ oder als Messgröße quantitativ erfassen kann.
  • Somit können auf einfache Art und Weise Gegebenheiten außerhalb der eigentlichen Datenverarbeitungsanlage, auf welcher das Verfahren ausgeführt wird, erfasst und bei der Erkennung von Objekten berücksichtigt werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird auch ein Steuergerät zum Erkennen von Objekten in Bilddaten angegeben, wobei das Steuergerät eine Bereitstellungseinheit, welche ausgebildet ist, Bilddaten bereitzustellen, eine erste Analysierungseinheit, welche ausgebildet ist, die Bilddaten durch einen Objektdetektor zu analysieren, um ein erstes Detektionsergebnis zu erzeugen, eine zweite Analysierungseinheit, welche ausgebildet ist, die Bilddaten durch einen Hintergrunddetektor zu analysieren, um ein zweites Detektionsergebnis zu erzeugen, und eine Fusionseinheit, welche ausgebildet ist, Objekte in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis zu erkennen, aufweist.
  • Das Steuergerät hat dabei den Vorteil, dass ein Steuergerät zum Erkennen von Objekten in Bilddaten angegeben wird, welches derart ausgebildet ist, dass sowohl die Stärken eines Objektdetektors als auch die hierzu komplementären Stärken eines Hintergrunddetektors genutzt werden können. So sind Objektdetektoren szeneagnostisch und darauf ausgelegt, auf allgemeinen Szenen eine möglichst gute Detektions- und Klassifikationsperformance zu liefern, Durch den Hintergrunddetektor kann die Detektion weiter szenenspezifisch angepasst und hierdurch die Detektionsgenauigkeit verbessert werden. Insgesamt wird somit ein verbessertes Steuergerät zum Erkennen von Objekten in Bilddaten angegeben.
  • Dabei kann die Fusionseinheit ausgebildet sein, das erste Detektionsergebnis mit dem zweiten Detektionsergebnis zu assoziieren beziehungsweise zu vergleichen. Die Detektionsgenauigkeit kann somit auf einfache Art und Weise dadurch verbessert werden, dass das durch den Hintergrunddetektor erzeugte zweite Detektionsergebnis dazu verwendet wird, von dem Objektdetektor erzeugte Detektionsergebnisse beziehungsweise durch den Objektdetektor erkannte Objekte entweder zu bestätigen oder zu verwerfen.
  • In einer Ausführungsform handelt es sich bei dem Objektdetektor und dem Hintergrunddetektor wiederum jeweils um ein Faster R-CNN beziehungsweise ein schnelleres regionales faltungsneuronales Netz. Aufgrund der Ersetzung des selektiven Suchalgorithmus durch ein Faltungsnetzwerk können Faster R-CNN Objekte in Bilddaten deutlich schneller detektieren als andere Algorithmen zur Objekterkennung, insbesondere in Echtzeit, was in einer deutlichen Zeit- und Ressourceneinsparung resultiert.
  • Dabei, dass es sich bei dem Objektdetektor und dem Hintergrunddetektor jeweils um ein Faster R-CNN handelt, handelt es sich jedoch nur um eine mögliche Ausführungsform. Vielmehr können der Objektdetektor und/oder der Hintergrunddetektor auch basierend auf anderen Algorithmen zur Objekterkennung realisiert werden, beispielsweise einen YOLO (You Only Look Once) Ansatz.
  • In einer weiteren Ausführungsform werden der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert. Dass der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden hat dabei den Vorteil, dass Ressourcen, insbesondere Speicher- und Prozessorkapazitäten eingespart werden können, zumal sich der Objektdetektor und der Hintergrunddetektor einen Großteil der notwendigen Berechnungen teilen können.
  • Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein System zum Erkennen von Objekten in Bilddaten angegeben, wobei das System einen optischen Sensor zum Erfassen von Bilddaten und ein obenstehend beschriebenes Steuergerät zum Erkennen von Objekten in Bilddaten aufweist, und wobei das Steuergerät ausgebildet ist, Objekte in durch den optischen Sensor erfassten Bilddaten zu erkennen.
  • Das System hat dabei den Vorteil, dass dieses ein Steuergerät zum Erkennen von Objekten in Bilddaten aufweist, welches derart ausgebildet ist, dass sowohl die Stärken eines Objektdetektors als auch die hierzu komplementären Stärken eines Hintergrunddetektors genutzt werden können. So sind Objektdetektoren szeneagnostisch und darauf ausgelegt, auf allgemeinen Szenen eine möglichst gute Detektions- und Klassifikationsperformance zu liefern. Durch den Hintergrunddetektor kann die Detektion weiter szenenspezifisch angepasst und hierdurch die Detektionsgenauigkeit verbessert werden. Insgesamt weist das System somit ein verbessertes Steuergerät zum Erkennen von Objekten in Bilddaten auf.
  • Mit einer weiteren Ausführungsform der Erfindung wird außerdem auch ein Verfahren zum Trainieren eines Objektdetektors angegeben, wobei das Verfahren ein Bereitstellen von allgemeinen Trainingsdaten, ein Bereitstellen von szenenspezifischen Trainingsdaten, ein Trainieren des Objektdetektors basierend auf den allgemeinen Trainingsdaten, und ein Optimieren des Objektdetektors basierend auf den szenenspezifischen Trainingsdaten aufweist.
  • Unter allgemeinen Trainingsdaten werden dabei szenenagnostische Trainingsdaten, das heißt Trainingsdaten, welche unabhängig von einer Hintergrundszene sind, verstanden.
  • Unter szenenspezifischen Trainingsdaten werden weiter szenenspezifische Trainingsdaten verstanden, das heißt Trainingsdaten, welche eine bestimmte Hintergrundszene beziehungsweise einen bestimmten Hintergrund kennzeichnen.
  • Somit wird durch das Verfahren ein Objektdetektor trainiert, welcher die Eigenschaften eines reinen Objektdetektors und eines Hintergrunddetektors vereint. So sind Objektdetektoren szeneagnostisch und darauf ausgelegt, auf allgemeinen Szenen eine möglichst gute Detektions- und Klassifikationsperformance zu liefern. Durch den Hintergrunddetektor kann die Detektion weiter szenenspezifisch angepasst und hierdurch die Detektionsgenauigkeit verbessert werden.
  • Ferner werden der reine Objektdetektor und der Hintergrunddetektor dabei durch einen gemeinsamen Algorithmus, beispielsweise ein gemeinsames künstliches neuronales Netz repräsentiert, so dass Ressourcen bei der Anwendung des trainierten Objektdetektors, insbesondere Speicher- und Prozessorkapazitäten eingespart werden können, zumal sich der Objektdetektor und der Hintergrunddetektor einen Großteil der notwendigen Berechnungen teilen können.
  • Ein entsprechend trainierte Objektdetektor kann ferner in Zusammenhang mit einem der obenstehend beschriebenen Verfahren zum Erkennen von Objekten in Bilddaten verwendet werden.
  • Zusammenfassend ist festzustellen, dass mit der vorliegenden Erfindung ein Verfahren zum Erkennen von Objekten in Bilddaten angegeben wird, bei dem ein Objektdetektor mit einem szenenspezifischen Hintergrundmodell kombiniert wird.
  • Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
  • Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmalen der Erfindung.
  • Kurze Beschreibung der Zeichnungen
  • Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
  • Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
  • Es zeigen:
    • 1 ein Flussdiagramm eines Verfahrens zum Erkennen von Objekten in Bilddaten gemäß einer ersten Ausführungsform der Erfindung;
    • 2 ein Flussdiagramm eines Verfahrens zum Erkennen von Objekten in Bilddaten gemäß einer zweiten Ausführungsform der Erfindung; und
    • 3 ein schematisches Blockschaltbild eines Systems zum Erkennen von Objekten in Bilddaten gemäß Ausführungsformen der Erfindung.
  • In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
  • 1 zeigt ein Flussdiagramm eines Verfahrens zum Erkennen von Objekten in Bilddaten 1 gemäß einer ersten Ausführungsform der Erfindung.
  • Eine Besonderheit bei der Anwendung von Algorithmen des maschinellen Lernens zur Erkennung von Objekten in durch Überwachungskameras gelieferten Bilddaten ist, dass Überwachungskameras in der Regel fest installiert sind. Folglich ändert sich die durch die gelieferten Bilddaten abgebildete Szene kaum. Insbesondere ist die Geometrie der Szene konstant, wobei Varianzen in den gelieferten Bilddaten im Wesentlichen durch Beleuchtungsänderungen und sich bewegende Objekte erzeugt werden. Insgesamt ist die statistische Verteilung der gelieferten Bilddaten somit sehr eng.
  • Trainiert man den Algorithmus des maschinellen Lernens dabei basierend auf Trainingsdaten, welche die entsprechende Szene kennzeichnen, verspricht dies zunächst eine gute Anpassung des Algorithmus des maschinellen Lernens an die entsprechende Szene, wobei jedoch die Gefahr von Overfitting besteht und es zu einer mangelnden Robustheit des Algorithmus des maschinellen Lernens kommen kann.
  • Overfitting bezeichnet dabei ein sogenanntes Auswendiglernen von Trainingsdaten, wobei es zu einem Zustand kommen kann, bei dem nur noch aus den Trainingsdaten ermittelte Problemlösungen reproduziert werden, das heißt der Algorithmus nur die Trainingsdaten korrekt verarbeitet und bei der Eingabe neuer Daten keine neuen Ergebnisse liefert.
  • Ferner kann sich die Szene nach der Trainingsphase beziehungsweise dem Trainieren des Algorithmus des maschinellen Lernens ändern, beispielsweise durch eine temporäre oder dauerhafte Änderung des Hintergrundes, so dass ein allein auf der Szene trainierter Algorithmus des maschinellen Lernens nicht mehr korrekt arbeitet und eine mangelnde Robustheit aufweist.
  • 1 zeigt dabei ein Verfahren zur Erkennung von Objekten in Bilddaten 1, wobei in einem ersten Schritt 2 Bilddaten bereitgestellt werden, die Bilddaten zum einen in einem Schritt 3 durch einen Objektdetektor analysiert werden, um ein erstes Detektionsergebnis zu erzeugen, die Bilddaten zum anderen in einem Schritt 4 durch einen Hintergrunddetektor analysiert werden, um ein zweites Detektionsergebnis zu erzeugen, und Objekte in den Bilddaten in einem Schritt 5 durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis erkannt werden.
  • 1 zeigt somit ein Verfahren 1, bei dem ein Eingabebild sowohl einem Objektdetektor als auch einem Hintergrunddetektor als Input bereitgestellt wird, der Objektdetektor sowie der Hintergrunddetektor basierend auf dem Eingabebild jeweils Detektionsergebnisse liefern, und die Detektionsergebnisse anschließend fusioniert werden, um ein gemeinsames verbessertes Detektionsergebnis zu erzeugen.
  • Das Verfahren 1 hat dabei den Vorteil, dass ein Verfahren zum Erkennen von Objekten in Bilddaten 1 angegeben wird, bei dem sowohl die Stärken eines Objektdetektors als auch die hierzu komplementären Stärken eines Hintergrunddetektors genutzt werden können. So sind Objektdetektoren szeneagnostisch und darauf ausgelegt, auf allgemeinen Szenen eine möglichst gute Detektions- und Klassifikationsperformance zu liefern. Durch den Hintergrunddetektor kann die Detektion weiter szenenspezifisch angepasst und hierdurch die Detektionsgenauigkeit verbessert werden. Insgesamt wird somit ein verbessertes Verfahren 1 zum Erkennen von Objekten in Bilddaten angegeben.
  • Der Objektdetektor kann dabei beispielsweise basierend auf annotierten beziehungsweise gelabelten allgemeinen Trainingsdaten und der Hintergrunddetektor beispielsweise basierend auf annotierten beziehungsweise gelabelten szenenspezifischen Trainingsdaten trainiert worden sein.
  • Der Schritt 5 des Fusionierens des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis kann dabei ferner insbesondere auf einer vorab festgelegten Fusionsstrategie basieren.
  • Gemäß der ersten Ausführungsform weist der Schritt des Erkennens von Objekten in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis 5 dabei ein Assoziierendes ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis auf.
  • Insbesondere kann dabei für jedes durch den Objektdetektor erkannte Objekt bestimmt werden, ob dieses mit einer durch den Hintergrunddetektor erkannten Region überlappt und ein entsprechender Grad der Überlappung bestimmt. Ist der Grad der Überlappung dabei hoch, insbesondere größer als ein Schwellwert für die Überlappung, beispielsweise 50%, wird das entsprechende Objekt verworfen. Ist der Grad der Überlappung hingegen kleiner als der Schwellwert, wird hingegen angenommen, dass das Objekt nicht zum Hintergrund gehört beziehungsweise die entsprechende Szene repräsentiert und wird das Objekt als erkanntes Objekt ausgegeben.
  • Gemäß der ersten Ausführungsform ist somit alles, was als Vordergrund erkannt wird, Kandidat dafür, als Objekt erkannt zu werden. Der Hintergrunddetektor kann somit insbesondere dazu genutzt werden, um falsch Positive in den durch den Objektdetektor gelieferten Ergebnissen beziehungsweise in dem ersten Detektionsergebnis zu erkennen.
  • Bei dem Objektdetektor und dem Hintergrunddetektor handelt es sich dabei jeweils um ein Faster R-CNN.
  • Ferner handelt es sich bei den Bilddaten um durch einen Sensor, insbesondere einen optischen Sensor zu entsprechenden Zeiten erfasste Bilddaten.
  • Die durch das Verfahren 1 erkannten Objekte können anschließend beispielsweise zum Steuern eines steuerbaren Systems verwendet werden, wobei es sich bei dem steuerbaren System um ein Robotiksystem handeln kann, und wobei es sich bei dem Robotiksystem beispielsweise um ein autonom fahrendes Kraftfahrzeug handeln kann. Ferner kann es sich aber beispielsweise auch um ein System zur Gesichtserkennung handeln.
  • 2 zeigt ein Flussdiagramm eines Verfahrens zum Erkennen von Objekten in Bilddaten 10 gemäß einer zweiten Ausführungsform der Erfindung.
  • 2 illustriert dabei wiederum ein Verfahren 10, bei dem ein Objektdetektor auf Bilddaten mit Hilfe eines Hintergrunddetektors szenenspezifisch angepasst wird.
  • Insbesondere zeigt 2 wiederum ein Verfahren 10, wobei in einem ersten Schritt 11 Bilddaten bereitgestellt werden, die Bilddaten zum einen in einem Schritt 12 durch einen Objektdetektor analysiert werden, um ein erstes Detektionsergebnis zu erzeugen, die Bilddaten zum anderen in einem Schritt 13 durch einen Hintergrunddetektor analysiert werden, um ein zweites Detektionsergebnis zu erzeugen, und Objekte in den Bilddaten in einem Schritt 14 durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis erkannt werden.
  • Der Unterschied zwischen dem in 2 gezeigten Verfahren 10 gemäß der zweiten Ausführungsform und dem in 1 gezeigten Verfahren 1 gemäß der ersten Ausführungsform besteht dabei darin, dass gemäß der zweiten Ausführungsform der der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden.
  • Insbesondere wird dabei ein einziges künstliches neuronales Netz trainiert, welches sowohl die Funktion des Objektdetektors als auch die Funktion des Hintergrunddetektors übernimmt, wobei das künstliche neuronale Netz zunächst basierend auf allgemeinen Trainingsdaten trainiert wird und die Parameter einer für die Funktion des Hintergrunddetektors hinzugefügten zusätzlichen Schicht an Neuronen basierend auf szenenspezifischen Trainingsdaten, beispielsweise basierend auf einem Backpropagation Algorithmus optimiert werden.
  • 3 zeigt ein schematisches Blockschaltbild eines Systems zum Erkennen von Objekten in Bilddaten 20 gemäß Ausführungsformen der Erfindung.
  • Wie 3 zeigt, weist das System 20 dabei einen optischen Sensor 21 zum Erfassen von Bilddaten und ein Steuergerät zum Erkennen von Objekten in Bilddaten 22 auf, wobei das Steuergerät 22 ausgebildet ist, Objekte in durch den optischen Sensor 21 erfassten Bilddaten zu erkennen.
  • Bei dem optischen Sensor 21 handelt es sich dabei insbesondere um einen fest montierten, nicht beweglichen optischen Sensor, beispielsweise eine statische Überwachungskamera.
  • Das Steuergerät 22 weist ferner eine Bereitstellungseinheit 23, welche ausgebildet ist, Bilddaten bereitzustellen, eine erste Analysierungseinheit 24, welche ausgebildet ist, die Bilddaten durch einen Objektdetektor zu analysieren, um ein erstes Detektionsergebnis zu erzeugen, eine zweite Analysierungseinheit 25, welche ausgebildet ist, die Bilddaten durch einen Hintergrunddetektor zu analysieren, um ein zweites Detektionsergebnis zu erzeugen, und eine Fusionseinheit 26, welche ausgebildet ist, Objekte in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis zu erkennen, auf.
  • Insbesondere ist das dargestellte Steuergerät 22 dabei ausgebildet, ein obenstehend beschriebenes Verfahren zur Erkennung von Objekten in Bilddaten auszuführen.
  • Bei der Bereitstellungseinheit kann es sich dabei beispielsweise um einen Empfänger, welcher ausgebildet ist, durch den optischen Sensor erfasste Bilddaten zu erfassen, handeln. Die erste Analysierungseinheit, die zweie Analysierungseinheit und die Fusionseinheit können ferner jeweils beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • WO 2004055547 A1 [0006]

Claims (11)

  1. Verfahren zum Erkennen von Objekten in Bilddaten, wobei das Verfahren (1,10) folgende Schritte aufweist: - Bereitstellen von Bilddaten (2,11); - Analysieren der Bilddaten durch einen Objektdetektor, um ein erstes Detektionsergebnis zu erzeugen (3,12); - Analysieren der Bilddaten durch einen Hintergrunddetektor, um ein zweites Detektionsergebnis zu erzeugen (4,13); und - Erkennen von Objekten in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis (5,14).
  2. Verfahren nach Anspruch 1, wobei der Schritt des Erkennens von Objekten in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis (5) ein Assoziieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis aufweist.
  3. Verfahren nach Anspruch 1 oder 2, wobei es sich bei dem Objektdetektor und dem Hintergrunddetektor jeweils um ein Faster R-CNN handelt.
  4. Verfahren nach Anspruch 1 oder 2, wobei der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei es sich bei den Bilddaten um Sensordaten handelt.
  6. Steuergerät zum Erkennen von Objekten in Bilddaten, wobei das Steuergerät (22) eine Bereitstellungseinheit (23), welche ausgebildet ist, Bilddaten bereitzustellen, eine erste Analysierungseinheit (24), welche ausgebildet ist, die Bilddaten durch einen Objektdetektor zu analysieren, um ein erstes Detektionsergebnis zu erzeugen, eine zweite Analysierungseinheit (25), welche ausgebildet ist, die Bilddaten durch einen Hintergrunddetektor zu analysieren, um ein zweites Detektionsergebnis zu erzeugen, und eine Fusionseinheit (26), welche ausgebildet ist, Objekte in den Bilddaten durch Fusionieren des ersten Detektionsergebnisses mit dem zweiten Detektionsergebnis zu erkennen, aufweist.
  7. Steuergerät nach Anspruch 6, wobei die Fusionseinheit ausgebildet ist, das erste Detektionsergebnis mit dem zweiten Detektionsergebnis zu assoziieren.
  8. Steuergerät nach Anspruch 6 oder 7, wobei es sich bei dem Objektdetektor und dem Hintergrunddetektor jeweils um einen Faster R-CNN handelt.
  9. Steuergerät nach Anspruch 6 oder 7, wobei der Objektdetektor und der Hintergrunddetektor durch ein gemeinsames neuronales Netz repräsentiert werden.
  10. System zum Erkennen von Objekten in Bilddaten, wobei das System (20) einen optischen Sensor (21) zum Erfassen von Bilddaten und ein Steuergerät zum Erkennen von Objekten in Bilddaten (22) nach einem der Ansprüche 6 bis 9 aufweist, und wobei das Steuergerät (22) ausgebildet ist, Objekte in durch den optischen Sensor (21) erfassten Bilddaten zu erkennen.
  11. Verfahren zum Trainieren eines Objektdetektors, wobei das Verfahren folgende Schritte aufweist: - Bereitstellen von allgemeinen Trainingsdaten; - Bereitstellen von szenenspezifischen Trainingsdaten; - Trainieren des Objektdetektors basierend auf den allgemeinen Trainingsdaten; und - Optimieren des Objektdetektors basierend auf den szenenspezifischen Trainingsdaten.
DE102022203067.2A 2022-03-29 2022-03-29 Verfahren zum Erkennen von Objekten in Bilddaten Pending DE102022203067A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022203067.2A DE102022203067A1 (de) 2022-03-29 2022-03-29 Verfahren zum Erkennen von Objekten in Bilddaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022203067.2A DE102022203067A1 (de) 2022-03-29 2022-03-29 Verfahren zum Erkennen von Objekten in Bilddaten

Publications (1)

Publication Number Publication Date
DE102022203067A1 true DE102022203067A1 (de) 2023-10-05

Family

ID=88019364

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022203067.2A Pending DE102022203067A1 (de) 2022-03-29 2022-03-29 Verfahren zum Erkennen von Objekten in Bilddaten

Country Status (1)

Country Link
DE (1) DE102022203067A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055547A1 (de) 2002-12-13 2004-07-01 Robert Bosch Gmbh Verfahren und einrichtung zur objektdetektierung
US20160110623A1 (en) 2014-10-20 2016-04-21 Samsung Sds Co., Ltd. Method and apparatus for setting region of interest

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055547A1 (de) 2002-12-13 2004-07-01 Robert Bosch Gmbh Verfahren und einrichtung zur objektdetektierung
US20160110623A1 (en) 2014-10-20 2016-04-21 Samsung Sds Co., Ltd. Method and apparatus for setting region of interest

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CAVALLARO, Andrea. Multi-Camera Networks, 03.09.2011, S. 1-69, URL: https://pdfs.semanticscholar.org/3a84/18a4aaad295774d14b3ec000bac039df9585.pdf [abgerufen am 15.03.2023]
MAITY, Madhusri; BANERJEE, Sriparna; CHAUDHURI, Sheli Sinha: Faster r-cnn and yolo based vehicle detection: A survey. In: 2021 5th international conference on computing methodologies and communication (ICCMC). IEEE, 2021. S. 1442-1447
REN, Shaoqing [et al.] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39. Jg., Nr. 6, S. 1137
RUDER, Sebastian: An overview of multi-task learning in deep neural networks. Version 1, 15.06.2017, S. 1-14, URL: https://arxiv.org/pdf/1706.05098 [abgerufen am 15.03.2023]
TIAN, Yunong [et al.]: Instance segmentation of apple flowers using the improved mask R–CNN model. Biosystems engineering, 2020, 193. Jg., S. 264-278
ZHU, Juncai [et al.]: Moving object detection based on background compensation and deep learning. Symmetry, 2020, 12. Jg., Nr. 12, S. 1965

Similar Documents

Publication Publication Date Title
DE69322306T2 (de) Gegenstandserkennungssystem mittels Bildverarbeitung
EP2034461B1 (de) Verfahren zur Detektion und/oder Verfolgung von bewegten Objekten in einer Überwachungsszene mit Störern, Vorrichtung sowie Computerprogramm
DE102017107264A1 (de) Sichtbasierte regenerkennung unter verwendung des tiefen lernens
WO2018177484A1 (de) Verfahren und system zur vorhersage von sensorsignalen eines fahrzeugs
DE102014106506A1 (de) Verfahren zum Durchführen einer Diagnose eines Kamerasystems eines Kraftfahrzeugs, Kamerasystem und Kraftfahrzeug
DE102020126554A1 (de) Mikroskopiesystem und verfahren zum überprüfen von eingabedaten
DE112018007375T5 (de) Qualitätsüberwachungssystem
DE102019120696A1 (de) Vorrichtung und Verfahren zur Reifenprüfung
WO2022122196A1 (de) Optische schienenwegerkennung
WO2021228894A1 (de) Bildauswertungsverfahren in der mikroskopie
DE102018113621A1 (de) Verfahren zum Trainieren eines konvolutionellen neuronalen Netzwerks zum Verarbeiten von Bilddaten zur Anwendung in einem Fahrunterstützungssystem
WO2020200620A1 (de) Maskierung von in einem bild enthaltenen objekten
DE102022203067A1 (de) Verfahren zum Erkennen von Objekten in Bilddaten
DE102022209403A1 (de) Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk
DE102017221381A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln eines Abstandes zu einem Objekt
EP3772017A1 (de) Bahnsignalerkennung für autonome schienenfahrzeuge
WO2021148392A1 (de) Verfahren und vorrichtung zur objektidentifikation basierend auf sensordaten
DE102021002011A1 (de) Verfahren zur Annotation von Daten einer Umgebungserfassung
EP3734557A1 (de) Verfahren zur bereitstellung von trainingsdaten für adaptierbare situationserkennungsalgorithmen sowie verfahren zur automatisierten situationserkennung von betriebssituationen eines fahrzeugs zur öffentlichen personenbeförderung
DE102018122092A1 (de) Verfahren zum Bestimmen zumindest eines Positionsparameters eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, Fahrerassistenzsystem und Kraftfahrzeug
DE102022208384A1 (de) Verfahren zum Ermitteln eines Qualitätszustands eines Prüfobjekts
DE102022207042A1 (de) Verfahren zur Erkennung einer Verdeckung eines Kamerasensors und Kamerasensor
WO2024013162A1 (de) Verfahren zum bestimmen von unzulänglichkeiten bei der detektion von objekten in von einem umgebungssensor eines kraftfahrzeuges erfassten daten
DE102022204297A1 (de) Verfahren zum Trainieren eines Algorithmus des maschinellen Lernens
DE102021210322A1 (de) Verfahren zum Erzeugen eines Datensatzes zum Trainieren und/oder Testen eines Algorithmus des maschinellen Lernens basierend auf einem Ensemble an Datenfiltern

Legal Events

Date Code Title Description
R163 Identified publications notified