DE102020200847A1

DE102020200847A1 - Verfahren und Vorrichtung zur Objektidentifikation basierend auf Sensordaten

Info

Publication number: DE102020200847A1
Application number: DE102020200847.7A
Authority: DE
Inventors: Raimund Bohl; William Harris Beluch
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2021-07-29
Also published as: WO2021148392A1

Abstract

Die Erfindung betrifft ein Verfahren zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich, mit folgenden Schritten:- Erfassen von Bilddaten mindestens einer optischen Erfassungsquelle;- Erfassen von Klangdaten von mindestens einer akustischen Erfassungsquelle;- Generieren von Bilddaten-Merkmalskarten für die Bilddaten basierend auf einem Bilddaten-Merkmalsextraktor;- Generieren von Klangdaten-Merkmalskarten für die Klangdaten basierend auf einem Klangdaten-Merkmalsextraktor;- Verarbeiten der Bilddaten-Merkmalskarten und der Klangdaten-Merkmalskarten, um eine Vorhandenseinsangabe bereitzustellen, die angibt, ob das bestimmte Objekt in dem Umgebungsbereich vorhanden ist oder nicht.

Description

Technisches Gebiet
Die Erfindung betrifft Verfahren zur Identifikation eines Objekts basierend auf Sensordaten von verschiedenartigen Sensoren. Insbesondere betrifft die vorliegende Erfindung das Feststellen eines Vorhandenseins oder Nicht-Vorhandenseins eines Objekts in einem Umgebungsbereich basierend auf visueller und akustischer Information.
Technischer Hintergrund
Verfahren zur Identifikation des Vorhandenseins eines Objekts sind bekannt. Häufig werden hierzu optische Erfassungsquellen, wie z.B. Kameras verwendet, die einen Umgebungsbereich aufzeichnen. Mithilfe einer Objekterkennung kann dann durch Auswerten der aufgezeichneten Bilddaten das Vorhandensein eines Objekts erkannt werden.
Es existieren verschiedene etablierte Deep-Learning-Verfahren zur Objekterkennung und Klassifikation basierend auf Bilddaten. Diese verwenden in der Regel konvolutionelle neuronale Netzwerke als Merkmalsextraktoren in Verbindung mit einer Klassifikation, wie beispielsweise SSD, YOLO, Faster RCNN und dergleichen.
Die Zuverlässigkeit solcher Objekterkennungssysteme ist begrenzt und hängt in erheblichem Maße von der Qualität der zu verarbeitenden Bilddaten ab.
Offenbarung der Erfindung
Erfindungsgemäß sind ein Verfahren zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich gemäß Anspruch 1 und eine entsprechende Vorrichtung und ein Detektionssystem gemäß den nebengeordneten Ansprüchen gelöst.
Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt ist ein computer-implementiertes Verfahren zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich vorgesehen, mit folgenden Schritten:

- Erfassen von Bilddaten mindestens einer optischen Erfassungsquelle;
- Erfassen von Klangdaten von mindestens einem Mikrofon;
- Generieren einer oder mehreren Bilddaten-Merkmalskarten für die Bilddaten basierend auf einem optischen Merkmalsextraktor;
- Generieren einer oder mehreren Klangdaten-Merkmalskarten für die Klangdaten basierend auf einem akustischen Merkmalsextraktor;
- Verarbeiten der einen oder den mehreren Bilddaten-Merkmalskarten und der einen oder den mehreren Klangdaten-Merkmalskarten, um eine Vorhandenseinsangabe bereitzustellen, die angibt, ob das bestimmte Objekt in dem Umgebungsbereich vorhanden ist oder nicht.

Neben dem zuvor genannten Verfahren zur visuellen Objekterkennung und Identifikation sind weiterhin Verfahren zur akustischen Ereignisidentifikation sowie klassische Signalverarbeitungsverfahren, die auf akustischen Sensorsignalen beruhen, bekannt.
Das obige Verfahren ermöglicht die Detektion des Vorhandenseins eines bestimmten Objekts, insbesondere eines zumindest im Betrieb schallabgebendes Objekt, in einem Umgebungsbereich, insbesondere in einem Umgebungsbereich, d.h. in einem Umkreis um eine vorgegebene Position, beispielsweise zur Erkennung des Vorhandenseins einer Drohne in der Nähe eines bestimmten Gebäudes. Dazu werden als Eingangsdaten Bilddaten von einer oder mehreren optischen Erfassungsquellen, wie z. B. Überwachungskameras, und Klangdaten als akustische Sensorsignale von einem oder mehreren akustischen Erfassungsquellen verwendet.
Jedoch kann beispielsweise die visuelle Erkennung des Vorhandenseins des bestimmten Objekts durch gestörte oder verrauschte Bilddaten erschwert werden, wie beispielsweise bei einem unscharfen oder verrauschten Bild aufgrund von Sensorrauschen, mangelnden Lichtverhältnissen bei Nacht oder Dämmerungsaufnahmen oder bei ungeeigneten Wetterbedingungen oder dergleichen. Dies führt zu Fehlerkennungen oder Nicht-Erkennungen des Vorhandenseins des bestimmten Objekts.
Gleichermaßen kann bei der Verwendung von Klangdaten der Umgebungsgeräusche und bei Vorliegen von starken Hintergrundgeräuschen, beeinträchtigenden Wetterbedingungen oder geringen Signalstärken der Klangsignale die Erkennung des Vorhandenseins des bestimmten Objekts unzuverlässig sein.
Die Kombination der Informationen aus beiden Erfassungsquellen kann die Erkennungszuverlässigkeit deutlich erhöhen.
Mithilfe einer Sensordatenfusion kann die Vertrauenswürdigkeit der Erkennung eines Vorhandenseins oder Nicht-Vorhandenseins des bestimmten Objekts bzw. der Identifikation des bestimmten Objekts verbessert werden, so dass fehlerhafte Falscherkennungen (false positives) oder Nichterkennungen zuverlässiger vermieden werden können. Dazu wird die Zusatzinformation genutzt, die sich aus der Verwendung von verschiedenen Erfassungsquellen, nämlich von einer oder mehreren optischen Erfassungsquellen (Kameras) und einer oder mehreren akustischen Erfassungsquellen (Mikrofonen), ergeben.
Durch die Nutzung eines Merkmalsextraktors (Bilddaten-Merkmalsextraktor), insbesondere basierend auf einem Konvolutionellen Neuronalen Netz (CNN) für jede optische Erfassungsquelle (Kamera), können Objekterkennungen auf Grundlage von Bilddaten vorgenommen werden, die sowohl das Vorhandensein eines Objekts als auch optional die Art des erkannten Objekts angeben können. Jeder der Merkmalsextraktoren kann eine Reihe von verschiedenen Schichten von gelernten Merkmalskarten bereitstellen, die jeweils eine eigene Dimensionalität abhängig von der Tiefe der Schicht aufweist. Eine oder mehrere dieser Merkmalskarten kann in einem als Bild-Klassifikator ausgebildeten Merkmalsextraktor für die visuelle Objekterkennung verwendet werden, um ein bestimmtes Objekt bzw. eine bestimmte Art von Objekt zu detektieren. Im Ergebnis kann das Vorhandensein des bestimmten Objekts durch einen Bounding-Rahmen angegeben werden, für den im Weiteren eine Objektklassifikation durchgeführt werden kann.
Die Klangdaten können ebenfalls mit einem Merkmalsextraktor (Klangdaten-Merkmalsextraktor), insbesondere basierend auf einem Konvolutionellen Neuronalen Netz (CNN) für jede akustische Erfassungsquelle (Mikrofon), beispielsweise basierend auf einem CNN, verarbeitet werden, so dass Merkmalskarten erhalten werden. Diese werden von einem Klang-Klassifikator genutzt werden, um das bestimmte Objekt in der Umgebung zu identifizieren.
Die Klassifikationsergebnisse werden von den jeweiligen Klassifikatoren jeweils mit Unsicherheitsangaben versehen, die angeben, wie zuverlässig die Klassifikation der entsprechenden Merkmalsdaten aus den Merkmalsextraktoren war.
Weiterhin können die Bilddaten-Merkmalskarten und die Klangdaten-Merkmalskarten mit einem datenbasierten Klassifikationsmodell verarbeitet werden, das so trainiert ist, um das Vorhandensein des bestimmten Objekts in dem Umgebungsbereich zu erkennen.
Es kann dadurch vorgesehen sein, dass mit Unsicherheitsmaßen versehenen Klassifikationsergebnissen aus den Merkmalsextraktionen bestimmt werden kann, ob ein bestimmtes Objekt vorhanden ist oder nicht.
Insbesondere kann das Verarbeiten der Bilddaten-Merkmalskarten und der Klangdaten-Merkmalskarten jeweils mit einer von dem Unsicherheitsmaß abhängigen Gewichtung durchgeführt werden.
Weiterhin können die Bilddaten-Merkmalskarten jeweils einem Ausgang aus verschiedenen Schichten eines konvolutionellen neuronalen Netzes des Bilddaten-Merkmalsextraktors und/oder die Klangdaten-Merkmalskarten jeweils einem Ausgang aus verschiedenen Schichten eines konvolutionellen neuronalen Netzes des Klangdaten-Merkmalsextraktors entsprechen.
Gemäß einer Ausführungsform können die Bilddaten-Merkmalskarten und/oder die Klangdaten-Merkmalskarten jeweils mit einem Unsicherheitsmaß bereitgestellt werden.
Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich vorgesehen, umfassend:

- mindestens eine optische Erfassungsquelle zum Erfassen von Bilddaten;
- mindestens eine akustische Erfassungsquelle zum Erfassen von Klangdaten;
- einen Bilddaten-Merkmalsextraktor zum Generieren einer oder mehreren Bilddaten-Merkmalskarten für die Bilddaten;
- einen Klangdaten-Merkmalsextraktor zum Generieren einer oder mehreren Klangdaten-Merkmalskarten für die Klangdaten;
- einen Koordinator, der ausgebildet ist, um die eine oder die mehreren Bilddaten-Merkmalskarten und die eine oder die mehreren Klangdaten-Merkmalskarten zu verarbeiten, um eine Vorhandenseinsangabe bereitzustellen, die angibt, ob das bestimmte Objekt in dem Umgebungsbereich vorhanden ist oder nicht.

Figurenliste
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:

1 eine schematische Darstellung eines Objekterkennungssystems am Beispiel einer Erkennung eines Vorhandenseins oder Nichtvorhandenseins einer Drohne in der Umgebung eines Gebäudes; und
2 ein Blockdiagramm zur Veranschaulichung des Aufbaus einer Objekterkenn ungsei nrichtung.

Beschreibung von Ausführungsformen
1 zeigt eine schematische Darstellung für ein Objekterkennungssystem 1 am Beispiel einer Erkennung des Vorhandenseins oder Nichtvorhandenseins einer Drohne 3 als ein bestimmtes Objekt im Umfeld eines Gebäudes 2.
Das Objekterkennungssystem 1 umfasst eine Objekterkennungseinrichtung 4, die mit einem Kamerasystem 5 aus einer oder mehreren Kameras 51 (oder sonstigen optischen Erfassungsquellen) zur Erfassung von Bildsignalen und einem Mikrofonsystem 6 mit einem oder mehreren Mikrofonen 61 zur Erfassung von Klangsignalen verbunden ist. Eine Erkennung des Vorhandenseins einer Drohne 3 als das bestimmte Objekt kann von der Objekterkennungseinrichtung 4 in geeigneter Weise signalisiert werden, beispielsweise durch Ausgeben eines Alarms oder dergleichen mithilfe einer Signalisierungseinrichtung 7.
Die Objekterkennungseinrichtung 4 weist einen schematischen Aufbau auf, wie er in 2 dargestellt ist.
In einem Bilddaten-Merkmalsextraktor 11 werden die Bildsignale B der Kameras 51 als Bilddaten jeweils mithilfe eines konvolutionellen neuronalen Netz (CNN), wie z.B. mithilfe eines VGG-16 Netzwerks, analysiert, um Bilddaten-Merkmalskarten MB aus dem betreffenden Kamerabild zu erstellen. Der Bilddaten-Merkmalsextraktor 11 ist so trainiert, dass ein oder mehrere bestimmte Objekte 3, wie z. B. eine Drohne, erkannt werden können. Der Bilddaten-Merkmalsextraktor 11 weist ein CNN mit mehreren Schichten auf, um jeweils Bilddaten-Merkmalskarten MB bereitzustellen. Die Bilddaten-Merkmalskarten MB entsprechend jeweils dem Ausgang einer Schicht. Die Bilddaten-Merkmalskarten MB weisen jeweils eine eigene Dimensionalität abhängig von der Tiefe der jeweiligen Schicht auf.
Ein Teil dieser Bilddaten-Merkmalskarten MB kann für die Objekterkennung in einem Detektionsmodul 12 verwendet werden, so dass ein Bounding-Rahmen für jedes der in der Umgebung der Objekterkennungseinrichtung bestimmten Objekte 3 generiert wird. Für jeden der Bounding-Rahmen kann in einem Bilddaten-Klassifikator 13 eine Objektklassifikation vorgenommen werden, die die Art des von dem Bounding-Rahmen markierten Objekts 3 angibt. Die Klassifikation kann zudem auch den Typ des Objekts 3, d. h. den Typ der Drohne für das vorliegende Ausführungsbeispiel, erkennen.
Mithilfe eines Klangsignal-Merkmalsextraktors 14 können die von einem oder mehreren Mikrofonen 51 des Mikrofonsystems 5 empfangenen Klangsignale analysiert werden. Die von den Mikrofonen 51 des Mikrofonsystems 5 bereitgestellten Klangsignale können unbearbeitete Klangdaten oder vorverarbeitete Klangdaten, wie z. B. als Log-MEL-Spektrum, umfassen.
Der Klangsignal-Merkmalsextraktor 14 ist so trainiert, dass das Vorhandensein eines oder mehrerer bestimmten Objekte 3, wie z. B. eine Drohne, erkannt werden kann. Der Klangdaten-Merkmalsextraktor 14 weist ein CNN mit mehreren Schichten auf, um jeweils Klangdaten-Merkmalskarten MK bereitzustellen. Die Klangdaten-Merkmalskarten MK weisen jeweils eine eigene Dimensionalität abhängig von der Tiefe der jeweiligen Schicht auf.
Die Klangdaten-Merkmalskarten MK ermöglichen eine Klassifikation des erfassten Klangsignals, die das Vorhandensein oder Nichtvorhandensein eines bestimmten Objekts, wie beispielsweise einer Drohne, in der Umgebung angeben kann.
Zu den Klassifikationen der Merkmalsextraktoren 11, 14 können Unsicherheitsmaße, die die Vorhersagezuverlässigkeit angeben, bereitgestellt werden. Die Unsicherheitsmaße werden für jede der Merkmalskarten bereitgestellt, so dass die betreffende Merkmalskarte entsprechend ihrer Zuverlässigkeit berücksichtigt werden kann. So kann das Unsicherheitsmaß jeder Merkmalskarte in Form einer Gewichtung einer Berücksichtigung der betreffenden Merkmalskarte angenommen werden.
Für die Datenfusion kann ein Koordinator 15 vorgesehen sein, der die gemeinsame Klassifikation der Merkmalskarten MB, MK vornimmt. Dazu werden die Merkmalskarten von den zwei Merkmalsextraktoren 11, 14 gemeinsam als Eingangsdaten des Koordinators 15 berücksichtigt und mit ihren entsprechenden Vorhersageunsicherheiten gewichtet. Der Koordinator 15 umfasst ein trainierbares datenbasiertes Klassifikationsmodell, das so trainiert ist, um anhand der Merkmalskarten das Vorhandensein des bestimmten Objekts zu erkennen.
Die kombinierten Merkmalskarten werden einem Klassifikationsmodul des Koordinators 15 zugeführt, das durch die Klassifikationsparameter parametriert ist, die die abschließende Klassifikation über das Vorhandensein des bestimmten Objekts 3 vornimmt. Das Klassifikationsmodul kann ein CNN oder ein DNN aufweisen und eingangsseitig an die Dimensionalität der Merkmalskarten MB, MK angepasst sein. Das Klassifikationsmodul kann zum einen trainiert sein, um abhängig von den Merkmalskarten MB, MK und den zugeordneten Unsicherheitsmaßen eine Angabe bereitzustellen, ob sich ein bestimmtes Objekt, d.h. eine Drohne 3 im Umgebungsbereich der Objekterkennungssystem 1 befindet.
Wenn ein Bounding-Rahmen oder ein Typ des Objekts ausgegeben werden soll, muss dies in den Trainingsdaten, mit denen der Koordinator trainiert wird, berücksichtigt werden.
Die Unsicherheitsmaße für bestimmte Merkmalskarten hinsichtlich der Klassifikationsparameter können beispielsweise aus einer mehrfachen Klassifikation der Bilddaten oder der Klangdaten bestimmt werden, so dass die Anzahl der übereinstimmenden Klassifikationsergebnisse ein Maß für die Vorhersageunsicherheit angibt. Dies ist beispielsweise aus Lakshminarayanan, B. et al., „Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles", NIPS, 2017 bekannt.
Weiterhin können mithilfe eines sogenannten Monte-Carlo-Dropout-Verfahrens, wie beispielsweise aus Gal, Y. et al., „Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning", ICML, 2016 bekannt, die Kamerabilder und/oder die Mikrofondaten jeweils mit verschiedenartigen Rauschsignalen (insbesondere aus einem stochastic noise process) überlagert werden und die entsprechende Klassifikation vorgenommen werden. Die Anzahl der übereinstimmenden Vorhersagen über das Vorhandensein oder Nichtvorhandensein des Objekts kann dann ein Maß der Vorhersageunsicherheit für die Merkmalskarten angeben. Die individuellen Klassifikationsvorhersagen mit dem entsprechendem Unsicherheitsmaß können dann zum Bestimmen der Unsicherheit der Gesamtvorhersage über das Vorhandensein oder Nichtvorhandensein eines Objekts kombiniert werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Lakshminarayanan, B. et al., „Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles“, NIPS, 2017 [0036]
Gal, Y. et al., „Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning“, ICML, 2016 [0037]

Claims

Verfahren zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich, mit folgenden Schritten: - Erfassen von Bilddaten mindestens einer optischen Erfassungsquelle; - Erfassen von Klangdaten von mindestens einer akustischen Erfassungsquelle; - Generieren einer oder mehreren Bilddaten-Merkmalskarten für die Bilddaten basierend auf einem Bilddaten-Merkmalsextraktor; - Generieren einer oder mehreren Klangdaten-Merkmalskarten für die Klangdaten basierend auf einem Klangdaten-Merkmalsextraktor; - Verarbeiten der einen oder den mehreren Bilddaten-Merkmalskarten und der einen oder den mehreren Klangdaten-Merkmalskarten, um eine Vorhandenseinsangabe bereitzustellen, die angibt, ob das bestimmte Objekt in dem Umgebungsbereich vorhanden ist oder nicht.
Verfahren nach Anspruch 1, wobei die Bilddaten-Merkmalskarten jeweils einem Ausgang aus verschiedenen Schichten eines konvolutionellen neuronalen Netzes des Bilddaten-Merkmalsextraktors und/oder wobei die Klangdaten-Merkmalskarten jeweils einem Ausgang aus verschiedenen Schichten eines konvolutionellen neuronalen Netzes des Klangdaten-Merkmalsextraktors entsprechen.
Verfahren nach Anspruch 1 oder 2, wobei die Bilddaten-Merkmalskarten und die Klangdaten-Merkmalskarten mit einem datenbasierten Klassifikationsmodell verarbeitet werden, das so trainiert ist, um das Vorhandensein des bestimmten Objekts in dem Umgebungsbereich zu erkennen.
Verfahren nach Anspruch 3, wobei die Bilddaten-Merkmalskarten und/oder die Klangdaten-Merkmalskarten jeweils mit einem Unsicherheitsmaß bereitgestellt werden.
Verfahren nach Anspruch 4, wobei das Verarbeiten der Bilddaten-Merkmalskarten und der Klangdaten-Merkmalskarten jeweils mit einer von dem Unsicherheitsmaß abhängigen Gewichtung durchgeführt wird.
Vorrichtung zum Detektieren eines bestimmten Objekts, insbesondere einer Drohne, in einem Umgebungsbereich, umfassend: - mindestens eine optische Erfassungsquelle zum Erfassen von Bilddaten; - mindestens eine akustische Erfassungsquelle zum Erfassen von Klangdaten; - einen Bilddaten-Merkmalsextraktor zum Generieren einer oder mehreren Bilddaten-Merkmalskarten für die Bilddaten; - einen Klangdaten-Merkmalsextraktor zum Generieren einer oder mehreren Klangdaten-Merkmalskarten für die Klangdaten; - einen Koordinator, der ausgebildet ist, um die eine oder die mehreren Bilddaten-Merkmalskarten und die eine oder die mehreren Klangdaten-Merkmalskarten zu verarbeiten, um eine Vorhandenseinsangabe bereitzustellen, die angibt, ob das bestimmte Objekt in dem Umgebungsbereich vorhanden ist oder nicht.
Computerprogramm mit Programmcodemitteln, das dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 5 auszuführen, wenn das Computerprogramm auf einer Recheneinheit ausgeführt wird.
Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 7.