DE102022201786A1

DE102022201786A1 - System und verfahren für multimodales neurosymbolisches szenenverständnis

Info

Publication number: DE102022201786A1
Application number: DE102022201786.2A
Authority: DE
Inventors: Jonathan Francis; Alessandro Oltramari; Sirajum Munir; Charles Shelton
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-02-26
Filing date: 2022-02-21
Publication date: 2022-09-01
Also published as: CN114972727A; US20220277217A1

Abstract

Ein System zur Bildverarbeitung umfasst einen ersten Sensor, ausgelegt zum Erfassen mindestens eines oder mehrerer Bilder, einen zweiten Sensor, ausgelegt zum Erfassen von Toninformationen, einen Prozessor in Kommunikation mit dem ersten Sensor und zweiten Sensor, wobei der Prozessor programmiert ist zum Empfangen des einen oder der mehreren Bilder und der Toninformationen, Extrahieren eines oder mehrerer Datenmerkmale, die den Bildern und Toninformationen zugeordnet sind, unter Verwendung eines Codierers, Ausgeben von Metadaten über einen Decodierer an eine räumlich-zeitliche Schlussfolgerungsmaschine, wobei die Metadaten unter Verwendung des Decodierers und des einen oder der mehreren Datenmerkmale abgeleitet werden, Bestimmen einer oder mehrere Szenen unter Verwendung der räumlich-zeitlichen Schlussfolgerungsmaschine und der Metadaten; und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft Bildverarbeitung unter Verwendung von Sensoren wie Kameras, Radar, Mikrofonen usw.
HINTERGRUND
Systeme können in der Lage sein, Szenenverständnis durchzuführen. Szenenverständnis kann sich auf die Fähigkeit eines Systems beziehen, über Objekte und die Ereignisse, an denen sie beteiligt sind, auf der Basis ihrer semantischen Beziehung mit anderen Objekten in der Umgebung und/oder der georäumlichen oder zeitlichen Struktur der Umgebung selbst Schlussfolgerungen zu ziehen. Ein wesentliches Ziel für die Aufgabe des Szenenverständnisses ist die Erzeugung eines statistischen Modells, das semantische Ereignisse auf hoher Ebene bei einer gewissen Beobachtung des Kontexts in einer Szene vorhersagen (z.B. klassifizieren) kann. Beobachtung eines Szenenkontexts kann mittels Verwendung von Sensorvorrichtungen ermöglicht werden, die an verschiedenen Orten platziert sind, die es den Sensoren erlauben, Kontext-Informationen aus der Szene in Form von Sensormodalitäten wie Videoaufzeichnungen, akustische Muster, Umgebungstemperatur-Zeitreiheninformation usw. zu erhalten. Wenn ihm solche Informationen von einer oder mehreren Modalitäten (Sensoren) gegeben sind, kann das System Ereignisse, die durch Entitäten in der Szene eingeleitet werden, klassifizieren.
KURZFASSUNG
Gemäß einer Ausführungsform umfasst ein System zur Bildverarbeitung einen ersten Sensor, ausgelegt zum Erfassen mindestens eines oder mehrerer Bilder; einen zweiten Sensor, ausgelegt zum Erfassen von Toninformationen; einen Prozessor in Kommunikation mit dem ersten Sensor und zweiten Sensor, wobei der Prozessor programmiert ist zum Empfangen des einen oder der mehreren Bilder und der Toninformationen, Extrahieren eines oder mehrerer Datenmerkmale, die den Bildern und Toninformationen zugeordnet sind, unter Verwendung eines Codierers, Ausgeben von Metadaten über einen Decodierer an eine räumlich-zeitliche Schlussfolgerungsmaschine, wobei die Metadaten unter Verwendung des Decodierers und des einen oder der mehreren Datenmerkmale abgeleitet werden, Bestimmen einer oder mehrere Szenen unter Verwendung der räumlich-zeitlichen Schlussfolgerungsmaschine und der Metadaten, und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
Gemäß einer zweiten Ausführungsform ein System zur Bildverarbeitung, umfassend einen ersten Sensor, ausgelegt zum Erfassen einer ersten Menge von Informationen, die eine Umgebung angeben, einen zweiten Sensor, ausgelegt zum Erfassen einer zweiten Menge von Informationen, die die Umgebung angeben, einen Prozessor in Kommunikation mit dem ersten Sensor und dem zweiten Sensor. Der Prozessor ist programmiert zum Empfangen der ersten und zweiten Menge von Informationen, die die Umgebung angeben, Extrahieren eines oder mehrerer Datenmerkmale, die den Bildern und Toninformationen zugeordnet sind, unter Verwendung eines Codierers, Ausgeben von Metadaten über einen Decodierer an eine räumlich-zeitliche Schlussfolgerungsmaschine, wobei die Metadaten unter Verwendung des Decodierers und des einen oder der mehreren Datenmerkmale abgeleitet werden, Bestimmen einer oder mehrerer Szenen unter Verwendung der räumlich-zeitlichen Schlussfolgerungsmaschine und der Metadaten, und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
Gemäß einer dritten Ausführungsform umfasst ein System zur Bildverarbeitung einen ersten Sensor, ausgelegt zum Erfassen einer ersten Menge von Informationen, die eine Umgebung angeben, einen zweiten Sensor, ausgelegt zum Erfassen einer zweiten Menge von Informationen, die die Umgebung angeben, und einen Prozessor in Kommunikation mit dem ersten Sensor und dem zweiten Sensor. Der Prozessor ist programmiert zum Empfangen der ersten und zweiten Menge von Informationen, die die Umgebung angeben, Extrahieren eines oder mehrerer Datenmerkmale, die der ersten Menge und zweiten Menge von Informationen, die die Umgebung angeben, zugeordnet sind, Ausgeben von Metadaten, die ein oder mehrere Datnmerkmale angeben, Bestimmen einer oder mehrerer Szenen unter Verwendung der Metadaten, und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
Figurenliste

1 zeigt eine schematische Ansicht eines Überwachungsaufbaus.
2 ist eine Übersichts-Systemdarstellung eines drahtlosen Systems gemäß einer Ausführungsform der Offenbarung.
3A ist eine erste Ausführungsform einer Datenverarbeitungs-Pipeline.
3B ist eine alternative Ausführungsform einer Datenverarbeitungs-Pipeline, die Fusionierung von Sensordaten benutzt.
4 ist eine Darstellung einer beispielhaften Szene, die von der einen oder den mehreren Videokameras und dem einen oder den mehreren Sensoren erfasst wird.

AUSFÜHRLICHE BESCHREIBUNG
Es werden hier Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbaren Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht unbedingt maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten von bestimmten Komponenten zu zeigen. Hier offenbarte spezifische Struktur- und Funktionsdetails sind deshalb nicht als Beschränkung aufzufassen, sondern lediglich als repräsentative Grundlage, um Fachleute zu lehren, die Ausführungsformen verschiedenartig einzusetzen. Wie für Durchschnittsfachleute erkennbar ist, können verschiedene mit Bezug auf eine beliebige der Figuren dargestellte und beschriebene Merkmale mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren dargestellt sind, um Ausführungsformen zu erzeugen, die nicht explizit dargestellt oder beschrieben werden. Die Kombinationen von Merkmalen, die dargestellt werden, liefern repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale im Einklang mit den Lehren der vorliegenden Offenbarung könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Gemäß einer Ausführungsform umfasst eine Ausführungsform einen Rahmen für multimodales neurosymbolisches Szenenverständnis. Der Rahmen kann auch als System bezeichnet werden. Der Rahmen kann eine Konfluenz von Hardware und Software umfassen. Von der Hardwareseite aus werden Daten von verschiedenen Sensorvorrichtungen („Modalitäten“) über ein drahtloses Protokoll zu den Softwarekomponenten gestreamt. Von dort aus kombinieren und transformieren anfängliche Softwareprozesse diese Sensormodalitäten, um einen prädiktiven Kontext für weitere Softwareprozesse signalabwärts bereitzustellen, wie etwa Maschinenlernmodelle, Rahmen künstlicher Intelligenz und Web-Anwendungen zur Benutzerlokalisierung und -visualisierung. Zusammen ermöglichen diese Komponenten des Systems Szenenverständnis, eine Umwelt-Ereignisdetektion und ein Schlussfolgerungsparadigma, wobei Subereignisse auf einer niedrigen Ebene detektiert und klassifiziert werden, Schlussfolgerungen zu abstrakteren Ereignisse auf einer hohen Ebene gezogen werden und Informationen auf beiden Ebenen dem Bediener oder Endbenutzern zur Verfügung gestellt werden, trotz der Möglichkeit, dass die Ereignisse beliebige Zeiträume überspannen. Da diese Softwareprozesse mehrere Sensormodalitäten miteinander fusionieren, neuronale Netze (NN) als die ereignisprädiktiven Modelle umfassen können und Rahmen der symbolischen Repräsentation und Schlussfolgerung (KRR - Knowledge Representation & Reasoning) als die zeitlichen Schlussfolgerungsmaschinen (z.B. eine räumlich-zeitliche Schlussfolgerungsmaschine) umfassen können, kann gesagt werden, dass das System multimodale neurosymbolische Schlussfolgerung für Szenenverständnis durchführt.
1 zeigt eine schematische Ansicht einer Überwachungsinstallation oder eines Überwachungsaufbaus 1. Die Überwachungsinstallation 1 umfasst eine Überwachungsmo-dulanordnung 2 und eine Evaluierungsvorrichtung 3. Die Überwachungsmodulanordnung 2 umfasst mehrere Überwachungsmodule 4. Die Überwachungsmodulanordnung 2 ist an einer Decke des Überwachungsbereichs 5 angeordnet. Die Überwachungsmodul-anordnung 2 ist für die visuelle, auf Bildern basierende und/oder auf Video basierende Überwachung des Überwachungsbereichs 5 ausgelegt.
Das Überwachungsmodul 4 umfasst jeweils mehrere Kameras 6. Insbesondere kann das Überwachungsmodul 4 bei einer Ausführungsform mindestens drei Kameras 6 umfassen. Die Kameras 6 können als Farbkameras und insbesondere als kompakte Kameras, zum Beispiel Smartphone-Kameras, ausgelegt sein. Die Kameras 6 können eine Sichtrichtung 7, einen Sichtwinkel und ein Sichtfeld 8 aufweisen. Die Kameras 6 eines Überwachungsmoduls 4 sind mit einer ähnlich ausgerichteten Sichtrichtung 7 angeordnet. Insbesondere sind die Kameras 6 so angeordnet, dass die Kameras 6 jeweils paarweise eine Überlappung des Sichtfelds 8 aufweisen. Die Überwachungskameras 6 können an festen Positionen und/oder in festen Kameraintervallen voneinander in dem Überwachungsmodul 4 angeordnet sein.
Die Überwachungsmodule 4 können bei einer Ausführungsform mechanisch und über eine Datenkommunikation miteinander gekoppelt sein. Bei einer anderen Ausführungsform können auch drahtlose Verbindungen benutzt werden. Bei einer Ausführungsform kann die Überwachungsmodulanordnung 2 mittels der Kopplung der Überwachungsmodule 4 erhalten werden. Ein Überwachungsmodul 4 der Überwachungsmodulanordnung 2 ist als ein kollektives Sendemodul 10 ausgelegt. Das kollektive Sendemodul 10 hat eine Datenschnittstelle 11. Die Datenschnittstelle kann insbesondere die Kommunikationsschnittstelle bilden. Die Überwachungsdaten aller Überwachungsmodule 4 werden an die Datenschnittstelle 11 geliefert. Überwachungsdaten können durch die Kameras 6 aufgezeichnete Bilddaten umfassen. Die Datenschnittstelle 11 ist dafür ausgelegt, alle Bilddaten kollektiv an die Evaluierungsvorrichtung 3 zu liefern. Hierzu kann die Datenschnittstelle 11 insbesondere über eine Datenkommunikationsverbindung mit der Evaluierungseinheit 3 gekoppelt sein. Das Überwachungsmodul kann über drahtlose Datenverbindung (z.B. Wi-Fi, LTE, Mobilfunk usw.) kommunizieren.
Ein bewegliches Objekt 9 kann in dem Überwachungsbereich 5 durch Benutzung der Überwachungsinstallation 1 detektiert und/oder verfolgt werden. Hierzu liefert das Überwachungsmodul 4 Überwachungsdaten an die Evaluierungsvorrichtung 3. Die Überwachungsdaten können Kameradaten und andere Daten umfassen, die von verschiedenen die Umgebung überwachenden Sensoren beschafft werden. Zu solchen Sensoren können Hardwaresensorvorrichtungen gehören, darunter beliebige oder eine Kombination von ökologischen Sensoren (Temperatur, Druck, Feuchtigkeit usw.), visuellen Sensoren (Überwachungskameras), Tiefensensoren, thermische Bildgeber, Lokalisierungsmetadaten (georäumliche Zeitreihen), Empfänger drahtloser Signale (Wi-Fi, Bluetooth, Ul-trabreitband usw.) und akustische Sensoren (Vibration, Audio) oder beliebige andere Sensoren, die dafür ausgelegt sind, Informationen zu sammeln. Die Kameradaten können Bilder der Überwachung des Überwachungsbereichs 5 durch Benutzung der Kameras 6 aufweisen. Die Evaluierungsvorrichtung 3 kann zum Beispiel den Überwachungsbereich 5 stereoskopisch evaluieren und/oder überwachen.
2 ist eine Übersichtssystemdarstellung eines drahtlosen Systems 200 gemäß einer Ausführungsform der Offenbarung. Bei einer Ausführungsform kann das drahtlose System 200 eine drahtlose Einheit 201 umfassen, die benutzt wird, um Kanalzustandsinformations- bzw. CSI-Daten oder beliebige drahtlose Signale und Daten zu erzeugen und zu übermitteln. Die drahtlose Einheit 201 kann mit mobilen Vorrichtungen (z.B. Mobiltelefon, tragbare Vorrichtung, Tablet) eines Angestellten 215 oder eines Kunden 207 in einer Überwachungssituation kommunizieren. Zum Beispiel kann die mobile Vorrichtung eines angestellten 215 drahtloses Signal 219 zu der drahtlosen Einheit 201 senden. Bei Empfang eines drahtlosen Pakets erhält die Systemeinheit 201 die zugeordneten CSI-Werte des Paketempfangs oder beliebige andere Daten. Außerdem kann das drahtlose Paket identifizierbare Informationen über die Vorrichtungs-ID, z.B. eine zum Identifizieren des Angestellten 215 verwendete MAC-Adresse, enthalten. Somit können das System 200 und die drahtlose Einheit 201 die von der Vorrichtung des Angestellten 215 ausgetauschten Daten nicht zur Bestimmung verschiedener Hotspots benutzen.
Während Wi-Fi als eine drahtlose Kommunikationstechnologie benutzt werden kann, kann eine beliebige andere Art von drahtloser Technologie benutzt werden. Zum Beispiel kann Bluetooth benutzt werden, wenn das System CSI aus einem drahtlosen Chipsatz erhalten kann. Die Systemeinheit kann in der Lage sein, einen Wi-Fi-Chipsatz zu enthalten, der an bis zu drei Antennen angeschlossen ist, wie durch die drahtlose Einheit 201 und die drahtlose Einheit 203 gezeigt. Die drahtlose Einheit 201 kann eine Kamera zum Überwachen verschiedener um einen POI herum laufender Personen umfassen. In einem anderen Beispiel kann die drahtlose Einheit 203 keine Kamera umfassen und einfach mit den mobilen Vorrichtungen kommunizieren.
Das System 200 kann verschiedene Gänge (neben anderen Umgebungen) abdecken, wie etwa 209, 211, 213, 214. Die Gänge können als ein Gehweg zwischen Regalen 205 oder Wänden einer Geschäftsfassade definiert sein. Die zwischen den verschiedenen Gängen 209, 211, 213, 214 gesammelten Daten können benutzt werden, um eine Wärmekarte zu erzeugen und auf Verkehr eines Kaufhauses zu fokussieren. Das System kann die Daten von allen Gängen analysieren und diese Daten benutzen, um Verkehr anderer Bereiche des Kaufhauses zu identifizieren. Zum Beispiel können von der mobilen Vorrichtung von verschiedenen Kunden 207 gesammelte Daten Bereiche identifizieren, die im Kaufhaus viel Verkehr erhalten. Diese Daten können zum Platzieren bestimmter Produkte verwendet werden. Durch Benutzung der Daten kann ein Kaufhausmanager bestimmen, wo sich das Gebiet mit hohem Verkehr befindet, im Gegensatz zum Gebiet mit niedrigem Verkehr.
Die CSI-Daten können in Paketen übermittelt werden, die in drahtlosen Signalen anzutreffen sind. In einem Beispiel kann ein drahtloses Signal 221 durch einen Kunden 207 und seine zugeordnete mobile Vorrichtung erzeugt werden. Das System 200 kann die verschiedenen in dem drahtlosen Signal 221 gefundenen Informationen benutzen, um zu bestimmen, ob der Kunde 207 ein Angestellter ist, oder eine andere Eigenschaft. Der Kunde 207 kann auch über das Signal 222 mit der drahtlosen Einheit 203 kommunizieren. Ferner können die in dem drahtlosen Signal 221 gefundenen Paketdaten sowohl mit der drahtlosen Einheit 201 als auch der Einheit 203 kommunizieren. Die Paketdaten in dem drahtlosen Signal 221, 219 und 217 können benutzt werden, um Informationen in Bezug auf Bewegungsvorhersage und Verkehrsdaten in Bezug auf mobile Vorrichtungen von Angestellten, Kunden usw. bereitzustellen.
Während der drahtlose Sendeempfänger 201 CSI-Daten übermitteln kann, können andere Sensoren, Vorrichtungen, Sensor-Streams und Software benutzt werden. Diese Hardware-Sensorvorrichtungen umfassen beliebige oder eine Kombination von ökologischen Sensoren (Temperatur, Druck, Feuchtigkeit usw.), visuellen Sensoren (Überwachungskameras), Tiefensensoren, thermische Bildgeber, Lokalisierungsmetadaten (georäumliche Zeitreihen), Empfänger drahtloser Signale (Wi-Fi, Bluetooth, Ultrabreitband usw.) und akustische Sensoren (Vibration, Audio) oder beliebige andere Sensoren, die dafür ausgelegt sind, Informationen zu sammeln.
Die verschiedenen beschriebenen Ausführungsformen können auf einer verteilten Nachrichtenübermittlungs- und Anwendungsplattform begründet sein, was die Interkommunikation zwischen Hardware-Sensorvorrichtungen und Softwarediensten erleichtert. Die Ausführungsform kann mit den Hardwarevorrichtungen mittels NIC (Netzwerkschnittstellenkarten) oder ähnlicher anderer Hardware eine Schnittstelle bilden. Diese Hardware-Sensorvorrichtungen umfassen beliebige oder eine Kombination von ökologischen Sensoren (Temperatur, Druck, Feuchtigkeit usw.), visuellen Sensoren (Überwachungskameras), Tiefensensoren, thermische Bildgeber, Lokalisierungsmetadaten (georäumliche Zeitreihen), Empfänger drahtloser Signale (Wi-Fi, Bluetooth, Ultrabreitband usw.) und akustische Sensoren (Vibration, Audio) oder beliebige andere Sensoren, die dafür ausgelegt sind, Informationen zu sammeln. Die Signale von diesen Vorrichtungen können über die Plattform als Zeitreihendaten, Video-Stream und Audiosegmente gestreamt werden. Die Plattform kann mit den Softwarediensten mittels API (Anwendungsprogrammierschnittstellen) eine Schnittstelle bilden, wodurch diesen Softwarediensten ermöglicht wird, die Sensordaten zu konsumieren und in über mehrere Plattformen verstandene Daten zu transformieren. Einige Softwaredienste können die Sensordaten in Metadaten transformieren, die dann anderen Softwarediensten als Hilfs-„Ansichten“ oder -Informationen der Sensorinformationen bereitgestellt werden können. Die Softwarekomponente BIM (Building Information Model) exemplifiziert diese Funktionsweise, wobei Benutzerortsinformationen als Eingabe genommen und kontextualisierte georäumliche Informationen als Ausgabe bereitgestellt werden; dazu gehört die Nähe eines Benutzers zu interessierenden Objekten in der Szene, was für die räumlich-zeitliche Analyse, die durch den symbolischen Schlussfolgerungsdienst (der nachfolgend ausführlicher beschrieben wird) entscheidend ist. Andere Softwaredienste können Daten konsumieren, die sowohl unverarbeitet als auch transformiert sein können, um letztendliche Vorhersagen über Szenenereignisse zu treffen oder Umgebungs-Steuerbefehle zu erzeugen.
Bei verschiedenen Ausführungsformen kann jede Kommunikationsplattform, die solche Streaming-Möglichkeiten bereitstellt, verwendet werden. Das System kann auch Manipulation der resultierenden Sensordatenströme, prädiktive Modellierung auf der Basis dieser Sensordatenströme, Visualisierung von verwertbaren Informationen und räumlich und zeitlich robuste Klassifikation und Disambiguierung von Szenenereignissen erlauben. Für die Kommunikationsplattform, die dem System zugrunde liegt, kann bei einer Ausführungsform eine SAST-Plattform (Security and Safety Things) verwendet werden. Zusätzlich zu den erwähnten Einrichtungen kann die SAST-Plattform ein mobiles Anwendungsökosystem (Android) sein, zusammen mit einer API zur Bildung einer Schnittstelle zwischen diesen mobilen Apps und Sensorvorrichtungen und Softwarediensten. Es können für denselben Zweck andere Kommunikationsplattformen verwendet werden, darunter, aber ohne Beschränkung darauf, RTSP, XMPP und MQTT.
Eine Teilmenge der Softwaredienste im System kann für das Konsumieren und Benutzen von Metadaten über die Sensoren, den unverarbeiteten Sensordaten und Zustandsinformationen über das Gesamtsystem verantwortlich sein. Nachdem solche unverarbeiteten Sensordaten gesammelt sind, kann Vorverarbeitung erfolgen, um Rauschen herauszufiltern. Zusätzlich können diese Dienste die Sensordaten transformieren, um (i) Maschinenlernmerkmale zu erzeugen, die Szenenereignisse vorhersagen, und/oder (ii) Steuerbefehle, Warnungen oder Benachrichtigungen zu erzeugen, die sich direkt auf den Zustand der Umgebung auswirken werden.
Ein prädiktives Modell kann eine oder mehrere Sensormodalitäten als Eingabe benutzen, z.B. Videoeinzelbilder und Audiosegmente. Eine anfängliche Komponente des prädiktiven Modells (z.B. „Codierer“) kann unimodale Signaltransformationen an jeder Modalitätseingabe ausführen, wodurch so viele Zwischenmerkmale produziert werden, wie es zu Beginn Eingabemodalitäten gab. Diese Merkmale sind Zustandsmetriken - zusammengesetzt aus numerischen Werten - die jeweils eine funktionale Abbildung von einer Beobachtung auf eine Merkmalrepräsentation repräsentieren. Im Aggregat können alle Merkmalrepräsentationen der Eingaben als ein statistischer Einbettungsraum charakterisiert werden, der semantische Konzepte auf hoher Ebene als statistische Modi oder Cluster artikuliert. Eine Abbildung einer solchen Datenverarbeitungs-Pipeline ist in 3A und 3B gezeigt.
Die Einbettungsräume unimodaler Abbildungen können statistisch koordiniert sein (d.h. einer Bedingung unterzogen werden), um die zwei Modalitäten auszurichten oder um Beschränkungen von einer Modalität einer anderen aufzuerlegen.
Als Alternative können Merkmalmatrizen von den Modalitäten zusammenaddiert, verkettet oder zum Finden des äußeren Produkts zwischen ihnen (oder Äquivalenten) verwendet werden; die Ergebnisse dieser Operationen werden dann einer weiteren funktionalen Abbildung unterzogen - dieses Mal einem gemeinsamen Einbettungsraum. 3B zeigt die Datenverarbeitungs-Pipeline eines solchen Ansatzes. Unter Verwendung der Endkomponente des prädiktiven Modells (d.h. „Decodierer“) werden dann Samples aus diesen Einbettungsräumen (koordinierte Merkmale, gemeinsame Merkmale usw.) mit Kennzeichnungen gepaart und für statistisches Training und Schlussfolgerung signalabwärts, wie etwa Ereignisklassifizierung oder -kontrolle, verwendet.
Beispiele für die Erfassungs-, Prädiktions- und Steuertechnologie einer Ausführungsform können benutzt werden, wie etwa Belegungsschätzung mit auf Tiefe basierenden Sensoren, Objektdetektion unter Verwendung von Tiefensensoren, thermischer Komfort von Bewohnern von Innenräumen unter Verwendung von Körperforminformationen, HVAC-Steuerung auf der Basis von Belegungs-Traces, Koordination thermostatisch gesteuerter Lasten auf der Basis lokaler Energiebenutzung und des Netzes und Zeitreihenüberwachung/-vorhersage für die zukünftigen thermischen Innen-Umgebungsbedingungen. All diese Technologien können in ein neurosymbolisches Szenenverständnissystem integriert werden, um die Szenencharakterisierung zu ermöglichen oder um eine Änderung der Umgebung auf der Basis der klassifizierten Ereignisse zu bewirken. Viele solche statistische Modelle existieren als Softwaredienste im System, wobei die Eingaben, die Ausgaben und die Beschaffenheit der Zwischentransformationen durch die Zielereignistypen für Prädiktion bestimmt werden.
Um zeitlich robustes Szenenverständnis in dem beschriebenen System zu ermöglichen, kann das System ein semantisches Modell umfassen, das (1) eine Domänenontologie von Innenszenen („DoORS“) und (2) eine erweiterbare Menge von Schlussfolgerungsregeln zur Vorhersage von menschlichen Aktivitäten umfasst. Ein Server, wie etwa ein Apache-Jena-Fuseki-Server, kann benutzt werden und im Backend laufen, um (1) und (2) aufrechtzuerhalten: Empfangen von Daten auf Sensorbasis von den verschiedenen Sensoren (z.B. SAST-Android-Kameras), darunter BIM-Informationen (Building Information Model), wobei geeigneterweise der DoORS-Kenntnisgraph instanziiert wird, und Senden der Ergebnisse vordefinierter SPARQL-Abfragen zum Frontend, wo vorhergesagte Aktivitäten dem Live-Videofeed überlagert werden.
Als Erstes kann das System eine Datenmenge von Aktionen konstruieren, die in einem interessierenden Szenenkontext ausgeführt werden. Das System kann bestimmte Aktivitäten analysieren, die bezüglich vielfältiger Szenenkontexte unabhängig sind, wie etwa Flughäfen, Einkaufszentren, Einzelhandelsflächen und gastronomische Umgebungen. Interessierende Aktivitäten wären zum Beispiel „Essen“, „Arbeiten auf einem Laptop“, „Nehmen eines Objekts aus einem Regal“, „Bezahlen eines Artikels an der Kasse in einem Laden“ usw.
Ein zentraler Begriff kann bei einer Ausführungsform der der Ereignisszene sein, definiert als ein Subtyp einer Szene, fokussiert auf Ereignisse, die im selben räumlich-zeitlichen Fenster auftreten. Zum Beispiel kann „Nehmen einer Limodose aus dem Kühlschrank“ als Szene modelliert werden, die menschenzentrierte Ereignisse umfasst, wie (1) „vor dem Kühlschrank stehen“, (2) „Öffnen der Kühlschranktür“, (3) „den Arm ausstrecken“ und (4) „Ergreifen einer Limodose“. Offensichtlich sind diese Ereignisse zeitlich verbunden: (2), (3) und (4) geschehen sequenziell, während (1) für die gesamte Dauer der vorherigen Sequenz andauert (vor dem Kühlschrank stehen ist die Bedingung für die Interaktion mit den darin platzierten Artikeln). Auf diese Weise kann das System in der Lage sein, gemeinsam eine Szene als sinnvolle Sequenz (oder Zusammensetzung) einzelner atomischer Ereignisse zu modellieren.
Zusätzlich zu dem Repräsentieren von Ereignisszenen ist für die Ermöglichung von Vorhersage menschlicher Aktivität entscheidend, Beobachtungen auf der Basis von Sensordaten in die Ontologie aufzunehmen. Eine Schlüsselart von Beobachtung für den Benutzungsfall ist insbesondere auf dem Begriff der Distanz begründet; wenn eine Menge von Möbelstücken in einer Szene, deren jeweilige Orte a priori aus dem entsprechenden BIM-Modell bekannt sind, und Echtzeitorte von Personen in einer Szene gegeben sind, kann DoORS verwendet werden, um auf der Basis der Nähe auf die menschliche Aktivität zu schließen. Zum Beispiel wird eine Person, die in der Nähe einer Kaffeemaschine steht, mit einem ausgestreckten Arm, (wahrscheinlich) Kaffee kochen und sicher nicht in der weit entfernten Spüle Geschirr spülen.
Eine Beobachtung der Distanz involviert typischerweise mindestens zwei physische Entitäten (definiert in der Szenenontologie durch die Klasse interessierendes Merkmal) und ein Maß. Da OWL/RDF nicht ausreichend aussagekräftig ist, um n-äre Beziehungen zu definieren, kann in DoORS das System die Beziehung „Distanz“ verdinglichen. Zum Beispiel kann das System die Klasse „Person_Kaffeemaschine_Distanz“ erzeugen, deren Instanzen als Teilnehmer eine Person und eine Kaffeemaschine (beide mit einer eindeutigen ID versehen) aufweisen und deren Maß einem genauen numerischen Wert zugeordnet ist, der Meter bezeichnet. Verdinglichung ist ein vielfach verwendeter Ansatz zur Erzielung eines Kompromisses zwischen der Komplexität einer Domäne und der relativen Aussagefähigkeit von Ontologiesprachen. Bei DoORS läuft die Bewertung, wer zu einem gegebenen Zeitpunkt die der Kaffeemaschine nächste Person ist, oder ob eine Person einer Kaffeemaschine näher als anderen bekannten Elementen des Innenraums ist, auf das Identifizieren der Beobachtung von Distanz mit Mindestwert zwischen einer gegebenen Person und einem Möbelstück oder definierten Objekt hinaus. Man beachte, dass die kürzeste Distanz zwischen einer Person und einem Umgebungselement „0“ ist, was bedeutet, dass die (transformierten) 2D-Koordinaten eines Objekts in die Koordinaten des Umrandungskastens der betrachteten Person fallen.
Wie oben dargestellt, wird eine Distanz zwischen einer Person und einem Umgebungselement (wie etwa einem Möbelstück oder einem Objekt) beobachtet, in Metern gemessen und tritt zu einem bestimmten Zeitpunkt auf. Wenn mehrere Personen und Umgebungselemente in einer Szene anwesend sind, werden Distanzen immer als paarweise Beobachtungen repräsentiert. Naturgemäß sind zeitlich Eigenschaften der Beobachtung für Schlussfolgerung über Aktivitäten entscheidend: Beobachtungen sind Teile von Ereignissen, und eine Szene umfasst typischerweise eine Sequenz von Ereignissen. In diesem Kontext kann eine Szene wie „Person x macht eine Kaffeepause“ ein „Kochen eines Kaffees“, „Trinken des Kaffees“, „Spülen der Tasse in der Spüle“ und/oder „Stellen der Tasse in den Geschirrspüler“ umfassen, wobei jedes dieser Ereignisse von der unterschiedlichen Nähe der Person x mit Bezug auf eine „Kaffeemaschine“, einen „Tisch“, eine „Spüle“ und eine „Geschirrspülmaschine“ abhängen würden. Distanzen sind auf der relativen Position von Personen zentriert und ändern sich typischerweise in jedem Moment; bei DoORS werden Ereignisse/Aktivitäten aus einer Sequenz beobachteter Distanzen, wie in den obigen Beispielen, oder aus der Dauer einer beobachteten Distanz vorhergesagt.
Ergebnisse zeigen, dass bei Benutzung von zwei Erfassungsmodalitäten (Video- und räumliche Umgebungskenntnis) das System Softwaredienste aufbauen kann, die Szenenverständnismöglichkeiten bereitstellen, die über eine einfache Personendetektion aus Videoanalytik hinausgehen. Mehr benutzte Sensoren erzeugen somit zusätzliches Szenenverständnis. Durch direktes Arbeiten auf einem derartig eingerichteten System, zum Beispiel auf der SAST-Kameraplattform, kann das System rasche Erstellung von Prototypen und eine schnelle Übertragung der Ergebnisse auf verschiedene Benutzungsfälle ermöglichen. Während eine Ausführungsform einen Benutzungsfall intelligenter Gebäude betrifft, bleibt der Ansatz auf viele andere Gebiete anwendbar. 3A und 3B zeigen zwei mögliche Datenverarbeitungs-Pipelines des vorgeschlagenen Ansatzes.
3A ist eine erste Ausführungsform einer Datenverarbeitungs-Pipeline, die dafür ausgelegt ist, eine multimodale Szene zu verstehen. 3B ist eine alternative Ausführungsform einer Datenverarbeitungs-Pipeline, die Fusionierung von Sensordaten benutzt. Wie in 3A gezeigt, kann ein System eine Datenverarbeitungs-Pipeline für multimodales Szenenverständnis umfassen. Das System kann Informationen von mehreren Sensoren empfangen. In der nachfolgend gezeigten Ausführungsform werden zwei Sensoren benutzt, es können jedoch mehrere Sensoren benutzt werden. Bei einer Ausführungsform kann der Sensor 301 ein akustisches Signal beschaffen, während der Sensor 302 Bilddaten beschaffen kann. Bilddaten können Standbilder oder Videobilder umfassen. Die Sensoren können ein beliebiger Sensor sein, wie etwa ein Lidar-Sensor, ein Radarsensor, eine Kamera, eine Videokamera, ein Sonar, ein Mikrofon oder ein(e) beliebige(r) der oben beschriebenen Sensoren oder Hardware usw.
In Block 305 und Block 307 kann das System Vorverarbeitung der Daten involvieren. Die Vorverarbeitung der Daten kann Umsetzungen der Daten in eine gleichförmige Struktur oder Klasse umfassen. Die Vorverarbeitung kann über Onboard-Verarbeitung oder einen Offboard-Prozessor erfolgen. Die Vorverarbeitung der Daten kann dabei helfen, die Verarbeitung, das Maschinenlernen oder den Fusionierungsprozess in Bezug auf das System zu erleichtern, indem bestimmte Daten, Datenstrukturen oder andere Daten, die für die Verarbeitung vorbereitet werden müssen, aktualisiert werden.
In Block 309 und 311 kann das System einen Codierer benutzen, um die Daten zu codieren und Merkmalextraktion anzuwenden. Die codierten Daten oder Merkmalextrakte können in Block 317 zu einer räumlich-zeitlichen Schlussfolgerungsmaschine gesendet werden. Der Codierer kann ein Netz (FC, CNN, RNN usw.) sein, das die Eingabe (z.B. verschiedene Sensordaten oder vorverarbeitete Sensordaten) nimmt und eine Merkmalabbildung/einen Merkmalvektor/einen Merkmaltensor ausgibt. Diese Merkmalvektoren können die Informationen, die Merkmale, die die Eingabe repräsentieren, halten. Jedes Zeichen der Eingabe kann als die Eingabe in das ML-Modell/den Codierer geleitet werden, indem das Zeichen in eine One-Hot-Vektordarstellung umgesetzt wird. Im letzten Zeitschritt des Codierers wird die letztendliche verborgene Repräsentation aller vorherigen Eingaben als die Eingabe zu einem Decodierer geleitet.
In Block 313 und 315 kann das System ein Maschinenlernmodell oder einen Decodierer zum Decodieren der Daten benutzen. Der Decodierer kann benutzt werden, um Metadaten an eine zeitliche Schlussfolgerungsmaschine 317 auszugeben. Der Decodierer kann ein Netz (gewöhnlich dieselbe Netzstruktur wie der Codierer, aber in entgegengesetzter Orientierung) sein, das den Merkmalvektor von dem Codierer annimmt und die beste nächste Übereinstimmung mit der tatsächlichen Eingabe oder beabsichtigten Ausgabe gibt. Das Decodierermodell kann in der Lage sein, einen Zustandsrepräsentationsvektor zu decodieren, und gibt die Wahrscheinlichkeitsverteilung jedes Zeichens. Eine Softmax-Funktion kann verwendet werden, um den Wahrscheinlichkeitsverteilungsvektor für jedes Zeichen zu erzeugen. Dies kann wiederum dabei helfen, ein vollständiges transkribiertes Wort zu erzeugen. Die Metadaten können benutzt werden, um beim Szenenverständnis in einem multimodalen Szenario zu helfen, indem Informationen angegeben werden, die von mehreren Sensoren erfasst werden, die zusammen beim Angeben einer Szene helfen können.
Die räumlich-zeitliche Schlussfolgerungsmaschine 317 kann dafür ausgelegt sein, Beziehungen multimodaler Sensoren zu erfassen, um dabei zu helfen, verschiedene Szenen und Szenarien zu bestimmen. Somit kann die zeitliche Schlussfolgerungsmaschine 317 die Metadaten zur Erfassung solcher Beziehungen benutzen. Die zeitliche Schlussfolgerungsmaschine 317 kann dann das Modell mit dem aktuellen Ereignis füttern und führt Vorhersage durch und gibt Menge von vorhergesagten Ereignissen und Likelihood-Wahrscheinlichkeiten aus. Somit kann die zeitliche Schlussfolgerungsmaschine in der Lage sein, große Mengen von Daten (z.B. zeitgestempelte unverarbeitete Daten) zu sinnvollen Konzepten auf verschiedenen Abstraktionsebenen zu deuten. Dies kann Abstraktion einzelner Zeitpunkte auf Longitudinalzeitintervalle, Berechnen von Trends und Gradienten aus Reihen von konsequenten Messungen und Detektion verschiedener Arten von Mustern, die ansonsten in den unverarbeiteten Daten verborgen sind, umfassen. Die zeitliche Schlussfolgerungsmaschine kann mit der Domänenontologie 319 (optional) arbeiten. Die Domänenontologie 319 kann eine Ontologie sein, die eine Repräsentation, formale Benennung und Definition der Kategorien, Eigenschaften und Relationen zwischen den Konzepten, Daten und Entitäten, die eine, viele oder alle Domänen des Diskurses substanziieren, einschließt. Eine Ontologie ist also eine Art des Zeigens der Eigenschaften eines Subjektbereichs, und wie sie zusammenhängen, indem eine Menge von Konzepten und Kategorien definiert wird, die das Subjekt repräsentieren.
Als Nächstes kann die zeitliche Schlussfolgerungsmaschine 317 in Block 321 eine Szenenfolgerung ausgeben. Die Szenenfolgerung kann Aktivitäten erkennen, Steuerbefehle bestimmen oder verschiedene Ereignisse, die von den Sensoren aufgenommen werden, kategorisieren. Ein Beispiel für eine Szene wäre „Nehmen einer Limodose aus dem Kühlschrank“, was durch mehrere menschenzentrierte Ereignisse umrissen werden kann, die durch verschiedene Sensoren gesammelt werden. Zum Beispiel kann das vorherige Beispiel „Nehmen einer Limodose aus dem Kühlschrank“ als Szene modelliert werden, die menschenzentrierte Ereignisse umfasst, wie (1) „vor dem Kühlschrank stehen“, (2) „Öffnen der Kühlschranktür“, (3) „den Arm ausstrecken“ und (4) „Ergreifen einer Limodose“. Offensichtlich sind diese Ereignisse zeitlich verbunden: (2), (3) und (4) geschehen sequenziell, während (1) für die gesamte Dauer der vorherigen Sequenz andauert (vor dem Kühlschrank stehen ist die Bedingung für die Interaktion mit den darin platzierten Artikeln). Auf diese Weise kann das System in der Lage sein, gemeinsam eine Szene als sinnvolle Sequenz (oder Zusammensetzung) einzelner atomischer Ereignisse zu modellieren. Somit kann das System verschiedene Ereignisse im Hinblick auf einen Schwellenzeitraum analysieren und parsen, mit anderen Ereignissen vergleichen und kontrastieren, die sie identifizieren, und eine Szene oder Sequenz im Hinblick auf das Ereignis bestimmen. Wenn etwas eine gesamte Dauer andauert, kann die Systemanforderung somit darin bestehen, dass die Kameras und Sensoren die Sensordaten benutzen, um das erste Ereignis („Stehen vor dem Kühlschrank“) zu identifizieren, das verglichen mit den anderen Ereignissen, Ereignisse 2-4, für einen gesamten Zeitraum stattfinden muss. Ferner kann das System die Sequenz von Ereignissen analysieren, um eine bestimmte Szene zu identifizieren.
In Block 323 kann das System Visualisierung und Steuerung ausgeben. Wenn zum Beispiel das System eine spezifische Art von Szene identifiziert, kann es Umgebungs-Steuerbefehle erzeugen. Solche Befehle wären zum Beispiel die Bereitstellung von Warnungen oder das Beginnen mit dem Aufzeichnen von Daten auf der Basis der Art von Szene, die identifiziert wird. Bei einer anderen Ausführungsform kann ein Hinweis ausgegeben werden, kann die Aufzeichnung beginnen usw.
3B ist eine alternative Ausführungsform einer Datenverarbeitungs-Pipeline. Die alternative Ausführungsform kann zum Beispiel einen Prozess umfassen, um es einem Fusionsmodul 320 zu erlauben, die Merkmale von der Merkmalextraktion bzw. dem Decodierer zu erhalten. Das Fusionsmodul kann dann alle Daten fusionieren, um eine Datenmenge zu erzeugen, die einem einzelnen Maschinenlernmodell/Decodierer zuzuführen ist.
4 ist ein Beispiel für ein Szenenverständnis, das mehrere Personen umfasst. In 4 kann das Szenario mehrere Personen (z.B. im Fall der DoORS-Klasse „Kunde“) umfassen, eine läuft an einem Tisch vorbei und eine andere wäscht im Waschbecken ihre Hände. Das System kann korrekt identifizieren, dass die Person, deren Umrandungskasten den Umrandungskasten des Waschbeckens enthält (Distanz = „0,0“), „wäscht“ (Einzelfall der DoORS-Klasse „Aktivität“) und kann auch schließen, dass, da kein Objekt (Einzelfall der DoORS-Klasse „Produkt“) detektiert wird, diese Art von Waschaktivität zu der DoORS-Klasse „KundeAktivitätKeinPRodukt“ (z.B. unten) angehört. Der Schlussfolgerungsprozess wird durch eine Abfrage eingeleitet, die die auf Distanz basierenden Maße zwischen Personen und Objekten in der Szene vergleicht und auf Regel basierende Schlussfolgerungen auslöst, um die wahrscheinlichsten Aktivitäten (z.B. oben rechts) vorherzusagen. Man beachte, dass dieses Beispiel aus einer Demo des Systems erzeugt wurde, die in dem Kontext gezeigt hat, dass das System die Person neben dem Tisch die „geht“, als irrelevant klassifizieren könnte und dass dementsprechend Aktivität in der Szene ohne die Unterstützung von auf Kenntnis basierender Schlussfolgerung erkannt werden kann, sondern durch Benutzung von Maschinenlernen.
Die hierin offenbarten Prozesse, Verfahren oder Algorithmen können an ein Verarbeitungsgerät, eine Steuerung oder einen Computer geliefert/darin implementiert werden, was jegliche existierende programmierbare elektronische Steuereinheit oder fest zugeordnete elektronische Steuereinheit beinhalten kann. In ähnlicher Weise können die Prozesse, Verfahren oder Algorithmen als Daten und Anweisungen gespeichert werden, die durch eine Steuerung oder einen Computer in vielen Formen ausgeführt werden können, einschließlich, aber nicht beschränkt auf Informationen, die dauerhaft auf nicht beschreibbaren Speicherungsmedien, wie zum Beispiel ROM-Geräten, gespeichert sind, und Informationen, die veränderbar auf beschreibbaren Speicherungsmedien, wie zum Beispiel Disketten, Magnetbänder, CDs, RAM-Geräte und anderen magnetischen und optischen Medien gespeichert sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Softwareobjekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen ganz oder teilweise durch Verwenden geeigneter Hardware-Komponenten, wie zum Beispiel Application-Specific-Integrated-Circuits (ASIC), Field-Programmable-Gate-Arrays (FPGA), Statusautomatik, Steuerungen, oder anderer Hardwarekomponenten oder Geräte, oder einer Kombination von Hardware-, Software- und Firmware-Komponenten ausgeführt werden.
Während beispielhafte Ausführungsformen oben beschrieben sind, ist es nicht beabsichtigt, dass diese Ausführungsformen alle möglichen durch die Ansprüche umfassten Formen beschreiben. Die in der Spezifikation verwendeten Worte sind eher beschreibende als einschränkende Worte, und es versteht sich, dass verschiedene Änderungen gemacht werden können, ohne von dem Geist und Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die nicht explizit beschrieben oder veranschaulicht sein können. Während verschiedene Ausführungsformen so beschrieben worden sein könnten, dass sie Vorteile bieten oder gegenüber anderen Ausführungsformen oder Implementierungen des bisherigen Standes der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt werden, erkennen Durchschnittsfachleute, dass ein oder mehrere Merkmale oder Eigenschaften beeinträchtigt werden können, um die gewünschten Gesamtsystemattribute zu erreichen, die von der spezifischen Anwendung und Implementierung abhängen. Diese Attribute können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Marktfähigkeit, Aussehen, Verpackung, Größe, Wartungsfreundlichkeit, Gewicht, Herstellbarkeit, einfache Montage usw., beinhalten, sind jedoch nicht darauf beschränkt. In dem Maße, in dem jegliche Ausführungsformen in Bezug auf eine oder mehrere Eigenschaften als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des bisherigen Standes der Technik beschrieben werden, liegen diese Ausführungsformen nicht außerhalb des Umfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims

System zur Bildverarbeitung, umfassend: einen ersten Sensor, ausgelegt zum Erfassen mindestens eines oder mehrerer Bilder; einen zweiten Sensor, ausgelegt zum Erfassen von Toninformationen; einen Prozessor in Kommunikation mit dem ersten Sensor und zweiten Sensor, wobei der Prozessor programmiert ist zum Empfangen des einen oder der mehreren Bilder und der Toninformationen; Extrahieren eines oder mehrerer Datenmerkmale, die den Bildern und Toninformationen zugeordnet sind, unter Verwendung eines Codierers; Ausgeben von Metadaten über einen Decodierer an eine räumlich-zeitliche Schlussfolgerungsmaschine, wobei die Metadaten unter Verwendung des Decodierers und des einen oder der mehreren Datenmerkmale abgeleitet werden; Bestimmen einer oder mehrerer Szenen unter Verwendung der räumlich-zeitlichen Schlussfolgerungsmaschine und der Metadaten; und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
System nach Anspruch 1, wobei sich die zeitliche Schlussfolgerungsmaschine in Kommunikation mit einer Domänenontologiedatenbank befindet und die Domänenontologiedatenbank zur Bestimmung der einen oder mehreren Szenen benutzt.
System nach Anspruch 2, wobei die Domänenontologiedatenbank Informationen umfasst, die unter Verwendung der Metadaten die eine oder mehreren Szenen angeben.
System nach Anspruch 2, wobei die Domänenontologiedatenbank in einem mit dem Prozessor in Kommunikation befindlichen entfernten Server gespeichert wird.
System nach Anspruch 1, wobei das System einen dritten Sensor umfasst, der dafür ausgelegt ist, Temperaturinformationen zu erfassen, und der Prozessor sich mit dem dritten Sensor in Kommunikation befindet und die Temperaturinformationen empfängt und ein oder mehrere zugeordnete Datenmerkmale aus den Temperaturinformationen extrahiert.
System nach Anspruch 1, wobei der Prozessor ferner programmiert ist zum Fusionieren des einen oder der mehreren den Bildern und Toninformationen zugeordneten Datenmerkmale vor dem Ausgeben der Metadaten.
System nach Anspruch 1, wobei der Prozessor ferner programmiert ist zum getrennten Extrahieren des einen oder der mehreren den Bildern und Toninformationen zugeordneten Datenmerkmale auf mehrere Decodierer.
System nach Anspruch 1, wobei der Decodierer einem Maschinenlernnetz zugeordnet ist.
System zur Bildverarbeitung, umfassend: einen ersten Sensor, ausgelegt zum Erfassen einer ersten Menge von Informationen, die eine Umgebung angeben; einen zweiten Sensor, ausgelegt zum Erfassen einer zweiten Menge von Informationen, die die Umgebung angeben; einen Prozessor in Kommunikation mit dem ersten Sensor und dem zweiten Sensor, wobei der Prozessor programmiert ist zum Empfangen der ersten und zweiten Menge von Informationen, die die Umgebung angeben; Extrahieren eines oder mehrerer Datenmerkmale, die den Bildern und Toninformationen zugeordnet sind, unter Verwendung eines Codierers; Ausgeben von Metadaten über einen Decodierer an eine räumlich-zeitliche Schlussfolgerungsmaschine, wobei die Metadaten unter Verwendung des Decodierers und des einen oder der mehreren Datenmerkmale abgeleitet werden; Bestimmen einer oder mehrere Szenen unter Verwendung der räumlich-zeitlichen Schlussfolgerungsmaschine und der Metadaten; und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
System nach Anspruch 9, wobei die erste Menge von Informationen und die zweite Menge von Informationen von verschiedenen Arten von Daten sind.
System nach Anspruch 9, wobei der erste Sensor einen Temperatursensor, Drucksensor, Vibrationssensor, Feuchtigkeitssensor oder Kohlendioxidsensor umfasst.
System nach Anspruch 9, wobei der Prozessor ferner programmiert ist zum Vorverarbeiten der ersten und zweiten Menge von Informationen, die die Umgebung angeben, vor dem Extrahieren des einen oder der mehreren Datenmerkmale unter Verwendung des Codierers.
System nach Anspruch 9, wobei das System ein Fusionsmodul umfasst, das benutzt wird, um eine Datenmenge aus der ersten Menge von Informationen und der zweiten Menge von Informationen zu fusionieren.
System nach Anspruch 13, wobei die Metadaten aus der Fusionsdatenmenge extrahiert werden.
System zur Bildverarbeitung, umfassend: einen ersten Sensor, ausgelegt zum Erfassen einer ersten Menge von Informationen, die eine Umgebung angeben; einen zweiten Sensor, ausgelegt zum Erfassen einer zweiten Menge von Informationen, die die Umgebung angeben; einen Prozessor in Kommunikation mit dem ersten Sensor und dem zweiten Sensor, wobei der Prozessor programmiert ist zum Empfangen der ersten Menge und der zweiten Menge von Informationen, die die Umgebung angeben; Extrahieren eines oder mehrerer Datenmerkmale, die der ersten Menge und zweiten Menge von Informationen, die die Umgebung angeben, zugeordnet sind; Ausgeben von Metadaten, die ein oder mehrere Datenmerkmale angeben; Bestimmen einer oder mehrerer Szenen unter Verwendung der Metadaten; und Ausgeben eines Steuerbefehls als Reaktion auf die eine oder mehreren Szenen.
System nach Anspruch 15, wobei das System einen Decodierer umfasst, der dafür ausgelegt ist, ein Maschinenlernnetz zu benutzen.
System nach Anspruch 15, wobei die erste Menge von Informationen und die zweite Menge von Informationen von verschiedenen Arten von Daten sind.
System nach Anspruch 15, wobei der erste Sensor einen Temperatursensor, Drucksensor, Vibrationssensor, Feuchtigkeitssensor oder Kohlendioxidsensor umfasst.
System nach Anspruch 15, wobei das System ein Fusionsmodul umfasst, das benutzt wird, um eine Fusionsdatenmenge aus der ersten Menge von Informationen und der zweiten Menge von Informationen zu fusionieren.
System nach Anspruch 19, wobei die Fusionsdatenmenge zu einem Maschinenlernmodell gesendet wird, um der Fusionsdatenmenge zugeordnete Metadaten auszugeben.