DE112019000392T5

DE112019000392T5 - Verfahren und vorrichtung zum betreiben einer mobilen kamera mit geringem stromverbrauch

Info

Publication number: DE112019000392T5
Application number: DE112019000392.5T
Authority: DE
Inventors: David Moloney; Alireza Dehghani
Original assignee: Movidius Ltd Netherland
Current assignee: Movidius Ltd Netherland
Priority date: 2018-01-12
Filing date: 2019-01-09
Publication date: 2020-10-22
Also published as: US10574890B2; CN111919433A; EP3738304B1; US20230237791A1; US20190222756A1; ES2934084T3; EP4125265A2; US20220174215A1; US11240430B2; EP4125265A3; EP3738304A1; US11625910B2; CN111919433B; KR20200124648A; WO2019137967A1; US20200396383A1; CN115996315A

Abstract

Eine beispielhafte mobile Kamera enthält ein erstes faltendes neuronales Netzwerk zum Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst ist; eine Zustandsüberführungseinrichtung zum Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion darauf, dass das erste faltende neuronale Netzwerk das erste Merkmal erkennt, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; ein zweites faltendes neuronales Netzwerk zum Erkennen eines zweiten Merkmals in zweiten Sensordaten im zweiten Merkmalerfassungszustand; und eine Kommunikationsschnittstelle zum Senden von ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät.

Description

GEBIET DER OFFENBARUNG
Diese Offenbarung bezieht sich im Allgemeinen auf mobile Datenverarbeitung und insbesondere auf Verfahren und eine Vorrichtung zum Betreiben einer mobilen Kamera mit geringem Stromverbrauch.
HINTERGRUND
Digitalkameras sind häufig in tragbare mobile Computergeräte wie Mobiltelefone und tragbare Mediengeräte integriert. Digitalkameras sind häufig auch in andere Arten von Computergeräten wie Tablet- Computergeräte und Laptops integriert. Solche Digitalkameras werden von den Benutzern betrieben, um digitale Bilder und Videos aufzunehmen. Digitale Bilder und Videos können lokal in einem Speicher des Computergeräts gespeichert werden, in das die Digitalkamera integriert ist, oder sie können über ein öffentliches Netzwerk wie das Internet oder über ein privates Netzwerk an einen netzzugänglichen Speicherort gesendet werden. In jedem Fall kann auf die digitalen Bilder und Videos anschließend von den Urhebern dieser Bilder und Videos oder von anderen Personen mit Zugriffsrechten zugegriffen werden.
Figurenliste

1A veranschaulicht eine beispielhafte mobile Kamera, die in Übereinstimmung mit Lehren dieser Offenbarung implementiert ist.
1B veranschaulicht eine beispielhafte Hardwareplattform, die zum Implementieren der in 1A gezeigten mobilen Kamera verwendet werden kann.
2 veranschaulicht beispielhafte Mobilfunkgeräte in drahtloser Kommunikation mit entsprechenden mobilen Kameras und einem Cloudsystem.
3 veranschaulicht eine beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen zur Verwendung mit den mobilen Kameras von 1A, 1 B und 2.
4 veranschaulicht ein Liniendiagramm mit beispielhaftem Stromverbrauch der mobilen Kameras von 1A, 1B und 2 bei den Betriebszuständen mit unterschiedlichen Stromverbrauchsstufen von 3.
5A und 5B zeigen eine beispielhafte Implementierung der Bildverarbeitungseinheit (Vision Processing Unit, VPU) von 1A und 1B, die in den mobilen Kameras von 1A, 1 B und 2 verwendet werden kann, um in den Betriebszuständen mit unterschiedlichen Stromverbrauchsstufen von 3 in Übereinstimmung mit Lehren dieser Offenbarung zu arbeiten.
5C zeigt einen beispielhaften Zustandsreihenfolgekonfigurationseinrichtung, die mit der in 5A und 5B dargestellten VPU verwendet werden kann, um die Reihenfolge der Betriebszuständen mit unterschiedlichen Stromverbrauchsstufen von 3 zu konfigurieren.
6 veranschaulicht ein Flussdiagramm, das beispielhafte maschinenlesbare Anweisungen repräsentiert, die ausgeführt werden können, um die mobilen Kameras von 1A, 1 B und 2 und/oder die VPU 108 von 1A, 1B, 5A, 5B und 5C für Betrieb in den Betriebszuständen mit unterschiedlichen Stromverbrauchsstufen von 3 zu implementieren.
7 veranschaulicht eine Prozessorplattform, die in der Lage ist, die maschinenlesbaren Befehle von 6 auszuführen, um die mobilen Kameras von 1A, 1B und 2 und/oder die VPU 108 von 1A, 1B, 5A, 5B und 5C für Betrieb in den Betriebszuständen mit unterschiedlichen Stromverbrauchsstufen von 3 zu implementieren.

Die Figuren sind nicht maßstabsgetreu. Stattdessen können aus Gründen der Übersichtlichkeit verschiedene veranschaulichte Aspekte in den Zeichnungen vergrößert sein. Im Allgemeinen werden in den Zeichnungen und der zugehörigen schriftlichen Beschreibung dieselben Bezugszeichen verwendet, um auf gleiche oder ähnliche Teile zu verweisen.
DETAILLIERTE BESCHREIBUNG
Die hier offenbarten beispielhaften Verfahren und Vorrichtungen betreiben mobile Kameras mit geringem Stromverbrauch. Die hier offenbarten Beispiele können mobile Kameras betreiben, die begrenzte Stromquellen aufweisen, und gleichzeitig zahlreiche Verwendungsmöglichkeiten der mobilen Kameras für Produktivität, Unterhaltung und/oder als Technologien, die Benutzer bei ihren täglichen Aktivitäten unterstützen (z.B. unterstützende Technologien), ermöglichen. Die hier offenbarten beispielhaften mobilen Kameras arbeiten in einem Merkmalsüberwachungsmodus mit geringem Stromverbrauch und einem oder mehreren Aktiv-Modi mit höherem Stromverbrauch. Der Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch ermöglicht es einer mobilen Kamera, die Eigenschaften ihrer Umgebung zu überwachen, während sie wenig Strom verbraucht (z.B. ~2 Milliwatt oder weniger). Im Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch überwacht die Umgebungsanalyselogik einer beispielhaften mobilen Kamera die Umgebungseigenschaften, um Merkmale von Interesse zu identifizieren, die Stimuli darstellen, die den Übergang der mobilen Kamera in einen Aktiv-Modus mit höherem Stromverbrauch rechtfertigen, in dem die mobile Kamera zusätzliche Arten von Umgebungseigenschaften überwachen und/oder eine oder mehrere visuelle Aufnahmen mit hoher Qualität machen kann. Wie hier verwendet, sind „visuelle Aufnahmen“ von einer oder mehreren Kameras aufgenommene Bilder und/oder Videos. In den hier offenbarten Beispielen, die die Verarbeitung einer visuellen Aufnahme beinhalten, kann die visuelle Aufnahme eine Einzelbildaufnahme oder ein Frame sein, das Teil einer Folge von Frames einer Videoaufnahme ist.
Beispielhafte Umgebungseigenschaften, die von hier offenbarten, mobilen Kameras überwacht werden, sind visuelle Eigenschaften, Audio-Eigenschaften und/oder Bewegungseigenschaften. Um solche Umgebungseigenschaften zu überwachen, sind die hier offenbarten beispielhaften mobilen Kameras mit mehreren Sensoren versehen. Beispielhafte Sensoren enthalten Kameras, Mikrofone und/oder Bewegungsmelder. Es können auch andere Arten von Sensoren bereitgestellt werden, ohne vom Umfang dieser Offenbarung abzuweichen. Durch Verwendung eines Merkmalsüberwachungsmodus mit geringem Stromverbrauch zum Überwachen von Umgebungseigenschaften ermöglichen die hier offenbarten Beispiele, dass mobile Kameras über lange Zeiträume (z.B. Tage oder Wochen) bei relativ geringer Batterieentladung arbeiten.
Die hier offenbarten Beispiele ermöglichen es solchen stromsparenden mobilen Kameras auch, auf intelligente Weise zu erfassen, wann sie aufgrund eines oder mehrerer erfassten Umgebungsstimuli in einen oder mehrere Aktiv-Modi mit höherem Stromverbrauch übergehen müssen. Dass heißt, die hier offenbarten Beispiele identifizieren einige Umgebungsstimuli als Auslösemerkmale, die, wenn sie erfasst werden, anzeigen, dass eine mobile Kamera in einen Aktiv-Modus mit höherem Stromverbrauch übergehen muss, um zusätzliche Funktionalität der mobilen Kamera zu ermöglichen. Beispielsweise kann eine mobile Kamera in einem Überwachungsmodus mit geringstem Stromverbrauch ihr Bewegungserfassungs-Subsystem und/oder ihr Audio-Überwachungs-Subsystem mit Strom versorgen, während andere Sensor-Subsysteme in einem Standby-Modus mit geringem Stromverbrauch verbleiben. Beim Erfassen eines Bewegungs-Auslösemerkmals (z.B. eines Bewegungsumfangsschwellwerts) und/oder eines Audio-Auslösemerkmals (z.B. eines Schlüsselworts, eines bestimmten Geräuschs, eines Tiergeräuschs, eines Fahrzeuggeräuschs, eines menschlichen Geräuschs, eines Haushaltsgeräuschs, eines industriellen Geräuschs usw.) kann die mobile Kamera in einen Modus mit nächsthöherem Stromverbrauch übergehen, in dem eine Kamera mit niedriger Auflösung mit Strom versorgt wird, um visuelle Aufnahmen mit niedriger Auflösung aufzunehmen. Die mobile Kamera kann dann die visuellen Aufnahmen mit niedriger Auflösung mit Hilfe von maschinellen Bildverarbeitungsprozessen analysieren, um visuelle Auslösemerkmale (z.B. Gesichter, Objekte, Fahrzeuge usw.) zu überwachen. Beim Erfassen eines visuellen Auslösemerkmals kann die mobile Kamera in einen Modus mit nächsthöherem Stromverbrauch übergehen, in dem ein oder mehrere zusätzliche Subsysteme der mobilen Kamera aktiviert werden. In einigen Beispielen kann der Aktiv-Modus mit höchstem Stromverbrauch der mobilen Kamera darin bestehen, dass eine oder mehrere Kameras mit hoher Auflösung in die Lage versetzt werden, visuelle Aufnahmen mit hoher Qualität aufzunehmen. Auf diese Weise ermöglichen die hier offenbarten Beispiele, dass mobile Kameras in stromverbrauchsbeschränkten Konfigurationen für lange Zeiträume arbeiten, während die mobilen Kameras intermittierend in Modi mit höherem Stromverbrauch arbeiten, um Daten mit hoher Qualität wie visuelle Aufnahmen mit hoher Auflösung ihrer Umgebung aufzunehmen.
1A stellt eine beispielhafte mobile Kamera 100 dar, die eine Mehrzahl von beispielhaften Kameras 102, eine beispielhafte Trägheitsmesseinheit (Interial Measurement Unit, IMU) 104, einen beispielhaften Audio-Codec (AC) 106, eine beispielhafte Bildverarbeitungseinheit (Vision Processing Unit, VPU) 108 und eine beispielhafte drahtlose Kommunikationsschnittstelle 110 enthält. 1B ist eine beispielhafte Hardwareplattform, die zum Implementieren der mobilen Kamera 100 von 1A verwendet werden kann. Die beispielhafte mobile Kamera 100 kann eine tragbare Kamera und/oder eine montierbare Kamera sein. Eine tragbare Kamera kann von einer Person getragen oder mitgeführt werden. Die Person kann die tragbare Kamera z.B. an ein Hemd oder Revers heften oder anbringen, die tragbare Kamera als Teil einer Brille tragen, die tragbare Kamera an einem Umhängeband um den Hals hängen, die tragbare Kamera mit einem Gürtelclip am Gürtel geklemmt, die tragbare Kamera an einer Tasche (z.B. einer Handtasche, einem Rucksack, einer Aktentasche usw.) geklemmt oder anbringen und/oder die tragbare Kamera mit jeder anderen geeigneten Technik tragen oder mitführen. In einigen Beispielen kann eine tragbare Kamera an einem Tier (z.B. einem Haustier, einem Zootier, einem Wildtier usw.) geklemmt oder angebracht werden. Eine montierbare Kamera kann in jeder geeigneten Weise an Robotern, Drohnen oder stationären Objekten montiert werden, um ihre Umgebung zu überwachen.
Die hier offenbarten beispielhaften mobilen Kameras implementieren Eyes On Things (EOT) -Geräte, die mit einer EOT-Plattform zusammenarbeiten, mit der Computer (z.B. Server, Client-Geräte, Appliances usw.) über das Internet über Anwendungsprogrammierschnittstellen (Application Programming Interfaces, APIs) kommunizieren können, um auf visuelle Aufnahmen von Umgebungen, Personen, Objekten, Fahrzeugen usw. zuzugreifen. Zum Beispiel kann ein Clouddienst (z.B. bereitgestellt durch das Cloudsystem 206) eine solche EOT-Plattform implementieren, um die visuellen Aufnahmen zu sammeln und/oder den Zugang zu ihnen zu ermöglichen. In einigen Beispielen können solche visuellen Aufnahmen das Ergebnis der maschinellen Bildverarbeitung durch die EOT-Geräte und/oder die EOT-Plattform sein, um Merkmale in den visuellen Aufnahmen zu extrahieren, zu identifizieren, zu modifizieren usw., um diese visuellen Aufnahmen nützlicher zum Erzeugen von Informationen von Interesse zu den Gegenständen der visuellen Aufnahmen zu machen.
Die beispielhaften Kameras 102 sind zum Aufnehmen visueller Aufnahmen (z.B. Bilder und/oder Video) vorgesehen und können z.B. mit einem oder mehreren Bildsensor(en) mit komplementärem Metalloxid-Halbleiter (Complementary Metal Oxide Semiconductor, CMOS) und/oder einem oder mehreren Bildsensor(en) mit ladungsgekoppeltem Gerät (Charge-Coupled Device, CCD) implementiert werden. In dem dargestellten Beispiel der 1A und 1B enthält die Mehrzahl der Kameras 102 zwei Kameras mit niedriger Auflösung 102a, b und zwei Kameras mit hoher Auflösung 102c, d. In anderen Beispielen können jedoch einige oder alle der Kameras 102 eine niedrige Auflösung und/oder einige oder alle eine hohe Auflösung aufweisen.
Um kurz auf das Beispiel von 1B zu kommen: Die Kameras mit niedriger Auflösung 102a, b sind mit der VPU 108 über eine Steckkarte 152 in Schaltung, die als eine Erweiterungsplatine dient, über die weitere Sensoren mit der VPU 108 verbunden werden können. Ein beispielhafter Multiplexer 154 ist zwischen der VPU 108 und der Steckkarte 152 in Schaltung, um der VPU 108 zu ermöglichen, auszuwählen, welcher Sensor auf der Steckkarte 152 mit Strom versorgt werden soll und/oder mit welchem Sensor sie kommunizieren soll. Auch in dem dargestellten Beispiel von 1B ist die Kamera mit hoher Auflösung 102c direkt mit der VPU 108 in Schaltung. Die Kameras mit niedriger Auflösung 102a, b und die Kamera mit hoher Auflösung 102c können über jede geeignete Schnittstelle mit der VPU verbunden sein, z.B. über eine Mobile Industry Processor Interface (MIPI) - Kameraschnittstelle (z.B. die Schnittstellenstandards MIPI CSI-2 oder MIPI CSI-3), die von der MIPI® Alliance Camera Working Group definiert wurden, eine serielle Peripherieschnittstelle (Serial Peripheral Interface, SPI), eine serielle I2C-Schnittstelle, eine Universal Serial Bus (USB) -Schnittstelle, eine universelle asynchrone Empfangs-/Sende (Universal Asychronous Receive/Transmit, UART) - Schnittstelle usw. Die Kamera mit hoher Auflösung 102d des dargestellten Beispiels wird als Low-Voltage Differential Signaling (LVDS) -Kamera gezeigt, die über ein programmierbares Logikgatter (Field Programmable Gate Array, FPGA) 156, das als LVDS-Schnittstelle zur Umwandlung der LVDS-Signale in Signale arbeitet, die von der VPU 108 verarbeitet werden können, mit der VPU 108 in Schaltung ist. In anderen Beispielen kann die VPU 108 mit einer LVDS-Schnittstelle versehen sein und das FPGA 156 kann weggelassen werden. In anderen Beispielen kann jede Kombination der Kameras mit niedriger Auflösung 102a, b und der Kameras mit hoher Auflösung 102c, d direkt, indirekt und/oder über die Steckkarte 152 mit der VPU 108 in Schaltung sein. In jedem Fall kann die mobile Kamera 100 einige oder alle Kameras 102a-d und die entsprechenden Schnittstellen vollständig abschalten, so dass die Kameras 102a-d und die entsprechenden Schnittstellen keinen Strom verbrauchen.
In den dargestellten Beispielen von 1A und 1B verbrauchen die Kameras mit niedriger Auflösung 102a, b wesentlich weniger Strom als die Kameras mit hoher Auflösung 102c, d. Daher können in einigen Beispielen die Kameras mit niedriger Auflösung 102a, b als Immer-an (Always-on, AoN) -Kameras mit niedrigem Stromverbrauch implementiert werden. Um Batteriestrom zu sparen, arbeitet die mobile Kamera 100 in einem Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch, in dem die Kamera(s) mit hoher Auflösung 102c, d in einen Standby-Modus mit niedrigem Stromverbrauch geschaltet oder versetzt wird bzw. werden (z.B. einen Modus, in dem die Kamera(s) mit hoher Auflösung 102c, d nur sehr wenig oder gar keinen Strom verbrauchen), bis die VPU 108 in einer oder mehreren visuellen Aufnahmen der Kamera(s) mit niedriger Auflösung 102a, b ein visuelles Merkmal von Interesse erfasst. Wenn ein solches visuelles Merkmal von Interesse erfasst wird, geht die mobile Kamera 100 in einen Aktiv-Modus mit höherem Stromverbrauch über, in dem die Kamera(s) mit hoher Auflösung 102c, d in einen Aktiv-Modus geschaltet oder versetzt wird bzw. werden, in dem sie eingeschaltet wird bzw. werden, um eine visuelle Aufnahme mit hoher Qualität (z.B. des visuellen Merkmals von Interesse) aufzunehmen, als dies mit den Kameras mit niedriger Auflösung 102a, b möglich ist. Auf diese Weise kann der Stromverbrauch, der der visuellen Überwachung durch die mobile Kamera 100 zuzuschreiben ist, anhand der hier offenbarten Beispiele relativ niedrig gehalten werden, indem die Kameras mit niedriger Auflösung 102a, b während des Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch verwendet werden, bis ein Merkmal von Interesse erfasst wird. Verhältnismäßig mehr Strom, der von den Kameras mit hoher Auflösung 102c, d bezogen wird, muss von der mobilen Kamera 100 nur dann bereitgestellt werden, wenn das Merkmal von Interesse erfasst wird.
In einigen Beispielen können die mehreren Kameras 102a-d des dargestellten Beispiels mechanisch so angeordnet sein, dass visuelle Aufnahmen von verschiedenen sich überlappenden oder sich nicht überlappenden Sichtfeldern erzeugt werden. Visuellen Aufnahmen der verschiedenen Sichtfelder können zusammengefügt werden, um eine Panoramaansicht einer Umgebung zu bilden oder eine anderweitig umfassendere Ansicht der Umgebung zu bilden, als sie von einer einzelnen der visuellen Aufnahmen einer einzelnen Kamera abgedeckt wird. In einigen Beispielen können die mehreren Kameras 102a-d verwendet werden, um stereoskopische Ansichten zu erzeugen, die auf Kombination von visuellen Aufnahmen basieren, die gleichzeitig von zwei Kameras aufgenommen wurden. In einigen Beispielen, wie in 1A und 1 B, kann für jede Kamera mit niedriger Auflösung eine separate Kamera mit hoher Auflösung vorgesehen sein. In anderen Beispielen wird eine einzelne Kamera mit niedriger Auflösung für die Verwendung während eines Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch bereitgestellt, und es werden mehrere Kameras mit hoher Auflösung bereitgestellt, um visuelle Mehrfachansicht-Aufnahmen mit hoher Qualität und/oder stereoskopische Aufnahmen mit hoher Qualität zu erzeugen, wenn mit der Kamera mit niedriger Auflösung Bestätigungen von Merkmalen von Interesse gemacht werden. In einigen Beispielen, in denen die mobile Kamera 100 auf nichtmenschlichen Trägern wie unbemannten Luftfahrzeugen (Unmanned Aerial Vehicles, UAVs), Robotern oder Drohnen montiert ist, kann die mobile Kamera 100 mit mehreren Kameras versehen sein, die um eine 360-Grad-Anordnung und eine obere und untere Platzierung montiert sind, so dass die mehreren Kameras eine vollständige Sicht einer Umgebung bereitstellen können. Wenn die mobile Kamera 100 zum Beispiel auf einer Drohne montiert ist, kann sie sechs Kameras haben, die an einer vorderen, einer hinteren, einer linken, einer rechten, einer oberen und einer unteren Position montiert sind. In einigen Beispielen kann eine einzelne oder mehrere Kameras mit niedriger Auflösung und/oder geringem Stromverbrauch über eine Kabellänge an die mobile Kamera 100 verbunden sein, um in Anwendungen eingesetzt zu werden, bei denen eine Kamera durch eine Öffnung oder einen Durchgang eingeführt, zugeführt oder teleskopiert werden muss, der für die mobile Kamera 100 in seiner Gesamtheit unzugänglich ist. Eine solche beispielhafte Anwendung ist eine medizinische Anwendung, bei der ein Arzt Kameras in den Körper eines Patienten zur weiteren Untersuchung, Diagnose und/oder Operation einführen muss.
Die beispielhafte IMU 104 der 1A und 1B ist ein elektronisches Gerät, das Bewegungen im dreidimensionalen (3D) Raum misst und meldet, die mit einem Träger (z.B. einer Person, einem Objekt, einer Drohne, einem UAV, einem Fahrzeug usw.) der mobilen Kamera 100 verbunden sind, wie z.B. Kraft, Winkelgeschwindigkeit und/oder das umgebende Magnetfeld. Um solche Bewegungen zu messen, kann die beispielhafte IMU 104 mit einem oder mehreren Bewegungssensoren 158 (1B) wie einem oder mehreren Beschleunigungsmessern, einem oder mehreren Gyroskopen, einem oder mehreren Magnetometern usw. in Schaltung sein. Der beispielhafte AC 106 kann zum Erfassen von Umgebungsgeräuschen einschließlich Sprache verwendet werden, die von einer Person, die die mobile Kamera 100 trägt, und/oder von Personen in der Nähe der mobilen Kamera 100 erzeugt werden. Um solche Geräusche zu erfassen, kann der AC 106 mit einem oder mehreren Mikrofonen 162 in Schaltung sein ( 1B). In anderen Beispielen können andere Sensorschnittstellen vorgesehen sein, um andere Umgebungseigenschaften zu überwachen. Zum Beispiel kann die mobile Kamera 100 zusätzlich oder alternativ mit einer Temperatursensorschnittstelle, einer Drucksensorschnittstelle, einer Feuchtesensorschnittstelle, einer Strahlungssensorschnittstelle, einer Windsensorschnittstelle, einer Sensorschnittstelle für periodische Bewegungen, einer Sensorschnittstelle für abrupte Bewegungen, einer Luftqualitätssensorschnittstelle, einer Partikelsensorschnittstelle, einer pH-Sensorschnittstelle usw. ausgestattet sein. Die beispielhafte mobile Kamera 100 kann mit allen geeigneten Sensoren zum Messen oder Überwachen beliebiger Umgebungseigenschaften häuslicher, gewerblicher und/oder industrieller Umgebungen ausgestattet sein.
Die beispielhafte VPU 108 ist zum Durchführen von Computer-Bildverarbeitung vorgesehen, um visuelle Wahrnehmung von Umgebungen zu ermöglichen. Die beispielhafte VPU 108 enthält auch Funktionen zum Durchführen von Bewegungsverarbeitung und/oder Audioverarbeitung, um Bewegungswahrnehmung und/oder Audiowahrnehmung zu ermöglichen. Beispielsweise kann die VPU 108 mit mehreren Sensoren oder Sensorschnittstellen, einschließlich der Kameras 102, der IMU 104, der Bewegungssensoren 158, des AC 106 und/oder des Mikrofons 162, verbunden sein, um Eingabedaten mehrerer Sensoren zu empfangen. Die beispielhafte VPU 108 von 1A ist mit einem oder mehreren Merkmalsanalyseeinrichtungen eines faltenden neuronalen Netzwerk (Convolutional Neural Network, CNN) 114, einem oder mehreren Einrichtungen für Computer-Vision (CV) -Analysen 116 und/oder einem oder mehreren digitalen Audio-Signalprozessoren (Digital Signal Processors, DSP) 118 ausgestattet, um solche Sensor-Eingabedaten, wie unten in Verbindung mit 5A und 5B beschrieben, zu verarbeiten. Auf diese Weise kann die beispielhafte VPU 108 visuelle Verarbeitung, Bewegungsverarbeitung, Audioverarbeitung usw. auf den Sensor-Eingabedaten der verschiedenen Sensoren durchführen, um visuelle Wahrnehmung, Bewegungswahrnehmung und/oder Audiowahrnehmung zu ermöglichen. Die VPU 108 des dargestellten Beispiels kann mit einer VPU aus der VPU-Familie Myriad™ X und/oder der VPU-Familie Myriad™ 2 implementiert sein, die von Movidius™, einem Unternehmen der Intel Corporation, entwickelt und verkauft werden. Alternativ kann die beispielhafte VPU 108 unter Verwendung jeder anderen geeigneten VPU implementiert sein.
Im dargestellten Beispiel verarbeitet die VPU 108 Pixeldaten von den Kameras 102, Bewegungsdaten von der IMU 104 und/oder Audiodaten vom AC 106 und erzeugt sensorbasierte Metadaten, die solche Sensordaten beschreiben. Durch Erzeugen solcher sensorbasierten Metadaten kann die mobile Kamera 100 die sensorbasierten Metadaten an ein Hostgerät (z.B. ein Mobiltelefon 202 von 2) und/oder einen Clouddienst (z.B. bereitgestellt durch das Cloudsystem 206 von 2) zum Verarbeiten anstelle vom Kommunizieren der Sensor-Rohdaten (z.B. der Pixeldaten, der Audiodaten und/oder der Bewegungsdaten) übermitteln. Auf diese Weise werden in Bezug auf visuelle Aufnahmen Identitäten oder Privatsphären von Personen und/oder privates/persönliches Eigentum, die in visuellen Aufnahmen erscheinen, nicht unbeabsichtigt anderen vernetzten Geräten oder Computern offen gelegt, die mit dem Internet verbunden sind und die während Übertragung über das Internet böswillig oder unbeabsichtigt auf solche visuellen Aufnahmen zugreifen können. Ein solcher Schutz der Privatsphäre im Zusammenhang mit Übermitteln von Metadaten anstelle von visuellen Rohaufnahmen ist nützlich, um mobile Kameras bereitzustellen, die den Vorschriften von Regierung und/oder Industrie bezüglich des Schutzes der Privatsphäre von persönlichen Daten entsprechen. Ein Beispiel für eine solche Vorschrift der Regierung, deren Einhaltung anhand der hier offenbarten Beispiele erleichtert werden kann, ist die Allgemeine Datenschutzverordnung (GDPR) der Europäischen Union (EU), die darauf abzielt, die Datenschutzgesetze in ganz Europa zu harmonisieren, alle EU-Bürger in Bezug auf den Datenschutz zu schützen und zu ermächtigen und die Art und Weise, wie Organisationen in der gesamten EU-Region an den Datenschutz herangehen, neu zu gestalten. Darüber hinaus wird durch Senden von kleinen Metadaten, die für zusätzliche Sicherheit verschlüsselt und kodiert werden können, der Stromverbrauch, der sonst zum Übermitteln der Sensor-Rohdaten erforderlich wäre, erheblich reduziert.
In einigen Beispielen können die hier offenbarten mobilen Kameras in einem Bild-/Video-Ausgabemodus arbeiten, in dem die mobilen Kameras visuelle Aufnahmen zur Speicherung auf einem Hostgerät und/oder bei einem Clouddienst ausgeben. Auf diese Weise können Benutzer die mobile Kamera 100 verwenden, um Bild- und/oder Videospeicher für die Langzeitspeicherung und anschließende Betrachtung durch sie selbst und/oder andere, denen Zugriffsrechte gewährt wurden, zu erzeugen. Die hier offenbarten beispielhaften mobilen Kameras können mit einer benutzer- oder systemsteuerbaren Einstellung versehen sein, die gesetzt werden kann, wenn eine mobile Kamera in einem Metadaten-Ausgabemodus oder in einem Bild-Nideo-Ausgabemodus betrieben werden soll.
Die beispielhafte drahtlose Kommunikationsschnittstelle 110 von 1A und 1B kann mit jedem geeigneten drahtlosen Kommunikationsprotokoll implementiert sein, wie z.B. dem drahtlosen Wi-Fi-Kommunikationsprotokoll, dem drahtlosen Bluetooth®-Kommunikationsprotokoll, dem drahtlosen Zigbee®-Kommunikationsprotokoll usw. Die drahtlose Kommunikationsschnittstelle 110 kann verwendet werden, um mit einem Hostgerät (z.B. einem der Mobiltelefon-Hostgeräte 202 von 2) und/oder anderen mobilen Kameras über Client/Server-Kommunikationen und/oder Peer-to-Peer-Kommunikationen zu kommunizieren.
2 stellt beispielhafte Mobiltelefon-Hostgeräte 202 in drahtloser Kommunikation mit entsprechenden beispielhaften mobilen Kameras 204 und einem beispielhaften Cloudsystem 206. In dem dargestellten Beispiel von 2 dienen die Mobiltelefon-Hostgeräte 202 als Hostgeräte, um Informationen von den beispielhaften mobilen Kameras 204 zu empfangen und an diese zu senden. Die Mobiltelefon-Hostgeräte 202 verbinden die mobilen Kameras 204 auch kommunikativ mit einem Clouddienst, der vom Cloudsystem 206 bereitgestellt wird. Obwohl die Hostgeräte 202 als Mobiltelefone dargestellt sind, können die Hostgeräte 202 in anderen Beispielen unter Verwendung jeder anderen Art von Computergeräten implementiert sein, einschließlich Smartwatch oder anderer tragbarer Computergeräte, Tablet-Computergeräte, Laptop-Computergeräte, Desktop-Computergeräte, Internet-Appliances, Internet-der-Dinge (Internet of Things, loT) -Geräte usw. Die beispielhaften mobilen Kameras 204 sind im Wesentlichen ähnlich oder identisch mit der mobilen Kamera 100 von 1A und 1B.
Im dargestellten Beispiel von 2 kommunizieren die mobilen Kameras 204 drahtlos mit ihren entsprechenden Mobiltelefon-Hostgeräten 202 unter Verwendung der drahtlosen Kommunikationen 208 über drahtlose Kommunikationsschnittstellen wie die drahtlose Kommunikationsschnittstelle 110 von 1A und 1B. Darüber hinaus kommunizieren die beispielhaften Mobiltelefon-Hostgeräte 202 drahtlos mit dem Cloudsystem 206, beispielsweise über ein zellulares Netzwerk, ein Wi-Fi oder jedes andere geeignete drahtlose Kommunikationsmittel. In jedem Fall kommunizieren die Mobiltelefon-Hostgeräte 202 und das Cloudsystem 206 über ein öffentliches Netzwerk wie das Internet und/oder über ein privates Netzwerk. In einigen Beispielen können die mobilen Kameras 204 so konfiguriert sein, dass sie direkt mit dem Cloudsystem 206 ohne ein dazwischengeschaltetes Hostgerät 202 kommunizieren. In wieder anderen Beispielen kann ein Hostgerät 202 mit einer mobilen Kamera 204 in einem gleichen Gerät oder Gehäuse kombiniert sein.
Das beispielhafte Cloudsystem 206 wird unter Verwendung einer Vielzahl von verteilten Rechenknoten und/oder Speicherknoten implementiert, die über eine cloudbasierte Netzwerkinfrastruktur miteinander und/oder mit Server-Hosts kommunizieren. Das beispielhafte Cloudsystem 206 stellt Clouddienste bereit, auf die von den Mobiltelefon-Hostgeräten 202 und/oder den mobilen Kameras 204 zugegriffen werden kann. Beispielhafte Clouddienste können Metadaten-Verarbeitungs- und Informationsabrufdienste umfassen, um Metadaten zu analysieren und zu erkennen, die von den mobilen Kameras 204 und/oder den Mobiltelefon-Hostgeräten 202 erzeugt wurden, und um Informationen von Speichergeräten abzurufen, die den Metadaten entsprechen. Das Cloudsystem 206 kann solche abgerufenen Informationen an die Mobiltelefon-Hostgeräte 202 zur Verwendung durch die Mobiltelefon-Hostgeräte 202 und/oder die mobilen Kameras 204 und/oder zur Ansicht durch Benutzer der Mobiltelefon-Hostgeräte 202 übermitteln. Beispielhafte Clouddienste können zusätzlich oder alternativ Bildspeicher- und/oder Videospeicherdienste enthalten, um visuelle Aufnahmen von den mobilen Kameras 204 zu speichern. In einigen Beispielen kann das Cloudsystem 206 durch ein serverbasiertes System und/oder ein anderes netzwerkbasiertes System ersetzt werden, bei dem die Mobiltelefon-Hostgeräte 202 mit zentralen Rechen- und/oder Speichergeräten des netzwerkbasierten Systems kommunizieren.
Die beispielhaften mobilen Kameras 204 und die Mobiltelefon-Hostgeräte 202 befinden sich logisch an einem Rand eines Netzwerks, da sie die Endpunkte von Datenkommunikationen sind. Im dargestellten Beispiel können sensorbasierte Metadaten und/oder visuelle Aufnahmen von den mobilen Kameras 204 am Rand des Netzwerks (z.B. durch die mobilen Kameras 204 und/oder durch die entsprechenden Mobiltelefon-Hostgeräte 202) und/oder im Cloudsystem 206 gespeichert und/oder verarbeitet werden. Die Verarbeitung von visuellen Aufnahmen am Rand des Netzwerks statt auf dem Cloudsystem 206 entlastet Verarbeitungsanforderungen von dem Cloudsystem 206. Zum Beispiel werden die Verarbeitungsanforderungen für Computer-Vision-Analysen auf mehrere mobile Kameras 204 und/oder Mobiltelefon-Hostgeräte 204 verteilt, so dass jede mobile Kamera 204 und/oder jedes Mobiltelefon-Hostgerät 202 ihre/seine Verarbeitungskapazitäten für Computer-Vision-Analysen von visuellen Aufnahmen nutzen und Metadaten erzeugen kann, so dass das Cloudsystem 206 nicht mit den erheblichen zusätzlichen CPU-Ressourcen (Zentraleinheit), GPU-Ressourcen (Grafikverarbeitungseinheit) und/oder Speicherressourcen ausgestattet sein muss, die zum Durchführen solcher Computer-Vision-Analysen für eine große Anzahl von visuellen Aufnahmen, die von einer großen Anzahl von vernetzten mobilen Kameras 204 empfangen werden, erforderlich sind. Darüber hinaus können Computer-Vision-Analysen schneller durchgeführt werden, wenn sie parallel an verteilten mobilen Kameras 204 statt nacheinander an einem zentralen Ort wie dem Cloudsystem 206 durchgeführt werden.
In einigen Beispielen werden die mobilen Kameras 204 gleichzeitig in verschiedenen Umgebungen verwendet und übermitteln sensorbasierte Metadaten und/oder visuelle Aufnahmen an das Cloudsystem 206, die auf diesen verschiedenen Umgebungen basieren. In anderen Beispielen arbeiten zwei oder mehr der mobilen Kameras 204 in derselben Umgebung, so dass sie visuelle Aufnahmen aus verschiedenen Perspektiven oder verschiedenen Sichtfeldern derselben Umgebung erstellen können. In solchen Beispielen bilden die visuellen Aufnahmen der verschiedenen mobilen Kameras 204, wenn sie zusammen betrachtet werden, eine Panoramaansicht der Umgebung oder eine anderweitig umfassendere Ansicht der Umgebung, als sie von einer einzelnen der visuellen Aufnahmen einer einzelnen mobilen Kamera 204 abgedeckt werden kann. In noch anderen Beispielen wird eine einzelne mobile Kamera 204 mit mehreren Kameras versehen, wie oben in Verbindung mit den 1A und 1B beschrieben, um eine Panorama- oder eine umfassendere Ansicht der Umgebung zu erhalten.
In dem dargestellten Beispiel ist jede mobile Kamera 204 physisch von ihrem entsprechenden Mobiltelefon-Hostgerät 202 getrennt, so dass die mobile Kamera 204 von einer Person getragen werden kann, während das Mobiltelefon-Hostgerät 202 in einer Handtasche, einer Tasche und/oder einem Fach verstaut werden kann. Dadurch entfällt die Notwendigkeit, dass eine Person, die eine solche Kamera benutzt, ihr Mobiltelefon herausziehen muss, um Bilder oder Videos aufzunehmen, da solche visuellen Aufnahmen mit der mobilen Kamera 204 gemacht werden können. Darüber hinaus ist eine solche Anordnung nützlich, um Menschen zu unterstützen, wenn sie durch ihre verschiedenen Umgebungen navigieren. Beispielsweise kann eine Person ihr Mobiltelefon betrachten, während sie auf einem belebten Bürgersteig geht. Um zu verhindern, dass durch die Ablenkung der Person eine gefährliche Situation entsteht, kann die mobile Kamera 204 wie ein weiteres Augenpaar arbeiten, um andere auftauchende Personen, Fahrzeuge oder andere Hindernisse zu erkennen und die Person vor den sie umgebenden Elementen zu warnen. So können z.B. die hier offenbarten mobilen Kameras als „Augen, die immer auf die Welt schauen“ funktionieren, um den Benutzern zusätzliche Informationen über ihre Umgebung bereitzustellen. Beispielsweise kann eine mobile Kamera 204 eine Computer-Vision-Analyse auf einem Strom von visuellen Aufnahmen durchführen, während eine Person den Bürgersteig entlang geht, um Metadaten zu erzeugen, die einen sich nähernden Bordstein des Bürgersteigs identifizieren, indem sie ein entsprechendes Bildmerkmal wie ein Bild des Bordsteins, eine Bordsteinkante, eine Linie des Bordsteins usw. erfasst. Die mobile Kamera 204 kann Bordsteinwarnmetadaten erzeugen und solche Metadaten an ein entsprechendes Mobiltelefon-Hostgerät 202 oder ein anderes tragbares Gerät (z.B. eine intelligente Brille, ein Hilfsmittel usw.) übermitteln. Das Mobiltelefon-Hostgerät 202 kann die Bordsteinwarnmetadaten verarbeiten, indem es eine akustische Warnung ausgibt und/oder eine Benachrichtigung an die Person anzeigt, die darauf hinweist, dass die Person wegen dem Bordstein und/oder einem sich nähernden Fahrzeug hinter dem Bordstein vorsichtig sein sollte. In einigen Beispielen können stereoskopische Bilder und/oder Videos, die von der mobilen Kamera 204 aufgenommen wurden, verwendet werden, um Abstände zwischen der Person und sich nähernden Hindernissen (z.B. dem Fahrzeug oder dem Bordstein) und/oder Geschwindigkeiten, mit denen sich die Person den sich nähernden Hindernissen nähert, zu bestimmen. Solche Abstands- und/oder Geschwindigkeitsinformationen können der Person über das Mobiltelefon-Hostgerät 202 der Person oder ein anderes Computergerät, wie z.B. ein tragbares Gerät, zur Verfügung gestellt werden.
In einigen Beispielen können die mobilen Kameras 204 verwendet werden, um andere Personen und/oder andere Merkmale von Interesse in visueller Nähe der mobilen Kameras 204 zu identifizieren. In solchen Beispielen können die mobilen Kameras 204 an Reversen, Hemden oder an einer bestimmten Stelle an Personen getragen werden, die die mobilen Kameras 204 tragen. Eine mobile Kamera 204 kann z.B. von einer Person auf einer Konferenz oder Messe getragen werden, auf der zahlreiche andere Personen anwesend sind und auf der zahlreiche Einrichtungen (z.B. Cafeteria, Telefon-Ladestationen, Konferenzräume, Toiletten usw.) und/oder Verkaufsstände zur Verfügung stehen. Die Person kann einen anderen Teilnehmer erkennen, kann sich aber nicht an den Namen des Teilnehmers oder andere Informationen über den Teilnehmer erinnern (z.B. Name, Titel, Arbeitgeber, letztes Treffen, letzte Interaktion, letzte Kommunikation usw.). In einer solchen Situation erzeugt und analysiert die mobile Kamera 204 proaktiv visuelle Aufnahmen des anderen Teilnehmers und kommuniziert mit einem Clouddienst, der vom Cloudsystem 206 gehostet wird, um relevante Informationen über den anderen Teilnehmer zum Zugriff für die Person, die die mobile Kamera 204 trägt, zu erhalten. Diese Informationen über den Teilnehmer können nützlich sein, um das Gedächtnis der Person über den Teilnehmer aufzufrischen und/oder die Person neu über den Teilnehmer zu informieren, so dass die Person eine sachkundigere und relevantere Vorstellung mit dem Teilnehmer vornehmen kann. In einigen Beispielen erzeugt das zugehörige Mobiltelefon-Hostgerät 202 einen Alarm (z.B. einen akustischen Alarm, einen Vibrationsalarm, eine Display-Benachrichtigung usw.), der die Person benachrichtigt, wenn die Informationen über den Teilnehmer vom Clouddienst empfangen wurden. Auf diese Weise muss die Person keine Mühe und Zeit aufwenden, um aktiv Informationsanfragen zu senden. Stattdessen arbeiten die mobile Kamera 204, das Mobiltelefon-Hostgerät 202 und das Cloudsystem 206 ohne Benutzerinteraktion, um solche Informationen bereitzustellen.
In einigen Beispielen ist der vom Cloudsystem 206 bereitgestellte Clouddienst ein sozialer Netzwerkdienst (z.B. Facebook, Twitter usw.) oder ein geschäftlicher Netzwerkdienst (z.B. Linkedln) mit registrierten Abonnenten, Profilinformationen über diese Abonnenten, Kalenderinformationen über diese Abonnenten, E-Mail- und Instant-Messaging-Informationen über diese Abonnenten usw. Auf diese Weise kann der Clouddienst, wenn er sensorbasierte Metadaten und/oder visuelle Aufnahmen empfängt, die von den mobilen Kameras 204 erzeugt wurden, diese Abonnenteninformationen nutzen, um relevante Informationen über die in den sensorbasierten Daten und/oder visuellen Aufnahmen dargestellten Personen bereitzustellen. In anderen Beispielen kommuniziert der Clouddienst mit anderen Abonnentenmodell-Diensten, wie z.B. sozialen Netzwerkdiensten oder geschäftlichen Netzwerkdiensten, um auf solche Abonnenteninformationen in Übereinstimmung mit Berechtigungen zuzugreifen, die von diesen Abonnenten für die Bereitstellung von Zugriff auf ihre Abonnenteninformationen erteilt wurden.
In einigen Beispielen können die mobilen Kameras 204 auch zur Erkennung von und zum Zugriff auf Informationen über nicht-menschliche Objekte verwendet werden. Beispielsweise können die mobilen Kameras 204 von den Besuchern eines Kunstmuseums verwendet werden, um verschiedene Kunstwerke zu erkennen, Informationen (z.B. Name des Kunstwerks, Name des Künstlers, Erstellungsdatum, Erstellungsort usw.) über solche Kunstwerke aus dem Clouddienst abzurufen und auf die abgerufenen Informationen über die Mobiltelefon-Hostgeräte 202 zuzugreifen.
In den hier offenbarten Beispielen werden die Mobiltelefon-Hostgeräte 202 mit beispielhafte Informationsbrokern (IBs) 210 ausgestattet, um Informationen zwischen mobilen Kameras 204 und einem Clouddienst, der vom Cloudsystem 206 bereitgestellt wird, zu übertragen. In dem dargestellten Beispiel sind die Informationsbroker 210 mit einem MQTT-Protokoll (Message Queue Telemetry Transport) implementiert. Das MQTT-Protokoll ist ein auf der ISO-Norm (ISO/IEC PRF 20922) basierendes Publish-Subscribe-Messaging-Protokoll, das auf dem TCP/IP-Protokoll aufbaut. In den hierin offenbarten Beispielen kann das MQTT-Protokoll als einfaches Nachrichtenübertragungsprotokoll für kleine Sensoren (z.B. die mobilen Kameras 204) und mobile Geräte (z.B. die Mobiltelefon-Hostgeräte 202) verwendet werden, um die Kommunikation für Netzwerke mit hoher Latenz und/oder Unzuverlässigkeit abzuwickeln. Auf diese Weise können die hier offenbarten Beispiele das MQTT-Protokoll als Protokoll mit geringem Stromverbrauch und niedriger Bandbreite einsetzen, um eine effiziente und zuverlässige Kommunikation zwischen den mobilen Kameras 204 und den Mobiltelefon-Hostgeräten 202 unter Verwendung von Peer-to-Peer (P2P) -Kommunikationen und/oder für den Austausch von Informationen wie Metadaten und/oder visuellen Aufnahmen mit Clouddiensten oder anderen Netzwerkgeräten aufrechtzuerhalten. Mit Hilfe der Informationsbroker 210 können einfache Kommunikationen verwendet werden, um einfache Daten (z.B. Metadaten, die von den mobilen Kameras 204 aus visuellen Aufnahmen extrahiert werden) von den mobilen Kameras 204 und/oder den Mobiltelefon-Hostgeräten 202 an einen Clouddienst zu senden. In solchen Beispielen können die mobilen Kameras 204 visuelle Aufnahmen am Rand eines Netzwerks verarbeiten und weniger Netzwerkbandbreite verbrauchen, um die resultierenden Metadaten an einen Clouddienst zu übertragen.
3 zeigt ein Beispiel für die Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 zur Verwendung mit den mobilen Kameras 100, 204 von 1A, 1B und 2. Die beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 kann verwendet werden, um einen geringen Stromverbrauch für die mobilen Kameras 100 und 204 zu ermöglichen und so die Batterieladung zu schonen. Die beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 ermöglicht einen niedrigen Stromverbrauch basierend auf der Prämisse, dass die mobilen Kameras 100 und 204 in den meisten Fällen keine rechenintensiven Prozesse ausführen und/oder keine visuellen Aufnahmen mit hoher Qualität machen. In einem Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch kann beispielsweise eine mobile Kamera 100, 204 Bewegungssensordaten, Audiosensordaten und/oder visuelle Aufnahmen mit niedriger Auflösung (z.B. Durchführen von CNN-Inferenzprozessen) überwachen, um Auslösemerkmale zu identifizieren, die dazu führen könnten, dass die mobile Kamera 100, 204 in einen oder mehrere Modi mit höherem Stromverbrauch übergeht.
In einigen Beispielen kann die Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 verwendet werden, um den Einschalt- oder aktiven Zustand eines Subsystems für drahtlose Kommunikation (z.B. die drahtlose Kommunikationsschnittstelle 110 von 1A und 1B) einer mobilen Kamera 100, 204 zu steuern. Beispielsweise kann die mobile Kamera 100, 204 bei Zuständen mit niedrigerem Stromverbrauch der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 darauf verzichten, Metadaten zu erzeugen, die an einen Clouddienst übermittelt werden müssen, der vom Cloudsystem 206 bereitgestellt wird. In solchen Szenarien kann die drahtlose Kommunikationsschnittstelle 100 in einem Modus mit niedrigem Stromverbrauch gehalten werden, um Batteriestrom zu sparen.
Die Betriebszustände der beispielhaften Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 umfassen einen beispielhaften Rückstellzustand 302, einen beispielhaften Bewegungsmerkmalerfassungszustand 304, einen beispielhaften Audiomerkmalerfassungszustand 306, einen beispielhaften Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308, einen beispielhaften Merkmalerfassungszustand für Computer-Vision-Verarbeitung 310, einen beispielhafte CNN-Merkmalerfassungszustand 312, einen beispielhaften Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 und einen beispielhaften Videoaufnahmezustand 316.
4 veranschaulicht einen beispielhaften Stromverbrauchstrend der mobilen Kamera 100, 204, der den relativen Stromverbrauch zwischen den verschiedenen Stromverbrauchszuständen 302, 304, 306, 308, 310, 312, 314 und 316 darstellt. Im dargestellten Beispiel von 4 ist der Zustand mit dem niedrigsten Stromverbrauch der Rückstellzustand 302 und der Zustand mit dem höchsten Stromverbrauch der Videoaufnahmezustand 316. Während die mobile Kamera 100, 204 entlang der verschiedenen Stromverbrauchszustände 302, 304, 306, 308, 310, 312, 314 und 316 vom Rückstellzustand 302 zum Videoaufnahmezustand 316 fortschreitet, erhöhen sich die Verarbeitungsressourcen und der elektrische Strom, der von den Subsystemen der mobilen Kamera 100, 204 verbraucht wird, was wiederum den Stromverbrauch erhöht.
In dem beispielhaften Rückstellzustand 302 befindet sich ein Großteil der mobilen Kamera 100, 204 in einem Modus mit niedrigem Stromverbrauch, in dem nur eine geringe Menge an elektrischer Energie zur Versorgung systemkritischer Komponenten verwendet wird, wie z.B. eine Echtzeituhr zur Aufrechterhaltung der Systemzeit, Eingänge für externe Interrupts zur Reaktion auf sensorbasierte Aufwachereignisse, ein Watchdog-Timer zur Planung periodischer oder aperiodischer Aufwachereignisse usw., während andere Subsysteme sich in einem Standby-Modus mit niedrigem Stromverbrauch befinden. Während Aufwachereignissen kann die mobile Kamera 100, 204 eingegebene Sensordaten analysieren, um Auslösemerkmale zu identifizieren, die bewirken, dass die mobile Kamera 100, 204 in Zustände mit höherem Stromverbrauch übergeht. In den hier offenbarten Beispielen können Auslösemerkmale, die bewirken, dass die mobile Kamera 100, 204 zwischen den verschiedenen Stromverbrauchszuständen der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 wechselt, von der IMU 104, dem AC 106 und/oder der VPU 108 erfasst werden und/oder von Überwachungsschaltungen in intelligenten Sensoren erfasst werden, die mit den Sensorschnittstellen der IMU 104, des AC 106 und/oder der VPU 108 in Schaltung sind. Beispielsweise können kleine Leistungsmengen (z.B. ~2 Milliwatt) an die IMU 104, den AC 106 und/oder die VPU 108 bereitgestellt werden (z.B. periodisch oder aperiodisch), um Sensordaten von entsprechenden Sensoren zu verarbeiten, um Auslösemerkmale zu identifizieren. Alternativ können kleine Leistungsmengen (z.B. ~2 Milliwatt) an Überwachungsschaltungen in den intelligenten Sensoren bereitgestellt werden (z.B. periodisch oder aperiodisch), so dass die Überwachungsschaltungen die von den Sensoren erzeugten Sensordaten analysieren können, um Auslösemerkmale zu identifizieren. In solchen Beispielen können die Sensoren bei Erfassung von Auslösemerkmalen externe Interrupts an entsprechende Sensor-Subsysteme (z.B. die IMU 104, den AC 106 und/oder die VPU 108) senden, um die Sensor-Subsysteme aufzuwachen und Übergänge zwischen den verschiedenen Stromverbrauchszuständen der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 einzuleiten.
Ein beispielhaftes Szenario für den Gebrauch von Stromverbrauchszustandsübergängen beinhaltet eine Person, die eine mobile Kamera 100, 204 trägt. Wenn die Person inaktiv ist, z.B. stillsteht, sitzt oder schläft, kann die mobile Kamera 100, 204 in den Rückstellzustand 302 übergehen, da die mobile Kamera 100, 204 keine mit der Person verbundene Bewegung erfasst. Wenn sich die Person jedoch bewegt, kann die mobile Kamera 100, 204 schrittweise in Zustände mit höherem Stromverbrauch übergehen (z.B. in den Bewegungsmerkmalerfassungszustand 304, den Audiomerkmalerfassungszustand 306 usw.), basierend auf dem von der mobilen Kamera 100, 204 erfassten Bewegungsumfang. Beispielsweise kann eine Person anfangen, sich zu bewegen, was die mobile Kamera 100, 204 veranlasst, in den Audiomerkmalerfassungszustand 306 zu gehen und mit Analysieren von Audiosensordaten zu beginnen, die repräsentativ für Sprache, Geräusche, Lärm usw. in der Umgebung sind, und/oder zu einem Zeitpunkt kann die mobile Kamera 100, 204 in den Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 übergehen, um visuelle Aufnahmen mit niedriger Auflösung von umgebenden Gebieten zu analysieren. Im Audiomerkmalerfassungszustand 306 kann die mobile Kamera 100, 204 auf die Anwesenheit beispielweise von anderen Personen durch Erkennung von Sprache überwachen. Im Beispiel des Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 kann die mobile Kamera 100, 204 auf die Anwesenheit beispielsweise von anderen Personen oder anderen Merkmale von Interesse auf der Grundlage visueller Bestätigungen überwachen. In einigen Beispielen kann die mobile Kamera 100, 204 einen oder mehrere Betriebszustände überspringen, um entlang der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 zu höheren oder niedrigeren Stromverbrauchszuständen zu wechseln. So kann z.B. die Erfassung einer Laufbewegung im Bewegungsmerkmalerfassungszustand 304 dazu führen, dass die mobile Kamera 100, 204 vom Bewegungsmerkmalerfassungszustand 304 in den Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 und/oder in den Videoaufnahmezustand 316 übergeht. In einem solchen Beispiel kann der Merkmalerfassungszustand mit niedriger Auflösung 308 verwendet werden, um Bilder von entfernten Objekten zu analysieren, denen sich eine Person, die die mobile Kamera 100, 204 trägt, aufgrund der Laufaktivität schnell nähern kann. Der Merkmalerfassungszustand mit niedriger Auflösung 308 wäre aufgrund der Entfernung entfernter Objekte und/oder aufgrund von Wind-, Atem-, Schuh- oder Reibungsgeräuschen, die beim Laufen erzeugt werden, für die Erfassung besser geeignet als der Audiomerkmalerfassungszustand 306. Der beispielhafte Videoaufnahmezustand 316 kann während eines solchen erkannten Laufs aktiviert werden, um Video für Sicherheitszwecke aufzuzeichnen und/oder, wenn die Person die mobile Kamera 100, 204 vorkonfiguriert hat, Läufe für persönliche Videozwecke aufzuzeichnen. Wenn die Laufaktivität stoppt, kann die mobile Kamera 100, 204 durch Überspringen mehrerer Betriebszustände in der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 z.B. vom Videoaufnahmezustand 316 direkt in den Rückstellzustand 302 übergehen.
In der beispielhaften Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 kann die mobile Kamera 100, 204 während Aufwachereignissen aus dem Rückstellzustand 302 eine Bewegungssensorschnittstelle der IMU 104 (1A) mit einer geringen Menge an elektrischer Energie versorgen, um Bewegungssensordaten über einen oder mehrere Bewegungssensoren der mobilen Kamera 100, 204 zu empfangen. Im Bewegungsmerkmalerfassungszustand 304 kann die IMU 104 im Beispiel die durch die Bewegungssensordaten dargestellte Bewegungsaktivität messen oder analysieren, um einen Bewegungsmerkmal-Auslöser zu identifizieren. Ein Bewegungsmerkmal-Auslöser könnte beispielsweise ein Schwellwert für die Bewegungsaktivität sein, der bewirkt, dass die mobile Kamera 100, 204 im Bewegungsmerkmalerfassungszustand 304 bleibt oder in den Audiomerkmalerfassungszustand 306 übergeht. Wenn die IMU 104 während des Bewegungsmerkmalerfassungszustands 304 keine bestimmte Schwellwert-Bewegungsaktivität erfasst, um im Bewegungsmerkmalerfassungszustand 304 zu bleiben oder in den Audiomerkmalerfassungszustand 306 überzugehen, kehrt die mobile Kamera 100, 204 in den Rückstellzustand 302 zurück. In einigen Beispielen bleibt die mobilen Kamera 100, 204 im Bewegungsmerkmalerfassungszustand 304, wenn die IMU 104 einen ersten Umfang an Schwellwert-Bewegungsaktivität erfasst, und geht in den Audiomerkmalerfassungszustand 306 über, wenn die IMU 104 einen zweiten Betrag an Schwellwert-Bewegungsaktivität erfasst. Beispielsweise könnte der erste Betrag an Schwellwert-Bewegungsaktivität ausreichend sein, um das Verbleiben im Bewegungsmerkmalerfassungszustand 304 zu rechtfertigen, um weiterhin Bewegungsaktivitäten zu überwachen, die dazu führen könnten, dass der zweite Betrag an Schwellwert-Bewegungsaktivität erfüllt wird, um in den Audiomerkmalerfassungszustand 306 überzugehen. Bei den Beträgen der Schwellwert-Bewegungsaktivität kann es sich um Bewegungsausmaße und/oder Bewegungsdauern handeln.
Im Beispiel mit dem Audiomerkmalerfassungszustand 306 versorgt die mobile Kamera 100, 204 den Audio-Codec 106 mit Strom, um Audiosensordaten z.B. von einem Mikrofon zu empfangen. Auf diese Weise kann die mobile Kamera 100, 204 die Audiosensordaten analysieren, um Audiomerkmal-Auslöser zu identifizieren (z.B. Sprache, Geräusche, Lärm, Hundegebell, Katzenmiauen, eine sich öffnende oder schließende Tür, ein Motorgeräusch im Auto usw.). In einigen Beispielen basiert ein Audiomerkmal-Auslöser auf einer Änderungsrate in einem Audiosignal (z.B. ein abruptes Geräuschmerkmal). In einigen Beispielen, in denen die mobile Kamera 100, 204 auf die Anwesenheit von Personen überwacht, geht die mobile Kamera 100, 204 in den Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 über, wenn die mobile Kamera 100, 204 bestimmte Sprache (z.B. Wörter und/oder Sätze auf der Grundlage von Spracherkennung) und/oder einen bestimmten Sprecher (z.B. auf der Grundlage von Sprechererkennung) identifiziert.
In dem beispielhaften Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 versorgt die mobile Kamera 100, 204 eine Kameraschnittstelle der VPU 108 mit Strom (1A und 1B), um visuelle Aufnahmen mit niedriger Auflösung von einer Kamera mit niedriger Auflösung 102a, b zu empfangen (1A und 1B). In einigen Beispielen ist die Kamera mit niedriger Auflösung 102a, b mit Bewegungserfassungsfunktionen ausgestattet. Auf diese Weise kann die VPU 108 in einem Zustand mit geringem Stromverbrauch bleiben, bis die Kamera mit niedriger Auflösung 102a, b einen Schwellwert für visuelle Bewegungsmengen (z.B. einen Auslöser für visuelle Funktionen) erfasst, der es rechtfertigt, die VPU 108 zu benachrichtigen, damit sie in einen Betriebszustand mit höherem Stromverbrauch übergeht. Die Erfassung ausreichender visueller Bewegung kann davon abhängen, ob die Beleuchtung ausreicht, um Bilder mit ausreichender Sichtbarkeit von der Umgebung aufzunehmen, die von der VPU 108 angemessen verarbeitet werden können. In solchen Beispielen kann die mobile Kamera 100, 204 bei schwacher Beleuchtung im Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 verbleiben oder in den Audiomerkmalerfassungszustand 306 zurückkehren. Daher kann die mobile Kamera 100, 204 Batteriestrom sparen, indem sie den Stromverbrauch der VPU 108 so lange begrenzt, bis die Kamera mit niedriger Auflösung 102a, b einen Auslöser für visuelle Merkmale erfasst.
Wenn die beispielhafte Kamera mit niedriger Auflösung 102a, b einen Auslöser für visuelle Merkmale erfasst, kann die mobile Kamera 100, 204 in den Merkmalerfassungszustand bei Computer-Vision-Verarbeitung 310 übergehen. Im Merkmalerfassungszustand bei Computer-Vision-Verarbeitung 310 kann die VPU 108 visuelle Aufnahmen der Kamera mit niedriger Auflösung 102a, b analysieren, um festzustellen, ob sich eine Person in visueller Nähe zur Kamera mit niedriger Auflösung 102a, b befindet. Wenn ein Gesichtsmerkmal in einer visuellen Aufnahme mit der Kamera mit niedriger Auflösung 102a, b einen Gesichtsmerkmal-Schwellwert erfüllt, wechselt die mobile Kamera 100, 204 in den CNN-Merkmalerfassungszustand 312. Im beispielhaften CNN-Merkmalerfassungszustand 312 führt die CNN-Merkmalsanalyseeinrichtung 114 (1A) der VPU 108 eine Computer-Vision-Analyse des erfassten Gesichts durch. Die beispielhafte CNN-Merkmalsanalyseeinrichtung 114 kann das erfasste Gesicht mit einer Datenbank oder einer Bibliothek von Referenzgesichtsbildern oder Referenzgesichtsmetadaten vergleichen, die lokal in der mobilen Kamera 100, 204 und/oder in einem entsprechenden Mobiltelefon-Hostgerät 202 gespeichert sind (2). Wenn die CNN-Merkmalsanalyseeinrichtung 114 feststellt, dass das erfasste Gesicht mit einem der Referenzgesichtsbilder übereinstimmt, kann die mobilen Kamera 100, 204 auf einen Dienst 318 zugreifen (z.B. über das Cloudsystem 206 von 2), um Informationen über die Person zu erhalten, die dem erfassten Gesicht entspricht. Zusätzlich oder alternativ dazu kann die mobile Kamera 100, 204 in den beispielhaften Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 übergehen, um ein Standbild der dem erfassten Gesicht entsprechenden Person aufzunehmen, und/oder in den beispielhaften Videoaufnahmezustand 316 übergehen, um ein Video der dem erfassten Gesicht entsprechenden Person aufzunehmen.
Im dargestellten Beispiel von 3 kann der Übergang zwischen den verschiedenen Zuständen der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 auf Richtlinien oder Regeln basieren, die in den mobilen Kameras 100, 204 gespeichert sind und/oder in entsprechenden Mobiltelefon-Hostgeräten 202 (2) für den Zugriff durch die mobilen Kameras 100, 204 gespeichert sind. In einigen Beispielen führen die Richtlinien für den Übergang zwischen den verschiedenen Betriebszuständen dazu, dass die mobile Kamera 100, 204 für einen Großteil der Zeit im Rückstellzustand 302 oder in Betriebszuständen mit verhältnismäßig niedrigeren Stromverbräuchen verbleibt (z.B. im Bewegungsmerkmalerfassungszustand 304, im Audiomerkmalerfassungszustand 306, im Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308), so dass die mobile Kamera 100, 204 verhältnismäßig wenig Strom verbraucht. Die mobile Kamera 100, 204 kann dann von Zeit zu Zeit in Betriebszustände, die zu einem verhältnismäßig höheren Stromverbrauch beitragen, nur dann übergehen, wenn dies erforderlich ist, um visuelle Aufnahmen mit hoher Auflösung zu sammeln und/oder um über drahtlose Kommunikationen auf einen externen Dienst zuzugreifen. Durch den Übergang zu solchen Betriebszuständen mit höherem Stromverbrauch für nur kurze Zeiträume ermöglichen es die hier offenbarten Beispiele, Subsysteme mit höherem Stromverbrauch (z.B. die Kameras mit hoher Auflösung 102c, d von 1A und 1B und die drahtlose Kommunikationsschnittstelle 110 von 1A und 1B) die meiste Zeit auszuschalten, bis sie in solchen Betriebszuständen mit höherem Stromverbrauch überführt werden müssen. Auf diese Weise kann die mobile Kamera 100, 204 für eine relativ lange Zeit (z.B. Tage oder Wochen) zwischen Batterieladungen oder Batteriewechseln eingesetzt werden.
In einigen Beispielen werden die verschiedenen Zustände von 3 von der mobilen Kamera 100, 204 verwendet, um ihren Betrieb zwischen den verschiedenen Betriebszuständen auf der Grundlage der verbleibenden Batterieleistung und der gewünschten verbleibenden Betriebsminuten zu modulieren. Beispielsweise geht die mobile Kamera 100, 204 in einen batteriekritischen Modus über und arbeitet in Zuständen mit niedrigeren Stromverbrauch (z.B. dem Bewegungsmerkmalerfassungszustand 304, dem Audiomerkmalerfassungszustand 306, dem Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308), ohne in Zustände mit höherem Stromverbrauch zu gehen, wenn die verbleibende Batterieladung der mobilen Kamera 100, 204 niedrig ist und eine gewünschte Dauer des Restbetriebs weniger Stromverbrauch hat, als in den Zuständen mit höherem Stromverbrauch möglich ist. Auf diese Weise kann die mobile Kamera 100, 204 ihre Umgebung weiterhin auf Merkmale von Interesse überwachen und das Auftreten solcher Merkmale von Interesse weiterhin erfassen und speichern, ohne in die Zustände mit höherem Stromverbrauch einzutreten. Zum Beispiel könnte die mobile Kamera 100, 204 im batteriekritischen Modus den Merkmalerfassungszustand bei Kamer mit niedriger Auflösung 308 als Maximalzustand definieren und den Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 verwenden, um visuelle Aufnahmen zu sammeln, anstatt in den Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 überzugehen.
Im batteriekritischen Modus können die Richtlinien für den Übergang zwischen den verschiedenen Betriebszuständen von 3 auch so angepasst sein, dass die mobile Kamera 100, 204 stromsparender arbeitet. Wenn sich beispielsweise die mobile Kamera 100, 204 nicht im batteriekritischen Modus befindet, kann eine Richtlinie für den Übergang vom Bewegungsmerkmalerfassungszustand 304 zum Audiomerkmalerfassungszustand 306 sein, dass die IMU 104 eine Bewegung in einer Richtung erfassen muss, während sich im batteriekritischen Modus die Richtlinie für den Übergang vom Bewegungsmerkmalerfassungszustand 304 zum Audiomerkmalerfassungszustand 306 ändern kann, um z.B. eine erkannte Richtungsänderung von 90 Grad, 180 Grad usw. zu erfordern. Auf diese Weise kann die mobile Kamera 100, 204 zur weiteren Einsparung von Energie während des batteriekritischen Modus in Zuständen mit geringerem Stromverbrauch verbleiben, es sei denn, sie erkennt Merkmalsauslöser, die verhältnismäßig signifikanter sind, als es erforderlich wäre, wenn sie nicht im batteriekritischen Modus betrieben würde.
Obwohl die verschiedenen Betriebszustände der beispielhaften Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 in einer bestimmten Reihenfolge dargestellt sind, können die Richtlinien für den Übergang zwischen den verschiedenen Betriebszuständen unterschiedliche Reihenfolgen für Übergänge zwischen den verschiedenen Betriebszuständen definieren. So kann z.B. ein kleiner Bewegungsumfang, der von der IMU 104 erfasst wird, einen niedrigen Schwellwert für Bewegungsmerkmalerfassung erfüllen, um vom Bewegungsmerkmalerfassungszustand 304 in den Audiomerkmalerfassungszustand 306 zu wechseln, während ein größerer Bewegungsumfang, der von der IMU 104 erfasst wird, einen hohen Schwellwert für Bewegungsmerkmalerfassung erfüllen kann, um vom Bewegungsmerkmalerfassungszustand 304 in den Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 zu wechseln. Obwohl die beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 einen Übergang vom Rückstellzustand 302 zum Bewegungserfassungszustand 304 während Aufwachereignissen zeigt, kann stattdessen eine andere Aufwachrichtlinie angewendet werden, um die mobile Kamera 100, 204 während solcher Aufwachereignisse vom Rückstellzustand 302 in den Audiomerkmalerfassungszustand 306 zu überführen und/oder vom Rückstellzustand 302 gleichzeitig sowohl in den Bewegungsmerkmalerfassungszustand 304 als auch in den Audiomerkmalerfassungszustand 306 zu überführen. Ähnlich kann in anderen Beispielen die mobile Kamera 100, 204 mit Richtlinien ausgestattet sein, die Übergänge von einem Betriebszustand in mehrere Betriebszustände gleichzeitig und/oder von mehreren Betriebszuständen, in denen die mobile Kamera 100, 204 gleichzeitig arbeitet, in einen einzigen Betriebszustand definieren. Richtlinien zur Steuerung von Betriebszuständen und/oder Übergängen zwischen den Betriebszuständen können benutzerdefiniert (z.B. über die Mobiltelefon-Hostgeräte 202 von 2) und/oder systemdefiniert (z.B. von einem Entwickler oder Hersteller programmiert und/oder in einer Konfigurationsdatei gespeichert) sein.
Darüber hinaus kann die beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 so modifiziert werden, dass sie weniger oder mehr und/oder andere Betriebszustände als die in 3 dargestellten enthält. In einigen Beispielen werden die Betriebszustände und Aktivierungen der entsprechenden Sensoren in der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 neu angeordnet, so dass Übergänge entlang der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 eine andere Abfolge von Aktivierungen der entsprechenden Sensoren bewirken. Beispielsweise können der Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308, der Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 und der beispielhafte Videoaufnahmezustand 316 neu angeordnet werden, so dass die Reihenfolge, in der jeder dieser Zustände entlang der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 aktiviert wird, unterschiedlich ist. Beispielsweise können eine oder mehrere der Kameras mit hoher Auflösung 102c, d während des Merkmalerfassungszustands bei Kamera mit hoher Auflösung 314 aktiviert werden, bevor die Kameras mit niedriger Auflösung 102a-b während des Merkmalerfassungszustands bei Kamera mit niedriger Auflösung 308 aktiviert werden. In einigen Beispielen ist die Reihenfolge der Betriebszustände der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 statisch und unveränderlich. In anderen Beispielen ist die Reihenfolge der Betriebszustände der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 dynamisch, so dass sie z.B. mit Hilfe von Richtliniendefinitionen geändert werden kann.
5A und 5B zeigen ein beispielhaftes Blockdiagramm der VPU 108 von 1A und 1B, das zur Implementierung der mobilen Kameras 100, 204 von 1A, 1B und 2 verwendet werden kann, um in den verschiedenen Betriebszuständen der verschiedenen Stromverbrauchsstufen der beispielhafte Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 zu arbeiten. Das dargestellte Beispiel von 5A zeigt die Kamera mit niedriger Auflösung 102a, die IMU 104, den Audio-Codec 106 und die Kamera mit hoher Auflösung 102c in Schaltung mit der VPU 108. Zur Durchführung von Bewegungs-, Audio- und Computer-Vision-Analysen wird die beispielhafte VPU 108 mit einer Reihe von beispielhaften CNN-Merkmalsanalyseeinrichtungen (die z.B. in 1A als die CNN-Merkmalsanalyseeinrichtungen 114 dargestellt sind), wie unten beschrieben, versehen. Die beispielhaften CNN-Merkmalsanalyseeinrichtungen werden mit Hilfe faltender neuronaler Netzwerke implementiert, die darauf trainiert werden können, verschiedene Merkmale (z.B. Bewegung, Ton, Sprache, Wörter, Personen, Gesichter, Objekte usw.) in Sensordaten (z.B. Bewegungsdaten, Audiodaten, visuelle Aufnahmen usw.) zu erfassen oder zu erkennen, die von der IMU 104, dem Audio-Codec 106 und den Kameras 102a-d bereitgestellt werden. Beispielsweise werden die CNN-Merkmalsanalyseeinrichtungen darauf trainiert, Merkmale in den Sensordaten durch Bewegungsanalyse-Algorithmen, Audioanalyse-Algorithmen, Computer-Vision-Algorithmen (z.B. die CV-Algorithmen 116 von 1A) zu erfassen oder zu erkennen, um Wahrscheinlichkeiten zu erzeugen, die repräsentativ für die Wahrscheinlichkeit sind, dass verschiedene Merkmale in den Sensordaten bestätigt werden können. Auf diese Weise können die beispielhaften CNN-Merkmalsanalyseeinrichtungen Bestätigungen für das Vorhandensein von Merkmalen von Interesse auf der Grundlage von Wahrscheinlichkeiten derjenigen Merkmale erzeugen, die die Merkmalswahrscheinlichkeitsschwellwerte erfüllen.
Um eine Bewegungsanalyse während des Bewegungsmerkmalerfassungszustand 304 (3) durchzuführen, wird die beispielhafte VPU 108 mit einem beispielhafte Bewegungsmerkmaldetektor 502, der mit der IMU 104 in Schaltung ist, und einer beispielhaften CNN-Bewegungsaktivitätserkennungseinrichtung 504, die mit dem Bewegungsmerkmaldetektor 502 verbunden ist, versehen. Der beispielhafte Bewegungsmerkmaldetektor 502 wird bereitgestellt, um die Bewegungsaktivität der mobilen Kamera 100, 204 zu erfassen, indem Bewegungssensordaten von der IMU 104 empfangen werden und eine Analyse der Bewegungsmerkmalerfassungsanalyse anhand der Bewegungssensordaten durchgeführt wird, um die Bewegung der mobilen Kamera 100, 204 zu erfassen. In dem dargestellten Beispiel wird der Bewegungsmerkmaldetektor 502 durch den DSP 118 von 1A implementiert, und die Bewegungssensordaten sind Rohbewegungssensordaten, die für die Bewegungsgrößen und -richtungen repräsentativ sind, die von dem/den Bewegungssensor(en) 158 (1B) erfasst werden, die mit der IMU 104 in Schaltung sind. Wenn der beispielhafte Bewegungsmerkmaldetektor 502 eine Bewegung mit ausreichender Größe und/oder ausreichender Dauer erkennt, um einen Bewegungsmerkmal-Auslöseschwellwert zu erfüllen, sendet der Bewegungsmerkmaldetektor 502 eine Bewegungserfassungsbestätigung an die CNN-Bewegungsaktivitätserkennungseinrichtung 504. Zusätzlich bewirkt die Bewegungserfassungsbestätigung, dass die VPU 108 in einen Betriebszustand mit dem nächsthöheren Stromverbrauch übergeht (z.B. in den Audiomerkmalerfassungszustand 306 von 3 und 4).
Die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504 analysiert die Bewegungssensordaten, um bestimmte bewegungsbasierte Aktivitätstypen zu identifizieren, auf deren Erkennung die CNN-Bewegungsaktivitätserkennungseinrichtung 504 trainiert ist. Beispiele für bewegungsbasierte Aktivitätstypen, die in der CNN-Bewegungsaktivitätserkennungseinrichtung 504 trainiert sein können, sind Laufen, Springen, Treppensteigen, Hüpfen, Ruhen, Fahren im Auto, Fahren im Zug usw. Die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504 gibt entsprechende Bewegungsmetadaten für verschiedene erkannte Aktivitätstypen aus, die im Beispiel von 5A als Aktivität (1) bis Aktivität (n) gezeigt sind. In dem dargestellten Beispiel werden die Bewegungsmetadaten von der CNN-Bewegungsaktivitätserkennungseinrichtung 504 erzeugt, um die in den Bewegungssensordaten erkannten Bewegungstypen zu beschreiben (z.B. Laufen, Springen, Treppensteigen, Hüpfen, in Ruhe, im Auto, im Zug usw.). In dem dargestellten Beispiel erzeugt die CNN-Bewegungsaktivitätserkennungseinrichtung 504 die Bewegungsmetadaten durch Zugriff auf die Metadaten aus einer lokalen Referenzbewegungsmetadatenbibliothek oder Referenzbewegungsmetadatenbank, die Metadatenbegriffe in Verbindung mit entsprechenden Definitionen von Referenzbewegungsmerkmalen speichert. Um Bewegungsmetadaten abzurufen, kann die CNN-Bewegungsaktivitätserkennungseinrichtung 504 Bewegungsmerkmale aus den Bewegungssensordaten mit den Referenzbewegungsmerkmaldefinitionen in der lokalen Referenzbewegungsmetadatenbibliothek oder -datenbank vergleichen. In einigen Beispielen kann eine erweiterte Referenzbewegungsmetadatenbibliothek oder Referenzbewegungsmetadatenbank auf dem Cloudsystem 206 gespeichert sein, auf die die CNN-Bewegungsaktivitätserkennungseinrichtung 504 über eine Anwendungsprogrammierschnittstelle (API) für eine solche cloudbasierte Bibliothek oder Datenbank zugreift. Die beispielhafte erkannte Aktivität (1) bis Aktivität (n) bewirkt, dass die VPU 108 in einen vollständig wachen Zustand übergeht. Im dargestellten Beispiel empfängt ein Bewegungsaktivitätsmultiplexer 506 die Bewegungsmetadaten für die erkannte Aktivität (1) bis Aktivität (n) und stellt die Bewegungsmetadaten, wie allgemein durch das Bezugszeichen 508 angegeben, an einen beispielhafte Vollaufwachereignismultiplexer 510 bereit.
Zur Durchführung der Audioanalyse während des Audiomerkmalerfassungszustand 306 (3) ist die beispielhafte VPU 108 mit einem beispielhaften Audiomerkmaldetektor 514, der mit dem Audio-Codec 106 in Schaltung ist, einem beispielhaften Stimmaktivitätsdetektor 516, der mit dem Audiomerkmaldetektor 514 in Schaltung ist, einer beispielhaften CNN-Aufwachworterkennungseinrichtung 518, die mit dem Stimmaktivitätsdetektor 516 in Schaltung ist, und einer beispielhaften CNN-Befehlsworterkennungseinrichtung 520, die mit der CNN-Aufwachworterkennungseinrichtung 518 in Schaltung ist, versehen. Der beispielhafte Audiomerkmaldetektor 514 dient zur Erkennung von Audioaktivität in der Nähe der mobilen Kamera 100, 204, indem er Audiosensordaten vom Audio-Codec 106 empfängt und eine Audiomerkmalerfassungsanalyse auf den Audiosensordaten durchführt. In dem dargestellten Beispiel ist der Audiomerkmaldetektor 514 durch den DSP 118 von 1A implementiert, und die Audiosensordaten sind Rohaudiowellenformdaten, die für Audio repräsentativ sind, das durch das Mikrofon 162 (1B) erfasst wird, das sich in Schaltung mit dem Audio-Codec 106 befindet. Wenn der beispielhafte Audiomerkmaldetektor 514 Audio mit ausreichender Amplitude und/oder ausreichender Dauer erkennt, um einen Audiomerkmal-Auslöseschwellwert zu erfüllen, sendet der Audiomerkmaldetektor 514 eine Tonerfassungsbestätigung an den Stimmenaktivitätsdetektor 516. In einigen Beispielen ist der Auslöseschwellwert für das Merkmal erfüllt, wenn der Audiomerkmaldetektor 514 eine bestimmte Änderungsrate in einem Audiosignal erfasst (z.B. ein abruptes Tonmerkmal). Die Tonerfassungsbestätigung bestätigt das Vorhandensein von Tönen in den Audiosensordaten, die von der VPU 108 weiter analysiert werden sollten. Im dargestellten Beispiel können die Töne beliebige Töne oder Geräusche wie Stimmen, Händeklatschen, Tierlaute, Autohupen, Schüsse usw. sein. Der beispielhafte Stimmaktivitätsdetektors 516 analysiert die Audiosensordaten mit Hilfe der Stimmenmerkmalerfassungsanalyse, um festzustellen, ob ein Teil davon repräsentativ für die Stimme einer Person ist. Beispielsweise können die Audiosensordaten ein Audio-Sampling von Umgebungsgeräuschen oder -tönen, die nicht die Stimme einer Person sind, und/oder ein Audio-Sampling der Stimme einer Person mit oder ohne Hintergrundgeräusche oder -töne sein. In jedem Fall sendet der beispielhafte Stimmaktivitätsdetektor 516 eine Stimmenerfassungsbestätigung an die CNN-Aufwachworterkennungseinrichtung 518, wenn eine Stimme erkannt wird.
Die beispielhafte CNN-Aufwachworterkennungseinrichtung 518 analysiert die Audiosensordaten, um bestimmte Aufwachwörter zu identifizieren, auf deren Erkennung die CNN-Aufwachworterkennungseinrichtung 518 auf der Grundlage von Spracherkennungsalgorithmen trainiert ist. Beispiele für Aufwachwörter, die in der CNN-Aufwachworterkennungseinrichtung 518 trainiert sein können, sind Personennamen, Haus, Auto, außen, innen, bitte, wollen, hören, aufwachen, aufnehmen, erfassen, Video, Hallo, Hi, Kamera ein, Kamera aus, Hilfe usw. In einigen Beispielen können auch Aufwachphrasen definiert sein. Die beispielhafte CNN-Aufwachworterkennungseinrichtung 518 sendet eine Aufwachworterkennungsbestätigung an die CNN-Befehlsworterkennungseinrichtung 520, wenn ein Aufwachwort erkannt wird.
In dem dargestellten Beispiel erzeugt die CNN-Aufwachworterkennungseinrichtung 518 auch Audiometadaten, die den analysierten Audiosensordaten entsprechen. Solche Audiometadaten können der Name eines Sprechers, das Alter eines Sprechers, das Geschlecht eines Sprechers, die Art des gesprochenen Befehls usw. sein. In dem dargestellten Beispiel erzeugt die CNN-Aufwachworterkennungseinrichtung 518 die Audiometadaten durch Zugriff auf die Metadaten aus einer lokalen Referenzaudiometadatenbibliothek oder Referenzaudiometadatendatenbank, die Metadatenbegriffe in Verbindung mit entsprechenden Referenzaudiomerkmaldefinitionen speichert. Um Audiometadaten abzurufen, kann die CNN-Aufwachworterkennungseinrichtung 518 Audiomerkmale aus den Audiosensordaten mit den Referenzaudiomerkmalsdefinitionen in der lokalen Referenzaudiometadatenbibliothek oder -datenbank vergleichen. In einigen Beispielen kann eine erweiterte Referenzaudiometadatenbibliothek oder Referenzaudiometadatendatenbank auf dem Cloudsystem 206 gespeichert sein und von der CNN-Aufwachworterkennungseinrichtung 518 über eine API für eine solche cloudbasierte Bibliothek oder Datenbank abgerufen werden.
Die beispielhafte CNN-Befehlsworterkennungseinrichtung 520 analysiert die Audiosensordaten, um bestimmte Befehlswörter zu identifizieren, auf deren Erkennung die CNN-Befehlsworterkennungseinrichtung 520 auf der Grundlage von Spracherkennungsalgorithmen trainiert ist. In dem dargestellten Beispiel sind Befehlswörter eine Teilmenge von Aufwachwörtern, so dass die Aufwachwörter bewirken, dass die mobilen Kameras 100, 204 in einen Betriebszustand mit höherem Stromverbrauch übergehen (z.B. dem Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 von 3 und 4), wobei aber nur eine Teilmenge der Aufwachwörter auch als Befehlswörter definiert ist, die bewirken, dass die mobilen Kameras 100, 204 in einen vollständig wachen Zustand übergehen und/oder entsprechende Operationen durchführen. Beispielhafte Befehlswörter, die in die CNN-Befehlsworterkennungseinrichtung 520 trainiert sein können, sind z.B. Aufwachen, Aufzeichnen, Erfassen, Kamera ein, Kamera aus, Kamera aus, Hilfe usw. Die beispielhafte CNN-Befehlsworterkennungseinrichtung 520 gibt entsprechende Audiometadaten für verschiedene erkannte Befehlswörter aus, die im Beispiel von 5A als Befehl (1) bis Befehl (n) gezeigt sind. Im dargestellten Beispiel empfängt ein Befehlswortmultiplexer 522 die Audiometadaten für den erkannten Befehl (1) bis Befehl (n) und gibt die Audiometadaten wie allgemein durch das Bezugszeichen 524 angegeben an den beispielhaften Vollaufwachereignismultiplexer 510 aus.
Um eine Analyse von Bildern mit niedriger Auflösung während des Merkmalerfassungszustands bei Kamera mit niedriger Auflösung 308 (3) durchzuführen, ist die beispielhafte VPU 108 mit einem beispielhaften Bildmerkmaldetektor 528, der mit der Kamera mit niedriger Auflösung 102a in Schaltung ist, einem beispielhaften CNN-Gesichtsdetektor 530, der mit dem Bildmerkmaldetektor 528 in Schaltung ist, einer beispielhaften CNN-Aufwachgesichtserkennungseinrichtung 532, die mit dem CNN-Gesichtsdetektor 530 in Schaltung ist, und einer beispielhaften CNN-Gesichtserkennungseinrichtung 534 versehen, die mit der CNN-Aufwachgesichtserkennungseinrichtung 532 in Schaltung ist. Der beispielhafte Bildmerkmaldetektor 528 ist vorgesehen, um sichtbare Aktivität in der Nähe der mobilen Kamera 100, 204 zu erfassen, indem visuelle Aufnahmen mit niedriger Auflösung von der Kamera mit niedriger Auflösung 102a empfangen und Bildmerkmalerfassungsanalysen auf den visuellen Aufnahmen mit niedriger Auflösung durchgeführt werden. In dem dargestellten Beispiel ist der Bildmerkmaldetektor 528 durch den DSP 118 von 1A implementiert, und die visuellen Aufnahmen liegen in Form von Pixeldaten vor (z.B. Multi-Bit-Farbpixeldaten oder Multi-Bit-Schwarzweißpixeldaten). In einigen Beispielen stellt die Kamera mit niedriger Auflösung 102a nur dann visuelle Aufnahmedaten an den Bildmerkmaldetektor 528 bereit, wenn die Kamera mit niedriger Auflösung 102a einen Vorverarbeitungsmerkmalerfassungsprozess durchgeführt hat, um festzustellen, ob ein Ereignis von einem Bereich von Interesse (Region of Interest, Rol) erfasst wird. Ein solches Rol-Ereignis kann auftreten, wenn in einer visuellen Aufnahme genügend Beleuchtung vorhanden ist, um ein sichtbar erfassbares Merkmal in der visuellen Aufnahme wahrzunehmen (z.B. mehr als nur ein vollständig gesättigtes dunkles Bild).
Wenn der beispielhafte Bildmerkmaldetektor 528 eine visuelle Aufnahme von der Kamera mit niedriger Auflösung 102a empfängt und ein visuelles Merkmal mit ausreichender visueller Definition und/oder ausreichender Dauer erkennt, um einen Auslöseschwellwert für visuelle Merkmale zu erfüllen, sendet der Bildmerkmaldetektor 528 eine Bilderfassungsbestätigung an den CNN-Gesichtsdetektor 530. Die Bilderfassungsbestätigung bestätigt das Vorhandensein eines ausreichend visuellen Merkmals in der visuellen Aufnahme mit niedriger Auflösung, das von der VPU 108 weiter analysiert werden sollte. Im dargestellten Beispiel kann es sich bei den visuellen Merkmalen um jedes beliebige visuelle Merkmal von Interesse handeln, wie z.B. Objekte, Personen, Fahrzeuge, Kennzeichen, Schilder usw. Im beispielhaften CNN-Gesichtsdetektor 530 wird die visuelle Aufnahme mit niedriger Auflösung mit Hilfe der Gesichtsmerkmalerfassungsanalyse analysiert, um festzustellen, ob ein Teil davon repräsentativ für ein Gesicht ist. Die visuelle Aufnahme mit niedriger Auflösung kann z.B. visuelle Merkmale enthalten, die nicht für das Gesicht einer Person repräsentativ sind, und/oder kann visuelle Merkmale enthalten, die für das Gesicht einer Person mit oder ohne andere visuelle Merkmale repräsentativ sind. In jedem Fall sendet der beispielhafte CNN-Gesichtsdetektor 530 eine Gesichtserfassungsbestätigung an die CNN-Aufwachgesichtserkennungseinrichtung 532, wenn ein Gesicht erfasst wird.
Die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532 analysiert die visuelle Aufnahme mit niedriger Auflösung, um bestimmte Aufwachgesichter zu identifizieren, auf deren Erkennung die CNN-Aufwachgesichtserkennungseinrichtung 532 auf der Grundlage von Computer-Vision-Algorithmen trainiert ist (z.B. die Computer-Vision-Algorithmen 116 von 1A). Beispiele für Aufwachgesichter, die für die CNN-Aufwachgesichtserkennungseinrichtung 532 trainiert sein können, können in einer lokalen Referenzgesichtsmetadatenbibliothek oder Referenzgesichtsmetadatenbank gespeichert sein, die Metadaten in Verbindung mit entsprechenden Referenzgesichtsbildern oder entsprechenden Referenzmerkmalsvektoren von Gesichtern speichert. Die CNN-Aufwachgesichtserkennungseinrichtung 532 kann ein Vorhandensein eines Gesichts von Interesse in der visuellen Aufnahme mit niedriger Auflösung bestätigen, indem sie das pixelbasierte Bild oder Merkmalsvektoren des Gesichts in der visuellen Aufnahme mit niedriger Auflösung mit visuellen Referenzmerkmalsdefinitionen (z.B. Referenzgesichtsbilder oder Referenzmerkmalsvektoren) in der lokalen Referenzbildmetadatenbibliothek oder - datenbank vergleicht. In einigen Beispielen kann eine erweiterte Referenzbildmetadatenbibliothek oder Referenzbildmetadatenbank im Cloudsystem 206 gespeichert sein und von der CNN-Aufwachgesichtserkennungseinrichtung 532 über eine API für eine solche cloudbasierte Bibliothek oder Datenbank aufgerufen werden. Die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532 sendet eine Aufwachgesichtserfassungsbestätigung an die CNN-Gesichtserkennungseinrichtung 534, wenn ein Aufwachgesicht erfasst wird. In dem dargestellten Beispiel verwendet die CNN-Aufwachgesichtserkennungseinrichtung 532 auch die lokale Referenzbildmetadatenbibliothek oder -datenbank und/oder die erweiterte Referenzbildmetadatenbibliothek oder -datenbank auf dem Cloudsystem 206, um Gesichtsmetadaten zu erzeugen, die den erfassen Gesichtern entsprechen. Solche Gesichtsmetadaten können der Name einer Person, das Alter einer Person, das Geschlecht einer Person usw. sein.
Die beispielhafte CNN-Gesichtserkennungseinrichtung 534 analysiert die visuelle Aufnahme, um bestimmte Gesichter zu identifizieren, auf deren Erkennung die CNN-Gesichtserkennungseinrichtung 534 auf der Grundlage der Computer-Vision-Algorithmen 116 trainiert ist. Die Erkennung solcher bestimmten Gesichter bewirkt, dass die mobile Kamera 100, 204 in einen vollständig wachen Zustand übergeht. In dem dargestellten Beispiel sind Gesichter, die von der CNN-Aufwachgesichtserkennungseinrichtung 532 und der CNN-Gesichtserkennungseinrichtung 534 erkannt werden, eine Teilmenge von Gesichtern, die vom CNN-Gesichtsdetektor 530 erfasst werden, so dass die vom CNN-Gesichtsdetektor 530 erfassten Gesichter die mobilen Kameras 100, 204 dazu veranlassen, in einen Betriebszustand mit höherem Stromverbrauch überzugehen (z.B. den Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 von 3 und 4), wobei aber nur eine Teilmenge der erfassten Gesichter die mobilen Kameras 100, 204 dazu veranlasst, in einen vollständig wachen Zustand überzugehen. Die beispielhafte CNN-Gesichtserkennungseinrichtung 534 gibt entsprechende Gesichtsmetadaten für verschiedene erkannte Gesichter aus, die im Beispiel von 5A als Gesicht (1) bis Gesicht (n) dargestellt sind. In dem dargestellten Beispiel empfängt ein Multiplexer für erkannte Gesichter 536 die Gesichtsmetadaten für das erkannte Gesicht (1) bis Gesicht (n) und gibt die Gesichtsmetadaten, wie allgemein durch das Bezugszeichen 538 angegeben, an den beispielhaften Vollaufwachereignismultiplexer 510 aus.
Zur Durchführung einer Analyse von Bildern mit hoher Auflösung ist die beispielhafte VPU 108 mit einer beispielhaften CNN-Objekterkennungseinrichtung 542 versehen, die sich in Schaltung mit der Kamera mit hoher Auflösung 102c befindet. Die beispielhafte CNN-Objekterkennungseinrichtung 542 ist vorgesehen, um Objekte in der Nähe der mobilen Kamera 100, 204 zu erkennen, indem visuelle Aufnahmen mit hoher Auflösung von der Kamera mit hoher Auflösung 102c analysiert werden, um bestimmte Objekte zu identifizieren, auf deren Erkennung die CNN-Objekterkennungseinrichtung 542 auf der Grundlage der Computer-Vision-Algorithmen 116 trainiert ist. Die Erkennung solcher Objekte führt dazu, dass die mobile Kamera 100, 204 in einen vollständig wachen Zustand übergeht. In dem dargestellten Beispiel erzeugt die CNN-Objekterkennungseinrichtung 542 Objektmetadaten, indem sie auf die Metadaten aus einer lokalen Referenzobjektmetadatenbibliothek oder Referenzobjektmetadatenbank zugreift, die Metadatenbegriffe in Verbindung mit entsprechenden Referenzobjektmerkmalsdefinitionen speichert. Beispielhafte Objektmetadaten umfassen eine Klasse von Objekten (z.B. Person, Tier, natürliches Merkmal, Gebäude, Fahrzeug usw.), Fahrzeugen (z.B. Typ, Marke, Modell, Farbe usw.), Kennzeichen (z.B. Zulassungsstaat, Kennzeichen usw.) usw. Um Objektmetadaten abzurufen, kann die CNN-Objekterkennungseinrichtung 542 Objektmerkmale aus den visuellen Aufnahmen mit hoher Auflösung mit den Referenzobjektmerkmalsdefinitionen in der lokalen Referenzobjektmetadatenbibliothek oder -datenbank vergleichen. In einigen Beispielen kann eine erweiterte Referenzobjektmetadatenbibliothek oder Referenzobjektmetadatenbank auf dem Cloudsystem 206 gespeichert und von der CNN-Objekterkennungseinrichtung 542 über eine API für eine solche cloudbasierte Bibliothek oder Datenbank aufgerufen werden. Die beispielhafte CNN-Objekterkennungseinrichtung 542 gibt entsprechende Objektmetadaten für verschiedene erkannte Objekte aus, die im Beispiel von 5A als Objekt (1) bis Objekt (n) gezeigt sind. In dem dargestellten Beispiel empfängt ein Multiplexer für erkannte Objekte 544 die Objektmetadaten für das erkannte Objekt (1) bis Objekt (n) und gibt die Objektmetadaten, wie allgemein durch das Bezugszeichen 546 angegeben, an den beispielhaften Vollaufwachereignismultiplexer 510 aus.
Im dargestellten Beispiel von 5A ist die VPU 108 mit Multiplexern für Auslösemerkmale 554 mit Ereignisauswahlleitungen 556 versehen, die von der VPU 108 gesteuert werden können, um zu konfigurieren, welche Metadaten, die von den Komponenten der VPU 108, wie oben beschrieben, bereitgestellt werden, die mobilen Kameras 100, 204 dazu veranlassen, zwischen verschiedenen Betriebszuständen der beispielhaften Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 zu wechseln. Um beispielsweise, wie in 5B gezeigt, metadatenbasierte Aufwachereignisse für den Übergang zwischen verschiedenen Betriebszuständen bereitzustellen, ist die VPU 108 mit einer beispielhaften Power-on-Reset (POR) -Zustandsüberführungseinrichtung 562, einer beispielhaften Always-on (AoN) -Zustandsüberführungseinrichtung 564, einer beispielhaften Primärereignis-Zustandsüberführungseinrichtung 566, einer beispielhaften Sekundärereignis-Zustandsüberführungseinrichtung 568, einer beispielhaften Tertiärereignis-Zustandsüberführungseinrichtung 570 und einer beispielhaften Vollaktiv-Zustandsüberführungseinrichtung 572 ausgestattet. In dem dargestellten Beispiel erzeugt die Power-on-Reset-Zustandsüberführungseinrichtung 562 ein Aufwachereignis, um die mobile Kamera 100, 204 aus dem Rücksetzzustand 302 von 3 und 4 zu überführen. Die AoN-Zustandsüberführungseinrichtung 564 des dargestellten Beispiels erzeugt ein Aufwachereignis, um die mobilen Kameras 100, 204 aus dem Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308 zu überführen, basierend darauf, dass der Kamera mit niedriger Auflösung 102a (5A) minimale elektrische Energie zugeführt wird, um Vorverarbeitungsmerkmalerfassungsprozesse durchzuführen, um zu identifizieren, ob ein Ereignis von einem Bereich von Interesse (Region-of-Interest, Rol) erfasst wird. Die Primärereignis-Zustandsüberführungseinrichtung 566, die Sekundärereignis-Zustandsüberführungseinrichtung 568 und die Tertiärereignis-Zustandsüberführungseinrichtung 570 erzeugen Aufwachereignisse, um die mobile Kamera 100, 204 zwischen verschiedenen Zuständen des Bewegungsmerkmalerfassungszustands 304, des Audiomerkmalerfassungszustands 306, des Merkmalerfassungszustands bei Kamera mit niedriger Auflösung 308, des Merkmalerfassungszustands bei Computer-Vision-Verarbeitung 310, des CNN-Merkmalerfassungszustands 312, des Merkmalerfassungszustands bei Kamera mit hoher Auflösung 314 und/oder des Videoaufnahmezustands 316 von 3 und 4 basierend auf verschiedenen Kombinationen von Bewegungsmerkmalen, Audiomerkmalen und/oder visuellen Merkmalen von den verschiedenen Komponenten der VPU 108, die von der VPU 108 über die Ereignisauswahlleitungen 556 der Multiplexer für Auslösemerkmale 554 ausgewählt werden. In einigen Beispielen können der VPU 108 mehr oder weniger Ereigniszustandsübergänge zur Verfügung gestellt werden. In einigen Beispielen ist für jeden der folgenden Zustände eine separate Zustandsüberführungseinrichtung vorgesehen: Bewegungsmerkmalerfassungszustand 304, Audiomerkmalerfassungszustand 306, Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308, Merkmalerfassungszustand bei Computer-Vision-Verarbeitung 310, CNN-Merkmalerfassungszustand 312, Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 und Videoaufnahmezustand 316 (siehe 3 und 4).
Im dargestellten Beispiel von 5A ist der Vollaufwachereignismultiplexer 510 mit Metadatenauswahlleitungen 576 versehen, die von der VPU 108 konfiguriert werden können, um verschiedene Kombinationen von Eingabemetadaten auszuwählen, die der/den erkannten Bewegungsaktivität(en), dem/den erkannten Befehlswort(en), dem/den erkannten Gesicht(ern) und dem/den erkannten Objekt(en) entsprechen, die bewirken sollen, dass die mobilen Kameras 100, 204 in einen vollständig wachen Zustand übergehen. Basierend auf der Auswahl der Metadatenauswahlleitungen 576 und den Eingabemetadaten für den beispielhaften Vollaufwachereignismultiplexer 510 stellt der Vollaufwachereignismultiplexer 510 beispielsweise die Metadatenausgabe 550 bereit. Die Metadatenausgabe 550 wird an die Vollaktiv-Zustandsüberführungseinrichtung 572 (5B) bereitgestellt, um die VPU 108 zu veranlassen, die mobile Kamera 100, 204 vollständig aufzuwachen. In dem dargestellten Beispiel ermöglicht die VPU 108, wenn sie sich in einem vollständig wachen Zustand befindet, einem Kommunikations-Subsystem und der drahtlosen Kommunikationsschnittstelle 110 (1A und 1B), die Metadatenausgabe 550 (z.B. die Metadaten, die allgemein durch die Bezugszeichen 508, 524, 538 und/oder 546 gezeigt werden) an ein entsprechendes Mobiltelefon-Hostgerät 202 und/oder das Cloudsystem 206 zu senden (2). Die beispielhafte Metadatenausgabe 550 kann eine oder mehrere der Metadaten enthalten, die über den Vollaufwachereignismultiplexer 510 empfangen wurden. Basierend auf der Steuerung der Metadatenauswahlleitungen 576 des Vollaufwachereignismultiplexers 510 kann die Metadatenausgabe 550 beispielsweise eine oder mehrere der Eingabemetadaten enthalten, die der/den erkannten Bewegungsaktivität(en), dem/den erkannten Befehlswort(en), dem/den erkannten Gesicht(ern) und/oder dem/den erkannten Objekt(en) entsprechen.
5C veranschaulicht eine beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582, die mit der in 5A und 5B veranschaulichten VPU 108 verwendet werden kann, um die Reihenfolge der Betriebszustände mit unterschiedlichen Stromverbrauchsstufen der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 von 3 zu konfigurieren. Die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 ordnet die Betriebszustände und Aktivierungen von entsprechenden Sensoren in der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 an und/oder ordnet sie neu, so dass die beispielhaften Zustandsüberführungseinrichtungen 566, 668, 570, 572 unterschiedliche Abfolgen von Übergängen zwischen Betriebszuständen und entsprechenden Sensoren entlang der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 bewirken. Um beispielsweise eine solche Reihenfolge der Betriebszustände zu implementieren, ist die Zustandsreihenfolgekonfigurationseinrichtung 582 mit konfigurierbaren Logikschaltungen versehen, um verschiedene der Eingänge von den Multiplexern für Auslösemerkmale 554 von 5A zu verschiedenen der beispielhaften Zustandsüberführungseinrichtungen 566, 668, 570, 572 zu leiten. In einigen Beispielen ordnet die Zustandsreihenfolgekonfigurationseinrichtung 582 die Reihenfolge die Betriebszustände mit verschiedenen Stromverbrauchsstufen der beispielhaften Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 auf der Grundlage der Eingänge von den Multiplexern für Auslösemerkmale 554 neu an. Wenn beispielsweise eine Kombination von Ereignissen innerhalb einer kurzen Schwellwertdauer erfasst wird, kann die Zustandsreihenfolgekonfigurationseinrichtung 582 die Wege zwischen den Multiplexern für Auslösemerkmale 554 und den verschiedenen der beispielhaften Zustandsüberführungseinrichtungen 566, 668, 570, 572 so steuern, dass sie in einen Betriebszustand mit anderer Stromverbrauchsstufe übergehen, als wenn eine solche Kombination von Ereignissen nicht erfasst würde oder wenn eine andere Kombination von Ereignissen erfasst würde. Zum Beispiel kann die Zustandsreihenfolgekonfigurationseinrichtung 582 als Reaktion auf die Erfassung einer Hochgeschwindigkeitsbewegung (z.B. Autofahren) und die gleichzeitige Erfassung eines quietschenden Geräusches (z.B. Schleudern von Reifen) die Wege zwischen den Multiplexern für Auslösemerkmale 554 und den verschiedenen der beispielhaften Zustandsüberführungseinrichtung 566, 668, 570, 572 steuern, um vom beispielhaften Bewegungsmerkmalerfassungszustand 304 zum beispielhaften Videoaufnahmezustand 316 überzugehen. Dies kann für die Videoaufnahme eines bevorstehenden Fahrzeugunfalls nützlich sein.
Im dargestellten Beispiel ermöglicht die Zustandsreihenfolgekonfigurationseinrichtung 582 eine dynamische Änderung der Reihenfolge der Betriebszustände der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300. In einigen Beispielen beziehen sich solche Änderungen auf Richtliniendefinitionen. In solchen oder anderen Beispielen sind solche Modifikationen mit Hilfe von Firmware, Software und/oder Steuerregistern implementiert. In einigen Beispielen ermöglicht es die Zustandsreihenfolgekonfigurationseinrichtung 582 der mobilen Kamera 100, 204, einen oder mehrere Betriebszustände zu überspringen, um entlang der Betriebszustandshierarchie mit mehreren Stromverbrauchsstufen 300 zu höheren oder niedrigeren Stromverbrauchszuständen zu wechseln.
Während eine beispielhafte Art und Weise der Implementierung der mobilen Kamera 100, 204 und der VPU 108 in 1A, 1B, 2, 5A, 5B und 5C dargestellt ist, können eines oder mehrere der in 1A, 1B, 2, 5A, 5B und 5C dargestellten Elemente, Prozesse und/oder Geräte kombiniert, geteilt, neu angeordnet, weggelassen, eliminiert und/oder auf jede andere Art und Weise implementiert werden. Des Weiteren sind die beispielhafte CNN-Merkmalanalyseeinrichtung 114, die beispielhaften Computer-Vision-Algorithmen 116 und/oder die beispielhaften digitalen Signalprozessoren 118 von 1A, der beispielhafte Bewegungsmerkmaldetektor 502, die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504, der beispielhafte Bewegungsaktivitätsmultiplexer 506, der beispielhafte Vollaufwachereignismultiplexer 510, der beispielhafte Audiomerkmaldetektor 514, der beispielhafte Stimmaktivitätsdetektor 516, die beispielhafte CNN-Aufwachworterkennungseinrichtung 518, die beispielhafte CNN-Befehlsworterkennungseinrichtung 520, der beispielhafte Befehlswortmultiplexer 522, der beispielhafte Bildmerkmaldetektor 528, der beispielhafte CNN-Gesichtsdetektor 530, die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532, die beispielhafte CNN-Gesichtserkennungseinrichtung 534, der beispielhafte Multiplexer für erkannte Gesichter 536, die beispielhafte CNN-Objekterkennungseinrichtung 542 und/oder die beispielhaften Multiplexer für Auslösemerkmale 554 von 5A, die beispielhafte POR-Zustandsüberführungseinrichtung 562, die beispielhafte AoN-Zustandsüberführungseinrichtung 564, die beispielhafte Primärereignis-Zustandsüberführungseinrichtung 566, die beispielhafte Sekundärereignis-Zustandsüberführungseinrichtung 568, die beispielhafte Tertiärereignis-Zustandsüberführungseinrichtung 570 und/oder die beispielhafte Vollaktiv-Zustandsüberführungseinrichtung 572 von 5B und/oder die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C und/oder, allgemeiner, die beispielhafte mobilen Kamera 100, 204 und/oder VPU 108 können durch Hardware, Software, Firmware und/oder eine beliebige Kombination von Hardware, Software und/oder Firmware implementiert sein. So kann z.B. jede der beispielhaften CNN-Merkmalanalyseeinrichtung 114, die beispielhaften Computer-Vision-Algorithmen 116 und/oder der beispielhafte digitale Signalprozessor 118 von 1A, der beispielhafte Bewegungsmerkmaldetektor 502, die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504, der beispielhafte Bewegungsaktivitätsmultiplexer 506, der beispielhafte Vollaufwachereignismultiplexer 510, der beispielhafte Audiomerkmaldetektor 514, der beispielhafte Stimmaktivitätsdetektor 516, die beispielhafte CNN-Aufwachworterkennungseinrichtung 518, die beispielhafte CNN-Befehlsworterkennungseinrichtung 520, der beispielhafte Befehlswortmultiplexer 522, der beispielhafte Bildmerkmaldetektor 528, der beispielhafte CNN-Gesichtsdetektor 530, die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532, die beispielhafte CNN-Gesichtserkennungseinrichtung 534, der beispielhafte Multiplexer für erkannte Gesichter 536, die beispielhafte CNN-Objekterkennungseinrichtung 542 und/oder die beispielhaften Multiplexer für Auslösemerkmale 554 von 5A, die beispielhafte POR-Zustandsüberführungseinrichtung 562, die beispielhafte AoN-Zustandsüberführungseinrichtung 564, die beispielhafte Primärereignis-Zustandsüberführungseinrichtung 566, die beispielhafte Sekundärereignis-Zustandsüberführungseinrichtung 568, die beispielhafte Tertiärereignis-Zustandsüberführungseinrichtung 570 und/oder die beispielhafte Vollaktiv-Zustandsüberführungseinrichtung 572 von 5B und/oder die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C und/oder, allgemeiner, die beispielhafte mobile Kamera 100, 204 und/oder VPU 108 könnte durch eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, programmierbare(n) Prozessor(en), programmierbare(n) Steuereinrichtung(en), Grafikverarbeitungseinheit(en) (GPU(s)), digitale(n) Signalprozessor(en) (DSP(s)), anwendungsspezifische(n) integrierte(n) Schaltung(en) (ASIC(s)), programmierbare(n) Logikbaustein(e) (PLD(s)) und/oder feldprogrammierbare(n) Logikbaustein(e) (FPLD(s)) implementiert sein. Wenn einer der Vorrichtungs- oder Systemansprüche dieses Patents so lesen werden, dass sie eine reine Software- und/oder Firmware-Implementierung abdeckt, ist/sind mindestens eine der beispielhaften CNN-Merkmalsanalyseeinrichtungen 114, die beispielhaften Computer-Vision-Algorithmen 116 und/oder die beispielhaften digitalen Signalprozessoren 118 von 1A, der beispielhafte Bewegungsmerkmaldetektor 502, die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504, der beispielhafte Bewegungsaktivitätsmultiplexer 506, der beispielhafte Vollaufwachereignismultiplexer 510, der beispielhafte Audiomerkmaldetektor 514, der beispielhafte Stimmaktivitätsdetektor 516, die beispielhafte CNN-Aufwachworterkennungseinrichtung 518, die beispielhafte CNN-Befehlsworterkennungseinrichtung 520, der beispielhafte Befehlswortmultiplexer 522, der beispielhafte Bildmerkmaldetektor 528, der beispielhafte CNN-Gesichtsdetektor 530, die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532, die beispielhafte CNN-Gesichtserkennungseinrichtung 534, der beispielhafte Multiplexer für erkannte Gesichter 536, die beispielhafte CNN-Objekterkennungseinrichtung 542 und/oder die beispielhaften Multiplexer für Auslösemerkmale 554 von 5A, die beispielhafte POR-Zustandsüberführungseinrichtung 562, die beispielhafte AoN-Zustandsüberführungseinrichtung 564, die beispielhafte Primärereignis-Zustandsüberführungseinrichtung 566, die beispielhafte Sekundärereignis-Zustandsüberführungseinrichtung 568, die beispielhafte Tertiärereignis-Zustandsüberführungseinrichtung 570 und/oder die beispielhafte Vollaktiv-Zustandsüberführungseinrichtung 572 von 5B und/oder die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C hiermit ausdrücklich so definiert, dass sie ein nichttransitorisches computerlesbares Speichergerät oder eine Speicherplatte wie einen Speicher, eine Digital Versatile Disk (DVD), eine Compact Disk (CD), eine Blu-ray-Disk usw. einschließlich der Software und/oder Firmware umfassen. Darüber hinaus kann die beispielhafte mobile Kamera 100, 204 und/oder die VPU 108 ein oder mehrere Elemente, Prozesse und/oder Geräte zusätzlich zu oder anstelle der in den 1A, 1B, 2, 5A, 5B und 5C dargestellten Elemente, Prozesse und/oder Geräte enthalten und/oder mehr als eines oder alle der dargestellten Elemente, Prozesse und Geräte enthalten. Der Ausdruck „in Kommunikation“, wie er hier verwendet wird, schließt direkte Kommunikation und/oder indirekte Kommunikation durch eine oder mehrere Zwischenkomponenten ein und erfordert keine direkte physische (z.B. verdrahtete) Kommunikation und/oder ständige Kommunikation, sondern schließt zusätzlich selektive Kommunikation in periodischen Intervallen, geplanten Intervallen, aperiodischen Intervallen und/oder einmaligen Ereignissen ein.
In einigen hier offenbarten Beispielen können Mittel zum Erkennen von Merkmalen in Sensordaten unter Verwendung eines oder mehrerer der CNN-Merkmalsanalyseeinrichtungen 114 von 1A, der CNN-Bewegungsaktivitätserkennungseinrichtung 504, der CNN-Aufwachworterkennungseinrichtung 518, der CNN-Befehlsworterkennungseinrichtung 520, der CNN-Aufwachgesichtserkennungseinrichtung 532, der CNN-Gesichtserkennungseinrichtung 534 und/oder der CNN-Objekterkennungseinrichtung 542 von 5A implementiert sein. In einigen Beispielen, die hier offenbart sind, sind Mittel zum Überführen der mobilen Kamera 100, 204 zwischen verschiedenen Merkmalerfassungszuständen (z.B. dem Bewegungsmerkmalerfassungszustand 304, dem Audiomerkmalerfassungszustand 306, dem Merkmalerfassungszustand bei Kamera mit niedriger Auflösung 308, dem Merkmalerfassungszustand bei Computer-Vision-Verarbeitung 310, dem CNN-Merkmalerfassungszustand 312, dem Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 und/oder dem Videoaufnahmezustand 316 von 3 und 4) können unter Verwendung einer oder mehrerer der beispielhaften POR-Zustandsüberführungseinrichtung 562, der beispielhaften AoN-Zustandsüberführungseinrichtung 564, der beispielhaften Primärereignis-Zustandsüberführungseinrichtung 566, der beispielhaften Sekundärereignis-Zustandsüberführungseinrichtung 568, der beispielhaften Tertiärereignis-Zustandsüberführungseinrichtung 570 und/oder der beispielhaften Vollaktiv-Zustandsüberführungseinrichtung 572 von 5B implementiert sein. In einigen hier offenbarten Beispielen können Mittel zum Kommunizieren durch die drahtlose Kommunikationsschnittstelle 110 von 1A und 1B und/oder durch die Schnittstellenschaltung 720 von 7 implementiert sein. In einigen Beispielen können Mittel zum Erfassen von Merkmalen durch einen oder mehrere den Bewegungsmerkmaldetektor 502, den Audiomerkmaldetektor 515 und/oder den Bildmerkmaldetektor 528 von 5A implementiert sein. In einigen Beispielen, die hier offenbart sind, können Mittel zum Konfigurieren der Betriebszustandsreihenfolge durch die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C implementiert sein.
Ein Flussdiagramm, das die beispielhafte Hardware-Logik oder maschinenlesbare Anweisungen für die Implementierung der mobilen Kamera 100, 204 und/oder der VPU 108 von 1A, 1B, 2, 5A, 5B und 5C repräsentiert, ist in 6 dargestellt. Bei den maschinenlesbaren Befehlen kann es sich um ein Programm oder einen Teil eines Programms zur Ausführung durch einen Prozessor wie die VPU 108 und/oder den Prozessor 712 handeln, der in dem unten in Verbindung mit 7 besprochenen Beispiel der Prozessorplattform 700 gezeigt ist. Das Programm kann in Software verkörpert sein, die auf einem nichttransitorischen computerlesbaren Speichermedium wie einer CD-ROM, einer Diskette, einer Festplatte, einer DVD, einer Blu-ray-Disk oder einem mit dem Prozessor 712 verbundenen Speicher gespeichert ist, aber das gesamte Programm und/oder Teile davon können alternativ auch von einem anderen Gerät als dem Prozessor 712 ausgeführt werden und/oder in Firmware oder spezieller Hardware verkörpert sein. Obwohl das beispielhafte Programm unter Bezugnahme auf das in 6 dargestellte Flussdiagramm beschrieben wird, können alternativ viele andere Verfahren zur Implementierung der beispielhaften mobilen Kamera 100, 204 und/oder der VPU 108 verwendet werden. Zum Beispiel kann die Ausführungsreihenfolge der Blöcke geändert werden, und/oder einige der beschriebenen Blöcke können geändert, eliminiert oder kombiniert werden. Zusätzlich oder alternativ können einzelne oder alle Blöcke durch eine oder mehrere Hardwareschaltungen (z.B. diskrete und/oder integrierte analoge und/oder digitale Schaltungen, ein FPGA, ein ASIC, ein Komparator, ein Operationsverstärker (Operationsverstärker), eine Logikschaltung usw.) implementiert sein, die so strukturiert sind, dass sie die entsprechende Operation ohne Ausführung von Software oder Firmware durchführen.
Wie oben erwähnt, kann der beispielhafte Prozess von 6 mit ausführbaren Befehlen (z.B. computer- und/oder maschinenlesbaren Befehlen) implementiert sein, die auf einem nichttransitorischen computer- und/oder maschinenlesbaren Medium wie einem Festplattenlaufwerk, einem Flash-Speicher, einem Festwertspeicher, einem Festspeicher, einer Compact Disk, einer Digital Versatile Disk, einem Cache, einem Direktzugriffsspeicher und/oder einem anderen Speichergerät oder einer Speicherplatte gespeichert sind, in dem bzw. auf der Informationen für eine beliebige Dauer (z.B. für längere Zeiträume, permanent, für kurze Zeiträume, zur vorübergehenden Pufferung und/oder zur Zwischenspeicherung der Informationen) gespeichert sind. Wie hier verwendet, wird der Begriff nichttransitorisches computerlesbares Medium ausdrücklich so definiert, dass er jede Art von computerlesbarem Speichergerät und/oder Speicherplatte einschließt und sich ausbreitende Signale und Übertragungsmedien ausschließt.
Die Begriffe „einschließend“ und „umfassend“ (und alle Formen und Zeitformen davon) werden hier als offene Begriffe verwendet. Wann immer also ein Anspruch irgendeine Form von „einschließen“ oder „umfassen“ (z.B. umfassen, einschließen, umfassend, enthaltend, aufweisend usw.) als Präambel oder innerhalb einer Anspruchsrezitation irgendwelcher Art verwendet, ist es so zu verstehen, dass zusätzliche Elemente, Begriffe usw. vorhanden sein können, ohne aus dem Anwendungsbereich des entsprechenden Anspruchs oder der entsprechenden Rezitation herauszufallen. Wenn der Ausdruck „mindestens“, wie er hier verwendet wird, z.B. in der Präambel eines Anspruchs als Übergangsbegriff verwendet wird, ist er in derselben Weise offen, wie die Begriffe „umfassen“ und „einschließen“ offen enden. Der Ausdruck „und/oder“ bezieht sich, wenn er z.B. in einer Form wie A, B und/oder C verwendet wird, auf jede Kombination oder Teilmenge von A, B, C wie (1) A allein, (2) B allein, (3) C allein, (4) A mit B, (5) A mit C und (6) B mit C.
Um auf 6 im Detail zurückzukommen: Das beispielhafte Programm überführt die mobile Kamera 100, 204 zwischen dem ersten und zweiten Merkmalerfassungszustand. Die Merkmalerfassungszustände können alle Betriebszustände der beispielhafte Betriebszustandshierarchie 300 von 3 sein. Somit können die in 6 dargestellten beispielhaften Operationen von beliebigen Komponenten einer mobilen Kamera 100, 204 und/oder der VPU 108 von 1A, 1B, 5A, 5B und/oder 5C ausgeführt werden, die den Merkmalerfassungszuständen entsprechen, für die das beispielhafte Programm von 6 verwendet wird.
Das Programm von 6 beginnt bei Block 602, an dem die beispielhafte VPU 108 (1A, 1B, 6A und 6B) auf Sensordaten zugreift. Bei den Sensordaten kann es sich zum Beispiel um Bewegungssensordaten, Audiosensordaten und/oder Daten von visuellen Aufnahmen handeln, die vom Bewegungsmerkmaldetektor 502, dem Audiomerkmaldetektor 514 und/oder dem Bildmerkmaldetektor 528 von 5A erhalten wurden. Die beispielhafte VPU 108 bestimmt, ob ein Merkmal von Interesse in den Sensordaten (Block 604) erfasst wurde. In einigen Beispielen analysiert der Bewegungsmerkmaldetektor 502 die Sensordaten auf ein Bewegungsmerkmal mit ausreichender Größe und/oder ausreichender Dauer, um einen Bewegungsmerkmal-Auslöseschwellwert zu erfüllen. In einigen Beispielen analysiert der Audiomerkmaldetektor 514 die Sensordaten auf ein Audiomerkmal mit ausreichender Amplitude und/oder ausreichender Dauer, um einen Audiomerkmal-Auslöseschwellwert zu erfüllen. In einigen Beispielen analysiert der Bildmerkmaldetektor 528 die Sensordaten auf ein visuelles Merkmal mit ausreichender visueller Definition und/oder ausreichender Dauer, um einen Auslöseschwellwert für visuelle Merkmale zu erfüllen. Wenn ein Merkmal von Interesse in Block 604 nicht erkannt wurde, kehrt die Steuerung zu Block 602 zurück, um weitere Sensordaten zur Analyse zu erhalten.
Wenn die VPU 108 bei Block 604 feststellt, dass ein Merkmal von Interesse in den Sensordaten erfasst wird, führt die beispielhafte VPU 108 eine Merkmalserkennungsanalyse auf den Sensordaten durch (Block 606). In einigen Beispielen wird die Bewegungsaktivitätserkennung durch die CNN-Bewegungsaktivitätserkennungseinrichtung 504 durchgeführt (5A). In einigen Beispielen wird die Worterkennung durch die CNN-Aufwachworterkennungseinrichtung 518 und/oder die CNN-Befehlsworterkennungseinrichtung 520 durchgeführt (5A). In einigen Beispielen wird die Gesichtserkennung durch die CNN-Aufwachgesichtserkennungseinrichtung 532 und/oder die CNN-Gesichtserkennungseinrichtung 534 durchgeführt (5A). Die beispielhafte VPU 108 erzeugt entsprechende Metadaten für ein erkanntes Merkmal in den Sensordaten (Block 608). In einigen Beispielen erzeugt die CNN-Bewegungsaktivitätserkennungseinrichtung 504 Bewegungsmetadaten. In einigen Beispielen erzeugt die CNN-Aufwachworterkennungseinrichtung 518 und/oder die CNN-Befehlsworterkennungseinrichtung 520 Audiometadaten. In einigen Beispielen erzeugen die CNN-Aufwachgesichtserkennungseinrichtung 532 und/oder die CNN-Gesichtserkennungseinrichtung 534 Gesichtsmetadaten. Die beispielhafte VPU 108 bestimmt, ob die mobile Kamera 100, 204 in einen anderen Betriebszustand übergehen soll (Block 610). Zum Beispiel kann eine Zustandsüberführungseinrichtung 562, 564, 566, 568, 570 oder 572 (5B), die einem aktuellen Betriebszustand der mobilen Kamera 100, 204 entspricht, bestimmen, ob die mobile Kamera 100, 204 in einen anderen Betriebszustand übergehen soll, basierend darauf, ob das Merkmal von Interesse, das in Block 606 erkannt wurde, einen Schwellwert erfüllt, der einen solchen Zustandsübergang rechtfertigt. Wenn in der beispielhaften VPU 108 in Block 610 festgestellt wird, dass die mobile Kamera 100, 204 nicht in einen anderen Betriebszustand übergehen soll, kehrt die Steuerung zu Block 602 zurück, um weitere Sensordaten zur Analyse zu erhalten.
Wenn die beispielhafte VPU 108 bei Block 610 bestimmt, dass die mobile Kamera 100, 204 in einen anderen Betriebszustand übergehen soll, wechselt die VPU 108 die mobile Kamera 100, 204 von einem aktuellen Merkmalerfassungszustand in einen nächsten Merkmalerfassungszustand (Block 612). Beispielsweise wechselt eine Zustandsüberführungseinrichtung 562, 564, 566, 568, 570 oder 572, die einem aktuellen Betriebszustand der mobilen Kamera 100, 204 entspricht, die mobile Kamera 100, 204 von einem aktuellen Merkmalerfassungszustand in einen nächsten Merkmalerfassungszustand auf der Grundlage des in Block 606 erkannten Merkmals von Interesse. In einigen Beispielen trägt der nächste Merkmalerfassungszustand zu einem verhältnismäßig höheren Stromverbrauch der mobilen Kamera 100, 204 bei als der aktuelle Merkmalerfassungszustand, in dem die mobile Kamera 100, 204 vor dem Übergang von Block 612 arbeitet. In einigen Beispielen trägt die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C zur Implementierung von Block 612 bei, indem sie die Reihenfolge der Betriebszustände, zwischen denen der Übergang bei Block 612 stattfindet, steuert oder konfiguriert.
Die beispielhafte VPU 108 greift auf Sensordaten (Block 614) zu. Zum Beispiel erhält ein Merkmaldetektor 502, 514, 528 (5A), der dem Betriebszustand entspricht, in den die mobile Kamera 100, 204 bei Block 612 übergegangen ist, entsprechende Sensordaten. In Beispielen, in denen die VPU 108 die mobile Kamera 100, 204 in den Merkmalerfassungszustand bei Kamera mit hoher Auflösung 314 und/oder den Videoaufnahmezustand 316 übergeht, erhält die CNN-Objekterkennungseinrichtung 542 die Sensordaten bei Block 614. Die beispielhafte VPU 108 bestimmt, ob ein Merkmal von Interesse in den Sensordaten (Block 616) erkannt wurde. Beispielsweise kann ein Merkmaldetektor 502, 514, 528 eine Merkmalerfassungsanalyse bei Block 616 auf den Sensordaten durchführen, um festzustellen, ob ein Merkmal von Interesse in den Sensordaten vorhanden ist. In einigen Beispielen mit Sensordaten, die visuelle Aufnahmen darstellen, kann der CNN-Gesichtsdetektor 530 von 5A eine Merkmalerfassungsanalyse auf den Sensordaten bei Block 616 durchführen, nachdem der Bildmerkmaldetektor 528 ein visuelles Merkmal von Interesse in den Sensordaten erfasst hat. In einigen Beispielen mit Sensordaten, die Audiodaten enthalten, kann der Stimmaktivitätsdetektor 516 von 5A eine Merkmalerfassungsanalyse auf den Sensordaten in Block 616 durchführen, nachdem der Audiomerkmaldetektor 514 ein Audiomerkmal von Interesse in den Sensordaten erfasst hat. Wenn ein Merkmal von Interesse in Block 616 nicht erfasst wurde, kehrt die Steuerung zu Block 614 zurück, um weitere Sensordaten zur Analyse zu erhalten. In einigen Beispielen kann die VPU 108 nach einer Schwellwert-Zeitdauer oder einer Schwellwert-Zahl von Malen, in denen die VPU 108 kein Merkmal von Interesse in den Sensordaten in Block 616 erfasst, die Kamera 100, 204 in einen früheren Betriebszustand zurückversetzen und die Steuerung kehrt zu Block 602 zurück.
Wenn die VPU 108 bei Block 616 feststellt, dass ein Merkmal von Interesse in den Sensordaten erfasst wurde, führt die beispielhafte VPU 108 eine Merkmalserkennungsanalyse auf den Sensordaten durch (Block 618). In dem dargestellten Beispiel wird die Merkmalserkennungsanalyse von einer CNN-Erkennungseinrichtung 504, 518, 520, 532, 534 und/oder 542 von 5A durchgeführt, die dem Betriebszustand entspricht, in dem die mobile Kamera 100, 204 derzeit in Betrieb ist. Die beispielhafte VPU 108 erzeugt entsprechende Metadaten für ein erkanntes Merkmal in den Sensordaten (Block 620). Die beispielhafte VPU 108 bestimmt, ob gesammelte Informationen an ein externes Ziel gesendet werden sollen (Block 622). Beispielsweise kann die VPU 108 auf der Grundlage der Eingaben in den Vollaufwachereignismultiplexer 510 (5A) bestimmen, ob die in Block 620 und/oder Block 608 erzeugten Metadaten als Metadatenausgabe 550 von der mobilen Kamera 100, 204 an ein entsprechendes Mobiltelefon-Hostgerät 202 (2), an eine andere mobilen Kamera 100, 204 und/oder an das Cloudsystem 206 (2) gesendet werden sollen. In einigen Beispielen bestimmt die VPU 108 zusätzlich oder alternativ, ob die Sensordaten von Block 602 und/oder Block 614 an ein externes Ziel gesendet werden sollen. Wenn die VPU 108 bei Block 622 entscheidet, die gesammelten Informationen nicht an ein externes Ziel zu senden, kehrt die Steuerung zu Block 614 zurück, um auf weitere Sensordaten zuzugreifen.
Wenn die beispielhafte VPU 108 bei Block 622 bestimmt, die gesammelten Informationen an ein externes Ziel zu senden, aktiviert die VPU 108 die drahtlose Kommunikationsschnittstelle 110 (1A und 1B) (Block 624). Beispielsweise versorgt die Vollaktiv-Zustandsüberführungseinrichtung 572 ( 5B) die drahtlose Kommunikationsschnittstelle 110 mit Strom und/oder versetzt eine Aktivierungsleitung der drahtlosen Kommunikationsschnittstelle 110 in den aktiven Zustand. Die beispielhafte VPU 108 sendet die gesammelten Informationen (Block 626). Beispielsweise kann die VPU 108 die in Block 620 und/oder Block 608 erzeugten Metadaten und/oder die Sensordaten von Block 602 und/oder Block 614 von der mobilen Kamera 100, 204 an ein entsprechendes Mobiltelefon-Hostgerät 202, an eine andere mobilen Kamera 100, 204 und/oder an das Cloudsystem 206 senden. In einigen Beispielen senden das Mobiltelefon-Hostgerät 202 und/oder die andere mobilen Kamera 100, 204 ihrerseits die gesammelten Informationen an das Cloudsystem 206. Der beispielhafte Prozess von 6 endet.
7 zeigt ein Blockdiagramm einer beispielhaften Prozessorplattform 700, die so aufgebaut ist, dass sie die Anweisungen von 6 ausführt, um die mobile Kamera 100, 204 von 1A, 1B und 2 und/oder die VPU 108 von 1A, 1B, 5A, 5B und 5C zu implementieren. Die Prozessorplattform 700 kann z.B. eine Kamera, ein Computer, eine selbstlernende Maschine (z.B. ein neuronales Netzwerk), ein mobiles Gerät (z.B. ein Mobiltelefon, ein Smartphone, ein Tablet wie ein iPad™), ein persönlicher digitaler Assistent (PDA), eine Internet-Appliance, ein digitaler Videorecorder, eine Spielkonsole, ein persönlicher Videorecorder, ein Headset oder ein anderes tragbares Gerät oder jede andere Art von Computergerät sein.
Die Prozessorplattform 700 des dargestellten Beispiels enthält einen Prozessor 712. Der Prozessor 712 des dargestellten Beispiels ist Hardware. Zum Beispiel kann der Prozessor 712 durch eine oder mehrere integrierte Schaltungen, Logikschaltungen, Mikroprozessoren, GPUs, DSPs oder Steuereinrichtungen jeder gewünschten Familie oder jedes gewünschten Herstellers implementiert sein. Der Hardware-Prozessor 712 kann ein halbleiterbasiertes (z.B. siliziumbasiertes) Gerät sein. In einigen Beispielen implementiert der Prozessor 712 die VPU 108. In diesem Beispiel implementiert der Prozessor die beispielhafte CNN-Merkmalsanalyseeinrichtung 114, die beispielhaften Computer-Vision-Algorithmen 116 und/oder die beispielhaften digitalen Signalprozessoren 118 von 1A, den beispielhaften Bewegungsmerkmaldetektor 502, die beispielhafte CNN-Bewegungsaktivitätserkennungseinrichtung 504, den beispielhaften Bewegungsaktivitätsmultiplexer 506, den beispielhaften Vollaufwachereignismultiplexer 510, den beispielhaften Audiomerkmaldetektor 514, den beispielhafte Stimmaktivitätsdetektor 516, die beispielhafte CNN-Aufwachworterkennungseinrichtung 518, die beispielhafte CNN-Befehlsworterkennungseinrichtung 520, den beispielhaften Befehlswortmultiplexer 522, den beispielhaften Bildmerkmaldetektor 528, den beispielhaften CNN-Gesichtsdetektor 530, die beispielhafte CNN-Aufwachgesichtserkennungseinrichtung 532, die beispielhafte CNN-Gesichtserkennungseinrichtung 534, den beispielhafter Multiplexer für erkannte Gesichter 536, die beispielhafte CNN-Objekterkennungseinrichtung 542 und/oder die beispielhaften Multiplexer für Auslösemerkmale 554 von 5A, die beispielhafte POR-Zustandsüberführungseinrichtung 562, die beispielhafte AoN-Zustandsüberführungseinrichtung 564, die beispielhafte Primärereignis-Zustandsüberführungseinrichtung 566, die beispielhafte Sekundärereignis-Zustandsüberführungseinrichtung 568, die beispielhafte Tertiärereignis-Zustandsüberführungseinrichtung 570 und/oder die beispielhafte Vollaktiv-Zustandsüberführungseinrichtung 572 von 5B und/oder die beispielhafte Zustandsreihenfolgekonfigurationseinrichtung 582 von 5C.
Der Prozessor 712 des dargestellten Beispiels enthält einen lokalen Speicher 713 (z.B. einen Cache). Der Prozessor 712 des dargestellten Beispiels kommuniziert über einen Bus 718 mit einem Hauptspeicher, einschließlich eines flüchtigen Speichers 714 und eines nichtflüchtigen Speichers 716. Der flüchtige Speicher 714 kann durch Synchronous Dynamic Random Access Memory (SDRAM), Dynamic Random Access Memory (DRAM), RAMBUS® Dynamic Random Access Memory (RDRAM®) und/oder jede andere Art von Direktzugriffsspeicher implementiert sein. Der nichtflüchtige Speicher 716 kann durch Flash-Speicher und/oder jede andere gewünschte Art von Speicherbaustein implementiert sein. Der Zugriff auf den Hauptspeicher 714, 716 wird durch eine Speichersteuereinrichtung gesteuert.
Die Prozessorplattform 700 des dargestellten Beispiels enthält auch eine Schnittstellenschaltung 720. Die Schnittstellenschaltung 720 kann durch jede Art von Schnittstellenstandard implementiert sein, wie z.B. eine Ethernet-Schnittstelle, einen universellen seriellen Bus (USB), eine Wi-Fi-Schnittstelle, eine Bluetooth®-Schnittstelle, eine Zigbee®-Schnittstelle, eine Nahfeldkommunikationsschnittstelle (NFC) und/oder eine PCI-Express-Schnittstelle.
In dem dargestellten Beispiel sind ein oder mehrere Eingabegeräte 722 an die Schnittstellenschaltung 720 angeschlossen. Das (die) Eingabegerät(e) 722 erlaubt (erlauben) einem Benutzer, Daten und/oder Befehle in den Prozessor 712 einzugeben. Das (die) Eingabegerät(e) kann (können) z.B. durch einen Audiosensor, ein Mikrofon, eine Kamera (Standbild oder Video), einen Bewegungssensor, eine Tastatur, eine Taste, eine Maus, einen Touchscreen, ein Trackpad, einen Trackball, einen Isopoint und/oder ein Stimmenerkennungssystem realisiert werden.
Ein oder mehrere Ausgabegeräte 724 sind auch an die Schnittstellenschaltung 720 des dargestellten Beispiels angeschlossen. Die Ausgabegeräte 724 können z.B. durch Anzeigegeräte (z.B. eine Leuchtdiode (LED), eine organische Leuchtdiode (OLED), eine Flüssigkristallanzeige (LCD), eine Kathodenstrahlröhrenanzeige (CRT), eine In-Place-Switching (IPS) -Anzeige, einen Touchscreen usw.), ein taktiles Ausgabegerät, einen Drucker und/oder einen Lautsprecher realisiert werden. Die Schnittstellenschaltung 720 des dargestellten Beispiels enthält also typischerweise eine Grafiktreiberkarte, einen Grafiktreiberchip und/oder einen Grafiktreiberprozessor.
Der Schnittstellenschaltung 720 des dargestellten Beispiels umfasst auch ein Kommunikationsgerät wie einen Sender, einen Empfänger, einen Transceiver, ein Modem, ein Residential-Gateway, einen drahtlosen Zugangspunkt und/oder eine Netzwerkschnittstelle, um den Datenaustausch mit externen Maschinen (z.B. Computergeräten aller Art) über ein Netzwerk 726 zu ermöglichen. Die Kommunikation kann z.B. über eine Ethernet-Verbindung, eine Digital Subscriber Line (DSL) -Verbindung, eine Telefonleitungsverbindung, ein Koaxialkabelsystem, ein Satellitensystem, ein drahtloses Line-of-Site-System, ein Mobiltelefonsystem usw. erfolgen.
Die Prozessorplattform 700 des dargestellten Beispiels enthält auch einen oder mehrere Massenspeicher 728 zur Speicherung von Software und/oder Daten. Beispiele für solche Massenspeichergeräte 728 sind Diskettenlaufwerke, Festplatten, Compact-Disk-Laufwerke, Blu-ray-Disk-Laufwerke, Redundant Array of Independent Disks (RAID) -Systeme und Digital Versatile Disk (DVD) -Laufwerke.
Die maschinenausführbaren Anweisungen 732, die repräsentativ für die maschinenlesbaren Anweisungen des Beispiels von 6 sind, können im Massenspeicher 728, im flüchtigen Speicher 714, im nichtflüchtigen Speicher 716 und/oder auf einem entfernbaren, nichtflüchtigen, computerlesbaren Speichermedium wie einer CD oder DVD gespeichert sein.
Aus den vorstehenden Ausführungen wird ersichtlich, dass beispielhafte Verfahren, Vorrichtungen und Herstellungsgegenstände für den Betrieb mobiler Kameras mit begrenzten Stromquellen offenbart wurden, die gleichzeitig zahlreiche Verwendungen der mobilen Kameras für Produktivität, Unterhaltung und als unterstützende Technologien, die die Benutzer bei ihren täglichen Aktivitäten unterstützen, ermöglichen. Die hier offenbarten beispielhaften mobilen Kameras arbeiten in einem Merkmalsüberwachungsmodus mit geringem Stromverbrauch und einem oder mehreren aktiven Modi mit höherem Stromverbrauch. Der Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch ermöglicht es einer mobilen Kamera, die Eigenschaften ihrer Umgebung zu überwachen und dabei wesentlich weniger Strom zu verbrauchen (z.B. ~2 Milliwatt). Im Merkmalsüberwachungsmodus mit niedrigem Stromverbrauch überwacht die Umgebungsanalyselogik einer beispielhaften mobilen Kamera die Umgebungseigenschaften, um Merkmale von Interesse zu identifizieren, die Stimuli darstellen, die einen Übergang der mobilen Kamera in einen Aktiv-Modus mit höherem Stromverbrauch rechtfertigen, in dem die mobilen Kamera zusätzliche Arten von Umgebungseigenschaften überwachen und/oder visuelle Aufnahmen mit höherer Qualität machen kann. Auf diese Weise ermöglichen die hier offenbarten Beispiele den Betrieb mobiler Kameras in leistungsbeschränkten Konfigurationen für lange Zeiträume, während die mobilen Kameras auf intelligente Weise intermittierend in Modi mit höherem Stromverbrauch arbeiten, um Daten mit hoher Qualität wie z.B. visuelle Aufnahmen mit hoher Auflösung ihrer Umgebung aufzunehmen.
Die hier offenbarten Beispiele ermöglichen auch die Übertragung von Metadaten, die aus gesammelten Sensordaten erzeugt werden (z.B. Bewegungsdaten, Audiodaten, visuelle Aufnahmen usw.), anstatt die Sensordaten selbst zu übertragen. Da die Metadaten eine geringere Datengröße als die Rohsensordaten haben, wird durch die Übertragung der Sensordaten von den mobilen Kameras zu Hostgeräten oder einem Clouddienst die Netzwerkbandbreite geschont, wodurch die Netzwerküberlastung verringert und die Geschwindigkeit, mit der solche Metadaten an ihren Zielorten empfangen werden können, erhöht wird. Es reduziert auch den Stromverbrauch der mobilen Kameras, da weniger Daten übertragen werden müssen, da die Metadaten eine geringere Datengröße als die Rohsensordaten haben. Eine solche Reduzierung des Stromverbrauchs ist besonders wichtig im Hinblick auf die Nutzung der Wi-Fi-Kommunikation, die besonders hohe Anforderungen an den Stromverbrauch für die Durchführung von Übertragungen stellen kann. Die Reduzierung des Stromverbrauchs auf diese Weise ist nützlich bei kleinen tragbaren Elektronikgeräten, wie z.B. mobilen Kameras, die über kleine Batterien und damit über geringe Ladekapazitäten verfügen. Darüber hinaus schützt die Übertragung von Metadaten über ein Netzwerk von den mobilen Kameras die Privatsphären von Personen und/oder privatemlpersönlichem Eigentum, indem keine Rohsensordaten offengelegt werden, die zur Identifizierung solcher Personen und/oder privaten/persönlichen Eigentums verwendet werden könnten. Daher können die hier offenbarten Beispiele dazu verwendet werden, die Überlastung des Netzwerks zu verringern und die Privatsphären von Personen zu schützen, indem Metadaten über Sensordaten von mobilen Kameras über ein Netzwerk an Zielorte übertragen werden.
Das Folgende bezieht sich auf weitere Beispiele, die hier offenbart werden.
Beispiel 1 ist eine mobile Kamera. Die mobile Kamera von Beispiel 1 enthält ein erstes faltendes neuronales Netzwerk zum Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst ist; eine Zustandsüberführungseinrichtung zum Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion darauf, dass das erste faltende neuronale Netzwerk das erste Merkmal erkennt, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; ein zweites faltendes neuronales Netzwerk zum Erkennen eines zweiten Merkmals in zweiten Sensordaten im zweiten Merkmalerfassungszustand; und eine Kommunikationsschnittstelle zum Senden von ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät.
Gemäß Beispiel 2 kann der Gegenstand von Beispiel 1 optional enthalten einen Bildmerkmaldetektor in Schaltung mit einer Kamera mit niedriger Auflösung, wobei die Kamera mit niedriger Auflösung die ersten Sensordaten im ersten Merkmalerfassungszustand bereitstellt, wobei der Bildmerkmaldetektor das erste Merkmal in den ersten Sensordaten erfasst; und eine Kamera mit hoher Auflösung, die einen Standby-Modus aufweist, wenn sich die mobile Kamera im ersten Merkmalerfassungszustand befindet, und die einen Aktiv-Modus aufweist, wenn sich die mobile Kamera im zweiten Merkmalerfassungszustand befindet.
Gemäß Beispiel 3 kann der Gegenstand eines der Beispiele 1-2 optional enthalten einen Merkmaldetektor zum Bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt, wobei das erste faltende neuronale Netzwerk die ersten Metadaten als Reaktion darauf erzeugt, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Gemäß Beispiel 4 kann der Gegenstand eines der Beispiele 1-3 optional enthalten einen Bewegungsmerkmaldetektor in Schaltung mit einer Trägheitsmesseinheit, wobei die ersten Sensordaten von einem Bewegungssensor in Schaltung mit der Trägheitsmesseinheit bereitgestellt sind und der Bewegungsmerkmaldetektor das erste Merkmal in den ersten Sensordaten erfasst.
Gemäß Beispiel 5 kann der Gegenstand eines der Beispiele 1-4 optional enthalten, dass das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek erzeugt.
Gemäß Beispiel 6 kann der Gegenstand eines der Beispiele 1-5 optional enthalten einen Audiomerkmaldetektor in Schaltung mit einem Audio-Codec, wobei die ersten Sensordaten Audiodaten sind und der Audiomerkmaldetektor das erste Merkmal in den Audiodaten erfasst.
Gemäß Beispiel 7 kann der Gegenstand eines der Beispiele 1-6 optional enthalten, dass das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek erzeugt.
Gemäß Beispiel 8 kann der Gegenstand eines der Beispiele 1-7 optional enthalten, dass der Audiomerkmaldetektor das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal erfasst.
Gemäß Beispiel 9 kann der Gegenstand eines der Beispiele 1-8 optional enthalten einen Bildmerkmaldetektor in Schaltung mit einer Kamera mit niedriger Auflösung, wobei die ersten Sensordaten eine visuelle Aufnahme sind und der Bildmerkmaldetektor das erste Merkmal in der visuellen Aufnahme erfasst.
Gemäß Beispiel 10 kann der Gegenstand eines der Beispiele 1-9 optional enthalten, dass das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek erzeugt.
Gemäß Beispiel 11 kann der Gegenstand eines der Beispiele 1-10 optional enthalten, dass der Bildmerkmaldetektor das erste Merkmal in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme erfasst.
Gemäß Beispiel 12 kann der Gegenstand eines der Beispiele 1-11 optional enthalten, dass das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.
Beispiel 13 ist eine mobile Kamera. Die mobile Kamera von Beispiel 13 enthält ein erstes Mittel zum Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst ist; ein Mittel zum Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion darauf, dass das erste Merkmal erkannt ist, wobei der zweite Merkmalerfassungszustand zu verhältnismäßig höherem Stromverbrauch der mobilen Kamera als der erste Merkmalerfassungszustand beiträgt; ein zweites Mittel zum Erkennen eines zweiten Merkmals in gesammelten zweiten Sensordaten; und ein Mittel zum Übermitteln erster Metadaten, die dem ersten Merkmal entsprechen, und/oder zweiter Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät.
Gemäß Beispiel 14 kann der Gegenstand von Beispiel 13 optional enthalten ein Mittel zum Erfassen von Merkmalen, um das erste Merkmal in den ersten Sensordaten zu erfassen.
Gemäß Beispiel 15 kann der Gegenstand eines der Beispiele 13-14 optional enthalten, dass das Mittel zum Erfassen von Merkmalen das erste Merkmal auf der Grundlage vom Bestimmen, dass das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt, bestimmt/erfasst, wobei das erste Mittel zum Erkennen die ersten Metadaten erzeugt, nachdem das Mittel zum Erfassen von Merkmalen bestimmt, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Gemäß Beispiel 16 kann der Gegenstand eines der Beispiele 13-15 optional enthalten ein Mittel zum Erfassen von Merkmalen, um das erste Merkmal in Bewegungsdaten der ersten Sensordaten zu erfassen, die von einer Trägheitsmesseinheit bereitgestellt sind.
Gemäß Beispiel 17 kann der Gegenstand eines der Beispiele 13-16 optional enthalten, dass das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Gemäß Beispiel 18 kann der Gegenstand eines der Beispiele 13-17 optional enthalten ein Mittel zum Erkennen von Merkmalen, um das erste Merkmal in Audiodaten der ersten Sensordaten zu erfassen.
Gemäß Beispiel 19 kann der Gegenstand eines der Beispiele 13-18 optional enthalten, dass das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Gemäß Beispiel 20 kann der Gegenstand eines der Beispiele 13-19 optional enthalten, dass das Mittel zum Erfassen von Merkmalen das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal erfasst.
Gemäß Beispiel 21 kann der Gegenstand eines der Beispiele 13-20 optional enthalten ein Mittel zum Erfassen von Merkmalen, das das erste Merkmal in einer visuellen Aufnahme erfasst, die durch die ersten Sensordaten repräsentiert ist.
Gemäß Beispiel 22 kann der Gegenstand eines der Beispiele 13-21 optional enthalten, dass das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Gemäß Beispiel 23 kann der Gegenstand eines der Beispiele 13-22 optional enthalten, dass das Mittel zum Erfassen von Merkmalen das erste Merkmal in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme erfasst.
Gemäß Beispiel 24 kann der Gegenstand eines der Beispiele 13-23 optional enthalten, dass das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera oder ein tragbares Gerät ist.
Beispiel 25 ist ein nichttransitorisches computerlesbares Speichermedium umfassend Anweisungen, die, wenn sie ausgeführt werden, mindestens einen Prozessor wenigstens dazu veranlassen, ein erstes Merkmal in ersten Sensordaten als Reaktion darauf zu erkennen, dass das erste Merkmal in den ersten Sensordaten erfasst wird; eine mobile Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion auf das Erkennen des ersten Merkmals zu überführen, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; ein zweites Merkmal in zweiten Sensordaten im zweiten Merkmalerfassungszustand zu erkennen; und die ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder die zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät zu senden.
Gemäß Beispiel 26 kann der Gegenstand von Beispiel 25 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, eine Kamera mit hoher Auflösung im ersten Merkmalerfassungszustand in einen Standby-Modus zu versetzen; auf die ersten Sensordaten als visuelle Aufnahme zuzugreifen, die von einer Kamera mit niedriger Auflösung im ersten Merkmalerfassungszustand bereitgestellt werden; das erste Merkmal in den ersten Sensordaten zu erfassen; und die Kamera mit hoher Auflösung im zweiten Merkmalerfassungszustand in einen Aktiv-Modus setzen.
Gemäß Beispiel 27 kann der Gegenstand eines der Beispiele 25-26 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, zu bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt; und die ersten Metadaten als Reaktion darauf zu erzeugen, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Gemäß Beispiel 28 kann der Gegenstand eines der Beispiele 25-27 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, auf die ersten Sensordaten als Bewegungsdaten zuzugreifen, die von einem Bewegungssensor in Schaltung mit einer Trägheitsmesseinheit bereitgestellt werden; und das erste Merkmal in den Bewegungsdaten zu erfassen.
Gemäß Beispiel 29 kann der Gegenstand eines der Beispiele 25-28 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek zu erzeugen.
Gemäß Beispiel 30 kann der Gegenstand eines der Beispiele 25-29 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, auf die ersten Sensordaten als Audiodaten zuzugreifen, die von einem Audio-Codec bereitgestellt werden; und das erste Merkmal in den Audiodaten zu erfassen.
Gemäß Beispiel 31 kann der Gegenstand eines der Beispiele 25-30 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek zu erzeugen.
Gemäß Beispiel 32 kann der Gegenstand eines der Beispiele 25-31 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal zu erfassen.
Gemäß Beispiel 33 kann der Gegenstand eines der Beispiele 25-32 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, auf die ersten Sensordaten als eine visuelle Aufnahme zuzugreifen, die von einer Kamera mit niedriger Auflösung bereitgestellt wird; und das erste Merkmal in der visuellen Aufnahme zu erfassen.
Gemäß Beispiel 34 kann der Gegenstand eines der Beispiele 25-33 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek zu erzeugen.
Gemäß Beispiel 35 kann der Gegenstand eines der Beispiele 25-34 optional enthalten, dass die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, das erste Merkmal in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme zu erfassen.
Gemäß Beispiel 36 kann der Gegenstand eines der Beispiele 25-35 optional enthalten, dass das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.
Beispiel 37 ist ein Verfahren zum Betreiben einer mobilen Kamera. Das Verfahren von Beispiel 37 enthält Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst wird, durch Ausführen einer Anweisung mit einem Prozessor; Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion auf das Erkennen des ersten Merkmals durch Ausführen einer Anweisung mit dem Prozessor, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; Erkennen eines zweiten Merkmals in zweiten Sensordaten im zweiten Merkmalerfassungszustand durch Ausführen einer Anweisung mit dem Prozessor; und Senden der ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder der zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät durch Ausführen einer Anweisung mit dem Prozessor.
Gemäß Beispiel 38 kann der Gegenstand von Beispiel 37 optional enthalten Versetzen einer Kamera mit hoher Auflösung in einen Standby-Modus im ersten Merkmalerfassungszustand; Zugreifen auf die ersten Sensordaten als eine visuelle Erfassung durch eine Kamera mit niedriger Auflösung im ersten Merkmalerfassungszustand; Erfassen des ersten Merkmals in den ersten Sensordaten; und Versetzen der Kamera mit hoher Auflösung in einen Aktiv-Modus im zweiten Merkmalerfassungszustand.
Gemäß Beispiel 39 kann der Gegenstand eines der Beispiele 37-38 optional enthalten Bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt; und Erzeugen der ersten Metadaten als Reaktion darauf, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Gemäß Beispiel 40 kann der Gegenstand eines der Beispiele 37-39 optional enthalten Zugreifen auf die ersten Sensordaten als Bewegungsdaten, die von einem Bewegungssensor in Schaltung mit einer Trägheitsmesseinheit bereitgestellt werden; und Erfassen des ersten Merkmals in den Bewegungsdaten.
Gemäß Beispiel 41 kann der Gegenstand eines der Beispiele 37-40 optional enthalten Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek.
Gemäß Beispiel 42 kann der Gegenstand eines der Beispiele 37-41 optional enthalten Zugreifen auf die ersten Sensordaten als Audiodaten, die von einem Audiocodec bereitgestellt werden; und Erfassen des ersten Merkmals in den Audiodaten.
Gemäß Beispiel 43 kann der Gegenstand eines der Beispiele 37-42 optional enthalten Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek.
Gemäß Beispiel 44 kann der Gegenstand eines der Beispiele 37-43 optional enthalten Erfassen des ersten Merkmals in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal.
Gemäß Beispiel 45 kann der Gegenstand eines jeden der Beispiele 37-44 optional enthalten Zugreifen auf die ersten Sensordaten als eine visuelle Aufnahme durch eine Kamera mit niedriger Auflösung; und Erfassen des ersten Merkmals in der visuellen Aufnahme.
Gemäß Beispiel 46 kann der Gegenstand eines der Beispiele 37-45 optional enthalten Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek.
Gemäß Beispiel 47 kann der Gegenstand eines der Beispiele 37-46 optional enthalten Erfassen des ersten Merkmals in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme.
Gemäß Beispiel 48 kann der Gegenstand eines der Beispiele 37-47 optional enthalten, dass das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.
Obwohl bestimmte beispielhafte Verfahren, Vorrichtungen und Herstellungsgegenstände hierin offenbart wurden, ist der Geltungsbereich dieses Patents nicht darauf beschränkt. Dieses Patent deckt im Gegenteil alle Verfahren, Vorrichtungen und Herstellungsgegenstände ab, die in angemessener Weise in den Geltungsbereich der Ansprüche dieses Patents fallen.

Claims

Mobile Kamera, umfassend: ein erstes faltendes neuronales Netzwerk zum Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst ist; eine Zustandsüberführungseinrichtung zum Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion darauf, dass das erste faltende neuronale Netzwerk das erste Merkmal erkennt, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; ein zweites faltendes neuronales Netzwerk zum Erkennen eines zweiten Merkmals in zweiten Sensordaten im zweiten Merkmalerfassungszustand; und eine Kommunikationsschnittstelle zum Senden von ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät.
Mobile Kamera nach Anspruch 1, ferner enthaltend: einen Bildmerkmaldetektor in Schaltung mit einer Kamera mit niedriger Auflösung, wobei die Kamera mit niedriger Auflösung die ersten Sensordaten im ersten Merkmalerfassungszustand bereitstellt, wobei der Bildmerkmaldetektor das erste Merkmal in den ersten Sensordaten erfasst; und eine Kamera mit hoher Auflösung, die einen Standby-Modus aufweist, wenn sich die mobile Kamera im ersten Merkmalerfassungszustand befindet, und die einen Aktiv-Modus aufweist, wenn sich die mobile Kamera im zweiten Merkmalerfassungszustand befindet.
Mobile Kamera nach Anspruch 1, ferner enthaltend einen Merkmaldetektor zum Bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt, wobei das erste faltende neuronale Netzwerk die ersten Metadaten als Reaktion darauf erzeugt, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Mobile Kamera nach Anspruch 1, ferner enthaltend einen Bewegungsmerkmaldetektor in Schaltung mit einer Trägheitsmesseinheit, wobei die ersten Sensordaten von einem Bewegungssensor in Schaltung mit der Trägheitsmesseinheit bereitgestellt sind und der Bewegungsmerkmaldetektor das erste Merkmal in den ersten Sensordaten erfasst.
Mobile Kamera nach Anspruch 4, wobei das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek erzeugt.
Mobile Kamera nach Anspruch 1, ferner enthaltend einen Audiomerkmaldetektor in Schaltung mit einem Audio-Codec, wobei die ersten Sensordaten Audiodaten sind und der Audiomerkmaldetektor das erste Merkmal in den Audiodaten erfasst.
Mobile Kamera nach Anspruch 6, wobei das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek erzeugt.
Mobile Kamera nach Anspruch 6, wobei der Audiomerkmaldetektor das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal erfasst.
Mobile Kamera nach Anspruch 1, ferner enthaltend einen Bildmerkmaldetektor in Schaltung mit einer Kamera mit niedriger Auflösung, wobei die ersten Sensordaten eine visuelle Aufnahme sind und der Bildmerkmaldetektor das erste Merkmal in der visuellen Aufnahme erfasst.
Mobile Kamera nach Anspruch 9, wobei das erste faltende neuronale Netzwerk die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek erzeugt.
Mobile Kamera nach Anspruch 9, wobei der Bildmerkmaldetektor das erste Merkmal in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme erfasst.
Mobile Kamera nach Anspruch 1, wobei das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.
Mobile Kamera, umfassend: ein erstes Mittel zum Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst ist; ein Mittel zum Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion darauf, dass das erste Merkmal erkannt ist, wobei der zweite Merkmalerfassungszustand zu verhältnismäßig höherem Stromverbrauch der mobilen Kamera als der erste Merkmalerfassungszustand beiträgt; ein zweites Mittel zum Erkennen eines zweiten Merkmals in gesammelten zweiten Sensordaten; und ein Mittel zum Übermitteln erster Metadaten, die dem ersten Merkmal entsprechen, und/oder zweiter Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät.
Mobile Kamera nach Anspruch 13, ferner enthaltend ein Mittel zum Erfassen von Merkmalen, um das erste Merkmal in den ersten Sensordaten zu erfassen.
Mobile Kamera nach Anspruch 14, wobei das Mittel zum Erfassen von Merkmalen das erste Merkmal auf der Grundlage vom Bestimmen, dass das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt, bestimmt/erfasst, wobei das erste Mittel zum Erkennen die ersten Metadaten erzeugt, nachdem das Mittel zum Erfassen von Merkmalen bestimmt, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Mobile Kamera nach Anspruch 13, ferner enthaltend ein Mittel zum Erfassen von Merkmalen, um das erste Merkmal in Bewegungsdaten der ersten Sensordaten zu erfassen, die von einer Trägheitsmesseinheit bereitgestellt sind.
Mobile Kamera nach Anspruch 16, wobei das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Mobile Kamera nach Anspruch 13, ferner enthaltend ein Mittel zum Erkennen von Merkmalen, um das erste Merkmal in Audiodaten der ersten Sensordaten zu erfassen.
Mobile Kamera nach Anspruch 18, wobei das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Mobile Kamera nach Anspruch 18, wobei das Mittel zum Erfassen von Merkmalen das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal erfasst.
Mobile Kamera nach Anspruch 13, ferner enthaltend ein Mittel zum Erfassen von Merkmalen, das das erste Merkmal in einer visuellen Aufnahme erfasst, die durch die ersten Sensordaten repräsentiert ist.
Mobile Kamera nach Anspruch 21, wobei das erste Mittel zum Erkennen das erste Merkmal mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek vergleicht, um die ersten Metadaten zu erzeugen.
Mobile Kamera nach Anspruch 21, wobei das Mittel zum Erfassen von Merkmalen das erste Merkmal in der visuellen Aufnahme auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Aufnahme erfasst.
Mobile Kamera nach Anspruch 13, wobei das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera oder ein tragbares Gerät ist.
Nichttransitorisches computerlesbares Speichermedium, umfassend Anweisungen, die, wenn sie ausgeführt werden, mindestens einen Prozessor dazu veranlassen: ein erstes Merkmal in ersten Sensordaten als Reaktion darauf zu erkennen, dass das erste Merkmal in den ersten Sensordaten erfasst wird; eine mobile Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion auf das Erkennen des ersten Merkmals zu überführen, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; ein zweites Merkmal in zweiten Sensordaten im zweiten Merkmalerfassungszustand zu erkennen; und die ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder die zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät zu senden.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen: eine Kamera mit hoher Auflösung im ersten Merkmalerfassungszustand in einen Standby-Modus zu versetzen; auf die ersten Sensordaten als visuelle Erfassung zuzugreifen, die von einer Kamera mit niedriger Auflösung im ersten Merkmalerfassungszustand bereitgestellt werden; das erste Merkmal in den ersten Sensordaten zu erfassen; und die Kamera mit hoher Auflösung im zweiten Merkmalerfassungszustand in einen Aktiv-Modus setzen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen: zu bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt; und die ersten Metadaten als Reaktion darauf zu erzeugen, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen: auf die ersten Sensordaten als Bewegungsdaten zuzugreifen, die von einem Bewegungssensor in Schaltung mit einer Trägheitsmesseinheit bereitgestellt werden; und das erste Merkmal in den Bewegungsdaten zu erfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 28, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek zu erzeugen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen: auf die ersten Sensordaten als Audiodaten zuzugreifen, die von einem Audio-Codec bereitgestellt werden; und das erste Merkmal in den Audiodaten zu erfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 30, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek zu erzeugen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 30, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, das erste Merkmal in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal zu erfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen: auf die ersten Sensordaten als eine visuelle Erfassung zuzugreifen, die von einer Kamera mit niedriger Auflösung bereitgestellt wird; und das erste Merkmal in der visuellen Erfassung zu erfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 33, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, die ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek zu erzeugen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 33, wobei die Anweisungen den mindestens einen Prozessor ferner dazu veranlassen, das erste Merkmal in der visuellen Erfassung auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Erfassung zu erfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 25, wobei das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.
Verfahren zum Betreiben einer mobilen Kamera, wobei das Verfahren umfasst: Erkennen eines ersten Merkmals in ersten Sensordaten als Reaktion darauf, dass das erste Merkmal in den ersten Sensordaten erfasst wird, durch Ausführen einer Anweisung mit einem Prozessor; Überführen der mobilen Kamera von einem ersten Merkmalerfassungszustand in einen zweiten Merkmalerfassungszustand als Reaktion auf das Erkennen des ersten Merkmals durch Ausführen einer Anweisung mit dem Prozessor, wobei die mobile Kamera im zweiten Merkmalerfassungszustand mit höherem Stromverbrauch arbeitet als im ersten Merkmalerfassungszustand; Erkennen eines zweiten Merkmals in zweiten Sensordaten im zweiten Merkmalerfassungszustand durch Ausführen einer Anweisung mit dem Prozessor; und Senden der ersten Metadaten, die dem ersten Merkmal entsprechen, und/oder der zweiten Metadaten, die dem zweiten Merkmal entsprechen, an ein externes Gerät durch Ausführen einer Anweisung mit dem Prozessor.
Verfahren nach Anspruch 37, ferner enthaltend: Versetzen einer Kamera mit hoher Auflösung in einen Standby-Modus im ersten Merkmalerfassungszustand; Zugreifen auf die ersten Sensordaten als eine visuelle Erfassung durch eine Kamera mit niedriger Auflösung im ersten Merkmalerfassungszustand; Erfassen des ersten Merkmals in den ersten Sensordaten; und Versetzen der Kamera mit hoher Auflösung in einen Aktiv-Modus im zweiten Merkmalerfassungszustand.
Verfahren nach Anspruch 37, ferner enthaltend: Bestimmen, ob das erste Merkmal einen Merkmal-Auslöseschwellwert erfüllt; und Erzeugen der ersten Metadaten als Reaktion darauf, dass das erste Merkmal den Merkmal-Auslöseschwellwert erfüllt.
Verfahren nach Anspruch 37, ferner enthaltend: Zugreifen auf die ersten Sensordaten als Bewegungsdaten, die von einem Bewegungssensor in Schaltung mit einer Trägheitsmesseinheit bereitgestellt werden; und Erfassen des ersten Merkmals in den Bewegungsdaten.
Verfahren nach Anspruch 40, ferner enthaltend Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzbewegungsmerkmaldefinition in einer Referenzbewegungsmetadatenbibliothek.
Verfahren nach Anspruch 37, ferner enthaltend: Zugreifen auf die ersten Sensordaten als Audiodaten, die von einem Audiocodec bereitgestellt werden; und Erfassen des ersten Merkmals in den Audiodaten.
Verfahren nach Anspruch 42, ferner enthaltend Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzaudiomerkmaldefinition in einer Referenzaudiometadatenbibliothek.
Verfahren nach Anspruch 42, ferner enthaltend Erfassen des ersten Merkmals in den Audiodaten auf der Grundlage von: (a) Sprache, (b) einem Fahrzeuggeräusch, (c) und/oder einer Änderungsrate in einem in den Audiodaten reflektierten Audiosignal.
Verfahren nach Anspruch 37, ferner enthaltend: Zugreifen auf die ersten Sensordaten als eine visuelle Erfassung durch eine Kamera mit niedriger Auflösung; und Erfassen des ersten Merkmals in der visuellen Erfassung.
Verfahren nach Anspruch 45, ferner enthaltend Erzeugen der ersten Metadaten durch Vergleichen des ersten Merkmals mit einer Referenzsichtmerkmaldefinition in einer Referenzbildmetadatenbibliothek.
Verfahren nach Anspruch 45, ferner enthaltend Erfassen des ersten Merkmals in der visuellen Erfassung auf der Grundlage von: (a) einer Kante, (b) einer Linie, (c) und/oder einem Gesicht in der visuellen Erfassung.
Verfahren nach Anspruch 37, wobei das externe Gerät ein Mobiltelefon, eine zweite mobile Kamera und/oder ein tragbares Gerät ist.