DE112018007431T5

DE112018007431T5 - Verfahren zur verbesserten bildgebung auf basis von semantischer verarbeitung und dynamischer szenenmodellierung

Info

Publication number: DE112018007431T5
Application number: DE112018007431.5T
Authority: DE
Inventors: R. Piacentino Michael; R. Tower John; A. Isnardi Michael; M. Chai Sek
Original assignee: SRI International Inc; Stanford Research Institute
Current assignee: SRI International Inc
Priority date: 2018-04-04
Filing date: 2018-10-01
Publication date: 2020-12-31
Also published as: US20210160422A1; US11394879B2; WO2019194863A1; JP2021517682A; JP7377806B2

Abstract

Module und Steuereinheiten kooperieren, um Pixelparameter nicht-uniform in regionalen Inkrementen über ein gesamtes Bild, das in einem Bildframe durch Pixel in einem Pixelarray erfasst ist, gleichzeitig und unabhängig zu steuern und anzupassen. Pixelparameterveränderungen für Pixel in einer gegebenen Region erfolgen auf Basis i) eines kontextuellen Verständnisses dessen, was kontextuell in dem einen oder mehreren vorherigen Bildframes geschah, und ii) ob saliente Elemente innerhalb jener Region befindlich sind. Außerdem werden Leitlinien an die Sensorsteuereinheit gesendet, um i) Pixelparameter innerhalb jener Regionen mit salienten Elementen zu erhöhen oder zu vermindern und anschließend Pixelparameter innerhalb von Regionen ohne saliente Elemente entweder i) beizubehalten, ii) zu erhöhen oder iii) zu vermindern, um innerhalb etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) einem oder mehreren Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.

Description

QUERVERWEIS
Diese Anmeldung beansprucht die Priorität, gemäß 35 USC 119, der am 4. April 2018 eingereichten vorläufigen US-Patentanmeldung SN 62/652,891 mit dem Titel „Methods for enhanced imaging based on semantic processing and dynamic scene modeling“ (Verfahren zur verbesserten Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung), die durch Bezugnahme in ihrer Gesamtheit hierin aufgenommen ist.
TECHNISCHES GEBIET
Ausführungsformen dieser Offenbarung betreffen im Allgemeinen die Bildabtastung. Insbesondere betrifft eine Ausführungsform die Bildabtastung mit einem oder mehreren Modulen mithilfe von künstlicher Intelligenz (Artificial Intelligence, AI).
HINTERGRUND
Um heutzutage die erforderliche Auflösung, den erforderlichen dynamischen Bereich und die erforderliche Bildrate in lokalen Bildregionen zu erreichen, wenden COTS-Kameras normalerweise Hochleistungsparameter über den gesamten Frame an, wodurch sich sehr hohe unüberschaubare Datenraten und Lösungen mit höherer SWaP (Size, Weight and Power = Größe, Gewicht und Leistung) ergeben.
KURZE ZUSAMMENFASSUNG
Hierin können verschiedene Verfahren, Vorrichtungen und Systeme für die Bildgebung bereitgestellt sein. In einer Ausführungsform kooperieren Module und Steuereinheiten, um Pixelparameter nicht-uniform in regionalen Inkrementen über ein gesamtes Bild, das in einem Bildframe durch Pixel in einem Pixelarray erfasst ist, gleichzeitig und unabhängig zu steuern und anzupassen. Pixelparameterveränderungen für Pixel in einer gegebenen Region erfolgen auf Basis von i) beliebigen eines kontextuellen Verständnisses zumindest dessen, was kontextuell in einem vorherigen Bildframe geschah, eines kontextuellen Verständnisses einer Szene und eines kontextuellen Verständnisses einer antizipierten Szene, und ii) ob saliente Elemente innerhalb jener Region befindlich sind. Außerdem werden Leitlinien an die Sensorsteuereinheit gesendet, um i) Pixelparameter innerhalb jener Regionen mit salienten Elementen zu erhöhen und anschließend Pixelparameter innerhalb von Regionen ohne saliente Elemente entweder i) beizubehalten oder ii) zu vermindern, um innerhalb etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) einem oder mehreren Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben. Die Sensorsteuereinheit ist imstande, Parameter in Regionen anzupassen, um dieses Ergebnis einzukalkulieren.
Figurenliste

1 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Smart-Vision-Architektur zur verbesserten Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung;
2 veranschaulicht ein Blockdiagramm einer Ausführungsform eines Bildframes, der eine Szene einer an einem Tisch sitzenden 4-köpfigen Familie, mit einer über der linken Schulter der Mutter schwebenden Flugdrohne, erfasst;
3 veranschaulicht ein Blockdiagramm einer Ausführungsform der in Regionen von Interesse unterteilten, im Bildframe von 2 erfassten Szene;
4 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Smart-Vision-Architektur zur verbesserten Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung;
5 veranschaulicht ein Blockdiagramm einer Ausführungsform eines beispielhaften Bildsensors mit seinem Pixelarray, seiner Taktschaltung und anderen Steuerschaltungen;
6 veranschaulicht ein Blockdiagramm einer Ausführungsform eines Bildframes, der eine Szene von auf einer Straße fahrenden Automobilen erfasst;
7 veranschaulicht ein Blockdiagramm einer Ausführungsform der in Regionen von Interesse unterteilten, im Bildframe von 6 erfassten Szene;
8A und 8B veranschaulichen ein Flussdiagramm einer Ausführungsform zum Verbessern der Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung;
9 veranschaulicht eine Anzahl von elektronischen Systemen und Geräten, die miteinander in einer Netzwerkumgebung gemäß einer Ausführungsform des hierin diskutierten Designs kommunizieren; und
10 veranschaulicht ein Rechnersystem 1000, das, ganz oder teilweise, Bestandteil eines oder mehrerer der Server- oder Client-Rechnergeräte gemäß einer Ausführungsform des hierin diskutierten Designs sein kann.
11 veranschaulicht ein Diagramm einer Ausführungsform des Systems, das ein semantisches Verständnis für eine Szene, Bilder und vorhergesagte Szenen weckt.

Obwohl das Design Gegenstand verschiedener Modifikationen, Äquivalente und alternativer Formen ist, wurden spezifische Ausführungsformen davon als Beispiel in den Zeichnungen gezeigt und werden jetzt ausführlich beschrieben. Es versteht sich, dass das Design nicht auf die jeweiligen offenbarten Ausführungsformen beschränkt ist, sondern - ganz im Gegenteil - die Absicht darin besteht, alle Modifikationen, Äquivalente und alternativen Formen unter Verwendung der spezifischen Ausführungsformen abzudecken.
BESCHREIBUNG
In der folgenden Beschreibung können zahlreiche spezifische Einzelheiten dargelegt sein, u.a. Beispiele für spezifische Datensignale, benannte Komponenten, Anzahl von Frames usw., um ein gründliches Verständnis des vorliegenden Designs zu vermitteln. Für einen Durchschnittsfachmann auf dem Gebiet ist jedoch offensichtlich, dass das vorliegende Design ohne diese spezifischen Einzelheiten praktisch umgesetzt werden kann. In anderen Fällen wurden wohlbekannte Komponenten oder Verfahren nicht ausführlich, sondern stattdessen in einem Blockdiagramm beschrieben, um eine unnötige Verunklarung des vorliegenden Designs zu vermeiden. Außerdem können spezifische numerische Verweise wie z.B. der erste Server erfolgen. Der spezifische numerische Verweis sollte jedoch nicht als buchstäbliche sequenzielle Reihenfolge interpretiert werden, sondern vielmehr dahingehend, dass sich der erste Server von einem zweiten Server unterscheidet, interpretiert werden. Somit können die dargelegten spezifischen Einzelheiten rein exemplarisch sein. Von den spezifischen Einzelheiten kann abgewichen werden und dennoch können sie als im Geist und Geltungsbereich des vorliegenden Designs liegend betrachtet werden. Der Begriff „gekoppelt“ ist so definiert, dass er entweder direkt mit der Komponente oder indirekt mit der Komponente durch eine andere Komponente verbunden bedeutet.
1 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Smart-Vision-Architektur zur verbesserten Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung.
Das Smart-Vision-System 100 kann sich einer verteilten Bildsensorarchitektur bedienen. Das Smart-Vision-System 100 kann beispielsweise multiple Bildsensoren wie Sensor 1, Sensor 2, Sensor 3 bis Sensor N beinhalten. Jeder Bildsensor kann sich mit einem Bildvorprozessor verbinden und mit diesem kooperieren. Jeder Bildvorprozessor kann in einen Sensorselektor und ein Compositor-Modul multiplexiert werden. Ein Ausgang des Sensorselektors kann sich mit einem Bildszenenverständnis- und Analysemodul verbinden. Ein Ausgang des Bildszenenverständnis- und Analysemoduls kann sich mit einem prädiktiven und adaptiven Szenenmodellierungsmodul verbinden, durch das eine Sensorsteuereinheit gespeist wird, die sich an die Bildsensoren koppelt und diese mit dynamischem Feedback versorgt.
Wie diskutiert kann jeder Bildprozessor zumindest seinen eigenen Bildsensor mit Pixeln enthalten oder sonst wie mit diesem kooperieren. Jeder Bildvorprozessor kann i) multiple Bildsensoren wie einen Quad-Sensor oder i) einen einzelnen Bildsensor aufweisen, anschließend sind aber die zwei oder mehr Bildprozessoren dafür konfiguriert, in einer verteilten Arbeitsarchitektur miteinander zu kooperieren.
In einem Beispiel beinhalten die zwei oder mehr, in einer verteilten Arbeitsarchitektur kooperierenden Bildprozessoren einen ersten Bildvorprozessor, der seinen eigenen Bildsensor mit Pixeln aufweist, wie z.B. Bildsensor 1, und einen zweiten Bildvorprozessor, dass seinen eigenen Bildsensor mit Pixeln aufweist, wie z.B. Bildsensor 2 usw. Diese zwei oder mehr Bildvorprozessoren können in einer verteilten Arbeitsarchitektur miteinander kooperieren, um beliebige von i) verschiedenen Regionen pro Bildprozessor, ii) überlappenden Regionen, wobei ein Bildprozessor ein Basisvideo für den ersten Bildframe erfasst, und iii) beliebige Kombinationen von beiden zu erfassen.
Abermals können die Bildprozessoren auch einen Bildprozessor beinhalten, der multiple unabhängige Bildgebersensoren wie einen Quad-Sensor aufweist (siehe z.B. 4).
Die von der Verarbeitung präzisierten Regionen werden von Objekten von Interesse in der Szene, nicht nur gekachelten Regionen der Szene, gesteuert. Der Szenenverständnisalgorithmus identifiziert wichtige Objekte und definiert anschließend Regionen um jene Objekte, deren Parameter optimiert werden. Die Regionen können überall innerhalb der Szene sein und sie werden von der Objektgröße und der minimalen Auflösung der Regionsdefinition des Bildgebers gesteuert.
Die Sensorsteuereinheit kann mit den Bildsensoren kooperieren, um multiple Regionen innerhalb eines einzelnen Bildframes für den einen oder mehrere Bildvorprozessoren zu erstellen. Daher multiple Regionen innerhalb eines Bildframes (siehe z.B. 3). Jede Region, die jenen Bildframe erfasst, enthält ihren eigenen Satz von Pixeln zum Erfassen von Pixeldaten. Die Sensorsteuereinheit kann mit dem einen oder mehreren Bildvorprozessoren kooperieren, um imstande zu sein, eine Betriebsart für jede Region von Pixeln zu ändern, um Pixelparameter für jene Region zu steuern. Die Pixelparameter können beliebige von einer Framerate, einer Auflösung, einer Bildgröße, einer Integrationszeit usw. beinhalten. Die Bildprozessoren können die Pixelparameter für Pixel in beispielsweise einer ersten Region, in den multiplen Regionen, so festlegen, dass sie sich in Bezug auf Pixelparameter von Pixeln in einer zweiten Region innerhalb desselben Bildframes unterscheiden.
Im Gegensatz zur Anwendung von Hochleistungsparametern über den gesamten Frame ermöglicht dieser aktuelle Ansatz es Applikationsentwicklern, die Bildinformationsqualität in Bezug auf gleichzeitige lokale Auflösung, dynamischen Bereich und Framerate innerhalb zahlreicher Regionen jedes Bilds/innerhalb eines einzelnen Bilds, die erfasst werden, zu optimieren. Um außerdem die Notwendigkeit des Minimierens von Ausgangsdatenraten zu unterstützen, kann die Pixelparameteroptimierung auch Auflösung, Framerate und dynamischen Bereich in nicht-salienten Regionen jenes Bilds verringern.
Ein prädiktives und adaptives Szenenmodellierungsmodul kann Trends in einem oder mehreren vorherigen Bildframes verfolgen, um das Verständnis dessen zu unterstützen, was kontextuell in einem Bildframe geschieht. Der eine [oder] mehrere Bildprozessoren kann/können die Betriebsart für jede Region ändern; und somit Pixelparameter wie Framerate, Bildgröße, Integrationszeit usw. für Pixel in jener Region auf Basis i) eines kontextuellen Verständnisses dessen, was kontextuell in dem einen oder mehreren vorherigen Bildframes geschah, und ii) ob saliente Elemente innerhalb der ersten Region oder zweiten Region oder beider befindlich sind, verändern. Pixelparameter für Pixel in beispielsweise der ersten Region sind dafür konfiguriert, anders als die Pixelparameter für Pixeldaten zu arbeiten, die beispielsweise aus der zweiten Region für jenen selben ersten Bildframe gesammelt werden. Eine bidirektionale Kommunikationsschleife existiert zwischen dem prädiktiven und adaptiven Szenenmodellierungsmodul und der Sensorsteuereinheit, i) um saliente Elemente (z.B. wichtige Elemente im Hinblick auf Bildqualität) in einer oder mehreren Regionen in den vorherigen Bildframes zu identifizieren und/oder ii) saliente Elemente in einer oder mehreren Regionen in einem aktuellen Bildframe oder einem zukünftigen Bildframe vorherzusagen und anschließend Leitlinien an die Sensorsteuereinheit zu senden, um Pixelparameter zu verändern, damit sich der Satz von Pixeln in der ersten Region von dem Satz von Pixeln in der zweiten Region unterscheidet, auf Basis des Vorhandenseins oder vorhergesagten Vorhandenseins salienter Elemente, die beispielsweise in der ersten Region und nicht in der zweiten Region vorliegen.
Dieses Design analysiert in Echtzeit vorliegende Bildszenendynamik, Szenenaktivitäten und entwickelt semantisches Reasoning, während gleichzeitig Bildsensor-Pixelparameter angepasst werden, um Szeneninformationen zu maximieren. Das Design benutzt seit Kurzem verfügbare Bildsensorgeräte, die das Steuern lokaler Pixelparameter unabhängig statt global, wie bei den meisten heutigen COTS-Bildgebern, unterstützen. Das Design bindet Bildverarbeitungsfeedback auf Basis von Szenenanalyse an lokale Parameter in dem Bildsensor. Das Design beinhaltet Maßnahmen zum Vorhersagen bevorstehender Bildgebungsparameterveränderungen durch Beibehalten zahlreicher Bilddatenmodelle, um prädiktives Szenenverständnis zu unterstützen.
Dem Design eigen ist die adaptive Steuerung der Ausgangsdatenbandbreite auf Basis der Tatsache, dass Bildszenen stets eine Verteilung von salienten und nicht-salienten Informationen aufweisen. Durch Abwägen der Kenntnis dessen, wo und welche Art von salienten und nicht-salienten Informationen verschiedene Regionen innerhalb eines Bildframes einnehmen, kann die Größe von aus einem Bildsensor ausgegebenen Pixeldaten nach Bedarf stark verringert werden, um der verfügbaren Leistung, Verarbeitungsressourcen und Netzwerkbandbreite des Systems zu entsprechen.
1 zeigt grafisch eine Ausführungsform, bei der multiple Bildsensoren, alle mit einem ähnlichen Betrachtungsfeld, adaptiv gesteuert werden, um die verwertbaren visuellen Informationen in einer angezeigten Szene zu maximieren.
Jeder Bildsensor kann ein vorherrschendes Attribut (z.B. hoher dynamischer Bereich, hohe Framerate, HSR) haben, dessen Pixelparameter (z.B. Framerate, Bildgröße, Integrationszeit) adaptiv gesteuert werden können.
Alle Bildsensorausgaben werden vorverarbeitet, um die nachfolgende Analyse zu optimieren. Zum Beispiel können Geräuschminderung, NUC (Ungleichförmigkeitskorrektur) und Kontrastnormalisierung in dem Schritt durchgeführt werden. Außerdem können mehrere Aufnahmen aus dem HDR-Sensor verarbeitet werden, um einen einzelnen HDR-Frame zu erzeugen.
Der Sensorselektor wählt die Pixeldatenausgabe eines Sensors (z.B. HDR) zur Analyse aus. Die Analyse kann Szenensegmentierung, Szenenklassifizierung und Aktivitätserkennung beinhalten. Dieses Sensorselektor-Modul erzeugt zwei Pixeldatenausgaben:

-Adaptive Sensorparametereinstellungen: diese werden benutzt, um visuelle Informationen in bestimmten Szenenregionen von Interesse zu optimieren. Wenn zum Beispiel gewünscht wird, über erhöhte räumliche Auflösung in einer bestimmten Region zu verfügen, ist der HSR-Bildsensor möglicherweise zur Bereitstellung dessen, obgleich mit einer niedrigeren Framerate, fähig.
-Adaptive „Region von Interesse“-Einstellungen: diese bestimmen die Pixeldatenausgabe welches Bildsensors als Hintergrund benutzt wird und die Pixeldatenausgabe welches anderen Bildsensors gecroppt und in das Hintergrundvideo eingefügt wird, um verwertbare visuelle Informationen in der zusammengesetzten Szene zu optimieren.

Das Compositor-Modul kann i) multiple Regionen aus potenziell multiplen Sensoreingängen annehmen und Framepuffer verwenden, um ii) Pixeldaten für den Ausgang jeder Region räumlich auszurichten und iii) Pixeldaten für den Ausgang jeder Region zeitlich auszurichten und anschließend iv) das Croppen und Einfügen der Pixeldaten aus ausgegebenen Pixeldaten einer oder mehrerer ausgewählter Regionen auf eine Hintergrund-Videobasis für den ersten Bildframe vorzunehmen. Das Compositor-Modul kann adaptive ROI(Region of Interest)-Einstellungen benutzen, um zu bestimmen, die Ausgabe welcher Region als Hintergrundbasis für den Bildframe verwendet wird und die Pixelausgabedaten welcher anderen Region gecroppt und in die Hintergrundbasis für den Bildframe eingefügt werden, wenn Regionen mit salienten Elementen in jener Region erfasst werden.
Das Compositor-Modul kann sämtliche Bildpixeldaten aus sämtlichen Regionen, die einen Bildframe ausmachen, sammeln und anschließend ist das Compositor-Modul dafür konfiguriert, Bildpixeldaten aus zumindest den verschiedenen Regionen, deren Sammlung in verschiedenen Zyklen erfolgt, für den Bildframe auf Basis eines mit jenem Bildframe korrelierenden Identifikators zu reassemblieren.
Die adaptiven ROI-Einstellungen für die Hintergrund- und Fenstersteuerung entstammen der Sensorsteuereinheit. Darüber hinaus können auch zusätzliche Datenquellen wie Karten, GPS, IMU benutzt werden, um die Auswahl von Hintergrund und ROIs anzuleiten.
Zur Beachtung: räumliche Ausrichtung in Echtzeit wird möglicherweise nicht benötigt, wenn die Bildsensoren mit bekanntem Sichtfeld (Field of Vision, FOV) vorkalibriert sind. Sie müssen nur einmal (bei festem FOV) oder immer dann, wenn sich das FOV ändert (z.B. wenn sich irgendeine Objektiv-Brennweite ändert), kalibriert werden.
Insgesamt können die digitalen Bildgeber/Kameras Hochleistungsparameter nur über einen oder mehrere Abschnitte, die den gesamten Frame ausmachen, anwenden; es ist aber nicht notwendig, dass sie ähnliche Pixelparameter über den gesamten Frame anwenden. Zur Beachtung: diese lokale Steuerung individueller Pixelregionen innerhalb eines Bildsensors oder über multiple Bildsensoren, die auf verteilte Weise arbeiten, bedeutet, dass die Sensorsteuereinheit den eigenen Pixelparameter-Controller jedes Bildcontrollers und Vorprozessors steigern kann. Ein zweiter Controller im Vorprozessor jedes Bildcontrollers und im zugehörigen Vorprozessor kann globale Veränderungen an Pixelparametern für sämtliche Pixel auf Basis zumindest von Umgebungsbeleuchtungsverhältnissen, Kamera-Framerateneinstellungen, ausgewählter Betriebsart jener Kamera usw. vornehmen, die im Allgemeinen einheitlich über sämtliche Regionen, die Pixel in jenem Bildsensor enthalten, angewandt werden.
Das Smart-Vision-System analysiert die Szenendynamik mit einem oder mehreren künstlichen Intelligenzmodellen, um saliente Elemente von Interesse in einer oder mehreren Regionen von Interesse zu identifizieren und/oder vorherzusagen, zum Bewirken des gleichzeitigen Anpassens der Pixelparameter in individuellen Regionen, die einen Bildframe ausmachen, auf Basis i) des identifizierten oder antizipiertem Typus, und ii) eines kontextuelles Verständnisses dessen, was zwischen Elementen in der Szene vor sich geht, um die Szeneninformationen in jenen Regionen zu maximieren, die saliente Elemente enthalten, und anschließend der Ausgangsdatenbandbreite durch Beibehalten oder Vermindern von Szeneninformationen in nicht-saliente Elemente enthaltenden Regionen zu steuern. Dieses kontextuelle Verständnis dessen, was zwischen Elementen in der Szene vor sich geht, erlaubt auch die Nichtdurchführung von Oversampling für die Bildframes.
Das prädiktive und adaptive Szenenmodellierungsmodul kann mit dem Bildszenenverständnis- und Analysemodul kooperieren, um jeden Bildframe zu analysieren, um Bilddatenmodelle beizubehalten, um saliente Elemente zu identifizieren und lokale Regionseigenschaften wie z.B. dynamischer Bereich, lokale Objektbewegung, Objekt oder Ereignisse und lokale Auflösungsanforderungen vorherzusagen. Auf Basis der Identifizierung der Bedürfnisse jeder Region leitet die Bildverarbeitung schnell Pixelparameter an den/die Bildsensor(en) zurück, um gleichzeitig verschiedene saliente oder nicht-saliente Regionen innerhalb desselben Bildframes in Bezug auf spezifische Pixelparameter (z.B. Auflösung, Framerate und dynamischen Bereich) zu optimieren.
Die künstlichen Intelligenzmodelle verwenden sowohl i) die in dem Frame erfassten aktuellen Informationen als auch ii) Informationen, die in beliebigerzu dem aktuellen Frame führender - Sequenz vorhergehender Frames erfasst wurden, um vorherzusagen, welche Objekte von Interesse in der Szene sein können, und um ein Gesamtverständnis dessen zu erlangen, was in der Szene, die sogleich in dem aktuellen Bildframe erfasst wird, geschieht. Somit nimmt das System dynamische Feedbackveränderungen an den Bildpixelparametern für verschiedene Regionen von Interesse vor. Dadurch wird auch ein prädiktives Modell dessen geschaffen, was in der Szene geschieht, wodurch die Arten von Elementen in der Szene verfolgt werden.
Die künstlichen Intelligenz(AI)-Modelle können mithilfe von künstlichen Intelligenzalgorithmen (z.B. Backpropagation, Gradientenabstieg) trainiert werden, um Objekt- und Szenenkontext zu erkennen. Die AI-Modelle können ein neuronales Netzwerk (z.B. RNN - rekurrente neuronale Netzwerke) beinhalten, das räumlichzeitliche Informationen (z.B. Videoclips) lernen kann, um Aktivitäten von Objekten in der Szene zu erkennen. Die AI-Modelle können trainiert werden, um Aufgaben wie Szenensegmentierung (z.B. Trennen eines erfassten Bildframes in Vordergrund, Hintergrund, Luft/Boden, Regionen) durchzuführen. Die AI-Modelle können als Aufmerksamkeitsmechanismus trainiert werden, indem eine Region oder ein Satz von Regionen priorisiert und ausgewählt wird. Die AI-Modelle können AI-Modelle beinhalten, die mit Daten aus anderen Quellen vortrainiert sind, um Objekte zu erkennen. Die AI-Modelle können, als Eingaben, andere Sensorinformationen (z.B. GPS, Beschleunigungsmesser, Karten) benutzen, um das kontextuelle Verständnis der Szene herbeizuführen.
Innerhalb eines Bildframes werden multiple Elemente, z.B. Objekte, identifiziert, wie auch eine innerhalb jenes Bildframes oder jener Serie von Bildframes vorkommende Aktivität. Das Bildszenenverständnis- und Analysemodul kann die Elemente in dem Bildframe sowie ihre aktuelle Aktion identifizieren und diese Informationen weiterleiten. Das prädiktive und adaptive Szenenmodellierungsmodul kann anschließend ein kontextuelles Verständnis der in dem Bildframe identifizierten Elemente sowie ihrer aktuellen Aktion oder antizipierten Aktion entwickeln. Beispielsweise muss, in 7, die Framerate der verfolgten Bildframes möglicherweise allgemein erhöht werden, weil Bewegung mit ihnen assoziiert ist, oder muss in 3 die Auflösung erhöht werden, um Feinheiten eines Gesichts oder eines Textes aufzugreifen.
2 veranschaulicht ein Blockdiagramm einer Ausführungsform eines Bildframes, der eine Szene einer an einem Tisch sitzenden 4-köpfigen Familie, mit einer über der linken Schulter der Mutter schwebenden Flugdrohne, erfasst. Der Bildframe 200 enthält ferner den Text der Anweisungen für die Drohne auf dem Tisch neben einem Jungen zur Rechten der Mutter.
3 veranschaulicht ein Blockdiagramm einer Ausführungsform der in Regionen von Interesse unterteilten, im Bildframe von 2 erfassten Szene. Dieser einzelne Bildframe 300 ist unterteilt in Regionen von Interesse, Regionen C, D, F, G, I und K, und andere Regionen, die keine salienten Elemente enthalten, Regionen A, B, E, J, L und M. Wie diskutiert können Pixel in einem einzelnen Bildsensor die multiplen Regionen von Interesse aus multiplen, in einer verteilten Architektur arbeitenden Bildsensoren bilden. In den vorherigen Bildframes kooperierten das Bildszenenverständnis- und Analysemodul und das prädiktive und adaptive Szenenmodellierungsmodul, um Elemente von Salienz zu identifizieren, wie jedes Mitglied der an dem Tisch sitzenden 4-köpfigen Familie mit der über der linken Schulter der Mutter schwebenden Flugdrohne. Das Modul identifiziert auch das auf dem Tisch befindliche Blatt mit Text/Anweisungen für die Drohne. Das Bildszenenverständnis- und Analysemodul und das prädiktive und adaptive Szenenmodellierungsmodul kooperieren, um automatisch den lokalen Szeneninhalt nebst Aktion zu überwachen, um optimierte, fast sofortige Anpassungen dessen zu gewährleisten, wie die Pixel nachfolgende Szeneninformationen erfassen. Beispielsweise ist es in Bildern im Allgemeinen wichtig, den Text auf einem Straßenschild, Dokument, Hemd usw. sehen zu können. Somit gilt in Bezug auf das Anweisungsdokument mit Text in diesem Beispiel: weil das Bildszenenverständnis- und Analysemodul den Text identifiziert und weiß, dass verschwommener Text die Bildqualität negativ beeinflusst, weiß anschließend das prädiktive und adaptive Szenenmodellierungsmodul, dass die Auflösung für Region G, die jene Anweisungen enthält, auf über die Standardwerte erhöht werden sollte. Gleichfalls passen, bei jedem der als Personen in der Szene identifizierten Objekte, die semantischen Reasoning-Algorithmen die verschiedenen „Regionen von Interesse“-Einstellungen für höhere räumliche Auflösung an, damit Gesichtszüge besser erfasst werden können. Somit werden, zumindest in Regionen C, D, F, G, I und K, die Einstellungen für räumliche Auflösung auf über die Standardwerte erhöht. Für die Flugdrohne, Region D, und potenziell jede benachbarte Region, Regionen C, E und J, werden die Einstellungen für Framerate und räumliche Auflösung auf über die Standardwerte erhöht, damit Bewegung und andere Detailmerkmale besser erfasst werden können. In benachbarten Regionen von Objekten in Bewegung kann die benachbarte Region die Pixelparameter auf Basis der Antizipation der potenziellen Bewegung des Objekts erhöht bekommen. Andererseits enthalten Regionen A, B, E, J, H, L und M nicht ohne Weiteres saliente Elemente; daher können die Standardwerte, oder kann sogar eine Einstellung unterhalb der Standardwerte, für die Pixelparameter dieser Regionen für diese Regionen verwendet werden. Um die Verwaltung der Datenbandbreite zu unterstützen und nicht den gesamten Bildframe zu oversampeln, erkennen die Szenenverständnisalgorithmen, dass wenig bis kein Bildinhalt in Regionen A, B, E, J, L und M existiert, weshalb diese Regionen ihre(n) Auflösung, Framerate und dynamischen Bereich minimiert bekommen können, bis ein Bedarf zum Ausdruck gebracht wird. Die Algorithmen überwachen ständig Szeneninformationen mit Merkmalen, bestimmen ihre Salienz und Art und passen Pixelparameter an, um Bildgebung dieser einen hohen dynamische Bereich aufweisenden Szenen zu ermöglichen, wobei eine maximale Qualität auf Basis zu jenem Zeitpunkt verfügbarer Systemressourcen zugelassen wird. Die Algorithmen in den Modulen führen, in Echtzeit, prädiktives Szenenmodellieren und Verständnis durch, um eine rechtzeitige Bildgeber-Antwort zu gewährleisten. Die Algorithmen in den Modulen führen Analyse und Objekterkennung durch, um Szenenstruktur (z.B. drinnen) zu verstehen, um das Erkennen salienter Elemente wie Drohnen und Menschen zu unterstützen, um optimale Pixelparameter für jede Region festzulegen.
Die beiden Module kooperieren, um auf kleine Regionen in einem Bildframe 300, entweder einem vorherigen Bildframe oder einem aktuellen Bildframe, zu analysieren, die optimal mit höherer Auflösung, höherem dynamischem Bereich und/oder höherer Framerate innerhalb jenes Bildframes erfasst werden müssen, während es gleichzeitig andere, minder wichtige Regionen gibt, in denen möglicherweise reduzierte Details im Rahmen verfügbarer Hardwareressourcen erfasst werden müssen, und all diese individuellen Anpassungen geschehen dynamisch innerhalb eines selben Bildframes. Somit verwaltet diese Lösung dynamisch, wie lokale Regionen von Interesse in einem Bildframe 300 abgebildet werden, mit Bezug darauf, wie Bildparameter wie z.B. Auflösung, Framerate und dynamischer Bereich auf einer Pixelebene in einem Bildsensor angewandt werden.
Zur Beachtung: die Regionen von Interesse können eine rechteckige oder eine beliebige andere Form aufweisen.
4 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Smart-Vision-Architektur zur verbesserten Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung. Die Smart-Vision-Architektur 400 kann beispielsweise Kameras mit multiplen Bildsensoren benutzen.
Die Sensorsteuereinheit kann Pixelparameter von i) Bildgeberauflösung, ii) dynamischer Bereichsleistung und/oder iii) Framerate nicht-uniform in regionalen Inkrementen über ein gesamtes Bild, das in einem Bildframe durch Pixel in einem Pixelarray erfasst ist, gleichzeitig und unabhängig steuern und anpassen. Beispielsweise ist die Sensorsteuereinheit konfiguriert zum nicht-uniformen und unabhängigen Erhöhen i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb einer ersten Region mit einem salienten Element und Erhöhen zumindest eines verschiedenen Pixelparameters 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb einer zweiten Region mit einem salienten Element auf Basis i) eines kontextuellen Verständnisses dessen, was kontextuell in einem oder mehreren vorherigen Bildframes geschah, und ii) ob saliente Elemente innerhalb der ersten Region oder zweiten Region befindlich sind.
Die Bildverarbeitungseinheit kann eine latenzarme Feedback-Kommunikationsschleife von der Bildverarbeitungseinheit zu der Sensorsteuereinheit aufweisen. Die Sensorsteuereinheit liefert Pixelparameterfeedback an die Bildverarbeitungseinheit zum gleichzeitigen und unabhängigen Variieren i) der Bildgeberauflösung, ii) des dynamischen Bereichs und/oder iii) der Framerate innerhalb der verschiedenen Regionen von Interesse in dem Bildframe.
Das prädiktive und adaptive Szenenmodellierungsmodul koppelt sich an die Sensorsteuereinheit, um saliente Elemente in einer oder mehreren Regionen von Interesse in dem Bildframe i) zu identifizieren und/oder ii) vorherzusagen und anschließend Leitlinien an die Sensorsteuereinheit zu senden, um i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb jener Regionen mit salienten Elementen zu erhöhen. Das prädiktive und adaptive Szenenmodellierungsmodul kann auch Leitlinien an die Sensorsteuereinheit senden, um anschließend zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb von Regionen ohne saliente Elemente entweder i) beizubehalten oder ii) zu vermindern, um innerhalb etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) einem oder mehreren Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
Das prädiktive und adaptive Szenenmodellierungsmodul und ein Bildszenenverständnis- und Analysemodul kooperieren miteinander. Die Module kooperieren zur Analyse auf die Regionen von Interesse in jedem Bildframe, die optimal mit höherer Bildgeberauflösung, höherem dynamischem Bereich und/oder höherer Framerate innerhalb jenes Bildframes erfasst werden müssen, weil sie ein oder mehrere saliente Elemente enthalten, während es gleichzeitig minder wichtige Regionen von Interesse gibt, die nur nicht-saliente Elemente enthalten, wobei reduzierte Bilddetails mit einer Standard-Pixelparametereinstellung für Bildgeberauflösung, dynamischen Bereich und/oder Framerate innerhalb des Bildframes erfasst werden können, um innerhalb der 1) etwaigen i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einem oder mehreren Bildsensoren auferlegt werden, wobei die Pixel, von denen die Pixeldaten in Regionen von Interesse erfasst werden, den Bildframe ausmachen, und 2) etwaigen i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einer Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
VORHERSAGEN VON PIXELPARAMETERVERÄNDERUNGEN
Das prädiktive und adaptive Szenenmodellierungsmodul kann Trends bei Szenendatenveränderungen in dem einen oder mehreren vorherigen Bildframes analysieren und verfolgen. Ein oder mehrere Szenenmodelle werden als prädiktive Maßnahmen zur Überwachung und Verfolgung eines oder mehrerer salienter Elemente in verschiedenen Szenenregionen von Interesse beibehalten, um benötigte Pixelparameterveränderungen für bevorstehende Bildframes vorherzusagen. Die Modelle verfolgen Szenendaten, damit sie Pixelparameter anpassen können, die für jene Art von salientem Element am besten geeignet sind. Auf Basis der Identifikation der Bedürfnisse jeder Region leitet das prädiktive und adaptive Szenenmodellierungsmodul schnell pixel- oder regionsbasierte Parameter an die Sensorsteuereinheit und ihre Bildsensoren zurück, um gleichzeitig verschiedene saliente oder nicht-saliente Regionen in demselben Frame in Bezug spezifische(n) Auflösung, Framerate oder dynamischen Bereich zu optimieren.
Die Module wenden semantisches Reasoning und Modellieren an. Die Module verstehen Szenenstruktur (z.B. Straßen oder Wände), die dabei helfen können, sowohl semantisches Reasoning der Szene zu entwickeln als auch anschließend saliente Objekte wie Fahrzeuge und Fußgänger innerhalb jener Szene zu erkennen, um eine optimale lokale Pixelparameterauswahl festzulegen. Das Bildszenenverständnis- und Analysemodul identifiziert saliente Elemente (Türen, Schilder, Objekte in Bewegung, Farben, helle Szenen, Menschen, Hindernisse usw.). Das prädiktive und adaptive Szenenmodellierungsmodul verwendet Szenensegmentierung, einschließlich:

◯ Verwendung von Deep Learning(DL)-Algorithmen zum Markieren der salienten Objekte in der Szene.
◯ Ähnlich zu Ansätzen beim autonomen Fahren, basiert Bildgeberfeedback auf markierten Objekten.
◯ Identifizieren von Regionen, die einen hohen dynamischen Bereich (HDR), HSR und Bewegungskompensation erfordern.
◯ Verwendung von Echtzeitkopplung zwischen Algorithmen auf semantischer Ebene zur Objekterkennung, wodurch für nicht-uniforme und unabhängige Steuerung von Pixelparametern innerhalb verschiedener Regionen eines Bildsensors gesorgt wird.

Das prädiktive und adaptive Szenenmodellierungsmodul analysiert und verfolgt Trends bei Szenendatenveränderungen in jedem Bildframe. Ein oder mehrere Szenenmodelle können als prädiktive Maßnahmen zur Überwachung und Verfolgung von Szenenregionen beibehalten werden, die beispielsweise auf HDR oder hohe Framerate/Bewegung zur Vorhersage bevorstehender Bildgebungsparameterveränderungen angewiesen sind. Da diese künstlichen Intelligenz(AI)-Modelle Szenendaten verfolgen, können die AI-Modelle Vorschläge zum Anpassen von Bildgeberparametern machen, die für verschiedene Arten von salienten Elementen am besten geeignet sind.
Das Bildszenenverständnis- und Analysemodul betrachtet sich die Szene, um semantische Informationen aus Objekten oder Ereignissen in der Szene zu identifizieren. Das Bildszenenverständnis- und Analysemodul analysiert die Szene, um Objekte und Ereignisse zu identifizieren, die in der Szene in den vorherigen Bildframes vorkommen, und saliente Elemente innerhalb von Regionen der Szene zu identifizieren. Diese Informationen können zeitlichen oder räumlichen Analyseverfahren entstammen. Sobald die salienten Elemente identifiziert sind, werden jene Informationen anschließend an das prädiktive und adaptive Szenenmodellierungsmodul weitergeleitet, um sicherzustellen, dass die Vorrichtung für schnelle Veränderungen in der Szene bereit ist, die sich laut Vorhersage des prädiktiven und adaptiven Szenenmodellierungsmoduls in der Szene ändern werden.
Das Bildszenenverständnis- und Analysemodul und das prädiktive und adaptive Szenenmodellierungsmodul kooperieren, um Veränderungen in der Szene wie in 3 vorherzusagen, wo die Drohne schwebt, sich aber höchstwahrscheinlich schnell in eine benachbarte Region von Interesse bewegt, wenn sie sich bewegt, sodass die Module Leitlinien zum Anpassen von Einstellungen auf Pixelebene wie Framerate, Auflösung und dynamischer Bereich für jene Art von salientem Element senden, bevor das Objekt tatsächlich eine antizipierte Aktion durchführt oder vornimmt. Gleichfalls, in 7, kann das prädiktive und adaptive Szenenmodellierungsmodul vorhersagen, dass sich die zwei Autos in Regionen J und K im nächsten Satz von Bildframes in die Region H bewegen; und somit müssen Regionen J, K und H die Framerate für die Pixel in jenen Regionen erhöht bekommen.
Das prädiktive und adaptive Szenenmodellierungsmodul stellt sicher, dass das Bild für schnelle Veränderungen in der Szene bereit ist, indem Veränderungen in der Szene wie in 3 vorhergesagt werden, wo sich die Drohne in eine benachbarte Region bewegen kann, oder 7, wo sich die Autos der Kontur der Straße folgend in eine benachbarte Region bewegen sollten, um so mit dem Anpassen von Einstellungen auf Pixelebene wie Framerate, Auflösung und dynamischer Bereich vor dessen Auftreten zu beginnen.
Das prädiktive und adaptive Szenenmodellierungsmodul ist fähig zum Analysieren i) jedes der salienten Elemente sowie der Elemente von Nichtsalienz, die als in den vorherigen Bildframes anwesend festgestellt oder vorhergesagt werden, ii) im Vergleich zu Bild- und Szenendatenmodellen, sodass das prädiktive und adaptive Szenenmodellierungsmodul die für diese Art von salientem Element am besten geeigneten Pixelparameter identifizieren und vorhersagen kann. Das prädiktive und adaptive Szenenmodellierungsmodul kann einen oder mehrere vorherige Bildframes analysieren, indem sie in einer Datenbank gespeichert und mit beibehaltenen Bilddatenmodellen verglichen werden, um lokale Regionseigenschaften wie dynamischen Bereich, lokale Objektbewegung, Objekt oder Ereignisse und/oder lokale Auflösungsanforderungen zu identifizieren und vorherzusagen. Das prädiktive und adaptive Szenenmodellierungsmodul sagt lokale Regionseigenschaften wie dynamischen Bereich, lokale Objektbewegung, Objekt oder Ereignisse und/oder lokale Auflösungsanforderung mit bester Eignung für verfolgte oder antizipierte saliente Elemente in jener Region von Interesse vorher. Auf Basis der Identifikation der Bedürfnisse jeder Region leitet die Bildverarbeitung pixel- oder regionsbasierte Parameter schnell an den Bildgeber zurück, zum gleichzeitigen Optimieren verschiedener Regionen mit salienten Elementen und/oder Anpassen von Regionen mit Elementen, die in demselben Frame nicht-salient sind, um innerhalb festgelegter Schwellenwerte von spezifischen Auflösungs-, Frameraten- oder dynamischen Bereichswerten zu bleiben, wobei dies nach Bedarf geschieht.
Das prädiktive und adaptive Szenenmodellierungsmodul betrachtet sich Trends bei Szenendatenveränderungen. Wenn entweder helle Sonne oder dunkle Schatten als Trends in einem Bereich des Bilds trenden, wollen wir - zur Vorbereitung auf bevorstehende dynamische Bereichsprobleme - lokale Regions-/Pixelparameter anpassen. Zahlreiche Szenenmodelle können als prädiktive Maßnahmen beibehalten werden, um beispielsweise Szenenregionen von HDR oder Bewegung zu überwachen und zu verfolgen. Da Modelle Szenendaten verfolgen, können sie Bildgeberparameter anpassen. Modelle werden ständig aktualisiert, und in einigen Fällen können schlechte Modelle wegfallen oder können neue Modelle hinzugefügt werden, um sich auf neue Bedingungen einzustellen. Szenenmodellierung ist wichtig, um geringe Latenz und dynamisches Feedback beizubehalten.
Das prädiktive und adaptive Szenenmodellierungsmodul kann Maßnahmen zur Vorhersage bevorstehender Bildgebungsparameterveränderungen durch Beibehalten zahlreicher Bilddatenmodelle beinhalten, um prädiktives Szenenverständnis zu unterstützen und anschließend saliente Elemente, und welche Art von salienten Elementen in einer oder mehreren Regionen von Interesse in dem Bildframe vorhanden sind, zu identifizieren und/oder vorherzusagen und anschließend Leitlinien an die Sensorsteuereinheit zu senden, um i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate zu erhöhen, wie für die Art von salienten Elementen innerhalb jener Regionen mit salienten Elementen am besten geeignet ist. Bildgebereinstellungen in jeder Pixelregion werden auf Basis von Objekttypen (z.B. abgeleitetes semantisches Objekt) festgelegt.
ABWÄGEN DES ERHÖHENS VON PIXELPARAMETERN IN EINIGEN REGIONEN, BEI GLEICHZEITIGEM BEIBEHALTEN ODER VERMINDERN VON PIXELPARAMETERN IN ANDEREN REGIONEN INNERHALB DESSELBEN BILDFRAMES
Das prädiktive und adaptive Szenenmodellierungsmodul kann auch anschließend zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb jener Regionen ohne saliente Elemente beibehalten oder vermindern, um innerhalb der i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) den Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
Das prädiktive und adaptive Szenenmodellierungsmodul und das Bildszenenverständnis- und Analysemodul können zum Kooperieren konfiguriert sein, um i) Echtzeit-Bildszenendynamik zu analysieren, Szenenaktivitäten zu analysieren und semantisches Reasoning der Szene zu entwickeln, während ii) gleichzeitig Pixelparameter für die Sensorsteuereinheit bestimmt werden, um Szeneninformationen zu maximieren und die Pixelparameter an die Sensorsteuereinheit zu senden, um die Pixelparameter für Pixel in den verschiedenen Regionen von Interesse für einen aktuellen Bildframe, der erfasst wird, dynamisch anzupassen.
In 7 sind die Regionen von Interesse um die Autos in der Szene herum. Die Bewegung der Autos wird erkannt und/oder ein Schild wird erkannt und anschließend werden Regionen von Interesse um jene Objekte herum definiert.
Die Regionen mit bewegten Autos, Regionen C, D, H, I, J, K und, vorhersagebedingt, Region H werden mit einer höheren Framerate erfasst. Außerdem werden jene selben Regionen sowie Region B mit dem Straßenschild mit einer höheren Auflösung erfasst, um Feinheiten von Text und Gesichtern zu erfassen. Das Erfassen all dieser Pixel auf Basis von Echtzeit-Bewegungsanalyse bestimmt hohe Framerate und kurze Integrationszeiten für diese Pixel. Außerdem will der Bildgeber den Text auf dem Verkehrsschild und potenziell Kennzeichen und Bilder von Fahrern mit größerer Auflösung erfassen. Bildsensoren können heutzutage nicht gleichzeitig Szenen erfassen, die Folgendes aufweisen: hohen dynamischen Bereich (HDR), hohe räumliche Auflösung (HSR) und sich schnell bewegende Objekte. Regionen A, E, F, G und I enthalten keine salienten Elemente und ihre Pixelparameter können beibehalten oder vermindert werden.
Die Module kooperieren, um lokales Szenenverständnis und Modellieren zur Vorhersage und schnellen Anpassung lokaler Pixelparameter zum Erfassen von Elementen innerhalb jedes Frames zu benutzen. Die Module kooperieren, um auch gleichzeitig Leitlinien zur lokalen Anpassung von dynamischem Bereich, räumlicher Auflösung und Verringerung der Bewegungsunschärfe mit lokal höherer Framerate bei gleichzeitiger Beibehaltung überschaubarer Ausgangsdatenraten zu senden. Somit müssen einige Regionen Pixelparameter in anderen Regionen innerhalb desselben Bildframes beibehalten oder vermindern, um innerhalb etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) einem oder mehreren Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
Der Bildgebersensor und die Sensorsteuereinheit arbeiten zusammen an der Parametersteuerung dessen, auf Pixelebene, wie ein beliebiges gegebenes Pixel abgebildet wird (z.B. Integrationszeit, Framerate, Auflösungsauswahl usw.), und bieten ein automatisiertes und dynamisches Mittel zum Optimieren dessen, wie lokale Szenendaten und Merkmale erfasst werden, um sicherzustellen, dass kritischer Szeneninhalt nicht durch langsames Verändern von Bildgeberparametern verloren geht, während Ausgangsdatenbandbreiten der Hardware balanciert werden.
Bei den meisten Bildgebungsanwendungen gibt es kleinere Regionen in einem Bildframe, die optimal erfasst werden müssen, während es minder wichtige Regionen gibt, in denen weniger Details erforderlich sind. Die aktuelle Lösung verwaltet dynamisch, wie lokale Regionen in einem Frame abgebildet werden, mit Bezug darauf, wie Bildparameter wie z.B. Auflösung, Framerate und dynamischer Bereich auf einer Pixelebene in einem Bildgeber angewandt werden. Aus unserem Ansatz erwachsen zumindest zwei Vorteile:

(1) Erstens können lokale Bildqualität, Merkmale und Details dramatisch verbessert werden. Beispielsweise kann die Verbesserung des lokalen dynamischen Bereichs erfolgen, um in tiefe Schatten oder helle Sonne hineinzusehen, wobei auch das Erfassen einer lokalen Bewegung bei hohen Frameraten erfolgen kann, um die Bildschärfe zu verbessern, wodurch vorhergesagt wird, dass eine Person durch eine Tür kommt, damit man ihr Gesicht optimal erfassen oder Auflösung auf einem Gesicht hinzufügen kann, um die Gesichtserkennung zu verbessern.
(2) Zweitens werden Systeme mit weniger SWaP (Größe, Gewicht und Leistung) und überschaubarer Datenbandbreite benötigt. Mit dieser Lösung kann die von einem Bildgeber ausgegebene Datenmenge bedeutend verringert werden und werden zukünftige Anwendungen ermöglicht, die verringerte Leistung, minimierte Verarbeitungsressourcen und verringerte Netzwerkbandbreite benötigen.

Wieder auf 3 Bezug nehmend kann außerdem das Compositor-Modul (wie z.B. ein Satz von digitalen Bildgebern) Elemente zusammenfügen, die in der multiplen Region von Interesse innerhalb des einzelnen Bildframes unter Verwendung eines Identifikators, beispielsweise eines Zeitstempels einer gemeinsamen Zeitlinie, erfasst wurden. Der Identifikator ist indikativ für den Bildframe und mit Daten inbegriffen, die aus den Pixeln für jede Region von Interesse gesammelt werden.
Das Vorverarbeitungsmodul kann den dynamischen Bereich des Bildgeberausgangs für die nächsten Module und Pixeldatentrends konditionieren. Ein gewisses globales Zugewinn-Feedback an Bildgeber ist bei größeren Szenenveränderungen möglich.
Zur Beachtung: der digitale Bildgeber kann eine Kamera sein, die eine Folge von Standbildern aufnimmt oder eine Videoaufzeichnung vornimmt, wobei es sich um eine Reihe von Bildern handelt, die gewöhnlich von Audio begleitet werden.
Die Steuereinheit kann eine Position einschließlich GPS als Eingabe zur Optimierung von Parametern in einer bestimmten Region benutzen. Z.B. weiß eine einen Bereich überfliegende Drohne, wo sie ist; und kann somit eine Region auf Basis eines Bereichs auf dem Boden wie eine Kreuzung definieren, wofür man optimierte Parameter erhält.
11 veranschaulicht ein Diagramm einer Ausführungsform des Systems, das ein semantisches Verständnis mittels dynamischer Szenenmodellierung von einer Szene, Bildern und vorhergesagten Szenen erzeugt.
Das System 1100 beinhaltet eine Anzahl von zusammenarbeitenden Modellen und Modulen. In diesem Beispiel versorgt der Quad-Pixelbildgeber das Vorverarbeitungsbildmodul mit Pixeldaten. Das Vorverarbeitungsbildmodul sendet seine Daten an das Szenenverständnismodul, das ein Szenensegmentierungs- und -klassifizierungsmodul und ein „Region von Interesse“-Kursaktivitäts-Klassifizierungsmodul aufweist. Maschinenlernmodelle beinhalten ein Szenenmodell, ein Objektmodell und ein Ereignismodell, die verwendet werden, um das Szenenverständnismodul und das Objektverfolgungs- und semantische Reasoning-Modul mit Informationen zu versorgen. Das Szenenverständnismodul versendet seine Informationen an das Objektverfolgungs- und semantische Reasoning-Modul.
Das System besitzt die Fähigkeit, dynamisch, in Echtzeit, zu verstehen, was in der Szene geschieht und worin wichtige Informationen bestehen, die von den Sensoren erfasst werden sollten, und wie der Sensor diese Informationen erfassen sollte. Ein Aspekt der Gewährleistung dessen, dass die wichtigsten Informationen in der Szene erfasst werden, ist sicherzustellen, dass die in der Szene ausgewählten Regionen für die aktuelle Mission oder Anwendung wichtig sind. 11 zeigt ein Beispiel für eine Szenenverständnis-Verarbeitungspipeline-Architektur zum Bestimmen der Regionen und der Algorithmen, die die dynamischen und Echtzeit-Regionsauswahlen ermöglichen.
Die anfängliche Szenenverständniskomponente der Pipeline ist das Szenensegmentierungs- und -klassifizierungsmodul, wobei die größeren Szenensegmente einer sich verändernden Szene definiert sind (z.B. Himmel, Boden). Diese Informationen sind wichtig, da sie ein logisches Verständnis dessen vermitteln, welche Objekte gefunden werden und wo (z.B. sind Autos nicht oft am Himmel zu finden). Eine anfängliche grobe ROI(Region of Interest)-Auswahl wird nach den Szenensegmenten bestimmt, auf Basis eines Aufmerksamkeitsmechanismus und von Maschinenlernmodellen, die trainierte Klassen auf Basis einer Szenenregion in der Szene aufweisen. Die Aufmerksamkeitsmechanismen können auf einer Reihe von Anhaltspunkten (z.B. Objektbewegung, Bildrandformen in spezifischen Szenenregionen) beruhen. Die tatsächliche Klassifizierung der Objekte und nachfolgenden Regionen von Interesse erfolgt erst in der Klassifizierungsphase. Die Szenensegmentierungserklärung kann auch von anderen Faktoren wie Bewegung von Objekten (Bewegungsvektorfeld) oder Bildqualität ausgelöst werden. Die Bildqualität wird überwacht und Bereiche, die sehr dunkel oder sehr hell sein können, werden als Regionen angesehen, die der Anpassung von Bildparametern durch Feedback an den Bildgeber bedürfen.
Das Objektverfolgungs- und semantische Reasoning-Verarbeitungsmodul und dessen verschiedene Unterblöcke analysieren und verstehen die Regionen von Interesse, die zuvor von Aufmerksamkeitsmechanismen ausgewählt wurden, und ob sie für eine gegebene Anwendung wichtig sind. Durch Verständnis von Objekten, und wie sie in den Regionen von Interesse in einer Szene agieren und sich bewegen, können sie weiter präzisiert werden (z.B. fliegen Flugzeuge nicht wie Vögel am Himmel, UAVs könnten dies aber). Mit den präzisierten Regionen von Interesse kann eine ausführliche Klassifizierung erfolgen, um jede Region zu markieren und Daten zur Anzeige sowie regionsspezifisch markierte Ausgaben zu formatieren.
Als Nächstes gibt es multiple Phasen des Feedbacks an die Smart-Vision-Sensor-Quad-Pixelarchitektur. Grobes Feedback an die Pixelbildgeberparameter kann in der Pipelinearchitektur frühzeitig erfolgen, um für die beste Bildqualität vor Verarbeitung zu sorgen, gefolgt von regionsbasiertem Feedback auf Basis der Kenntnis von Objekten in Regionen von Interesse (z.B. im Schatten gehende Person, daher Anpassung von Parametern in der Region für verbesserten dynamischen Bereich und verbesserte räumliche Auflösung, um Gesichtserkennung zu unterstützen). Die vorab erfolgende Parameteranpassung bei grober Regionsauswahl muss schnell und latenzarm (z.B. < 1 Millisekunde) erfolgen, während das semantische Reasoning- und Verständnisfeedback nach einem oder zwei Frames erfolgen kann.
Eine andere Komponente der Befähigung zum Gewährleisten dessen, dass alle wichtigen Informationen erfasst werden, ist die Verwendung von prädiktiver Bildverarbeitung. Wenn beispielsweise das System ein Objekt von einer stationären oder sich bewegenden Plattform aus verfolgt, ist das System imstande, die Fläche des Sensors, wohin ein sich bewegendes Objekt über die nächsten paar Frames gelangt, zu berechnen. Mit diesem Verständnis kann die Pipelinearchitektur die Parameter an die Pixel für das bewegte Objekt anpassen, um sicherzustellen, dass bei Erfassung die optimalen Informationen erhalten werden. Die prädiktive Fähigkeit hilft auch beim Verfolgen von Objekten, während sie von anderen Objekten in einer Szene verdeckt werden.
5 veranschaulicht ein Blockdiagramm einer Ausführungsform eines exemplarischen Bildsensors 500 mit seinem Pixelarray, seiner Taktschaltung und anderen Steuerschaltungen.
6 veranschaulicht ein Blockdiagramm einer Ausführungsform eines Bildframes 600, der eine Szene von auf einer Straße fahrenden Automobilen erfasst.
7 veranschaulicht ein Blockdiagramm einer Ausführungsform der in Regionen von Interesse unterteilten, im Bildframe von 6 erfassten Szene 700. Dieser einzelne Bildframe ist unterteilt in Regionen von Interesse, Regionen B, C, D, H, I, J und K, die Autos, Verkehrszeichen und die Straße in verschiedenen Regionen erfassen. Andere Regionen A, E, F, G und I sind Regionen ohne jegliche saliente Elemente und können ggf. verringerte Pixelparameter benutzen.
Zusätzliche Wege zur Implementierung von Teilen des Bildszenenverständnis- und Analysemoduls und/oder prädiktiven und adaptiven Szenenmodellierungsmoduls finden sich in US-Patent 8830360 mit dem Titel „Method and apparatus for optimizing image quality based on scene content“, 8861842 mit dem Titel „Method and apparatus for real-time pedestrian detection for urban driving“, 8712096 mit dem Titel „Method and apparatus for detecting and tracking vehicles“, 8634638 mit dem Titel „Real-time action detection and classification“ und Patentpublikation 20140347475 mit dem Titel „Real-time object detection, tracking and occlusion reasoning“.
8A und 8B veranschaulichen ein Flussdiagramm einer Ausführungsform zur Verbesserung der Bildgebung auf Basis von semantischer Verarbeitung und dynamischer Szenenmodellierung. Das Flussdiagramm kann zum Beschreiben des Verfahrens und der Schritte benutzt werden, die durchgeführt werden können, nicht in buchstäblicher Reihenfolge, wenn logisch möglich, und nicht alle der Schritte müssen durchgeführt werden.
In Schritt 802 verfolgt das System Trends in vorherigen Bildframes, wobei Szenendatenmodelle referenziert und ein oder mehrere künstliche Intelligenzalgorithmen benutzt werden, um zu verstehen, was kontextuell in dem ersten Bildframe geschieht, und anschließend die Bildpixelparameter verändert werden, um Pixelparameter in der ersten Region zu erhöhen, bei gleichzeitigem Beibehalten oder Verringern von Bildpixelparametern in der zweiten Region auf Basis i) des kontextuellen Verständnisses dessen, was kontextuell im vorherigen Bildframe geschah, und ii) ob saliente Elemente laut Vorhersage innerhalb der ersten Region befindlich sind und nicht in der zweiten Region befindlich sind.
In Schritt 804 optimiert das System die Qualität von Bildinformationen mit einer Sensorsteuereinheit, zum gleichzeitigen unabhängigen Steuern von Pixelparametern von i) lokaler Auflösung, ii) dynamischem Bereich und iii) Framerate innerhalb zahlreicher Regionen eines einzelnen/ersten Bildframes auf Basis von i) beliebigen eines kontextuellen Verständnisses zumindest dessen, was kontextuell in einem vorherigen Bildframe geschah, eines kontextuellen Verständnisses einer Szene und eines kontextuellen Verständnisses einer antizipierten Szene, und ii) ob saliente Elemente innerhalb von beliebigen einer ersten Region des ersten Bildframes und einer zweiten Region des ersten Bildframes befindlich sind, wobei Pixelparameter für Pixel in der ersten Region dafür konfiguriert sind, anders als die Pixelparameter für Pixeldaten zu arbeiten, die aus der zweiten Region für jenen selben ersten Bildframe gesammelt werden.
In Schritt 806 passt das System Ausgangspixeldatenraten mit der Sensorsteuereinheit an, um Pixelparameter von beliebigen i) der lokalen Auflösung, ii) des dynamischen Bereichs und iii) der Framerate für Pixel in der ersten Region zu erhöhen, bei gleichzeitigem Beibehalten oder Verringern beliebiger i) der lokalen Auflösung, ii) der Framerate und iii) des dynamischen Bereichs in der zweiten Region, die im ersten Bildframe enthaltene nicht-saliente Elemente enthält.
In Schritt 808 wird die Bildinformationsqualität optimiert, bei gleichzeitigem Verbleib innerhalb 1) etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einem oder mehreren Bildsensoren auferlegt werden, wobei die Pixel die Pixeldaten in Regionen erfassen, die den ersten Bildframe ausmachen, und 2) etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einer Kommunikationsschleife zwischen der Sensorsteuereinheit und den Bildsensoren auferlegt werden.
In Schritt 810 werden die Bildpixeldaten für die erste Region aus jenen Pixeln in einem anderen Sammelzyklus (zu einem verschiedenen Zeitpunkt) als die Bildpixeldaten aus den Pixeln in der zweiten Region für jenen selben Bildframe gesammelt.
In Schritt 812 benutzt das System die Sensorsteuereinheit, um leistungsstärkere Pixelparameter nur auf Pixel anzuwenden, die Pixeldaten über einen oder mehrere Abschnitte, die die Gesamtheit des ersten Bildframes ausmachen, aber nicht über den gesamten ersten Bildframe sammeln; und somit arbeiten einige Pixel, die den gesamten Bildframe ausmachen, mit leistungsschwächeren Pixelparametern, während gleichzeitig die anderen Pixel mit den leistungsstärkeren Pixelparametern arbeiten, auf Basis i) des kontextuellen Verständnisses von beliebigen eines kontextuellen Verständnisses zumindest dessen, was kontextuell in einem vorherigen Bildframe geschah, eines kontextuellen Verständnisses einer Szene und eines kontextuellen Verständnisses einer antizipierten Szene, und ii) ob saliente Elemente innerhalb von beliebigen der ersten Region des ersten Bildframes, der zweiten Region des ersten Bildframes oder sowohl den ersten als auch zweiten Regionen befindlich sind.
In Schritt 814 benutzt das System einen separaten Controller, um globale Veränderungen an Pixelparametern für sämtliche Pixel, die den gesamten ersten Bildframe ausmachen, auf Basis zumindest der Umgebungsbeleuchtungsverhältnisse vorzunehmen.
In Schritt 816 benutzt das System ein Compositor-Modul, um sämtliche Bildpixeldaten aus sämtlichen Regionen, die den ersten Bildframe ausmachen, zu sammeln und anschließend Bildpixeldaten aus zumindest der ersten Region und der zweiten Region, deren Sammlung in verschiedenen Zyklen erfolgt, für den ersten Bildframe auf Basis des mit dem ersten Bildframe korrelierenden Identifikators zu reassemblieren.
NETZWERK
9 veranschaulicht eine Anzahl von elektronischen Systemen und Geräten, die in einer Netzwerkumgebung gemäß einer Ausführungsform des hierin diskutierten Designs miteinander kommunizieren. Abschnitte der Module können in der Cloud-Anbieter-Plattform 904 befindlich sein, während andere Abschnitte des Systems einschließlich Bildsensoren auf den Client-Vorrichtungen wie den mobilen Rechnervorrichtungen 902A - 902F befindlich sein können.
Die Netzwerkumgebung 900 hat ein Kommunikationsnetzwerk 910. Das Netzwerk 910 kann ein oder mehrere Netzwerke beinhalten, die aus einem optischen Netzwerk, einem zellulären Netzwerk, dem Internet, einem Lokalnetzwerk („LAN“) einschließlich Wi-Fi, Bluetooth usw., einem Weitverkehrsnetzwerk („WAN“), einem Satellitennetzwerk, einem Fasernetzwerk, einem Kabelnetzwerk und Kombinationen davon ausgewählt sind. In einer Ausführungsform ist das Kommunikationsnetzwerk 910 das Internet. Wie gezeigt kann es viele Server-Rechnersysteme und viele Client-Rechnersysteme geben, die über das Kommunikationsnetzwerk 910 miteinander verbunden sind. Es versteht sich jedoch, dass beispielsweise ein einzelnes Client-Rechnersystem auch mit einem einzelnen Server-Rechnersystem verbunden sein kann. Von daher veranschaulicht diese Figur eine beliebige, über das Kommunikationsnetzwerk 910 miteinander verbundene Kombination aus Server-Rechnersystemen und Client-Rechnersystemen.
Das Kommunikationsnetzwerk 910 kann ein oder mehrere Server-Rechnersysteme wie ein erstes Server-Rechnersystem 904A, ein zweites Server-Rechnersystem 904B, ein Virtual-Reality-Headset 904C, einen ersten Smart-Fernseher 902H usw. miteinander und zumindest auch mit einem oder mehreren Client-Rechnersystemen verbinden. Die Server-Rechnersysteme 904A und 904B können jeweils optional organisierte Datenstrukturen wie Datenbanken 906A und 906B beinhalten. Jedes des einen oder der mehreren Server-Rechnersysteme kann ein oder mehrere virtuelle Server-Rechnersysteme aufweisen, und multiple virtuelle Server-Rechnersysteme können gestalterisch implementiert werden. Jedes des einen oder der mehreren Server-Rechnersysteme kann eine oder mehrere Firewalls zum Schutz der Datenintegrität aufweisen.
Das zumindest eine oder mehrere Client-Rechnersysteme können aus einer ersten mobilen Rechnervorrichtung 902A (z.B. Smartphone mit einem Androidbasierten Betriebssystem), einer zweiten mobilen Rechnervorrichtung 902E (z.B. Smartphone mit einem iOS-basierten Betriebssystem), einem ersten tragbaren elektronischen Gerät 902C (z.B. einer Smartwatch), einem ersten tragbaren Computer 902B (z.B. Laptop-Computer), einer dritten mobilen Rechnervorrichtung oder einem zweiten tragbaren Computer 902F (z.B. Tablet mit einem Android- oder iOS-basierten Betriebssystem), einer/einem intelligenten Vorrichtung oder System, die/das in ein erstes intelligentes Automobil 902D einbezogen ist, und dergleichen ausgewählt werden.
Die Client-Rechnersysteme (z.B. 902A - 902H) können beispielsweise die Softwareapplikation und/oder das hardwarebasierte System beinhalten, worin das hierin diskutierte Design eingesetzt werden kann.
Es versteht sich, dass die Verwendung der Begriffe „Client-Rechnersystem“ und „Server-Rechnersystem“ das System anzeigen soll, das im Allgemeinen eine Kommunikation einleitet, sowie das System, das im Allgemeinen auf die Kommunikation anspricht. Beispielsweise kann ein Client-Rechnersystem im Allgemeinen eine Kommunikation einleiten und spricht ein Server-Rechnersystem im Allgemeinen auf die Kommunikation an.
Ein beliebiges oder mehrere der Server-Rechnersysteme kann/können ein Cloud-Anbieter sein. Ein Cloud-Anbieter kann Applikationssoftware in einer Cloud (z.B. dem Netzwerk 910 wie dem Internet) installieren und betreiben, und Cloud-Benutzer können auf die Applikationssoftware von einem oder mehreren der Client-Rechnersysteme aus zugreifen. Im Allgemeinen können Cloud-Benutzer, die eine Cloud-basierte Site in der Cloud haben, eine Cloud-Infrastruktur oder -Plattform, wo die Applikationssoftware läuft, nicht allein verwalten. Somit können die Server-Rechnersysteme und organisierten Datenstrukturen davon gemeinsam genutzte Ressourcen sein, wobei jedem Cloud-Benutzer ein bestimmter Anteil der dedizierten Nutzung der gemeinsam genutzten Ressourcen überlassen wird. Der Cloud-basierten Site jedes Cloud-Benutzers kann ein virtueller Anteil des dedizierten Raums und der Bandbreite in der Cloud überlassen werden. Cloud-Applikationen können sich hinsichtlich ihrer Skalierbarkeit von anderen Applikationen unterscheiden; dies kann durch Klonieren von Aufgaben auf multiple virtuelle Maschinen während der Laufzeit erreicht werden, um sich verändernden Arbeitsanforderungen zu entsprechen. Lastverteiler verteilen die Arbeit über den Satz von virtuellen Maschinen. Dieser Vorgang ist für den Cloud-Benutzer, der nur einen einzigen Zugangspunkt sieht, transparent.
Cloud-basierter Fernzugriff kann codiert sein, um ein Protokoll wie Hypertext Transfer Protocol („HTTP“) zu benutzen, um in einen Anfrage- und Antwortzyklus mit einer Applikation auf einem Client-Rechnersystem wie einer auf dem Client-Rechnersystem residenten Webbrowser-Applikation einzusteigen. Der Cloud-basierte Fernzugriff ist durch ein Smartphone, einen Desktop-Computer, ein Tablet oder beliebige andere Client-Rechnersysteme, jederzeit und/oder überall, möglich. Der Cloud-basierte Fernzugriff ist codiert für den Einstieg in 1) den Anfrage- und Antwortzyklus von allen Webbrowser-basierten Applikationen aus, 2) den Anfrage- und Antwortzyklus von einem dedizierten Online-Server aus, 3) den Anfrage- und Antwortzyklus direkt zwischen einer auf einer Client-Vorrichtung residenten nativen Applikation und dem Cloud-basierten Fernzugriff auf ein anderes Client-Rechnersystem und 4) Kombinationen von diesen.
In einer Ausführungsform kann das Server-Rechnersystem 904A eine Server-Engine, eine Webseiten-Verwaltungskomponente, eine Inhalts-Verwaltungskomponente und eine Datenbank-Verwaltungskomponente beinhalten. Die Server-Engine kann grundlegende Verarbeitung und Aufgaben auf Betriebssystemebene durchführen. Die Webseiten-Verwaltungskomponente kann Erstellung und Anzeige oder Routing von Webseiten oder Screens im Zusammenhang mit Empfang und Bereitstellung von digitalem Inhalt und digitaler Werbung abwickeln. Benutzer (z.B. Cloud-Benutzer) können auf eines oder mehrere der Server-Rechnersysteme mittels eines damit assoziierten Uniform Resource Locators („URL“) zugreifen. Die Inhalts-Verwaltungskomponente kann die meisten Funktionen in den hierin beschriebenen Ausführungsformen abwickeln. Die Datenbank-Verwaltungskomponente kann Speicher- und Abrufaufgaben mit Bezug auf die Datenbank, Anfragen an die Datenbank und Speicherung von Daten beinhalten.
RECHNERSYSTEME
10 veranschaulicht ein Rechnersystem 1000, das, ganz oder teilweise, Bestandteil eines oder mehrerer der Server oder Client-Rechnervorrichtungen gemäß einer Ausführungsform des hierin diskutierten Designs sein kann. Mit Bezug auf 10 können Komponenten des Rechnersystems 1000 beinhalten, sind aber nicht beschränkt auf, eine Verarbeitungseinheit 920 mit einem oder mehreren Prozessorkernen, einem Systemspeicher 930 und einem Systembus 921, der verschiedene Systemkomponenten einschließlich des Systemspeichers 930 an die Verarbeitungseinheit 920 koppelt. Der Systembus 921 kann eine beliebige von mehreren Arten von Busstrukturen sein, die ausgewählt sind aus einem Speicherbus oder Speichercontroller, einem Peripheriebus und einem lokalen Bus, wobei beliebige einer Vielzahl von Busarchitekturen zur Anwendung kommen.
Rechnersystem 900 beinhaltet normalerweise eine Vielzahl von maschinenlesbaren Rechnermedien. Maschinenlesbare Rechnermedien können beliebige verfügbare Medien sein, die durch Rechnersystem 900 zugänglich sind, und beinhalten sowohl flüchtige als auch nicht-flüchtige Medien und entfernbare und nicht entfernbare Medien. Der Systemspeicher 930 beinhaltet Computerspeichermedien in Form von flüchtigen und/oder nicht-flüchtigen Speichern wie Nurlesespeicher (ROM) 931 und Direktzugriffsspeicher (RAM) 932. Transitorische Medien wie Drahtloskanäle sind nicht in den maschinenlesbaren Medien inbegriffen. Kommunikationsmedien verkörpern normalerweise computerlesbare Anweisungen, Datenstrukturen, sonstige ausführbare Software oder andere Transportmechanismen und beinhalten beliebige Informationszustellu ngsmed ien.
RAM 932 enthält normalerweise Daten und/oder Software, die der Verarbeitungseinheit 920 sofort zugänglich sind und/oder von dieser gegenwärtig bearbeitet werden. Der RAM 932 kann einen Teil des Betriebssystems 934, Applikationsprogramme 935, sonstige ausführbare Software 936 und Programmdaten 937 beinhalten.
Ein Benutzer kann Befehle und Informationen in das Rechnersystem 900 durch Eingabevorrichtungen wie eine(n) Tastatur, Touchscreen oder Software- oder Hardware-Eingabetasten 962, ein Mikrofon 963, eine Zeigevorrichtung und/oder Scrolleingabe-Komponente wie eine Maus, einen Trackball oder Touchpad eingeben. Das Mikrofon 963 kann mit Spracherkennungssoftware zusammenarbeiten. Diese und andere Eingabevorrichtungen sind oft an die Verarbeitungseinheit 920 durch eine Benutzereingabeschnittstelle 960 angeschlossen, die an den Systembus 921 gekoppelt ist, kann aber durch andere Schnittstellen- und Busstrukturen wie einen Parallelport, Gameport oder einen Universal Serial Bus (USB) angeschlossen sein. Ein Anzeigemonitor 991 oder eine andere Art von Anzeigebildschirmvorrichtung wird ebenfalls an den Systembus 921 über eine Schnittstelle wie eine Anzeigeschnittstelle 990 angeschlossen. Zusätzlich zu dem Monitor 991 können Rechnervorrichtungen auch andere periphere Ausgabevorrichtungen wie Lautsprecher 997, einen Vibrator 999 und andere Ausgabevorrichtungen, die durch eine periphere Ausgabeschnittstelle 995 angeschlossen sein können, beinhalten.
Das Rechnersystem 900 kann in einer vernetzten Umgebung unter Verwendung logischer Anschlüsse an eine oder mehrere remote Computer/Client-Vorrichtungen wie ein Remote-Rechnersystem 980 arbeiten. Das Remote-Rechnersystem 980 kann ein Personalcomputer, eine handgeführte Vorrichtung, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Vorrichtung oder ein sonstiger gemeinsamer Netzwerkknoten sein und beinhaltet normalerweise viele oder alle der oben in Bezug auf das Rechnersystem 900 beschriebenen Elemente. Die in dieser Figur abgebildeten logischen Anschlüsse können ein „PAN“ (Personal Area Network) 972 (z.B. Bluetooth®), ein Lokalnetzwerk („LAN“) 971 (z.B. Wi-Fi) und ein Weitverkehrsnetzwerk („WAN“) 973 (z.B. zelluläres Netzwerk) beinhalten, können aber auch andere Netzwerke beinhalten. Solche Vernetzungsumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet üblich. Eine Browserapplikation oder sonstige native Applikation, die direkt mit einer Applikation auf einem Remote-Server zusammenarbeitet, kann auf der Rechnervorrichtung resident und im Speicher gespeichert sein.
Bei Verwendung in einer LAN-Netzwerkumgebung ist das Rechnersystem 900 an das LAN 971 durch eine(n) Netzwerkschnittstelle oder -adapter 970 angeschlossen, der beispielsweise ein Bluetooth®- oder Wi-Fi-Adapter sein kann. Bei Verwendung in einer WAN-Netzwerkumgebung (z.B. Internet) beinhaltet das Rechnersystem 900 normalerweise ein bestimmtes Mittel zum Aufbau der Kommunikationen über das WAN 973.
Es ist anzumerken, dass das vorliegende Design auf einem Rechnersystem wie dem mit Bezug auf 9 beschriebenen ausgeführt werden kann. Das vorliegende Design kann jedoch auf einem Server, einer der Nachrichtenverarbeitung gewidmeten Rechnervorrichtung oder auf einem verteilten System, in dem verschiedene Abschnitte des vorliegenden Designs an verschiedenen Teilen des verteilten Rechnersystems ausgeführt werden, implementiert werden.
In einer Ausführungsform kann Software, die zur Ermöglichung hierin diskutierter Algorithmen verwendet wird, auf einem nicht-transitorischen maschinenlesbaren Medium verkörpert sein. Ein maschinenlesbares Medium beinhaltet jeglichen Mechanismus, der Informationen in einer durch eine Maschine (z.B. einen Computer) lesbaren Form speichert. Beispielsweise kann ein nicht-transitorisches maschinenlesbares Medium einen Nurlesespeicher (ROM); Direktzugriffsspeicher (RAM); Magnetplattenspeichermedien; optische Speichermedien; Flash-Speichervorrichtungen; Digital Versatile Discs (DVDs), EPROMs, EEPROMs, FLASH-Speicher, magnetische oder optische Karten oder beliebige Arten von Medien mit Eignung für die Speicherung elektronischer Anweisungen, nicht aber transitorischer Signale, beinhalten.
Zur Beachtung: eine hierin beschriebene Applikation beinhaltet, ist aber nicht beschränkt auf, Softwareapplikationen, Handy-Apps, und Programme, die Bestandteil einer Betriebssystemapplikation sind. Einige Abschnitte dieser Beschreibung werden im Hinblick auf Algorithmen und symbolische Darstellungen von Operationen an Datenbits innerhalb eines Computerspeichers präsentiert. Diese algorithmischen Beschreibungen und Darstellungen sind die Mittel, die von Datenverarbeitungsfachleuten verwendet werden, um anderen Fachleuten auf dem Gebiet die Substanz ihrer Arbeit am effektivsten zu vermitteln. Ein Algorithmus ist hier und im Allgemeinen als selbstkonsistente, zu einem gewünschten Ergebnis führende Sequenz von Schritten konzipiert. Die Schritte sind diejenigen, die physischer Manipulationen von physischen Größen bedürfen. Gewöhnlich, obwohl nicht unbedingt, nehmen diese Größen die Form von elektrischen oder magnetischen Signalen an, die gespeichert, übertragen, kombiniert, verglichen und sonst wie manipuliert werden können. Mitunter hat es sich als günstig erwiesen, hauptsächlich aus Gründen der gemeinsamen Nutzung, diese Signale als Bits, Werte, Elemente, Symbole, Zeichen, Terme, Zahlen oder dergleichen zu bezeichnen. Diese Algorithmen können in einer Reihe von verschiedenen Software-Programmiersprachen wie Python, Java, HTTP, C, C+ oder anderen ähnlichen Sprachen geschrieben werden. Außerdem kann ein Algorithmus mit Codezeilen in Software, konfigurierten Logikgattern in Software oder einer Kombination von beiden implementiert werden. In einer Ausführungsform besteht die Logik aus elektronischen Schaltungen, die den Regeln von Boolescher Logik folgen, Software, die Instruktionsmuster enthält, oder einer beliebigen Kombination von beiden.
Viele von elektronischen Hardwarekomponenten durchgeführte Funktionen können durch Softwareemulation dupliziert werden. Somit kann ein Softwareprogramm, das geschrieben wurde, um diese selben Funktionen zu erzielen, die Funktionalität der Hardwarekomponenten in Eingang-Ausgang-Schaltungen emulieren.
Obwohl das vorstehende Design und Ausführungsformen davon sehr detailliert vorgelegt wurden, ist es nicht die Ansicht des/der Anmelder(s), dass das Design und die Ausführungsformen, die bereitgestellt sind, einschränkend sind. Zusätzliche Anpassungen und/oder Modifikationen sind möglich, und in breiteren Aspekten sind diese Anpassungen und/oder Modifikationen ebenfalls inbegriffen. Dementsprechend kann von dem vorstehenden Design und Ausführungsformen abgewichen werden, ohne vom von den folgenden Ansprüchen gebotenen Schutzumfang abzuweichen, wobei dieser Schutzumfang nur von den Ansprüchen bei entsprechender Auslegung beschränkt wird.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/652891 [0001]
US 8830360 [0071]

Claims

Nicht-transitorisches computerlesbares Medium, das Anweisungen in einem von einem oder mehreren Prozessoren ausführbaren Format speichert, um Vorgänge wie folgt zu bewirken, umfassend: Optimieren der Qualität von Bildinformationen mit einer Sensorsteuereinheit, um Pixelparameter i) der lokalen Auflösung, ii) des dynamischen Bereichs und iii) der Framerate gleichzeitig unabhängig zu steuern, wobei die unabhängige Steuerung innerhalb zahlreicher Regionen eines ersten Bildframes auf Basis von i) beliebigen eines kontextuellen Verständnisses zumindest dessen, was kontextuell in einem vorherigen Bildframe geschah, eines kontextuellen Verständnisses einer Szene und eines kontextuellen Verständnisses einer antizipierten Szene und ii) ob saliente Elemente innerhalb von beliebigen einer ersten Region des ersten Bildframes und einer zweiten Region des ersten Bildframes befindlich sind, erfolgt, wobei Pixelparameter für Pixel in der ersten Region dafür konfiguriert sind, anders als die Pixelparameter für Pixeldaten, die aus der zweiten Region für jenen selben ersten Bildframe gesammelt werden, zu arbeiten; und Anpassen von Ausgangspixeldatenraten mit der Sensorsteuereinheit zum Erhöhen von Pixelparametern oder Vermindern von Pixelparametern von beliebigen i) der lokalen Auflösung, ii) des dynamischen Bereichs und iii) der Framerate für Pixel, in der ersten Region, bei gleichzeitiger anschließender Beibehaltung, Erhöhung oder Verringerung von beliebigen i) der lokalen Auflösung, ii) der Framerate und iii) des dynamischen Bereichs, in der zweiten Region, die in dem ersten Bildframe enthaltene nicht-saliente Elemente enthält.
Nicht-transitorisches computerlesbares Medium nach Anspruch 1, wobei die gespeicherten Anweisungen in dem von dem einen oder mehreren Prozessoren ausführbaren Format dafür konfiguriert sind, weitere Vorgänge wie folgt zu bewirken, wobei Bildpixeldaten für die erste Region aus jenen Pixeln zu einem anderen Zeitpunkt als die Bildpixeldaten aus den Pixeln in der zweiten Region für jenen selben Bildframe gesammelt werden.
Nicht-transitorisches computerlesbares Medium nach Anspruch 1, wobei die gespeicherten Anweisungen in dem von dem einen oder mehreren Prozessoren ausführbaren Format dafür konfiguriert sind, weitere Vorgänge wie folgt zu bewirken, Verwenden der Sensorsteuereinheit, um leistungsstärkere Pixelparameter auf Pixel über eine oder mehrere Regionen, die die Gesamtheit des ersten Bildframes ausmachen, aber nicht über den gesamten ersten Bildframe anzuwenden; und somit einige Pixel, die den gesamten Bildframe ausmachen, mit leistungsschwächeren Pixelparametern arbeiten, während gleichzeitig die anderen Pixel mit den leistungsstärkeren Pixelparametern arbeiten, auf Basis i) des kontextuellen Verständnisses zumindest dessen, was kontextuell in dem vorherigen Bildframe geschah, und ii) ob saliente Elemente innerhalb von beliebigen der ersten Region des ersten Bildframes, der zweiten Region des ersten Bildframes oder sowohl den ersten als auch zweiten Regionen befindlich sind; sowie Verwenden eines separaten Controllers, um globale Veränderungen an Pixelparametern für sämtliche Pixel, die den gesamten ersten Bildframe ausmachen, auf Basis zumindest der Umgebungsbeleuchtungsverhältnisse vorzunehmen.
Nicht-transitorisches computerlesbares Medium nach Anspruch 2, ferner umfassend: Verwenden eines Compositor-Moduls zum Sammeln sämtlicher Bildpixeldaten aus sämtlichen Regionen, die den ersten Bildframe ausmachen, und anschließendes Reassemblieren von Bildpixeldaten aus zumindest der ersten Region und der zweiten Region, deren Sammlung in verschiedenen Zyklen erfolgt, für den ersten Bildframe auf Basis des mit dem ersten Bildframe korrelierenden Identifikators.
Nicht-transitorisches computerlesbares Medium nach Anspruch 1, ferner umfassend: Verfolgen von Trends in vorherigen Bildframes, Referenzieren von Szenendatenmodellen und Verwenden eines oder mehrerer künstlicher Intelligenzalgorithmen, um zu verstehen, was kontextuell in dem ersten Bildframe geschieht, und anschließendes Verändern der Bildpixelparameter, um Pixelparameter in der ersten Region zu erhöhen, bei gleichzeitigem Beibehalten oder Verringern von Bildpixelparametern in der zweiten Region auf Basis i) des kontextuellen Verständnisses dessen, was kontextuell in dem vorherigen Bildframe geschah, und ii) ob saliente Elemente laut Vorhersage innerhalb der ersten Region befindlich sind und nicht in der zweiten Region befindlich sind.
Nicht-transitorisches computerlesbares Medium nach Anspruch 1, wobei die Bildinformationsqualität optimiert wird, bei gleichzeitigem Verbleib innerhalb 1) etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen betreffend einen oder mehrere Bildsensoren, wobei die Pixel die Pixeldaten in den ersten Bildframe ausmachenden Regionen erfassen, und 2) etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen betreffend eine Kommunikationsschleife zwischen der Sensorsteuereinheit und den Bildsensoren.
Vorrichtung, umfassend: einen oder mehrere Bildprozessoren, wobei jeder Bildprozessor zumindest seinen eigenen Bildsensor mit Pixeln enthält, eine Sensorsteuereinheit, die dafür konfiguriert ist, multiple Regionen innerhalb eines ersten Bildframes für den einen oder mehrere Bildprozessoren zu erstellen, wobei jede jenen ersten Bildframe erfassende Region ihren eigenen Satz von Pixeln mit Pixeldaten enthält, wobei die Bildprozessoren dafür konfiguriert sind, die Pixelparameter für Pixel in einer ersten Region, in den multiplen Regionen, so festzulegen, dass sie in Bezug auf Pixelparameter anders als Pixel in einer zweiten Region innerhalb jenes ersten Bildframes sind, und ein prädiktives und adaptives Szenenmodellierungsmodul, das dafür konfiguriert ist, Trends in einem oder mehreren vorherigen Bildframes zu verfolgen, um das Verständnis dessen zu unterstützen, was kontextuell in dem ersten Bildframe geschieht, wobei der eine [oder] mehrere Bildprozessoren dafür konfiguriert sind, die Betriebsart für jede Region zu verändern; und somit Pixelparameter für Pixel in jener Region zu verändern, auf Basis von i) beliebigen eines kontextuellen Verständnisses zumindest dessen, was in einem vorherigen Bildframe geschah, eines kontextuellen Verständnisses einer Szene und eines kontextuellen Verständnisses einer antizipierten Szene und ii) ob saliente Elemente innerhalb der ersten Region oder zweiten Region befindlich sind, wobei Pixelparameter für Pixel in der ersten Region dafür konfiguriert sind, anders als die Pixelparameter für Pixeldaten zu arbeiten, die aus der zweiten Region für jenen selben ersten Bildframe gesammelt werden, wobei eine bidirektionale Kommunikationsschleife zwischen dem prädiktiven und adaptiven Szenenmodellierungsmodul und der Sensorsteuereinheit existiert, i) um saliente Elemente in einer oder mehreren Regionen in einem ersten vorherigen Bildframe zu identifizieren, und/oder ii) um saliente Elemente in einer oder mehreren Regionen in einem aktuellen Bildframe oder einem zukünftigen Bildframe vorherzusagen und anschließend Leitlinien an die Sensorsteuereinheit zu senden, um Pixelparameter zu verändern, damit sich der Satz von Pixeln in der ersten Region von dem Satz von Pixeln in der zweiten Region unterscheidet, auf Basis des Vorhandenseins oder vorhergesagten Vorhandenseins salienter Elemente, die in der ersten Region und nicht in der zweiten Region vorliegen.
Vorrichtung nach Anspruch 7, ferner umfassend: einen Bildframe-Mapper zum Liefern und Einführen eines Identifikators, wobei die Pixeldaten aus jenem Satz von Pixeldaten, für jede Region, für den ersten Bildframe, gesammelt werden, wobei die der ersten Region entstammenden Bildpixeldaten in einem anderen Sammelzyklus als die Bildpixeldaten, die der zweiten Region für den ersten Bildframe entstammen, gesammelt werden, weil der Satz von Pixeln in der ersten Region unter anderen Pixelparametern als der Satz von Pixeln in der denselben Bildframe erfassenden zweiten Region arbeitet.
Vorrichtung nach Anspruch 8, ferner umfassend: ein Compositor-Modul, das dafür konfiguriert ist, sämtliche Bildpixeldaten aus sämtlichen Regionen, die den ersten Bildframe ausmachen, zu sammeln, und anschließend das Compositor-Modul dafür konfiguriert ist, Bildpixeldaten aus zumindest der ersten Region und der zweiten Region, deren Sammlung in verschiedenen Zyklen erfolgt, für den ersten Bildframe auf Basis des mit dem ersten Bildframe korrelierenden Identifikators zu reassemblieren.
Vorrichtung nach Anspruch 7, ferner umfassend: ein Compositor-Modul, das dafür konfiguriert ist, adaptive Einstellungen zu benutzen, um zu bestimmen, die Ausgabe welcher Region als Hintergrundbasis für den ersten Bildframe verwendet wird und die Pixelausgabedaten welcher anderen Region gecroppt und in die Hintergrundbasis für den ersten Bildframe eingefügt werden, wenn Regionen mit salienten Elementen in jener Region erfasst werden.
Vorrichtung nach Anspruch 7, ferner umfassend: ein Compositor-Modul, das dafür konfiguriert ist, i) multiple Regionen aus multiplen Sensoreingängen anzunehmen und Framepuffer zu verwenden, um ii) Pixeldaten für den Ausgang jeder Region räumlich auszurichten und iii) Pixeldaten für den Ausgang jeder Region zeitlich auszurichten und anschließend iv) die Pixeldaten aus ausgegebenen Pixeldaten einer oder mehrerer ausgewählter Regionen zu croppen und auf eine Hintergrund-Videobasis für den ersten Bildframe einzufügen.
Vorrichtung nach Anspruch 7, wobei der eine oder mehrere Bildprozessor(en) einen ersten Bildprozessor beinhaltet/beinhalten, der multiple unabhängige Bildgebersensoren aufweist.
Vorrichtung nach Anspruch 7, wobei der eine oder mehrere Bildprozessor(en) einen ersten Bildprozessor beinhaltet/beinhalten, der seinen eigenen Bildsensor mit Pixeln aufweist, und einen zweiten Bildprozessor, der seinen eigenen Bildsensor mit Pixeln aufweist, und wobei diese beiden Bildprozessoren dafür konfiguriert sind, in einer verteilten Arbeitsarchitektur miteinander zu kooperieren, um Regionen zu erfassen, die ausgewählt sind aus der Gruppe bestehend aus i) verschiedenen Regionen pro Bildprozessor, ii) überlappenden Regionen, wobei ein Bildprozessor ein Basisvideo für den ersten Bildframe erfasst, und iii) Kombinationen von beiden.
Vorrichtung, umfassend: eine Sensorsteuereinheit, um Pixelparameter von i) Bildgeberauflösung, ii) dynamischer Bereichsleistung und/oder iii) Framerate nicht-uniform in regionalen Inkrementen über ein gesamtes Bild, das in einem ersten Bildframe durch Pixel in einem Pixelarray erfasst ist, gleichzeitig und unabhängig zu steuern und anzupassen, eine Bildverarbeitungseinheit mit einer Kommunikationsschleife von der Bildverarbeitungseinheit zu der Sensorsteuereinheit, wobei die Bildverarbeitungseinheit für Pixelparameterfeedback sorgt, um i) die Bildgeberauflösung, ii) den dynamischen Bereich und/oder iii) die Framerate innerhalb der verschiedenen Regionen von Interesse in dem ersten Bildframe gleichzeitig und unabhängig zu variieren, und ein prädiktives und adaptives Szenenmodellierungsmodul, das mit der Sensorsteuereinheit gekoppelt ist, um saliente Elemente in einer oder mehreren Regionen von Interesse in dem ersten Bildframe vorherzusagen und anschließend Leitlinien an die Sensorsteuereinheit zu senden, um i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb jener Regionen mit salienten Elementen zu erhöhen und anschließend zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb von Regionen ohne saliente Elemente entweder i) beizubehalten oder ii) zu vermindern, um innerhalb etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von 1) einem oder mehreren Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul und ein Bildszenenverständnis- und Analysemodul dafür konfiguriert sind, miteinander zu kooperieren, wobei das prädiktive und adaptive Szenenmodellierungsmodul dafür konfiguriert ist, Trends bei Szenendatenveränderungen in dem einen oder mehreren vorherigen Bildframes zu analysieren und zu verfolgen, wobei ein oder mehrere Szenenmodelle als prädiktive Maßnahmen beibehalten werden, um ein oder mehrere saliente Elemente in verschiedenen Szenenregionen von Interesse zu überwachen und zu verfolgen, um benötigte Pixelparameterveränderungen für bevorstehende Bildframes vorherzusagen, und wobei das Bildszenenverständnis- und Analysemodul dafür konfiguriert ist, die Szene zu analysieren, um Objekte und Ereignisse zu identifizieren, die in der Szene in den vorherigen Bildframes vorkommen, und saliente Elemente innerhalb von Regionen der Szene zu identifizieren, wobei, sobald die salienten Elemente identifiziert sind, jene Informationen anschließend an das prädiktive und adaptive Szenenmodellierungsmodul weitergeleitet werden, um sicherzustellen, dass die Vorrichtung für schnelle Veränderungen in der Szene bereit ist, die sich laut Vorhersage des prädiktiven und adaptiven Szenenmodellierungsmoduls in der Szene ändern werden.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul und ein Bildszenenverständnis- und Analysemodul konfiguriert sind zum Kooperieren, um i) Echtzeit-Bildszenendynamik zu analysieren, Szenenaktivitäten zu analysieren und semantisches Reasoning der Szene zu entwickeln, während ii) gleichzeitig Pixelparameter für die Sensorsteuereinheit bestimmt werden, um Szeneninformationen zu maximieren und die Pixelparameter an die Sensorsteuereinheit zu senden, um die Pixelparameter für Pixel in den verschiedenen Regionen von Interesse für den ersten zu erfassenden Bildframe dynamisch anzupassen, wobei die Sensorsteuereinheit dafür konfiguriert ist, nicht-uniform und unabhängig i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb einer ersten Region mit einem salienten Element zu erhöhen und zumindest einen unterschiedlichen Pixelparameter 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb einer zweiten Region mit einem salienten Element, auf Basis i) eines kontextuellen Verständnisses dessen, was kontextuell in einem oder mehreren vorherigen Bildframes geschah, und ii) ob saliente Elemente innerhalb der ersten Region oder zweiten Region befindlich sind, zu erhöhen.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul konfiguriert ist zum i) Analysieren jedes der salienten Elemente sowie der Elemente von Nichtsalienz, deren Vorliegen in den vorherigen Bildframes festgestellt oder vorhergesagt wird, ii) Vergleichen mit Bild- und Szenendatenmodellen, damit das prädiktive und adaptive Szenenmodellierungsmodul Pixelparameter, die für diese Art von salientem Element am besten geeignet sind, identifizieren und vorhersagen kann.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul dafür konfiguriert ist, Folgendes zu beinhalten: Maßnahmen zum Vorhersagen bevorstehender Bildgebungsparameterveränderungen durch Beibehalten zahlreicher Bilddatenmodelle, zum Unterstützen eines prädiktiven Szenenverständnisses, sowie zum anschließenden Identifizieren und/oder Vorhersagen salienter Elemente und dessen, welche Art von salienten Elementen sich in einer oder mehreren Regionen von Interesse in dem ersten Bildframe befinden, sowie ii) zum Identifizieren einer oder mehrerer Regionen ohne jegliche saliente Elemente, und anschließendes Senden von Leitlinien an die Sensorsteuereinheit, um i) zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate zu erhöhen, wie für die Art von salienten Elementen innerhalb jener Regionen mit salienten Elementen am besten geeignet, sowie anschließendes Beibehalten oder Vermindern zumindest eines 1) der Bildgeberauflösung, 2) des dynamischen Bereichs und/oder 3) der Framerate innerhalb jener Regionen ohne saliente Elemente, um innerhalb der i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen zu bleiben, die von 1) den Bildsensoren oder 2) der Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden.
Vorrichtung nach Anspruch 14, ferner umfassend: ein Compositor-Modul, das konfiguriert ist zum Zusammenfügen von in der multiplen Region von Interesse innerhalb des ersten Bildframes erfassten Elementen, unter Verwendung eines Identifikators, der für den ersten Bildframe indikativ und mit Daten, die aus den Pixeln für jede Region von Interesse gesammelt werden, inbegriffen ist.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul und ein Bildszenenverständnis- und Analysemodul dafür konfiguriert sind, miteinander zu kooperieren, wobei Module kooperieren, um auf die Regionen von Interesse in einem ersten Bildframe zu analysieren, die optimal mit höherer Bildgeberauflösung, höherem dynamischem Bereich und/oder höherer Framerate innerhalb des ersten Bildframes erfasst werden müssen, weil sie ein oder mehrere saliente Elemente enthalten, während es gleichzeitig andere minder wichtige Regionen von Interesse gibt, die nur nicht-saliente Elemente enthalten, wobei reduzierte Bilddetails mit einer Standard-Pixelparametereinstellung für Bildgeberauflösung, dynamischen Bereich und/oder Framerate innerhalb des ersten Bildframes erfasst werden können, um innerhalb der 1) i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einem oder mehreren Bildsensoren auferlegt werden, und 2) etwaiger i) Bandbreitenbeschränkungen, ii) Speicherungs- und/oder iii) Leistungsaufnahmebeschränkungen, die von einer Kommunikationsschleife zwischen der Sensorsteuereinheit und der Bildverarbeitungseinheit auferlegt werden, zu bleiben.
Vorrichtung nach Anspruch 14, wobei die Pixelparameter optimiert werden, um in einer ersten Region in dem ersten Frame relativ zu anderen Pixelparametern in einer zweiten Region in dem ersten Frame auf Basis von Lageinformationen eines Objekts in dem ersten Frame erhöht oder vermindert zu werden.
Vorrichtung nach Anspruch 14, wobei das prädiktive und adaptive Szenenmodellierungsmodul ein oder mehrere Maschinenlernmodule und ein Szenenverständnismodul, das ein Szenensegmentierungs- und -klassifizierungsmodul und ein Region-von-Interesse-Kursaktivitäts-Klassifizierungsmodul aufweist, beinhaltet, wobei das eine oder mehrere Maschinenlernmodelle ein Szenenmodell, ein Objektmodell und ein Ereignismodell beinhalten.