DE112020007618T5

DE112020007618T5 - Blendungsreduzierung in bildern

Info

Publication number: DE112020007618T5
Application number: DE112020007618.0T
Authority: DE
Inventors: Robert Gregory Campbell; Christopher Steven; Isaac Lagnado
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2023-07-06
Also published as: US20230334631A1; WO2022060348A1; CN116324827A

Abstract

Ein beispielhaftes nichtflüchtiges maschinenlesbares Medium umfasst Anweisungen um ein erstes Bild einer Szene zu erfassen, die Licht umfasst, das von einer Anzeigevorrichtung ausgesendet wird, eine Helligkeit der Anzeigevorrichtung zu ändern, ein zweites Bild der Szene zu erfassen, während die Helligkeit der Anzeigevorrichtung geändert ist, ein Maschinelles-Lernen-Modell mit dem ersten Bild und dem zweiten Bild dahingehend zu trainieren, ein Filter bereitzustellen, um Blendung zu reduzieren, und das Maschinelles-Lernen-Modell auf ein drittes Bild, das von der Szene erfasst wird, dahingehend anzuwenden, Blendung in dem dritten Bild zu reduzieren, wobei sich das dritte Bild von dem ersten und dem zweiten Bild unterscheidet.

Description

HINTERGRUND
Videoerfassung umfasst für gewöhnlich die Erfassung von zeitlich sequenzierten Bildrahmen. Videoerfassung kann bei Videokonferenzen verwendet werden, um eine visuelle Kommunikation zwischen unterschiedlichen Benutzern an unterschiedlichen Standorten über ein Computernetzwerk bereitzustellen. Videokonferenzen können durch Videoerfassung in Echtzeit erleichtert werden, die durch Rechenvorrichtungen an unterschiedlichen Standorten ausgeführt wird. Videoerfassung kann auch bei anderen Anwendungen verwendet werden, etwa in der Aufzeichnung von Videoinhalten zur späteren Wiedergabe.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften nichtflüchtigen maschinenlesbaren Mediums, das Blendungsreduzierungsanweisungen umfasst, die eine Lichtquelle dahingehend steuern, ein Maschinelles-Lernen-Modell zu trainieren, um Blendung in erfassten Bildern zu entfernen oder zu reduzieren.
2 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Steuern einer Lichtquelle dahingehend, ein Maschinelles-Lernen-Modell zu trainieren, um Blendung in erfassten Bildern zu entfernen oder zu reduzieren.
3 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Steuern einer Lichtquelle dahingehend, ein Maschinelles-Lernen-Modell zu trainieren, um Blendung in erfassten Bildern zu entfernen oder zu reduzieren, darunter ein Training des Maschinelles-Lernen-Modells ansprechend auf ein Ereignis.
4 ist ein Blockdiagramm einer beispielhaften Vorrichtung, die eine Lichtquelle dahingehend steuert, ein Maschinelles-Lernen-Modell zu trainieren, um Blendung in erfassten Bildern zu entfernen oder zu reduzieren.
5 ist ein Blockdiagramm einer beispielhaften Vorrichtung, die eine Lichtquelle dahingehend steuert, ein Maschinelles-Lernen-Modell zu trainieren, um Blendung in erfassten Bildern zu entfernen oder zu reduzieren, wobei eine derartige Blendung durch eine Mehrzahl von Lichtquellen verursacht wird.

AUSFÜHRLICHE BESCHREIBUNG
Erfasste Bilder, etwa Rahmen eines digitalen Videos, können Blendung (bzw. „glare“) enthalten, die durch eine Brille oder eine andere reflektive Oberfläche einer Person verursacht wird, etwa eine Kennungsmarke, ein transparentes Gesichtsschild, ein Visier, eine metallische Marke, Modezubehör, oder dergleichen. Während einer Videokonferenz kann eine derartige Blendung durch Licht verursacht werden, das von einer Anzeigevorrichtung eines Teilnehmers ausgesendet wird und über die Kamera des Teilnehmers erfasst wird. Blendung in Videokonferenzen bewegt und ändert sich, wenn der Teilnehmer seinen Kopf in drei Dimensionen bewegt, (z. B. x-y-z-Übersetzung, Nick, Gier, Roll) und wenn sich der Inhalt auf der Anzeigevorrichtung ändert. Dies kann andere Benutzer in der Videokonferenz ablenken und kann die Plausibilität einer Videokonferenz reduzieren, indem Teilnehmer auf subtile Weise daran erinnert werden, dass sie über Kameras und Anzeigevorrichtungen kommunizieren. Zusätzlich dazu kann Blendung die Privatsphäre und Vertraulichkeit reduzieren, da empfindliche Informationen (z. B. eine Seite eines Dokuments) in einer Reflexion sichtbar sein können. Auch wenn Inhalt in einer Blendungsreflexion unverständlich oder unlesbar ist, können Eigenschaften, die in der Blendung erkennbar sind, etwa Farbe, Form und Bewegung, dennoch empfindliche Informationen offenlegen.
Blendung, die durch Licht mit transitiven Eigenschaften verursacht wird, das von einer Brille oder einer anderen beweglichen reflektiven Oberfläche reflektiert wird, kann einfache Filter verwirren. Ferner kann bei Videokonferenzen eine derartige Blendung oft nicht durch die einfache Bewegung der blendungsverursachenden Lichtquelle reduziert werden, da die Position der Lichtquelle oft wichtig für die richtige Funktionsweise der Videokonferenz ist.
Die Helligkeit einer Anzeigevorrichtung kann dahingehend moduliert werden, die Blendung in erfassten Bildern zu variieren. Derartige Bilder können dazu verwendet werden, ein Maschinelles-Lernen-Modell zu trainieren, um ein Filter bereitzustellen, um Blendung zu entfernen. Beispielsweise kann eine Anzeigerückbeleuchtung für einen kurzen Zeitraum ausgeschaltet („ausgetastet“ bzw. „dunkelgetastet“) werden, um zu verhindern, dass Anzeigeblendung in einem Videorahmen auftritt, danach wird die Hintergrundbeleuchtung auf ihre normale Helligkeit zurückgestellt. Bei anderen Beispielen kann die Helligkeit der Hintergrundbeleuchtung erhöht oder maximiert werden. Somit werden Rahmen mit unterschiedlichen Blendungspegeln (bzw. -graden) erfasst. Das Maschinelles-Lernen-Modell berechnet ein Filter, um Blendung zu entfernen, auf der Basis der Informationen, die durch derartige erfasste Rahmen bereitgestellt werden. Das heißt, Bilder derselben Szene, die zeitlich nah beieinanderliegen und die unterschiedliche Helligkeitspegel sowie resultierende Blendung aufweisen, stellen eine Charakterisierung der Blendung dar, um das Maschinelles-Lernen-Modell zu trainieren. Das trainierte Modell kann auf neu erfasste Rahmen angewendet werden, um Blendung zu reduzieren oder zu eliminieren. Zusätzlich dazu können auch andere Helligkeitspegel, die sich von einer „Austastung“ unterscheiden, dazu verwendet werden, ein Modell zur Blendungsentfernung zu quantifizieren und zu trainieren. Beispielsweise kann dadurch, dass mehrere Helligkeitspegel verwendet werden, eine vollständige Austastung der Helligkeit vermieden werden, und dabei kann der Effekt der Austastung (welcher die Gesamthelligkeit in einer für den Benutzer wahrnehmbaren Weise reduzieren kann) reduziert werden.
Da sich Blendung im Verlauf einer Videokonferenz bewegen und hinsichtlich ihres Wesens ändern kann, können Reduzierte-Blendung-Zielrahmen in Zeitabständen erfasst werden und das Maschinelles-Lernen-Modell kann fortlaufend im Verlauf der Videokonferenz trainiert werden. Eine Rate der Austastung kann im Zeitverlauf reduziert werden, so dass ein anfänglicher Zeitraum einer Kameraaktivität häufigere Vorkommnisse von Austastung aufweisen kann, um das Modell zu trainieren, und ein späterer Zeitraum einer Kameraaktivität reduzierte Vorkommnisse einer Austastung aufweisen kann.
Dieselben Techniken können bei anderen Anwendungen der Videoerfassung verwendet werden, etwa der Erfassung von Videoinhalten zur späteren Wiedergabe.
1 zeigt ein beispielhaftes nichtflüchtiges maschinenlesbares Medium 100, das Blendungsreduzierungsanweisungen 102 umfasst, die unerwünschte Blendung in einem erfassten Bild entfernen oder reduzieren. Die Blendungsreduzierungsanweisungen können ein dynamisches Filter derart implementieren, wie weiter unten besprochen wird, dass Blendung in Echtzeit oder fast in Echtzeit entfernt oder reduziert werden kann, etwa während einer aktuell stattfindenden Videokonferenz oder während einer anderen Art von Videoerfassung. Somit kann eine Ablenkung eines Betrachters oder eine von einem Betrachter wahrgenommene Reduzierung der Qualität, die durch Blendung verursacht werden können, z. B. von der Blendung, die häufig durch Brillen verursacht wird, reduziert oder eliminiert werden.
Das nichtflüchtige maschinenlesbare Medium 100 kann eine elektronische, magnetische, optische oder andere physische Speichervorrichtung umfassen, die die Anweisungen codiert. Das Medium kann beispielsweise einen Direktzugriffspeicher (RAM, Random-Access Memory), einen Nur-Lese-Speicher (ROM, Read-Only Memory), einen elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM, Electrically-Erasable Programmable Read-Only Memory), einen Flash-Speicher, ein Speicherlaufwerk, eine optische Vorrichtung oder dergleichen umfassen.
Das Medium 100 kann mit einem Prozessor zusammenwirken, der eine zentrale Verarbeitungseinheit (CPU, Central Processing Unit), eine Mikrosteuerung, einen Mikroprozessor, einen Verarbeitungskern, ein feldprogrammierbares Gatter-Array (FPGA, Field-Programmable Gate Array), eine anwendungsspezifische integrierte Schaltung (ASIC, Application-Specific Integrated Circuit) oder eine ähnliche Vorrichtung umfassen kann, die dazu in der Lage ist, die Anweisungen auszuführen.
Die Blendungsreduzierungsanweisungen 102 können direkt ausgeführt werden, etwa als Binärdatei, und/oder können interpretierbaren Code, Bytecode, Quellcode oder ähnliche Anweisungen umfassen, die einer zusätzlichen Verarbeitung unterzogen werden können, um verarbeitet zu werden.
Die Anweisungen 102 erfassen ein erstes Bild 104 einer Szene 106, die Licht 108 umfasst, das von einer Anzeigevorrichtung 110 ausgesendet wird. Das erste Bild 104 kann ein Rahmen eines Videos sein. Eine Bilderfassung kann unter Verwendung einer Kamera ausgeführt werden, etwa einer Webcam, die während einer Videokonferenz oder eines anderen Videoerfassungsprozesses verwendet wird. Es wird erwartet, dass das erste Bild Blendung umfasst.
Die Anzeigevorrichtung 110 kann ein Monitor sein, der während der Videokonferenz oder Videoerfassung verwendet wird. Die Anzeigevorrichtung 110 kann eine Vorrichtung mit Flüssigkristallanzeige (LCD, Liquid-Crystal Display), eine Anzeigevorrichtung mit lichtemittierender Diode (LED, Light-Emitting Diode) oder eine ähnliche Anzeigevorrichtung umfassen. Die Anzeigevorrichtung 110 kann eine steuerbare Helligkeit aufweisen, etwa eine steuerbare Hintergrundbeleuchtung.
Die Kamera und die Anzeigevorrichtung 110 können auf denselben Benutzer zeigen, der Teil der Szene ist und der ein Teilnehmer bei einer Videokonferenz sein kann oder anderweitig Videoinhalte von sich selbst erfassen kann. Licht 108, das von der Anzeigevorrichtung 110 ausgesendet wird, kann Blendung in erfassten Bildern verursachen, etwa durch Reflexion an der Brille des Benutzers. Bei anderen Beispielen kann eine andere Lichtquelle Blendung verursachen, etwa eine Lampe (z. B. ein Ringlicht). Somit wird erwartetet, dass das erste Bild 104 Blendung umfasst.
Die Anweisungen 102 ändern eine Helligkeit der Anzeigevorrichtung 110 oder einer anderen blendungsverursachenden Lichtquelle und erfassen dann ein zweites Bild 112 der Szene 106, während die Helligkeit reduziert ist. Die Änderung der Anzeigehelligkeit kann erzielt werden durch kurzzeitiges Ausschalten einer Hintergrundbeleuchtung der Anzeigevorrichtung 110, etwa für einen Rahmen der Videoerfassung. Das Ausschalten der Hintergrundbeleuchtung kann als Austastung der Anzeige bezeichnet werden. Die Helligkeit der Anzeigevorrichtung 110 kann für eine geeignete Dauer reduziert oder ausgetastet werden, wie etwa über eine Anzahl von Rahmen quantifiziert werden kann, zum Beispiel eins, zwei oder drei Rahmen. Je kürzer die Dauer der Austastung, desto weniger wahrscheinlich ist es, dass die Austastung von einem Benutzer bemerkt wird, von dem normalerweise erwartet wird, dass er während einer Videokonferenz auf die Anzeigevorrichtung 110 blickt. Da die Anzeigevorrichtung 110 kurzzeitig während der Erfassung des zweiten Bildes 112 ausgeschaltet wird, umfasst das zweite Bild 112 keine signifikante durch die Anzeigevorrichtung 110 verursachte Blendung. Dasselbe gilt für eine andere steuerbare Lichtquelle, etwa eine Lampe, die der Benutzer verwenden kann, um sein Gesicht während einer Videokonferenz zu beleuchten.
Bei anderen Beispielen wird die Helligkeit der Anzeigevorrichtung 110 alternativ oder zusätzlich zur Reduzierung oder Austastung kurzzeitig erhöht oder maximiert. Das kurzzeitige Erhöhen der Helligkeit kann Blendung kurzzeitig erhöhen, und diese Informationen zusammen mit einem Bild mit normaler Blendung reichen aus, um die Blendung unter normalen Bedingungen, welche zu entfernen ist, zu identifizieren und zu charakterisieren. Während hierin besprochene Beispiele das kurzzeitige Reduzieren der Helligkeit der Anzeigevorrichtung zum Erhalten eines Reduzierte-Blendung-Bildes berücksichtigen, ist ersichtlich, dass zusätzlich oder alternativ das kurzzeitige Erhöhen der Helligkeit zum Erhalten eines Erhöhte-Blendung-Bildes ausgeführt werden kann, um ein vergleichbares Ergebnis zu erhalten.
Das erste Bild 104 ist ein Wahre-Helligkeit-Bild der Szene 106, das die Videokonferenz oder das Video bildet oder das wie Bilder ist, die die- bzw. dasselbe bilden, während das zweite Bild 112 ein Reduzierte-Helligkeit-Bild, das zur Blendungskorrektur verwendet wird. Die Begriffe „erster/erste/erstes“, „zweiter/zweite/zweites“, „dritter/dritte/drittes“ usw. schränken die zeitliche Reihenfolge der Bilderfassung nicht ein. Beispielsweise kann das erste Bild 104 vor oder nach dem zweiten Bild 112 erfasst werden. Eine Genauigkeit einer Blendungskorrektur nimmt zu, wenn das erste und das zweite Bild 104, 112 zeitlich näher beieinanderliegen.
Die Anweisungen 102 trainieren ein Maschinelles-Lernen-Modell (ML-Modell) 114 mit dem ersten und dem zweiten Bild 104, 112. Da das erste und das zweite Bild 104, 112 zeitlich nah beieinanderliegen (z. B. in 1-3 Videorahmen), zeigen sie ungefähr dieselbe physische Darstellung der Szene 106. Das heißt, Unterschiede in dem ersten und dem zweiten Bild 104, 112, die durch eine Bewegung in der Szene 106 verursacht werden, sind wahrscheinlich klein. Dies stimmt insbesondere bei einer Videokonferenz, in der sich Teilnehmer in der Szene 106 normalerweise nicht sehr schnell bewegen. Somit kann angenommen werden, dass das erste und das zweite Bild 104, 112 zwei Versionen derselben Szene darstellen: 1) eine Wahre-Helligkeit-Version mit Blendung, die durch die Anzeigevorrichtung 110 verursacht wird (erstes Bild 104), und 2) eine Reduzierte-Helligkeit-Version ohne Blendung, die durch die Anzeigevorrichtung 110 verursacht wird (zweites Bild 112). Das erste Bild 104 weist einen normalen Gesamthelligkeitspegel auf und kann Blendung enthalten. Das zweite Bild 112 weist einen reduzierten Gesamthelligkeitspegel mit reduzierter oder eliminierter Blendung auf. Das Maschinelles-Lernen-Modell 114 ist somit mit ausreichend Informationen versehen, um eine durch die Anzeigevorrichtung 110 verursachte Blendung zu charakterisieren. Somit kann das Maschinelles-Lernen-Modell 114 trainiert werden, um ein Filter zur Reduzierung derartiger Blendung bereitzustellen.
Das Maschinelles-Lernen-Modell 114 kann ein neuronales Faltungsnetzwerk (CNN, Convolutional Neural Network) sein, etwa ein dilatiertes kausales CNN. Ein dilatiertes kausales CNN kann als Revisionist konfiguriert sein, wobei Daten rückgekoppelt werden können, um eine erneute Auswertung vergangener Datenabtastwerte zu unterstützen.
Bei verschiedenen Beispielen wird das zweite Bild 112 als ein Helligkeitsziel für das Maschinelles-Lernen-Modell 114 bereitgestellt. Das Modell 114 wird dann dahingehend trainiert, ein Filter zu erzeugen, um das erste Bild 104 nahe an das Helligkeitsziel heranzubringen. Konzeptuell gesprochen kann das zweite Bild 112 als zweidimensionale Abbildung von Zielhelligkeitspegeln betrachtet werden, und das Maschinelles-Lernen-Modell 114 kann dahingehend trainiert werden, das erste Bild 104 zu filtern, um der Abbildung so nah wie möglich zu entsprechen.
Die Helligkeit kann eine farbunabhängige Intensität sein, da der auf der Anzeigevorrichtung 110 angezeigte Inhalt und daher die resultierende Blendung unterschiedliche Farben enthalten können. Das Maschinelles-Lernen-Modell 114 kann dahingehend trainiert werden, eine Blendung unabhängig von ihrer Farbzusammensetzung herauszufiltern.
Die Anweisungen 102 können Reduzierte-Helligkeit-Bilder (zweite Bilder) 112 und das Maschinelles-Lernen-Modell 114 in verschiedenen Zeitabständen trainieren, um das Maschinelles-Lernen-Modell 114 während einer Videokonferenz oder Videoerfassung fortlaufend zu trainieren. Während einer Videokonferenz können die Erfassung eines Reduzierte-Helligkeit-Bildes 112 und das Trainieren des Maschinelles-Lernen-Modell 114 beispielsweise alle 30, 60 oder 90 Rahmen ausgeführt werden. Die Erfassung von Wahre-Helligkeit-Bildern (erste Bilder) 104 ist beiläufig, da dies die Bilder sind, die das erfasste Video ausbilden. Reduzierte-Helligkeit-Bilder 112 können aus dem erfassten Video ausgelassen werden und nach der Verwendung beim Trainieren des Modells 114 verworfen werden. Ein zeitlich naheliegendes Wahre-Helligkeit-Bild 104 kann dupliziert werden, um ein ausgelassenes Reduzierte-Helligkeit-Bild 112 zu ersetzen.
Die Anweisungen 102 wenden das Maschinelles-Lernen-Modell 114 auf ein drittes Bild 116 an, das von der Szene 106 erfasst wird, um Blendung in dem dritten Bild 116 zu reduzieren. Das dritte Bild 116 ist ein Wahre-Helligkeit-Bild, das sich von dem ersten und dem zweiten Bild 104, 112 unterscheidet. Beispielsweise kann das Maschinelles-Lernen-Modell 114 auf eine Sequenz von Videorahmen (drittes Bild 116) zwischen Zeitabständen der Erfassung und des Trainings unter Verwendung eines Reduzierte-Helligkeit-Bildes 112 angewendet werden, um das erfasste Video zu filtern, um Blendung zu entfernen oder zu reduzieren. Das gesamte oder der Großteil des Videos kann aus dritten Bildern 116 gebildet werden, die unter Verwendung des trainierten Maschinelles-Lernen-Modell 114 gefiltert werden. Erste Bilder 104 können auch gefiltert werden, um in dem Video enthalten zu sein. Zweite Bilder 112 können verworfen werden.
Das Training des Maschinelles-Lernen-Modell 114 kann Zeit in Anspruch nehmen und muss nicht sofort nach der Erfassung des ersten und des zweiten Bildes 104, 112 abgeschlossen werden. Das oben beschriebene dritte Bild 116 kann mehrere Rahmen, Sekunden oder Minuten nach der Erfassung des ersten und des zweiten Bildes 104, 112 auftreten. Das Training kann zeitnah nach der Erfassung des ersten und des zweiten Bildes 104, 112 initiiert werden und es darf gemäß anderer Einschränkungen auftreten, etwa gemäß der verfügbaren Verarbeitungs- und Speicher-Ressourcen, die nicht für die Videoerfassung verwendet werden. In der Zwischenzeit kann eine frühere Version des trainierten Maschinelles-Lernen-Modell 114 verwendet werden. Demgemäß kann eine Kopie des Maschinelles-Lernen-Modell 114 trainiert werden, während das Original verwendet wird, um Blendung zu filtern. Die Kopie wird zu dem neuen Original, wenn das Training abgeschlossen ist, und eine neue Kopie kann beim nächsten Vorkommnis des Trainings angefertigt werden.
Die Anweisungen 102 können eine Frequenz der Zeitabstände der Erfassung von Reduzierte-Helligkeit-Bildern (zweiten Bildern) 112 und ein Training des Maschinelles-Lernen-Modell 114 steuern. Die Frequenz kann auf der Basis einer Fehlerfunktion des Modells 114 und auf der Basis von durch die Anzeigevorrichtung 110 angezeigten Inhalten gesteuert werden.
Die Anweisungen 102 können eine Fehlerfunktion (oder Verlustfunktion) anwenden, wenn das Maschinelles-Lernen-Modell 114 angewendet wird. Beispielsweise kann eine Rückpropagierung mit einem blendungskorrigierten dritten Bild 116 ausgeführt werden. Die Fehlerfunktion kann dazu verwendet werden, eine Frequenz der Zeitabstände der Erfassung von Reduzierte-Helligkeit-Bildern (zweiten Bildern) 112 zu steuern. Ein großer Fehler kann die Frequenz erhöhen. Während einer Videokonferenz kann beispielsweise eine abrupte Änderung der Haltung des Benutzers oder der Blickrichtung einen Fehler erhöhen. Ansprechend darauf können die Anweisungen 102 die Frequenz der Erfassung des Reduzierte-Helligkeit-Bildes 112 und des Modelltrainings erhöhen, um dynamisch auf die Änderung der Blendung, die den Fehler erhöht, zu reagieren. Im Gegensatz dazu kann eine Frequenz der Erfassung des Reduzierte-Helligkeit-Bildes 112 und des Modelltrainings reduziert werden, wenn der Fehler aufgrund einer erhöhten Genauigkeit des Modells 114 abnimmt, da es im Verlauf der Videokonferenz trainiert wird.
Die Anweisungen 102 können die Reduzierung der Helligkeit der Anzeigevorrichtung 110 und die Erfassung der Reduzierte-Helligkeit-Bilder 112 auf der Basis des angezeigten Inhalts der Videokonferenz auslösen. Das heißt, auf der Anzeigevorrichtung 110 angezeigte Inhalte können sich im Zeitverlauf ändern und dazu verwendet werden, einen Zeitabstand des Trainings des Maschinelles-Lernen-Modell 114 auszulösen. Wenn sich beispielsweise Inhalte signifikant ändern (z. B. beim Umschalten von einem Gesicht eines Teilnehmers der Videokonferenz zu einem geteilten Dokument), kann ein Reduzierte-Helligkeit-Bild 112 erfasst werden und das Maschinelles-Lernen-Modell 114 kann trainiert werden, um eine mögliche Änderung der Blendung, die der Änderung des Inhalts entspricht, zu berücksichtigen.
Wie oben besprochen ist, sorgen die Blendungsreduzierungsanweisungen 102 für eine Korrektur einer Blendung in einem erfassten Video, wie etwa während einer Videokonferenz, in Echtzeit oder fast in Echtzeit. Eine Blendungskorrektur wird schrittweise genauer, wenn das Maschinelles-Lernen-Modell 114 im Zeitverlauf der Erfassung trainiert wird. Dabei kann die Blendungskorrektur dynamisch auf Änderungen in dem Video ansprechen, die etwa aufgrund einer Bewegung des Teilnehmers und einer Darstellung von Inhalten (z. B. Bildschirm wird geteilt) auftreten können.
2 zeigt ein beispielhaftes Verfahren 200 zum Reduzieren einer Blendung in erfassten Bildern, etwa in Rahmen eines Videos. Das Verfahren 200 kann mit Anweisungen implementiert werden, die in nichtflüchtigen maschinenlesbaren Medien gespeichert werden können und von einem Prozessor ausgeführt werden können. Details im Hinblick auf an anderer Stelle hierin beschriebene Elemente des Verfahrens 200 werden im Folgenden nicht ausführlich wiederholt; auf die an anderer Stelle hierin bereitgestellte relevante Beschreibung kann für Elemente, die mittels gleicher Terminologie oder gleichen Bezugszeichen identifiziert werden, Bezug genommen werden.
Bei Block 202 wird ein erstes Bild einer Szene erfasst. Das erste Bild umfasst Licht, das durch eine Lichtquelle emittiert wird, etwa eine Anzeigevorrichtung, eine Lampe oder eine andere steuerbare Lichtquelle. Die Anzeigevorrichtung kann dazu verwendet werden, eine Videokonferenz zu ermöglichen. Eine Lampe kann von einem Benutzer verwendet werden, um sein Gesicht oder ein anderes Objekt während einer Videokonferenz oder Videoerfassung zu beleuchten. Jede geeignete Kombination der steuerbaren Lichtquellen, etwa mehrere Monitore, kann verwendet werden. Blendung kann in dem ersten Bild aufgrund von der Brille oder von anderen reflektiven Oberflächen des Benutzers auftreten.
Bei Block 204 wird die Lichtquelle dahingehend gesteuert, eine geänderte Lichtintensität auszugeben, etwa eine reduzierte (z. B. ausgetastete) Intensität oder eine erhöhte (z. B. maximierte) Intensität. Bei dem Beispiel einer Anzeigevorrichtung kann die Hintergrundbeleuchtung kurzzeitig ausgeschaltet oder ausgetastet werden. Bei dem Beispiel mehrerer Anzeigevorrichtungen kann eine derselben für eine jeweilige Leistung des Blocks 204 ausgeschaltet werden. Eine steuerbare Lampe kann kurzzeitig ausgeschaltet oder gedimmt werden. Bei anderen Beispielen kann eine Anzeige- oder Lampenhelligkeit auf ihre höchste Einstellung eingestellt werden. Die Zeitdauer der geänderten Lichtausgabe kann so ausgewählt werden, dass sie ausreicht, um ein Bild oder einen Videorahmen zu erfassen. Beispielsweise kann die Lichtquelle dahingehend gesteuert werden, eine reduzierte Ausgabeleistung für einen Rahmen oder ungefähr 1/30 einer Sekunde aufzuweisen, wenn ein Video mit 30 Rahmen pro Sekunde (FPS, Frames Per Second) erfasst wird.
Bei Block 206 wird ein zweites Bild aus der Szene erfasst, wie durch die geänderte Lichtintensität beleuchtet wird. Das zweite Bild wird einen unterschiedlichen Blendungscharakter von der Lichtquelle aufweisen. Das Licht wird absichtlich moduliert, um zu ermöglichen, dass das zweite Bild schwächer oder stärker unter Blendung leidet. Das zweite Bild wird zeitlich nah zu dem ersten Bild erfasst. Beispielsweise kann das zweite Bild sofort vor oder nach der Erfassung des ersten Bildes erfasst werden (z. B. ungefähr 1/30 einer Sekunde vor oder nach dem ersten Bild in einem Video mit 30 FPS). Bei einem anderen Beispiel kann das zweite Bild zwei oder drei Rahmen vor oder nach dem ersten Bild erfasst werden (z. B. ungefähr 1/15 bis 1/10 einer Sekunde vor oder nach dem ersten Bild in einem Video mit 30 FPS). Andere zeitliche Nähen sind auch geeignet, wobei es ersichtlich ist, dass Folgendes gilt: je näher das erste und das zweite Bild zeitlich beieinanderliegen, desto weniger Bewegung oder andere Unterschiede zwischen dem ersten und dem zweiten Bild werden die Korrektur der Blendung beeinflussen.
Bei Block 208 wird ein Maschinelles-Lernen-Modell mit dem ersten Bild und dem zweiten Bild trainiert. Das erste und das zweite Bild stellen jeweils die Szene unter normaler Beleuchtung mit Blendung bzw. unter reduzierter/erhöhter Beleuchtung und reduzierter/erhöhter Blendung dar. Diese Informationen sind ausreichend, um die Blendung zu charakterisieren und somit das Maschinelles-Lernen-Modell dahingehend zu trainieren, Blendung für darauffolgende Bilder derselben Szene herauszufiltern. Beispiele geeigneter Maschinelles-Lernen-Modelle sind oben angegeben.
Bei Block 210 wird das Maschinelles-Lernen-Modell auf ein von der Szene erfasstes drittes Bild angewendet, um Blendungen in dem dritten Bild zu reduzieren. Das dritte Bild kann erfasst werden, nachdem das Maschinelles-Lernen-Modell auf der Basis des ersten und des zweiten Bildes trainiert worden ist. Das dritte Bild, im Hinblick auf Blendung gefiltert, kann in der Videoerfassung enthalten sein. Das trainierte Modell kann auf jede geeignete Anzahl dritter Bilder angewendet werden.
Erste, zweite und dritte Bilder können von einer Kamera eines Benutzers während einer Videokonferenz erfasst werden, um Blendung zu korrigieren, die durch eine Lichtquelle verursacht wird, etwa die Anzeigevorrichtung des Benutzers, die auch in der Videokonferenz verwendet wird und Licht aussendet, das von der Brille des Benutzers oder einer anderen Oberfläche in der Szene reflektiert wird. Erste und zweite Bilder können in Zeitabständen erfasst werden, um das Maschinelles-Lernen-Modell zu trainieren. Dritte Bilder können fortlaufend erfasst und von dem Maschinelles-Lernen-Modell verarbeitet werden, um ein Video mit reduzierter Blendung zu bilden.
Das Verfahren 200 kann über Block 212 für die Dauer einer Videokonferenz oder einer anderen Videoerfassung wiederholt werden.
3 zeigt ein beispielhaftes Verfahren 300 zum Reduzieren einer Blendung in erfassten Bildern, etwa in Rahmen eines Videos, darunter ein Training eines Maschinelles-Lernen-Modells ansprechend auf ein Ereignis, das etwa durch eine Fehlerfunktion oder eine Änderung des Inhalts verursacht wird. Das Verfahren 300 kann mit Anweisungen implementiert werden, die in nichtflüchtigen maschinenlesbaren Medien gespeichert werden können und von einem Prozessor ausgeführt werden können. Details im Hinblick auf an anderer Stelle hierin beschriebene Elemente des Verfahrens 300 werden im Folgenden nicht ausführlich wiederholt; auf die an anderer Stelle hierin bereitgestellte relevante Beschreibung kann für Elemente, die mittels gleicher Terminologie oder gleichen Bezugszeichen identifiziert werden, Bezug genommen werden.
Bei Block 202 wird ein Wahre-Helligkeit-Bild einer Szene mit einer beleuchtenden Lichtquelle erfasst, die Blendung verursachen kann. Das Wahre-Helligkeit-Bild kann unerwünschte Blendung enthalten.
Bei Block 210 wird ein trainiertes Maschinelles-Lernen-Modell auf das Wahre-Helligkeit-Bild angewendet, um ein Reduzierte-Blendung-Bild zu erhalten.
Bei Block 302 wird das Reduzierte-Blendung-Bild dann als Rahmen der Videokonferenz ausgegeben oder anderweitig als Teil eines erfassten Rahmens in einem Video bereitgestellt. Die Ausgabe eines Videorahmens kann eine Anzeige des Rahmens lokal an der Stelle der Erfassung, eine Kommunikation des Rahmens über ein Computernetzwerk zur entfernten Anzeige, eine Speicherung des Rahmens in einem lokalen Speicher oder eine Kombination dergleichen umfassen.
Bei Block 304 wird bestimmt, ob ein Ereignis dahingehend aufgetreten ist, ein Training des Maschinelles-Lernen-Modell auszulösen. Ein Beispiel eines geeigneten Ereignisses ist ein Fehler in einem Reduzierte-Blendung-Bild, welcher einen akzeptablen Fehler überschreitet. Das heißt, ein Fehler (oder Verlust) eines Reduzierte-Blendung-Bildes kann berechnet werden und mit einem akzeptablen Fehler verglichen werden. Wenn der Fehler nicht akzeptabel ist, tritt ein Fehlerereignis auf. Eine anderes geeignetes Beispielereignis ist eine Änderung des Inhalts an einer Anzeigevorrichtung, die als Lichtquelle agiert, welche Blendung in einem Wahre-Helligkeit-Bild erzeugt. Wenn der Inhalt, der die Blendung erzeugt, sich ändert, dann kann sich auch das Wesen der Blendung ändern. Somit kann vom Auftreten eines Inhaltsereignisses gesprochen werden.
Falls ein Ereignis nicht aufgetreten ist, werden Blöcke 202, 210, 302, 304 für den nächsten Rahmen wiederholt. Ein Video kann somit fortlaufend im Hinblick auf Blendung korrigiert werden.
Falls ein Ereignis auftritt, dann wird das Maschinelles-Lernen-Modell über die Blöcke 204, 206, 208 einem Training unterzogen. Die Ausgabeleistung einer blendungsverursachenden Lichtquelle wird kurzzeitig geändert (Block 204), so dass ein Geänderte-Blendung-Bild erfasst werden kann (Block 206). Dann werden das Geänderte-Blendung-Bild und das zeitlich naheliegende Wahre-Helligkeit-Bild dazu verwendet, das Maschinelles-Lernen-Modell zu trainieren (Block 208). Das Verfahren 300 fährt fort mit den Blöcken 202, 210, 302, 304, um die Blendung in darauffolgend erfassten Bildern zu korrigieren.
4 zeigt eine beispielhafte Vorrichtung 400 zum Entfernen oder Reduzieren von Blendung in erfassten Bildern. Details im Hinblick auf an anderer Stelle hierin beschriebene Elemente der Vorrichtung 400 werden im Folgenden nicht ausführlich wiederholt; auf die an anderer Stelle hierin bereitgestellte relevante Beschreibung kann für Elemente, die mittels gleicher Terminologie oder gleichen Bezugszeichen identifiziert werden, Bezug genommen werden.
Die Vorrichtung 400 kann eine Rechenvorrichtung sein, etwa ein Notebook-Computer, Desktop-Computer, AlO-Computer (AIO, All-In-One), Smartphone, Tablet oder dergleichen. Die Vorrichtung 400 kann dazu verwendet werden, Videoinhalte zu erfassen, etwa in einer Videokonferenz, und solche Videoinhalte können einer Blendung unterliegen, die durch Licht verursacht wird, das von einer Komponente der Vorrichtung 400 ausgesendet wird.
Die Vorrichtung 400 umfasst eine Lichtquelle, etwa eine Anzeigevorrichtung 402, eine Kamera 404 und einen Prozessor 406, der mit der Anzeigevorrichtung 402 und der Kamera 404 verbunden ist. Zusätzlich oder alternativ zu der Anzeigevorrichtung 402 kann die Lichtquelle eine Lampe oder eine ähnlich steuerbare Lichtquelle umfassen.
Bei diesem Beispiel umfasst die Anzeigevorrichtung 402 eine Hintergrundbeleuchtung 408. Die Anzeigevorrichtung 402 zeigt Inhalte 410 an, die sich auf eine Videoerfassung oder eine Videokonferenz beziehen können. Die Inhalte 410 können Bilder von Telekonferenzszenen entfernt von der Vorrichtung 400, geteilte Dokumente, Whiteboards zur Zusammenarbeit und ähnliche Inhalte umfassen.
Die Kamera 404 kann eine Webcam oder eine ähnliche digitale Kamera umfassen, die zum Erfassen von Videoinhalten in der Lage ist.
Die Anzeigevorrichtung 402, oder eine andere Lichtquelle, und die Kamera 404 können auf den Benutzer 412 der Vorrichtung 400 zeigen.
Beispiele geeigneter Prozessoren 406 werden oben beschrieben. Ein nichtflüchtiges maschinenlesbares Medium 414 kann bereitgestellt werden, um gemeinsam mit dem Prozessor zu arbeiten, wie oben besprochen ist.
Die Vorrichtung 400 umfasst ferner ein Maschinelles-Lernen-Modell 416, das ein blendungsreduzierendes Filter auf ein Video 418 anwendet, das durch die Kamera 404 erfasst wird. Beispiele geeigneter Maschinelles-Lernen-Modelle 416 sind oben angegeben.
Die Vorrichtung 400 kann ferner eine Netzwerkschnittstelle 420 umfassen, um Datenkommunikationen für eine Videokonferenz bereitzustellen. Die Netzwerkschnittstelle 420 umfasst Hardware, etwa eine Netzwerkadapterkarte, eine Netzwerkschnittstellensteuerung oder einen Netzwerk-fähigen Chipsatz, und kann ferner Anweisungen umfassen, etwa einen Treiber und/oder eine Firmware. Die Netzwerkschnittstelle 420 ermöglicht es, dass Daten mit einem Computernetzwerk 422, etwa einem lokalen Netzwerk (LAN, Local-Area Network), einem Weitbereichsnetzwerk (WAN, Weitverkehrsnetzwerk), einem virtuellen privaten Netzwerk (VPN, Virtual Private Network), dem Internet oder ähnlichen Netzwerken kommunizieren können, die verdrahtete und/oder drahtlose Pfade umfassen können. Eine Kommunikation zwischen der Vorrichtung 400 und anderen Vorrichtungen 400 kann über das Computernetzwerk 422 und jeweilige Netzwerkschnittstellen 420 derartiger Vorrichtungen 400 ausgeführt werden.
Die Vorrichtung 400 kann ferner eine Videoerfassungsanwendung 424 umfassen, etwa eine Videokonferenzanwendung. Die Anwendung 424 kann von dem Prozessor 406 ausgeführt werden.
Der Prozessor 406 steuert die Kamera 404 dahingehend, eine Sequenz 426 von Bildern oder Videorahmen zu erfassen, wobei derartige Videorahmen durch die Anwendung dahingehend genutzt werden können, eine Videokonferenz bereitzustellen.
Während einer normalen Bilderfassung kann eine Lichtquelle, etwa die Anzeigevorrichtung 402, den Benutzer 412 der Vorrichtung 400 beleuchten, entweder absichtlich, wie bei dem Beispiel einer Lampe, oder als Nebeneffekt, wie bei dem Beispiel einer Anzeigevorrichtung 402. Diese Beleuchtung kann Blendung verursachen, etwa durch die Brille eines Benutzers. Der Prozessor 406 wendet das Maschinelles-Lernen-Modell 416 auf erfasste Bilder 428 in der Sequenz 426 an, um eine derartige Blendung zu reduzieren.
Der Prozessor 406 reduziert ferner eine Intensität der Lichtquelle während einer Erfassung eines Reduzierte-Helligkeit-Zielbildes 430, das dazu verwendet wird, das Maschinelles-Lernen-Modell 416 zu trainieren. Dies kann durch kurzzeitiges Ausschalten der Hintergrundbeleuchtung 408 der Anzeigevorrichtung 402 ausgeführt werden. Zielbilder 430 können in Zeitabständen 432 erfasst werden, etwa ansprechend auf einen übermäßigen Fehler (Verlust) in dem Maschinelles-Lernen-Modell 416 oder je nach Auslösung durch eine Änderung des Inhalts 410 an einer Anzeigevorrichtung 402, die als Lichtquelle agiert.
Der Prozessor 406 trainiert das Maschinelles-Lernen-Modell 416 mit dem Zielbild 430 und mit einem anderen Normale-Helligkeit-Bild 428 der Sequenz 426, das zeitlich nahe zu dem Zielbild 430 liegt. Der Bereich der Helligkeitsinformationen, der durch das Zielbild 430 und das Normale-Helligkeit-Bild 428 bereitgestellt wird, ist ausreichend, um das Maschinelles-Lernen-Modell 416 dahingehend zu trainieren, Blendung aus anderen Bildern 428 in der Sequenz 426 herauszufiltern.
Nach einer Trainingsinstanz fährt der Prozessor 406 damit fort, das Maschinelles-Lernen-Modell 416 auf darauffolgende Bilder 428 in der Sequenz 426 anzuwenden, um Blendung in den darauffolgenden Bildern 428 zu reduzieren.
Das Training kann in Zeitabständen 423 während der Videoerfassung ausgeführt werden und das Maschinelles-Lernen-Modell 416 kann somit Blendung genauer filtern, während sich das durch die Kamera 404 erfasste Subjekt 412 bewegt und sich das Wesen des durch die Lichtquelle ausgesendeten Lichts im Zeitverlauf ändert.
5 zeigt eine beispielhafte Vorrichtung 500 zum Entfernen oder Reduzieren von Blendung in erfassten Bildern, wobei eine derartige Blendung durch eine Mehrzahl von Lichtquellen verursacht werden kann. Details im Hinblick auf an anderer Stelle hierin beschriebene Elemente der Vorrichtung 500 werden im Folgenden nicht ausführlich wiederholt; auf die an anderer Stelle hierin bereitgestellte relevante Beschreibung kann für Elemente, die mittels gleicher Terminologie oder gleichen Bezugszeichen identifiziert werden, Bezug genommen werden. Die Vorrichtung 500 ähnelt der Vorrichtung 400 mit Ausnahme der im Folgenden besprochenen Inhalte.
Die Vorrichtung 500 umfasst eine Mehrzahl von Lichtquellen 502, 504, 506, etwa mehrere Anzeigevorrichtungen, z. B. ein Desktop-Computer mit mehreren Monitoren, eine Anzeigevorrichtung und eine Lampe, mehrere Anzeigevorrichtungen und eine Lampe oder eine ähnliche Kombination von Lichtquellen. Die Lichtquellen 502, 504, 506 können einzeln steuerbar sein. Beispielsweise kann jeder Monitor einer Anordnung mehrerer Monitore unabhängig ausgetastet werden, um eine Lichtausgabe kurzzeitig zu reduzieren.
Durch die Lichtquellen 502, 504, 506 verursachte Blendung kann ein unterschiedliches Wesen aufweisen. Beispielsweise kann ein Monitor, der direkt auf den Benutzer 412 zeigt, eine Blendung an der Brille des Benutzers verursachen, die eine Form und eine Intensität aufweist, die sich von einer Blendung unterscheidet, die durch einen Monitor verursacht wird, der winklig in Bezug auf den Blickwinkel des Benutzers steht. Zusätzlich dazu können derartige Monitore unterschiedliche Inhalte zu unterschiedlichen Zeitpunkten anzeigen. Beispielsweise kann der Benutzer während einer Videokonferenz einen Monitor haben, der Videoinhalte anderer Teilnehmer anzeigt, und einen anderen Monitor, der ein Dokument anzeigt.
Um ein Maschinelles-Lernen-Modell 416 zu trainieren, das ein Blendungsfilter bereitstellt, kann der Prozessor 406 eine Intensität der Mehrzahl von Lichtquellen 502, 504, 506 selektiv reduzieren. Das heißt, der Prozessor 406 wählt eine Lichtquelle 502, 504, 506 aus, die er während der Erfassung eines Reduzierte-Helligkeit-Zielbildes reduziert. Ein jeweiliges Zielbild 430 kann mit einer oder einer Kombination von Lichtquellen 502, 504, 506, die mit reduzierter Helligkeit betrieben werden, erfasst werden. Eine unabhängige Modulation unterschiedlicher Lichtquellen 502, 504, 506 kann zusätzliche Helligkeitsinformationen für das Maschinelles-Lernen-Modell 416 bereitstellen, um die Genauigkeit des Modells 416 beim Herausfiltern von Blendung zu erhöhen. Bei anderen Beispielen kann jede Lichtquelle 502, 504, 506 einem unabhängigen Maschinelles-Lernen-Modell 416 zugeordnet sein, das durch diese Lichtquelle 502, 504, 506 verursachte Blendung filtert.
Bei unterschiedlichen Beispielen können einem Maschinelles-Lernen-Modell zusätzliche Informationen bereitgestellt werden, um beim Charakterisieren und somit Herausfiltern von Blendung zu unterstützen. Beispiele zusätzlicher Informationen umfassen eine Hintergrundbeleuchtungshelligkeit und Lichtinformationen über angezeigte Inhalte, etwa Farbe und Intensität. Lichtinformationen können über Bereiche der Anzeigevorrichtung gemittelt werden, über die gesamte Anzeigevorrichtung gemittelt werden, oder detaillierte Pixeldaten können bereitgestellt werden.
Bei unterschiedlichen Beispielen können erfasste Bilder sichtbares Licht, Infrarotlicht oder beides enthalten. Das Verarbeiten von Infrarotbildern oder einer Infrarotkomponente von Bildern, um Infrarotblendung zu filtern, kann nützlich sein, um bei der Entfernung von Feuerauge (bzw. Fire-Eye) in einem nachgelagerten Prozess zu helfen.
Im Hinblick auf die obigen Ausführungen sollte ersichtlich sein, dass das Steuern einer Lichtquelle, etwa einer Anzeigevorrichtung, zum kurzzeitigen Reduzieren ihrer Leistungsausgabe dazu verwendet werden kann, ein Filter für Blendung, die durch die Lichtquelle verursacht werden kann, zu trainieren. Somit kann eine Ablenkung, die durch Blendung in einem erfassten Video verursacht wird, reduziert werden und die Qualität eines derartigen Videos kann erhöht werden. Eine Videokonferenz kann somit natürlicher mit größerer Plausibilität erscheinen, insbesondere wenn ein Benutzer oder ein anderes Subjekt dazu tendiert, Blendung zu verursachen, etwa durch das Tragen von einer Brille.
Es ist ersichtlich, dass Merkmale und Aspekte der unterschiedlichen oben bereitgestellten Beispiele zu weiteren Beispielen kombiniert werden können, die auch in den Schutzumfang der vorliegenden Offenbarung fallen. Zusätzlich dazu sind die Zeichnungen nicht maßstabgetreu und können eine Größe und Form aufweisen, die für illustrative Zwecke übermäßig dargestellt werden.

Claims

Ein nichtflüchtiges maschinenlesbares Medium, das Anweisungen aufweist, um: ein erstes Bild einer Szene zu erfassen, die Licht umfasst, das von einer Anzeigevorrichtung ausgesendet wird; eine Helligkeit der Anzeigevorrichtung zu ändern; ein zweites Bild der Szene zu erfassen, während die Helligkeit der Anzeigevorrichtung geändert ist; ein Maschinelles-Lernen-Modell mit dem ersten Bild und dem zweiten Bild dahingehend zu trainieren, ein Filter bereitzustellen, um Blendung zu reduzieren; und das Maschinelles-Lernen-Modell auf ein drittes Bild, das von der Szene erfasst wird, dahingehend anzuwenden, Blendung in dem dritten Bild zu reduzieren, wobei sich das dritte Bild von dem ersten und dem zweiten Bild unterscheidet.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 1, wobei die Anweisungen dazu dienen, die Helligkeit der Anzeigevorrichtung durch Ausschalten einer Hintergrundbeleuchtung der Anzeigevorrichtung zu reduzieren.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 1, wobei die Anweisungen dazu dienen, die Helligkeit der Anzeigevorrichtung zu reduzieren, das zweite Bild zu erfassen und das Maschinelles-Lernen-Modell zu trainieren, in Zeitabständen während einer Videokonferenz, die die Anzeigevorrichtung verwendet.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 3, wobei die Anweisungen dazu dienen, eine Frequenz der Zeitabstände zu steuern.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 4, wobei die Anweisungen dazu dienen, die Frequenz der Zeitabstände auf der Basis einer Fehlerfunktion zu steuern, wobei ein größerer Fehler die Frequenz erhöht.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 3, wobei die Anweisungen dazu dienen, die Reduzierung der Helligkeit der Anzeigevorrichtung und die Erfassung des zweiten Bildes auf der Basis eines angezeigten Inhalts der Videokonferenz auszulösen.
Das nichtflüchtige maschinenlesbare Medium gemäß Anspruch 1, wobei das erste, das zweite und das dritte Bild Rahmen eines Videos sind, und wobei die Anweisungen dazu dienen, die Helligkeit der Anzeigevorrichtung für eine Dauer eines Rahmens zu reduzieren.
Eine Vorrichtung, die folgende Merkmale aufweist: eine Lichtquelle; eine Kamera; und einen Prozessor, der mit der Lichtquelle und der Kamera verbunden ist, wobei der Prozessor dazu dient: die Kamera zu steuern, um eine Sequenz von Bildern zu erfassen; eine Intensität der Lichtquelle während einer Erfassung eines Zielbildes der Sequenz zu reduzieren; ein Maschinelles-Lernen-Modell mit dem Zielbild und einem anderen Bild der Sequenz dahingehend zu trainieren, ein Filter bereitzustellen, um Blendung zu reduzieren; das Maschinelles-Lernen-Modell auf darauffolgende Bilder in der Sequenz anzuwenden, um Blendung in den darauffolgenden Bildern zu reduzieren.
Die Vorrichtung gemäß Anspruch 8, die ferner eine Netzwerkschnittstelle aufweist, die mit dem Prozessor verbunden ist, wobei: die Lichtquelle eine Anzeigevorrichtung ist; die Kamera eine Webcam ist; und der Prozessor dazu dient, eine Videokonferenz mit der Anzeigevorrichtung, der Webcam und der Netzwerkschnittstelle bereitzustellen.
Die Vorrichtung gemäß Anspruch 9, wobei der Prozessor dazu dient, das Zielbild bei Auslösung gemäß der Videokonferenz zu erfassen.
Die Vorrichtung gemäß Anspruch 8, die eine Mehrzahl von Lichtquellen aufweist, wobei der Prozessor dazu dient, eine Intensität der Mehrzahl von Lichtquellen während einer Erfassung des Zielbildes selektiv zu reduzieren.
Die Vorrichtung gemäß Anspruch 8, wobei das Maschinelles-Lernen-Modell ein neuronales Faltungsnetzwerk umfasst.
Ein Verfahren, das folgende Schritte aufweist: Erfassen eines ersten Bildes einer Szene, die Licht umfasst, das von einer Lichtquelle ausgesendet wird; Steuern der Lichtquelle dahingehend, eine geänderte Lichtintensität auszugeben; Erfassen eines zweiten Bildes aus der Szene bei Beleuchtung durch die geänderte Lichtintensität; Trainieren eines Maschinelles-Lernen-Modell mit dem ersten Bild und dem zweiten Bild; und Anwenden des Maschinelles-Lernen-Modells auf ein drittes Bild, das von der Szene erfasst wird, um Blendung in dem dritten Bild zu reduzieren.
Das Verfahren gemäß Anspruch 13, das ferner ein Betreiben einer Videokonferenz aufweist, wobei die Lichtquelle eine Anzeigevorrichtung eines Benutzers ist, die während der Videokonferenz betrieben wird, und wobei das erste, das zweite und das dritte Bild von einer Kamera des Benutzers während der Videokonferenz erfasst werden.
Das Verfahren gemäß Anspruch 14, wobei das Steuern der Lichtquelle dahingehend, die geänderte Lichtintensität auszugeben, ein Austasten der Anzeigevorrichtung umfasst.