DE102021001438A1

DE102021001438A1 - Belichtungsdefektklassifizierung von Bildern unter Nutzung eines neuronalen Netzwerkes

Info

Publication number: DE102021001438A1
Application number: DE102021001438.3A
Authority: DE
Inventors: Akhilesh Kumar; Zhe Lin; William Lawrence Marino
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2020-05-29
Filing date: 2021-03-18
Publication date: 2021-12-02
Also published as: AU2021201933B2; GB2609723A; GB202104213D0; US20230024955A1; GB2609723B; GB2595558A; AU2021201933A1; US11494886B2; CN113808069A; GB2595558B; GB202208088D0; US20210374931A1

Abstract

Bereitgestellt werden Ausführungsformen der vorliegenden Erfindung durch Systeme, Verfahren und Computerspeichermedien zum Detektieren und Klassifizieren eines Belichtungsdefektes in einem Bild unter Nutzung von neuronalen Netzwerken, die an einer begrenzten Menge von etikettierten Trainingsbildern trainiert sind. Es kann ein Bild in ein erstes neuronales Netzwerk eingespeist werden, um zu bestimmen, ob die Bilder einen Belichtungsdefekt beinhalten. Ein detektiertes defektbehaftetes Bild kann in ein zweites neuronales Netzwerk eingespeist werden, um eine Belichtungsdefektklassifizierung für das Bild zu bestimmen. Die Belichtungsdefektklassifizierung kann eine starke Unterbelichtung, eine mittlere Unterbelichtung, eine schwache Unterbelichtung, eine schwache Überbelichtung, eine mittlere Überbelichtung, eine starke Überbelichtung und/oder dergleichen beinhalten. Das Bild kann einem Nutzer zusammen mit der Belichtungsdefektklassifizierung präsentiert werden.

Description

Hintergrund
Einhergehend mit der Vermehrung der Anzahl von Kanälen (beispielsweise zellenbasierte Telefone, tragbare Kameras, Laptops, Tablets), auf denen Digitalcontent (Bilder, Videos, Animationen) erstellt und konsumiert wird, ist das vor dem Konsumieren erfolgende effiziente Detektieren und Organisieren von defektbehaftetem Content äußerst wichtig geworden. Die verstärkte Nutzung von tragbaren und nutzerfreundlichen Vorrichtungen mit Sensoren (beispielsweise Kameras) zum Aufnehmen und Speichern von Digitalmedien ermöglicht, dass Nutzer eine riesige Menge von Medien sammeln. Zusätzlich bietet eine Vielzahl von Anwendungen, so beispielsweise unter anderem Adobe^® Stock, Adobe^® Lightroom^® und dergleichen, große Bildersammlungen zum Konsumieren durch Nutzer. Bei derartigen Anwendungen können die Bilder von Nutzern der Anwendungen hochgeladen werden.
Digitalbilder, die sowohl von Neulingen wie auch von fachkundigen Fotografen aufgenommen werden, können oftmals Belichtungsfehler bzw. -defekte, so beispielsweise eine Überbelichtung und eine Unterbelichtung, aufweisen. Eingedenk den zunehmend größeren Sammlungen von Digitalmedien ist das Detektieren derartiger Belichtungsdefekte zunehmend wichtig geworden, um eine gewisse Qualität einer Mediensammlung zu gewährleisten. Gleichwohl erfordert die Belichtungsdefektdetektion oftmals einen Kompromiss zwischen dem Bedarf an genauer Detektion und dem Bedarf an Effizienz. Das Detektieren von Belichtungsdefekten in Digitalmedien wird insbesondere dann aufwändig, wenn eine riesige Menge von Medien von einem Nutzer oder in einer Anwendungssammlung gespeichert worden ist. Derzeitige Lösungen zur Belichtungsdefektdetektion sind bei der Findung eines derartigen Kompromisses ungeeignet. Üblicherweise müssen Nutzer bei bestehenden Lösungen Medien mit Belichtungsdefekten manuell detektieren. In einigen Fällen können die Kosten und der Aufwand der manuellen Detektion dazu führen, dass der Nutzer frustriert ist oder nicht optimalen Content hinnimmt, wodurch der Nutzen der Digitalmediensammlungen begrenzt ist.
Zusammenfassung
Ausführungsformen der vorliegenden Erfindung betreffen ein Belichtungsdefektklassifizierungssystem zum effizienten und genauen Detektieren und Klassifizieren von Belichtungsfehlern bzw. Belichtungsdefekten in Bildern unter Nutzung eines neuronalen Netzwerkes, das an einer begrenzten Menge von etikettierten Trainingsdaten trainiert wird. In diesem Zusammenhang kann ein Bild in ein erstes neuronales Netzwerk eingespeist werden, das dafür trainiert worden ist zu bestimmen, ob das Bild einen Belichtungsfehler bzw. -defekt beinhaltet. Das Bild kann sodann in ein zweites neuronales Netzwerk eingespeist werden, wenn bestimmt worden ist, dass das Bild einen Belichtungsdefekt beinhaltet. Das zweite neuronale Netzwerk kann dafür trainiert sein, das Bild derart zu klassifizieren, dass es einen Überbelichtungsdefekt oder einen Unterbelichtungsdefekt beinhaltet. Bei einigen Ausführungsformen kann das zweite neuronale Netzwerk einen Belichtungskennwert ausgeben, der einen Grad der Unterbelichtung und/oder Überbelichtung in dem Eingabebild angibt. Die Grade können Typen von Belichtungsdefektklassifizierungen entsprechen, so beispielsweise unter anderem einer mittleren Überbelichtung, einer starken Überbelichtung, einer schwachen Überbelichtung, einer mittleren Unterbelichtung, einer starken Überbelichtung bzw. Unterbelichtung und/oder einer schwachen Überbelichtung bzw. Unterbelichtung. Bilder mit Belichtungsdefekten können sodann auf Grundlage der Klassifizierung und/oder der Kennwerte präsentiert und/oder gespeichert werden.
Als solches kann für einen Nutzer effizient, effektiv und automatisch einschlägige Information im Zusammenhang mit Bildern, in denen Belichtungsdefekte vorhanden sind, bereitgestellt werden. Dies ermöglicht, dass der Nutzer die einschlägige Information über die zugrunde liegenden Bilder ohne Weiteres erfasst, ohne dass er eine Bildergalerie komplett visuell durchsuchen müsste, um Bilder ausfindig zu machen, die gegebenenfalls Belichtungsdefekte aufweisen. Hierdurch wird ermöglicht, dass der Nutzer die defektbehafteten Bilder effizient entfernt und/oder erfasst bzw. nachbehandelt.
Die vorliegende Zusammenfassung soll in vereinfachter Form eine Auswahl von Konzepten bereitstellen, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Diese Zusammenfassung soll Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfanges des beanspruchten Erfindungsgegenstandes benutzt werden.
Figurenliste
Die vorliegende Erfindung wird nachstehend detailliert anhand der begleitenden Zeichnungsfiguren beschrieben.

1 ist ein Blockdiagramm einer exemplarischen Umgebung, die zur Nutzung beim Implementieren von Ausführungsformen der Erfindung geeignet ist, entsprechend Ausführungsformen der vorliegenden Erfindung.
2 ist ein Datenflussdiagramm zur Darstellung eines exemplarischen Prozesses zur Belichtungsdefektklassifizierung von Bildern unter Nutzung eines neuronalen Netzwerkes entsprechend Ausführungsformen der vorliegenden Erfindung.
3 zeigt einen exemplarischen Prozess zum Trainieren eines Binärmodells entsprechend Ausführungsformen der vorliegenden Erfindung.
4 zeigt eine exemplarische Ausgabe des Defektdetektionssystems entsprechend Ausführungsformen der vorliegenden Erfindung.
5 ist ein Flussdiagramm zur Darstellung eines Verfahrens zum Detektieren und Klassifizieren eines Belichtungsdefektes in einem Bild entsprechend Ausführungsformen der vorliegenden Erfindung.
6 ist ein Blockdiagramm einer exemplarischen Rechenvorrichtung, die zur Nutzung beim Implementieren von Ausführungsformen der vorliegenden Erfindung geeignet ist.

Detailbeschreibung
Übersicht
Die Vermehrung der Anzahl von Kanälen, auf denen Digitalmedien erstellt und konsumiert werden können, hat mit den Jahren beträchtlich zugenommen, was zu einer riesigen Menge von Digitalcontent geführt hat. Digitalmedien, so beispielsweise Bilder, können beispielsweise von verschiedenen elektronischen Vorrichtungen mit Sensoren, darunter Digitalkameras, Drohnen, Camcorder und dergleichen, aufgenommen werden. Aufgenommene Digitalmedien, so beispielsweise Bilder, Videos und dergleichen, können in Sammlungen, so beispielsweise in Digitalalben wie Adobe^® Stock, Adobe^® Lightroom^® und dergleichen, gespeichert werden.
Derartige aufgenommene Digitalmedien weisen jedoch oftmals Belichtungsdefekte, so beispielsweise eine Überbelichtung und eine Unterbelichtung, auf. Ein Bild weist insbesondere eine Überbelichtung auf, wenn mehr Licht als nötig auf den das Digitalbild aufnehmenden Sensor fällt, was beispielsweise dann der Fall ist, wenn ein aufgenommenes Objekt zu hell ist. Überbelichtung führt in einem Digitalbild zu einem Detailverlust. Als solches können überbelichtete Bilder oftmals eine helle oder weiße Zone / helle oder weiße Zonen beinhalten, wo zu viel Licht vorhanden war. Eine Unterbelichtung ist demgegenüber gegeben, wenn weniger Licht als nötig auf den das Digitalbild aufnehmenden Sensor fällt, weshalb ein Objekt in dem Digitalbild sehr dunkel aussieht. Unterbelichtung führt zu einem Detailverlust entsprechend dem Objekt. Im Ergebnis können unterbelichtete Bilder oftmals eine dunkle oder schwarze Zone / dunkle oder schwarze Zonen beinhalten, wo zu wenig Licht vorhanden war.
Da Belichtungsdefekte in Verbindung mit Digitalmedien auftreten, kann das Detektieren von Digitalmedien mit derartigen Belichtungsdefekten für Nutzer nützlich sein, um eine besser optimierte und effiziente Nutzererfahrung zu ermöglichen; und dies insbesondere angesichts dessen, dass die Menge von Digitalcontent zunimmt. Bei einem Beispiel kann eine riesige Menge von Digitalmediencontent über ein Digitalalbum (beispielsweise Adobe^® Stock) zugänglich sein. Ein Nutzer möchte in dem Digitalalbum gegebenenfalls auf Bilder mit derart guter Belichtung zugreifen und/oder diese nutzen, dass die Detailschärfe in dem Bild für den Betrachter optimal ist. Entsprechend kann eine Einzelperson oder Entität Digitalmedien mit schlechter Belichtung selektiv entfernen oder markieren, um die Qualität der Digitalmedien, die über das Digitalalbum zugänglich sind, zu erhöhen oder zu verbessern.
Zum Detektieren von Belichtungsdefekten in Digitalmedien erfordert ein Lösungsansatz derzeit, dass Nutzer Medien mit Belichtungsdefekten manuell detektieren. Dieser herkömmliche Lösungsansatz erfordert beispielsweise, dass ein Nutzer manuell bestimmt, welche Bilder oder Frames (beispielsweise Videoframes, Animationsframes) einen Belichtungsdefekt beinhalten, und diese Bilder oder Frames entweder markiert oder löscht. Eine derartige manuelle Detektion wird gegebenenfalls äußerst aufwändig, wenn die Sammlung größer wird. Des Weiteren bedingt dieser Lösungsansatz, dass der Nutzer Belichtungsdefekte in den Bildern oder Frames willkürlich detektiert. Eine derartige willkürliche manuelle Detektion ist gegebenenfalls oftmals subjektiv und kann zu einer falschen Klassifizierung von Medien führen.
Ein weiterer herkömmlicher Lösungsansatz beinhaltet die Nutzung einer Bildbearbeitungssoftware zum Detektieren von Belichtungsdefekten in jedem Bild oder Frame unter Nutzung von Histogrammen. In diesem Zusammenhang kann eine Bildbearbeitungssoftware ein Histogramm generieren, das Tonwerte eines Digitalbildes oder Frames in einem Graph dargestellt. Insbesondere stellt das Histogramm Mengen von Tönen bestimmter Helligkeit in dem Bild oder Frame in einem Bereich von Schwarz bis Weiß mit zunehmender Helligkeit dar. Ein Histogramm für ein überbelichtetes Bild oder Frame kann beispielsweise einen Graph mit hohen Weißtonwerten beinhalten. Auf ähnliche Weise kann ein unterbelichtetes Bild in einem Graph mit hohen Schwarztonwerten dargestellt werden. Ein Nutzer der Bildbearbeitungssoftware kann eine Histogrammanalyse für jedes Digitalbild oder Frame durchführen, um zu bestimmen, ob Belichtungsdefekte in einem der Bilder/Frames vorhanden sind. Gleichwohl ist eine derartige Einzelanalyse für jedes Bild oder Frame gegebenenfalls zeitaufwändig. Die Tonwerte in dem Histogramm können zudem von Sensoreinstellungen, der fotografierten Szenerie, dem Betrachtungspunkt des Nutzers und dergleichen mehr beeinflusst werden. Als solches stellt das Histogramm gegebenenfalls nicht immer eine genaue Analyse einer Bildbelichtung bereit und führt gegebenenfalls oftmals zu einer nicht korrekten Klassifizierung von Bildern oder Frames als gut, überbelichtet und/oder überbelichtet bzw. unterbelichtet.
Entsprechend betreffen hier beschriebene Ausführungsformen das Erleichtern einer effizienten und genauen Detektion und Klassifizierung von Belichtungsdefekten von Digitalbildern. Insbesondere detektieren und klassifizieren hier beschriebene Ausführungsformen Belichtungsdefekte allgemein ohne die Notwendigkeit von Tonhistogrammen oder ausufernden manuellen Klassifizierungen und/oder Etikettierungen. Zu diesem Zweck betreffen Ausführungsformen das automatische Detektieren und Klassifizieren von Belichtungsdefekten in Digitalmedien (beispielsweise Bilder, Videoframes, Animationsframes) unter Nutzung von trainierten neuronalen Netzwerken. Allgemein werden automatisch klassifizierte Digitalmedien genau dahingehend klassifiziert, dass sie ein gut belichtetes Medium, ein überbelichtetes Medium, ein unterbelichtetes Medium und/oder dergleichen beinhalten. Derartige Klassifizierungen können sodann beispielsweise dafür benutzt werden, die Qualität von Bildern zu verbessern, Bilder nachzubehandeln, die Präsentation von Bildern zu organisieren und dergleichen mehr.
Bei einer Implementierung bestimmt/bestimmen ein neuronales Netzwerk / neuronale Netzwerke zunächst, ob ein Bild einen Belichtungsdefekt beinhaltet, und es bestimmt/bestimmen, wenn das Bild einen Belichtungsdefekt beinhaltet, dasselbe oder ein anderes neuronales Netzwerk / dieselben oder andere neuronale Netzwerke eine Belichtungsdefektklassifizierung auf Grundlage eines Grades des Belichtungsdefektes in dem Bild. Auf abstrakter Ebene wird/werden bei Ausführungsformen ein neuronales Netzwerk / neuronale Netzwerke benutzt, um Belichtungsdefekte zu detektieren und Klassifizierungen derselben in Bildern bereitzustellen. Das neuronale Netzwerk / die neuronalen Netzwerke kann/können trainiert und zur Vorhersage von Belichtungsgraden (beispielsweise Überbelichtung, Unterbelichtung, gute Belichtung) für jedes Digitalbild benutzt werden, was wiederum zum Klassifizieren von Bildern, die in einer Vorrichtung, einer Cloud und/oder einer Digitalmediensammlung gespeichert sind, benutzt werden kann. Das vorliegende System kann Bilder nach verschiedenen Graden der Belichtung klassifizieren, so beispielsweise starke Überbelichtung, schwache Überbelichtung, mittlere Überbelichtung, starke Unterbelichtung, schwache Unterbelichtung, mittlere Unterbelichtung, gute Belichtung (beispielsweise gut belichtet, ohne Belichtungsdefekt) und/oder dergleichen. Im Gegensatz zu herkömmlichen Lösungen, die erfordern, dass ein Nutzer eine Histogrammanalyse an jedem Bild durchführt oder jedes Bild subjektiv klassifiziert, sagt das vorliegende System Belichtungsdefekte, die in Bildern dargestellt sind, automatisch unter Nutzung eines neuronalen Netzwerkes / von neuronalen Netzwerken voraus, das/die an einer begrenzten Menge von manuell etikettierten Trainingsdaten und/oder verrauschten Daten trainiert worden ist/sind. Das vorliegende System ermöglicht auf robustere und effizientere Weise die Vorhersage von Belichtungsdefekten innerhalb von Digitalbildern, die sodann zur Durchführung verschiedener Funktionen genutzt werden kann, so beispielsweise zum Organisieren der Digitalbilder nach dem Grad der Belichtung, zum Löschen von defektbehafteten Bildern, zum Markieren von defektbehafteten Bildern, zum Ändern der Belichtung von defektbehafteten Bildern und dergleichen.
Bei einigen Beispielen kann für beliebige empfangene Medien (beispielsweise ein Bild, ein Video, eine Animation) ein erstes neuronales Netzwerk zur Bestimmung dessen benutzt werden, ob das Medium einen Belichtungsdefekt beinhaltet. Das neuronale Netzwerk kann dafür trainiert werden, ein oder mehrere Frames (beispielsweise Bilder, Frames eines Videos) des Mediums als gut oder schlecht belichtetes Frame oder Bild zu klassifizieren. Die Frames oder Bilder, von denen bestimmt worden ist, dass sie einen Belichtungsdefekt (beispielsweise ein Frame mit schlechter Belichtung) beinhalten, können sodann in ein zweites neuronales Netzwerk eingespeist werden, um den Grad der Belichtung für jedes Bild zu bestimmen. Beinhalten kann der Grad der Belichtung einen Belichtungskennwert und/oder eine Belichtungsdefektklassifizierung für jedes der Frames oder Bilder, vor denen bestimmt worden ist, dass sie einen Belichtungsdefekt beinhalten. Jedem Frame oder Bild kann beispielsweise ein Kennwert zwischen 0 und 1 zugeordnet werden, wobei 0 einen hohen Grad der Unterbelichtung und 1 einen hohen Grad der Überbelichtung angibt. Bei derartigen Beispielen können Belichtungsdefektklassifizierungen eine starke Überbelichtung, eine schwache Überbelichtung, eine mittlere Überbelichtung, eine starke Unterbelichtung, eine schwache Unterbelichtung, eine mittlere Unterbelichtung und dergleichen beinhalten. Klassifiziert werden kann auf diese Weise jedes Frame oder Bild als gut belichtet (beispielsweise mit guter Belichtung), wenn von dem entsprechenden Frame bestimmt wird, dass es keinen Belichtungsdefekt beinhaltet, und in einer der vorgenannten Belichtungsdefektklassifizierungen.
Die Frames oder Bilder können einem Nutzer sodann auf Grundlage der Klassifizierungen präsentiert werden. Die Klassifizierungen können zur Durchführung verschiedener Funktionen benutzt werden, so beispielsweise zum Organisieren der Digitalframes oder Bilder nach dem Grad der Belichtung, zum Löschen von defektbehafteten Bildern, zum Markieren von defektbehafteten Bildern, zum Ändern der Belichtung von defektbehafteten Bildern und dergleichen mehr. Bei einem Beispiel können einem Nutzer defektbehaftete Bilder oder Frames und/oder entsprechende Grade der Belichtung präsentiert werden. Präsentiert werden können dem Nutzer Optionen, so beispielsweise zum Entfernen/Löschen eines oder mehrerer der defektbehafteten Frames oder Bilder, zum Erfassen bzw. Nachbehandeln der Belichtung in dem einen oder den mehreren der defektbehafteten Frames oder Bilder und/oder dergleichen. Bei anderen Beispielen können die defektbehafteten Frames oder Bilder auf Grundlage der Grade der Belichtung mit verschiedenen Tags oder Markierungen (flags) präsentiert werden. Bei einigen anderen Beispielen können dem Nutzer robuste grafische Darstellungen der Anzahl von Frames oder Bildern, von denen detektiert worden ist, dass sie Belichtungsdefekte beinhalten, in einem Satz von Bildern präsentiert werden. Es kann beispielsweise ein Verhältnis von gut belichteten und defektbehafteten Frames oder Bildern präsentiert werden. Verhältnisse von gut belichteten und anderen Klassifizierungen können ebenfalls präsentiert werden.
Bei einigen Beispielen kann das erste neuronale Netzwerk unter Nutzung eines schwachen überwachten Lernalgorithmus dafür trainiert werden, dass ein kleiner Satz von etikettierten Trainingsbildern zum Generieren von mehr Trainingsbildern aus einem verrauschten Datensatz benutzt werden kann. Zunächst kann ein neuronales Netzwerk anfänglich unter Nutzung eines kleinen Satzes von etikettierten Bildern dafür trainiert werden zu detektieren, ob ein Bild einen Belichtungsdefekt beinhaltet. Das anfänglich trainierte neuronale Netzwerk kann sodann unter Nutzung eines verrauschten Datensatzes von Bildern neutrainiert werden, indem ein Inferenzkennwert für jedes Bild in dem verrauschten Datensatz unter Nutzung des trainierten neuronalen Netzwerkes bestimmt wird. Die Inferenzkennwerte des verrauschten Datensatzes können sodann zum Bestimmen eines Schwellenkennwertes zum Klassifizieren eines jeden Bildes als gut belichtetes oder defektbehaftetes Bild benutzt werden. Der Schwellenkennwert kann auf Grundlage eines Verteilungsverhältnisses der gut belichteten und defektbehafteten Bilder in den etikettierten Trainingsbildern derart bestimmt werden, dass der Schwellenkennwert dasselbe Verteilungsverhältnis der gut belichteten und defektbehafteten Bilder in dem verrauschten Datensatz bereitstellt. Bilder unter dem Schwellenkennwert können als gut belichtete Bilder klassifiziert werden, während Bilder über dem Schwellenkennwert als defektbehaftete Bilder klassifiziert werden können. Bei einigen Beispielen kann oder können ein oder mehrere falsch klassifizierte Bilder aus dem verrauschten Datensatz entfernt werden. Die falsch klassifizierten Bilder können Bilder sein, die bei der Klassifizierung von defektbehafteten Bildern fälschlicherweise als gut belichtete Bilder klassifiziert worden sind. Der neue verrauschte Datensatz mit den Klassifizierungen kann sodann dafür benutzt werden, das neuronale Netzwerk neu zu trainieren. Das neutrainierte neuronale Netzwerk kann sodann als erstes neuronales Netzwerk bei der Inferenz zur Detektion dessen benutzt werden, ob ein Bild oder Frame / Bilder oder Frames Belichtungsdefekte beinhaltet/beinhalten. Auf diese Weise kann das erste neuronale Netzwerk unter Nutzung eines größeren Datensatzes trainiert werden, ohne dass ein manuelles Etikettieren eines jeden Bildes in dem verrauschten Datensatz erforderlich wäre.
Bei einigen Beispielen können das erste neuronale Netzwerk und das zweite neuronale Netzwerk eine Anzahl von oberen Schichten gemeinsam nutzen, jedoch eine oder mehrere untere Schichten (beispielsweise vollständig verbundene (fully connected) Schichten) beinhalten, die bezugsrichtig für die Binärdefektdetektion und den Grad der Defektdetektion trainiert worden sind. Jedes Netzwerk kann unter Nutzung einer anderen Lernrate (beispielsweise Gewichtung) für jede Schicht trainiert werden. Bei einigen Beispielen kann/können die vollständig verbundene Schicht / die vollständig verbundenen Schichten des zweiten neuronalen Netzwerkes unter Nutzung von Trainingsbildern trainiert werden, die mit fünf Klassifizierungen oder Klassifizierungskennwerten von 0 bis 1, darunter 0, 0,25, 0,5, 0,75 und 1,0, etikettiert sind. Die Klassifizierungen können den Grad der Belichtung angeben, so beispielsweise eine starke Unterbelichtung, eine schwache Unterbelichtung, eine mittlere Überbelichtung/Unterbelichtung, eine schwache Überbelichtung beziehungsweise eine starke Überbelichtung. Auf diese Weise kann das erste neuronale Netzwerk dafür trainiert werden, das Vorhandensein eines Belichtungsdefektes in Bildern zu detektieren, während das zweite neuronale Netzwerk dafür trainiert werden kann, den Grad der Belichtung in den defektbehafteten Bildern zu detektieren.
Aspekte der hier offenbarten Technologie bieten eine Anzahl von Vorteilen gegenüber vorherigen Lösungen. Beispielsweise impliziert ein vorheriger Lösungsansatz das manuelle Etikettieren von Medien. Dieser Lösungsansatz berücksichtigt jedoch keine subjektiven Vorlieben eines Etikettierenden dahingehend, Bilder, die Belichtungsdefekte aufweisen, automatisch und genau auf intelligente und konsistente Weise zu bestimmen. Eine derartige manuelle Detektion oder Bestimmung wird zunehmend aufwändig, wenn die Sammlung größer wird, falsche Klassifizierungen von Bildern aufweist und genau etikettierte Bilder nicht bereitstellen kann. Des Weiteren erfordert ein weiterer vorheriger Lösungsansatz, dass ein Nutzer eine Histogrammanalyse für jedes Bild durchführt, wodurch der Prozess zeitaufwändig wird. Dieser vorherige Ansatz ist auch dadurch beschränkt, dass davon ausgegangen wird, dass das Histogramm durchweg eine genaue Analyse der Bildbelichtungen bereitstellt, was oftmals zu einer nicht richtigen Klassifizierung von Bildern als gut belichtet, überbelichtet und/oder unterbelichtet führen kann.
Um beim vorliegenden System derartige Einschränkungen zu vermeiden, entwickeln Ausführungsformen der hier beschriebenen Technologie beispielsweise systematisch einen Algorithmus zum Detektieren und Klassifizieren von Belichtungsdefekten in Bildern unter Nutzung eines oder mehrerer neuronaler Netzwerke zum Generieren einer automatischen, konsistenten und genauen Klassifizierung von Bildern, ohne dass ein manuelles Etikettieren einer großen Menge von Trainingsdaten (beispielsweise von Trainingsbildern) erforderlich wäre. Im Gegensatz zu herkömmlichen Systemen nutzen die Ausführungsformen der vorliegenden Technologie einen kleinen Datensatz von etikettierten Trainingsbildern dafür, einen großen klassifizierten oder etikettierten Datensatz aus einem verrauschten Datensatz von Bildern zu generieren, um ein neuronales Netzwerk dafür zu trainieren, das Vorhandensein von Belichtungsdefekten in Bildern zu detektieren. Des Weiteren verwenden die Ausführungsformen der vorliegenden Technologie die Ergebnisse des trainierten neuronalen Netzwerkes zum Detektieren des Defektgrades in Bildern, indem sie die defektbehafteten Bilder in ein weiteres neuronales Netzwerk einspeisen. Ausführungsformen der vorliegenden Technologie können eine genaue und effiziente Bestimmung und Klassifizierung von darunter liegenden Belichtungsdefekten für Digitalmedien ermöglichen, indem neuronale Netzwerke benutzt werden, die speziell unter Nutzung von begrenzten Trainingsdaten dafür trainiert worden sind, Belichtungsdefekte und/oder deren entsprechende Grade in Digitalmedien automatisch zu detektieren.
Umgebung zur Detektion von Belichtungsdefekten in Digitalmedien
1 zeigt ein Blockdiagramm einer exemplarischen Umgebung 100, die zur Nutzung beim Implementieren von Ausführungsformen der vorliegenden Erfindung geeignet ist. Allgemein ist die Umgebung 100 zur Vereinfachung der Belichtungsdefektdetektion in Digitalmedien geeignet und vereinfacht unter anderem die Belichtungsdefektklassifizierung von Digitalmedien unter Nutzung eines neuronalen Netzwerkes / von neuronalen Netzwerken, das/die dafür trainiert ist/sind, Belichtungsdefekte in Digitalmedien zu detektieren und zu klassifizieren.
Die Umgebung 100 beinhaltet ein Netzwerk 120, eine Clientvorrichtung 110, einen Datenspeicher 140 und ein Defektdetektionssystem 130. Bei der in 1 dargestellten Ausführungsform beinhaltet die Clientvorrichtung 110 eine Digitalmediengalerie 115. Allgemein beinhaltet die Digitalmediengalerie 115 eine Mediensammlung. Wie hier beschrieben wird, kann die Digitalmediengalerie 115 bei einigen Ausführungsformen eine belichtungsbasierte Organisation der Sammlung von Medien präsentieren. Die Clientvorrichtung 110 kann eine beliebige Art von Rechenvorrichtung sein, die Medien (beispielsweise über eine belichtungsbasierte Organisation von Medien) sammeln und/oder präsentieren kann. Bei Ausführungsformen kann die Clientvorrichtung 110 beispielsweise eine Rechenvorrichtung wie die Rechenvorrichtung 600, die nachstehend anhand 6 noch beschrieben wird, sein. Bei Ausführungsformen kann die Clientvorrichtung 110 ein PC, ein Laptopcomputer, eine Workstation, eine mobile Rechenvorrichtung, ein PDA, ein zellenbasiertes Telefon oder dergleichen sein. Die Komponenten der Umgebung 100 können miteinander über das Netzwerk 120 kommunizieren, das ohne Beschränkung ein oder mehrere Ortsbereichsnetzwerke (LANs) und/oder Großbereichsnetzwerke (WANs) beinhalten kann. Derartige vernetzte Umgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet gängig.
Allgemein kann in Reaktion auf das Beziehen einer Sammlung von Medien in einer Digitalmediengalerie das Detektieren und Bestimmen von Belichtungsklassifizierungen für jedes Medium unter Nutzung eines Algorithmus vorgenommen werden, der einen Belichtungsdefekttyp vorhersagt und der ein neuronales Netzwerk / neuronale Netzwerke verwendet, das/die unter Nutzung einer begrenzten Menge von etikettierten Daten trainiert ist/sind. Bei Anwendung derartiger Algorithmen der vorliegenden Offenbarung zum Detektieren und Klassifizieren von Belichtungsdefekten in Medien kann eine Sammlung von Medien auf kontextbezogene und intelligente Weise derart klassifiziert werden, dass für einen Nutzer einschlägige Information im Zusammenhang mit der Belichtung der zugrunde liegenden Medien bereitgestellt wird.
Die Digitalmediengalerie 115 kann in eine Anwendung eingebaut oder integriert sein oder kann ein Add-on oder Plug-in für eine Anwendung sein. Die Anwendung kann allgemein eine beliebige Anwendung sein, die die Digitalmedienorganisation vereinfachen kann, und kann eine eigenständige Anwendung, eine mobile Anwendung, eine Webanwendung oder dergleichen sein. Bei einigen Implementierungen umfasst die Anwendung eine Webanwendung, die in einem Webbrowser laufen kann, und kann wenigstens teilweise serverseitig gehostet werden. Zusätzlich oder anstelle dessen kann die Anwendung auch eine eigens vorgesehene bzw. dedizierte Anwendung umfassen. In einigen Fällen kann die Anwendung in das Betriebssystem (beispielsweise als Dienst) integriert sein. Obwohl die allgemeine Diskussion hier derart erfolgt, dass die Digitalmediengalerie 115 einer Anwendung zugeordnet ist, kann die Digitalmediengalerie 115 oder ein Teil hiervon in einigen Fällen zusätzlich oder alternativ (beispielsweise als Dienst) in das Betriebssystem oder (beispielsweise bei einem Remoteserver) in einen Server integriert sein. Bei einigen Beispielen kann die Digitalmediengalerie 115 in einer Cloudrechenumgebung gespeichert sein.
Die Digitalmediengalerie 115 der Clientvorrichtung 110 kann eine Nutzerschnittstelle oder Anwendung beinhalten, die ermöglicht, dass der Nutzer Medien speichert oder vorlegt. Es können eine beliebige geeignete Nutzerschnittstelle und Eingabekomponente benutzt werden, so beispielsweise die anhand 6 beschriebenen I/O-Komponenten 620. Es können verschiedene Mengen und/oder Typen von Medien zur Belichtungsdefektdetektion empfangen werden. Die Digitalmediengalerie 115 kann beispielsweise Bilder, Videos, Animationen, Diashows und dergleichen annehmen. Bei einigen Ausführungsformen kann die Digitalmediengalerie 115 eine Sammlung von Medien zur Belichtungsdefektdetektion empfangen. Allgemein ist die Digitalmediengalerie 115 in Kommunikation mit dem Defektdetektionssystem 130 über ein Netzwerk 120 und kann die Medien oder die Sammlung von Medien von der Clientvorrichtung 110 an das Defektdetektionssystem 130 zur Verarbeitung senden. Obwohl die Sammlung von Medien derart beschrieben ist, dass sie an das Defektdetektionssystem 130 gesendet wird, muss dies nicht der Fall sein, da beliebige oder alle Komponenten des Defektdetektionssystems 110 auch auf der Clientvorrichtung 110, in einem Datenspeicher 140 oder anderswo befindlich sein können. Die Mediensammlung kann des Weiteren in Verknüpfung mit dem Defektdetektionssystem 130 gespeichert sein und über eine Digitalmediengalerieanwendung, die auf einer Clientvorrichtung betrieben wird, zugänglich sein.
Der Datenspeicher 140 kann mehrere Medien und entsprechende Belichtungsdefektklassifizierungen speichern. Beinhalten kann der Datenspeicher 140 bei einigen Beispielen eine Sammlung von Klassifizierungstypen (beispielsweise gute Belichtung, starke Überbelichtung, schwache Überbelichtung, mittlere Überbelichtung, starke Unterbelichtung, schwache Unterbelichtung, mittlere Unterbelichtung und dergleichen) und deren entsprechende Merkmale (beispielsweise Kennwerte, Kennwertbereiche) in Verbindung mit den Klassifizierungstypen. Bei einigen Beispielen kann der Datenspeicher 140 Trainingsdatensätze beinhalten, die dafür trainiert sind, ein oder mehrere neuronale Netzwerke, so beispielsweise unter anderem ein Binärmodell 134 und ein Klassifizierungsmodell 136, des Defektdetektionssystems 130 zu trainieren. Die Trainingsdatensätze können beispielsweise einen etikettierten Datensatz, einen nicht etikettierten Datensatz, einen verrauschten Datensatz, eine neutrainierten Datensatz und dergleichen mehr beinhalten. Jeder Klassifizierungstyp kann entsprechenden Kennwerten und/oder Kennwertbereichen zugeordnet sein. Die Klassifizierung einer starken Unterbelichtung kann beispielsweise einem Belichtungskennwert (beispielsweise einem Schwellenkennwert) von 0 und/oder einem Belichtungskennwertbereich von 0 bis 0,25 zugeordnet sein; die Klassifizierung einer mittleren Unterbelichtung kann einem Belichtungskennwert von 0,25 und/oder einem Belichtungskennwertbereich von 0,25 bis 0,5 zugeordnet sein; die Klassifizierung einer schwachen Unterbelichtung kann einem Belichtungskennwert von 0,5 und/oder einem Belichtungskennwertbereich von 0,45 bis 0,5 zugeordnet sein, und so weiter. Bei einem Beispiel können die Klassifizierungstypen Belichtungskennwerten von 0 bis 1 derart zugeordnet sein, dass ein Kennwert näher an 0 eine starke Unterbelichtung angibt, während ein Kennwert näher an 1 eine starke Überbelichtung angibt.
Das Defektdetektionssystem 130 ist allgemein zum Detektieren und Klassifizieren von Belichtungsdefekten konfiguriert. Auf abstrakter Ebene bezieht das Defektdetektionssystem 130 (beispielsweise durch Empfangen oder Abrufen) allgemein ein Medium oder eine Sammlung von Medien und bestimmt für jedes Medium eine Belichtungsdefektklassifizierung, die den Grad der Belichtung, der in dem Medium vorhanden ist, am besten darstellt. Das Defektdetektionssystem 130 kann ein Bild / Bilder oder ein Frame / Frames (beispielsweise ein Videoframe, ein Animationsframe) von der Digitalmediengalerie 115 der Clientvorrichtung 110 empfangen. Bei einigen Beispielen kann das Defektdetektionssystem 130 das Bild / die Bilder aus dem Datenspeicher 140 empfangen. Bei einigen Beispielen kann das Defektdetektionssystem 130 oder ein Abschnitt hiervon Teil der Digitalmediengalerie 115 sein. Bei anderen Beispielen kann das Defektdetektionssystem 130 auf einem Remoteserver befindlich sein, sodass die Digitalmediengalerie 115 über das Netzwerk 120 mit dem Defektdetektionssystem 130 kommunizieren kann. Bei der in 1 dargestellten Ausführungsform beinhaltet das Defektdetektionssystem 130 einen Bildempfänger 132, ein Binärmodell 134, ein Klassifizierungsmodell 136 und einem Präsentator 138. Obwohl die hier gegebenen Beispiele allgemein Bilder betreffen, dienen sie lediglich exemplarischen Zwecken. Das vorliegende System kann auf ähnliche Weise funktionieren, um Belichtungsdefekte beispielsweise in anderen Formen von Digitalmedien zu detektieren, so beispielsweise unter anderem in Videos, Animationen und/oder dergleichen.
Das Defektdetektionssystem 130 ist allgemein dafür konfiguriert, Bilder auf Grundlage eines detektierten Grades der Belichtung in jedem Bild zu detektieren und zu klassifizieren. Insbesondere kann das Defektdetektionssystem 130 dasjenige, ob ein Bild einen Belichtungsdefekt aufweist, und/oder den Typ (beispielsweise Grad) des Belichtungsdefektes in dem Bild bestimmen. Das System 130 bewertet Bilder unter Nutzung eines neuronalen Netzwerkes / von neuronalen Netzwerken, um den Grad der Belichtung in den Bildern anzugeben. Das Defektdetektionssystem 130 kann zwei neuronale Netzwerke nutzen, um zunächst zu bestimmen, ob ein Bild einen Belichtungsdefekt aufweist, und um in Reaktion auf eine Bestimmung dessen, dass das Bild einen Belichtungsdefekt aufweist, sodann den Grad des Belichtungsdefektes in dem Bild zu bestimmen und die Bilder in Typen von Belichtungsdefekten zu klassifizieren. Der Grad des Belichtungsdefektes kann benutzt werden, um eine Klassifizierung des Bildes zur Präsentation für die Clientvorrichtung 110 zu bestimmen.
Der Bildempfänger 132 kann ein Bild oder eine Sammlung von Bildern („Bild(er)“) beispielsweise von der Digitalmediengalerie 115 der Clientvorrichtung 110 empfangen, abrufen, auf diese zugreifen oder diese beziehen. Entsprechen kann/können das empfangene Bild / die empfangenen Bilder bei einigen Ausführungsformen einem Bild / Bildern, einem Frame / Frames zur Darstellung eines Videos (beispielsweise Momentaufnahmen eines Videos) und/oder Sensordaten zur Darstellung (von Darstellungen) von sensorischen Feldern aus Sensoren (beispielsweise Tiefenkarten oder Punktwolken für LIDAR-Sensoren, einem Wertegraph für Ultraschallsensoren und dergleichen). Bilder können in einer Anzahl von Formaten gegeben sein, so beispielsweise unter anderem als komprimierte Bilder, so beispielsweise im JPEG-Format (Joint Photographic Experts Group JPEG) oder YUV-Format (Luminanz/Chrominanz), komprimierte Bilder als Frames, die aus einem komprimierten Videoformat wie H.264/Advanced Video Coding (AVC) oder H.265/High Efficiency Video Coding (HEVC) stammen, Rohbilder, die beispielsweise von einem RCCB- (Red Clear Blue), einem RCCC- (Red Clear) oder einem anderen Typ von Bildsensor stammen, und/oder in anderen Formaten. Zusätzlich kann/können das Bild / die Bilder in einem Roh- oder Aufnahmeformat (beispielsweise ohne irgendeine Vorverarbeitung) vorliegen, während das Bild / die Bilder bei anderen Beispielen einer Vorverarbeitung (beispielsweise einem Rauschausgleich, einer Mosaikentfernung (demosaicing), einer Skalierung, einer Beschneidung, einer Erweiterung, einem Weißausgleich, einer Tonkurvenanpassung und dergleichen beispielsweise unter Nutzung einer Vorprozessors für Sensordaten (nicht gezeigt)) unterzogen sein kann/können. Die Größe des Bildes / der Bilder kann beispielsweise zu einer vorbestimmten Größe geändert (beispielsweise verkleinert, vergrößert) werden. Bei anderen Beispielen kann/können das Bild / die Bilder erweitert werden, indem die Bilder in verschiedenen Ausmaßen (beispielsweise durch zufällige Auswahl, durch Auswahl auf Grundlage einer stochastischen Analyse) gedreht oder gekippt werden. Bei wieder anderen Beispielen kann/können das Bild / die Bilder eine Zentrumsbeschneidung (center cropping) erfahren. Im Sinne des Vorliegenden kann/können das Bild / die Bilder unbearbeitete Bilder, vorverarbeitete Bilder oder eine Kombination hieraus betreffen. Beinhalten kann/können das Bild / die Bilder ursprüngliche Bilder (beispielsweise solche, wie sie von einem oder mehreren Bildsensoren aufgenommen werden), einem Downsampling unterzogene Bilder, einem Upsampling unterzogene Bilder, beschnittene oder ROI-Bilder (Region of Interest ROI), auf andere Weise erweiterte Bilder und/oder eine Kombination hieraus.
Beim Empfangen oder Beziehen des Bildes / der Bilder kann jedes Bild sodann in das Binärmodell 134 eingespeist werden. Das Bild / die Bilder kann/können in das Binärmodell als unverarbeitetes Bild / unverarbeitete Bilder und/oder als vorverarbeitetes Bild / vorverarbeitete Bilder eingespeist werden. Die Größe des Bildes / der Bilder kann beispielsweise auf eine vorbestimmte Größe geändert (beispielsweise vergrößert, verkleinert) werden. Bei anderen Beispielen kann/können das Bild / die Bilder erweiterte Bilder sein, die durch in verschiedenem Ausmaß erfolgendes Drehen oder Kippen der Bilder (beispielsweise durch willkürliche Auswahl, durch Auswahl auf Grundlage einer stochastischen Analyse) generiert werden. Bei wieder anderen Beispielen kann/können das Bild / die Bilder Zentralbeschneidungen (center crops) von ursprünglichen Bildern sein, deren Größe vorbestimmt sein kann. Bei einem anderen Beispiel kann/können das Bild / die Bilder Ursprungsbilder sein, deren Größe verkleinert worden ist, woraufhin eine Zentralbeschneidung des der Größe nach geänderten Bildes als das Bild / die Bilder genommen werden kann. Die Bilder können sodann auf die Größe von Trainingsbildern vorverarbeitet werden, die dafür benutzt werden, das Binärmodell 134 und/oder das Klassifizierungsmodell 136 zu trainieren. Wird das Binärmodell 144 beispielsweise unter Nutzung von Bildern trainiert, deren Größe auf eine vorbestimmte Größe eingestellt oder geändert wurde (beispielsweise 224 mal 224 in Länge mal Breite), so kann/können das Bild / die Bilder auch Ursprungsbilder sein, die auf dieselbe oder eine ähnliche Größe wie bei den Trainingsbildern geändert worden sind. Man beachte, dass die hier erläuterten Vorverarbeitungstechniken nur exemplarischen Zwecken dienen und auch andere Vorverarbeitungstechniken zum Generieren des vorverarbeiteten Bildes / der vorverarbeiteten Bilder benutzt werden können. Bei einigen Beispielen kann jedes Pixel eines Bildes / von Bildern entsprechend der Menge der Helligkeit, des Lichtes und/oder des Kontrastes, die an dem Pixel vorhanden sind, einem Wert / Werten zugeordnet werden.
Das Binärmodell 134 ist allgemein dafür konfiguriert zu detektieren, ob das Bild / die Bilder einen Belichtungsdefekt beinhaltet/beinhalten oder aufweist/aufweisen. Das Binärmodell 134 kann ein maschinell lernendes Modell beinhalten, das dafür trainiert ist, Bilder auf Grundlage einer Wahrscheinlichkeit oder Zuverlässigkeit dafür, dass ein Bild einen Belichtungsdefekt beinhaltet, zu bewerten. Das Binärmodell 134 kann Bilder sodann auf Grundlage der Zuverlässigkeitskennwerte, die von dem maschinell lernenden Modell ausgegeben werden, klassifizieren. Bei einigen Beispielen kann das maschinell lernende Modell des Binärmodells 134 dafür trainiert werden, Bilder als gut belichtete und defektbehaftete Bilder als Ausgabe zu klassifizieren. Jedes Bild / alle Bilder kann/können unter Nutzung des Binärmodells 136 auf Grundlage eines entsprechenden Zuverlässigkeitskennwertes, der dem Bild zugeordnet ist, als gut belichtetes oder defektbehaftetes Bild klassifiziert werden. Eine Klassifizierung als gut belichtetes Bild kann angeben, dass das Bild eine gute oder angemessene Belichtung und keinen Belichtungsdefekt beinhaltet. Eine Klassifizierung als defektbehaftetes Bildes kann angeben, dass das entsprechende Bild eine Überbelichtung oder einen Überbelichtungsbilddefekt aufweist, Insbesondere kann ein Bild als defektbehaftetes Bild klassifiziert werden, wenn mehr oder weniger Licht als nötig auf den das Digitalbild aufnehmenden Sensor fällt, was beispielsweise dann der Fall ist, wenn das aufgenommene Objekt zu hell ist. Bei einigen Beispielen kann das Binärmodell 136 dafür trainiert werden, helle (beispielsweise weiße) Zonen und dunkle (beispielsweise schwarze) Zonen in den eingegebenen Bildern zu detektieren, um zu bestimmen, ob ein Bild einen Belichtungsdefekt (beispielsweise eine Unterbelichtung, eine Überbelichtung) aufweist. Eine pixelweise erfolgende Analyse kann von dem Binärmodell 134 durchgeführt werden, um die Menge der Belichtung (beispielsweise des Lichtes, der Helligkeit, des Kontrastes) in dem Bild zu detektieren.
Zum Klassifizieren eines Bildes als gut belichtetes oder defektbehaftetes Bild kann von dem Binärmodell 134 ein Zuverlässigkeitskennwert für das Eingabebild / die Eingabebilder bestimmt werden. Der Zuverlässigkeitskennwert kann eine Wahrscheinlichkeit dafür angeben, dass das entsprechende Bild einen Belichtungsdefekt (beispielsweise eine Unterbelichtung, eine Überbelichtung) beinhaltet. Der Zuverlässigkeitskennwert kann beispielsweise in einem Bereich von 0 bis 1 liegen, wobei eine Zunahme des Kennwertes einer zunehmenden Wahrscheinlichkeit dafür, dass das Bild einen Belichtungsdefekt beinhaltet, entspricht. Bei derartigen Beispielen kann ein Zuverlässigkeitskennwert näher an 0 angeben, dass das Bild gut belichtet ist oder eine gute Belichtung beinhaltet, während ein Zuverlässigkeitskennwert näher an 1 angeben kann, dass das Bild defektbehaftet ist, oder umgekehrt.
Das Binärmodell 134 kann eine vorbestimmte Zuverlässigkeitsschwelle nutzen, um ein Bild als gut belichtetes Bild oder defektbehaftetes Bild zu klassifizieren. Der Zuverlässigkeitskennwert kann mit der Zuverlässigkeit dahingehend, dass das Bild / die Bilder defektbehaftet ist/sind, derart korreliert sein, dass gilt: Je höher der Zuverlässigkeitskennwert für ein Bild ist, desto wahrscheinlicher ist es, dass das Bild defektbehaftet ist, oder umgekehrt. Der Zuverlässigkeitskennwert für ein Bild kann beispielsweise zwischen 0 und 1 liegen, wobei bestimmt wird, dass Bilder mit Zuverlässigkeitskennwerten unter der vorbestimmten Zuverlässigkeitsschwelle von 0,5 gut belichtete Bilder sind, während Bilder mit Zuverlässigkeitskennwerten bei oder über der vorbestimmten Zuverlässigkeitsschwelle von 0,5 als defektbehaftete Bilder betrachtet werden, oder umgekehrt.
Das Binärmodell 134 kann Zuverlässigkeitskennwertschwellen und/oder Zuverlässigkeitskennwertbereiche nutzen, um eine Klassifizierung für das Bild / die Bilder auf Grundlage eines entsprechenden Zuverlässigkeitskennwertes, der von dem maschinell lernenden Modell generiert wird, zu bestimmen. Das Binärmodell 134 kann das Bild / die Bilder als Eingabe in das trainierte maschinell lernende Modell einspeisen, das einen Zuverlässigkeitskennwert und/oder eine entsprechende Klassifizierung für jedes Bild / alle Bilder auf Grundlage der pixelweise erfolgenden Analyse des Bildes / der Bilder ausgibt. Beruhen kann der Zuverlässigkeitskennwert auf einer Merkmalsanalyse des Bildes, darunter einer pixelweise erfolgenden Analyse, die die Menge des Lichtes, der Helligkeit und/oder des Kontrastes, die jedem Pixel des Bildes zugeordnet sind, detektiert. Ein Bild, das einen Satz von Pixeln beinhaltet, die dunklen Zonen oder hellen Zonen zugeordnet sind, wie sie durch die Pixel in den Zonen angegeben werden, kann einem höheren Zuverlässigkeitskennwert als ein Bild mit einer geeigneten Menge des Lichtes oder der Helligkeit in allen Zonen zugeordnet werden, oder umgekehrt. Der Zuverlässigkeitskennwert kann von dem maschinell lernenden Modell oder einer separaten Komponente des Binärmodells sodann dafür benutzt werden, das Bild als gut belichtetes Bild oder defektbehaftetes Bild, wie oben beschrieben worden ist, zu klassifizieren.
Bei einer alternativen Ausführungsform kann ein merkmalsbasierter Algorithmus als Binärmodell 134 benutzt werden, um ein Bild / Bilder zu klassifizieren und/oder entsprechende Zuverlässigkeitskennwerte für das Bild / die Bilder zu generieren. Ein merkmalsbasierter Algorithmus bezeichnet einen Algorithmus, der dafür trainiert ist, Belichtungsmerkmale in Bildern zu detektieren. Die Belichtungsmerkmale können Licht, Helligkeit und/oder Kontrast in Zonen der Bilder beinhalten, die sodann Zuverlässigkeitskennwerten zugeordnet werden können, die eine Wahrscheinlichkeit dafür angeben, dass ein Bild einen Belichtungsdefekt beinhaltet. Die Zuverlässigkeitskennwerte können sodann von dem merkmalsbasierten Algorithmus oder einer separaten Komponente benutzt werden, um Bilder auf Grundlage einer Zuverlässigkeitsschwelle und/oder auf Grundlage von Bereichen, wie vorstehend beschrieben worden ist, als gut belichtete und defektbehaftete Bilder zu klassifizieren.
Das Binärmodell 134 kann unter Nutzung eines Trainingsdatensatzes und/oder eines verrauschten Datensatzes entsprechend der Beschreibung im Zusammenhang mit 3 trainiert werden. Das Binärmodell 134 kann dafür trainiert werden zu detektieren oder vorherzusagen, ob ein Bild / Bilder ein gut belichtetes Bild oder ein defektbehaftetes Bild ist/sind. Bei einigen Beispielen kann das Binärmodell 134 die Klassifizierung und/oder Zuverlässigkeitskennwerte, die dem Bild / den Bildern entsprechen, für den Präsentator 138 zur Präsentation gegenüber der Clientvorrichtung 110 bereitstellen. Bei anderen Beispielen kann das Binärmodell 134 des Weiteren dafür konfiguriert sein, das Bild / die Bilder entsprechend den vorhergesagten defektbehafteten Bildern an das Klassifizierungsmodell 136 zu kommunizieren oder zu senden.
Obwohl hier Bilder anhand der Nutzung von neuronalen Netzwerken und insbesondere von faltungstechnischen neuronalen Netzwerken (CNNs) oder neuronalen Deep-Netzwerken (DNNs), so beispielsweise anhand eines maschinell lernenden Modells / anhand maschinell lernender Modelle (beispielsweise anhand des Binärmodells 134, des Klassifizierungsmodells 136), beschrieben werden, ist dies nicht beschränkend gemeint. Beispielsweise kann/können ohne Beschränkung das maschinell lernende Modell / die maschinell lernenden Modelle der vorliegenden Offenbarung einen beliebigen Typ eines maschinell lernenden Modells / von maschinell lernenden Modellen beinhalten, so beispielsweise ein maschinell lernendes Modell / maschinell lernende Modelle unter Nutzung einer linearen Regression, einer logistischen Regression, von Entscheidungsbäumen, Supportvector-Maschinen (SVN), von Naive Bayes, eines k-nächsten Nachbarn (Knn), einer K-Mittelclusterung, von Random Forest, eines die Dimensionalität verringernden Algorithmus, eines Gradienten-Boosting-Algorithmus, von neuronalen Netzwerken (beispielsweise, Autoencoder, faltungstechnisch, rekurrent, perzeptronartig, Long/Short Term Memory (LSTM), Hopfield, Boltzmann, Deep Belief, rückfaltend (deconvolutional), generativ-adversativ, Liquid-State-Machine und dergleichen), Computervisionsalgorithmen und/oder andere Typen von maschinell lernenden Modellen.
Das Klassifizierungsmodell 136 ist allgemein dafür konfiguriert, defektbehaftete Bilder auf Grundlage des Grades der Belichtung in dem Bild / den Bildern zu klassifizieren. Das Klassifizierungsmodell 136 kann ein maschinell lernendes Modell beinhalten, das dafür trainiert ist, Bilder auf Grundlage des Grades des Belichtungsdefektes gemäß Detektion in dem Bild / den Bildern unter Nutzung eines Regressionsalgorithmus zu bewerten. Das Klassifizierungsmodell 136 kann Bilder sodann auf Grundlage der Grade der Belichtungsdefekte in dem Bild / den Bildern klassifizieren. Bei einigen Beispielen kann das maschinell lernende Modell des Klassifizierungsmodells 136 für das Klassifizieren von Bildern trainiert werden. Jedes Bild / alle Bilder können unter Nutzung des Klassifizierungsmodells 136 als Belichtungsdefektklassifizierung klassifiziert werden, so beispielsweise unter anderem als starke Unterbelichtung, mittlere Unterbelichtung, schwache Unterbelichtung, schwache Überbelichtung, mittlere Überbelichtung, starke Überbelichtung und/oder dergleichen. Bei einigen Beispielen kann/können jedes Bild / alle Bilder unter Nutzung des Klassifizierungsmodells 136 als Unterbelichtungs- oder Überbelichtungsklassifizierung klassifiziert werden. Im Allgemeinen bezeichnet die Belichtungsdefektklassifizierung den Typ oder die Klassifizierung einer Belichtung auf Grundlage des Ausmaßes oder Grades der Belichtung.
Zur Klassifizierung eines Bildes mit Blick auf einen Belichtungsdefekt kann von dem Klassifizierungsmodell 136 ein Belichtungskennwert auch für das defektbehaftete Bild / die defektbehafteten Bilder bestimmt werden. Der Belichtungskennwert kann den Grad der Belichtung in dem entsprechenden Bild angeben. Der Belichtungskennwert kann sowohl einen Überbelichtungs- wie auch einen Unterbelichtungsdefekt in einem Bild angeben. Der Belichtungskennwert kann beispielsweise von 0 bis 1 reichen, wobei eine Zunahme des Kennwertes einem zunehmenden Grad der Belichtung entspricht. Bei derartigen Beispielen kann ein Belichtungskennwert näher an 0 angeben, dass das Bild stark unterbelichtet ist, während ein Belichtungskennwert näher an 1 angeben kann, dass das Bild stark überbelichtet ist, oder umgekehrt. Bei einigen Beispielen kann ein Bild als unterbelichtetes Bild klassifiziert werden, wenn sein entsprechender Belichtungskennwert unter 0,5 ist, und kann als überbelichtetes Bild klassifiziert werden, wenn sein entsprechender Belichtungskennwert über 0,5 ist, oder umgekehrt.
Das Klassifizierungsmodell 136 kann Belichtungskennwertschwellen und/oder Belichtungskennwertbereiche nutzen, um die Belichtungsdefektklassifizierung für das Bild / die Bilder auf Grundlage des entsprechenden Belichtungskennwertes, der von dem maschinell lernenden Modell generiert wird, zu bestimmen. Das Klassifizierungsmodell 136 kann das defektbehaftete Bild / die defektbehafteten Bilder in das trainierte maschinell lernende Modell einspeisen, das einen Belichtungskennwert und/oder eine entsprechende Belichtungsdefektklassifizierung für das defektbehaftete Bild / alle defektbehafteten Bilder ausgibt. Der Belichtungskennwert kann mit dem Grad der Belichtung des Bildes derart korreliert sein, dass gilt: Je höher der Belichtungskennwert für ein Bild ist, desto mehr Belichtung ist in dem Bild beinhaltet. Der Belichtungskennwert kann auf einer Merkmalsanalyse des Bildes, darunter auf einer pixelweise erfolgenden Analyse, beruhen, die die Menge des Lichtes, der Helligkeit und/oder des Kontrastes, die jedem Pixel des Bildes zugeordnet sind, detektiert. Ein Bild, das einen Satz von Pixeln beinhaltet, der einer hellen oder weißen Zone / hellen oder weißen Zonen zugeordnet ist, wie durch die Pixel in den Zonen angegeben ist, kann einem höheren Belichtungskennwert als ein Bild mit einer dunklen oder schwarzen Zone / dunklen oder schwarzen Zonen zugeordnet werden, oder umgekehrt. Der Belichtungskennwert für ein Bild kann beispielsweise auf einer Skala zwischen 0 und 1 sein, wobei Bilder mit einem Belichtungskennwert unter 0,25 derart klassifiziert werden, dass sie eine starke Unterbelichtung aufweisen, Bilder mit einer Belichtung bzw. einem Belichtungskennwert von 2,5 bzw. 0,25 bis 0,4 derart klassifiziert werden, dass sie eine mittlere Unterbelichtung aufweisen, Bilder mit einem Belichtungskennwert von 0,4 bis 0,5 derart klassifiziert werden, dass sie eine schwache Unterbelichtung aufweisen, Bilder mit einem Belichtungskennwert von 0,5 bis 0,6 derart klassifiziert werden, dass sie eine schwache Überbelichtung aufweisen, Bilder mit einem Belichtungskennwert von 0,6 bis 0,75 derart klassifiziert werden, dass sie eine mittlere Überbelichtung aufweisen, und Bilder mit einem Belichtungskennwert über 0,75 derart klassifiziert werden, dass sie eine starke Überbelichtung aufweisen.
Bei einigen nicht beschränkenden Beispielen können separate maschinell lernende Modelle dafür trainiert werden, Bilder mit Blick auf Unterbelichtungs- und Überbelichtungsdefekte zu bewerten. Bei derartigen Beispielen kann ein maschinell lernendes Modell dafür trainiert werden, die defektbehafteten Bilder bei einer Unterbelichtung zwischen 0 und 1 zu bewerten, wobei ein Belichtungskennwert von 0 eine starke Unterbelichtung und ein Belichtungskennwert von 1 eine schwache Unterbelichtung angibt, oder umgekehrt. Auf ähnliche Weise kann ein weiteres maschinell lernendes Modell dafür trainiert werden, die defektbehafteten Bilder bei Unterbelichtung zwischen 0 und 1 zu bewerten, wobei ein Belichtungskennwert von 0 eine starke Überbelichtung und ein Belichtungskennwert von 1 eine schwache Überbelichtung angibt, oder umgekehrt. Bei einigen weiteren Beispielen kann ein einziges maschinell lernendes Modell dafür trainiert werden, Bilder mit Blick auf Unterbelichtung und Überbelichtung verschieden zu bewerten. Man beachte, dass die vorgenannten Bereiche des Belichtungskennwertes für die Belichtungsdefektklassifizierungen zu rein exemplarischen Zwecken angegeben sind und auch andere Bereiche und Schwellen auf ähnliche Weise zum Klassifizieren von Bildern in Belichtungsdefektklassifizierungen benutzt werden können.
Es kann ein maschinell lernendes Modell oder ein merkmalsbasierter Algorithmus als Klassifizierungsmodell 136 benutzt werden, um ein Bild / Bilder als Belichtungsdefektklassifizierungen zu klassifizieren und/oder entsprechende Belichtungskennwerte für das Bild / die Bilder zu generieren. Bei einigen Beispielen können das maschinell lernende Modell oder der merkmalsbasierte Algorithmus die Belichtungskennwerte für das Bild / die Bilder ausgeben, wobei eine weitere Komponente des Defektdetektionssystems 130 die Belichtungskennwerte dafür nutzen kann, die entsprechenden Klassifizierungen für das Bild / die Bilder auf Grundlage der Belichtungskennwerte zu generieren.
Das Klassifizierungsmodell 136 kann unter Nutzung eines vergleichsweise kleinen, etikettierten Trainingsdatensatzes entsprechend der anhand 2 gegebenen Beschreibung trainiert werden. Der Trainingsdatensatz, der zum Trainieren des Klassifizierungsmodells 136 benutzt wird, kann ein Satz von Bildern sein, die mit entsprechenden Belichtungskennwerten und/oder Belichtungsdefektklassifizierungen etikettiert sind. Das Klassifizierungsmodell 136 kann dafür trainiert werden, den Typ von Belichtungsdefekt in einem Bild / in Bildern zu detektieren oder vorherzusagen.
Bei einigen Beispielen kann das Klassifizierungsmodell 136 die Belichtungsdefektklassifizierung und/oder Belichtungskennwerte entsprechend dem Bild / den Bildern für den Präsentator 138 zur Präsentation gegenüber der Clientvorrichtung 110 bereitstellen. Bei einigen Beispielen kann das Klassifizierungsmodell 136 die Belichtungskennwerte für den Präsentator 138 bereitstellen, woraufhin der Präsentator 138 die Bilder auf Grundlage der Klassifizierungskennwerte als Belichtungsdefektklassifizierungen klassifiziert. Der Präsentator 138 kann die Belichtungsdefektklassifizierungen und/oder die Belichtungskennwerte nutzen, um Bilder sodann auf eine Weise, wie sie nachstehend noch beschrieben wird, zu präsentieren. Bei einigen Beispielen können das Binärmodell 134 und das Klassifizierungsmodell 136 zu einem einzigen Modell oder neuronalen Netzwerk kombiniert werden, um defektbehaftete Bilder zu detektieren und sie als gut belichtete Bilder und Belichtungsdefektklassifizierungen zu klassifizieren. Bei einigen Beispielen kann das einzige Modell dafür trainiert werden, Bilder mit 0 bis 1 zu bewerten, wobei ein Belichtungskennwert von 0 angibt, dass das Bild unterbelichtet (beispielsweise stark unterbelichtet) ist, ein Belichtungskennwert von 0,5 angibt, dass das Bild ein gut belichtetes Bild ist und ein Belichtungskennwert von 1 angibt, dass das Bild ein überbelichtetes Bild (beispielsweise mit starker Überbelichtung) ist, oder umgekehrt. Man beachte, dass andere Bewertungskriterien zum Bewerten der Bilder ebenfalls benutzt werden können. Das Binärmodell 134, das Klassifizierungsmodell 136 und/oder das kombinierte einzelige Modell können in dem Datenspeicher 140 gespeichert sein, und es kann hierauf zugegriffen werden, wenn Bilder zur Klassifizierung empfangen werden.
Der Präsentator 138 ist allgemein dafür konfiguriert, die Belichtungsdefektklassifizierung und/oder die Belichtungskennwerte von dem Klassifizierungsmodell 138 zu empfangen oder zu beziehen, um eine Präsentation gegenüber einem Nutzer der Clientvorrichtung 110 zu veranlassen. Das Bild / die Bilder kann/können dem Nutzer zusammen mit der entsprechenden Belichtungsdefektklassifizierung über eine Nutzerschnittstelle der Clientvorrichtung 110 präsentiert werden. Bei einigen Beispielen kann die Belichtungsdefektklassifizierung von dem Präsentator 138 benutzt werden, um verschiedene Funktionen durchzuführen, so beispielsweise das Organisieren des Bildes / der Bilder in der Digitalmediengalerie 110 nach dem Grad der Belichtung oder der Belichtungsdefektklassifizierung. In diesem Zusammenhang kann/können dem Nutzer der Clientvorrichtung 110 das Bild / die Bilder in Verbindung mit der entsprechenden Belichtungsdefektklassifizierung und/oder dem Belichtungsdefektkennwert präsentiert werden. Bei wieder anderen Beispielen kann der Präsentator 138 dafür konfiguriert sein, defektbehaftete Bilder zu löschen und nur gute Bilder in der Digitalmediengalerie 115 zu präsentieren. In einem derartigen Fall kann der Präsentator 115 Klassifizierungen für das Bild / die Bilder und/oder den entsprechenden Zuverlässigkeitskennwert / die entsprechenden Zuverlässigkeitskennwerte von dem Binärmodell 134 empfangen, woraufhin das defektbehaftete Bild / die defektbehafteten Bilder auf Grundlage des Zuverlässigkeitskennwertes / der Zuverlässigkeitskennwerte oder der Klassifizierungen gelöscht werden kann/können. Es sollte einsichtig sein, das dem Nutzer der Clientvorrichtung 110 das Bild / die Bilder in Verbindung mit einem oder mehreren von dem entsprechenden Zuverlässigkeitskennwert, der Klassifizierung, dem Belichtungsdefektkennwert und/oder der Belichtungsdefektklassifizierung präsentiert werden kann/können.
Bei einigen anderen Beispielen kann/können das defektbehaftete Bild / die defektbehafteten Bilder auf Grundlage der entsprechenden Belichtungsdefektklassifizierung markiert werden, um für den Nutzer anzugeben, dass das Bild defektbehaftet ist und/oder die entsprechende Belichtungsdefektklassifizierung beinhaltet. Bei wieder einem anderen Beispiel kann der Präsentator 138 dafür konfiguriert sein, die Belichtung des Bildes / der Bildern wenigstens teilweise auf Grundlage des entsprechenden Belichtungskennwertes und/oder des Grades der Belichtung automatisch zu ändern oder festzulegen. Des Weiteren kann der Präsentator 138 dafür konfiguriert sein, über die Nutzerschnittstelle der Clientvorrichtung 110 für den Nutzer auswählbare Optionen bereitzustellen, so beispielsweise zum Entfernen/Löschen eines oder mehrerer von dem defektbehafteten Bild / den defektbehafteten Bildern, Festlegen der Belichtung in dem einen oder den mehreren von dem defektbehafteten Bild / den defektbehafteten Bildern und/oder dergleichen. Bei einigen anderen Beispielen kann der Präsentator 138 dafür konfiguriert sein, dem Nutzer eine robuste grafische Darstellung der Anzahl des Bildes / der Bilder, von dem/denen detektiert worden ist, dass es/sie Belichtungsdefekte beinhaltet/beinhalten, in einem Satz von Bildern zu präsentieren. Es kann beispielsweise ein Verhältnis von gut belichteten und defektbehafteten Frames oder Bildern präsentiert werden. Es können auch Verhältnisse von gut belichteten und anderen Klassifizierungen präsentiert werden. Auf diese Weise kann für den Nutzer Information im Zusammenhang mit Belichtungsdefekten in dem Bild / den Bildern auf effiziente, genaue und nutzerfreundliche Weise präsentiert werden.
2 zeigt ein exemplarisches Datenflussdiagramm zur Darstellung eines exemplarischen Prozesses 200 zur Belichtungsdefektklassifizierung von Bildern unter Nutzung eines Binärmodells 210 und eines Klassifizierungsmodells 230 entsprechend Ausführungsformen der vorliegenden Erfindung. Das Binärmodell 210, so beispielsweise das Binärmodell 134 von 1, kann dafür trainiert werden, Eingabebilder zu empfangen und Vorhersagen, die die Bilder als gut belichtete Bilder 222 oder defektbehaftete Bilder 224 klassifizieren, auszugeben. Das Binärmodell 210 kann ein neuronales Netzwerk (beispielsweise DNN, CNN) sein, das mehrere faltungstechnische Schichten und vollständig verbundene (fully connected) Schichten beinhaltet. Bei einigen Beispielen kann das Binärmodell 210 drei Teile beinhalten, darunter einem residualen neuronalen Netzwerk zu eigene Schichten 212, Custom-Schichten 214 und vollständig verbundene Schichten 216. Die einem residualen neuronalen Netzwerk zu eigenen Schichten 212 können Faltungsschichten eines beliebigen bekannten residualen neuronalen Netzwerkes sein und können mehrere Schichten (beispielsweise 34, 50, 60 und so weiter) beinhalten. Die Custom-Schichten 214 können eine oder mehrere Schichten beinhalten, um die einem residualen neuronalen Netzwerk zu eigenen Schichten 212 mit den vollständig verbundenen Schichten 216 zu verbinden. Es können jedoch beliebige bekannte Custom-Schichten benutzt werden.
Die vollständig faltungstechnischen bzw. verbundenen Schichten 216 des Binärmodells 210 können dafür trainiert werden, Bilder als gut belichtete Bilder 222 oder defektbehaftete Bilder 224 zu klassifizieren. Zu diesem Zweck kann das Binärmodell 210 dafür trainiert werden, einen Zuverlässigkeitskennwert für jedes Bild vorherzusagen und das Bild auf Grundlage dessen, dass der entsprechende Zuverlässigkeitskennwert unter oder über einer vorbestimmten Zuverlässigkeitsschwelle 220 ist, zu klassifizieren. Bei einigen Beispielen kann die vorbestimmte Zuverlässigkeitsschwelle 220 gleich 0,5 sein, und das Binärnetzwerk 210 kann dafür trainiert werden, für jedes Bild einen Zuverlässigkeitskennwert zwischen 0 und 1 vorherzusagen. Entsprechend kann ein Bild mit einem Zuverlässigkeitskennwert unter der vorbestimmten Zuverlässigkeitsschwelle sodann als gut belichtetes Bild klassifiziert werden, während ein Bild mit einem Zuverlässigkeitskennwert bei oder über der vorbestimmten Zuverlässigkeitsschwelle als defektbehaftetes Bild klassifiziert werden kann.
Das Bild / die Bilder, das/die von dem Binärmodell 210 als defektbehaftete Bilder 224 klassifiziert worden ist/sind, kann/können sodann in das Klassifizierungsmodell 230, so beispielsweise unter anderem in das Klassifizierungsmodell 136 von 1, eingespeist werden, um einen Belichtungskennwert 240 für das Bild / die Bilder zu bestimmen und/oder die defektbehafteten Bilder in Belichtungsdefektklassifizierungen zu klassifizieren. Das Klassifizierungsmodell 230 kann dafür trainiert werden, einen Belichtungskennwert 240 für jedes defektbehaftete Bild auf Grundlage von eingegebenen Defektbildern 224 auszugeben. Das Klassifizierungsmodell 230 kann ein neuronales Netzwerk (beispielsweise DNN, CNN) sein, das mehrere faltungstechnische Schichten und vollständig verbundene Schichten beinhaltet. Bei einigen Beispielen kann das Klassifizierungsmodell 230 drei Teile beinhalten, darunter die einem residualen neuronalen Netzwerk zu eigenen Schichten 212, die Custom-Schichten 214 und die vollständig verbundenen Schichten 236. Das Klassifizierungsmodell 230 kann dieselbe einem residualen neuronalen Netzwerk zu eigene Schicht 212 und dieselben Custom-Schichten 214 wie das Binärmodell 210 beinhalten. Gleichwohl können die vollständig faltungstechnischen bzw. verbundenen Schichten 236 des Klassifizierungsmodells 230 dafür trainiert werden, einen Grad der Belichtung in defektbehafteten Bildern zu detektieren oder zu bestimmen.
Das Klassifizierungsmodell 230 kann dafür trainiert werden, für jedes Bild einen Belichtungskennwert 240, der einen Grad der Belichtung des Bildes angibt, vorherzusagen. Bei einigen Beispielen können die vollständig verbundenen Schichten 236 des Klassifizierungsmodells 230 mit defektbehafteten Bildern trainiert werden, die in fünf Kategorien zwischen 0 und 1 (beispielsweise Kategorie 242, Kategorie 244, Kategorie 246, Kategorie 248 und Kategorie 250) unter Nutzung eines Regressionsalgorithmus etikettiert sind. Auf diese Weise kann das Klassifizierungsmodell 230 dafür trainiert werden, eingegebene defektbehaftete Bilder in fünf Kategorien zu klassifizieren, wobei jede Kategorie oder jeder Kennwert einen Grad der Belichtung von starker Unterbelichtung bis zu starker Überbelichtung angibt, wenn der Kennwert von 0 auf 1 zunimmt. Die defektbehafteten Bilder 224 können sodann auf Grundlage der Nähe des entsprechenden Belichtungskennwertes zu einer der fünf Kategorien klassifiziert werden. Bei einigen Beispielen kann das Klassifizierungsmodell 230 zudem dafür trainiert werden, die Bilder als Belichtungsdefektklassifizierungen zu klassifizieren. Bei anderen Beispielen können die Belichtungskennwerte, die von dem Klassifizierungsmodell 230 ausgegeben werden, benutzt werden, um die Bilder sodann separat von dem Modell zu klassifizieren. Die Kategorie 242 kann eine starke Unterbelichtung angeben, die Kategorie 244 kann eine mittlere Unterbelichtung angeben, die Kategorie 246 kann eine schwache Unterbelichtung oder eine schwache Überbelichtung angeben, die Kategorie 248 kann eine mittlere Überbelichtung angeben, und die Kategorie 250 kann eine starke Überbelichtung angeben. Ein defektbehaftetes Bild der defektbehafteten Bilder 234 mit einem Belichtungskennwert von 0,1 kann beispielsweise dahingehend klassifiziert werden, dass es eine starke Unterbelichtung aufweist, was von der Nähe des Belichtungskennwertes 0,1 zu der Kategorie 242 (das heißt der nächstliegenden Kategorie) herrührt. Auf ähnliche Weise kann ein defektbehaftetes Bild mit einem Belichtungskennwert von 0,8 dahingehend klassifiziert werden, dass es eine mittlere Überbelichtung aufweist, was von der Nähe zu der Kategorie 248 herrührt. Als solches können Bilder mit Belichtungsdefekten auf genaue und effiziente Weise dadurch automatisch detektiert und klassifiziert werden, dass trainierte neuronale Netzwerke (beispielsweise ein Binärmodell, ein Klassifizierungsmodell) eingesetzt werden.
Bei einigen Beispielen können das Binärmodell 210 und das Klassifizierungsmodell 230 jeweils mit verschiedenen Lernraten für verschiedene Schichten des Netzwerkes trainiert werden. Bei einigen Beispielen nimmt die Lernrate von den oberen Schichten (beispielsweise den einem residualen neuronalen Netzwerk zu eigenen Schichten 212) zu den unteren Schichten (beispielsweise den vollständig verbundenen Schichten 216, den vollständig verbundenen Schichten 236, den Schichten, die näher an der Fehlerfunktion sind) zu. Die ersten zwanzig Schichten des Modells können beispielsweise mit einer niedrigeren Lernrate als die nächsten zwanzig Schichten trainiert werden, die wiederum bei einer niedrigeren Lernrate als die endgültigen Schichten des Netzwerkes trainiert werden können.
3 zeigt einen exemplarischen Prozess 300 zum Trainieren eines Binärmodells 304 entsprechend Ausführungsformen der vorliegenden Erfindung. Das Binärmodell 304 kann ein neuronales Netzwerk sein, das unter Nutzung eines schwachen überwachten Lernalgorithmus trainiert wird. Das Binärmodell 304 kann ein neuronales Netzwerk, so beispielsweise unter anderem das Binärmodell 134 von 1, sein. Ein sauberer Datensatz 302 kann als Ground-Truth-Daten benutzt werden, um das Binärmodell 304 anfänglich zu trainieren. Der saubere Datensatz 302 kann einen vergleichsweise kleinen Datensatz von Bildern beinhalten, wobei jedes Bild als gut belichtetes Bild (beispielsweise als gutes Bild) oder als defektbehaftetes Bild (beispielsweise als schlechtes Bild) etikettiert wird. Der saubere Datensatz 302 kann im Vergleich kleiner sein (beinhaltet beispielsweise eine geringere Anzahl von Bildern) als ein verrauschter Datensatz (beispielsweise ein nicht etikettierter Datensatz von Bildern), so beispielsweise der verrauschte Datensatz 306, der verwendet wird, um das neuronale Netzwerk vollständig zu trainieren. Ein Verteilungsverhältnis der gut belichteten Bilder zu den defektbehafteten Bildern in dem sauberen Datensatz 302 kann bezogen oder bestimmt werden. Ein neuer Datensatz 306 kann sodann in das anfänglich trainierte Binärmodell 304 eingespeist werden, um die Bilder in dem verrauschten Datensatz 306 als gut belichtete Bilder und defektbehaftete Bilder zu klassifizieren. Der verrauschte Datensatz 306 kann einen größeren Datensatz von nicht etikettierten Bildern beinhalten. Das anfänglich trainierte Binärmodell 304 kann einen Zuverlässigkeitskennwert (beispielsweise einen Inferenzkennwert) für jedes Bild in dem verrauschten Datensatz 306 vorhersagen. Die Inferenzkennwerte des verrauschten Datensatzes 304 können sodann genutzt werden, um einen Schwellenkennwert zum Klassifizieren eines jeden Bildes in dem verrauschten Datensatz 304 als gut belichtetes oder defektbehaftetes Bild zu bestimmen. Der Schwellenkennwert kann auf Grundlage des Verteilungsverhältnisses in dem sauberen Datensatz 302 derart bestimmt werden, dass der Schwellenkennwert dasselbe Verteilungsverhältnis der gut belichteten und defektbehafteten Bilder in dem verrauschten Datensatz 306 wie in dem sauberen Datensatz 302 aufweist. In dem vertauschten Datensatz 306 können Bilder unter dem Schwellenkennwert als gut belichtete Bilder klassifiziert werden, während Bilder über dem Schwellenkennwert als defektbehaftete Bilder klassifiziert werden können. Die klassifizierten Bilder in dem verrauschten Datensatz 306 können als endgültiger Datensatz 308 bestimmt werden, der als Ground-Truth-Daten zum Neutrainieren des Binärmodells 304 an Bildern mit Belichtungsdefekten benutzt wird.
Bei einigen Beispielen können ein oder mehrere falsch klassifizierte Bilder aus dem verrauschten Datensatz 306 entfernt werden, um den endgültigen Datensatz 308 zu generieren. Die falsch klassifizierten Bilder können Bilder in dem verrauschten Datensatz 304 sein, die von dem anfänglich trainierten Binärmodell 304 fälschlicherweise als gut belichtete Bilder klassifiziert worden sind. Der endgültige Datensatz 308 mit den Klassifizierungen kann sodann benutzt werden, um das Binärmodell 304 neu zu trainieren. Das neutrainierte Binärmodell 304 kann sodann wie das Binärmodell 134 von 1 benutzt werden, um in Echtzeit oder nahezu in Echtzeit zu detektieren, ob ein Bild / Bilder Belichtungsdefekte beinhaltet/beinhalten. Auf diese Weise kann das dem Binärmodell 304 zu eigene Netzwerk unter Nutzung eines größeren Datensatzes trainiert werden, ohne dass ein manuelles Etikettieren eines jeden Bildes in dem verrauschten Datensatz 306 erforderlich wäre.
Bei einigen Beispielen kann der endgültige Datensatz 308 weiter iterativ destilliert werden, um falsch klassifizierte Bilder zu entfernen. Bei derartigen Beispielen kann der endgültige Datensatz 308 in drei Teilsätze unterteilt werden, nämlich einen Trainingssatz, einen Validierungssatz und einen Holdout-Satz. Ein Klassifizierer oder ein Modell können zunächst unter Nutzung des Trainingssatzes und des Validierungssatzes trainiert werden, um gut belichtete und effektive bzw. defektbehaftete Bilder in dem endgültigen Datensatz zu detektieren. Der Holdout-Satz kann sodann in den trainierten Klassifizierer eingespeist werden. Eine geringe Anzahl von Bildern (beispielsweise 5, 10) aus dem Holdout-Satz, die von dem Klassifizierer am stärksten falsch klassifiziert worden sind, kann sodann aus dem Holdout-Satz entfernt oder gelöscht werden. Der Trainingssatz, der Validierungssatz und der neue Holdout-Satz können sodann kombiniert werden, und es kann der Prozess des Entfernens der falsch klassifizierten Bilder iterativ für eine vorbestimmte Anzahl von Malen wiederholt werden, um falsch klassifizierte Bilder aus dem endgültigen Datensatz 308 zu entfernen. Der destillierte endgültige Datensatz 308 kann sodann zum Neutrainieren des Binärmodells 304 benutzt werden. Auf diese Weise kann das Binärmodell 304 unter Nutzung eines Satzes von Trainingsbildern, die genauer etikettiert sind, endgültig trainiert werden.
4 ist eine Darstellung einer exemplarischen Ausgabe 400 des Defektdetektionssystems entsprechend Ausführungsformen der vorliegenden Erfindung. Das Defektdetektionssystem 130 von 1 kann als Eingabebild 412 ein Bild 414 und/oder ein Bild 416 zur Belichtungsdefektdetektion und Klassifizierung empfangen. Die Ausgabe 400 kann eine Zuverlässigkeitskennwertkategorie 420, eine Binärmodellklassifizierungskategorie 430, eine Belichtungskennwertkategorie 440 und eine Belichtungsdefektklassifizierungskategorie 450 für jedes Bild in der Bildkategorie 410 beinhalten. Die Ausgabe des Defektdetektionssystems für das Bild 412 kann einen Zuverlässigkeitskennwert 422 (das heißt den Zuverlässigkeitskennwert 0,00262324) und die Binärmodellklassifizierung 432 (beispielsweise gut belichtet) aus der Ausgabe durch ein Binärmodell (beispielsweise das Binärmodell 134) beinhalten. Das Bild 412 ist gegebenenfalls nicht einem Belichtungskennwert oder einer Belichtungsdefektklassifizierung zugeordnet, da das Bild 412 als gut belichtetes Bild bestimmt worden ist.
Auf ähnliche Weise kann die Ausgabe des Defektdetektionssystems für das Bild 414 einen Zuverlässigkeitskennwert 424 (das heißt den Zuverlässigkeitskennwert 0,999731) und die Binärmodellklassifizierung 434 (beispielsweise defektbehaftet) aus der Ausgabe durch ein Binärmodell (beispielsweise das Binärmodell 134) beinhalten. Wie einsichtig sein sollte, beruht die Binärmodellklassifizierung 434 darauf, dass der Zuverlässigkeitskennwert 424 über einer Zuverlässigkeitsschwelle (von beispielsweise 0,5) ist. Da des Weiteren vorhergesagt wird, dass das Bild 414 ein defektbehaftetes Bild ist, kann die Ausgabe, die dem Bild 414 entspricht, des Weiteren einen Belichtungskennwert 444 (beispielsweise den Belichtungskennwert 0,916261) und eine Belichtungsdefektklassifizierung 454 (nämlich starke Überbelichtung) aus der Ausgabe durch ein Klassifizierungsmodell (beispielsweise das Klassifizierungsmodell 136) beinhalten. Das Bild 414 kann derart, dass es eine starke Überbelichtung beinhaltet, auf Grundlage dessen, dass der Belichtungskennwert des Bildes 414 über nahe an 1 ist, klassifiziert werden.
Die Ausgabe des Defektdetektionssystems für das Bild 416 kann einen Zuverlässigkeitskennwert 426 (das heißt den Zuverlässigkeitskennwert 0,7985233) und die Binärmodellklassifizierung 436 (beispielsweise defektbehaftet) aus der Ausgabe durch ein Binärmodell (beispielsweise das Binärmodell 134) beinhalten. Wie einsichtig sein sollte, beruht die Binärmodellklassifizierung 436 darauf, dass der Zuverlässigkeitskennwert 426 über einer Zuverlässigkeitsschwelle (von beispielsweise 0,5) ist. Da des Weiteren vorhergesagt wird, dass das Bild 416 ein defektbehaftetes Bild ist, kann die Ausgabe, die dem Bild 416 entspricht, des Weiteren einen Belichtungskennwert 446 (das heißt den Belichtungskennwert 0,375255) und eine Belichtungsdefektklassifizierung 456 (nämlich mittlere Unterbelichtung) aus der Ausgabe durch ein Klassifizierungsmodell (beispielsweise das Klassifizierungsmodell 136) beinhalten. Das Bild 416 kann derart, dass es eine mittlere Unterbelichtung aufweist, auf Grundlage dessen, dass der Belichtungskennwert des Bildes 416 über nahe an 0,25 ist, klassifiziert werden. Es sollte einsichtig sein, dass die Bilder und die zugeordneten Kennwerte und Klassifizierungen rein beispielhaften Zwecken dienen und dass andere Kennwerte auf Grundlage von anderen Schwellen und Bereichen, die zum Trainieren von jeweiligen Binär- und Klassifizierungsmodellen benutzt werden, anderen Klassifizierungen zugeordnet sein können.
Exemplarisches Flussdiagramm
5 zeigt ein Flussdiagramm zur Darstellung eines Verfahrens zum Detektieren und Klassifizieren eines Belichtungsdefektes in einem Bild entsprechend der vorliegenden Offenbarung. Jeder Block des Verfahrens 500 umfasst einen Rechenprozess, der unter Nutzung einer beliebigen Kombination von Hardware, Firmware und/oder Software durchgeführt wird. Es können verschiedene Funktionen beispielsweise von einem Prozessor, der Anweisungen ausführt, die in einem Speicher gespeichert sind, ausgeführt werden. Das Verfahren kann zudem als computernutzbare Anweisungen, die auf Computerspeichermedien gespeichert sind, verkörpert sein. Bereitgestellt werden kann das Verfahren von einer eigenständigen Anwendung, einem Dienst oder einem gehosteten Dienst (eigenständig oder in Kombination mit einem anderen gehosteten Dienst) oder einem Plug-in für ein anderes Produkt, um nur einige zu nennen.
Zunächst wird bei Block 502 auf ein Bild zugegriffen. Das Bild kann von einem Bildempfänger, so beispielsweise dem Bildempfänger 132 von 1, empfangen werden. Auf das Bild kann ein von einer Digitalmediengalerie, so beispielsweise der Digitalmediengalerie 115 der Clientvorrichtung 110 von 1, zugegriffen werden. Bei Block 504 wird ein erstes neuronales Netzwerk benutzt, um zu bestimmen, ob das Bild einen Belichtungsdefekt beinhaltet. Ein Binärmodell, so beispielsweise das Binärmodell 134 von 1, kann benutzt werden, um zu bestimmen, ob das empfangene Bild einen Belichtungsdefekt beinhaltet, indem das Bild als defektbehaftetes Bild oder gut belichtetes Bild klassifiziert wird.
Bei Block 504 endet das Verfahren in Reaktion auf eine Bestimmung dessen, dass das Bild keinen Belichtungsdefekt beinhaltet. Bei einigen Beispielen kann das Bild in Reaktion auf eine Bestimmung dessen, dass das Bild keinen Belichtungsdefekt beinhaltet, als gut belichtetes Bild klassifiziert werden.
Bei Block 506 wird in Reaktion auf eine Bestimmung dessen, dass das Bild einen Belichtungsdefekt beinhaltet, ein zweites neuronales Netzwerk genutzt, um eine Belichtungsdefektklassifizierung, die dem Bild zugeordnet ist, zu bestimmen. Die Belichtungsdefektklassifizierung beinhaltet eines von einer Überbelichtung und einer Unterbelichtung. Ein Klassifizierungsmodell, so beispielsweise das Klassifizierungsmodell 136 von 1, kann beispielsweise benutzt werden, um das defektbehaftete Bild dahingehend zu klassifizieren, dass es eine Überbelichtung oder eine Unterbelichtung beinhaltet oder aufweist. Bei einigen Beispielen kann das Klassifizierungsmodell zudem einen Belichtungskennwert bestimmen, der den Grad des Belichtungsdefektes, der in dem Bild detektiert wird, angibt. Der Belichtungskennwert kann sodann von dem Klassifizierungsmodell benutzt werden, um die Belichtungsdefektklassifizierung, die dem Bild zugeordnet ist, zu bestimmen.
Bei Block 508 wird das Bild mit einer Angabe der Belichtungsdefektklassifizierung bereitgestellt. Das Bild mit der Angabe der Belichtungsdefektklassifizierung kann über eine Nutzerschnittstelle einer Clientvorrichtung, so beispielsweise der Clientvorrichtung 110 von 1, bereitgestellt oder präsentiert werden.
Exemplarische Betriebsumgebung
Nach erfolgter Beschreibung einer Übersicht über Ausführungsformen der vorliegenden Erfindung wird nachstehend eine exemplarische Betriebsumgebung, in der Ausführungsformen der vorliegenden Erfindung implementiert sein können, beschrieben, um einen allgemeinen Kontext für verschiedene Aspekte der vorliegenden Erfindung bereitzustellen. In 6 ist insbesondere eine exemplarische Betriebsumgebung zum Implementieren von Ausführungsformen der vorliegenden Erfindung gezeigt und wird allgemein als Rechenvorrichtung 600 bezeichnet. Die Rechenvorrichtung 600 ist lediglich ein Beispiel für eine geeignete Rechenumgebung und soll keine Beschränkung mit Blick auf den Nutzungsumfang oder die Funktionalität der Erfindung nahelegen. Die Rechenvorrichtung 600 soll nicht derart gedeutet werden, dass bei ihr irgendeine Abhängigkeit oder ein Erfordernis im Zusammenhang mit einer beliebigen dargestellten Komponente oder einer Kombination aus diesen vorhanden ist.
Die Erfindung kann im allgemeinen Kontext von Computercode oder maschinenlesbaren Anweisungen beschrieben werden, darunter computerausführbare Anweisungen wie beispielsweise Programmmodule, die von einem Computer oder einer anderen Maschine, so beispielsweise einem zellenbasierten Telefon, einem Persönlichen Datenassistent oder einer anderen Handvorrichtung, ausgeführt werden. Allgemein bezeichnen Programmmodule, darunter Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen, Code, der bestimmte Ausgaben ausführt oder bestimmte abstrakte Datentypen implementiert. Die Erfindung kann auf einer Vielzahl von Systemkonfigurationen praktisch umgesetzt werden, darunter Handvorrichtungen, Geräte der Unterhaltungselektronik, Allzweckcomputer, stärker spezialisierte Rechenvorrichtungen und dergleichen mehr. Umgesetzt werden kann die Erfindung auch in verteilten Rechenumgebungen, in denen Aufgaben durch Remote-Verarbeitungsvorrichtungen, die über ein Kommunikationsnetzwerk verknüpft sind, durchgeführt werden.
Wie in 6 gezeigt ist, beinhaltet die Rechenvorrichtung 600 einen Bus 610, der direkt oder indirekt die nachfolgenden Vorrichtungen koppelt: einen Speicher 612, einen oder mehrere Prozessoren 614, eine oder mehrere Präsentationskomponenten 616, Eingabe-/Ausgabe-Ports (I/O) 618, Eingabe-/Ausgabekomponenten 620 und eine illustrative Leistungsversorgung 622. Der Bus 610 stellt etwas dar, das ein oder mehrere Busse (so beispielsweise ein Adressbus, ein Datenbus oder eine Kombination hieraus) sein kann. Obwohl die verschiedenen Blöcke von 6 der Klarheit halber mit Linien gezeigt sind, ist das Abgrenzen verschiedener Komponenten voneinander in Wirklichkeit nicht derart eindeutig, weshalb die Linien im übertragenen Sinne eher grau und verschwommen sein sollten. Man kann beispielsweise eine Präsentationskomponente, so beispielsweise eine Anzeigevorrichtung, auch als I/O-Komponente betrachten. Zudem können Prozessoren einen Speicher aufweisen. Im Zusammenhang mit der vorliegenden Erfindung wird anerkannt, dass dies das Wesen des Gebietes ist und erneut darauf verwiesen, dass das Diagramm von 6 lediglich illustrativ für eine exemplarische Rechenvorrichtung ist, die in Verbindung mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung benutzt werden kann. Eine Unterscheidung zwischen Kategorien wie „Workstation“, „Server“, „Laptop“, „Handvorrichtung“ und dergleichen wird nicht getroffen, da all diese in den Umfang von 6 einbezogen sind und mit „Rechenvorrichtung“ bezeichnet werden.
Die Rechenvorrichtung 600 beinhaltet üblicherweise eine Vielzahl von computerlesbaren Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die die Rechenvorrichtung 600 zugreifen kann, und beinhalten sowohl flüchtige wie auch nichtflüchtige Medien sowie entfernbare wie auch nichtentfernbare Medien. Beispiels- und nicht beschränkungshalber können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien beinhalten sowohl flüchtige wie auch nichtflüchtige, entfernbare wie auch nichtentfernbare Medien, die in einem beliebigen Verfahren oder mit einer beliebigen Technologie zur Speicherung von Information, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten, implementiert sind. Computerspeichermedien beinhalten unter anderem RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Plattenspeicher, Magnetkassetten, Magnetband, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Information benutzt werden kann und auf das die Rechenvorrichtung 600 zugreifen kann. Computerspeichermedien sind nicht temporär und umfassen keine Signale als solche. Kommunikationsmedien verkörpern üblicherweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, so beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus, und beinhalten beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder geändert sind, dass Information in dem Signal codiert ist. Beispielhalber und nicht im Sinne einer Beschränkung beinhalten Kommunikationsmedien verdrahtete Medien, so beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, wie auch drahtlose Medien, so beispielsweise akustische, HF-basierte, infrarotbasierte und andere Drahtlosmedien. Kombinationen aus beliebigen der vorgenannten Elemente sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Der Speicher 612 beinhaltet Computerspeichermedien in Form eines flüchtigen und/oder nichtflüchtigen Speichers. Der Speicher kann entfernbar, nichtentfernbar oder eine Kombination aus beidem sein. Exemplarische Hardwarevorrichtungen beinhalten einen Solid-State-Speicher, Festplattenlaufwerke, Laufwerke für optische Platten und dergleichen mehr. Die Rechenvorrichtung 600 beinhaltet einen oder mehrere Prozessoren, die Daten von verschiedenen Entitäten, so beispielsweise aus dem Speicher 612 oder den I/O-Komponenten 620, lesen. Eine Präsentationskomponente / Präsentationskomponenten 610 präsentiert/präsentieren einem Nutzer oder einer anderen Vorrichtung Datenangaben. Exemplarische Präsentationskomponenten beinhalten eine Anzeigevorrichtung, einen Lautsprecher, eine Druckkomponente, eine Vibrationskomponente und dergleichen mehr.
Die I/O-Ports 618 ermöglichen, dass die Rechenvorrichtung 600 logisch mit anderen Vorrichtungen, darunter den I/O-Komponenten 620, von denen einige eingebaut sein können, gekoppelt ist. Illustrative Komponenten beinhalten ein Mikrofon, einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner, einen Drucker, eine Drahtlosvorrichtung, ein Touchpad, einen Touchscreen und dergleichen. Die I/O-Komponenten 620 können eine natürliche Nutzerschnittstelle (NUI) bereitstellen, die Luftgesten, Sprache oder andere physiologische Eingaben, die von einem Nutzer generiert werden, verarbeitet. In einigen Fällen können Eingaben an ein geeignetes Netzwerkelement zur weiteren Verarbeitung übertragen werden. Implementieren kann eine NUI eine beliebige Kombination aus Spracherkennung, Stifterkennung, Gesichtserkennung, biometrischer Erkennung, Gestenerkennung sowohl an einem Bildschirm als auch neben diesem, Luftgesten, Kopf- und Augenverfolgung und Berührungserkennung (wie nachstehend noch detaillierter beschrieben wird) im Zusammenhang mit einer Anzeige der Rechenvorrichtung 600. Ausgestattet sein kann die Rechenvorrichtung 600 mit Tiefenkameras, so beispielsweise mit stereoskopischen Kamerasystemen, Infrarotkamerasystemen, RGB-Kamerasystemen, einer Technologie mit berührungsempfindlichem Bildschirm (Touchscreen) und Kombinationen hieraus zur Detektion und Erkennung von Gesten. Zusätzlich kann die Rechenvorrichtung 600 mit Akzelerometern oder Gyroskopen, die eine Bewegungsdetektion ermöglichen, ausgestattet sein. Die Ausgabe der Akzelerometer oder Gyroskope kann mit der Anzeige der Rechenvorrichtung 600 versehen sein, um eine immersive erweiterte Realität oder eine virtuelle Realität wiederzugeben.
Die hier beschriebenen Ausführungsformen unterstützen die Belichtungsdefektdetektion und Klassifizierung in Digitalmedien. Die hier beschriebenen Komponenten bezeichnen integrierte Komponenten eines Defektdetektionssystems. Die integrierten Komponenten bezeichnen die Hardwarearchitektur und das Softwareframework zur Unterstützung der Funktionalität unter Nutzung des Defektdetektionssystems. Die Hardwarearchitektur bezeichnet physische bzw. physikalische Komponenten und deren wechselseitige Beziehungen, während das Softwareframework Software bezeichnet, die eine Funktionalität bereitstellt, die mit der auf einer Vorrichtung verkörperten Hardware implementiert werden kann.
Das Defektdetektionssystem auf Grundlage einer End-to-End-Software kann innerhalb der Komponenten des Defektdetektionssystems betrieben werden, um Computerhardware für die Funktionalität des Defektdetektionssystems zu betreiben. Auf niedriger Ebene führen Hardwareprozessoren Anweisungen aus, die aus einem Satz von Anweisungen in Maschinensprache (auch als Maschinencode oder nativ bezeichnet) für einen gegebenen Prozessor ausgewählt sind. Der Prozessor erkennt die nativen Anweisungen und führt entsprechende auf niedriger Ebene angesiedelte Funktionen beispielsweise im Zusammenhang mit der Logik, der Steuerung bzw. Regelung und Speichervorgängen aus. Auf niedriger Ebene angesiedelte Software, die in Maschinencode geschrieben ist, kann eine komplexere Funktionalität für höhere Ebenen der Software bereitstellen. Im Sinne des Vorliegenden beinhalten computerausführbare Anweisungen beliebige Software, darunter auf niedriger Ebene angesiedelte Software, die in Maschinencode geschrieben ist, auf höherer Ebene angesiedelte Software, so beispielsweise Anwendungssoftware, und eine beliebige Kombination hieraus. In diesem Zusammenhang können Komponenten des Defektdetektionssystems Ressourcen verwalten und Dienste für die Funktionalität des Defektverwaltungssystems bereitstellen. Beliebige weitere Abwandlungen und Kombinationen hieraus sind von den Ausführungsformen der vorliegenden Erfindung umfasst.
Nach erfolgter Identifizierung verschiedener Komponenten in der vorliegenden Offenbarung sollte einsichtig sein, dass eine beliebige Anzahl von Komponenten und Anordnungen eingesetzt werden kann, um die gewünschte Funktionalität innerhalb des Umfanges der vorliegenden Offenbarung zu verwirklichen. Die Komponenten der in den Figuren abgebildeten Ausführungsformen sind der Konzeptklarheit halber mittels Linien dargestellt. Andere Anordnungen dieser und anderer Komponenten können ebenfalls implementiert sein. Obwohl einige Komponenten beispielsweise als einzelne Komponenten dargestellt sind, können viele der hier beschriebenen Elemente als diskrete oder verteilte Komponenten oder zusammen mit anderen Komponenten in einer beliebigen geeigneten Kombination und an einem beliebigen geeigneten Ort implementiert sein. Einige Elemente können auch gänzlich weggelassen werden. Darüber hinaus können verschiedene Funktionen, die hier so beschrieben sind, dass sie von einer oder mehreren Entitäten durchgeführt werden, von Hardware, Firmware und/oder Software, wie nachstehend beschrieben wird, ausgeführt werden. Verschiedene Funktionen können von einem Prozessor ausgeführt werden, der Anweisungen ausführt, die in einem Speicher gespeichert sind. Als solches können weitere Anordnungen und Elemente (beispielsweise Maschinen, Schnittstellen, Funktionen, Reihenfolgen und Gruppierungen der Funktionen und dergleichen) zusätzlich zu den gezeigten oder anstelle derselben benutzt werden.
Der Gegenstand der vorliegenden Erfindung ist hier spezifisch derart beschrieben, dass verschiedenen regulatorischen Anforderungen genüge getan wird. Die Beschreibung selbst soll jedoch den Umfang des vorliegenden Patentes nicht beschränken. Vielmehr ist im Zusammenhang mit der vorliegenden Erfindung einbezogen, dass der beanspruchte Erfindungsgegenstand auch auf andere Weisen verkörpert sein kann, um verschiedene Schritte oder Kombinationen aus Schritten ähnlich zu den in der vorliegenden Druckschrift beschriebenen zusammen mit anderen gegenwärtigen oder zukünftigen Technologien einzubeziehen. Obwohl darüber hinaus die Begriffe „Schritt“ und/oder „Block“ hier derart benutzt werden können, dass sie verschiedene Elemente der eingesetzten Verfahren bezeichnen, sollen diese Begriffe nicht derart gedeutet werden, dass sie eine bestimmte Reihenfolge unter oder zwischen verschiedenen hier offenbarten Schritten implizieren, es sei denn, die Reihenfolge einzelner Schritte ist explizit angegeben.
Die vorliegende Erfindung ist anhand bestimmter Ausführungsformen beschrieben worden, die in jeder Hinsicht illustrativ und nicht restriktiv sein sollen. Alternative Ausführungsformen erschließen sich einem Fachmann auf dem Gebiet, zu dem die vorliegende Erfindung gehört, ohne von ihrem Umfang abzugehen.
Aus dem Vorstehenden ist ersichtlich, dass die vorliegende Erfindung äußerst geeignet dafür ist, alle Zwecke und Aufgaben, die vorstehend aufgeführt sind, zusammen mit weiteren Vorteilen, die offensichtlich sowie system- und verfahrensinhärent sind, zu erreichen. Es sollte einsichtig sein, dass bestimmte Merkmale und Teilkombinationen von Nutzen sind und ohne Verweis auf andere Merkmale und Teilkombinationen eingesetzt werden können. Dies ist vom Umfang der Ansprüche umfasst und entspricht diesem.

Claims

Computerverfahren zum Detektieren von Belichtungsfehlern bzw. -defekten in Bildern, wobei das Verfahren umfasst: Zugreifen auf ein Bild; unter Nutzung eines ersten neuronalen Netzwerkes erfolgendes Bestimmen einer Klassifizierung des Bildes, die angibt, dass das Bild einen Belichtungsfehler bzw. - defekt beinhaltet; unter Nutzung eines zweiten neuronalen Netzwerkes und in Reaktion darauf, dass die Klassifizierung angibt, dass das Bild den Belichtungsdefekt beinhaltet, erfolgendes Vorhersagen eines Belichtungskennwertes, der einen Grad der Belichtung des Bildes angibt; wenigstens teilweise auf Grundlage des Belichtungskennwertes erfolgendes Generieren einer Belichtungsdefektklassifizierung des Bildes, wobei die Belichtungsdefektklassifizierung eines von einer Unterbelichtung und einer Überbelichtung beinhaltet; und Bereitstellen des Bildes mit einer Angabe der Belichtungsdefektklassifizierung.
Verfahren nach Anspruch 1, wobei das Generieren der Belichtungsdefektklassifizierung des Weiteren darauf beruht, dass der Belichtungskennwert einer von mehreren vorbestimmten Belichtungskennwertschwellen, die mehreren Belichtungsdefektklassifizierungen zugeordnet sind, genügt.
Verfahren nach Anspruch 1 oder 2, des Weiteren umfassend: unter Nutzung des neuronalen Netzwerkes und wenigstens teilweise auf Grundlage des Belichtungskennwertes erfolgendes Bestimmen einer weiteren Belichtungsdefektklassifizierung des Bildes, die eines von einer starken Überbelichtung, einer schwachen Überbelichtung, einer mittleren Überbelichtung, einer starken Unterbelichtung, einer schwachen Unterbelichtung und einer mittleren Unterbelichtung angibt; und Bereitstellen des Bildes mit einer Angabe der weiteren Belichtungsdefektklassifizierung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bereitstellen des Bildes umfasst: Veranlassen einer Präsentation des Bildes, die die Angabe des Grades der Belichtung, der in dem Bild detektiert wird, beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen, dass das Bild einen Belichtungsdefekt beinhaltet, umfasst: unter Nutzung des ersten neuronalen Netzwerkes erfolgendes Berechnen eines Zuverlässigkeitskennwertes, der dem Bild zugeordnet ist, wobei der Zuverlässigkeitskennwert eine Wahrscheinlichkeit dafür angibt, dass das Bild einen Belichtungsfehler bzw. -defekt beinhaltet; Bestimmen, dass der Zuverlässigkeitskennwert über einem vorbestimmten Schwellenzuverlässigkeitskennwert ist; und wenigstens teilweise auf Grundlage dessen, dass der Zuverlässigkeitskennwert über dem vorbestimmten Zuverlässigkeitskennwert ist, erfolgendes Bestimmen der Klassifizierung des Bildes.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das erste neuronale Netzwerk unter Nutzung eines schwachen überwachten Lernalgorithmus trainiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, des Weiteren umfassend: unter Nutzung des ersten neuronalen Netzwerkes erfolgendes Bestimmen, dass ein weiteres Bild ein gut belichtetes Bild ist; und in Reaktion auf das Bestimmen dessen, dass das weitere Bild ein gut belichtetes Bild ist, erfolgendes Bereitstellen des weiteren Bildes ohne die Angabe der Belichtungsdefektklassifizierung.
Verfahren nach Anspruch 7, wobei das gut belichtete Bild angibt, dass das weitere Bild keinen Belichtungsdefekt beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das zweite neuronale Netzwerk dafür konfiguriert ist, gemeinsam den Belichtungskennwert vorherzusagen und die Belichtungsdefektklassifizierung zu generieren.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das zweite neuronale Netzwerk unter Nutzung wenigstens einer Netzwerkschicht des ersten neuronalen Netzwerkes trainiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei sich das zweite neuronale Netzwerk und das erste neuronale Netzwerk in wenigstens einer Netzwerkschicht unterscheiden.
Ein oder mehrere Computerspeichermedien, die computernutzbare Anweisungen speichern, die bei Nutzung durch eine oder mehrere Rechenvorrichtungen veranlassen, dass die eine oder die mehreren Rechenvorrichtungen Operationen bzw. Vorgänge durchführen, die umfassen: Empfangen eines ersten Satzes von Bildern, wobei jedes Bild des ersten Satzes von Bildern als eines von einem gut belichteten Bild und einem fehler- bzw. defektbehafteten Bild etikettiert ist; Trainieren eines neuronalen Netzwerkes unter Nutzung des ersten Satzes von Bildern; Empfangen eines zweiten Satzes von Bildern, wobei der zweite Satz von Bildern nicht etikettierte Bilder beinhaltet; Bestimmen eines Verteilungsverhältnisses zur Darstellung einer Verteilung der gut belichteten Bilder und der defektbehafteten Bilder innerhalb des ersten Satzes von Bildern; Einspeisen des zweiten Satzes von Bildern in das neuronale Netzwerk zum Bestimmen eines Inferenzkennwertes für jedes Bild in dem zweiten Satz von Bildern, wobei der Inferenzkennwert einen Grad der Belichtung in dem entsprechenden Bild angibt; Klassifizieren eines jeden Bildes in dem zweiten Satz von Bildern als gut belichtetes Bild oder fehler- bzw. defektbehaftetes Bild wenigstens teilweise auf Grundlage des Verteilungsverhältnisses und der Inferenzkennwerte; und Neutrainieren des neuronalen Netzwerkes unter Nutzung des zweiten Satzes von Bildern und der Klassifizierung.
Medien nach Anspruch 12, wobei die Vorgänge des Weiteren umfassen: Bestimmen, dass wenigstens ein Bild des zweiten Satzes von Bildern ein falsch klassifiziertes Bild ist, wenigstens teilweise auf Grundlage des Verteilungsverhältnisses und der Inferenzkennwerte; und Neutrainieren des neuronalen Netzwerkes unter Nutzung des zweiten Satzes von Bildern nach Entfernen des wenigstens einen falsch klassifizierten Bildes.
Medien nach Anspruch 12 oder 13, wobei die Vorgänge des Weiteren umfassen: wenigstens teilweise auf Grundlage der Inferenzkennwerte und des Verteilungsverhältnisses erfolgendes Bestimmen eines Schwellenkennwertes zum Klassifizieren des zweiten Satzes von Bildern als gut belichtete Bilder oder defektbehaftete Bilder, wobei der Schwellenkennwert derart bestimmt wird, dass ein zweites Verteilungsverhältnis, das dem zweiten Satz von Bildern entspricht, gleich dem Verteilungsverhältnis, das dem ersten Satz von Bildern entspricht, ist.
Medien nach einem der Ansprüche 12 bis 14, wobei das neuronale Netzwerk ein neuronales Deep-Netzwerk mit mehreren Schichten ist, das unter Nutzung von mehreren Lernraten derart trainiert wird, dass ein erster Satz von Schichten von mehreren oberen Schichten des neuronalen Netzwerkes mit einer niedrigeren Lernrate als ein zweiter Satz von unteren Schichten des neuronalen Netzwerkes trainiert wird.
Medien nach einem der Ansprüche 12 bis 15, wobei die Vorgänge des Weiteren umfassen: Trainieren eines zweiten neuronalen Netzwerkes wenigstens teilweise auf Grundlage des trainierten neuronalen Netzwerkes zum Klassifizieren von Bildern auf Grundlage eines Grades des Belichtungsdefektes bzw. -fehlers unter Nutzung eines Regressionsalgorithmus.
Medien nach Anspruch 16, wobei der Grad des Belichtungsdefektes eines oder mehrere von einer starken Überbelichtung, einer schwachen Überbelichtung, einer mittleren Überbelichtung, einer starken Unterbelichtung, einer schwachen Unterbelichtung und einer mittleren Unterbelichtung beinhaltet.
Belichtungsfehler- bzw. Belichtungsdefektdetektionssystem, umfassend: einen oder mehrere Hardwareprozessoren und einen Speicher mit Konfigurierung zum Bereitstellen von Computerprogrammanweisungen für den einen oder die mehreren Hardwareprozessoren; eine Belichtungsfehler- bzw. Belichtungsdefektdetektionsumgebung, die zur Nutzung des einen oder der mehreren Hardwareprozessoren konfiguriert ist zum: Empfangen eines Satzes von Bildern; Einspeisen des Satzes von Bildern in ein oder mehrere neuronale Netzwerke zum Bestimmen eines Belichtungskennwertes für jedes Bild des Satzes von Bildern, wobei der Belichtungskennwert einen Grad eines Belichtungsdefektes in dem entsprechenden Bild angibt; ein Mittel zum Klassifizieren eines jeden Bildes des Satzes von Bildern wenigstens teilweise auf Grundlage des entsprechenden Belichtungskennwertes; und Bereitstellen wenigstens eines Bildes des Satzes von Bildern und des entsprechenden Grades des Belichtungsdefektes.
System nach Anspruch 18, wobei das Bestimmen des Belichtungskennwertes des Weiteren beruht auf: Bestimmen eines Teilsatzes von Bildern des Satzes von Bildern, der Belichtungsdefekte beinhaltet; und Einspeisen des Teilsatzes von Bildern in das eine oder die mehreren neuronalen Netzwerke zum Bestimmen des Grades der Belichtung für jedes Bild des Teilsatzes von Bildern.
System nach Anspruch 18 oder 19, des Weiteren konfiguriert zum Veranlassen einer Präsentation eines jeden Bildes des Satzes von Bildern, die auf Grundlage des entsprechenden Grades der Belichtung organisiert ist.