DE102019000171A1

DE102019000171A1 - Digitalumgebung zur Verortung semantischer Klassen

Info

Publication number: DE102019000171A1
Application number: DE102019000171.0A
Authority: DE
Inventors: Zhe Lin; Yufei Wang; Xiaohui SHEN; Scott David Cohen; Jianming Zhang
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2018-03-06
Filing date: 2019-01-11
Publication date: 2019-09-12
Also published as: US11507800B2; GB201900596D0; AU2019200270A1; GB2571825A; AU2019200270B2; CN110232689A; GB2571825B; US20190279074A1

Abstract

Beschrieben werden Techniken und Systeme zur semantischen Segmentierung, die Probleme der beschränkten Verfügbarkeit von Trainingsdaten zur Beschreibung der möglicherweise Millionen von Tags, die zur Beschreibung semantischer Klassen in Digitalbildern benutzt werden können, überwinden. Konfiguriert sind die Techniken bei einem Beispiel zum Trainieren neuronaler Netzwerke für die Arbeit mit verschiedenen Typen von Trainingsdatensätzen unter Nutzung sequenzieller neuronaler Netzwerke und unter Nutzung von Vektordarstellungen zur Darstellung der verschiedenen semantischen Klassen.

Description

Hintergrund
Die semantische Segmentierung hat durch die Weiterentwicklung neuronaler Netzwerke zur Verortung von Abschnitten eines Digitalbildes, die einer semantischen Klasse entsprechen, große Fortschritte gemacht. Eine Rechenvorrichtung kann ein neuronales Netzwerk beispielsweise unter Nutzung maschinellen Lernens auf Grundlage von Trainingsdigitalbildem und Tags, die in den Digitalbildern vorkommende semantische Klassen identifizieren, trainieren. Benutzt werden können semantische Klassen zum Identifizieren eines bestimmten Objektes, das in dem Digitalbild beinhaltet ist, von Gefühlen, die durch das Digitalbild hervorgerufen werden, und dergleichen mehr. Sobald das Modell trainiert ist, ist es dafür konfiguriert, einen Ort in dem Digitalbild, der der semantischen Klasse entspricht, zu identifizieren, und kann von der Rechenvorrichtung benutzt werden.
Herkömmliche Techniken benötigen jedoch Beispiele für Tags und zugehörige Digitalbilder zum Trainieren einer jeden semantischen Klasse. Daher tritt bei herkömmlichen Techniken das Problem der begrenzten Verfügbarkeit von Trainingsdaten auf, das durch die Anzahl von Tags, die zum Identifizieren derselben und ähnlicher semantischer Klassen benutzt werden können, noch verschärft wird. Ein herkömmliches Modell, das unter Nutzung maschinellen Lernens durch eine Rechenvorrichtung beispielsweise für das semantische Konzept „Mensch“ trainiert ist, scheitert infolge der Unfähigkeit des herkömmlichen Modells, die Verwandtschaft dieser beiden semantischen Klassen zueinander zu erkennen, gegebenenfalls an dem semantischen Konzept „Person“.
Zusammenfassung
Beschrieben werden Techniken und Systeme zur semantischen Segmentierung, die die Probleme der begrenzten Verfügbarkeit von Trainingsdaten zur Beschreibung der möglicherweise Millionen von Tags, die zur Beschreibung semantischer Klassen in Digitalbildern benutzt werden können, überwinden. Bei einem Beispiel werden Tags, die semantische Konzepte definieren, die in Digitalbildern vorkommen, die zum Trainieren eines neuronalen Netzwerkes benutzt werden, in Vektordarstellungen umgewandelt. Die Vektordarstellungen und die entsprechenden Digitalbilder werden sodann dafür benutzt, neuronale Netzwerke zu trainieren, damit diese entsprechende semantische Konzepte erkennen.
Zu diesem Zweck sind die hier beschriebenen Techniken dafür konfiguriert, neuronale Netzwerke für die Arbeit mit verschiedenen Typen von Trainingsdatensätzen unter Nutzung sequenzieller neuronaler Netzwerke zu trainieren. Bei einem Beispiel wird ein einbettendes neuronales Netzwerk von einer Rechenvorrichtung zunächst unter Nutzung eines ersten Trainingsdatensatzes trainiert. Der erste Trainingsdatensatz beinhaltet Digitalbilder und entsprechende Bildebenentags. Sobald das einbettende neuronale Netzwerk trainiert ist, ist es dafür konfiguriert, Aufmerksamkeitskarten zu generieren, die einen groben Ort der Tags innerhalb der Digitalbilder definieren.
Sodann wird ein Verfeinerungssystem von der Rechenvorrichtung dafür trainiert, die Aufmerksamkeitskarte, das heißt einen Ort der semantischen Klasse innerhalb des Digitalbildes, zu verfeinern. Das Verfeinerungssystem kann beispielsweise verfeinernde neuronale Netzwerke beinhalten, die unter Nutzung von Begrenzungsrahmen und Segmentierungsmasken, die verschiedene Ebenen der Genauigkeit beim Identifizieren einer semantischen Klasse definieren, trainiert werden. Sobald die einbettenden neuronalen Netzwerke und die verfeinernden neuronalen Netzwerke des Verfeinerungssystems trainiert sind, kann ein Digitalbildsegmentierungssystem der Rechenvorrichtung diese Netzwerke sequenziell zum Generieren und weiteren Verfeinern eines Ortes einer semantischen Klasse in einem eingegebenen Digitalbild einsetzen. Unter Nutzung der Vektordarstellungen kann dies zudem für „neue“ semantische Klassen erfolgen, die nicht als Grundlage für das Training des neuronalen Netzwerkes benutzt worden sind, indem man mit der Ähnlichkeit der neuen semantischen Klassen zu den semantischen Klassen, die zum Trainieren der Netzwerke benutzt werden, arbeitet.
Die vorliegende Zusammenfassung führt in vereinfachter Form eine Auswahl von Konzepten ein, die in der nachfolgenden Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung wesentliche Merkmale des beanspruchten Erfindungsgegenstandes nicht identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfanges des beanspruchten Erfindungsgegenstandes benutzt werden.
Figurenliste
Die Detailbeschreibung erfolgt anhand der begleitenden Zeichnungsfiguren. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb bei den Erläuterungen der Verweis auf eine oder mehrere Formen der Entitäten gleichermaßen erfolgen kann.

1 ist eine Darstellung einer Umgebung bei einer exemplarischen Implementierung, die dafür betreibbar ist, die hier beschriebenen Techniken zur Verortung semantischer Klassen einzusetzen.
2 zeigt ein System bei einer exemplarischen Implementierung zur detaillierteren Darstellung des Betriebs eines Digitalbildsegmentierungssystems von 1.
3 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung zum Generieren einer Aufmerksamkeitskarte durch ein einbettendes neuronales Netzwerk und Verfeinern der Aufmerksamkeitskarte unter Nutzung eines Verfeinerungssystems.
4 zeigt ein System zur Darstellung eines Beispiels für das Trainieren eines eingebetteten neuronalen Netzwerkes des Digitalbildsegmentierungssystems von 2 für Bildebenentags.
5 zeigt ein System zur Darstellung eines Beispiels für das Trainieren eines verfeinernden neuronalen Netzwerkes eines Verfeinerungssystems des Digitalbildsegmentierungssystems von 2 unter Nutzung verorteter Tags, die Begrenzungsrahmen spezifizieren.
6 zeigt ein System zur Darstellung eines Beispiels für das Trainieren eines verfeinernden neuronalen Netzwerkes eines Verfeinerungssystems des Digitalbildsegmentierungssystems von 2 unter Nutzung verorteter Tags, die Segmentierungsmasken spezifizieren.
7 zeigt ein System bei einer exemplarischen Implementierung des Verfeinerungssystems derart, dass es verfeinernde neuronale Netzwerke beinhaltet, die sowohl anhand verorteter Tags, die Begrenzungsrahmen definieren, wie auch anhand verorteter Tags, die Segmentierungsmasken definieren, zur sequenziellen Verfeinerung der Aufmerksamkeitskarte des einbettenden neuronalen Netzwerkes trainiert werden.
8 zeigt eine exemplarische Architektur eines anschlussverfeinernden neuronalen Netzwerkes von 7 als Segmentierungsnetzwerk.
9 zeigt ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die als beliebiger Typ von Rechenvorrichtung gemäß Beschreibung anhand 1 bis 8 und/oder unter Nutzung hiervon implementiert sein kann, um Ausführungsformen der hier beschriebenen Techniken zu implementieren.

Detailbeschreibung
Übersicht
Die semantische Segmentierung hat durch die Weiterentwicklung neuronaler Netzwerke große Fortschritte gemacht. Diese Entwicklung ist jedoch von herkömmlichen Techniken, die zum Trainieren der neuronalen Netzwerke benutzt werden, behindert worden. Herkömmliche Techniken zur semantischen Segmentierung sind beispielsweise auf eine kleine Anzahl semantischer Klassen beschränkt, was von der Kompliziertheit herrührt, die durch die Überlappung semantischer Klassen und den Mangel an Trainingsdaten verursacht wird.
Tags für semantische Klassen kann man sich beispielsweise als konstituierende Zweige in einer Hierarchie vorstellen, die komplexe räumliche Korrelationen aufweist, die Techniken zur semantischen Segmentierung vor Probleme stellen können. Beim Gesicht einer Person sind beispielsweise sowohl die auf feiner Ebene gegebene Kommentierung „Gesicht“ wie auch die auf höherer Ebene gegebene Kommentierung „Person“ zutreffend, wie auch für den Bereich „Bekleidung“ an einem menschlichen Körper eine Kommentierung sowohl als „Person“ oder auch als „Körper“ erfolgen kann. Dies stellt aufgrund der Nutzung verschiedener semantischer Klassen zur Beschreibung ähnlicher und überlappender Konzepte ein erhebliches Problem beim Trainieren von Techniken zur semantischen Segmentierung dar.
Zudem sind, wie vorstehend beschrieben worden ist, Trainingsdaten zur Nutzung für das Trainieren neuronaler Netzwerke zur Durchführung einer Segmentierung nur beschränkt verfügbar. Die Verfügbarkeit ist zudem durch die Genauigkeit der Verortung von Tags innerhalb der Digitalbilder, die als Teil dieses Trainings beinhaltet sind, beschränkt. So sind beispielsweise weniger Objekte für Trainingsdaten mit Tags verfügbar, die eine auf Pixelebene gegebene Verortung unter Nutzung einer Segmentierungsmaske definieren, als für Objekte von Trainingsdaten mit Tags, die eine Verortung unter Nutzung von Begrenzungsrahmen definieren, verfügbar sind, was bei Objekten von Trainingsdaten mit auf Bildebene gegebenen Tags, die keine Verortung unterstützen, sondern das Digitalbild als Ganzes betreffen, sogar noch stärker beschränkt ist.
Entsprechend werden Techniken und Systeme zur semantischen Segmentierung beschrieben, die die Probleme der begrenzten Verfügbarkeit von Trainingsdaten zur Beschreibung der möglicherweise Millionen von Tags, die zur Beschreibung semantischer Klassen in Digitalbildern benutzt werden können, überwinden. Bei einem Beispiel werden Tags, die semantische Konzepte definieren, die in Digitalbildern vorkommen, die zum Trainieren eines neuronalen Netzwerkes benutzt werden, in Vektordarstellungen umgewandelt. Die Vektordarstellungen können beispielsweise als Worteinbettungen aus Text der Tags durch ein Modell maschinellen Lernens umgewandelt werden, so beispielsweise unter Nutzung eines zwei Schichten aufweisenden neuronalen Netzwerkes als Teil von „word2vec“. Das Modell wird darauf trainiert, linguistische Kontexte von Tags zu rekonstruieren, und ist daher bei der Bestimmung der Ähnlichkeit von Tags zueinander durch Vergleichen der Vektordarstellungen nutzbar, um zu bestimmen, „wie nahe“ diese Darstellungen in einem Vektorraum zusammen sind.
Die Vektordarstellungen und die entsprechenden Digitalbilder werden sodann dafür benutzt, neuronale Netzwerke zu trainieren, damit diese entsprechende semantische Konzepte erkennen. Wie vorstehend beschrieben worden ist, sind jedoch Trainingsdatensätze mit Tags, die semantische Konzepte betreffen, nur beschränkt verfügbar. Weiter beschränkt wird dies durch die Genauigkeit beim Verorten der semantischen Konzepte innerhalb der Digitalbilder, so beispielsweise durch verschiedene Grade der „Überwachung“ von der Bildebene über einen Begrenzungsrahmen bis hin zu Segmentierungsmasken.
Die hier beschriebenen Techniken sind entsprechend dafür konfiguriert, neuronale Netzwerke für die Arbeit mit diesen verschiedenen Typen von Trainingsdatensätzen unter Nutzung sequenzieller neuronaler Netzwerke zu trainieren. Bei einem Beispiel wird ein einbettendes neuronales Netzwerk von einer Rechenvorrichtung zunächst unter Nutzung eines ersten Trainingsdatensatzes trainiert. Der erste Trainingsdatensatz beinhaltet Digitalbilder und entsprechende Bildebenentags. Sobald das einbettende neuronale Netzwerk trainiert ist, ist es dafür konfiguriert, Aufmerksamkeitskarten zu generieren, die einen groben Ort der Tags innerhalb der Digitalbilder definieren.
Sodann wird ein Verfeinerungssystem von der Rechenvorrichtung dafür trainiert, die Aufmerksamkeitskarte, das heißt einen Ort der semantischen Klasse innerhalb des Digitalbildes, zu verfeinern. Beinhalten kann das Verfeinerungssystem beispielsweise ein anfangsverfeinerndes neuronales Netzwerk, das unter Nutzung verorteter Tags trainiert wird, die unter Nutzung jeweiliger Begrenzungsrahmen verortet werden, um einen anfangsverfeinerten Ort zu generieren. Das Verfeinerungssystem kann zudem ein anschlussverfeinerndes neuronales Netzwerk beinhalten, das unter Nutzung verorteter Tags trainiert wird, die unter Nutzung jeweiliger Segmentierungsmasken verortet werden, die die semantische Klasse auf Pixelebene verorten, um einen anschlussverfeinerten Ort auf Grundlage des anfangsverfeinerten Ortes zu generieren.
Sobald die einbettenden neuronalen Netzwerke und die verfeinernden neuronalen Netzwerke des Verfeinerungssystems trainiert sind, kann ein Digitalbildsegmentierungssystem der Rechenvorrichtung diese Netzwerke sequenziell einsetzen, um einen Ort einer semantischen Klasse in einem eingegebenen Digitalbild zu generieren und weiter zu verfeinern. Die neuronalen Netzwerke können beispielsweise sequenziell eingesetzt werden und werden von der Bildebene aus für die Verortung von Begrenzungsrahmen aus hin zur Pixelebene trainiert. Unter Nutzung der Vektordarstellungen kann dies auch für „neue“ semantische Klassen erfolgen, die nicht als Grundlage zum Trainieren des neuronalen Netzwerkes benutzt worden sind, indem mit der Ähnlichkeit der neuen semantischen Klassen zu den semantischen Klassen, die zum Trainieren der Netzwerke benutzt worden sind, gearbeitet wird, was in der nachfolgenden Diskussion auch als „Zero Shot Learning“ bezeichnet wird und bei herkömmlichen Techniken nicht möglich ist. Auf diese Weise kann ein Digitalbildsegmentierungssystem unter Nutzung von Vektordarstellungen und einer sequenziellen Verfeinerung einer Aufmerksamkeitskarte die Beschränkungen herkömmlicher Systeme im Zusammenhang mit dem Mangel an Trainingsdaten überwinden und so mit Millionen möglicher Tags umgehen, die zur Beschreibung semantischer Klassen, die in Digitalbildern vorkommen, benutzt werden. Des Weiteren können diese Techniken durch gleichzeitiges Verarbeiten mehrerer Tags zusammen eingesetzt werden. Die weitere Diskussion dieser und anderer Beispiele erfolgt in den nachfolgenden Abschnitten und ist in den entsprechenden Figuren dargestellt.
In der nachfolgenden Diskussion wird eine exemplarische Umgebung beschrieben, die die hier beschriebenen Techniken einsetzen kann. Beschrieben werden zudem exemplarische Prozeduren, die in der exemplarischen Umgebung wie auch in anderen Umgebungen durchgeführt werden können. Das Durchführen der exemplarischen Prozeduren ist daher nicht auf die exemplarische Umgebung beschränkt, und die exemplarische Umgebung ist nicht auf die Fähigkeiten der exemplarischen Prozeduren beschränkt.
Exemplarische Umgebung
1 ist eine Darstellung einer Digitalmedienumgebung 100 bei einer exemplarischen Implementierung, die für den Einsatz der hier beschriebenen Techniken zur Verortung semantischer Klassen betreibbar ist. Die dargestellte Umgebung 100 beinhaltet eine Rechenvorrichtung 102, die auf vielerlei Arten konfiguriert sein kann.
Die Rechenvorrichtung 102 kann beispielsweise als Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise als manuelle Konfiguration, so beispielsweise als Tablet oder Mobiltelefon, wie dargestellt) und dergleichen mehr konfiguriert sein. Die Rechenvorrichtung 102 kann von über vollständige Ressourcen verfügenden Vorrichtungen mit erheblichen Speicher- und Prozessorressourcen (beispielsweise PCs, Spielekonsolen) bis zu einer über geringe Ressourcen verfügenden Vorrichtung mit beschränkten Speicher- und/oder Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Obwohl eine einzige Rechenvorrichtung 102 gezeigt ist, kann die Rechenvorrichtung 102 zudem mehrere verschiedene Vorrichtungen darstellen, so beispielsweise mehrere Server, die von einem Unternehmen zur Durchführung von Vorgängen „über die Cloud“, wie anhand 9 noch beschrieben wird, genutzt werden.
Die Rechenvorrichtung 102 ist derart dargestellt, dass sie ein Bildverarbeitungssystem 104 beinhaltet. Das Bildverarbeitungssystem 104 ist wenigstens teilweise in der Hardware der Rechenvorrichtung 102 implementiert und verarbeitet und transformiert ein Digitalbild 106, das derart dargestellt ist, dass es in einem Speicher 108 der Rechenvorrichtung 102 vorgehalten ist. Derartige Prozesse beinhalten die Erstellung des Digitalbildes 106, die Modifikation des Digitalbildes 106 und die Wiedergabe des Digitalbildes 106 in einer Nutzerschnittstelle 110 zur Ausgabe beispielsweise durch eine Anzeigevorrichtung 112. Obwohl die Funktionalität des Bildverarbeitungssystems 104 derart dargestellt ist, dass sie lokal auf der Rechenvorrichtung 102 implementiert ist, kann sie gänzlich oder in Teilen auch über eine Funktionalität implementiert sein, die über das Netzwerk 114 verfügbar ist, so beispielsweise als Teil eines Webdienstes oder „in der Cloud“.
Ein Beispiel für die Funktionalität, die das Bildverarbeitungssystem 104 zum Verarbeiten des Bildes 106 aufweist, ist als Digitalbildsegmentierungssystem 116 dargestellt. Das Digitalbildsegmentierungssystem 116 ist wenigstens teilweise in der Hardware der Rechenvorrichtung (beispielsweise unter Nutzung eines Verarbeitungssystems und eines computerlesbaren Speichermediums, siehe 9) implementiert, um das Digitalbild 106 und einen Tag 118, der eine semantische Klasse 120 angibt, die in dem Digitalbild 106 identifiziert werden soll, zu verarbeiten. Diese Verarbeitung erfolgt zum Generieren einer Angabe 122 als Aufmerksamkeitskarte (attention map) 124, die beschreibt, „wo“ die semantische Klasse 120 in dem Digitalbild 106 befindlich ist. Die Aufmerksamkeitskarte 124 kann beispielsweise dafür konfiguriert sein, für jedes Pixel eine relative Wahrscheinlichkeit unter Nutzung einer Graustufung zwischen Weiß („ist in der semantischen Klasse beinhaltet“) und Schwarz („ist beispielsweise nicht in der semantischen Klasse beinhaltet“) anzugeben. Auf diese Weise kann die Aufmerksamkeitskarte 124 als Heatmap wirken, die einen Ort, „an dem“ die semantische Klasse 120 in dem Digitalbild 126 beinhaltet ist, in Form von Segmentierungsmasken 128 spezifiziert. Benutzt werden kann dies zur Unterstützung vieler Arten von Digitalbildverarbeitung, die von dem Bildverarbeitungssystem 104 durchgeführt werden, darunter das Ausfüllen von Löchern, die Objektersetzung und andere Techniken, die zum Transformieren des Digitalbildes 106, wie im nachfolgenden Abschnitt weiter beschrieben wird, nutzbar sind.
Im Allgemeinen können die Funktionalität, die Merkmale und die Konzepte, die hier im Zusammenhang mit den vorstehenden und nachstehenden Beispielen beschrieben sind, auch im Zusammenhang mit den exemplarischen Prozeduren, die in diesem Abschnitt beschrieben sind, eingesetzt werden. Die Funktionalität, die Merkmale und die Konzepte, die im Zusammenhang mit verschiedenen Figuren und Beispielen in der vorliegenden Druckschrift beschrieben sind, können des Weiteren ausgetauscht werden und sind nicht auf die Implementierung im Zusammenhang mit einer bestimmten Figur oder Prozedur beschränkt. Darüber hinaus können Blöcke, die verschiedenen dargestellten Prozeduren und entsprechenden Figuren zugeordnet sind, auch zusammen und/oder auf verschiedene Weisen kombiniert eingesetzt werden. Die jeweilige Funktionalität und die jeweiligen Merkmale und Konzepte, die im Zusammenhang mit verschiedenen exemplarischen Umgebungen, Vorrichtungen, Komponenten, Figuren und Prozeduren beschrieben sind, können zudem auch in beliebigen geeigneten Kombinationen benutzt werden und sind nicht auf die speziellen Kombinationen, die in den nummerierten Beispielen der vorliegenden Beschreibung dargestellt sind, beschränkt.
Digitalumgebung zur Verortung semantischer Klassen
2 zeigt ein System 200 bei einer exemplarischen Implementierung zur detaillierteren Darstellung des Betriebs des Digitalbildsegmentierungssystems 116 von 1. 3 zeigt eine Prozedur 300 bei einer exemplarischen Implementierung zum Generieren einer Aufmerksamkeitskarte durch ein einbettendes neuronales Netzwerk und Verfeinern der Aufmerksamkeitskarte unter Nutzung eines Verfeinerungssystems. 4 zeigt ein System 400 zur Darstellung eines Beispiels für das Trainieren eines einbettenden neuronalen Netzwerkes des Digitalbildsegmentierungssystems 116 von 2 auf Grundlage von Bildebenentags.
5 zeigt ein System 500 zur Darstellung eines Beispiels für das Trainieren eines verfeinernden neuronalen Netzwerkes eines Verfeinerungssystems des Digitalbildsegmentierungssystems 116 von 2 auf Grundlage verorteter Tags als Begrenzungsrahmen. 6 zeigt ein System 600 zur Darstellung eines Beispiels für das Trainieren eines verfeinernden neuronalen Netzwerkes eines Verfeinerungssystems des Digitalbildsegmentierungssystems 116 von 2 unter Nutzung verorteter Tags als Segmentierungsmaske. 7 zeigt ein System 700 bei einer exemplarischen Implementierung des Verfeinerungssystems derart, dass es verfeinernde neuronale Netzwerke beinhaltet, die sowohl anhand verorteter Tags, die Begrenzungsrahmen definieren, wie auch anhand verorteter Tags, die Segmentierungsmasken definieren, zur sequenziellen Verfeinerung der Aufmerksamkeitskarte des einbettenden neuronalen Netzwerkes trainiert werden.
Die nachfolgende Diskussion beschreibt Techniken, die unter Nutzung der vorstehend beschriebenen Systeme und Vorrichtungen implementiert sein können. Aspekte einer jeden der Prozeduren können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Die Prozeduren sind als Satz von Blöcken gezeigt, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden können und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind. In den Abschnitten der nachfolgenden Diskussion wird auf 1 bis 7 verwiesen.
Bei einem Beispiel zur Einleitung wird von einem Digitalbildsegmentierungssystem 116 eine Eingabe empfangen, die einen Tag 118 beinhaltet, der eine semantische Klasse 120, die in einem Digitalbild 106 befindlich ist, spezifiziert. Das Digitalbild 106 kann eine Vielzahl von Formen annehmen, darunter ein einzelnes Stehendbild, ein Frame eines Digitalvideos oder einer Animation und dergleichen mehr. Wie vorstehend beschrieben worden ist, kann die durch den Tag 118 spezifizierte semantische Klasse 120 ebenfalls eine Vielzahl von Formen annehmen, und zwar beispielsweise zum Spezifizieren eines Objektes, das in dem Digitalbild beinhaltet ist, eines Gefühls, das bei einem Nutzer bei Betrachtung des Digitalbildes hervorgerufen wird, und dergleichen mehr.
Der Tag 118, der die semantische Klasse 120 spezifiziert (bei dem dargestellten Beispiel beispielsweise ein Hund), wird von einem Vektordarstellungsumwandlungsmodul 202 empfangen. Dieses Modul ist wenigstens teilweise in der Hardware der Rechenvorrichtung 102 implementiert, um den Tag 118 (das heißt einen Text, der in dem Tag 118 beinhaltet ist, um die semantische Klasse 120 zu definieren) in eine Vektordarstellung 204 umzuwandeln (Block 302). Zu diesem Zweck kann eine Vielzahl von Techniken von dem Vektordarstellungsumwandlungsmodul 202 eingesetzt werden, wofür ein Beispiel als „word2vec“ bekannt ist.
Das Vektordarstellungsumwandlungsmodul 202 kann beispielsweise zum Generieren der Vektordarstellung 204 als Worteinbettung seitens einer Gruppe von Modellen maschinellen Lernens benutzt werden. Die Modelle maschinellen Lernens werden dafür trainiert, die Vektordarstellung 204 (beispielsweise unter Nutzung zwei Schichten aufweisender neuronaler Netzwerke) zu erstellen, um einen linguistischen Kontext von Worten zu beschreiben. Zu diesem Zweck werden die Modelle maschinellen Lernens unter Nutzung eines Textkorpus dafür trainiert, einen Vektorraum des linguistischen Kontextes von Text in dem Korpus zu definieren. Die Vektordarstellungen 204 beschreiben sodann einen entsprechenden Ort der semantischen Klasse 120 innerhalb jenes Vektorraumes.
Entsprechend sind Vektordarstellungen, die unter Nutzung dieser gemeinsamen Kontext teilenden Technik generiert werden, in diesem Vektorraum, beispielsweise auf Grundlage des Euklidischen Abstandes, nahe zusammen befindlich. Im Ergebnis können von dem Digitalbildsegmentierungssystem 116 diejenigen Tags 118 eingegeben und verarbeitet werden, die zum Trainieren der zugrunde liegenden Modelle maschinellen Lernens nicht benutzt worden sind. Dies geht auf die Fähigkeit zurück, dass das Digitalbildsegmentierungssystem 116 die Ähnlichkeit jener Tags zu denjenigen Tags, die zum Trainieren der Modelle benutzt worden sind, erkennt, was unter Nutzung herkömmlicher Techniken nicht möglich ist. Die weitere Diskussion dieser Funktionalität erfolgt in dem Abschnitt „Implementierungsbeispiel“ im Zusammenhang mit einem Beispiel für das „Zero Shot Learning“.
Die Vektordarstellung 204 und das Digitalbild 106 werden sodann von einem Einbettungsmodul 206 beispielsweise über jeweilige Anwendungsprogrammierschnittstellen empfangen. Das Einbettungsmodul 206 ist dafür konfiguriert, ein einbettendes neuronales Netzwerk 208 dafür einzusetzen, eine Aufmerksamkeitskarte 210 zu generieren, die einen Ort der semantischen Klasse 120, die durch den Tag 118 spezifiziert ist, in dem Digitalbild 106 beschreibt (Block 304). Die Aufmerksamkeitskarte 210 kann beispielsweise als Heatmap („Wärmebild“) konfiguriert sein, die für jedes Pixel eine relative Wahrscheinlichkeit unter Nutzung einer Graustufung zwischen Weiß (ist beispielsweise in der semantischen Klasse beinhaltet) und Schwarz (ist beispielsweise nicht in der semantischen Klasse beinhaltet) angibt. Auf diese Weise spezifiziert die Aufmerksamkeitskarte 210 einen möglichen Ort, an dem die semantische Klasse 120 in dem Digitalbild 126 befindlich ist. Genutzt werden kann dies zur Unterstützung vieler Arten von Digitalbildverarbeitung, wie sie von dem Bildverarbeitungssystem 104 durchgeführt wird, darunter das Ausfüllen von Löchern, die Objektersetzung, die Erkennung semantischer Klassen (beispielsweise Objekte) und andere Techniken, die zum Transformieren des Digitalbildes 106 nutzbar sind.
Wie bei der exemplarischen Implementierung von 4 dargestellt ist, beinhaltet das Einbettungsmodul 206 beispielsweise ein einbettendes neuronales Netzwerk 208, das dafür konfiguriert ist, ein Modell maschinellen Lernens 402 unter Nutzung einer Verlustfunktion 404 aus Digitalbildern 406 und zugeordneten Bildebenentags 408 zu trainieren. Die Bildebenentags 408 sind nicht an bestimmten Orten innerhalb der Digitalbilder 406 verortet, sondern definieren semantische Klassen, die in den Digitalbildern 406 als Ganzes beinhaltet sind. Bei dem dargestellten Beispiel wird beispielsweise der Bildebenentag 408 „Eiffelturm“ benutzt, um ein in dem Digitalbild 406 beinhaltetes Objekt, jedoch keinen Ort des Objektes innerhalb des Bildes zu spezifizieren.
Im Sinne des Vorliegenden bezeichnet der Begriff „Modell maschinellen Lernens“ 402 eine Computerdarstellung, die unter Nutzung der Verlustfunktion 404 auf Grundlage von Eingaben eingestellt (beispielsweise trainiert) werden kann, um unbekannte Funktionen anzunähern. Insbesondere kann der Begriff „Modell maschinellen Lernens“ 402 ein Modell beinhalten, das Algorithmen nutzt, um aus bekannten Daten zu lernen oder auf Grundlage derselben Vorhersagen zu treffen, indem die bekannten Daten analysiert werden, um das Generieren von Ausgaben, die Muster und Eigenschaften der bekannten Daten wiedergeben, auf Grundlage der Verlustfunktion 404 zu lernen. Ein Modell maschinellen Lernens 402 nimmt daher auf hoher Ebene gegebene Abstraktionen an Daten vor, indem es bei diesem Beispiel datengetriebene Vorhersagen oder Entscheidungen aus den bekannten Eingabedaten, das heißt den Digitalbildern 406 und den Bildebenentags 408, als Trainingsdatensatz generiert.
Wie in 4 gezeigt ist, kann das hier beschriebene Modell maschinellen Lernens 402 unter Nutzung mehrerer Digitalbilder 406 trainiert werden, die mehrere verschiedene semantische Klassen beinhalten. Hieraus lernt das Modell maschinellen Lernens 402, wie die semantischen Klassen und der Ort von Pixeln, der den semantischen Klassen entspricht, identifiziert werden sollen, um die Aufmerksamkeitskarte 210 zu generieren. Als solches können „Trainingsdigitalbilder“ zur Bezeichnung von Digitalbildern benutzt werden, die wiederum zum Trainieren des Modells maschinellen Lernens 402 benutzt werden. Zusätzlich können die hier benutzten „Trainingstags“ zur Bezeichnung von Tags benutzt werden, die semantischen Klassen entsprechen, die zum Trainieren des Modells maschinellen Lernens 402 benutzt werden.
In der Praxis sind Digitalbilder 406 mit Bildebenentags 408 zum Trainieren im Vergleich zu verorteten Tags leichter verfügbar. Die Digitalbilder 406 sind zudem im Vergleich zu verorteten Tags für eine größere Anzahl semantischer Klassen verfügbar. Bei einer Implementierung wird das einbettende neuronale Netzwerk 208 unter Nutzung von 6.000.000 Digitalbildern 406 trainiert, die entsprechende 18.000 Tags für jeweilige semantische Klassen aufweisen. Entsprechend kann das einbettende Modul 206 das Digitalbild 106 und den entsprechenden Tag 118 verarbeiten, um eine Aufmerksamkeitskarte 210 zu generieren, die einen groben Ort der semantischen Klasse 120 (beispielsweise Hörner) in dem Digitalbild 106 für zahlreiche Bildtags angibt.
Der Ort der semantischen Klasse 120 in der Aufmerksamkeitskarte 210 wird sodann durch ein Verfeinerungssystem 212 unter Nutzung eines verfeinernden neuronalen Netzwerkes 214 verfeinert, das unter Nutzung verorteter Tags jeweiliger semantischer Klassen trainiert worden ist (Block 306). Die verorteten Tags können auf vielerlei Arten konfiguriert sein, um anzugeben, welcher Abschnitt eines Digitalbildes einer semantischen Klasse entspricht und welche Abschnitte dies nicht tun.
Wie in 5 gezeigt ist, beinhaltet das Verfeinerungssystem 212 beispielsweise ein verfeinerndes neuronales Netzwerk 214, das dafür konfiguriert ist, ein Modell maschinellen Lernens 502 unter Nutzung einer Verlustfunktion 404 aus Digitalbildern 506 und verorteten Tags 508 zu trainieren. Die verorteten Tags 508 sind in diesem Fall unter Nutzung eines Begrenzungsrahmens 510 verortet, um einen Ort der semantischen Klasse in dem Digitalbild 506 zu identifizieren. Der Begrenzungsrahmen 510 kann als rechteckige Fläche des Digitalbildes definiert werden, die die semantische Klasse beinhaltet, kann jedoch auch Pixel beinhalten, die in der semantischen Klasse nicht beinhaltet sind. Bei dem dargestellten Beispiel ermöglicht dies die Verortung einer Person in einer Fläche des Digitalbildes 506, die den Laptopcomputer nicht beinhaltet, was im Vergleich zu Bildebenentags zur Erhöhung der Genauigkeit genutzt werden kann.
Bei einem weiteren Beispiel, das in 6 dargestellt ist, beinhaltet das Verfeinerungssystem 212 zudem ein verfeinerndes neuronales Netzwerk 214, das dafür konfiguriert ist, ein Modell maschinellen Lernens 602 unter Nutzung einer Verlustfunktion 604 aus Digitalbildern 606 und verorteten Tags 608 zu trainieren. Die verorteten Tags 608 sind bei diesem Beispiel unter Nutzung einer Segmentierungsmaske 610 jedoch auf „Pixelebene“ verortet. Die Segmentierungsmaske 610 spezifiziert daher für jedes Pixel, ob jenes Pixel Teil der semantischen Klasse, bei dem dargestellten Beispiel beispielsweise „Hörner“, ist oder nicht. Im Ergebnis ermöglicht die Segmentierungsmaske 610 im Vergleich zu dem exemplarischen Begrenzungsrahmen von 5 eine erhöhte Genauigkeit.
Die Segmentierungsmasken 610, die für verortete Tags 608 benutzt werden, ermöglichen im Vergleich zu den verorteten Tags 508, die Begrenzungsrahmen nutzen, eine erhöhte Genauigkeit, was wiederum eine erhöhte Genauigkeit der Bildebenentags 406 beim Definieren eines Ortes einer semantischen Klasse in Bezug auf ein Digitalbild ermöglicht. In der Praxis sind Trainingsdatensätze für Segmentierungsmasken 610 jedoch für eine noch geringere Anzahl semantischer Klassen (beispielsweise 80 semantische Klassen) im Vergleich zu Trainingsdatensätzen für Begrenzungsrahmen 510 (beispielsweise 750 semantische Klassen) verfügbar, was im Vergleich zu Trainingsdatensätzen für Bildebenentags 408, die beispielsweise 18.000 sind, weniger ist.
Entsprechend ist das Verfeinerungssystem bei einem Beispiel dafür konfiguriert, sowohl ein verfeinerndes neuronales Netzwerk, das unter Nutzung von Begrenzungsrahmen trainiert wird, wie auch ein verfeinerndes neuronales Netzwerk, das unter Nutzung von Segmentierungsmasken trainiert wird, einzusetzen, um mit den verschiedenen Ebenen der Genauigkeit und der Verfügbarkeit semantischer Tags zu arbeiten. Wie in 7 gezeigt ist, beinhaltet das System 700 beispielsweise das Einbettungsmodul 206 und das einbettende neuronale Netzwerk 208 von 1 und nimmt als Eingabe ein Digitalbild 106 und einen Tag 118, der die semantische Klasse 120 „Hörner“ spezifiziert, an.
Das Einbettungsmodul 206 setzt sodann das einbettende neuronale Netzwerk 208, das unter Nutzung von Bildebenentags trainiert worden ist, ein, um eine Aufmerksamkeitskarte 702 zu generieren, die einen groben Ort der semantischen Klasse 120 innerhalb des Digitalbildes 106 definiert. Dieser Ort wird sodann unter Nutzung des Verfeinerungssystems 212 mittels eines anfangsverfeinernden neuronalen Netzwerkes 704 und eines anschlussverfeinernden neuronalen Netzwerkes 706 verfeinert.
Das anfangsverfeinernde neuronale Netzwerk 704 wird unter Nutzung von Begrenzungsrahmen 710, wie anhand 5 beschrieben ist, trainiert. Das anfangsverfeinernde neuronale Netzwerk 708 wird daher dafür trainiert, den Ort der semantischen Klasse 120 in der Aufmerksamkeitskarte 702 zu verfeinern, um einen anfangsverfeinerten Ort als Teil einer anfangsverfeinerten Aufmerksamkeitskarte 712 zu generieren (Block 308)
Die anfangsverfeinerte Aufmerksamkeitskarte 712 wird sodann als Eingabe an ein anschlussverfeinerndes neuronales Netzwerk 706 weitergegeben. Das anschlussverfeinernde neuronale Netzwerk 706 wird, wie anhand 6 beschrieben ist, unter Nutzung von Segmentierungsmasken 716 definiert, die die auf Pixelebene gegebene Genauigkeit der Verortung der semantischen Klassen 120 innerhalb der Digitalbilder 106 definieren. Das anschlussverfeinernde neuronale Netzwerk 706 wird sodann dafür konfiguriert, den anfangsverfeinerten Ort der anfangsverfeinerten Aufmerksamkeitskarte 712 zu einem anschlussverfeinerten Ort in einer anschlussverfeinerten Aufmerksamkeitskarte 718 weiter zu verfeinern (Block 310). Daher werden, wie dargestellt ist, die Orte der semantischen Klasse 120 „Hörner“, die innerhalb der Aufmerksamkeitskarte 702 definiert sind, weiter sequenziell durch die anfangsverfeinerte Aufmerksamkeitskarte 712 und die anschlussverfeinerte Aufmerksamkeitskarte 718 verfeinert. Ebenfalls einbezogen sind weitere Beispiele, bei denen jedes von den anfangs- oder anschlussverfeinernden neuronalen Netzwerken 704, 706 für sich genommen benutzt wird, um die Aufmerksamkeitskarte 702, die von dem einbettenden neuronalen Netzwerk 208 ausgegeben wird, zu verfeinern.
Unabhängig davon, wie sie generiert worden ist, kann die verfeinerte Aufmerksamkeitskarte 216, die von dem Verfeinerungssystem 212 ausgegeben wird, sodann zum Angeben des verfeinerten Ortes der semantischen Klasse in dem Digitalbild benutzt werden (Block 312). Es kann beispielsweise eine sequenzielle Nutzung der neuronalen Netzwerke erfolgen, die von der Bildebene über die Verortung von Begrenzungsrahmen bis hin zur Pixelebene trainiert sind. Unter Nutzung der Vektordarstellungen kann dies zudem für „neue“ semantische Klassen erfolgen, die nicht als Grundlage zum Trainieren des neuronalen Netzwerkes benutzt worden sind, indem mit der Ähnlichkeit der neuen semantischen Klassen zu den semantischen Klassen, die zum Trainieren der Netzwerke benutzt worden sind, gearbeitet wird, was im nachfolgenden Abschnitt „Implementierungsbeispiel“ als „Zero Shot Learning“ bezeichnet wird und unter Nutzung herkömmlicher Techniken nicht möglich ist. Auf diese Weise kann unter Nutzung von Vektordarstellungen und einer sequenziellen Verfeinerung einer Aufmerksamkeitskarte ein Digitalbildsegmentierungssystem die Beschränkungen herkömmliche Systeme, darunter den Mangel an Trainingsdaten, überwinden und mit Millionen möglicher Tags umgehen, die zur Beschreibung semantischer Klassen, die in Digitalbildern vorkommen, benutzt werden. Die weitere Diskussion dieser und weiterer Beispiele erfolgt im nachfolgenden Abschnitt „Implementierungsbeispiel“ .
Implementierungsbeispiel
Wie vorstehend beschrieben worden ist, arbeiten die Techniken zur Verortung semantischer Klassen mit verschiedenen Datensätzen mit verschiedenen Ebenen der Überwachung zum Trainieren jeweiliger neuronaler Netzwerke. Ein erster Trainingsdatensatz kann beispielsweise 6.000.000 Digitalbilder mit 18.000 Tags verschiedener semantischer Klassen beinhalten. Ein zweiter Trainingsdatensatz ist auf Grundlage verorteter Tags als Begrenzungsrahmen für 750 verschiedene semantische Klassen konfiguriert. Ein dritter Trainingsdatensatz ist auf Grundlage verorteter Tags als Segmentierungsmasken für 80 verschiedene semantische Klassen konfiguriert.
Mit diesen Datensätzen wird eine halbüberwachte Trainingstechnik von dem Digitalbildsegmentierungssystem 116 als inkrementelles lernendes Framework eingesetzt. Dieses Framework beinhaltet drei Schritte. Zunächst wird ein neuronales Deep-Netzwerk anhand des vorbeschriebenen ersten Datensatzes trainiert, um eine allgemeine visuell-semantische Einbettung zwischen Digitalbildern und 18.000 semantischen Klassen zu lernen. Indem das einbettende Netzwerk vollständig faltungstechnisch betrieben wird, kann eine grobe Aufmerksamkeitskarte (coarse heatmap) für beliebige gegebene semantische Klassen berechnet werden.
Als Nächstes werden zwei vollständig verbundene Schichten an das einbettende neuronale Netzwerk als das anfangsverfeinernde neuronale Netzwerk 704 des Verfeinerungssystems 702 angehängt. Dieses neuronale Netzwerk wird sodann in niedriger Auflösung unter Nutzung des zweiten Datensatzes mit 750 semantischen Klassen mit Begrenzungsrahmenkommentierungen trainiert, um die Aufmerksamkeitskarten zu verfeinern. Bei einer Implementierung wird ein Multitask-Training für das Lernen aus dem zweiten Datensatz benutzt, ohne dass dies Auswirkungen auf das vorher gelernte Wissen aus dem ersten Datensatz hat.
Schließlich wird das anschlussverfeinernde neuronale Netzwerk 706 als labelagnostisches segmentierendes neuronales Netzwerk trainiert, das die anfangsverfeinerte Aufmerksamkeitskarte 712 und das ursprüngliche Digitalbild 106 als Eingabe nimmt und eine hochaufgelöste Segmentierungsmaske als anschlussverfeinerte Aufmerksamkeitskarte 718 ohne merkliche Kenntnis der von Interesse seienden semantischen Klasse 120 vorhersagt. Das Segmentierungsnetzwerk wird mittels der auf Pixelebene erfolgenden Überwachung anhand von 80 Konzepten des dritten Datensatzes trainiert, kann jedoch zu der für ein beliebiges semantisches Konzept berechneten Aufmerksamkeitskarte verallgemeinert werden.
Wie in 7 gezeigt ist, beinhaltet das Gesamtframework des allgemeinen Segmentierungssystems, das durch das Digitalbildsegmentierungssystem 116 implementiert ist, ein Einbettungsmodul 206, das ein einbettendes neuronales Netzwerk 208 aufweist, das eine Aufmerksamkeitskarte 702 aus dem Digitalbild 106 und der semantischen Klasse 120, die durch den Tag 118 spezifiziert wird, generiert. Das Verfeinerungssystem 212 beinhaltet ein anfangsverfeinerndes neuronales Netzwerk 704, das die anfangsverfeinerte Aufmerksamkeitskarte 712 als „niedrigaufgelöste Aufmerksamkeitskarte“ generiert, die sodann von dem anschlussverfeinernden Netzwerk 706 verfeinert wird, um eine anschlussverfeinerte Aufmerksamkeitskarte 718 als Segmentierungsmaske beispielsweise auf Pixelebene zu generieren.
Einbettendes neuronales Netzwerk 208
Das einbettende neuronale Netzwerk 208 wird mit dem ersten Trainingsdatensatz trainiert, der Bildebenentags aufweist, um die allgemeine visuell-semantische Einbettung zu lernen. Der erste Datensatz weist 6.000.000 Bilder auf, von denen jedes kommentierte Tags aus einer Sammlung von 18.000 semantischen Klassen aufweist. Der erste Trainingssatz wird mit D = {(I, (w₁, w₂, ..., w_n)} bezeichnet, wobei / ein Bild ist und w_i die Wortvektordarstellung der zugeordneten Ground-Truth-Tags ist.
Es wird PMI (Pointwise Mutual Information) genutzt, um die Wortvektordarstellungen für jeden Tag w in dem Vokabular zu generieren. Die PMI ist ein Verknüpfungs- bzw. Zuordnungsmaß, das in der Informationstheorie und der Statistik benutzt wird. Insbesondere wird die PMI-Matrix M berechnet, deren Element (i,j) folgendermaßen lautet: $M_{i j} = P M I (w_{i}, w_{j}) = log \frac{p (w_{i}, w_{j})}{p (w_{i}) p (w_{j})}$
Hierbei bezeichnet p(w_i, w_j) die Kookkurrenzwahrscheinlichkeit (Wahrscheinlichkeit des gemeinsamen Vorkommens) von w_i und w_j, während p(w_i) und p(w_j) die Okkurrenzfrequenz (Häufigkeit des gemeinsamen Vorkommens) von w_i beziehungsweise w_j bezeichnen. Die Matrix weist die Größe V × V auf, wobei V die Größe des Tagvokabulars
ist. Der Wert M berücksichtigt die Kookkurrenzen von Tags im Trainingskorpus. Es wird sodann eine Eigenvektorzerlegung vorgenommen, um die Matrix M gemäß M = USU^T zu zerlegen. Gilt $W = U S^{- \frac{1}{2}},$
so wird jede Reihe der spaltentrunkierten Untermatrix W_:,1:D als Wortvektor für den entsprechenden Tag genutzt.
Da jedes Bild mehreren Tags zugeordnet ist, wird, um eine einzelne Vektordarstellung für jeden zu generieren, ein gewichtetes Mittel über jeden der zugeordneten Tags berechnet. Es gilt $t = \sum_{i = 1}^{n} α_{i} w_{i},$
wobei α = -log(p(w_i)) die inverse Dokumenthäufigkeit (Inverse Document Frequency idf) des Wortes w_i ist. Das gewichtete Mittel wird als Soft-Topic-Einbettung bezeichnet.
Das einbettende neuronale Netzwerk 208 lernt, die Bilddarstellung und die Vektordarstellung der zugeordneten Tags in einen gemeinsamen Einbettungsraum abzubilden. Bei einem Beispiel wird jedes Bild / durch einen CNN-Merkmalsextraktor, beispielsweise einen ResNet-50-Extraktor, geleitet. Nach einem globalen Mittelungspooling (Global Average Pooling GAP) wird das visuelle Merkmal aus dem Digitalbild 106 sodann in ein drei Schichten aufweisendes vollständig verbundenes Netzwerk eingegeben, wobei auf jede vollständig verbundene Schicht eine Batch-Normierungsschicht und eine ReLu-Schicht folgen. Die Ausgabe ist die visuelle Einbettung e = embd_net(I) und ist mit dem Soft-Topic-Wortvektor t folgendermaßen durch einen Kosinusähnlichkeitsverlust verknüpft: $L_{e m b e d} (e, t) = 1 - < e, t > = 1 - \frac{e^{T} t}{‖ e ‖ ‖ t ‖}$
Nachdem das einbettende neuronale Netzwerk 208 trainiert worden ist, wird die GAP-Schicht entfernt, und man erhält die Aufmerksamkeitskarte für eine gegebene semantische Klasse, wodurch das Netzwerk in ein vollständig faltungstechnisches Netzwerk transformiert ist. Dies erfolgt, indem die vollständig verbundenen Gewichtungen in 1 × 1-Faltungskerne und die Batch-Normierungsschichten in räumliche Batch-Normierungsschichten umgewandelt werden. Nach dieser Transformation kann man bei gegebenem Digitalbild 106 und gegebener Vektordarstellung 204 eine dichte Einbettungskarte erhalten, wo der Wert an jedem Ort die Ähnlichkeit zwischen der semantischen Klasse 120 und dem Bildbereich um jenen Ort darstellt. Die Einbettungskarte wird auch als Aufmerksamkeitskarte für jenes Wort bezeichnet.
Formal kann die Aufmerksamkeitskarte für eine gegebene semantische Klasse w folgendermaßen berechnet werden: ${Att}_{(i, j)} = < e_{i, j}, w >$
Hierbei ist (i,j) der Ortsindex für die Aufmerksamkeitskarte.
Für eine ungesehene semantische Klasse, die nicht als Teil des Bild-Wort-Einbettungstrainings benutzt wird, ist es, solange das Generieren der Vektordarstellung (das heißt des Wortvektors) w möglich ist, weiterhin möglich, die Aufmerksamkeitskarte hiervon unter Nutzung der vorstehenden Gleichung zu erhalten. Das einbettende neuronale Netzwerk 208 zu einer beliebigen willkürlichen semantischen Klasse verallgemeinert werden, was bei herkömmlichen Techniken nicht möglich ist.
Obwohl das einbettende Netzwerk, das für die Bildebenenkommentierung trainiert ist, eine Aufmerksamkeitskarte für allgemeine Konzepte vorhersagen kann, ist die sich ergebende Aufmerksamkeitskarte infolge des Mangels an Kommentierungen mit räumlicher Information weiterhin grob.
Verfeinerungssystem 212
Um die Qualität der Aufmerksamkeitskarte 210 zu verbessern, wird das Verfeinerungssystem 212 eingesetzt, um mit auf feineren Ebenen gegebenen Tags, nämlich den Objektbegrenzungsrahmentags, zu arbeiten, die in dem zweiten Datensatz verfügbar sind, und zwar beispielsweise unter Nutzung von 750 semantischen Klassen eines betreuten OIVG-750-Datensatzes.
Das verfeinernde neuronale Netzwerk 214 wird an das Ende des einbettenden neuronalen Netzwerkes 208 angehängt und beinhaltet zwei faltungstechnische Schichten mit 1 × 1-Kernen, auf die eine Sigmoidschicht folgt. Indem die 18.000 Worteinbettungen als faltungstechnische Terme behandelt werden, kann das einbettende neuronale Netzwerk 208 18.000 grobe Aufmerksamkeitskarten 210 ausgeben. Das zwei Schichten aufweisende verfeinernde neuronale Netzwerk 214 des Verfeinerungssystems 212 nimmt diese 18.000 groben Aufmerksamkeitskarten sodann als Eingabe und lernt eine Nichtlinearkombination der Konzepte, um verfeinerte Aufmerksamkeitskarten 216 für die 750 semantischen Klassen zu generieren. Das verfeinernde neuronale Netzwerk 214 berücksichtigt daher während des Trainings die Beziehung zwischen verschiedenen semantischen Klassen.
Für eine gegebene semantische Klasse ist ein Trainingssignal für deren Aufmerksamkeitskarte eine Binärmaske auf Grundlage der Ground-Truth-Begrenzungsrahmen, wobei ein Sigmoid-Kreuzentropie-Verlust benutzt wird. Das einbettende neuronale Netzwerk 208 wird zudem für bessere Leistungen feinabgestimmt. Da der Begrenzungsrahmentag beim vorliegenden Beispiel jedoch auf eine geringere Anzahl semantischer Klassen (beispielsweise 750) beschränkt ist, wird das verfeinernde neuronale Netzwerk 214 nur anhand dieser Klassen trainiert. Um das erlernte Wissen aus den restlichen 18.000 semantischen Klassen zu erhalten, wird ein zusätzlicher Abgleichsverlust (matching lost) hinzugefügt bzw. addiert. Die Aufmerksamkeitskarten 210, die von dem einbettenden neuronalen Netzwerk 208 generiert werden, werden beispielsweise schwellenbasiert zu Binärmasken gemacht (thresholded), und es wird ein Sigmoid-Kreuzentropie-Verlust für die verfeinerten Aufmerksamkeitskarten 216 eingesetzt, um die Aufmerksamkeitskarten 210 aus dem Einbettungsmodul 206 abzugleichen. Die Multitask-Verlustfunktion lautet folgendermaßen: $L = L_{x e} (G T, A t t) + α \sum_{j \in Ψ_{N}} L_{x e} (B ({Att_ori}_{j}), A t t_{j})$
Hierbei ist L_xe(p,q) der Kreuzentropieverlust zwischen den Verteilungen p und q, Att ist die Aufmerksamkeitskarte des gegebenen Konzepts, GT ist die Ground-Truth-Maske, B(Att) ist die Binärmaske nach der Schwellenumwandlung (thresholding) der Aufmerksamkeitskarte, Att_ori_j und Att_j sind die ursprüngliche Aufmerksamkeitskarte beziehungsweise die verfeinerte Aufmerksamkeitskarte, und Ψ_N ist der Satz von Indizes der besten N aktivierten ursprünglichen Aufmerksamkeitskarten. Daher kommt der Abgleichsverlust nur bei Aufmerksamkeitskarten mit hoher Aktivierung zum Einsatz. α ist die Gewichtung, die die Verluste ausgleicht. Bei einem Beispiel ist der Wert N = 800 und α = 10^-6.
Bei einer Implementierung wird ein Sigmoid-Kreuzentropie-Verlust während des Trainings anstatt eines Softmax-Verlustes wie bei der semantischen Segmentierung benutzt, um mit semantischen Klassen, die einander überlappende Masken aufweisen, umzugehen, was bei Objekten und deren Teilen besonders gängig ist. Die Maske eines Gesichtes ist beispielsweise immer von der Maske einer Person überdeckt. Die Nutzung eines Softmax-Verlustes schwächt daher auf gewisse Art Maskenvorhersagen über diese Konzepte ab. Gleichzeitig kommen weiterhin zahlreiche Fälle vor, in denen die Masken der beiden semantischen Klassen nie überlappen. Um diese Information zu nutzen und um das Training der Aufmerksamkeitskarten unterscheidungsstärker bzw. diskriminativer zu machen, wird ein Hilfsverlust für diese nichtüberlappenden Konzepte hinzugefügt bzw. addiert, um starke Reaktionen für beide Konzepte, die gleichzeitig vorkommen, abzuschwächen.
Insbesondere wird das Maskenüberlappungsverhältnis zwischen jedem kookkurrenten Konzeptpaar in den Trainingsdaten folgendermaßen berechnet: $O (i, j) = \frac{Σ_{n} O_{n} (i, j)}{Σ_{n} a_{n} (i)}$
Hierbei ist a_n(i) die Maske des i-ten Konzeptes in dem Bild n, und o(^.,^.) ist die Überlappungsfläche zwischen zwei Konzepten. Man beachte, dass das Maskenüberlappungsverhältnis nicht symmetrisch ist.
Bei der Überlappungsverhältnismatrix kann ein Trainingsbeispiel für ein Konzept i als negatives Trainingsbeispiel für das zugeordnete nichtüberlappende Konzept j, das heißt für einen bestimmten Ort in dem Bild, dienen, wobei die Ausgabe für das Konzept j gleich 0 sein sollte, wenn der Ground-Truth-Wert für das Konzept i gleich 1 ist. Um diese Randbedingung abzuschwächen, wird der Hilfsverlust auf Grundlage des Überlappungsverhältnisses weiter gewichtet, wobei die Gewichtung γ folgendermaßen berechnet wird: $γ = {\begin{matrix} 1 - O (i, j), w e n n O (i, j) < 0,5 \\ 0, s o n s t \end{matrix}$
Das Verfeinerungssystem 212 kann nunmehr eine niedrigaufgelöste Aufmerksamkeitskarte für ein beliebiges Konzept unter Nutzung der Vektordarstellung 204 vorhersagen. Um die Maske des Konzeptes mit höherer Auflösung und besserer an den Grenzen gegebener Qualität zu erhalten, wird ein labelagnostisches Segmentierungsnetzwerk als anschlussverfeinerndes neuronales Netzwerk 706 trainiert, das das ursprüngliche Digitalbild 106 und die Aufmerksamkeitskarte als Eingabe nimmt und eine Segmentierungsmaske ohne Kenntnis der semantischen Klasse 120 generiert. Da das anschlussverfeinernde neuronale Netzwerk 706 dafür konfiguriert ist, eine Segmentierungsmaske mit vorheriger Kenntnis der anfangsverfeinerten Aufmerksamkeit bzw. Aufmerksamkeitskarte 712 zu generieren, kann das Segmentierungsnetzwerk auf ungesehene Konzepte verallgemeinert werden, obwohl es bei diesem Beispiel nur anhand des dritten Trainingsdatensatzes mit 80 semantischen Klassen trainiert worden ist.
Zum verschieden allgemein erfolgenden Segmentieren der Masken für die Konzepte werden mehrere Aufmerksamkeitskarten generiert, indem in das einbettende neuronale Netzwerk 208 verschiedene Eingabebildgrößen, beispielsweise Abmessungen mit 300 und 700 Pixeln, eingegeben werden. Die sich ergebenden Aufmerksamkeitskarten werden sodann mittels Upsampling bearbeitet und dienen als zusätzlicher Eingabekanal für das Verfeinerungssystem 212 zusammen mit dem Digitalbild 106.
Zur Fokussierung des Verfeinerungssystems 212 beim Generieren genauer Masken, anstatt dass zusätzliche Belastungen beim Vorhersagen der Existenz des Konzeptes in dem Bild vorhanden wären, können die Aufmerksamkeitskarten auf [0,1] normiert werden, um die Recheneffizienz zu erhöhen. Dies bedeutet, dass davon ausgegangen wird, dass die von Interesse seiende semantische Klasse in dem Digitalbild während der dritten Phase, die das anschlussverfeinernde neuronale Netzwerk 706 trainiert, vorkommt, was Segmentierungsnetzwerke mit erhöhter Genauigkeit ergibt.
8 zeigt eine exemplarische Architektur 800 des anschlussverfeinernden neuronalen Netzwerkes 706 als Segmentierungsnetzwerk. Die exemplarische Architektur 800 weist Y-Form auf und beinhaltet drei Teile, nämlich einen auf hoher Ebene gegebenen Stream (high-level stream) 802, der ein herkömmliches Encoder-Netzwerk zum Extrahieren visueller Merkmale und Generieren einer zwei Kanäle aufweisenden niedrigaufgelösten Merkmalsausgabe als Ausgabe benutzt; einen auf niedriger Ebene gegebenen Stream (low-level stream) 804, der vollaufgelöste Mehrkanalmerkmalskarten durch ein Modul mit flachem Netzwerk (shallow network) extrahiert; und ein Modul zur Grenzverfeinerung 806, das die auf hoher Ebene und auf niedriger Ebene gegebenen Merkmale kombiniert, um eine vollaufgelöste Segmentierungsmaske 808 als anschlussverfeinerte Aufmerksamkeitskarte 718 zu generieren. Das Modul zur Grenzverfeinerung 806 verkettet die Ausgabe der auf niedriger Ebene und auf hoher Ebene gegebenen Streams und leitet diese an mehrere dicht verbundene Einheiten weiter, wobei die Ausgabe einer jeden dichten Einheit Teil der Eingabe in eine beliebige andere dichte Einheit ist.
Der auf hoher Ebene gegebene Stream 802 kann als Deep-CNN-Encoder-Netzwerk implementiert sein, es sei denn, die Eingabe des Netzwerkes verfügt über zwei zusätzliche Kanäle der Aufmerksamkeitskarte, die in dem Aufmerksamkeitsnetzwerk empfangen werden, und zwar beispielsweise einen aus der Eingabebildgröße 300 × 300 und einen aus der Größe 700 × 700. Für das Segmentierungsmodell kann eine Version von Inception-V2 benutzt werden, bei der die letzten drei Schichten, das heißt Pool, Linear und Softmax, entfernt sind. Die Eingabe ist ein 244×244-5-Kanal-Digitalbild 108 nebst der Aufmerksamkeitskarte 702, während die Ausgabe der trunkierten Inceptions-V2-Version eine 7×7-1024-Kanal-Merkmalskarte ist. Um eine 14×14-Merkmalskarte zu erhalten, wird eine verzögerte Faltung (dilated convolution) für die letzten beiden Inception-Module benutzt. Schließlich wird eine Faltungsschicht hinzugefügt bzw. addiert, um die 2-Kanal-14×14-Merkmalskarte zu generieren.
Der auf niedriger Ebene gegebene Stream 804 ist als flaches Netzwerk implementiert. Die Eingabe des flachen Netzwerkes ist ein 3-Kanal-Digitalbild 108 nebst zweier zusätzlicher Kanäle der anfänglichen Aufmerksamkeitskarte 702. Insbesondere kann eine einzelne 7x7-Faltungsschicht mit einer Schrittweite (stride) von 1 benutzt werden. Die Ausgabe dieses Streams ist eine 64-Kanal-224×224-Merkmalskarte.
Das Modul zur Grenzverfeinerung 806 nimmt das auf niedriger Ebene und auf hoher Ebene gegebene Merkmal als Eingabe und gibt das Endergebnis als Segmentierungsmaske 808 aus. Insbesondere wird die Größe der auf hoher Ebene gegebenen Merkmalskarte auf die ursprüngliche Auflösung (in unserem Fall 224×224) durch bilineares Upsampling ändert. Die dem Upsampling unterzogene auf hoher Ebene gegebene Merkmalskarte wird sodann mit der auf niedriger Ebene gegebenen Merkmalskarte verkettet und an die dicht verbundenen Schichteinheiten weitergegeben. Jede dichte Einheit beinhaltet Faltungsschichten, wobei die Ausgabe mit der Eingabe der Einheit verkettet ist. Diese dicht verbundene Struktur ermöglicht ein effektiveres Training zur Verbesserung der Qualität an den Grenzen.
Zero Shot Learning
Wie vorstehend beschrieben worden ist, werden 18.000 semantische Klassen nur in dem einbettenden neuronalen Netzwerk 208 mit einer Bildebenenüberwachung unter Nutzung der Bildebenentags 408 trainiert. Das Verfeinerungssystem 212 wird jedoch unter Nutzung verorteter Tags 608 trainiert, und zwar beispielsweise auf der Ebene der Begrenzungsrahmen oder der Ebene der Segmentierungsmasken (Pixel). Das Auseinanderklaffen zwischen den qualitativ schlechteren Aufmerksamkeitskarten des einbettenden neuronalen Netzwerkes 208 und den qualitativ besseren Aufmerksamkeitskarten des Verfeinerungssystems 212 (beispielsweise 750 semantische Klassen) kann die Segmentierungsfähigkeit an den 18.000 semantischen Klassen beeinflussen.
Daher findet man für eine semantische Klasse q aus den 18.000 semantischen Klassen mit lediglich einer Bildebenenüberwachung das nächstgelegene Nachbarkonzept p hierzu in einem Einbettungsraum aus semantischen Klassen, die zum Trainieren des verfeinernden neuronalen Netzwerkes 214 beispielsweise mit 750 semantischen Klassen benutzt werden. Eine Linearkombination der Aufmerksamkeitskarten aus den beiden Konzepten wird sodann als eingegebene Aufmerksamkeitskarte 210 für das Verfeinerungssystem 212 benutzt. $A t t = θ A t t_{q} + (1 - θ) A t t_{p}$
Hierbei entscheidet θ über einen Validierungssatz.
Beim Zero Shot Learning erhält man die Einbettung und die Aufmerksamkeitskarte der semantischen Klasse, wie vorstehend beschrieben worden ist. Zur Vorhersage einer Segmentierung für die semantische Klasse wird dieselbe Technik unter Nutzung einer Linearkombination von Aufmerksamkeitskarten der semantischen Klasse und des nächstgelegenen Nachbarn hierzu für das Verfeinerungssystem 212 genutzt. Auf diese Weise kann das Digitalbildsegmentierungssystem 116 sogar dann mit semantischen Klassen umgehen, wenn diese Klassen nicht zum Trainieren der neuronalen Netzwerke des Systems benutzt worden sind, was unter Nutzung herkömmlicher Techniken nicht möglich ist.
Exemplarisches System und exemplarische Vorrichtung
9 zeigt bei 900 allgemein ein exemplarisches System, das eine exemplarische Rechenvorrichtung 902 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen darstellt, die die hier beschriebenen verschiedenen Techniken implementieren können. Dies ist durch Einbeziehung des Digitalbildsegmentierungssystems 116 dargestellt. Die Rechenvorrichtung 902 kann beispielsweise ein Server eines Dienstanbieters, eine Vorrichtung, die einem Client zugeordnet ist (beispielsweise eine Clientvorrichtung), ein On-Chip-System und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein.
Die exemplarische Rechenvorrichtung 902 beinhaltet, wie dargestellt ist, ein Verarbeitungssystem 904, ein oder mehrere computerlesbare Medien 906 und eine oder mehrere I/O-Schnittstellen 908, die kommunikationstechnisch miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 902 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination aus verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor- oder Lokalbus, der eine Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl weiterer Beispiele, so beispielsweise Steuer- bzw. Regel- und Datenleitungen, ist ebenfalls einbezogen.
Das Verarbeitungssystem 904 stellt eine Funktionalität zur Durchführung einer oder mehrerer Operationen bzw. Vorgänge unter Nutzung von Hardware dar. Entsprechend ist das Verarbeitungssystem 904 derart dargestellt, dass es Hardwareelemente 910 beinhaltet, die als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein können. Dies kann eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder als andere Logikvorrichtung, die unter Nutzung eines oder mehrerer Halbleiter gebildet ist, beinhalten. Die Hardwareelemente 910 sind nicht durch die Materialien, aus denen sie gebildet sind, oder durch die Bearbeitungsmechanismen, die zum Einsatz kommen, beschränkt. Die Prozessoren können beispielsweise aus einem Halbleiter / Halbleitern und/oder Transistoren (beispielsweise elektronischen integrierten Schaltungen (ICs)) bestehen. In diesem Kontext können prozessorseitig ausführbare Anweisungen elektronisch ausführbare Anweisungen sein.
Die computerlesbaren Speichermedien 906 sind derart dargestellt, dass sie eine Ablage / einen Speicher 912 beinhalten. Die Ablage / der Speicher 912 bietet eine Ablage-/Speicherkapazität, die einem oder mehreren computerlesbaren Medien zugeordnet ist. Die Ablage-/Speicherkomponente 912 kann flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr) beinhalten. Die Ablage-/Speicherkomponente 912 kann feste Medien (beispielsweise RAM, ROM, ein Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr) beinhalten. Die computerlesbaren Medien 906 können auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.
Eine Eingabe-/Ausgabe-Schnittstelle / Eingabe-/Ausgabe-Schnittstellen 908 bieten eine Funktionalität, die ermöglicht, dass ein Nutzer Befehle und Information in die Rechenvorrichtung 902 eingibt, und die zudem ermöglicht, dass dem Nutzer und/oder anderen Komponenten oder Vorrichtungen Information unter Nutzung verschiedener Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitive oder andere Sensoren, die dafür konfiguriert sind, eine physische Berührung zu detektieren), eine Kamera (die beispielsweise sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, dafür einsetzen kann, Bewegungen als Gesten zu erkennen, die keine Berührung implizieren), und dergleichen mehr. Beispiele für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine taktile Vorrichtung und dergleichen mehr. Daher kann die Rechenvorrichtung 902 auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um die Nutzerinteraktion zu unterstützen.
Es sind hier verschiedene Techniken im allgemeinen Kontext von Software, Hardwareelementen oder Programmmodulen beschrieben worden. Allgemein beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul“, „Funktionalität“ und „Komponente“ bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen mit einer Vielzahl von Prozessoren implementiert sein können.
Eine Implementierung der beschriebenen Module und Techniken kann auf einer bestimmten Form von computerlesbaren Medien gespeichert sein oder über diese übertragen werden. Die computerlesbaren Medien können eine Vielzahl von Medien beinhalten, auf die von der Rechenvorrichtung 902 zugegriffen werden kann. Beispiels- und nicht beschränkungshalber können computerlesbare Medien „computerlesbare Speichermedien“ und „computerlesbare Signalmedien“ beinhalten.
„Computerlesbare Speichermedien“ können Medien und/oder Vorrichtungen bezeichnen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder zu Signalen per se ermöglichen. Computerlesbare Speichermedien bezeichnen daher nicht signaltragende Medien. Computerlesbare Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien und/oder Speichervorrichtungen, die bei einem Verfahren oder einer Technologie implementiert sind, die zur Speicherung von Information geeignet ist, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule, Logikelemente/Schaltungen oder andere Daten. Beinhalten können Beispiele für computerlesbare Speichermedien unter anderem RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder eine andere Speichervorrichtung, physische Medien oder Objekte, die dafür geeignet sind, dass gewünschte Information gespeichert wird, und auf die ein Computer zugreifen kann.
„Computerlesbare Signalmedien“ können signaltragende Medien bezeichnen, die dafür konfiguriert sind, Anweisungen an die Hardware der Rechenvorrichtung 902 beispielsweise über ein Netzwerk zu übermitteln. Signalmedien können typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal verkörpern, so beispielsweise Trägerwellen, Datensignale oder andere Transportmechanismen. Signalmedien beinhalten zudem beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder verändert sind, dass Information in dem Signal codiert ist. Beispiels- und nicht beschränkungshalber beinhalten Kommunikationsmedien drahtgebundene Medien, so beispielsweise ein drahtgebundenes Netzwerk oder eine Direktdrahtverbindung, und drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere drahtlose Medien.
Wie vorstehend beschrieben worden ist, stellen die Hardwareelemente 910 und die computerlesbaren Medien 906 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik dar, die in Form von Hardware implementiert sind, die bei einigen Ausführungsformen dafür eingesetzt werden kann, wenigstens einige Aspekte der hier beschriebenen Techniken beispielsweise zur Ausführung einer oder mehrerer Anweisungen zu implementieren. Die Hardware kann Komponenten einer integrierten Schaltung oder eines On-Chip-Systems, eine anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), eine komplexe programmierbare Logikvorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware beinhalten. In diesem Zusammenhang kann Hardware als Verarbeitungsvorrichtung wirken, die Programmaufgaben wahrnimmt, die durch Anweisungen und/oder eine Logik definiert sind, die durch Hardware verkörpert ist, wie auch Hardware, die zur Speicherung von Anweisungen zur Ausführung benutzt werden, so beispielsweise durch die vorbeschriebenen computerlesbaren Speichermedien.
Kombinationen des Vorbeschriebenen können zudem zur Implementierung verschiedener der hier beschriebenen Techniken eingesetzt werden. Entsprechend können Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 910 verkörpert ist. Die Rechenvorrichtung 902 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend Software- und/oder Hardwaremodulen zu implementieren. Entsprechend kann eine als Software gegebene Implementierung eines Moduls, das von der Rechenvorrichtung 902 ausführbar ist, auch wenigstens teilweise in Hardware erfolgen, so beispielsweise unter Nutzung computerlesbarer Speichermedien und/oder Hardwareelemente 910 des Verarbeitungssystems 904. Die Anweisungen und/oder Funktionen können von einem oder mehreren Objekten (beispielsweise einer oder mehreren Rechenvorrichtungen 902 und/oder Verarbeitungssystemen 904) ausführbar/betreibbar sein, um die hier beschriebenen Techniken, Module und Beispiele zu implementieren.
Die hier beschriebenen Techniken können von verschiedenen Konfigurationen der Rechenvorrichtung 902 unterstützt werden und sind nicht auf die spezifischen Beispiele für die hier beschriebenen Techniken beschränkt. Die Funktionalität kann zudem gänzlich oder in Teilen unter Nutzung eines verteilten Systems implementiert sein, so beispielsweise über eine „Cloud“ 914 mittels einer Plattform 916, wie nachstehend noch beschrieben wird.
Die Cloud 914 beinhaltet eine Plattform 916 für Ressourcen 918 und/oder stellt diese dar. Die Plattform 916 abstrahiert die zugrunde liegende Funktionalität der Hardware- (beispielsweise Server) und Softwareressourcen der Cloud 914. Die Ressourcen 918 können Anwendungen und/oder Daten beinhalten, die eingesetzt werden können, während eine Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 902 getrennt sind. Die Ressourcen 918 können zudem Dienste beinhalten, die über das Internet und/oder über ein Teilnehmernetzwerk bereitgestellt werden, so beispielsweise ein zellenbasiertes oder ein Wi-Fi-Netzwerk.
Die Plattform 916 kann Ressourcen und Funktionen abstrahieren, um die Rechenvorrichtung 902 mit anderen Rechenvorrichtungen zu verbinden. Die Plattform 916 kann zudem dafür dienen, die Skalierung von Ressourcen zu abstrahieren, um einen entsprechenden Skalierungsgrad für bestehenden Bedarf an den Ressourcen 918, die über die Plattform 916 implementiert sind, bereitzustellen. Entsprechend kann bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen eine Implementierung der hier beschriebenen Funktionalität über das System 900 verteilt sein. Die Funktionalität kann beispielsweise teilweise auch auf der Rechenvorrichtung 902 wie auch über die Plattform 916, die die Funktionalität der Cloud 914 abstrahiert, implementiert sein.
Schlussbemerkung
Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für Strukturmerkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht unbedingt auf die beschriebenen spezifischen Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims

Verfahren, das durch wenigstens eine Rechenvorrichtung implementiert ist, in einer Digitalmedienumgebung zur Verortung semantischer Klassen, wobei das Verfahren umfasst: durch die wenigstens eine Rechenvorrichtung erfolgendes Umwandeln eines Tags in eine Vektordarstellung, wobei der Tag eine semantische Klasse definiert, die in einem Digitalbild befindlich sein soll; durch die wenigstens eine Rechenvorrichtung erfolgendes Generieren einer Aufmerksamkeitskarte durch ein einbettendes neuronales Netzwerk auf Grundlage des Digitalbildes und der Vektordarstellung, wobei die Aufmerksamkeitskarte einen Ort in dem Digitalbild definiert, der der semantischen Klasse entspricht, wobei das einbettende neuronale Netzwerk unter Nutzung von Bildebenentags jeweiliger semantischer Klassen trainiert wird; durch die wenigstens eine Rechenvorrichtung erfolgendes Verfeinern des Ortes der semantischen Klasse in der Aufmerksamkeitskarte durch ein verfeinerndes neuronales Netzwerk, wobei das verfeinernde neuronale Netzwerk unter Nutzung verorteter Tags jeweiliger semantischer Klassen trainiert wird; und durch die wenigstens eine Rechenvorrichtung erfolgendes Angeben des verfeinerten Ortes der semantischen Klasse in dem Digitalbild unter Nutzung der verfeinerten Aufmerksamkeitskarte.
Verfahren nach Anspruch 1, wobei das Umwandeln der Vektordarstellung ein einbettendes neuronales Netzwerk als Teil maschinellen Lernens benutzt.
Verfahren nach Anspruch 1 oder 2, wobei die Bildebenentags jeweilige semantische Klassen angeben, die jeweiligen Digitalbildern als Ganzes zugeordnet sind, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Bildebenentags nicht an jeweiligen Abschnitten von Digitalbildern verortet werden, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die verorteten Tags der semantischen Klassen an jeweiligen Abschnitten der Digitalbilder verortet werden, die zum Trainieren des verfeinernden neuronalen Netzwerkes unter Nutzung jeweiliger Begrenzungsrahmen benutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die verorteten Tags der semantischen Klassen an jeweiligen Abschnitten der Digitalbilder verortet werden, die zum Trainieren des verfeinernden neuronalen Netzwerkes unter Nutzung jeweiliger Segmentierungsmasken trainiert werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Anzahl semantischer Klassen, die zum Trainieren des verfeinernden neuronalen Netzwerkes benutzt werden, kleiner als eine Anzahl semantischer Klassen ist, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das durch das verfeinernde neuronale Netzwerk erfolgende Verfeinern beinhaltet: Verfeinern des Ortes der semantischen Klasse in der Aufmerksamkeitskarte zum Generieren eines anfangsverfeinerten Ortes durch ein anfangsverfeinerndes neuronales Netzwerk, wobei das anfangsverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags trainiert wird, die unter Nutzung jeweiliger Begrenzungsrahmen verortet werden; und Verfeinern des anfangsverfeinerten Ortes der semantischen Klasse zum Generieren eines anschlussverfeinerten Ortes durch ein anschlussverfeinerndes neuronales Netzwerk, wobei das anschlussverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags trainiert wird, die unter Nutzung jeweiliger Segmentierungsmasken verortet werden, und wobei das Angeben auf dem anschlussverfeinerten Ort beruht.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Tag, der die semantische Klasse definiert, die in dem Digitalbild befindlich sein soll, keiner der Bildebenentags ist, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden, und keiner der verorteten Tags ist, die zum Trainieren des verfeinernden neuronalen Netzwerkes benutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Umwandeln für die ersten und zweiten Tags durchgeführt wird und das Generieren, das Verfeinern und das Angeben auf Grundlage der ersten und zweiten Tags gemeinsam durchgeführt werden.
System in einer Digitalmedienumgebung zur Verortung semantischer Klassen, umfassend: ein Vektordarstellungsumwandlungsmodul, das wenigstens teilweise in der Hardware wenigstens einer Rechenvorrichtung implementiert ist, zum Umwandeln eines Tags in eine Vektordarstellung, wobei der Tag eine semantische Klasse definiert, die in einem Digitalbild befindlich sein soll; ein Einbettungsmodul, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Implementieren eines einbettenden neuronalen Netzwerkes zum Generieren einer Aufmerksamkeitskarte auf Grundlage des Digitalbildes und der Vektordarstellung, wobei die Aufmerksamkeitskarte einen Ort in dem Digitalbild definiert, der der semantischen Klasse entspricht, wobei das einbettende neuronale Netzwerk unter Nutzung von Bildebenentags jeweiliger semantischer Klassen trainiert wird; und ein Verfeinerungssystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Implementieren eines verfeinernden neuronalen Netzwerkes zum Verfeinern des Ortes der semantischen Klasse in der Aufmerksamkeitskarte, wobei das verfeinernde neuronale Netzwerk unter Nutzung verorteter Tags semantischer Klassen trainiert wird.
System nach Anspruch 11, wobei die Bildebenentags jeweilige semantische Klassen angeben, die jeweiligen Digitalbildern als Ganzes zugeordnet sind, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden und die nicht an jeweiligen Abschnitten der Digitalbilder verortet sind.
System nach Anspruch 11 oder 12, wobei die verorteten Tags der semantischen Klassen an jeweiligen Abschnitten von Digitalbildern verortet werden, die zum Trainieren des verfeinernden neuronalen Netzwerkes unter Nutzung jeweiliger Begrenzungsrahmen benutzt werden.
System nach einem der Ansprüche 11 bis 13, wobei die verorteten Tags der semantischen Klassen an jeweiligen Abschnitten von Digitalbildern verortet werden, die zum Trainieren des verfeinernden neuronalen Netzwerkes unter Nutzung jeweiliger Segmentierungsmasken benutzt werden.
System nach einem der Ansprüche 11 bis 14, wobei das Verfeinerungssystem beinhaltet: ein Anfangsverfeinerungsmodul zum Verfeinern des Ortes der semantischen Klasse in der Aufmerksamkeitskarte zu einem anfangsverfeinerten Ort durch ein anfangsverfeinerndes neuronales Netzwerk, wobei das anfangsverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags semantischer Klassen trainiert wird, die unter Nutzung jeweiliger Begrenzungsrahmen verortet werden; und ein Anschlussverfeinerungsmodul zum Verfeinern des anfangsverfeinerten Ortes der semantischen Klasse zum Generieren eines anschlussverfeinerten Ortes durch ein anschlussverfeinerndes neuronales Netzwerk, wobei das anschlussverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags trainiert wird, die unter Nutzung jeweiliger Segmentierungsmasken verortet werden.
System nach einem der Ansprüche 11 bis 15, wobei der Tag, der die semantische Klasse definiert, die in dem Digitalbild befindlich sein soll, keiner der Bildebenentags ist, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden, und keiner der verorteten Tags ist, die zum Trainieren des verfeinernden neuronalen Netzwerkes benutzt werden.
Verfahren, das durch wenigstens eine Rechenvorrichtung implementiert ist, in einer Digitalmedienumgebung zur Verortung semantischer Klassen, wobei das Verfahren umfasst: Mittel zum Umwandeln eines Tags, der eine semantische Klasse definiert, die in einem Digitalbild befindlich sein soll, in eine Vektordarstellung; Mittel zum Generieren einer Aufmerksamkeitskarte durch ein einbettendes Netzwerk als Teil maschinellen Lernens auf Grundlage des Digitalbildes und der Vektordarstellung, wobei die Aufmerksamkeitskarte einen Ort in dem Digitalbild definiert, der der semantischen Klasse entspricht, wobei das einbettende Netzwerk unter Nutzung von Bildebenentags jeweiliger semantischer Klassen trainiert wird; Mittel zum Verfeinern des Ortes der semantischen Klasse in der Aufmerksamkeitskarte zu einem anfangsverfeinerten Ort durch ein anfangsverfeinerndes neuronales Netzwerk, wobei das anfangsverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags semantischer Klassen trainiert wird, die unter Nutzung jeweiliger Begrenzungsrahmen verortet werden; und Mittel zum Verfeinern des anfangsverfeinerten Ortes der semantischen Klasse zu einem anschlussverfeinerten Ort durch ein anschlussverfeinerndes neuronales Netzwerk, wobei das anschlussverfeinernde neuronale Netzwerk unter Nutzung verorteter Tags semantischer Klassen trainiert wird, die unter Nutzung jeweiliger Segmentierungsmasken verortet werden.
System nach Anspruch 17, wobei die Bildebenentags jeweilige semantische Klassen angeben, die jeweiligen Digitalbildern als Ganzes zugeordnet sind, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden und die nicht an jeweiligen Abschnitten der Digitalbilder verortet sind.
System nach Anspruch 17 oder 18, wobei die Segmentierungsmasken Segmentierungsmasken auf Pixelebene sind.
System nach einem der Ansprüche 17 bis 19, wobei: eine Anzahl der verorteten Tags, die zum Trainieren des anschlussverfeinernden neuronalen Netzwerkes benutzt werden, kleiner als eine Anzahl der verorteten Tags ist, die zum Trainieren des anfangsverfeinernden neuronalen Netzwerkes benutzt werden; und die Anzahl der verorteten Tags, die zum Trainieren des anfangsverfeinernden neuronalen Netzwerkes benutzt werden, kleiner als eine Anzahl der Bildebenentags ist, die zum Trainieren des einbettenden neuronalen Netzwerkes benutzt werden.