DE102016013630A1

DE102016013630A1 - Einbettungsraum für Bilder mit mehreren Textetiketten

Info

Publication number: DE102016013630A1
Application number: DE102016013630.8A
Authority: DE
Inventors: Zhou Ren; Zhe Lin; Chen Fang; Hailin Jin
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-01-15
Filing date: 2016-11-15
Publication date: 2017-07-20
Also published as: GB2546368A; GB2546368B; GB2546369A; GB2546369B; DE102016013631A1

Abstract

Beschrieben wird ein Einbettungsraum für Bilder mit mehreren Textetiketten. In dem Einbettungsraum sind sowohl Textetiketten wie auch Bildbereiche eingebettet. Die eingebetteten Textetiketten beschreiben semantische Konzepte, die in einem Bildinhalt vorhanden sein können. Der Einbettungsraum wird trainiert, um die eingebetteten Textetiketten semantisch derart zu korrelieren, dass Etiketten wie „Sonne” und „Sonnenuntergang” enger als „Sonne” und „Vogel” korreliert werden. Das Trainieren des Einbettungsraumes beinhaltet zudem ein Abbilden von repräsentativen Bildern mit einem Bildinhalt, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten. Im Gegensatz zu herkömmlichen Techniken, die ein gesamtes Trainingsbild in dem Einbettungsraum für jedes Textetikett in Verknüpfung mit dem Trainingsbild einbetten, verarbeiten die hier beschriebenen Techniken ein Trainingsbild zum Erzeugen von Bereichen, die den mehreren Textetiketten entsprechen. Die Bereiche des Trainingsbildes werden sodann derart in dem Trainingsraum eingebettet, dass die Bereiche auf die entsprechenden Textetiketten abgebildet werden.

Description

Hintergrund
Ein fundamentales Problem im Computerbereich ist die Bildklassifikation. Im Allgemeinen versucht die Bildklassifikation, semantische Information aus einem Bild zu extrahieren, damit das Bild zur Beschreibung des Inhalts des Bildes etikettiert (labeled) werden kann. Beinhalten kann semantische Information beispielsweise Objekte, die in einem Bild dargestellt sind (und Orte des Bildes, an denen die Objekte dargestellt sind), Szenen, die in einem Bild dargestellt sind (beispielsweise ob das Bild einen Strand oder einen Sonnenuntergang darstellt), Stimmungen, die mit menschlichen Gesichtern oder Gesichtsausdrücken, die in einem Bild dargestellt sind, verknüpft sind, bildästhetische Eigenschaften (beispielsweise gute Komposition, schlechte Komposition, Einhaltung der Drittelregel und dergleichen mehr), Bildgefühl (beispielsweise Angst, Ärger und dergleichen) und ähnliches mehr.
Einige herkömmliche Bildklassifikationstechniken kategorisieren Bilder als feste Sätze von Klassen, die semantische Information darstellen, durch Trainieren eines Mehr-Klassen-Klassifikators. Da semantische Beziehungen zwischen Klassen jedoch komplex (beispielsweise hierarchisch, disjunkt und dergleichen) sein können, ist es schwierig, einen Klassifikator zu definieren, der viele semantische Beziehungen codiert. Um diesen Unzulänglichkeiten zu begegnen, sind visuell-semantische Einbettungstechniken entwickelt worden. Herkömmliche visuell-semantische Einbettungstechniken nutzen semantische Information aus unkommentierten Textdaten zur Gewinnung von semantischen Beziehungen zwischen Textetiketten und bilden explizit Bilder in einen reichen semantischen Einbettungsraum ab. Diese herkömmlichen visuell-semantischen Einbettungstechniken sind jedoch auf das Kommentieren von Bildern mit einem einzigen Textetikett beschränkt. Entsprechend sind herkömmliche Techniken zum automatischen Verknüpfen von Textetiketten mit Bildern zum Beschreiben von deren Inhalt bei einigen Problemstellungen der Bildetikettierung ungeeignet.
Zusammenfassung
Es wird ein Einbettungsraum für Bilder mit mehreren Textetiketten beschrieben. In dem Einbettungsraum können sowohl Textetiketten wie auch Bildetiketten eingebettet werden. Die in dem Einbettungsraum eingebetteten Textetiketten sind dafür konfiguriert, semantische Konzepte, die in einem Bildinhalt vorhanden sind, so beispielsweise, ob ein Bild einen Strand oder einen Sonnenuntergang beinhaltet, bildästhetische Eigenschaften, so beispielsweise, ob ein Bild entsprechend den „Regeln” der Fotografie gut komponiert ist, und dergleichen mehr zu beschreiben. Der Einbettungsraum wird trainiert, um die eingebetteten Textetiketten derart zu korrelieren, dass Textetiketten wie „Sonne” und „Sonnenuntergang” enger als Textetiketten wie „Sonne” und „Vogel” korreliert sind. Das Trainieren des Einbettungsraumes beinhaltet zudem ein Abbilden von repräsentativen Bildern mit einem Bildinhalt, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten.
Im Gegensatz zu herkömmlichen visuell-semantischen Einbettungstechniken trainieren die hier beschriebenen Techniken den Einbettungsraum unter Verwendung von Trainingsbildern, die jeweils mit mehreren Textetiketten verknüpft sind. Anstatt ein ganzes Trainingsbild in dem Einbettungsraum für jedes der mehreren Textetiketten, die mit dem Trainingsbild verknüpft sind, einzubetten, verarbeiten die hier beschriebenen Techniken das Trainingsbild zum Erzeugen von Bereichen, die den mehreren Textetiketten entsprechen. Die Bereiche des Trainingsbildes werden sodann in dem Einbettungsraum derart eingebettet, dass die Bereiche auf die entsprechenden Textetiketten abgebildet werden. Die Abbildung zwischen den Bereichen des Trainingsbildes und den entsprechenden Textetiketten wird als Abbildungsfunktion gewonnen. Sobald der Einbettungsraum trainiert ist, kann der Einbettungsraum durch Anwendung der Abbildungsfunktion zum Kommentieren eines Bildes mit mehreren Textetiketten zur Beschreibung des Inhalts des Bildes verwendet werden. Zum Kommentieren eines Bildes werden mehrere semantisch aussagekräftige Bereiche für das Bild vorgeschlagen. Wenigstens ein Textetikett wird sodann aus dem Einbettungsraum für jeden der mehreren Bereiche unter Verwendung der während des Trainierens gewonnenen Abbildungsfunktion ausfindig gemacht. Die gewonnene Abbildungsfunktion nimmt sodann die zu kommentierenden Bildbereiche des Bildes als Eingabe und bildet jeden der Bildbereiche auf Textetiketten in dem Einbettungsraum ab. Die für die mehreren Bereiche des Bildes ausfindig gemachten Textetiketten können sodann zum Kommentieren des Bildes verwendet werden.
Die vorliegende Zusammenfassung führt eine Auswahl von Konzepten in vereinfachter Form ein, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung die wesentlichen Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe bei der Bestimmung des Umfanges des beanspruchten Erfindungsgegenstandes verwendet werden.
Kurzbeschreibung der Zeichnung
Die Detailbeschreibung erfolgt anhand der begleitenden Figuren. In den Figuren bezeichnet die am weitesten links stehende Ziffer/bezeichnen die am weitesten links stehenden Ziffern eines Bezugszeichens die Figur, in der das Bezugszeichen erstmalig auftritt. Die Verwendung derselben Bezugszeichen in verschiedenen Zusammenhängen in der Beschreibung und den Figuren kann ähnliche oder identische Objekte bezeichnen. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb die Bezugnahme auf eine einzelne oder mehrere Formen der Entitäten in den Erläuterungen gleichwertig erfolgen kann.
1 ist eine Darstellung einer digitalen Umgebung bei einer exemplarischen Implementierung, die zum Einsetzen der hier beschriebenen Techniken betreibbar ist.
2 ist eine exemplarische Implementierung zur Darstellung eines Bildes mit mehreren Textetiketten und Angaben von Bereichen des Bildes, die den mehreren Textetiketten entsprechen.
3 ist eine exemplarische Implementierung eines Einbettungsraumes, der dafür konfiguriert ist, sowohl Textetiketten wie auch auf die Textetiketten abgebildete Bildbereiche einzubetten.
4 ist eine weitere exemplarische Implementierung des Einbettungsraumes, wobei durch die Textetiketten beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum modelliert sind.
5 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung, bei der Bereiche eines Trainingsbildes, die mit mehreren Textetiketten verknüpft sind, auf die entsprechenden Textetiketten in einem Einbettungsraum abgebildet werden, um den Einbettungsraum zu trainieren, und bei der die Textetiketten für ein Abfragebild unter Verwendung des Einbettungsraumes ausfindig gemacht werden.
6 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer weiteren exemplarischen Implementierung, bei der ein trainierter Einbettungsraum verwendet wird, um mehrere Textetiketten mit jeweiligen Bereichen eines zu kommentierenden Bildes zu verknüpfen.
7 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer weiteren exemplarischen Implementierung, bei der ein Einbettungsraum erzeugt wird, um von Textetiketten beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum zu modellieren.
8 ist ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die für eine oder mehrere Implementierungen von Techniken für einen Einbettungsraum für Bilder mit mehreren Textetiketten so, wie sie hier beschrieben werden, eingesetzt werden kann.
Detailbeschreibung
Übersicht
Herkömmliche visuell-semantische Einbettungstechniken nutzen semantische Information aus unkommentierten Textdaten zum Gewinnen von semantischen Beziehungen zwischen Textetiketten und bilden Bilder explizit in einen reichen semantischen Einbettungsraum ab. Obwohl diese herkömmlichen visuell-semantischen Einbettungstechniken für Problemstellungen bei Bildern mit einzelnen Etiketten verwendet werden, ist die Verwendung von derartigen herkömmlichen Techniken bislang nicht auf Bilder mit mehreren Textetiketten erweitert worden. Diese Nachteile machen herkömmliche visuell-semantische Techniken für eine Vielzahl von Anwendungen ungeeignet, da Bilder oftmals mit mehreren Textetiketten verknüpft sind. Zudem ist das Erweitern eines visuell-semantischen Einzeletikettmodells auf ein Mehr-Etiketten-Modell keine triviale Aufgabe. Die Implementierung von herkömmlichen visuell-semantischen Techniken beruht teilweise auf der Annahme, dass Bildetiketten einem Bild als Ganzes entsprechen. Dies ist jedoch nicht ohne Weiteres bei Bildern, die mit mehreren Textetiketten verknüpft sind, der Fall. Vielmehr können verschiedene Textetiketten eines mehrfach etikettierten Bildes verschiedenen Bereichen des Bildes entsprechen.
Beschrieben wird ein Einbettungsraum für Bilder mit mehreren Textetiketten. Im Sinne des Vorliegenden bezeichnet ein „Einbettungsraum” ein computererzeugtes Modell, das Textetiketten und Bilder, die in dem Modell eingebettet worden sind, darstellen kann. Einbettungsräume können zudem Beziehungen zwischen den eingebetteten Textetiketten und Bildern darstellen, so beispielsweise semantische Beziehungen zwischen verschiedenen Textetiketten und Entsprechungen zwischen Bildern und Textetiketten. Unter Verwendung der hier beschriebenen Techniken werden Trainingsbilder, die jeweils mit mehreren Textetiketten verknüpft sind, zum Trainieren des Einbettungsraumes verwendet. Sobald der Einbettungsraum trainiert ist, kann der Einbettungsraum zum Kommentieren von Bildern verwendet werden. Insbesondere kann der Einbettungsraum zum Ausfindigmachen von mehreren Textetiketten für ein Bild verwendet werden. Die ausfindig gemachten mehreren Textetiketten können sodann mit dem Bild (beispielsweise durch Einbeziehung in das Bild als Metadaten oder auf andere Weise) zur Kommentierung des Bildes verknüpft werden.
Was den hier verwendeten Einbettungsraum angeht, so ist dieser Einbettungsraum als gemeinsamer Bild-Text-Einbettungsraum (joint-image text embedding space) konfiguriert, der sowohl Textetiketten wie auch Bilder (beispielsweise Bereiche von Bildern), die in dem Einbettungsraum eingebettet worden sind, darstellt. Insbesondere sind die eingebetteten Textetiketten aus einem Textvokabular, das zum Trainieren des Einbettungsraumes ausgewählt worden ist, und können zum Beschreiben von in den Bildern dargestellten semantischen Konzepten verwendet werden. Die Textetiketten werden ebenfalls in dem Einbettungsraum als Teil eines Trainings des Einbettungsraumes semantisch korreliert. Das semantische Korrelieren von Textetiketten in dem Einbettungsraum impliziert ein Codieren von Beziehungen zwischen Textetiketten, die angeben, wie eng durch die Textetiketten beschriebene semantische Konzepte korreliert sind. Bei einem Beispiel sind die Textetiketten des Textvokabulars derart semantisch korreliert, dass Textetiketten wie „Sonne” und „Sonnenuntergang” enger als Textetiketten wie „Sonne” und „Vogel” korreliert sind.
Zusätzlich zum semantischen Korrelieren der Textetiketten wird der Einbettungsraum derart trainiert, dass Bildbereiche, die die durch die Textetiketten des Textvokabulars beschriebenen semantischen Konzepte exemplarisch darstellen, in dem Einbettungsraum eingebettet und auf die Textetiketten abgebildet werden. Die Bildbereiche, die als Teil des Trainings des Einbettungsraumes eingebettet werden, werden aus Trainingsbildern extrahiert, die zum Zwecke des Trainings des Einbettungsraumes ausgewählt und jeweils mit mehreren Textetiketten verknüpft worden sind. Beim Training werden die Bildbereiche auf die jeweiligen Textetiketten abgebildet. So kann beispielsweise ein Bereich eines Trainingsbildes, der eine Sonne darstellt, auf das Textetikett „Sonne” in dem Einbettungsraum abgebildet werden, während ein anderer Bereich des Trainingsbildes, der einen Vogel darstellt, auf das Textetikett „Vogel” in dem Einbettungsraum abgebildet werden kann.
Wie vorstehend erwähnt worden ist, wird jedes der Trainingsbilder, das zum Trainieren des Einbettungsraumes verwendet wird, mit mehreren Textetiketten vor der Verwendung zum Trainieren des Einbettungsraumes verknüpft. So werden beispielsweise Textetiketten mit einem Trainingsbild als Metadaten verknüpft. Als Teil des Trainierens des Einbettungsraumes wird jedes Trainingsbild zum Erzeugen eines Satzes von Bereichen des Trainingsbildes verarbeitet, die den mit dem Trainingsbild verknüpften mehreren Textetiketten entsprechen. Zum Erzeugen eines Satzes von Bereichen wird das Trainingsbild anfänglich entsprechend einer Bereichsvorschlagstechnik (beispielsweise entsprechend einem geodätischen Objektvorschlag) verarbeitet, dessen Ergebnis ein Satz von Kandidatenbereichen ist. Für jedes einzelne mit dem Trainingsbild verknüpfte Etikett der mehreren Etiketten wird ein vorgeschlagener Kandidatenbereich ausgewählt, von dem bestimmt wird, dass er am besten zu dem durch das Textetikett beschriebenen semantischen Konzept passt. Dies ist bei der Bildung einer Bereich-zu-Etikett-Entsprechung für das Trainingsbild von Nutzen. Des Weiteren verhindert dieser Lösungsansatz, dass Bilder in dem Einbettungsraum derart eingebettet werden, dass Bilder mit Textetiketten, die mit den Bildern minimal korreliert sind, korreliert werden.
Nachdem der Satz von Bereichen für die Textetiketten eines Trainingsbildes erzeugt worden ist, werden die Bereiche in dem Einbettungsraum eingebettet. In Bezug auf das „Einbetten” von Bereichen in dem Einbettungsraum impliziert das „Einbetten” von Bereichen in dem Einbettungsraum im Sinne des Vorliegenden ein Extrahieren von Merkmalen der Bildbereiche, ein Umwandeln der extrahierten Merkmale in Daten, die die extrahierten Daten darstellen (beispielsweise Vektoren), und ein Einfügen der Darstellung in den Einbettungsraum derart, dass der Bereich durch den Einbettungsraum dargestellt wird. Das Einbetten von Bildbereichen impliziert zudem ein Bilden von Beziehungen in dem Einbettungsraum zwischen der eingefügten Darstellung und entsprechenden Textetiketten. Die Bereiche eines Trainingsbildes werden beispielsweise auf Grundlage von Positionen eingebettet, an denen die mehreren Textetiketten, die den Trainingsbildbereichen entsprechen, eingebettet sind. Bei einem Beispiel wird ein Bildbereich, der eine Sonne darstellt, in dem Einbettungsraum auf Grundlage einer Position, an der das Textetikett „Sonne” vorhanden ist, eingebettet. Dieser Prozess wird für die Sätze von Bereichen, die für die Trainingsbilder erzeugt werden, ausgeführt.
Sobald der Einbettungsraum trainiert ist, kann er zum Kommentieren von Bildern mit mehreren Textetiketten verwendet werden. Man betrachte ein Beispiel, bei dem ein Bild, das noch nicht mit Textetiketten verknüpft worden ist, als Eingabe zur Kommentierung empfangen wird. Textetiketten können für das Abfragebild aus dem trainierten Einbettungsraum ausfindig gemacht werden, um den Inhalt des Abfragebildes zu beschreiben. Zum Ausfindigmachen der Textetiketten aus dem trainierten Einbettungsraum werden semantisch aussagekräftige Bereiche des Abfragebildes beispielsweise unter Verwendung einer oder mehrerer bekannter Techniken bestimmt, so beispielsweise durch einen geodätischen Objektvorschlag, der semantisch aussagekräftige Bereiche von Bildern bestimmen kann. Sobald die semantisch aussagekräftigen Bereiche des Abfragebildes bestimmt worden sind, werden die semantisch aussagekräftigen Bereiche sodann mit den Bildbereichen verglichen, die in dem Einbettungsraum während des Trainings eingebettet worden sind, und zwar beispielsweise durch Vergleichen von Vektoren zur Angabe der visuellen Kennwerte der eingebetteten Bereiche und der bestimmten Bereiche des Abfragebildes. Auf Grundlage des Vergleiches können die bestimmten Bereiche des Abfragebildes auf visuell ähnliche eingebettete Bildbereiche und zudem auch auf Textetiketten abgebildet werden, denen die ähnlichen eingebetteten Bildbereiche entsprechen.
Das Abfragebild kann sodann mit einer Anzahl (beispielsweise zwei oder mehr) der bei diesem Prozess ausfindig gemachten Textetiketten kommentiert werden. So kann das Abfragebild beispielsweise mit einer vorbestimmten Anzahl von ausfindig gemachten Etiketten kommentiert werden, für die die Ähnlichkeit zwischen einem bestimmten Bereich des Abfragebildes und einem eingebetteten Bereich am größten ist, so beispielsweise mit den Textetiketten für diejenigen fünf bestimmten Bereiche des Abfragebildes, die zu den eingebetteten Bereichen am ähnlichsten sind. Alternativ oder zusätzlich hierzu kann das Abfragebild mit jedem der ausfindig gemachten Textetiketten kommentiert werden, für das die Ähnlichkeit zwischen bestimmten Bereichen des Abfragebildes und eingebetteten Bereichen eine Schwelle überschreitet, so beispielsweise bei dem Textetikett eines beliebigen bestimmten Bereiches, der zu wenigstens 85% zu einem eingebetteten Bereich ähnlich ist.
Im Gegensatz zu herkömmlichen visuell-semantischen Einbettungstechniken ermöglichen die hier beschriebenen Techniken das Training eines gemeinsamen Bild-Text-Einbettungsraumes unter Verwendung von Trainingsbildern mit mehreren Textetiketten und ermöglichen die Kommentierung eines Bildes mit mehreren Textetiketten unter Verwendung des gemeinsamen Bild-Text-Einbettungsraumes. Die hier beschriebenen Techniken ermöglichen zudem das Ausfindigmachen von semantisch aussagekräftigen Bereichen für jedes der mehreren Textetiketten, die mit einem Bild verknüpft sind. Darüber hinaus bieten die hier beschriebenen Techniken einen Vorteil beim Zero-Shot-Learning gegenüber herkömmlichen Techniken, so beispielsweise beim Klassifizieren von Bildern in neuen Kategorien, die durch die Textetiketten des Einbettungsraumes vorher noch nicht beschrieben worden sind.
Bei der nachfolgenden Diskussion wird zunächst eine exemplarische Umgebung beschrieben, die die hier beschriebenen Techniken einsetzen kann. Sodann werden exemplarische Implementierungsdetails und Prozeduren beschrieben, die in der exemplarischen Umgebung wie auch in anderen Umgebungen zum Einsatz kommen können. Infolgedessen ist das Leistungsvermögen der exemplarischen Prozeduren nicht auf die exemplarische Umgebung beschränkt, und es ist die exemplarische Umgebung nicht auf das Leistungsvermögen der exemplarischen Prozeduren beschränkt.
Exemplarische Umgebung
1 ist eine Darstellung einer Umgebung 100 bei einer exemplarischen Implementierung, die zum Einsetzen der hier beschriebenen Techniken betreibbar ist. Die dargestellte Umgebung 100 beinhaltet eine Rechenvorrichtung 102, die ein Verarbeitungssystem 104 aufweist, das eine oder mehrere Verarbeitungsvorrichtungen (beispielsweise Prozessoren) und ein oder mehrere computerlesbare Speichermedien 106 beinhaltet. Die dargestellte Umgebung 100 beinhaltet zudem Bilddaten 108, Textetiketten 110, ein Multi-Instanzen-Einbettungsmodell 112, ein Multi-Instanzen-Einbettungsmodul 114 („MIE-Modul 114”) und bereichsbasierte mehrfach etikettierte Bilder 116, die auf den computerlesbaren Speichermedien 106 verkörpert und über das Verarbeitungssystem 104 betreibbar sind, um die hier beschriebene entsprechende Funktionalität zu implementieren. Bei wenigstens einigen Implementierungen beinhaltet die Rechenvorrichtung 102 eine Funktionalität für einen Zugriff auf verschiedene Arten von webbasierten Ressourcen (Inhalt und Dienste) zum Interagieren mit Online-Providern und dergleichen mehr, wie nachstehend noch detaillierter beschrieben wird.
Die Rechenvorrichtung 102 ist als beliebiger geeigneter Typ von Rechenvorrichtung konfigurierbar. Konfiguriert sein kann die Rechenvorrichtung 102 beispielsweise als Server, Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise unter der Annahme einer Handkonfiguration, so beispielsweise als Tablet oder Mobiltelefon), Tablet, Vorrichtung mit Konfigurierung zum Empfangen einer Gesteneingabe, Vorrichtung mit Konfigurierung zum Empfangen von dreidimensionalen (3D) Gesten als Eingabe, Vorrichtung mit Konfigurierung zum Empfangen einer Spracheingabe, Vorrichtung mit Konfigurierung zum Empfangen einer stiftbasierten Eingabe, Vorrichtung mit Konfigurierung zum Empfangen einer Kombination aus den genannten Eingaben und dergleichen mehr. Daher kann die Rechenvorrichtung 102 von Vollressourcenvorrichtungen mit beträchtlichen Speicher- und Prozessorressourcen (beispielsweise Server, PCs, Spielekonsolen) bis hin zu einer Vorrichtung mit geringen Ressourcen und begrenzten Speicher- und Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Darüber hinaus kann, obwohl eine einzige Rechenvorrichtung 102 gezeigt ist, die Rechenvorrichtung 102 auch für eine Mehrzahl von verschiedenen Vorrichtungen repräsentativ sein, um Operationen „über die Cloud”, wie nachstehend noch detailliert anhand 8 beschrieben wird, durchzuführen.
Die Umgebung 100 stellt des Weiteren einen oder mehrere Service-Provider 118 dar, die zum Kommunizieren mit der Rechenvorrichtung 102 über ein Netzwerk 120, so beispielsweise das Internet, konfiguriert sind, um eine „cloudbasierte” Rechenumgebung bereitzustellen. Allgemein bedeutet dies, dass die Service-Provider 118 dafür konfiguriert sind, verschiedene Ressourcen 122 über das Netzwerk 120 für Clients zugänglich zu machen. Bei einigen Szenarios richten Nutzer Konten ein, die für einen Zugriff auf entsprechende Providerressourcen genutzt werden können. Der Provider authentifiziert Berechtigungsnachweise (credentials) eines Nutzers (beispielsweise Nutzername und Passwort), bevor er einen Zugriff auf ein Konto und entsprechende Ressourcen 122 gewährt. Andere Ressourcen 122 sind frei zugänglich gemacht (beispielsweise ohne Authentifizierung oder einen kontenbasierten Zugang). Die Ressourcen 122 können eine beliebige geeignete Kombination aus Diensten und/oder Inhalt beinhalten, die typischerweise über ein Netzwerk von einem oder mehreren Providern zugänglich gemacht werden. Einige Beispiele für Dienste beinhalten unter anderem Bildspeicher- und/oder Sharing-Dienste (beispielsweise Flickr^®), Dienste sozialer Netzwerke (beispielsweise Facebook^®, Twitter^®, Instagram^®, Hyperlapse^® und dergleichen), Suchmaschinendienste, die als Suchergebnisse Bilder ausgeben können, und dergleichen mehr.
Diese Dienste dienen als Quellen für beträchtliche Mengen von Bilddaten. Die Bilddaten 108 stellen Bilddaten dar, die in einer Vielzahl von Bildformaten formatiert sein können, darunter unter anderem JPEG, TIFF, RAW, GIF, BMP, PNG und dergleichen mehr. Die Bilddaten, die durch die Dienste verfügbar gemacht werden, können von Nutzern, die Konten bei diesen Diensten eingerichtet haben, gepostet bzw. hinterlegt werden. So lädt beispielsweise ein Nutzer, der ein Konto bei einem Bildspeicher- und/oder Sharing-Dienst eingerichtet hat, Bilder hoch, so beispielsweise solche, die er mit seiner Digitalkamera aufgenommen hat, oder solche, die an den Nutzer über elektronische Mittel gesendet werden. Ein Nutzer des Bildspeicher- und/oder Sharing-Dienstes kann sodann die hochgeladenen Bilder mit anderen teilen, so beispielsweise durch Bereitstellen eines Links zu Alben von Bildern oder zu einem Profil des Nutzers.
Darüber hinaus können die Bilder mit zusätzlicher Information zur Beschreibung der Bilder verknüpft werden. Die von den Bilddaten 108 dargestellten Bilder können Metadaten beinhalten, die die Bilder beschreiben. Beschreiben können die Metadaten eines Bildes bei einem Beispiel die Pixelgröße des Bildes, die Speichergröße des Bildes, die zum Aufnehmen des Bildes verwendete Kameravorrichtung, das Datum, an dem das Bild aufgenommen worden ist, das Datum, an dem das Bild letztmalig modifiziert worden ist, und dergleichen mehr. Darüber hinaus können die von den Bilddaten 108 dargestellten Bilder mit Metadaten verknüpft werden, die den in den Bildern dargestellten Inhalt beschreiben. Die Metadaten können beispielsweise als Textetiketten konfiguriert sein, und es können die Bilder mit jenen Textetiketten, die ihren Inhalt beschreiben, kommentiert werden. Beschreiben können derartige Textetiketten Objekte, die in einem Bild dargestellt sind (und Orte des Bildes, an denen die Objekte dargestellt sind), Szenen, die in einem Bild dargestellt sind (beispielsweise ob das Bild einen Strand oder einen Sonnenuntergang darstellt), Stimmungen, die mit menschlichen Gesichtern oder Gesichtsausdrücken, die in einem Bild dargestellt sind, verknüpft sind, bildästhetische Eigenschaften (beispielsweise gute Komposition, schlechte Komposition, Einhaltung der Drittelregel und dergleichen mehr), Bildgefühl (beispielsweise Angst, Ärger und dergleichen) und ähnliches mehr. Allgemein bedeutet dies, dass die Textetiketten 110 eine Vielzahl von Textetiketten, mit denen die Bilder kommentiert werden können, darstellen.
Das MIE-Modul 114 stellt eine Funktionalität zum Implementieren von Techniken für einen Einbettungsraum für Bilder mit mehreren Textetiketten gemäß vorliegender Beschreibung dar. Als Teil hiervon stellt das MIE-Modul 114 einen Einbettungsraum, der als gemeinsamer Bild-Text-Einbettungsraum konfiguriert ist, bereit. Ein „gemeinsamer Bild-Text-Einbettungsraum” bedeutet hierbei, dass sowohl die Textetiketten 110 wie auch repräsentative Bilder (beispielsweise Bereiche von Bildern) aus den Bilddaten 108 darin eingebettet sein können. Das Multi-Instanzen-Einbettungsmodell 112 ist für einen derartigen Einbettungsraum repräsentativ. Des Weiteren stellt das MIE-Modul 114 eine Funktionalität dar, die das Multi-Instanzen-Einbettungsmodell 112 derart trainiert, dass bei einem gegebenen Bildbereich das Multi-Instanzen-Einbettungsmodell 112 zum Ausfindigmachen eines Textetiketts, das den in dem Bildbereich dargestellten Inhalt beschreibt, verwendet werden kann.
Zum Trainieren des Multi-Instanzen-Einbettungsmodells 112 korreliert das MIE-Modul 114 die Textetiketten, die in dem Multi-Instanzen-Einbettungsmodell 112 eingebettet sind, entsprechend den durch die Textetiketten beschriebenen semantischen Konzepten semantisch. Das MIE-Modul 114 korreliert beispielsweise die Textetiketten semantisch derart, dass die Textetiketten „Sonne” und „Sonnenuntergang” enger in dem Multi-Instanzen-Einbettungsmodell 112 als die Textetiketten „Sonne” und „Vogel” positioniert sind.
Das MIE-Modul 114 trainiert zudem das Multi-Instanzen-Einbettungsmodell 112 unter Verwendung von Trainingsbildern, die als Teil von Bilddaten 108 beinhaltet sein können. Die Trainingsbilder sind vor dem Training jeweils bereits mit mehreren Textetiketten verknüpft, die den dargestellten Inhalt beschreiben. Für jedes Trainingsbild verarbeitet das MIE-Modul 114 das Bild zum Erzeugen eines Satzes von Bereichen des Bildes, die den mehreren Textetiketten des Trainingsbildes entsprechen. Damit bildet das MIE-Modul 114 eine Bereich-zu-Etikett-Entsprechung für jedes Trainingsbild derart, dass ein Bereich des Trainingsbildes ausgewählt wird, um jedes der mehreren Textetiketten darzustellen.
Des MIE-Modul 114 bettet sodann den Satz von Bereichen in dem Multi-Instanzen-Einbettungsmodell 112 ein. Insbesondere bettet das MIE-Modul 114 einen Bereich in dem Multi-Instanzen-Einbettungsmodell 112 auf Grundlage einer Position ein, an der das entsprechende Etikett des Bereiches eingebettet ist. Ist ein Trainingsbild beispielsweise mit dem Textetikett „Sonne” verknüpft, so wird ein Bereich des Trainingsbildes entsprechend der „Sonne” ausgewählt. Das MIE-Modul 114 bettet sodann den Bereich des Trainingsbildes, der der „Sonne” entspricht, wenigstens teilweise auf Grundlage einer Position in dem Multi-Instanzen-Einbettungsmodell 112, an der das Textetikett „Sonne” eingebettet ist, ein. Das MIE-Modul 114 kann diesen Prozess für jedes Trainingsbild in einem Satz von Trainingsbildern durchführen. Durch Trainieren des Multi-Instanzen-Einbettungsmodells 112 mit den Trainingsbildern wird eine Abbildungsfunktion gewonnen. Bei einem gegebenen Bild (beispielsweise einem Bildbereich) kann die Abbildungsfunktion das gegebene Bild auf eine Position in dem Multi-Instanzen-Einbettungsmodell 112 abbilden. Sodann wird bestimmt, dass das gegebene Bild einem Textetikett entspricht, das in dem Multi-Instanzen-Einbettungsmodell 112 am nächsten an derjenigen Position eingebettet ist, auf die das gegebene Bild abgebildet ist.
Bei einer oder mehreren Implementierungen ist das Multi-Instanzen-Einbettungsmodell 112 dafür konfiguriert, die durch die Textetiketten beschriebenen und durch die repräsentativen Bilder dargestellten semantischen Konzepte als Verteilungen zu modellieren, so beispielsweise als Gauß'sche Verteilungen, als Gauß'sche Mischverteilungen und dergleichen mehr. Dies steht im Gegensatz zu Techniken, bei denen die semantischen Konzepte als einzelne Punkte dargestellt werden. Das Einbetten von Bildern, die mit mehreren Textetiketten verknüpft sind, bei einzelnen Punkten in einem visuell-semantischen Einbettungsraum kann bewirken, dass visuell-semantische Abbildungsfunktionen leicht verwechselt werden, indem sie beispielsweise bewirken, dass die Techniken bei der Vorhersage des in einem Bild dargestellten Inhalts weniger genau sind.
Darüber hinaus stellt das MIE-Modul 114 eine Funktionalität zum Kommentieren von Bildern bereit. „Kommentieren” bedeutet hierbei, dass Textetiketten, die den in einem Bild dargestellten Inhalt beschreiben, gewählt und mit dem Bild verknüpft werden können. Zum Kommentieren eines Bildes bestimmt das MIE-Modul 114 einen Satz von Bereichen des Bildes. Insbesondere extrahiert das MIE-Modul 114 Bereiche aus dem Bild, von denen bestimmt wird, dass sie semantisch aussagekräftig sind, und zwar beispielsweise unter Verwendung einer bekannten Technik wie dem geodätischen Objektvorschlag, da dieser sowohl Vordergrund- wie auch Hintergrundbereiche abdeckt. Das MIE-Modul 114 macht sodann Textetiketten für die Bereiche ausfindig, indem die Bereiche auf die Textetiketten unter Verwendung der gewonnenen Abbildungsfunktion abgebildet werden. Unter Verwendung der Abbildungsfunktion kann das MIE-Modul 114 bestimmen, welches der in dem Multi-Instanzen-Einbettungsmodell 112 eingebetteten Bilder zu einem zu kommentierenden Bereich ähnlich ist, und das Textetikett, das ähnlichen eingebetteten Bildern entspricht, mit dem zu kommentierenden Bereich verknüpfen.
Auf diese Weise kann ein Bild anfänglich mit einer großen Anzahl von Textetiketten, so beispielsweise mit einem für jeden der bestimmten Bereiche, verknüpft werden. Die Anzahl von Textetiketten kann jedoch verringert werden, sodass ein Bild mit den Etiketten, von denen bestimmt ist, dass sie für den Bildinhalt am besten repräsentativ sind, kommentiert werden kann. So kann das MIE-Modul 114 beispielsweise ein Bild mit einer vorbestimmten Anzahl von Textetiketten auswählen. Bei diesem Szenario wählt das MIE-Modul 114 die vorbestimmte Anzahl von Textetiketten aus, für die die Bereiche des Bildes zu in dem Multi-Instanzen-Einbettungsmodell 112 eingebetteten Bildern am ähnlichsten sind. Alternativ wählt das MIE-Modul 114 eine veränderliche Anzahl von Textetiketten für Bilder, die kommentiert werden sollen, aus. Bei diesem alternativen Szenario kann die Anzahl von ausgewählten Textetiketten auf einer Schwellenähnlichkeit basieren, sodass bei beliebigen Bereichen des Bildes, bei denen die Ähnlichkeit zu einem eingebetteten Bild über der Schwellenähnlichkeit liegt, das ausfindig gemachte Textetikett zum Kommentieren des Bildes verwendet wird. Auf jeden Fall stellen die bereichsbasierten mehrfach etikettierten Bilder 116 Bilder dar, die das MIE-Modul 114 mit mehreren Textetiketten kommentiert, indem Bildbereiche bestimmt werden und das Multi-Instanzen-Einbettungsmodell 112 zum Ausfindigmachen von Etiketten für die Bildbereiche verwendet wird.
Bei einer oder mehreren Implementierungen ist das MIE-Modul 114 als Softwaremodul, Hardwarevorrichtung oder unter Verwendung einer Kombination aus Software, Hardware, Firmware, einer Schaltung mit fester Logik und dergleichen mehr implementierbar. Des Weiteren kann das MIE-Modul 114 als eigenständige Komponente der Rechenvorrichtung 102, wie dargestellt ist, implementierbar sein. Zusätzlich oder alternativ kann das MIE-Modul 114 als Komponente eines Webdienstes, als Anwendung bzw. App, als Betriebssystem der Rechenvorrichtung 102, als Plug-in-Modul oder als andere Vorrichtungsanwendung bzw. App, wie nachstehend anhand 8 beschrieben wird, konfiguriert sein.
Nach der Betrachtung einer exemplarischen Umgebung folgt nunmehr eine Diskussion von einigen exemplarischen Details der Techniken für den Einbettungsraum von Bildern mit mehreren Textetiketten entsprechend einer oder mehreren Implementierungen.
Einbettungsraum für Bilder mit mehreren Textetiketten
Der vorliegende Abschnitt beschreibt exemplarische Details von Techniken für einen Einbettungsraum für Bilder mit mehreren Textetiketten entsprechend einer oder mehreren Implementierungen. Die Diskussion erfolgt anhand 2, die ein Bild mit mehreren Textetiketten und die Konzepte darstellt, die für die hier beschriebene Funktionalität einschlägig sind.
Insbesondere stellt 2 allgemein bei 200 ein Bild 202 mit Textetiketten 204, 206, 208, 210, 212 dar. 2 stellt zudem Bildbereiche 214, 216, 218, 220 dar. Das Bild 202 kann ein Trainingsbild darstellen, das bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist und für das das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 derart auswählt, dass eine Entsprechung zu den Textetiketten derart vorhanden ist, dass beispielsweise der Bildbereich 214 dem Textetikett 208 entspricht, der Bildbereich 216 dem Textetikett 206 entspricht, der Bildbereich 218 dem Textetikett 204 entspricht, der Bildbereich 220 dem Textetikett 210 entspricht, und der Bildbereich, der das Bild 202 als Ganzes darstellt, dem Textetikett 212 entspricht. Alternativ kann das Bild 202 ein Bild darstellen, das von dem MIE-Modul 114 derart kommentiert wird, dass das MIE-Modul 114 vorgeschlagene Bereiche für das Bild 202 erzeugt, Textetiketten für die vorgeschlagenen Bereiche unter Verwendung des Multi-Instanzen-Einbettungsmodells 112 ausfindig macht und die Textetiketten 204, 206, 208, 210, 212, die den Bildbereichen 214, 216, 218, 220 (wie auch einem Bereich entsprechend dem Bild als Ganzes) unter den ausfindig gemachten Textetiketten entsprechen, zur Beschreibung des Inhalts des Bildes 202 auswählt.
3 zeigt allgemein bei 300 einen exemplarischen Einbettungsraum, in dem sowohl Textetiketten wie auch Bildbereiche, die auf die Textetiketten abgebildet sind, eingebettet sind. Insbesondere beinhaltet 3 einen gemeinsamen Bild-Text-Einbettungsraum 302 (der dem Multi-Instanzen-Einbettungsmodell 112 von 1 entsprechen kann), eine Bilddatenbank 304 (die Bilder enthält, die von dem MIE-Modul 114 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet werden) und ein Textvokabular 306 (das den Textetiketten 110 von 1 entsprechen kann, die zum Beschreiben von in den Bildern dargestellten semantischen Konzepten verwendbar sind).
Der gemeinsame Bild-Text-Einbettungsraum 302 ist dafür konfiguriert, sowohl Textetiketten wie auch Bilder (Bilder als Ganzes und Teile von Bildern), die darin eingebettet sind, aufzuweisen. Die Bilddatenbank 304 und das Textvokabular 306 stellen die Bilder beziehungsweise Textetiketten dar, die das MIE-Modul 114 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet, damit der gemeinsame Bild-Text-Einbettungsraum 302 beispielsweise zum Ausfindigmachen von Textetiketten, die den Inhalt eines Bildes beschreiben, verwendet werden kann. Die Textetiketten, die das Textvokabular 306 bilden, sind zum Beschreiben von semantischen Konzepten, die in dem Bildinhalt vorhanden sein können, konfiguriert. Die Bilder der Bilddatenbank 304 stellen einen Bildinhalt dar, der die durch die Textetiketten des Textvokabulars 306 beschriebenen semantischen Konzepte exemplarisch darstellt.
Beim Trainieren korreliert das MIE-Modul 114 semantisch die Textetiketten innerhalb des Textvokabulars 306. Man nehme beispielsweise das Textetikett 308 für „Baum”. Das MIE-Modul 114 stellt eine Funktionalität zum semantischen Korrelieren des Textetikettes 308 für „Baum” mit dem Textetikett 310 für „Frau” und dem Textetikett 312 für „Gebäude” bereit, indem beispielsweise die Textetiketten 308, 310, 312 an Positionen in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden. Die Positionen, an denen die Textetiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden, hängen davon ab, wie eng die durch die Textetiketten beschriebenen semantischen Konzepte korreliert sind. Bei einem Beispiel kann das Textetikett 308 für „Baum” in dem gemeinsamen Bild-Text-Einbettungsraum 302 derart eingebettet werden, dass es näher an den Textetiketten für „Kiefer”, „Wald” und „Pflanzen” (nicht gezeigt) als an dem Textetikett 310 für „Frau” und dem Textetikett 312 für „Gebäude” positioniert ist.
In 3 ist jedes der Textetiketten 308, 310, 312 nahe an einer ausgefüllten Form dargestellt, die das jeweilige Textetikett bezeichnet. So ist das Textetikett 308 für „Baum” beispielsweise nahe an einem ausgefüllten Stern dargestellt, das Textetikett 310 für „Frau” ist nahe an einem ausgefüllten Kreuz dargestellt, und das Textetikett 312 für „Gebäude” ist nahe an einem ausgefüllten X-Gebilde dargestellt. Jede dieser ausgefüllten Formen ist zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 beinhaltet, um die Einbettung der Textetiketten 308, 310, 312 darzustellen. Man beachte, dass die dargestellte Form des gemeinsamen Bild-Text-Einbettungsraumes 302 und die dargestellten Positionen der ausgefüllten Formen die tatsächliche Form des gemeinsamen Bild-Text-Einbettungsraumes 302 oder die Positionen, an denen das MIE-Modul 114 die Textetiketten 308, 310, 312 tatsächlich einbettet, gegebenenfalls nicht genau wiedergeben. Anstatt dessen sind die dargestellte Form des gemeinsamen Bild-Text-Einbettungsraumes 302 und die dargestellten Positionen der ausgefüllten Formen zur Erläuterung der hier beschriebenen Techniken von Nutzen.
Das MIE-Modul 114 korreliert zudem die Bilder in der Bilddatenbank 304 mit den Textetiketten des Textvokabulars 306. Wie vorstehend ausgeführt worden ist, können die Trainingsbilder der Bilddatenbank 304 einen Bildinhalt darstellen, der die durch die Textetiketten des Textvokabulars 306 beschriebenen semantischen Konzepte exemplarisch darstellt. Zum Korrelieren der Bilder mit den Textetiketten bettet das MIE-Modul 114 jedes Bild an einer Position in dem gemeinsamen Bild-Text-Einbettungsraum 302 teilweise auf Grundlage einer Position des entsprechenden Textetiketts ein. Mit anderen Worten, das MIE-Modul 114 bildet jedes Bild auf dasjenige Textetikett ab, das den Bildinhalt für das Bild darstellt, und bettet das Bild auf Grundlage der Position dieses Textetiketts ein.
Die Bilder der Bilddatenbank 304, die einen Baum darstellen, sind in dem gemeinsamen Bild-Text-Einbettungsraum 302 beispielsweise auf Grundlage einer Position eingebettet, an der das Textetikett 308 für „Baum” eingebettet ist. So bildet das MIE-Modul 114 beispielsweise diejenigen Bilder, die Bäume darstellen, auf das Textetikett 308 für „Baum” ab. Auf ähnliche Weise werden Bilder, die eine Frau darstellen, auf Grundlage einer Position eingebettet, an der das Textetikett 310 für „Frau” eingebettet ist, und es werden Bilder, die ein Gebäude darstellen, auf Grundlage einer Position eingebettet, an der das Textetikett 312 für „Gebäude” eingebettet ist. Mit anderen Worten, ein Bild wird in dem gemeinsamen Bild-Text-Einbettungsraum 302 an einer Position eingebettet, die näher an einem Textetikett, dem das Bildelement entspricht, als an anderen Textetiketten ist. Ein Bild wird zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 näher an Bildern, die eng korrelierten semantischen Konzepten entsprechen, als an Bildern, die weniger eng korrelierten semantischen Konzepten entsprechen, eingebettet. Bei einem Beispiel ist das Bild eines Baumes in dem gemeinsamen Bild-Text-Einbettungsraum 302 im Allgemeinen näher an Bildern von Kiefern und Wäldern als an Bildern von Gebäuden oder Bildern von Frauen eingebettet.
In 3 stellt der Bildsatz 314 die Bilder der Bilddatenbank 304 dar, die einen Baum darstellen, der Bildsatz 316 stellt die Bilder der Bilddatenbank 304 dar, die eine Frau darstellen, und der Bildsatz 318 stellt die Bilder der Bilddatenbank 304 dar, die ein Gebäude darstellen. Die Bilder eines jeden Bildsatzes 314, 316, 318 sind als nichtausgefüllte Formen dargestellt, die die Bilder bezeichnen. So sind die Bilder des Bildsatzes 314 (die Bäume darstellen) mit nichtausgefüllten Sternen dargestellt, die Bilder des Bildsatzes 316 (die Frauen darstellen) sind als nichtausgefüllte Kreuze dargestellt, und die Bilder des Bildsatzes 318 (die Gebäude darstellen) sind als nichtausgefüllte X-Gebilde dargestellt.
Die nichtausgefüllten Formen sind zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 beinhaltet und stellen die Einbettung der Bilder von den Bildsätzen 314, 316, 318 dar, deren Positionen darauf beruhen, wo die entsprechenden Textetiketten 308, 310, 312 eingebettet sind. Infolgedessen sind die nichtausgefüllten Sterne, die die Bilder darstellen, die Bäume zeigen, um den ausgefüllten Stern herum dargestellt, der das Textetikett 308 für „Baum” darstellt, die nichtausgefüllten Kreuze, die die Bilder darstellen, die Frauen zeigen, sind um das ausgefüllte Kreuz herum dargestellt, das das Textetikett 310 für „Frau” darstellt, und die nichtausgefüllten X-Gebilde, die die Bilder darstellen, die „Gebäude” zeigen, sind um das ausgefüllte X-Gebilde herum dargestellt, das das Textetikett 312 für „Gebäude” darstellt.
In Bezug auf die jeweiligen Bilder, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, extrahiert das MIE-Modul 114 diese aus den Trainingsbildern als Bereiche. Daher kann der Satz von Bildern 304, die Frauen darstellen, Bereichen (beispielsweise Abschnitten von Bildern, die kleiner als das gesamte Bild sind) entsprechen, die aus Trainingsbildern extrahiert werden. Allgemeiner bedeutet dies, dass zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 das MIE-Modul 114 mit dem Trainieren von Bildern beginnt, die jeweils mit mehreren Textetiketten verknüpft sind. Bei einem Beispiel beginnt das MIE-Modul 114 mit dem Trainieren von Bildern, so beispielsweise mit dem Bild 202, das bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist.
Für jedes Trainingsbild erzeugt das MIE-Modul 114 einen Satz von Bereichen, die den Textetiketten des Trainingsbildes entsprechen. Man betrachte das Beispiel von 2, bei dem das Bild 202 mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist. In diesem Beispiel kann das MIE-Modul 114 einen Bereich erzeugen, der jedem der Textetiketten 204, 206, 208, 210, 212 derart entspricht, dass der Bildbereich 214 dem Textetikett 208 für „Frau” entspricht, der Bildbereich 216 dem Textetikett 206 für „Eiffelturm” entspricht, der Bildbereich 218 dem Textetikett 204 für „Tasche” entspricht, der Bildbereich 220 dem Textetikett 210 für „Gebäude” entspricht und der Bildbereich, der das Bild 202 als Ganzes darstellt, dem Textetikett 212 für „Stadtszene” entspricht.
Zum Erzeugen der Bereiche, die den Textetiketten des Trainingsbildes entsprechen, verwendet das MIE-Modul 114 anfänglich eine Bereichsvorschlagstechnik für das Trainingsbild. Das MIE-Modul 114 verwendet beispielsweise wenigstens eines von einer geodätischen Objektvorschlagstechnik, einer Vorschlagstechnik für beliebige Bereiche und dergleichen mehr. Semantisch aussagekräftige Bereiche eines Bildes enthalten nicht nur Objekte, die im Vordergrund des Bildes dargestellt sind. Hintergrundabschnitte eines Bildes können vielmehr ebenfalls semantisch aussagekräftig sein. Im Gegensatz zu allgemeinen Objektvorschlagstechniken decken die Bereichsvorschlagstechniken, die von dem MIE-Modul 114 verwendet werden, sowohl Vordergrund- wie auch Hintergrundbereiche von Bildern zum Vorschlagen von Bildbereichen ab.
Sobald ein Satz von Kandidatenbereichen für ein Trainingsbild vorgeschlagen worden ist, sondert das MIE-Modul 114 wenigstens einige der vorgeschlagenen Kandidatenbereiche aus. Die Anzahl der Kandidatenbereiche, die anfänglich von den Objektvorschlagstechniken, die das MIE-Modul 114 verwendet, vorgeschlagen werden, kann tausende umfassen, weshalb die Verwendung eines jeden der vorgeschlagenen Kandidatenbereiche zum Trainieren die Rechenressourcen erheblich in Anspruch nehmen würde. Entsprechend kann das MIE-Modul 114 eine oder mehrere verarbeitungsnachgelagerte Techniken einsetzen, um wenigstens einige der vorgeschlagenen Kandidatenbereiche auszusondern. Das MIE-Modul 114 kann beispielsweise eine oder mehrere verarbeitungsnachgelagerte Techniken einsetzen, um vorgeschlagene Kandidatenbereiche auszusondern, die vordefinierten Größenkriterien oder Seitenverhältniskriterien nicht entsprechen. Bei einem Beispiel und nicht beschränkungshalber kann ein vordefiniertes Größenkriterium spezifizieren, dass zur Verwendung eines vorgeschlagenen Kandidatenbereiches die Seiten des vorgeschlagenen Kandidatenbereiches wenigstens 30% der Länge einer entsprechenden Seite des Bildes aufweisen sollen. Für ein Bild, das beispielsweise eine Größe von 400 Pixeln mal 500 Pixeln aufweist, setzt das MIE-Modul 114 das Kriterium durch Aussondern eines vorgeschlagenen Kandidatenbereiches mit einer Größe von weniger als 120 Pixeln mal 150 Pixeln durch. Mit Blick auf das exemplarische Seitenverhältnis kann ein vordefiniertes Seitenverhältniskriterium spezifizieren, dass zur Verwendung eines vorgeschlagenen Kandidatenbereiches das Seitenverhältnis des vorgeschlagenen Kandidatenbereiches zwischen 1:4 und 4:1 liegen soll.
Von den verbleibenden vorgeschlagenen Kandidatenbereichen weist das MIE-Modul 114 sodann den am besten passenden Kandidatenbereich jedem Textetikett des Trainingsbildes gemeinsam zu, um eine Bereich-zu-Etikett-Entsprechung aufzubauen. Hierbei ist das MIE-Modul 114 dafür konfiguriert, ein Einzeletiketteinbettungsmodell zu verwenden. Dies hat die Wirkung eines Aussonderns einer sogar noch größeren Anzahl von vorgeschlagenen Kandidatenbereichen, sodass die Anzahl von verbleibenden Bereichen der Anzahl der mit dem Bild verknüpften Textetiketten entspricht. Das MIE-Modul 114 bettet diese Bereiche sodann in dem gemeinsamen Bild-Text-Einbettungsraum 302 ein. Wie in dem Beispiel von 2 und in dem Szenario, in dem das Bild 202 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet wird, dargestellt ist, kann das MIE-Modul tausende der von den Bereichsvorschlagstechniken vorgeschlagenen Kandidatenbereiche auf die Bildbereiche 214, 216, 218, 220 wie auch einen Bereich entsprechend dem Bild 202 als Ganzes verringern.
Zur Einbettung der Bereiche der Trainingsbilder in dem gemeinsamen Bild-Text-Einbettungsraum 302 berechnet das MIE-Modul 114 d-dimensionale Merkmalsvektoren für die Bereiche. Das MIE-Modul 114 kann die Merkmalsvektoren für die Bereiche beispielsweise dadurch berechnen, dass Bildmerkmale mit einem faltungstechnischen neuronalen Netzwerk (Convolutional Neural Network CNN) extrahiert werden, so beispielsweise einem, das ein Falten und Poolen sowie Inception Layers beinhaltet. Bei einem bestimmten Beispiel extrahiert das MIE-Modul 114 die Bildmerkmale mittels der RCNN-Technik (fast region-based CNN; schnelles, bereichsbasiertes CNN). Anders gesagt, bei einem gegebenen Trainingsbild und Bereichen, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden sollen, leitet das MIE-Modul 114 das Trainingsbild ein einziges Mal durch das CNN. Das MIE-Modul 114 kann sodann jeden Bereich des erzeugten Satzes von Bereichen in einer Merkmalsabbildung fester Größe poolen, um einen endgültigen Merkmalsvektor zu ermitteln.
Man betrachte ein Beispiel, bei dem das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302 unter Verwendung eines Satzes von Trainingsbildern trainiert, von denen jedes mit mehreren Textetiketten verknüpft ist. Ein derartiger Satz von Trainingsbildern kann als D = {(x_i, y_i)} N / i=1 formuliert werden. Hierbei bezeichnet x_i das i-te Bild in dem Satz, während N die Anzahl von Trainingsbildern in dem Satz bezeichnet.
Des Weiteren kann jedes Bild durch einen d-dimensionalen Merkmalsvektor
dargestellt werden, der gemäß vorstehender Diskussion berechnet werden kann, und zwar beispielsweise für das i-te Bild des Satzes x_i ∊
Des Weiteren ist jedes Trainingsbild derart mit einem Satz von Textetiketten verknüpft, dass für das i-te Bild x_i der Satz von Textetiketten y_i als (y 1 / i, ..., y t / i) definiert ist, wobei t die Anzahl von Textetiketten, die mit dem i-ten Bild verknüpft sind, bezeichnet. Man beachte, dass diese Definition für den Satz von Textetiketten ermöglicht, dass die Anzahl von Etiketten, die mit den Trainingsbildern verknüpft sind, von Bild zu Bild variiert.
Aus Gründen der Einfachheit werde der Satz von einzubettenden Trainingsbildern mit
bezeichnet. Herkömmliche Techniken formulieren das Klassifikations- oder Kommentierungsproblem für Bilder, die mit mehreren Textetiketten verknüpft sind, als Mehr-Klassen-Klassifikation. Im Gegensatz zu den hier beschriebenen Techniken definiert diese herkömmliche Formulierung vorab einen festen Satz von Klassenetiketten, so beispielsweise y 1 / i ∊ Y ≡ (1, ..., m), gewinnt einen m-Wege-Klassifikator oder m Einergegen-Alle-Klassifikatoren und verwendet den gewonnenen Klassifikator oder die gewonnenen Klassifikatoren zum Klassifizieren des Satzes von Trainingsbildern X als festen Satz von Klassenetiketten Y derart, dass (X → Y) gilt. Die Skalierbarkeit derartiger herkömmlicher Techniken ist jedoch mit Blick auf die Anzahl von Etiketten beschränkt, da herkömmliche Techniken die Modelle, die sie verwenden, neutrainieren, wenn neue Etiketten auftauchen.
Anstatt eines Definierens von Textetiketten als diskreter Satz, wie dies bei herkömmlichen Techniken der Fall ist, gewinnen visuell-semantische Modelle einen kontinuierlichen semantischen Raum S, der semantische Beziehungen zwischen Textetiketten erfasst und eine Abbildungsfunktion (X → S) aus dem Satz von Trainingsbildern X auf den kontinuierlichen semantischen Raum S explizit gewinnt. Daher ist das MIE-Modul 114 dafür konfiguriert, ein Bild-Etiketten-Trainingsdatenpaar {(x_i, s(y_i))} aufzubauen, um eine Abbildungsfunktion f: X → S für den gemeinsamen Bild-Text-Einbettungsraum 302 zu gewinnen. Das MIE-Modul 114 gewinnt die Abbildungsfunktion, um das i-te Bild x_i des Satzes von Trainingsbildern auf den gemeinsamen Bild-Text-Einbettungsraum 302 abzubilden. Das MIE-Modul 114 gewinnt dies als Funktion s(y_i) des Satzes von Textetiketten y_i, die mit dem i-ten Bild x_i verknüpft sind. Die Funktion s(y_i) wird derart gewonnen, dass ein Satz von verwendeten Etiketten Y auf den kontinuierlichen semantischen Raum S derart abgebildet wird, dass s: Y → S gilt.
Bei einer oder mehreren Implementierungen ist das MIE-Modul 114 dafür konfiguriert, den kontinuierlichen semantischen Etikettenraum S (beispielsweise die Beziehungen zwischen den Textetiketten) unter Verwendung einer Textmodellierungsarchitekturtechnik, die mit unkommentierten Textdaten, so beispielsweise mit unkommentierten Textdaten aus dem Internet, trainiert wird, zu gewinnen. Die Textmodellierungsarchitektur ermöglicht, dass das MIE-Modul 114 ähnliche Einbettungspositionen für semantisch korrelierte Textetiketten gewinnt, da Synonyme in ähnlichen semantischen Kontexten wahrscheinlicher auftreten. Bei einem Beispiel verwendet das MIE-Modul 114 ein Glove-Modell, um einen 300-dimensionalen Textetikettenraum S aufzubauen, der die semantischen Beziehungen zwischen Textetiketten verkörpert.
In Bezug auf das Gewinnen von Abbildungsfunktionen gewinnen einige herkömmliche visuell-semantische Lösungsansätze die Abbildungsfunktion f: X → S für einen Einbettungsraum mit einer L₂-Verlustfunktion (L₂ loss function) oder einer Rangordnungsverlustfunktion (ranking loss function). Im Allgemeinen fördern derartige Funktionen, dass ein projizierter Einbettungspunkt für ein gegebenes Bild näher an seinem entsprechenden Etikett im Einbettungsraum ist. Das Folgende ist ein Beispiel für eine derartige Rangordnungsverlustfunktion, die von herkömmlichen visuell-semantischen Lösungsansätzen verwendet wird. Insbesondere entspricht sie einer paarbasierten Gelenkrangordnungsverlustfunktion (pairwise hinge-ranking loss function):
Hierbei stellt der Term f(·) eine zu gewinnende Abbildungsfunktion dar, während der Term m einen Rand darstellt. Aus Gründen der einfacheren Notierung wird y anstelle von s(y) zur Bezeichnung des Etikettenvektors in dem kontinuierlichen semantischen Etikettenraum S verwendet. Des Weiteren bezeichnet τ+ einen Satz von positiven Textetiketten, τ– bezeichnet einen Satz von negativen Textetiketten,
bezeichnet positive Etikettenvektoren, und
bezeichnet negative Etikettenvektoren. Der Term
bezeichnet einen Abstand zwischen einem Einbettungsvektor f(x_i) für das i-te Bild x_i und einem Vektor y_i für die Etiketten des Bildes.
Herkömmliche visuell-semantische Lösungsansätze, die die paarbasierte Gelenkrangordnungsfunktion gemäß vorstehender Darstellung verwenden, weisen jedoch Nachteile auf. Obwohl beispielsweise jedes Bild x_i mehreren Etiketten in dem Satz von Textetiketten y_i entsprechen kann, können ein oder mehrere Paare von jenen Etiketten an Positionen eingebettet sein, die in dem kontinuierlichen semantischen Etikettenraum S vergleichsweise weit voneinander entfernt sind. Daher kann das Verschieben der Einbettung eines ganzen Bildes f(x_i) derart, dass das i-te Bild x_i an einer Position in dem Einbettungsraum nahe an den mehreren Textetiketten (die an Positionen relativ weit entfernt voneinander eingebettet sind) eingebettet ist, Fehler bei der Abbildungsfunktion bewirken. Führen kann eine derartige Vorgehensweise zusätzlich oder alternativ zum Abbilden des Bildes x_i auf eine durchschnittliche Position der Etikettenvektoren derart, dass die durchschnittliche Position einem anderen semantischen Konzept als die durch die einzelnen Textetiketten beschriebenen Konzepte entspricht.
Im Gegensatz zu herkömmlichen visuell-semantischen Einbettungstechniken ist das MIE-Modul 114 dafür konfiguriert, die nachfolgende Verlustfunktion bei einer oder mehreren Implementierungen zum Gewinnen einer Multi-Instanzen-Einbettung für den gemeinsamen Bild-Text-Einbettungsraum 302 zu verwenden:
Hierbei bezeichnet der Term x c / i einen bestimmten Bereich c des i-ten Bildes x_i, also beispielsweise einen Bereich, der auf vorbeschriebene Weise in Entsprechung zu demjenigen der mit dem i-ten Bild x_i verknüpften Textetiketten erzeugt worden ist. Der Term C bezeichnet den Satz von Bereichen, die für das i-te Bild x_i erzeugt werden. Des Weiteren bezeichnet
die positiven Etikettenvektoren,
bezeichnet die negativen Etikettenvektoren, und D bezeichnet einen Abstand zwischen der Einbettung des Bildbereiches f(x c / i) und dem entsprechenden Textetikett y_j, für das der Bildbereich erzeugt wird. Bei einer oder mehreren Implementierungen berechnet das MIE-Modul 114 den Abstand als quadrierten Euklidischen Abstand. Des Weiteren kann, wie in der Verlustgleichung gezeigt ist, zum Gewinnen der Multi-Instanzen-Einbettung das MIE-Modul 114 Bereich-zu-Etikett-Entsprechungen durch Anwenden einer Minimaloperation (beispielsweise des min-Terms) auf die Abstände von einem Etikett zu jedem Bereich des Satzes von Bereichen modellieren. Hierbei wählt das MIE-Modul 114 wenigstens einen Bereich eines Trainingsbildes aus, um das durch jedes Textetikett des Trainingsbildes beschriebene semantische Konzept zu erläutern. Des Weiteren wählt das MIE-Modul 114 den Bereich für ein Textetikett mit einer eingebetteten Position am nächsten an dem Textetikett in dem Einbettungsraum wahrscheinlicher aus.
Bei einer oder mehreren Implementierungen optimiert das MIE-Modul 114 die Rangordnung der vorhergesagten Textetiketten für die Bereiche eines Trainingsbildes.
Zu diesem Zweck verwendet das MIE-Modul 114 eine angepasste Multi-Instanzen-Einbettungsverlustformel, die ermöglicht, dass positive Textetiketten (beispielsweise diejenigen, die mit dem Trainingsbild verknüpft sind) kleinere min-Abstände als die meisten negativen Textetiketten aufweisen. Auf diese Weise ordnet das MIE-Modul 114 dem Rang nach die positiven Textetiketten an der Spitze einer Liste von vorhergesagten Textetiketten für einen gegebenen Bereich eines Trainingsbildes an. Mit anderen Worten, das MIE-Modul 114 straft falsche Vorhersagen, die positive Textetiketten dem Rang nach am unteren Ende der Liste anordnen, ab. Bei einem Beispiel kann das MIE-Modul 114 dafür konfiguriert sein, die Rangordnung der vorhergesagten Textetiketten entsprechend der nachfolgenden angepassten Formel zu optimieren:
Hierbei ist der Term w(·) eine Gewichtungsfunktion, während der Term τ_j eine Rangordnung eines positiven Textetiketts in einer Liste von vorhergesagten Textetiketten für einen gegebenen Bereich eines Trainingsbildes ist. Bei einer oder mehreren Implementierungen bestimmt das MIE-Modul 114 den Term r_j entsprechend folgendermaßen:
Hierbei ist der Ausdruck
eine Indikatorfunktion, die das MIE-Modul 114 für das i-te Bild x_i zum Rangordnen eines vorhergesagten Textetiketts y_t entsprechend dessen Abstand (beispielsweise in dem gemeinsamen Bild-Text-Einbettungsraum 302) zu jedem Bereich in dem Satz von Bereichen C verwendet. Insbesondere berechnet das MIE-Modul 114 die Rangordnung als Funktion des Minimalabstandes zu jedem Bereich, was durch den folgenden Term dargestellt wird:
Des Weiteren kann das MIE-Modul 114 zur Verwendung einer Gewichtungsfunktion konfiguriert werden, die folgendermaßen definiert ist:
Hierbei bezeichnet der Term #(τ₊) die Anzahl von Textetiketten, die mit dem i-ten Bild x_i verknüpft sind. Ist eines der Textetiketten, das mit dem i-ten-Bild x_i verknüpft ist, eines der obersten #(τ₊)-Textetiketten in der Vorhersageliste, so straft das MIE-Modul 114 den Verlust ab, indem der Gewichtung eine kleinere Zahl zugewiesen wird. Ist das i-te Bild x_i beispielsweise mit fünf Textetiketten verknüpft und ist eines der verknüpften Textetiketten eines der fünf obersten (top five) dem Rang nach geordneten Etiketten in der Liste von Textetiketten, die für das Bild vorhergesagt worden sind, so straft das MIE-Modul 114 den berechneten Verlust ab, indem der Gewichtung eine kleinere Zahl zugewiesen wird. Ist im Gegensatz hierzu eines der mit dem i-ten Bild x_i verknüpften Etiketten keines der obersten #(τ₊)-Textetiketten in der Vorhersageliste, so straft das MIE-Modul 114 den Verlust ab, indem der Gewichtung eine größere Zahl zugewiesen wird.
Weiter werde anhand eines Beispiels, bei dem das i-te Bild x_i mit fünf Textetiketten verknüpft ist, ein Szenario betrachtet, bei dem eines der verknüpften Textetiketten keines der obersten fünf (top five) dem Rang nach geordneten Etiketten in der Liste der für das Bild vorhergesagten Textetiketten ist. In diesem Fall straft das MIE-Modul 114 den berechneten Verlust ab, indem der Gewichtung eine größere Zahl zugewiesen wird. Indem auf diese Weise auf die Verlustfunktion ein Abstrafen angewandt wird, bildet das MIE-Modul 114 semantisch aussagekräftige Bereiche näher an ihren entsprechenden Etiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 ab. Nachdem die Bereiche der Trainingsbilder (beispielsweise diejenigen, die in der Bilddatenbank 304 beinhaltet sind) auf die Textetiketten (beispielsweise diejenigen, die in dem Textvokabular 306 beinhaltet sind) in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet sind, kann eine Verwendung dahingehend erfolgen, dass das MIE-Modul 114 Textetiketten für unkommentierte Bilder auffindet.
Man betrachte ein Beispiel, bei dem in das MIE-Modul 114 ein Bild zur Kommentierung x' beispielweise in Verbindung mit der Indexierung von Bildern für die Suche eingegeben wird. Auf eine Weise, die zu derjenigen ähnlich ist, wie Bereiche für die trainierten Bilder erzeugt werden, erzeugt das MIE-Modul 114 einen Satz von Bereichen C' für das zu kommentierende Bild x'. So wendet das MIE-Modul 114 beispielsweise eine Bereichsvorschlagstechnik (beispielsweise einen geodätischen Objektvorschlag oder einen beliebigen Bereichsvorschlag) auf das zu kommentierende Bild an und wendet sodann verarbeitungsnachgelagerte Techniken auf die vorgeschlagenen Bereiche an, um die Anzahl der vorgeschlagenen Bereiche für das zu kommentierende Bild zu verringern.
Das MIE-Modul 114 leitet sodann das zu kommentierende Bild und den Satz von hieraus erzeugten Bereichen an den gemeinsamen Bild-Text-Einbettungsraum 302, um Einbettungsvektoren für jeden der Bereiche zu ermitteln. Ist die vorstehend erläuterte Abbildungsfunktion gegeben, so berechnet das MIE-Modul 114 Einbettungsvektoren für einen Satz von Bereichen des zu kommentierenden Bildes derart, dass ein Einbettungsvektor f(x'^c) für einen gegebenen Bereich c ermittelt wird. Für ein beliebiges der Textetiketten y' in dem gemeinsamen Bild-Text-Einbettungsraum 302 berechnet das MIE-Modul 114 sodann den Abstand zwischen dem zu kommentierenden Bild x' und Positionen der Textetiketten y' in dem gemeinsamen Bild-Text-Einbettungsraum 302 durch folgenden Term:
Damit bestimmt das MIE-Modul 114 für jeden Bereich des zu kommentierenden Bildes ein Textetikett, dem der Bereich in dem gemeinsamen Bild-Text-Einbettungsraum 302 am nächsten ist, und zwar beispielsweise auf Grundlage des Abstandes zwischen dem für den Bereich bestimmten Einbettungsvektor und einer Position des Textetiketts in dem gemeinsamen Bild-Text-Einbettungsraum 302.
Das MIE-Modul 114 ordnet sodann die Textetiketten, die für das zu kommentierende Bild bestimmt sind, dem Rang nach. Insbesondere ordnet das MIE-Modul 114 die bestimmten Textetiketten entsprechend den Abständen zwischen den Einbettungsvektoren der Bereiche und den jeweiligen Textetiketten derart dem Rang nach, dass die Textetiketten, für die der Abstand zu dem jeweiligen Bereich kleiner ist, günstiger dem Rang nach geordnet werden. Entsprechend ist das bestimmte Textetikett, für das der Abstand zu dem jeweiligen Bereich am geringsten ist, das dem Rang nach oberste (top ranked) Textetikett. Unter Verwendung der Rangordnung erzeugt das MIE-Modul 114 eine ranggeordnete Liste von Textetiketten, die derart bestimmt sind, dass sie den Bereichen des zu kommentierenden Bildes entsprechen. Das MIE-Modul 114 kann das zu kommentierende Bild sodann mit einer vorbestimmten Anzahl von Etiketten aus der Liste kommentieren. Bei einem Beispiel und nicht beschränkungshalber kann das MIE-Modul 114 das zu kommentierende Bild mit den dem Rang nach besten fünf (top ranked) Textetiketten aus der Liste von Textetiketten entsprechend den Bereichen kommentieren. Unabhängig von der vorbestimmten Anzahl ist das MIE-Modul 114 dafür konfiguriert, den gemeinsamen Bild-Text-Einbettungsraum 302 zu verwenden, um Bilder mit mehreren Textetiketten zu kommentieren.
Wie vorstehend kurz beschrieben worden ist, ist der gemeinsame Bild-Text-Einbettungsraum 302 zudem dafür konfiguriert, semantische Konzepte, die durch die Textetiketten beschrieben und auf die die jeweiligen Bilder abgebildet werden, als Verteilungen, beispielsweise Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen mehr, zu modellieren.
4 zeigt bei 400 ein Beispiel für einen Einbettungsraum, der durch Textetiketten beschriebene semantische Konzepte als Verteilungen darstellt. Insbesondere zeigt das Beispiel 400 einen gemeinsamen Bild-Text-Einbettungsraum 402, der Verteilungen 404, 406, 408 beinhaltet. Die Verteilungen 404, 406, 408 können beispielsweise die semantischen Konzepte eines Baumes, eines Apfels beziehungsweise einer Frucht darstellen. Man beachte, dass ein gewisser Überlapp zwischen den Verteilungen 404, 406, 408 vorhanden sein kann, wodurch ausgedrückt wird, dass die durch die Textetiketten dargestellten semantischen Konzepte überlappen können. Mit anderen Worten, die durch die Textetiketten für „Baum”, „Apfel” und „Frucht” dargestellten semantischen Konzepte können teilweise aufgrund dessen überlappen, dass ein Apfel einem Baum und auch einer Frucht entsprechen kann. Entsprechend werden semantische Konzepte als Verteilungen in dem gemeinsamen Bild-Text-Einbettungsraum 402 und nicht als einzelne Punkte modelliert.
Das MIE-Modul 114 gewinnt den gemeinsamen Bild-Text-Einbettungsraum 402, um ihn durch Modellieren eines jeden durch die Textetiketten beschriebenen semantischen Konzepts zu erzeugen. Bei einem Beispiel modelliert das MIE-Modul 114 jedes der semantischen Konzepte folgendermaßen als Gauß'sche Verteilung: t_k ~ N(μ_k,Σ_k), ∀_k ∈ (1, ..., M)
Hierbei bezeichnet der Term M die Anzahl von Textetiketten in einem Textvokabular, das zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 402 verwendet wird. Der Term t_k bezeichnet das k-te Textetikett t in dem Textvokabular, der Term μ_k bezeichnet einen Vektor des k-ten Textetiketts t (beispielsweise ein Glove-Merkmal des Textetiketts, das aus einem Glove-Modell für die Textetikettdarstellung ermittelt wird), der Term Σ_k bezeichnet eine Identitätsmatrix, die auf den gemeinsamen Bild-Text-Einbettungsraum 402 initialisiert ist, und N(·) bezeichnet eine Verteilungsmodellierungsfunktion (beispielsweise eine Gauß'sche Standardverteilung, obwohl auch andere Verteilungen verwendet werden können). Bei einer oder mehreren Implementierungen gewinnt das MIE-Modul 114 die Verteilungen für den gemeinsamen Bild-Text-Einbettungsraum 402 durch ein tiefes neuronales Netzwerk. Das MIE-Modul 114 kann ein gegebenes Bild l in einem Satz von Trainingsbildern durch ein faltungstechnisches neuronales Netzwerk (Convolutional Neural Network CNN) darstellen und kann eine Bildeinbettungsgewichtung für das Bild entsprechend einer Verlustfunktion, so beispielsweise entsprechend einem Rangordnungsverlust, initialisieren. Mit Blick auf den Term Σ_k gewinnt das MIE-Modul 114 diesen durch Minimieren eines Verlustes für jedes Bild l in dem Satz von Trainingsbildern folgendermaßen:
Wie diese Gleichung deutlich macht, ist das MIE-Modul 114 dafür konfiguriert, die positiven Textetiketten t_i für ein gegebenes Bildl l als N(μ_i, Σ_i) zu modellieren und die negativen Textetiketten t_n für das gegebene Bild als N(μ_n, Σ_n) zu modellieren. In den vorstehenden Gleichungen bezeichnet m einen Randterm.
Obwohl Implementierungen der Modellierung von semantischen Konzepten als Verteilungen in einem Einbettungsraum primär unter Bezugnahme auf Gauß'sche Verteilungen beschrieben worden sind, sollte einsichtig sein, dass das MIE-Modul 114 dafür konfiguriert ist, die durch die Textetiketten in einem Einbettungsraum beschriebenen semantischen Konzepte unter Verwendung einer Vielzahl von anderen Verteilungen zu modellieren, ohne vom Wesen oder Umfang der hier beschriebenen Techniken abzugehen. Bei einem Beispiel und nicht beschränkungshalber kann das MIE-Modul 114 die durch die Textetiketten in einem Einbettungsraum beschriebenen semantischen Konzepte auch als Gauß'sche Mischverteilungen, Log-Normalverteilungen, Pareto-Verteilungen und dergleichen mehr modellieren.
Durch Modellieren der durch die Textetiketten beschriebenen semantischen Konzepte als Verteilungen und nicht als einzelne Punkte ermöglichen die hier beschriebenen Techniken, dass die semantischen Konzepte überlappen. Dies führt zur Erzeugung eines Einbettungsraumes, der die Beziehungen zwischen semantischen Konzepten genauer darstellt, als dies bei Einbettungsräumen der Fall ist, die semantische Konzepte als einzelne Punkte modellieren, was beispielsweise daher rührt, dass viele semantische Konzepte überlappen. So überlappen beispielsweise die semantischen Konzepte einer Sonne und eines Sonnenuntergangs, was auch für die semantischen Konzepte einer Sonne und eines Sonnenaufgangs gilt. In jedem Fall ist das MIE-Modul 114 dafür konfiguriert, Einbettungsräume zu erzeugen, die die von den Textetiketten eines Textvokabulars beschriebenen semantischen Konzepte als Verteilungen modellieren.
Nachdem exemplarische Details der Techniken für einen Einbettungsraum für Bilder mit mehreren Textetiketten beschrieben worden sind, werden nunmehr einige exemplarische Prozeduren zur Darstellung von zusätzlichen Aspekten der Techniken betrachtet.
Exemplarische Prozeduren
Der vorliegende Abschnitt beschreibt exemplarische Prozeduren für einen Einbettungsraum für Bilder mit mehreren Textetiketten bei einer oder mehreren Implementierungen. Aspekte der Prozeduren können in Hardware, Firmware oder Software oder auch in einer Kombination hieraus implementiert sein. Die Prozeduren sind als Satz von Blöcken gezeigt, die Operationen spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht notwendigerweise auf diejenigen Reihenfolgen, die zur Durchführung der Operationen durch die jeweiligen Blöcke gezeigt sind, beschränkt sind. Bei wenigstens einigen Implementierungen werden die Prozeduren von einer geeignet konfigurierten Vorrichtung durchgeführt, so beispielsweise von der exemplarischen Rechenvorrichtung 102 von 1, die sich des MIE-Moduls 114 bedient.
5 zeigt eine exemplarische Prozedur 500, bei der Bereiche eines mit mehreren Textetiketten verknüpften Trainingsbildes auf die entsprechenden Textetiketten in einem Einbettungsraum abgebildet werden, um den Einbettungsraum zu trainieren, und bei dem Textetiketten für ein Abfragebild unter Verwendung des Einbettungsraumes ausfindig gemacht werden. Ein mit mehreren Textetiketten verknüpftes Trainingsbild wird verarbeitet, um einen Satz von Bildbereichen zu erzeugen, die den jeweiligen mehreren Textetiketten entsprechen (Block 502).
Man nehme beispielsweise an, dass das Bild 202 einem Trainingsbild entspricht und bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist. Bei diesem Szenario verarbeitet das MIE-Modul 114 das Bild 202, um die Bildbereiche 214, 216, 218, 220 entsprechend den Textetiketten derart zu erzeugen, dass der Bildbereich 214 entsprechend dem Textetikett 208 erzeugt wird, der Bildbereich 216 entsprechend dem Textetikett 206 erzeugt wird, der Bildbereich 218 entsprechend dem Textetikett 204 erzeugt wird, der Bildbereich 220 entsprechend dem Textetikett 210 erzeugt wird und der Bildbereich zur Darstellung des Bildes 202 als Ganzes entsprechend dem Textetikett 212 erzeugt wird. Wie vorstehend detailliert beschrieben worden ist, erzeugt das MIE-Modul 114 die Bildbereiche durch Anwenden einer Bereichsvorschlagstechnik und Durchführen von verarbeitungsnachgelagerten Techniken bei den vorgeschlagenen Kandidatenbereichen. Das MIE-Modul 114 erzeugt zudem die entsprechenden Bereiche durch Auswählen eines am besten passenden Bereiches für jedes der Textetiketten 204, 206, 208, 210, 212 beispielsweise auf Grundlage des Abstandes zwischen Positionen, an denen die Bereiche in dem Einbettungsraum eingebettet sind, und einer Position des Textetiketts in dem Einbettungsraum.
Der Satz von Bereichen wird innerhalb eines Einbettungsraumes eingebettet, der zum Einbetten sowohl von Textetiketten wie auch Bildbereichen, die auf die Textetiketten abgebildet sind, konfiguriert ist (Block 504). Des Weiteren wird der Satz von Bereichen wenigstens teilweise auf Grundlage von Positionen eingebettet, an denen die mehreren Textetiketten, die den Bildbereichen des Trainingsbildes entsprechen, in dem Einbettungsraum eingebettet sind. Daher ist das Einbetten des Satzes von Bereichen zusammen mit dem Einbetten von Sätzen von Bereichen anderer Trainingsbilder dabei effektiv, eine Abbildungsfunktion zu gewinnen. Bei einem Beispiel bettet das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, in dem gemeinsamen Bild-Text-Einbettungsraum 302 ein. Das MIE-Modul 114 führt dies wenigstens teilweise auf Grundlage von Positionen aus, an denen die Textetiketten 204, 206, 208, 210, 212 in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind.
Wie vorstehend detailliert beschrieben worden ist, berechnet das MIE-Modul 114 Merkmalsvektoren für jeden der Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, um diese in dem gemeinsamen Bild-Text-Einbettungsraum 302 einzubetten, indem beispielsweise Bildmerkmale mit einem faltungstechnischen neuronalen Netzwerk (CNN), so beispielsweise mit einer RCNN-Technik (Fast Region-based CNN) extrahiert werden. Zusätzlich bildet, wenn das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, in dem gemeinsamen Bild-Text-Einbettungsraum 302 einbettet, das MIE-Modul 114 die Bereiche auf die entsprechenden Textetiketten ab, um eine Abbildungsfunktion zu gewinnen, und zwar beispielsweise derart, dass Bilder und Bildbereiche ohne Textetiketten auf eine Position in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet werden können.
Sobald der Einbettungsraum trainiert ist, ist die gewonnene Abbildungsfunktion dafür verwendbar, Textetiketten aus dem Einbettungsraum für Bilder, beispielsweise zum Bildauszeichnen (image tagging), für eine mehrfach textbasierte Bildsuche (zum als Suchvorgängen entsprechend erfolgenden Identifizieren von Bildern), zum Bildbeschriften (image captioning) und dergleichen mehr, ausfindig zu machen. Textetiketten, die Bildbereichen eines Abfragebildes entsprechen, werden unter Verwendung des trainierten Einbettungsraumes ausfindig gemacht (Block 506). Zum Ausfindigmachen der Textetiketten werden die Bildbereiche in die gewonnene Abbildungsfunktion eingegeben, die die Bildbereiche auf Textetiketten des Einbettungsraumes abbildet.
Man gehe nunmehr davon aus, dass das Bild 202 dem Abfragebild entspricht und die Textetiketten 204, 206, 208, 210, 212 noch nicht mit dem Bild 202 verknüpft worden sind. Bei diesem Szenario können die Bildbereiche 214, 216, 218, 220 und der Bildbereich, der dem Bild 202 als Ganzes bezüglich der Textetiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 entspricht, als Eingabe für die gewonnene Abbildungsfunktion dienen.
Das Abbilden der Bildbereiche 214, 216, 218, 220 und desjenigen Bildbereiches, der dem Bild 202 als Ganzes entspricht, auf den gemeinsamen Bild-Text-Einbettungsraum 302 entsprechend der gewonnenen Abbildungsfunktion ermöglicht die Durchführung eines Vergleiches mit den in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebetteten Bildbereichen. Durchgeführt wird der Vergleich bei einer oder mehreren Implementierungen durch Vergleichen von Merkmalsvektoren, die für die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, extrahiert worden sind, mit Merkmalsvektoren der Bildbereiche, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, und zwar als Teil des Trainings. Das MIE-Modul 114 weist die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, den eingebetteten Textetiketten zu, auf die die ähnlichen eingebetteten Bildbereiche abgebildet sind. Auf diese Weise macht das MIE-Modul 114 die Textetiketten 204, 206, 208, 210, 212 in dem gemeinsamen Bild-Text Einbettungsraum 302 für die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, ausfindig.
Das Abfragebild wird mit den ausfindig gemachten Textetiketten zur Beschreibung des Inhalts des Abfragebildes kommentiert (Block 508). Bei einem Beispiel kommentiert das MIE-Modul 114 das Bild 202 mit den Textetiketten 204, 206, 208, 210, 212 beispielsweise durch Einbeziehen derselben mit dem Bild 202 als Metadaten oder durch auf irgendeine andere Weise erfolgendes Verknüpfen derselben mit dem Bild 202.
Die Bereiche des Abfragebildes, die den Textetiketten entsprechen, werden präsentiert (Block 510). Bei einem Beispiel wird eine Nutzeranforderung dahingehend empfangen, die Bereiche des Bildes 202, die den Textetiketten entsprechen, mit denen das Bild 202 kommentiert ist, zu präsentieren. Das MIE-Modul 114 präsentiert Angaben (beispielsweise Begrenzungsrahmen (bouding boxes)) eines oder mehrerer der Bildbereiche 214, 216, 218, 220 und des Bildbereiches, der dem Bild 202 als Ganzes entspricht, beispielsweise über eine Anzeige des Bildes 202. Es sollte einsichtig sein, dass das MIE-Modul 114 Angaben zu den Bildbereichen auf eine Vielzahl von Arten präsentieren kann, ohne dass hierbei vom Wesen oder Umfang der hier beschriebenen Techniken abgewichen würde. Bei einem Beispiel und nicht beschränkungshalber können Angaben zu den Bildbereichen zusammen mit entsprechenden Textetiketten präsentiert werden, es kann ein Bereich visuell derart geändert werden, dass er im Vergleich zu anderen Abschnitten des Bildes anders aussieht (beispielsweise scharf, während andere Abschnitte des Bildes verschwommen sind) und dergleichen mehr.
6 zeigt eine exemplarische Prozedur 600, bei der ein trainierter Einbettungsraum verwendet wird, um mehrere Textetiketten mit jeweiligen Bereichen eines zu kommentierenden Bildes zu verknüpfen. Es wird ein Einbettungsraum trainiert, in dem sowohl Bilder wie auch Text eingebettet sind (Block 602). Das Training impliziert ein semantisches Korrelieren von Textetiketten, die zum Beschreiben von semantischen Konzepten konfiguriert sind, die in dem Bildinhalt vorhanden sind, und ein Abbilden von repräsentativen Bildern, die einen Bildinhalt aufweisen, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten.
Bei einem Beispiel trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302. Zu diesem Zweck korreliert das MIE-Modul 114 die Textetiketten des Textvokabulars 306 semantisch beispielsweise unter Rückgriff auf Textdaten, die im Internet erhältlich sind, um skalierbare und lexikalisch verteilte Darstellungen von Worten zum Erfassen der semantischen Bedeutung unter den Textetiketten des Textvokabulars 306 zu gewinnen. Bei einer oder mehreren Implementierungen greift das MIE-Modul 114 zu diesem Zweck auf eine oder mehrere Textmodellierungsarchitekturtechniken zurück, so beispielsweise auf das word2vec-Modell, das Glove-Modell und dergleichen mehr.
Wie weiterhin anhand dieses Beispiels gezeigt werden kann, trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302 durch Abbilden der repräsentativen Bilder der Bilddatenbank 304 auf die jeweiligen Textetiketten des Textvokabulars 306 in dem gemeinsamen Bild-Text-Einbettungsraum 302. Das MIE-Modul 114 bildet in dem gemeinsamen Bild-Text-Einbettungsraum 302 die Bilder des Bildsatzes 314 auf das Textetikett 308 für „Baum” ab, bildet die Bilder des Bildsatzes 316 auf das Textetikett 310 für „Frau” ab und bildet die Bilder des Bildsatzes 318 auf das Textetikett 312 für „Gebäude” ab. Als Ergebnis des Trainings gewinnt das MIE-Modul 114 eine Abbildungsfunktion zum Abbilden von Bildbereichen auf Textetiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302.
Sobald der gemeinsame Bild-Text-Einbettungsraum 302 trainiert ist, kann die gewonnene Abbildungsfunktion zum Kommentieren von Bildern verwendet werden. Es wird ein zu kommentierendes Bild bezogen (Block 604). Bei einem Beispiel wird das Bild 202 bezogen. Bei diesem Beispiel gehe man davon aus, dass das Bild 202 unkommentiert und noch nicht mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist.
Es wird ein Satz von Bereichen des Bildes erzeugt (Block 606). Bei einer oder mehreren Implementierungen impliziert das Erzeugen die Verwendung einer Bereichsvorschlagstechnik, die Bereiche vorschlägt, die auf entsprechende Textetiketten in dem Einbettungsraum abgebildet werden können. Bei einem Beispiel erzeugt das MIE-Modul 114 einen Satz von Bereichen für das Bild 202, der die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, beinhaltet. Das MIE-Modul 114 erzeugt den Satz von Bereichen für das Bild 202 auf die vorstehend detailliert dargestellte Weise. Die erzeugten Bereiche sind semantisch aussagekräftig und können auf ein eingebettetes Textetikett in dem Einbettungsraum abgebildet werden.
Der Satz von Bereichen wird in die gewonnene Abbildungsfunktion eingegeben, um den Satz von Bereichen auf entsprechende Textetiketten in dem Einbettungsraum zur Beschreibung von semantischen Konzepten, die in dem Satz von Bereichen vorhanden sind, abzubilden (Block 608). Bei einem Beispiel verwendet das MIE-Modul 114 die Abbildungsfunktion, die durch Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 in Block 602 gewonnen worden ist, zum Ausfindigmachen von Textetiketten für den Satz von Bereichen, die für das Bild 202 in Block 606 erzeugt werden. Insbesondere verwendet das MIE-Modul 114 die gewonnene Abbildungsfunktion zum Abbilden des Satzes von Bereichen auf die Textetiketten, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind und die diejenigen semantischen Konzepte beschreiben, die in jedem der Bildbereiche 214, 216, 218, 220 und dem Bildbereich, der dem Bild 202 als Ganzes entspricht, vorhanden sind. Insbesondere verwendet das MIE-Modul 114 die gewonnene Abbildungsfunktion zum Abbilden des Bildbereiches 214, der eine Frau zeigt, auf das Textetikett 208 für „Frau”, des Bildbereiches 216, der den Eiffelturm zeigt, auf das Textetikett 206 für „Eiffelturm”, des Bildbereiches 218, der Einkaufstaschen zeigt, auf das Textetikett 204 für „Tasche”, des Bildbereiches 220, der Gebäude zeigt, auf das Textetikett 210 für „Gebäude” und den Bildbereich, der dem Bild 202 als Ganzes entspricht, auf das Textetikett 212 für „Stadtszene”.
Das Bild wird mit wenigstens zweien der entsprechenden Textetiketten kommentiert (Block 610). Das MIE-Modul 114 kommentiert das Bild 202 beispielsweise mit den Textetiketten 204, 206, 208, 210, 212 auf Grundlage der Abbildung in Block 608. Wie vorstehend beschrieben worden ist, kann eine größere Anzahl von Bildbereichen als die in 2 gezeigte erzeugt und in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet werden. Im Ergebnis kann eine Liste von Textetiketten entsprechend dem Bild 202 erzeugt werden. Das Bild 202 kann jedoch mit einer ausgewählten Gruppe von Textetiketten aus der Liste kommentiert werden. Bei einem Beispiel und nicht beschränkungshalber kann die Liste von Textetiketten dem Rang nach geordnet sein, wie vorstehend bereits detailliert beschrieben worden ist, wobei das MIE-Modul 114 eine vorbestimmte Anzahl der am besten ranggeordneten Etiketten zur Kommentierung des Bildes 202 auswählt.
Zusätzlich zur Verwendung einer ranggeordneten Liste können die Etiketten, die zur Kommentierung eines Bildes ausgewählt werden, auch auf vielerlei andere Arten gewählt werden. Die Etiketten können beispielsweise auf Grundlage einer Schwellendifferenz des entsprechenden Bereiches zu repräsentativen Bildern, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, gewählt werden. Zu diesem Zweck kann das MIE-Modul 114 einen Abstand (beispielsweise einen Euklidischen Abstand) zwischen jedem Bereich, der für ein Bild erzeugt ist, und eingebetteten repräsentativen Bildern in dem gemeinsamen Bild-Text-Einbettungsraum 302 auffinden, und zwar beispielsweise durch Extrahieren von Merkmalsvektoren der Bildbereiche und der eingebetteten repräsentativen Bilder und Vergleichen der Merkmalsvektoren. Das MIE-Modul 114 kann sodann Textetiketten auswählen, für die der Bildbereich eine Differenz, die kleiner als eine Schwellendifferenz ist, zu den eingebetteten repräsentativen Bildern aufweist. Das MIE-Modul 114 kann Textetiketten zum Kommentieren eines Bildes von den Textetiketten, die entsprechend den Bereichen des Bildes bestimmt werden, auch auf andere Arten auswählen, ohne dass vom Wesen oder Umfang der hier beschriebenen Techniken abgewichen würde.
7 zeigt eine exemplarische Prozedur 700, bei der ein Einbettungsraum erzeugt wird, um durch Textetiketten beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum zu modellieren. Ein Einbettungsraum, in dem sowohl Bilder wie auch Textetiketten eingebettet sein können, wird derart erzeugt, dass durch Textetiketten in einem Textvokabular beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum modelliert werden (Block 702). Die Erzeugung des Einbettungsraumes beinhaltet zudem ein Trainieren des Einbettungsraumes durch Einbetten von repräsentativen Bildern in dem Einbettungsraum derart, dass die repräsentativen Bilder auf jeweilige Verteilungen abgebildet werden.
Bei einem Beispiel erzeugt das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 durch Modellieren von semantischen Konzepten, die durch Textetiketten aus einem Textvokabular beschrieben werden, als Verteilungen, so beispielsweise als Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen mehr. Das MIE-Modul 114 erzeugt den gemeinsamen Bild-Text-Einbettungsraum 402, um eine Bild- und Textetiketteinbettung relativ zu den semantischen Konzepten, die als Verteilungen modelliert sind, zu ermöglichen. Des Weiteren trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 durch Einbetten von Bildbereichen mit einem Bildinhalt, der die semantischen Konzepte innerhalb jeweiliger Verteilungen, die für die semantischen Konzepte gebildet sind, exemplarisch darstellt.
Der Einbettungsraum, der die semantischen Konzepte als Verteilungen modelliert, wird zum Kommentieren eines Bildes verwendet (Block 704). Bei einem Beispiel verwendet das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 zum Kommentieren des Bildes 202 mit Textetiketten, die den Inhalt des Bildes 202 beschreiben. Das MIE-Modul 114 verwendet den gemeinsamen Bild-Text-Einbettungsraum 402 beispielsweise zum Ausfindigmachen der Textetiketten 204, 206, 208, 210, 212 und zum sodann erfolgenden Kommentieren des Bildes 202 mit den ausfindig gemachten Etiketten.
Nach erfolgter Beschreibung von exemplarischen Prozeduren entsprechend einer oder mehreren Implementierungen werden nunmehr ein exemplarisches System und eine exemplarische Vorrichtung betrachtet, die zum Implementieren der verschiedenen hier beschriebenen Techniken eingesetzt werden können.
Exemplarisches System und exemplarische Vorrichtung
8 zeigt allgemein bei 800 ein exemplarisches System, das eine exemplarische Rechenvorrichtung 802 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen, die verschiedene der hier beschriebenen Techniken implementieren, darstellt. Dies ist durch Einbeziehung des MIE-Moduls 114, das gemäß vorstehender Beschreibung arbeitet, dargestellt. Die Rechenvorrichtung 802 kann beispielsweise ein Server eines Service-Providers, eine Vorrichtung, die mit einem Client verknüpft ist (beispielsweise eine Client-Vorrichtung), ein chipinternes System (on-chip system) und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein.
Die exemplarische Rechenvorrichtung 802 beinhaltet ein Verarbeitungssystem 804, ein oder mehrere computerlesbare Medien 806 und ein oder mehrere I/O-Schnittstellen 808, die kommunikativ miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 802 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination von verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor oder lokalen Bus, der eine beliebige aus einer Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl von weiteren Beispielen ist einbezogen, so beispielsweise Steuer- bzw. Regel- und Datenleitungen.
Das Verarbeitungssystem 804 stellt eine Funktionalität zur Durchführung einer oder mehrerer Operationen unter Verwendung von Hardware bereit. Entsprechend ist das Verarbeitungssystem 804 derart dargestellt, dass es Hardwareelemente 810 beinhaltet, die als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein können. Dies beinhaltet eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder eine andere logische Vorrichtung, die unter Verwendung eines oder mehrerer Halbleiter gebildet ist. Die Hardwareelemente 810 sind nicht durch die Materialien, aus denen sie gebildet sind, oder die hierbei eingesetzten Verarbeitungsmechanismen beschränkt. So können die Prozessoren beispielsweise aus einem Halbleiter/Halbleitern und/oder Transistoren (beispielsweise elektronische integrierte Schaltungen (ICs)) gebildet sein. In diesem Zusammenhang können prozessorausführbare Anweisungen auch elektronisch ausführbare Anweisungen sein.
Das computerlesbare Speichermedium 806 ist derart dargestellt, dass es einen Speicher/eine Ablage 812 aufweist. Der Speicher/die Ablage 812 bietet eine Speicher-/Ablagekapazität, die mit einem oder mehreren computerlesbaren Medien verknüpft ist. Beinhalten kann die Speicher-/Ablage-Komponente 812 flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr). Beinhalten kann die Speicher-/Ablagekomponente 812 feste Medien (beispielsweise RAM, ROM, ein fixes Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr). Die computerlesbaren Medien 806 können auf eine Vielzahl von anderen Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.
Die Eingabe-/Ausgabe-Schnittstelle 808 bietet/die Eingabe-/Ausgabe-Schnittstellen 808 bieten eine Funktionalität, die einem Nutzer ermöglicht, Befehle und Information in die Rechenvorrichtung 802 einzugeben, und die zudem ermöglicht, dass Information dem Nutzer und/oder anderen Komponenten oder Vorrichtungen unter Verwendung von Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitiv oder mit anderen Sensoren, die zum Detektieren einer physischen Berührung konfiguriert sind), eine Kamera (beispielsweise eine solche, die sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, einsetzt, um Bewegungen als Gesten, die keine Berührung implizieren, zu erkennen) und dergleichen mehr. Beispiel für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine Taktilreaktionsvorrichtung und dergleichen mehr. Die Rechenvorrichtung 802 kann auf eine Vielzahl von Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um eine Nutzerinteraktion zu unterstützen.
Verschiedene Techniken sind hier im allgemeinen Kontext von Software- und Hardwareelementen oder Programmmodulen beschrieben worden. Im Allgemeinen beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul”, „Funktionalität” und „Komponente” bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen, die eine Vielzahl von Prozessoren aufweisen, implementiert sein können.
Eine Ausführungsform der beschriebenen Module und Techniken kann auf einer beliebigen Form von computerlesbarem Medium gespeichert oder durch dieses übertragen werden. Das computerlesbare Medium kann eine Vielzahl von Medien beinhalten, auf die durch die Rechenvorrichtung 802 zugegriffen werden kann. Bei einem Beispiel und nicht beschränkungshalber beinhalten die computerlesbaren Medien „computerlesbare Speichermedien” und „computerlesbare Signalmedien”.
„Computerlesbare Speichermedien” bezeichnen Medien und/oder Vorrichtungen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information ermöglichen, im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder Signalen als solche. Daher beinhalten computerlesbare Speichermedien keine Signale oder signaltragenden Medien als solche. Die computerlesbaren Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien, und/oder Speichervorrichtungen zur Implementierung bei einem Verfahren oder einer Technologie, die zur Speicherung von Information geeignet ist, so beispielsweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule, logische Elemente/Schaltungen oder andere Daten. Beispiele für computerlesbare Speichermedien beinhalten unter anderem RAM, ROM, EEPROM, einen Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, magnetische Kassetten, Magnetbänder, magnetische Plattenspeicher oder andere magnetische Speichervorrichtungen, oder eine andere Speichervorrichtung, physische Medien oder ein Herstellungserzeugnis, das dafür geeignet ist, die gewünschte Information so zu speichern, dass ein Computer darauf zugreifen kann.
„Computerlesbare Signalmedien” bezeichnen ein signaltragendes Medium, das dafür konfiguriert ist, Anweisungen an die Hardware der Rechenvorrichtung 802 beispielsweise über ein Netzwerk zu übertragen. Signalmedien verkörpern typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, so beispielsweise Trägerwellen, Datensignale oder einen anderen Transportmechanismus. Signalmedien beinhalten zudem eine beliebige Art von Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal” bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigenschaften derart verändert sind, dass Information in dem Signal codiert ist. Bei einem Beispiel und nicht beschränkungshalber beinhalten Kommunikationsmedien verdrahtete Medien, so beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, wie auch drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere Drahtlosmedien.
Wie vorstehend beschrieben worden ist, bezeichnen Hardwareelemente 810 und computerlesbare Medien 806 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik, die in Form von Hardware implementiert sind, die bei einigen Implementierungen dafür eingesetzt wird, wenigstens einige Aspekte der hier beschriebenen Techniken zu implementieren, so beispielsweise beim Ausführen einer oder mehrerer Anweisungen. Beinhalten kann die Hardware Komponenten einer integrierten Schaltung oder eines chipinternen Systems, einer anwendungsspezifischen integrierten Schaltung (ASIC), eines feldprogrammierbaren Gate-Arrays (FPGA), einer komplexen programmierbaren logischen Vorrichtung (CPLD) und anderer Implementierungen in Silizium oder anderer Hardware. In diesem Zusammenhang wirkt Hardware als Verarbeitungsvorrichtung, die Programmaufgaben ausführt, die durch Anweisungen und/oder eine Logik definiert sind, die durch die Hardware verkörpert ist, wie auch Hardware, die zum Speichern von Anweisungen zur Ausführung verwendet wird, so beispielsweise die vorstehend beschriebenen computerlesbaren Speichermedien.
Es können auch Kombinationen aus dem Vorstehenden zur Implementierung von verschiedenen der hier beschriebenen Techniken eingesetzt werden. Entsprechend werden Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 810 verkörpert sind. Die Rechenvorrichtung 802 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend den Software- und/oder Hardwaremodulen zu implementieren. Entsprechend ist die als Software erfolgende Implementierung eines Moduls, das von der Rechenvorrichtung 802 ausführbar ist, auch wenigstens teilweise durch Hardware zu verwirklichen, und zwar beispielsweise unter Verwendung eines computerlesbaren Speichermediums und/oder von Hardware-Elementen 810 des Verarbeitungssystems 804. Die Anweisungen und/oder Funktionen sind durch einen oder mehrere Herstellungserzeugnisse (beispielsweise eine oder mehrere Rechenvorrichtungen 802 und/oder Verarbeitungssysteme 804) ausführbar/betreibbar, um hier beschriebene Techniken, Module und Beispiele auszuführen.
Die hier beschriebenen Techniken werden durch verschiedene Konfigurationen der Rechenvorrichtung 802 unterstützt und sollen die spezifischen Beispiele der hier beschriebenen Techniken nicht beschränken. Diese Funktionalität kann auch gänzlich oder teilweise unter Verwendung eines verteilten Systems implementiert sein, so beispielsweise mittels einer „Cloud” 814 über eine Plattform 816, wie nachstehend beschrieben wird.
Die Cloud 814 beinhaltet eine Plattform 816 für Ressourcen 818 und/oder stellt eine solche dar. Die Plattform 816 abstrahiert eine darunter liegende Hardwarefunktionalität (beispielsweise Server) und Softwareressourcen der Cloud 814. Die Ressourcen 818 können Anwendungen bzw. Apps und/oder Daten beinhalten, die verwendet werden können, während die Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 802 entfernt sind. Die Ressourcen 818 können zudem Dienste beinhalten, die über das Internet und/oder durch ein Teilnehmernetzwerk bereitgestellt werden, so beispielsweise ein zellbasiertes oder Wi-Fi-Netzwerk.
Die Plattform 816 abstrahiert Ressourcen und Funktionen zum Verbinden der Rechenvorrichtung 802 mit anderen Rechenvorrichtungen. Die Plattform 816 dient zudem einer abstrakten Skalierung von Ressourcen zur Bereitstellung eines entsprechenden Skalierungsniveaus für bestehenden Bedarf an den Ressourcen 818, die über die Plattform 816 implementiert sind. Entsprechend ist bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen die Implementierung einer hier beschriebenen Funktionalität insbesondere in dem System 800 verteilt. Die Funktionalität ist beispielsweise teilweise auf der Rechenvorrichtung 802 wie auch über die Plattform 816, die die Funktionalität der Cloud 814 abstrahiert, implementiert.
Schlussbemerkung
Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für Strukturmerkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht notwendigerweise auf die beschriebenen bestimmten Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims

Durch eine Rechenvorrichtung implementiertes Verfahren zum Kommentieren von individuellen Bildern mit mehreren Textetiketten zum Beschreiben des Inhalts der Bilder, wobei das Verfahren umfasst: Verarbeiten eines Trainingsbildes mit mehreren Textetiketten zum Erzeugen eines Satzes von Bildbereichen, die den jeweiligen mehreren Textetiketten entsprechen; innerhalb eines Einbettungsraumes, der dafür konfiguriert ist, sowohl Textetiketten wie auch auf die Textetiketten abgebildete Bildbereiche einzubetten, erfolgendes Einbetten des Satzes von Bildbereichen teilweise auf Grundlage von Positionen, an denen die mehreren Textetiketten, die den Bildbereichen des Trainingsbildes entsprechen, in dem Einbettungsraum eingebettet sind; Gewinnen bzw. Erlernen einer Abbildungsfunktion, die Bildbereiche auf die in dem Einbettungsraum eingebetteten Textetiketten abbildet, wobei das Gewinnen bzw. Erlernen teilweise auf dem Einbetten des Satzes von Bildbereichen innerhalb des Einbettungsraumes beruht; Ausfindigmachen von Textetiketten, die Bildbereichen eines Abfragebildes entsprechen, durch Abbilden der Bildbereiche des Abfragebildes auf den Einbettungsraum unter Verwendung der gewonnenen Abbildungsfunktion; und Kommentieren des Abfragebildes mit wenigstens zweien der ausfindig gemachten Textetiketten.
Verfahren nach Anspruch 1, wobei die ausfindig gemachten Textetiketten den Bildinhalt des Abfragebildes beschreiben.
Verfahren nach Anspruch 1 oder 2, wobei das Verarbeiten des Trainingsbildes zum Erzeugen des Satzes von Bildbereichen, die den jeweiligen mehreren Textetiketten entsprechen, beinhaltet: Bestimmen von Kandidatenbildbereichen für den Satz von Bildbereichen; und Verringern einer Anzahl der bestimmten Kandidatenbildbereiche unter Verwendung wenigstens einer verarbeitungsnachgelagerten Technik.
Verfahren nach Anspruch 3, wobei die Kandidatenbildbereiche unter Verwendung eines geodätischen Objektvorschlages bestimmt werden.
Verfahren nach Anspruch 3 oder 4, wobei die wenigstens eine verarbeitungsnachgelagerte Technik ein Durchsetzen eines Größenkriteriums durch Aussondern von Kandidatenbildbereichen mit weniger als einer Schwellengröße beinhaltet.
Verfahren nach einem der Ansprüche 3 bis 5, wobei die wenigstens eine verarbeitungsnachgelagerte Technik ein Durchsetzen eines Seitenverhältniskriteriums durch Aussondern von Kandidatenbildbereichen mit Seitenverhältnissen außerhalb eines vordefinierten Satzes von zulässigen Seitenverhältnissen beinhaltet.
Verfahren nach einem der Ansprüche 3 bis 6, wobei die wenigstens eine verarbeitungsnachgelagerte Technik einen einzigen Kandidatenbildbereich jedem der mehreren Textetiketten des Trainingsbildes unter Verwendung eines Einzeletiketteinbettungsmodells zuweist.
Verfahren nach einem der vorhergehenden Ansprüche, des Weiteren umfassend ein Verarbeiten des Abfragebildes zum Erzeugen der Bildbereiche des Abfragebildes, beinhaltend: Bestimmen eines Satzes von semantisch aussagekräftigen Bildbereichen des Abfragebildes; und Aussondern von wenigstens einem der semantisch aussagekräftigen Bildbereiche unter Verwendung wenigstens einer verarbeitungsnachgelagerten Technik, wobei das Aussondern den Satz von semantisch aussagekräftigen Bildbereichen bezüglich der Bildbereiche des Abfragebildes verringert.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ausfindigmachen der Textetiketten, die den Bildbereichen des Abfragebildes entsprechen, ein Berechnen von Abständen in dem Einbettungsraum zwischen den Bildbereichen des Abfragebildes und den Textetiketten, auf die die Bildbereiche des Abfragebildes abgebildet sind, beinhaltet.
Verfahren nach Anspruch 9, wobei die Abstände unter Verwendung von Vektoren, die jeweilige Bildbereiche des Abfragebildes darstellen, berechnet werden, wobei die Vektoren aus den Bildbereichen des Abfragebildes mit einem faltungstechnischen neuronalen Netzwerk (Convolutional Neural Network CNN) extrahiert werden.
Verfahren nach Anspruch 9 oder 10, des Weiteren umfassend ein Auswählen der ausfindig gemachten Textetiketten, welche zum Kommentieren des Abfragebildes auf Grundlage der Abstände verwendet werden.
Verfahren nach einem der vorhergehenden Ansprüche, des Weiteren umfassend ein Präsentieren der Bildbereiche des Abfragebildes, die den ausfindig gemachten Textetiketten, mit denen das Abfragebild kommentiert ist, entsprechen.
Verfahren nach einem der vorhergehenden Ansprüche, des Weiteren umfassend ein Trainieren des Einbettungsraumes zum Ermöglichen eines Abbildens der Bildbereiche auf die Textetiketten, beinhaltend: semantisches Korrelieren bzw. in Beziehung setzen von Textetiketten eines Textvokabulars zum Bestimmen von Positionen, an denen die Textetiketten in dem Einbettungsraum eingebettet werden sollen; Verarbeiten einer Mehrzahl von Trainingsbildern mit jeweils mehreren Textetiketten zum Erzeugen von Sätzen von Bildbereichen, die den jeweiligen mehreren Textetiketten entsprechen; und innerhalb des Einbettungsraumes erfolgendes Einbetten der Sätze von Bildbereichen teilweise auf Grundlage von Differenzen eines ersten berechneten Abstandes in dem Einbettungsraum mit einem zweiten berechneten Abstand in dem Einbettungsraum, wobei der erste berechnete Abstand zwischen einer Einbettung eines individuellen Bildbereiches eines Satzes von Bildbereichen und einem jeweiligen Textetikett, für das der individuelle Bereich erzeugt ist, liegt und der zweite berechnete Abstand zwischen der Einbettung des individuellen Bereiches und einem Satz von negativen Textetikettvektoren liegt.
Verfahren nach Anspruch 13, wobei die Textetiketten des Textvokabulars auf Grundlage des Glove-Modells semantisch korreliert werden.
System zum Kommentieren von individuellen Bildern mit mehreren Textetiketten zum Beschreiben des Inhalts der Bilder, wobei das System umfasst: einen oder mehrere Prozessoren; und computerlesbare Speichermedien mit darauf gespeicherten Anweisungen, die von dem einen oder den mehreren Prozessoren ausführbar sind, um Operationen durchzuführen, die umfassen: Trainieren eines Einbettungsraumes, in dem sowohl Bilder wie auch Textetiketten eingebettet sind, wobei das Trainieren Textetiketten, welche zum Beschreiben von semantischen Konzepten, die in dem Bildinhalt vorhanden sind, konfiguriert sind, semantisch korreliert und repräsentative Bilder mit einem Bildinhalt, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten abbildet; Gewinnen bzw. Erlernen einer Abbildungsfunktion auf Grundlage des Trainings, das Bildbereiche auf die in dem Einbettungsraum eingebetteten Textetiketten abbildet; Beziehen eines Bildes zum Kommentieren; Bestimmen eines Satzes von Bereichen des Bildes unter Verwendung wenigstens einer Bereichsvorschlagstechnik, die Bildbereiche, die auf entsprechende in dem Einbettungsraum eingebettete Textetiketten abgebildet werden können, bestimmt; Abbilden des Satzes von Bereichen des Bildes auf entsprechende Textetiketten in dem Einbettungsraum entsprechend der Abbildungsfunktion, wobei die entsprechenden Textetiketten semantische Konzepte, die in dem Bildinhalt des Satzes von Bereichen des Bildes vorhanden sind, beschreiben; und Kommentieren des Bildes mit wenigstens zweien der entsprechenden Textetiketten.
System nach Anspruch 15, wobei wenigstens ein Bereich des Satzes von Bereichen weniger als eine Gesamtheit des Bildes umfasst.
System nach Anspruch 15 oder 16, wobei wenigstens ein Bereich des Satzes von Bereichen eine Gesamtheit des Bildes umfasst.
Durch eine Rechenvorrichtung implementiertes Verfahren zum Kommentieren von individuellen Bildern mit mehreren Textetiketten zum Beschreiben des Inhalts der Bilder, wobei das Verfahren umfasst: Trainieren eines Einbettungsraumes, in dem sowohl Bilder wie auch Textetiketten eingebettet sind, wobei das Trainieren Textetiketten, welche zum Beschreiben von semantischen Konzepten, die in dem Bildinhalt vorhanden sind, konfiguriert sind, semantisch korreliert bzw. in Beziehung setzt und repräsentative Bilder mit einem Bildinhalt, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten abbildet; Ausfindigmachen von wenigstens zwei Textetiketten in dem trainierten Einbettungsraum, die den Bildinhalt eines Eingabebildes beschreiben, wobei die wenigstens zwei ausfindig gemachten Textetiketten den Bildinhalt von wenigstens zwei jeweiligen Bereichen des Eingabebildes beschreiben; und Verknüpfen der wenigstens zwei Textetiketten mit dem Eingabebild.
Verfahren nach Anspruch 18, wobei eines der wenigstens zwei Textetiketten, die mit dem Eingabebild verknüpft sind, zum als einer Suche entsprechend erfolgenden Identifizieren des Eingabebildes verwendet werden.
Verfahren nach Anspruch 18 oder 19, wobei die wenigstens zwei jeweiligen Bereiche weniger als eine Gesamtheit des Eingabebildes umfassen.