DE102019001663A1

DE102019001663A1 - Zusammenstellungssensitive Digitalbildsuche

Info

Publication number: DE102019001663A1
Application number: DE102019001663.7A
Authority: DE
Inventors: Xiaohui SHEN; Zhe Lin; Kalyan Krishna Sunkavalli; Hengshuang Zhao; Brian Lynn Price
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2018-05-22
Filing date: 2019-03-07
Publication date: 2019-11-28
Also published as: AU2019201787A1; US20190361994A1; US11263259B2; US20200349189A1; GB201903414D0; GB2574087A; CN110516096A; GB2574087B; US10747811B2; AU2019201787B2

Abstract

Beschrieben werden Techniken und Systeme zur zusammenstellungssensitiven Digitalbildsuche, die maschinelles Lernen einsetzen. Bei einem Beispiel setzt ein zur zusammenstellungssensitiven Bildsuche gegebenes System ein faltungstechnisches neuronales Two-Stream-Netzwerk (CNN) ein, um Merkmalseinbettungen aus Vordergrunddigitalbildern, die ein Vordergrundobjekt erfassen, und Hintergrunddigitalbildern, die eine Hintergrundszene erfassen, gemeinsam zu lernen. Zum Trainieren von Modellen der faltungstechnischen neuronalen Netzwerke werden Tripel von Trainingsdigitalbildern benutzt. Jedes Tripel kann ein Positivvordergrunddigitalbild und ein Positivhintergrunddigitalbild, die demselben Digitalbild entnommen sind, beinhalten. Das Tripel enthält zudem ein Negativvordergrund- oder Hintergrunddigitalbild, das zu dem Positivvordergrund- oder Hintergrunddigitalbild nicht ähnlich ist und das ebenfalls als Teil des Tripels beinhaltet ist.

Description

Hintergrund
Das Digitalbildzusammenstellen ist eine grundlegende Aufgabe, die durch Bildverarbeitungssysteme einer Rechenvorrichtung als Teil der Digitalbildbearbeitung und des Grafikdesigns implementiert wird. Das Digitalbildzusammenstellen impliziert das Kombinieren von Vordergrundobjekten und Hintergrundszenen aus verschiedenen Quellen, um ein neues zusammengestelltes Digitalbild zu generieren. Herkömmliche Techniken, die dazu benutzt werden, das Digitalbildzusammenstellen durchzuführen, sind jedoch sowohl rechentechnisch ineffizient wie auch frustrierend für Nutzer, was von der Ineffizienz der Nutzerinteraktion, die von diesen herkömmlichen Techniken unterstützt wird, herrührt. Die Ineffizienz und Frustration des Nutzers werden durch die ungeheure Menge an verschiedenen Digitalbildern verschärft, die als Quellen für diese Objekte und Szenen dienen können und deren Zahl in die Millionen geht.
Die Kompatibilität eines Vordergrundobjektes mit einer Hintergrundszene kann beispielsweise unter Nutzung eines weiten Bereiches von Eigenschaften definiert werden, deren Wichtigkeit auf Grundlage des Contents, der in den Digitalbildern beinhaltet ist, verschieden sein kann. Bei einem derartigen Beispiel kann beim Einfügen des Vordergrundobjektes „Auto“ in eine Hintergrundszene mit einer Straße der Betrachtungspunkt eine größere Wichtigkeit aufweisen. Demgegenüber kann die semantische Konsistenz eine größere Wichtigkeit aufweisen, wenn Ski mit einem schneebedeckten Berg zusammengestellt werden. Herkömmliche Techniken konzentrieren sich jedoch auf eine einzige Eigenschaft oder beruhen auf einer manuellen Extraktion von Merkmalen, um passende Kriterien zu definieren. Diese herkömmlichen Techniken sind daher nicht in der Lage, sich an verschiedene Eigenschaften und die unterschiedliche relative Wichtigkeit dieser Eigenschaften anzupassen, wenn ein Treffer für verschiedene Objektkategorien, wie vorstehend beschrieben worden ist, definiert wird. Diese herkömmlichen Techniken können zudem beispielsweise dann versagen, wenn sie mit großen Datenmengen („big data“) konfrontiert sind, wie sie beim Umgang mit Millionen von Digitalbildern auftreten, die als Quellen der Zusammenstellung verfügbar sein können. Ein Beispiel hierfür ist ein Vorratsdigitalbildsystem, das über ein Netzwerk zugänglich ist.
Zusammenfassung
Beschrieben werden Techniken und Systeme zur zusammenstellungssensitiven Digitalbildsuche, die maschinelles Lernen einsetzen. Bei einem Beispiel setzt ein zusammenstellungssensitives Bildsuchsystem ein faltungstechnisches neuronales Two-Stream-Netzwerk (CNN) ein, um Merkmalseinbettungen aus Vordergrunddigitalbildern, die ein Vordergrundobjekt erfassen, und Hintergrunddigitalbildern, die eine Hintergrundszene erfassen, gemeinsam zu lernen.
Um Maschinenlernmodelle herkömmlicher neuronaler Netzwerke zu trainieren, werden Tripel von Trainingsdigitalbildern verwendet. Jedes Tripel beinhaltet ein Positivvordergrunddigitalbild und ein Positivhintergrunddigitalbild, die beispielsweise unter Nutzung von Segmentierungsmaskenkommentierungen demselben Digitalbild entnommen sind. Das Tripel enthält zudem ein Negativvordergrund- oder Hintergrunddigitalbild, das zu dem Positivvordergrund- oder Hintergrunddigitalbild nicht ähnlich ist und das ebenfalls als Teil des Tripels beinhaltet ist. Um die Suche nach Vordergrundobjekten zu unterstützen, werden beispielsweise Positiv- und Negativvordergrunddigitalbilder zusammen mit einem Positivhintergrunddigitalbild beim Trainieren des Modells benutzt. Um die Suche nach einer Hintergrundszene zu unterstützen, werden demgegenüber Positiv- und Negativhintergrunddigitalbilder zusammen mit einem Positivvordergrunddigitalbild beim Trainieren des Modells benutzt. Die Tripel von Trainingsdigitalbildern werden sodann durch jeweilige faltungstechnische neuronale Hintergrund- und Vordergrundnetzwerke (CNNs) verarbeitet, die gemeinsam eine Verlustfunktion (beispielsweise einen Tripelverlust) benutzen, um einen gemeinsamen Einbettungsraum zu lernen. Sobald dieser gemeinsame Einbettungsraum erlernt ist, kann er von dem System dafür benutzt werden, die wechselseitige Kompatibilität der Vordergrund- und Hintergrunddigitalbilder zu definieren.
Die vorliegende Zusammenfassung führt in vereinfachter Form eine Auswahl von Konzepten ein, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung wesentliche Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfanges des beanspruchten Erfindungsgegenstandes benutzt werden.
Figurenliste
Die Detailbeschreibung erfolgt anhand der begleitenden Figuren. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb der Verweis auf eine einzige oder mehrere Formen der Entitäten in den Erläuterungen gleichermaßen erfolgen kann.

1 ist eine Darstellung einer Umgebung bei einer exemplarischen Implementierung, die dafür betreibbar ist, die hier beschriebenen Techniken der zusammenstellungssensitiven Digitalbildsuche einzusetzen.
2 zeigt detaillierter ein System bei einer exemplarischen Implementierung, die eine Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems von 1 zeigt.
3 zeigt detaillierter ein System bei einer exemplarischen Implementierung zur Darstellung einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems von 2, wobei Kategorieinformation integriert ist.
4 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung, bei der ein Suchergebnis auf Grundlage von Vordergrundmerkmalen, die aus einem Vordergrundbild unter Nutzung maschinellen Lernens gelernt werden, und Hintergrundmerkmalen, die aus mehreren Kandidatendigitalbildern gelernt werden, generiert wird.
5 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung, wobei ein Suchergebnis auf Grundlage von Hintergrundmerkmalen, die aus einem Hintergrunddigitalbild unter Nutzung maschinellen Lernens gelernt werden, und Vordergrundmerkmalen, die aus mehreren Kandidatendigitalbildern gelernt werden, generiert wird.
6 zeigt detaillierter ein System bei einer exemplarischen Implementierung zur Darstellung des Trainings einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 von 1.
7 zeigt detaillierter ein System bei einer exemplarischen Implementierung zur Darstellung einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems von 1, wobei Kategoriedaten integriert sind.
8 zeigt ein Beispiel für Trainingsdigitalbilder, die zur Nutzung beim Trainieren des zur zusammenstellungssensitiven Bildsuche gegebenen Systems generiert werden.
9 zeigt eine exemplarische Implementierung, bei der zusätzliche Positivtrainingsdigitalbilder von dem zur zusammenstellungssensitiven Bildsuche gegebenen System 118 von 1 generiert werden.
10 zeigt eine exemplarische Implementierung, bei der zusätzliche Negativtrainingsdigitalbilder von dem zur zusammenstellungssensitiven Bildsuche gegebenen System von 1 generiert werden.
11 zeigt eine Prozedur bei einer exemplarischen Implementierung, bei der Trainingsdigitalbilder zur Nutzung bei der Digitalbildzusammenstellung generiert werden.
12 zeigt ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die als beliebiger Typ von Rechenvorrichtung gemäß Beschreibung und/oder Nutzung anhand von 1 bis 11 implementiert sein kann, um Ausführungsformen der hier beschriebenen Techniken zu implementieren.

Detailbeschreibung
Übersicht
Herkömmliche Techniken, die dafür benutzt werden, Digitalbilder zusammenzustellen, beruhen üblicherweise auf manuell extrahierten Merkmalen und definierten passenden Kriterien oder beruhen auf einer einzigen Eigenschaft oder definieren, wann ein Vordergrundobjekt mit einer Hintergrundszene kompatibel ist. Infolgedessen versagen herkömmliche Techniken dabei, mit einer großen Vielzahl von Eigenschaften umzugehen, die zum Definieren dieser Kompatibilität benutzt werden können und deren Wichtigkeit sich für verschiedene Kategorien von Digitalbildern, das heißt für dasjenige, was von den Bildern erfasst wird, ändern kann.
Entsprechend werden zur zusammenstellungssensitiven Digitalbildsuche gegebene Techniken und Systeme beschrieben, die maschinelles Lernen einsetzen. Automatisch und genau gelernt werden können daher anstatt des manuellen Konzipierens passender Kriterien oder des manuellen Modellierens von Merkmalen (hand engineering features) Merkmalsdarstellungen durch ein zur zusammenstellungssensitiven Bildsuche gegebenes System für Hintergrundszenen und Vordergrundobjekte unter Nutzung maschinellen Lernens, so beispielsweise unter Nutzung jeweiliger faltungstechnischer neuronaler Netzwerke. Das zur zusammenstellungssensitiven Bildsuche gegebene System kann beispielsweise ein faltungstechnisches neuronales Two-Stream-Netzwerk (CNN) einsetzen, um Merkmalseinbettungen aus Vordergrunddigitalbildern, die ein Vordergrundobjekt erfassen, und Hintergrunddigitalbildern, die eine Hintergrundszene erfassen, gemeinsam zu lernen.
Um Modelle herkömmlicher neuronaler Netzwerke zu trainieren, werden Tripel von Trainingsdigitalbildern aus einem Datensatz, der Segmentierungsmaskenkommentierungen aufweist, benutzt, um einen gemeinsamen Einbettungsraum zu lernen. Jedes Tripel kann beispielsweise ein Positivvordergrunddigitalbild und ein Positivhintergrunddigitalbild beinhalten, die beispielsweise unter Nutzung von Segmentierungsmaskenkommentierungen demselben Digitalbild entnommen sind. Das Tripel enthält zudem ein Negativvordergrund- oder Hintergrunddigitalbild, das zu dem Positivvordergrund- oder Hintergrunddigitalbild nicht ähnlich ist und das ebenfalls als Teil des Tripels beinhaltet ist. Um die Suche nach Vordergrundobjekten zu unterstützen, werden beispielsweise Positiv- und Negativvordergrunddigitalbilder zusammen mit einem Positivhintergrunddigitalbild beim Trainieren des Modells genutzt. Um die Suche nach einer Hintergrundszene zu unterstützen, werden demgegenüber Positiv- und Negativhintergrunddigitalbilder zusammen mit einem Positivvordergrunddigitalbild beim Trainieren des Modells benutzt. Die Ähnlichkeit (positive Kompatibilität) oder Nichtähnlichkeit (das heißt negative Kompatibilität) können auf Eigenschaften beruhen, die zum Definieren der wechselseitigen Kompatibilität von Digitalbildern nutzbar sind, so beispielsweise Semantiken, Betrachtungspunkt, Stil, Farbe und dergleichen mehr.
Die Tripel von Trainingsdigitalbildern werden sodann von jeweiligen faltungstechnischen neuronalen Hintergrund- und Vordergrundnetzwerken (CNNs) verarbeitet, die gemeinsam eine Verlustfunktion (beispielsweise einen Tripelverlust) nutzen, um einen gemeinsamen Einbettungsraum zu lernen, das heißt, um Maschinenlernmodelle der herkömmlichen neuronalen Netzwerke zu trainieren. Sobald dieser gemeinsame Einbettungsraum erlernt ist, kann er von dem System zum Definieren der wechselseitigen Kompatibilität der Vordergrund- und Hintergrunddigitalbilder benutzt werden. Erfolgen kann dies beispielsweise durch Berechnen von Kennwerten auf Grundlage einer Kosinusähnlichkeit für Merkmalsvektoren der Hintergrundmerkmale und Vordergrundmerkmale, die durch jeweilige faltungstechnische neuronale Netzwerke dieses Two-Stream-Systems gelernt werden. Zudem können Kategoriedaten als Teil der Hintergrund- und Vordergrundmerkmale eingebettet sein, um beispielsweise unter Nutzung von Kategoriemerkmalen, die aus Text der Kategoriedaten unter Nutzung von word2vec gelernt werden, die Kompatibilität weiter zu führen.
Auf diese Weise kann das Generieren der Merkmale aus den Vordergründen und Hintergründen dafür benutzt werden, mit einem weiten Bereich von Eigenschaften umzugehen, die zum Definieren der Kompatibilität nutzbar sind und daher die Beschränkungen herkömmlicher Techniken überwinden. Des Weiteren können diese Techniken dafür genutzt werden, mit Millionen von verfügbaren Digitalbildern, die als Quellen für die Zusammenstellung dienen können, umzugehen. Die Hintergrundmerkmale können beispielsweise offline berechnet und sodann in Echtzeit mit Vordergrundmerkmalen, die ebenfalls in Echtzeit generiert werden, benutzt werden, um eine zusammenstellungssensitive Suche durchzuführen. Dies ist unter Nutzung herkömmlicher manuell definierter Techniken nicht möglich.
Es können von dem zur zusammenstellungssensitiven Bildsuche gegebenen System auch Techniken eingesetzt werden, die die Anzahl von Trainingsdigitalbildern, die zum Trainieren der faltungstechnischen neuronalen Hintergrund- und Vordergrundnetzwerke verfügbar sind, erweitern. Ein Trainingsdatengenerierungsmodul kann von dem System beispielsweise dafür eingesetzt werden, zusätzliche Beispiele für Positiv- oder Negativhintergrund- oder Vordergrunddigitalbilder, die beim Trainieren benutzt werden sollen, zu generieren. Bei einem Beispiel erfolgt dies durch Ersetzen eines Positivvordergrunddigitalbildes, das einem Positivhintergrunddigitalbild zugeordnet ist, durch ein ähnliches Positivvordergrunddigitalbild, das einem anderen Digitalbild entnommen ist. Bei einem weiteren Beispiel erfolgt dies durch Ersetzen eines Positivhintergrunddigitalbildes, das einem Positivvordergrunddigitalbild zugeordnet ist, durch ein ähnliches Positivhintergrunddigitalbild, das einem anderen Digitalbild entnommen ist. Ähnliche Techniken können zudem eingesetzt werden, um die Anzahl von Negativtrainingsdigitalbildern beispielsweise durch Ersetzen von Positivvordergrund- oder Hintergrunddigitalbildern durch nichtähnliche Vordergrund- oder Hintergrunddigitalbilder zu erhöhen. Auf diese Weise kann die Trainingsgenauigkeit als Teil des maschinellen Lernens auch dann verbessert werden, wenn ein Trainingsdatensatz mit einer begrenzten Anzahl von kommentierten (beispielsweise maskierten) Beispielen benutzt wird. Die weitere Diskussion dieser und anderer Beispiele ist in den nachfolgenden Abschnitten beinhaltet und in den entsprechenden Figuren gezeigt.
Bei der nachfolgenden Diskussion wird eine exemplarische Umgebung beschrieben, die die hier beschriebenen Techniken einsetzen kann. Zudem werden exemplarische Prozeduren beschrieben, die in der exemplarischen Umgebung wie auch in anderen Umgebungen durchgeführt werden können. Infolgedessen ist die Durchführung der exemplarischen Prozeduren nicht auf die exemplarische Umgebung beschränkt, und es ist die exemplarische Umgebung nicht auf die Durchführung der exemplarischen Prozeduren beschränkt.
Exemplarische Umgebung
1 ist eine Darstellung einer Digitalmedienumgebung 100 bei einer exemplarischen Implementierung, die dafür betreibbar ist, die hier beschriebenen zur zusammenstellungssensitiven Digitalbildsuche gegebenen Techniken einzusetzen. Die dargestellte Umgebung 100 beinhaltet ein Dienstanbietersystem 102 und eine Clientvorrichtung 104, die auf vielerlei Arten konfiguriert sein können. Rechenvorrichtungen, die das Dienstanbietersystem 102 und die Clientvorrichtung 104 implementieren, können auf vielerlei Arten konfiguriert sein.
Eine Rechenvorrichtung kann beispielsweise als Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise als manuelle Konfiguration wie bei einem Tablet oder Mobiltelefon, siehe Darstellung) und dergleichen mehr konfiguriert sein. Daher kann die Rechenvorrichtung von über vollständige Ressourcen verfügenden Vorrichtungen mit erheblichen Speicher- und Prozessorressourcen (beispielsweise PCs, Spielekonsolen) zu einer über geringe Ressourcen verfügenden Vorrichtung mit begrenzten Speicher- und/oder Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Zusätzlich kann eine Rechenvorrichtung mehrere verschiedene Vorrichtungen darstellen, so beispielsweise mehrere Server, die zum Implementieren des Dienstanbietersystems 102 benutzt werden.
Die Clientvorrichtung 104 ist derart dargestellt, dass sie ein Bildverarbeitungssystem 108 beinhaltet. Das Bildverarbeitungssystem 108 ist wenigstens teilweise in der Hardware der Clientvorrichtung 104 implementiert, um ein Digitalbild 110, das derart dargestellt ist, dass es in einer Speichervorrichtung 112 der Clientvorrichtung 104 vorgehalten wird, zu verarbeiten und umzuwandeln. Eine derartige Verarbeitung beinhaltet das Erstellen des Digitalbildes 110, das Modifizieren des Digitalbildes 110 und das Wiedergeben des Digitalbildes 110 in einer Nutzerschnittstelle 114 beispielsweise zur Ausgabe durch eine Anzeigevorrichtung 116. Obwohl die Funktionalität des Bildverarbeitungssystems 104 derart dargestellt ist, dass sie lokal auf der Rechenvorrichtung 102 implementiert ist, kann sie auch gänzlich oder in Teilen über eine Funktionalität implementiert sein, die über das Netzwerk 114 verfügbar ist, so beispielsweise als Teil eines Webdienstes oder „in der Cloud“.
Ein Beispiel für die Funktionalität, die durch das Bildverarbeitungssystem 110 integriert ist, um das Digitalbild zu verarbeiten, beinhaltet die Digitalbildzusammenstellung. Die Digitalbildzusammenstellung impliziert das Kombinieren von Vordergrundobjekten und Hintergrundszenen aus verschiedenen Quellen, um ein neues zusammengestelltes Digitalbild zu generieren. Ein Nutzer möchte beispielsweise ein Vordergrundobjekt zu einer Hintergrundszene hinzufügen oder eine Hintergrundszene für ein Vordergrundobjekt ändern.
Zu diesem Zweck greift das Bildverarbeitungssystem 108 beim dargestellten Beispiel über das Netzwerk 106 auf ein zur zusammenstellungssensitiven Bildsuche gegebenes System 118 eines Dienstanbietersystems 102 zu. Es sind andere Beispiele einbezogen, bei denen das zur zusammenstellungssensitiven Bildsuche gegebene System 118 lokal auf der Clientvorrichtung 104, die dafür benutzt wird, das Zusammenstellen vorzunehmen, implementiert ist. Der Zugriff wird genutzt, um eine Suche nach Digitalbildern 120 durchzuführen, die in einer Speichervorrichtung 122 vorgehalten werden und die zu dem Digitalbild 110 der Clientvorrichtung 104 kompatibel sind.
Wie vorstehend beschrieben worden ist, kann die wechselseitige Kompatibilität von Vordergrund- und Hintergrundbildern unter Nutzung einer Vielzahl von Eigenschaften definiert werden, deren Wichtigkeit sich auf Grundlage dessen, welche Kategorien zu welchen Bildern gehören, ändern kann. Ein Betrachtungspunkt kann beispielsweise eine größere Wichtigkeit aufweisen, wenn das Vordergrundobjekt „Auto“ zu der Hintergrundszene „Straße“ hinzugefügt wird, wohingegen die semantische Konsistenz eine größere Wichtigkeit aufweisen kann, wenn Ski mit einem schneebedeckten Berg zusammengestellt werden. Entsprechend beinhaltet das zur zusammenstellungssensitiven Bildsuche gegebene System 118 ein Hintergrundmerkmalmaschinenlernsystem 124 und ein Vordergrundmerkmalmaschinenlernsystem 126, die jeweils dafür konfiguriert sind, Hintergrund- und Vordergrundmerkmale zu konfigurieren. Die Hintergrund- und Vordergrundmerkmale sind dazu nutzbar, die Kompatibilität eines Vordergrundbildes mit einem Hintergrundbild zu bestimmen. Unterstützt werden kann dies bei einer Implementierung durch Nutzung eines Kategoriemerkmalmaschinenlernsystems 128, das dafür nutzbar ist, Kategoriemerkmale aus Kategoriedaten zu lernen, die zusammen mit den Vordergrund- und Hintergrundbildern bereitgestellt werden. Die Kategoriedaten können beispielsweise eine Kategorie definieren, die definiert, „was“ in den Vordergrund- und Hintergrunddigitalbildern beinhaltet ist, wodurch die Suche, wie nachstehend noch beschrieben wird, unterstützt wird. Bei einem Beispiel erfolgt dies für acht Kategorien, die häufig auftreten und die allgemein bei der Bildzusammenstellung benutzt werden, nämlich „Person“, „Auto“, „Boot“, „Hund“, „Pflanze“, „Flasche“, „Stuhl“ und „Gemälde“.
Auf diese Weise kann ein Hintergrunddigitalbild 130 als Grundlage dafür benutzt werden, Bildmerkmalsdaten 132 zu generieren, die Hintergrundmerkmale 134 beinhalten, die dafür benutzt werden, die Kompatibilität mit den Digitalbildern 120 des Vordergrundes zu bestimmen. Auf gleiche Weise kann ein Vordergrunddigitalbild 136 benutzt werden, um Bildmerkmalsdaten 138 zu generieren, die Vordergrundmerkmale 140 aufweisen, die dafür benutzt werden, die Kompatibilität mit Digitalbildern eines Hintergrundes zu bestimmen.
Unter Nutzung der Vordergrund- und Hintergrundmerkmalmaschinenlernsysteme 124, 126 können erlernte Merkmalsdarstellungen reichhaltige Information insbesondere für die Bildzusammenstellung codieren und sich an verschiedenen Bildcontent anpassen. Zusätzlich kann das zur zusammenstellungssensitiven Bildsuche gegebene System 118 mit zahlreichen Vordergrund- und/oder Hintergrundkategorien in einem einzigen Framework umgehen und so die rechentechnische Effizienz und den Betrieb einer Rechenvorrichtung, die diese Techniken einsetzt, unterstützen. Auf diese Weise kann das zur zusammenstellungssensitiven Bildsuche gegebene System 118 auch dann mit einer Vielzahl von Kategorien umgehen, wenn es von dem System nicht speziell trainiert worden ist. Dies ist bei Nutzung herkömmlicher, manueller oder Einzelkategorietechniken nicht möglich.
Im Allgemeinen können Funktionalitäten, Merkmale und Konzepte, die vorstehend und nachstehend im Zusammenhang mit Beispielen beschrieben werden, auch im Zusammenhang mit den in diesem Abschnitt beschriebenen exemplarischen Prozeduren eingesetzt werden. Des Weiteren können Funktionalitäten, Merkmale und Konzepte, die im vorliegenden Dokument im Zusammenhang mit verschiedenen Figuren und Beispielen beschrieben werden, gegeneinander ausgetauscht werden und sind nicht auf die Implementierung im Kontext einer bestimmten Figur oder Prozedur beschränkt. Darüber hinaus können Blöcke, die verschiedenen jeweiligen Prozeduren und entsprechenden Figuren zugeordnet sind, zusammen eingesetzt und/oder auf verschiedene Arten kombiniert werden. Daher können einzelne Funktionalitäten, Merkmale und Konzepte, die hier im Zusammenhang mit verschiedenen exemplarischen Umgebungen, Vorrichtungen, Komponenten, Figuren und Prozeduren beschrieben werden, in beliebigen geeigneten Kombinationen benutzt werden und sind nicht auf die bestimmten Kombinationen, die durch die in der vorliegenden Beschreibung aufgezählten Beispiele dargestellt werden, beschränkt.
Architektur eines zur zusammenstellungssensitiven Digitalbildsuche gegebenen Systems
2 zeigt detaillierter ein System 200 bei einer exemplarischen Implementierung zur Darstellung einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 von 1. 3 zeigt detaillierter ein System 300 bei einer exemplarischen Implementierung zur Darstellung einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 von 1, wobei Kategorieinformation integriert ist. 4 zeigt eine Prozedur 400 bei einer exemplarischen Implementierung, bei der ein Suchergebnis auf Grundlage von Vordergrundmerkmalen, die aus einem Vordergrundbild unter Nutzung maschinellen Lernens gelernt werden, und Hintergrundmerkmalen, die aus mehreren Kandidatendigitalbildern gelernt werden, generiert wird. 5 zeigt eine Prozedur 500 bei einer exemplarischen Implementierung, bei der ein Suchergebnis auf Grundlage von Hintergrundmerkmalen, die aus einem Hintergrunddigitalbild unter Nutzung maschinellen Lernens gelernt werden, und Vordergrundmerkmalen, die aus mehreren Kandidatendigitalbildern gelernt werden, generiert wird.
Die nachfolgenden Diskussion beschreibt Techniken, die unter Nutzung der beschriebenen Systeme und Vorrichtungen implementiert sein können. Aspekte der Prozedur können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Die Prozedur ist als Satz von Blöcken gezeigt, die Operationen spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zum Durchführen der Operationen durch die jeweiligen Blöcke gezeigt sind. In Abschnitten der nachfolgenden Diskussion wird gleichwertig auf 1 bis 4 verwiesen.
Wie in 2 gezeigt ist, ist das zur kontextsensitiven Bildsuche gegebene System 118 als Two-Stream-Merkmalseinbettungsnetzwerk ausgebildet, das dafür konfiguriert ist, die Kompatibilität eines Hintergrundbildes 202 mit einem Vordergrundgrundbild 204 zu bestimmen. Ein erster Stream wird von dem Hintergrundmerkmalmaschinenlernsystem 124 dargestellt, während ein zweiter Stream von dem Vordergrundmerkmalmaschinenlernsystem 126 dargestellt wird. Die Hintergrund- und Vordergrundmaschinenlernsysteme 124, 126 nutzen jeweilige faltungstechnische neuronale Netzwerke 206, 208, um Hintergrundmerkmale 210 beziehungsweise Vordergrundmerkmale 212 zu lernen.
Faltungstechnische neuronale Netzwerke 206, 208 werden für Schichten von Knoten (das heißt Neuronen) gebildet und beinhalten eine Eingabeschicht, eine Ausgabeschicht und eine oder mehrere verborgene Schichten. Die verborgenen Schichten können faltungstechnische Schichten, Pooling-Schichten, vollständig verbundene Schichten und/oder Normierungsschichten beinhalten. Die faltungstechnischen neuronalen Netzwerke 206, 208 werden darauf trainiert, einen gemeinsamen Einbettungsraum zu lernen, der sodann dafür benutzt wird, die Kompatibilität des Hintergrundbildes 202 mit dem Vordergrundbild 204 beispielsweise unter Nutzung einer Kosinusähnlichkeit zu bestimmen. Die weitere Diskussion des Trainings der Modelle ist im Abschnitt „Generieren zusammenstellungssensitiver Trainingsdaten und maschinelles Lernen“ in der nachfolgenden Diskussion beinhaltet.
Bei dem dargestellten Beispiel nimmt das Hintergrundmerkmalmaschinenlernsystem 124 ein Hintergrundbild 202 als Eingabe. Ein Abschnitt eines Digitalbildes 202, der ein Vordergrundobjekt aufnehmen soll, wird von dem System gefüllt. Zu diesem Zweck berechnet das Hintergrundmerkmalmaschinenlernsystem 124 einen Farbmittelwert von Farben des Hintergrundbildes und nutzt diesen Farbmittelwert, um eine Rechteck zu füllen, das die Höhe und Breite eines Vordergrundobjektes aufweist, das mit dem Hintergrundobjekt zusammengestellt werden soll. Auf diese Weise definiert der gefüllte Abschnitt eine Größe, ein Seitenverhältnis und einen Ort in der Hintergrundszene, der ein Vordergrundobjekt aufnehmen soll.
Das Vordergrundmerkmalmaschinenlernsystem 126 nimmt als Eingabe ein Vordergrunddigitalbild 204, um die Vordergrundmerkmale 212 zu generieren. Das Vordergrunddigitalbild 204 beinhaltet bei diesem Beispiel ein Vordergrundobjekt mit einem sauberen, beispielsweise weißen Hintergrund. Beispiele für diese Vordergrunddigitalbilder können aus Vorratsbildersystemen (beispielsweise Adobe® Stock) bezogen werden, die überaus reichhaltig sind und von Berufskreativen bevorzugt werden, obwohl es schwierig ist, sie mittels herkömmlicher Techniken, beispielsweise mittels Schlüsselwortsuchen, zu durchsuchen.
Die Hintergrund- und Vordergrundmerkmale 210, 212 werden für ein Kennwertberechnungsmodul 214 bereitgestellt, damit dieses einen Kennwert 216 berechnet, der die Kompatibilität der Hintergrund- und Vordergrunddigitalbilder angibt. Der Kennwert 216 beruht darauf, „wie nahe“ die Hintergrund- und Vordergrundmerkmale 210, 212 in einem gemeinsamen Einbettungsraum zueinander sind, der von den faltungstechnischen neuronalen Netzwerken 208, 208 beispielsweise unter Nutzung einer Kosinusähnlichkeit gelernt wird. Diese Kennwerte werden sodann von einem Suchmodul 218 benutzt, um Kandidatendigitalbilder 120 in der Speichervorrichtung 122 dem Rang nach zu bewerten, um ein Suchergebnis 220 zu generieren, das die wechselseitige Kompatibilität der Digitalbilder angibt. Erfolgen kann dies zum Lokalisieren eines Vordergrunddigitalbildes 204 für ein jeweiliges Hintergrunddigitalbild 202 oder zum Lokalisieren eines Hintergrunddigitalbildes / von Hintergrunddigitalbildern 202 für ein Vordergrunddigitalbild 204.
3 zeigt ein exemplarisches System 300, bei dem das zur kontextsensitiven Bildsuche gegebene System 118 von 2 dafür angepasst ist, mit Kategoriedaten 302 umzugehen. Bei diesem Beispiel ist das zur kontextsensitiven Bildsuche gegebene System 118 dafür konfiguriert, mit mehreren Bildkategorien in einem einzigen Framework umzugehen, was unter Nutzung herkömmlicher Techniken nicht möglich ist. Auf diese Weise kann das zur kontextsensitiven Bildsuche gegebene System 118 auch dann mit Unterschieden hinsichtlich der Wichtigkeit von Eigenschaften beim Bestimmen der Kompatibilität von Vordergrund- und Hintergrunddigitalbildern für einen weiten Bereich von Kategorien umgehen, wenn es von dem System nicht speziell trainiert worden ist.
Zu diesem Zweck werden bei dem dargestellten Beispiel von einem Kategoriemerkmalmaschinenlernsystem 304 Kategoriedaten 302 empfangen, die über ein neuronales Netzwerk 306 zum Generieren von Kategoriemerkmalen 308 verarbeitet werden. Das neuronale Netzwerk 306 kann beispielsweise eine word2vec-Technik einsetzen, die eine Gruppe von verwandten Maschinenlernmodellen ist, die zum Generieren der Kategoriemerkmale als Worteinbettungen benutzt werden. Diese Maschinenlernmodelle können als neuronales Zwei-Schichten-Netzwerk, das auf das Rekonstruieren von linguistischen Kontexten von Worten trainiert ist, implementiert werden.
Das neuronale Netzwerk 306 wird unter Nutzung eines Textkorpus trainiert, damit es einen Vektorraum lernt, der üblicherweise mehrere 100 Dimensionen aufweist und in dem jedem eindeutigen Wort in dem Korpus ein entsprechender Vektor in dem Vektorraum zugewiesen ist. Daher sind in dem Vektorraum Wortvektoren derart positioniert, dass Worte, die gemeinsame Kontexte in dem Korpus teilen, in dem Raum nahe beieinander befindlich sind. Auf diese Weise kann ein vielfältiger Bereich von Kategoriedaten 302 eingesetzt werden, um Eigenschaften der Hintergrund- und Vordergrunddigitalbilder 202, 204 zu beschreiben. Dies kann sogar für den Umgang mit Kategoriedaten 302 benutzt werden, wenn kein spezielles Training durch das zur kontextsensitiven Bildsuche gegebene System 118 erfolgt ist, und zwar durch Bestimmen der Nähe der nichttrainierten Worte in dem Vektorraum zu Worten, die als Teil des Trainings benutzt werden.
Um die Kategoriemerkmale durch das zur kontextsensitiven Bildsuche gegebene System 118 zu integrieren, sind die Kategoriemerkmale 308 als Teil der Hintergrundmerkmale 210 und der Vordergrundmerkmale 212 codiert. Zu diesem Zweck werden bei dem dargestellten Beispiel multimodale kompakte bilineare Pooling-Module (MCB) 310 benutzt, um ein äußeres Produkt der beiden Vektoren (beispielsweise der Hintergrundmerkmale 210 und der Kategoriemerkmale 308 oder der Vordergrundmerkmale 212 und der Kategoriemerkmale 308) zur Bildung der Kombination zu bilden, obwohl auch andere Techniken einbezogen sind. Merkmalumwandlungsmodule 314, 316 werden sodann dafür eingesetzt, sowohl ein inneres Produkt wie auch ein kompaktes bilineares Pooling zusammen mit einem Light-Computation-CNN einzusetzen, um Kennwerte unter Nutzung eines Kennwertberechnungsmoduls 214, das eine Tripelverlustfunktion einsetzt, zu generieren.
Bei einem Implementierungsbeispiel wird ein tiefes neuronales ResNet50-Netzwerk eingesetzt, um die Merkmale (beispielsweise bis zur Schicht „Pool5“) als Anfangsgewichtungen zu lernen, wonach ein globales Mittelungspooling durchgeführt wird, um eine Merkmalskarte der Größe „1×1×2048“ zu erhalten. Obwohl der Hintergrundstream und der Vordergrundstream des Hintergrundmerkmalmaschinenlernsystems 124 und des Vordergrundmerkmalmaschinenlernsystems 126 mit denselben Gewichtungen aus ResNet50 initialisiert werden, können dieses Streams nach dem Lernen verschiedene Information codieren. Das Hintergrundmerkmalmaschinenlernsystem 124 kann beispielsweise dafür konfiguriert sein, sich auf den Kontext einer Hintergrundszene zu konzentrieren, wohingegen sich das Vordergrundmerkmalmaschinenlernsystem 126 auf objektorientierte Merkmale konzentriert.
Um die Kategoriemerkmale 308 als kategoriespezifische Merkmalsabbildung zu lernen, setzt das Kategoriemerkmalmaschinenlernsystem 304 ein word2vec-Modell, wie vorstehend beschrieben worden ist, ein, um einen 300-dimensionalen Vektor als Kategoriemerkmale 308 zu extrahieren. Nach einigen Faltungsschichten werden die Kategoriemerkmale 308 sodann mit den Hintergrund- und Vordergrundmerkmalen 210, 212 in jedem separaten MCB-Modul 310, 312 zusammengeführt (fused). Leichtmerkmalumwandlungsmodule 314, 316, die eine Faltungsschicht, eine elementweise vorzeichenbehaftete (signed) Quadratwurzelschicht $(y = s i g n (x) \sqrt{| x |})$
und eine instanzweise ℓ₂-Normierungsoperation beinhalten, werden zudem an das System angefügt. Dies erfolgt zum Generieren eines Einheitsmerkmalsvektors jeweils für Vordergrund und Hintergrund, der sowohl die Kategoriedaten 302 wie auch Bildcontent aus dem Hintergrunddigitalbild 202 und dem Vordergrunddigitalbild 204 codiert.
Dies kann zur Unterstützung einer Vielzahl von Nutzungsszenarien genutzt werden. Bei einem ersten Beispiel interagiert ein Berufskreativer gegebenenfalls mit einem Bildverarbeitungssystem 108 der Clientvorrichtung 114 mit einer Hintergrundszene eines Hintergrunddigitalbildes 130 und möchte ein Vordergrundobjekt aus einem Vordergrunddigitalbild, das mit der Hintergrundszene zusammengestellt werden soll, lokalisieren.
Entsprechend wird das Hintergrunddigitalbild 202 für das zur zusammenstellungssensitiven Bildsuche gegebene System 118 bereitgestellt. Ein Hintergrundmerkmalmaschinenlernsystem 124 wird sodann eingesetzt, um Hintergrundmerkmale 210 aus einem Digitalbild (beispielsweise dem Hintergrunddigitalbild 202) unter Nutzung maschinellen Lernens (Block 402) beispielsweise durch das faltungstechnische neuronale Netzwerk 206 zu extrahieren. Erfolgen kann dies „online“ in Echtzeit in Sekunden, wenn das Hintergrunddigitalbild 202 empfangen wird.
Das zur zusammenstellungssensitiven Bildsuche gegebene System 118 setzt das Vordergrundmerkmalmaschinenlernsystem 126 zudem ein, um Vordergrundmerkmale 212 aus mehreren Kandidatendigitalbildern 120 unter Nutzung maschinellen Lernens zu extrahieren (Block 404). Das Vordergrundmerkmalmaschinenlernsystem 126 kann in diesem Fall die Extraktion „offline“ durchführen, um die Vordergrundmerkmale 212 aus einem Vorrat von Kandidatendigitalbildern von Vordergrundobjekten zu extrahieren. Die Vordergrundmerkmale 212 können sodann in einer Speichervorrichtung gespeichert werden, um bei diesem Beispiel eine Echtzeitsuche auf Grundlage der Hintergrundmerkmale 210 zu unterstützen. Dies ist bei Nutzung herkömmlicher Techniken nicht möglich.
Bei dem exemplarischen System 300 von 3 ist das zur zusammenstellungssensitiven Bildsuche gegebene System 118 zudem derart konfiguriert, dass es ein Kategoriemerkmalmaschinenlernsystem 304 beinhaltet, um Kategoriemerkmale aus Kategoriedaten 302, die Text beinhalten, zu generieren (Block 406). Die Kategoriedaten 302 können beispielsweise einen semantischen Kontext für Eigenschaften der Hintergrund- und Vordergrunddigitalbilder bereitstellen, die als Grundlage zur Bestimmung der Kompatibilität benutzt werden. Die Kategoriemerkmale 308 können beispielsweise als Teil der Hintergrundmerkmale 210 und Vordergrundmerkmale 212 durch jeweilige MCB-Module 310, 312 eingebettet und mit jeweiligen Merkmalumwandlungsmodulen 314, 316 verarbeitet werden.
Sodann wird ein Kennwertberechnungsmodul 214 implementiert, um Kennwerte durch eine Merkmalseinbettung wenigstens teilweise auf Grundlage der extrahierten Hintergrundmerkmale aus dem Digitalbild und der extrahierten Vordergrundmerkmale aus den mehreren Kandidatendigitalbildern zu berechnen (Block 408), die sodann benutzt werden, um ein Suchergebnis 220 auf Grundlage der berechneten Kennwerte auszugeben (Block 410). Die Kennwerte 216 geben die relative Nähe der Hintergrund- und Vordergrundmerkmale zueinander in einem gemeinsamen Einbettungsraum an. Als solches sind die Kennwerte 216 nutzbar, um Relativgrade der Kompatibilität des Hintergrundbildes mit jedem der Kandidatendigitalbilder, die als Vordergrundbild dienen sollen, zu definieren. Diese Kennwerte können sodann dafür benutzt werden, die Kandidatendigitalbilder zur Ausgabe als Teil des Suchergebnisses 220 dem Rang nach zu bewerten. Die Nutzung der Online- und Offline-Merkmalsgenerierung kann sodann den Empfang und das Generieren des Suchergebnisses 220 in Echtzeit unterstützen, was unter Nutzung herkömmlicher Techniken nicht möglich ist. Diese Techniken können sodann zum Lokalisieren von Hintergrundszenen für ein Vordergrundobjekt benutzt werden, was im Zusammenhang mit dem nachfolgenden Beispiel beschrieben wird.
5 zeigt eine Prozedur 500 bei einer exemplarischen Implementierung, bei der ein Suchergebnis auf Grundlage von Hintergrundmerkmalen, die aus einem Hintergrunddigitalbild unter Nutzung maschinellen Lernens gelernt werden, und Vordergrundmerkmalen, die aus mehreren Kandidatendigitalbildern gelernt werden, generiert wird. Bei diesem Beispiel arbeitet ein Berufskreativer gegebenenfalls mit einem Bildverarbeitungssystem 108 einer Clientvorrichtung 104 mit einem Vordergrundobjekt eines Vordergrunddigitalbildes 136 und möchte gegebenenfalls eine kompatible Hintergrundszene eines Hintergrunddigitalbildes, die mit dem Vordergrundobjekt zusammengestellt werden soll, lokalisieren. Entsprechend wird das Vordergrunddigitalbild 204 für das zur zusammenstellungssensitiven Bildsuche gegebene System 118 bereitgestellt.
Ein Vordergrundmerkmalmaschinenlernsystem 126 wird sodann dafür eingesetzt, Vordergrundmerkmale 212 aus einem Digitalbild (beispielsweise dem Vordergrunddigitalbild 204) unter Nutzung maschinellen Lernens (Block g02) beispielsweise durch das faltungstechnische neuronale Netzwerk 208 zu extrahieren. Erfolgen kann dies „online“ in Echtzeit, wenn das Vordergrunddigitalbild 204 empfangen wird.
Das zur zusammenstellungssensitiven Bildsuche gegebene System 118 setzt zudem ein Hintergrundmerkmalmaschinenlernsystem 124 dafür ein, Hintergrundmerkmale 210 aus mehreren Kandidatendigitalbildern 120 unter Nutzung maschinellen Lernens zu extrahieren (Block 504). Das Hintergrundmerkmalmaschinenlernsystem 124 kann in diesem Fall die Extraktion „offline“ durchführen, um die Hintergrundmerkmale 210 aus einem Vorrat von Kandidatendigitalbildern 120 von Hintergrundszenen zu extrahieren. Die Hintergrundmerkmale 210 können sodann in einer Speichervorrichtung gespeichert werden, um bei diesem Beispiel eine Echtzeitsuche auf Grundlage der Vordergrundmerkmale 212 zu unterstützen. Die ist bei Nutzung herkömmlicher Techniken nicht möglich.
Bei dem exemplarischen System 300 von 3 ist das zur zusammenstellungssensitiven Bildsuche gegebene System 118 zudem derart konfiguriert, dass es ein Kategoriemerkmalmaschinenlernsystem 304 zum Generieren von Kategoriemerkmalen aus Kategoriedaten 302, die Text beinhalten, beinhaltet (Block 506). Die Kategoriedaten 302 können beispielsweise einen semantischen Kontext von Eigenschaften der Hintergrund- und Vordergrunddigitalbilder bereitstellen, die als Grundlage zur Bestimmung der Kompatibilität benutzt werden sollen. Die Kategoriemerkmale 308 können beispielsweise als Teil der Hintergrundmerkmale 210 und Vordergrundmerkmale 212 durch jeweilige MCB-Module 310, 312 eingebettet und mit jeweiligen Merkmalumwandlungsmodulen 314, 316 verarbeitet werden.
Ein Kennwertberechnungsmodul 214 ist zudem derart implementiert, dass es durch eine Merkmalseinbettung wenigstens teilweise auf Grundlage der extrahierten Hintergrundmerkmale aus dem Digitalbild und der extrahierten Vordergrundmerkmale aus den mehreren Kandidatendigitalbildern Kennwerte berechnet (Block 508), die sodann zum Ausgeben eines Suchergebnisses 220 auf Grundlage der berechneten Kennwerte benutzt werden (Block 510). Die Kennwerte 216 geben die relative Nähe der Hintergrund- und Vordergrundmerkmale zueinander in einem gemeinsamen Einbettungsraum an und sind daher dafür nutzbar, die Relativgrade der Kompatibilität des Vordergrundbildes mit jedem der Kandidatendigitalbilder, die als Hintergrundbild dienen sollen, zu definieren. Die Kennwerte können sodann dafür benutzt werden, die Kandidatendigitalbilder zur Ausgabe als Teil des Suchergebnisses dem Rang nach zu bewerten. Des Weiteren kann der Nutzer der Online- und Offline-Merkmalsgenerierung sodann den Empfang und das Generieren des Suchergebnisses 220 in Echtzeit, wie vorstehend beschrieben worden ist, unterstützen. Dies ist bei Nutzung herkömmlicher Techniken nicht möglich.
Entsprechend werden zu einer zusammenstellungssensitiven Digitalbildsuche gegebene Techniken und Systeme beschrieben, die die Probleme herkömmlicher Techniken überwinden. Daher können anstatt des manuellen Konzipierens passender Kriterien oder des manuellen Modellierens von Merkmalen durch ein zur zusammenstellungssensitiven Bildsuche gegebenes System 118 für Hintergrundszenen und Vordergrundobjekte unter Nutzung maschinellen Lernens, so beispielsweise unter Nutzung jeweiliger faltungstechnischer neuronaler Netzwerke, Merkmalsdarstellungen automatisch und genau gelernt werden. Das Training des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 wird im nachfolgenden Abschnitt beschrieben und ist in den entsprechenden Figuren gezeigt.
Generieren zusammenstellungssensitiver Trainingsdaten und maschinelles Lernen
6 zeigt detaillierter ein System 600 bei einer exemplarischen Implementierung zur Darstellung des Trainings einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 von 1. 7 zeigt detaillierter ein System 700 bei einer exemplarischen Implementierung zur Darstellung einer Two-Stream-System-Architektur des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 von 1, wobei Kategoriedaten integriert sind. 8 zeigt ein Beispiel 800 für das Training von Digitalbildern, die zur Nutzung beim Trainieren des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 generiert sind. 9 zeigt eine exemplarische Implementierung 900, bei der zusätzliche Positivtrainingsdigitalbilder von dem zur zusammenstellungssensitiven Bildsuche gegebenen System 118 von 1 generiert werden. 10 zeigt eine exemplarische Implementierung 1000, bei der zusätzliche Negativtrainingsdigitalbilder von dem zur zusammenstellungssensitiven Bildsuche gegebenen System 118 von 1 generiert werden. 11 zeigt eine Prozedur 1100 bei einer exemplarischen Implementierung, bei der Trainingsdigitalbilder zur Nutzung bei der Digitalbildzusammenstellung generiert werden.
Die nachfolgende Diskussion beschreibt Techniken, die unter Nutzung der beschriebenen Systeme und Vorrichtungen implementiert sein können. Aspekte der Prozedur können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Gezeigt ist die Prozedur als Satz von Blöcken, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden können und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind. In Abschnitten der nachfolgenden Diskussion wird gleichermaßen auf 6 bis 11 verwiesen.
Tripel von Trainingsdigitalbildern werden benutzt, um das Hintergrundmerkmalmaschinenlernsystem 124 und das Vordergrundmerkmalmaschinenlernsystem 126 zu trainieren. Bei dem dargestellten Beispiel 600 von 6 erfolgt dies unter Nutzung eines Positivhintergrunddigitalbildes 602, eines Positivvordergrunddigitalbildes 604 und eines Negativvordergrunddigitalbildes 606. Benutzt wird dies wie oben zum Generieren jeweiliger Hintergrund- und Vordergrundmerkmale 608, 610, wobei auf Grundlage hiervon eine Verlustfunktion 612 benutzt wird, um einen Tripelverlust 614 zum Trainieren der Hintergrund- und Vordergrundmerkmalmaschinenlernsysteme 124, 126 zu generieren.
Die Kategoriedaten 702 können zudem als Teil dieses Trainings, wie bei dem System 700 von 7 gezeigt ist, eingesetzt werden. Bei diesem Beispiel werden die Kategoriedaten 702 als Trainingsdaten von einem neuronalen Netzwerk 306 des Kategoriemerkmalmaschinenlernsystems 304 verarbeitet, um Kategoriemerkmale 708, so beispielsweise Vektordarstellungen von Text, unter Nutzung von word2vec zu generieren. Die Kategoriemerkmale 708 werden als Teil der Hintergrund- und Vordergrundmerkmale 608, 610 unter Nutzung der MCB-Module 310, 312 eingebettet und unter Nutzung der Merkmalumwandlungsmodule 314, 316, wie vorstehend beschrieben worden ist, verarbeitet. Erneut wird eine Verlustfunktion 612 benutzt, um einen Tripelverlust zum Trainieren der Hintergrund- und Vordergrundmerkmalmaschinenlernsysteme 124, 126 zu berechnen.
Die Genauigkeit beim Trainieren der Hintergrund- und Vordergrundmerkmalmaschinenlernsysteme 124, 126 zur Bildzusammenstellung kann dadurch erhöht werden, dass die Anzahl von Trainingsdigitalbildern, die als Teil des Trainings benutzt wird, erhöht wird. Ein Satz von Trainingsdigitalbildern ist jedoch bei herkömmlichen Systemen zur Unterstützung einer zusammenstellungssensitiven Bildsuche nicht verfügbar. Das Sammeln eines derartigen Trainingssatzes unter Nutzung herkömmlicher Techniken ist ressourcenintensiv, da es zeitaufwändig ist, viele Paare von Hintergrund- und Vordergrunddigitalbildern manuell zu etikettieren, und man zudem Erfahrung bei der Bildzusammenstellung und der Digitalbildbearbeitung benötigt, um zu entscheiden, ob zwei Elemente kompatibel sind.
Zusätzlich ist das zur zusammenstellungssensitiven Bildsuche gegebene System 118 bei diesem Beispiel dafür konfiguriert, Trainingsdigitalbilder automatisch und ohne Nutzereingriff zu generieren. Zu diesem Zweck werden Digitalbilder aus einem öffentlich verfügbaren Datensatz bezogen, der Objektinstanzsegmentierungsmasken enthält, wofür Beispiele MS-COCO, PASCAL VOC2012 und ADE20K beinhalten. Unter Nutzung dieser Maskenkommentierungen zerlegt ein Trainingsdatengenerierungsmodul 802 jedes der Digitalbilder in Hintergrundszenen und Vordergrundobjekte. Ein Beispiel hierfür ist in 8 gezeigt, wo ein ursprüngliches Digitalbild 804 dafür benutzt wird, ein Positivhintergrunddigitalbild 806 und ein Positivvordergrunddigitalbild 808 zu generieren. Da die Positivhintergrund- und Vordergrunddigitalbilder 806, 808 aus demselben ursprünglichen Digitalbild 804 generiert werden, sind diese Bilder zur Zusammenstellung kompatibel und sind im Allgemeinen geeigneter als beliebige andere mögliche Ka nd idatenpaa re.
Daher wird das Positivhintergrunddigitalbild 806 zur Bildung eines Tripels von Trainingsdigitalbildern als Anker behandelt, während das Positivvordergrunddigitalbild 808 als Positiventnahme behandelt wird. Ein Vordergrundobjekt wird zufällig einem beliebigen anderen Bild als Negativentnahme entnommen, was als Negativvordergrunddigitalbild 810 dargestellt ist. Es können auch Kategoriedaten als Teil dieses Trainings benutzt werden. Bei einem Beispiel erfolgt dies für acht Kategorien, die oftmals auftreten und allgemein bei der Bildzusammenstellung benutzt werden, nämlich „Person“, „Auto“, „Boot“, „Hund“, „Pflanze“, „Flasche“, „Stuhl“ und „Gemälde“.
In der Praxis ist ein Vordergrundobjekt üblicherweise nicht in einem Hintergrunddigitalbild beinhaltet, das als Basis zum Lokalisieren eines Vordergrundobjektes in einem Vordergrunddigitalbild benutzt werden soll. Um diese Situation beim Training nachzuahmen, wird ein Abschnitt 812, dem das Vordergrundobjekt aus dem ursprünglichen Digitalbild 804 genommen ist, gefüllt, um das Vordergrundobjekt aus der Hintergrundszene zu entfernen. Der Abschnitt 812 wird bei einem Beispiel unter Nutzung einer Farbe gefüllt, die als Farbmittel von Farben des Hintergrunddigitalbildes, aus dem das Vordergrunddigitalbild extrahiert ist, berechnet wird.
Indem der gefüllte Abschnitt 812 in dem Positivhintergrunddigitalbild 806 gefüllt wird, können die erlernten Hintergrundmerkmale 608 einem Ort, einer Größe und/oder einem Seitenverhältnis des Vordergrundobjektes entsprechen, das eingefügt werden soll, und zwar als Teil der Bestimmung der Kompatibilität der Vordergrund- und Hintergrunddigitalbilder. Beim Einfügen einer Person auf einem Rasen impliziert ein hohes Rechteck, dass der Nutzer gegebenenfalls eine stehende Person möchte, während ein breites Rechteck gegebenenfalls eine sitzende Person angibt. Infolge möglicher Beschränkungen hinsichtlich der Nutzergenauigkeit gilt diese Randbedingung jedoch nicht streng.
Um diese Beschränkungen zu überwinden, kann das Trainingsdatengenerierungsmodul 802 einen Datenaugmentierungsprozess implementieren, der Größen- und Skalenrandbedingungen zwischen paarweise vorhandenen Vordergrund- und Hintergrunddigitalbildern in einem definierten Ausmaß lockert. Zur Hintergrundaugmentierung wird eine Zufallsfüllung (random padding) zu dem Begrenzungskästchen mit einem maximal möglichen Füllraum (padding space) hinzugefügt, der als Hälfte der Breite und Höhe des Begrenzungskästchens gewählt ist. Der gefüllte Bereich (padded region) wird ebenfalls mit dem mittleren Farbwert gefüllt. Auf ähnliche Weise wird zur Vordergrundaugmentierung eine Zufallsfüllung hinzugefügt, um den gefüllten Bereich, beispielsweise mit weißer Farbe, zu füllen. Für das Negativvordergrunddigitalbild in dem Tripel erfolgt eine Zufallswahl aus einem anderen Bild mit einer ähnlichen Augmentierungstechnik. Obwohl einige Vordergrundobjekte gewählt werden können, die tatsächlich mit dem Hintergrund kompatibel sind, weist der Vordergrund aus demselben Bild weiterhin einen größeren Grad der Kompatibilität auf, weshalb die Unterscheidung zwischen Positiv- und Negativbeispielen weiterhin gilt.
Obwohl paarweise vorhandene Positivvordergründe und Hintergründe aus denselben Bildern schnell und effizient von dem Trainingsdatengenerierungsmodul 802 generiert werden können, ist die Anzahl von Positiventnahmen beträchtlich kleiner als diejenige der Negativentnahmen (beispielsweise „m“ gegenüber „m(m-1)“) für eine Anzahl „m“ von verfügbaren Digitalbildern. Das starke Ungleichgewicht bei der Anzahl von Trainingsentnahmen stellt zusammen mit dem Rauschen bei der Negativpaarentnahme, bei der einige kompatible Vordergründe fälschlicherweise als Negativentnahmen behandelt werden, ein Problem dar. Um dies zu lösen, kann eine Tripelerweiterungsstrategie von dem Trainingsdatengenerierungsmodul 802 eingesetzt werden, um zusätzliche Positiventnahmen zu generieren, und kann zudem zum Generieren zusätzlicher Negativentnahmen durchgeführt werden.
9 zeigt beispielsweise das Generieren des Positivvordergrunddigitalbildes 808 und des Positivhintergrunddigitalbildes 806 aus dem ursprünglichen Digitalbild 804, wie vorstehend beschrieben worden ist. Das Trainingsdatengenerierungsmodul 802 setzt sodann passende Kriterien ein, um ähnliche Vordergrund- und/oder Hintergrunddigitalbilder 902, 904 ausfindig zu machen. Beispiele für passende Kriterien beinhalten den semantischen Kontext und die Forminformation. Mit Blick auf die Forminformation wird ein Schnitt-durch-Vereinigung-Kennwert (intersection over union loU) zweier Vordergrundmasken nach Ausrichtung auf Grundlage einer Maskenmitte berechnet. Vordergründe mit höheren loU-Kennwerten werden bei diesem Beispiel derart betrachtet, dass sie eine größere Ähnlichkeit aufweisen.
Mit Blick auf semantische Kontextinformation werden die Vordergrunddigitalbilder unter Nutzung des ursprünglichen Hintergrunddigitalbildes gefüllt, und es werden semantische Merkmale unter Nutzung maschinellen Lernens durch ein neuronales Netzwerk (beispielsweise unter Nutzung von Resnet50), das für die Bildklassifizierung trainiert ist, extrahiert. Ähnliche Vordergrunddigitalbilder 902 werden sodann abgerufen, indem die Euklidischen „ℓ₂“-Abstände der extrahierten Merkmale in einem gemeinsamen Einbettungsraum verglichen werden. Diese Technik liefert Ergebnisse mit erhöhter Konsistenz gegenüber anderen Techniken, die auf einer Merkmalsextraktion mit „sauberem“ Hintergrund (beispielsweise weißen Pixeln) beruhen.
In der Praxis zeigen Vordergrundobjekte, die feste Formen aufweisen, eine erhöhte Empfindlichkeit gegenüber Betrachtungspunkten, die zur Betrachtung der Objekte genutzt werden. Daher weist die Forminformation eine erhöhte Effektivität beim Ausfindigmachen ähnlicher Vordergrunddigitalbilder auf. Zusätzlich können Vordergrundobjekte mit einem vielfältigeren Aussehen entsprechend verschiedenen Szenen variieren, weshalb die semantische Kontextinformation eine erhöhte Effektivität beim Ausfindigmachen ähnlicher Vordergrunddigitalbilder aufweist. Entsprechend wird die Forminformation benutzt, um beim vorliegenden Beispiel Positivvordergrundbilder für „Flasche“, „Auto“, „Stuhl“ und „Gemälde“ zu lokalisieren, und es wird semantische Kontextinformation benutzt, um ähnliche Vordergrundbilder für „Boot“, „Hund“, „Person“ und „Pflanze“ zu lokalisieren.
Sind daher ein Positivvordergrunddigitalbild 808 und dessen entsprechende Positivhintergrunddigitalbilder 806 aus demselben ursprünglichen Digitalbild 804 gegeben, so werden die obersten „N“ ähnlichen Vordergrunddigitalbilder 902 aus den Digitalbildern 120 von dem Trainingsdatengenerierungsmodul 802 lokalisiert. Diese ähnlichen Vordergrunddigitalbilder 902 werden als kompatible Vordergründe für das Positivhintergrunddigitalbild 806 behandelt, so beispielsweise als neue Tripel von Trainingsdigitalbildern. Auf diese Weise kann die Anzahl von positiven Trainingspaaren erhöht und zudem das Rauschen bei der Negativpaarentnahme verringert werden. Genutzt werden kann dies zudem zum Ersetzen des Positivhintergrunddigitalbildes 806 durch ein ähnliches Hintergrunddigitalbild 904, das beim Kombinieren mit dem Positivvordergrunddigitalbild 808 ebenfalls dazu dient, die Anzahl von Tripeln von Trainingsdigitalbildern zu erhöhen.
10 zeigt eine exemplarische Implementierung 1000, bei der zusätzliche Negativtrainingsdigitalbilder von dem zur zusammenstellungssensitiven Bildsuche gegebenen System 118 von 1 generiert werden. Das Trainingsdatengenerierungsmodul 802 generiert bei diesem Beispiel zusätzliche Negativentnahmen, die als Teil eines Tripels von Trainingsdigitalbildern genutzt werden sollen. Zu diesem Zweck lokalisiert das Trainingsdatengenerierungsmodul 802 nichtähnliche Vordergrund- oder Hintergrunddigitalbilder 1002, 1004 auf Grundlage von Kriterien wie den vorbeschriebenen. Beinhalten können diese Kriterien die Nutzung von Forminformation oder einer Merkmalsextraktion durch Vergleichen des Euklidischen Abstandes (das heißt des „ℓ₂“-Abstandes) der extrahierten Merkmale in einem gemeinsamen Einbettungsraum.
Verwiesen wird nunmehr auf 10, in der ein Positivvordergrunddigitalbild 808 und ein Hintergrunddigitalbild aus einem einzigen Digitalbild extrahiert werden (Block 1102). Ein ursprüngliches Digitalbild 804 kann beispielsweise Maskendaten, die einzelne Pixel des Digitalbildes markieren, beinhalten. Diese Markierung kann sodann dafür benutzt werden, das Vordergrundobjekt als Vordergrunddigitalbild getrennt von einer Hintergrundszene eines Hintergrunddigitalbildes zu extrahieren.
Sodann wird ein Positivhintergrundbild 806 generiert, indem ein Bereich 812 in dem Hintergrunddigitalbild, aus dem das Vordergrunddigitalbild 808 extrahiert worden ist, gefüllt wird (Block 1104). Der Bereich 812 kann beispielsweise unter Nutzung einer Farbe gefüllt werden, die als Farbmittel von Farbwerten von Pixeln in dem Positivhintergrunddigitalbild 806, die „außerhalb“ des Bereiches 812 liegen, berechnet wird. Der Bereich 812 stellt sodann die Größe, die Form und den Ort bereit, die zum Anleiten einer Suche nach einem Vordergrunddigitalbild nutzbar sind.
Zudem wird ein Negativvordergrunddigitalbild bezogen (Block 1106). Zu diesem Zweck entnimmt das Trainingsdatengenerierungsmodul 802 zufällig ein Vordergrundobjekt aus einem Vorrat von Digitalbildern 120 als Negativentnahme, was als Negativvordergrunddigitalbild 810 dargestellt ist.
Kategoriemerkmale können zudem aus Kategoriedaten, die Text beinhalten, generiert werden (Block 1108). Die Kategoriemerkmale werden dafür benutzt, die Suche anzuleiten, indem eine Vektordarstellung des Textes unter Nutzung eines neuronalen Netzwerkes, so beispielsweise word2vec, gelernt wird. Bei einem Beispiel erfolgt dies für acht Kategorien, die häufig auftreten und allgemein bei der Bildzusammenstellung benutzt werden, nämlich „Person“, „Auto“, „Boot“, „Hund“, „Pflanze“, „Flasche“, „Stuhl“ und „Gemälde“. Auf diese Weise können die Kategoriedaten dafür genutzt werden, die Suche anzuleiten.
Ein Hintergrundmerkmalmaschinenlernsystem 124 und ein Vordergrundmerkmalmaschinenlernsystem 126 werden unter gemeinsamer Nutzung einer Verlustfunktion auf Grundlage des Positivvordergrunddigitalbildes 808, des Positivhintergrunddigitalbildes 806 und des Negativvordergrunddigitalbildes 810 trainiert (Block 1110). Beinhalten kann dies zudem ein Trainieren unter Nutzung der Kategoriemerkmale als Einbettung als Teil der aus den Bildern extrahierten Hintergrund- und Vordergrundmerkmale.
Zum Trainieren der Maschinenlernmodelle der faltungstechnischen neuronalen Netzwerke 206, 208 der Hintergrund- und Vordergrundmerkmalmaschinenlernsysteme 124, 126 werden Trainingsdaten eingesetzt, die als Tripel von Digitalbildern konfiguriert sind. Die Tripel sind derart aufgebaut, dass sie Positiv- und Negativentnahmen eines gesuchten Bildtyps (beispielsweise Vordergrund oder Hintergrund) und ein Positivbeispiel für einen nichtgesuchten alternativen Bildtyp beinhalten. Bei einer Vordergrundsuche beinhaltet das Tripel beispielsweise ein Hintergrundbild als Anker, einen kompatiblen Vordergrund als Positiventnahme und einen inkompatiblen Vordergrund als Negativentnahme. Demgegenüber beinhaltet das Tripel bei einer Hintergrundsuche ein Vordergrundbild als Anker, einen kompatiblen Hintergrund als Positiventnahme und einen inkompatiblen Hintergrund als Negativentnahme.
Ein Tripelverlust wird eingesetzt, um die neuronalen Netzwerke zu trainieren und um zu fördern, dass die Merkmalsähnlichkeit beispielsweise zwischen dem Hintergrundanker und dem Positivvordergrund näher als diejenige zwischen dem Anker und der Negativentnahme ist. Da die Merkmalsvektoren eine passende Einheitslänge nach der Euklidischen ℓ₂-Normierung aufweisen, kann die Ähnlichkeit zueinander als quadratischer Euklidischer ℓ₂-Abstand berechnet werden. Um die Fähigkeit zu unterstützen, zwischen Positiv- und Negativentnahmepaaren zu unterscheiden, wird ein Positivrand „α_i“ für die Klasse „i“ eingeführt. Die Merkmalsextraktion, das multimodale kompakte bilineare Pooling und die ℓ₂-Normierung können der Einfachheit halber folgendermaßen zu einer Operationsdarstellung ",7“ gruppiert werden: ${‖ F_{i}^{b} (b_{i}) - F_{i}^{f} (F_{i}^{p}) ‖}_{2}^{2} + α_{i} < {‖ F_{i}^{b} (b_{i}) - F_{i}^{f} (F_{i}^{n}) ‖}_{2}^{2}$
Hierbei sind $F_{i}^{b} ‶ u n d F_{i}^{f} ‶$
jeweils Operationen der Kategorie „i“ in den Hintergrund- und Vordergrundstreams. Die Werte „B_i“ sowie $F_{i}^{b} ‶ u n d F_{i}^{n} ‶$
stellen das Hintergrunddigitalbild und die zugehörigen positiven (das heißt kompatiblen) und negativen Vordergrundobjekte dar. Beim Training wird die nachfolgende Verlustfunktion „L“ minimiert: $L (B_{i}, F_{i}^{p}, F_{i}^{n}) = max (0, {‖ F_{i}^{b} (B_{i}) - F_{i}^{f} (F_{i}^{b}) ‖}_{2}^{2} + α_{i} - {‖ F_{i}^{b} (B_{i}) - F_{i}^{f} (F_{i}^{n}) ‖}_{2}^{2})$
Diese Konzeption zeigt eine erhöhte Effektivität bei Merkmalen, die mehreren Kategorien gemeinsam sind, was beim Codieren von ausreichend kategoriespezifischer Information nicht möglich ist. Diese Techniken zeigen zudem eine erhöhte rechentechnische Effizienz gegenüber dem Lernen separater Merkmalsdarstellungen, die für jede Kategorie unabhängig konzipiert sind. Offline- und Online-Merkmalsextraktionstechniken können, wie vorstehend beschrieben worden ist, zudem den Betrieb in Echtzeit (beispielsweise in der Größenordnung von Sekunden) für Millionen von Digitalbildern unterstützen und fördern so die erhöhte Reichhaltigkeit der Nutzerinteraktion und die Effizienz im Betrieb einer Rechenvorrichtung, die diese Techniken implementiert.
Exemplarisches System und exemplarische Vorrichtung
12 zeigt bei 1200 allgemein ein exemplarisches System, das eine exemplarische Rechenvorrichtung 1202 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen darstellt, die die hier beschriebenen verschiedenen Techniken implementieren können. Dies ist durch Einbeziehung des zur zusammenstellungssensitiven Bildsuche gegebenen Systems 118 dargestellt. Die Rechenvorrichtung 1202 kann beispielsweise ein Server eines Dienstanbieters, eine Vorrichtung, die einem Client zugeordnet ist (beispielsweise eine Clientvorrichtung), ein On-Chip-System und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein.
Die exemplarische Rechenvorrichtung 1202 beinhaltet, wie dargestellt ist, ein Verarbeitungssystem 1204, ein oder mehrere computerlesbare Medien 1206 und eine oder mehrere I/O-Schnittstellen 1208, die kommunikationstechnisch miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 1202 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination aus verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor- oder Lokalbus, der eine Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl weiterer Beispiele, so beispielsweise Steuer- bzw. Regel- und Datenleitungen, ist ebenfalls einbezogen.
Das Verarbeitungssystem 1204 stellt eine Funktionalität zur Durchführung eines oder mehrerer Vorgänge unter Nutzung von Hardware dar. Entsprechend ist das Verarbeitungssystem 1204 derart dargestellt, dass es ein Hardwareelement 1210 beinhaltet, das als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein kann. Dies kann eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder als andere Logikvorrichtung, die unter Nutzung eines oder mehrerer Halbleiter gebildet ist, beinhalten. Die Hardwareelemente 1210 sind nicht durch die Materialien, aus denen sie gebildet sind, oder durch die Verarbeitungsmechanismen, die zum Einsatz kommen, beschränkt. Die Prozessoren können beispielsweise aus einem Halbleiter / Halbleitern und/oder Transistoren (beispielsweise elektronischen integrierten Schaltungen (ICs)) bestehen. In diesem Kontext können prozessorseitig ausführbare Anweisungen elektronisch ausführbare Anweisungen sein.
Die computerlesbaren Speichermedien 1206 sind derart dargestellt, dass sie eine Ablage / einen Speicher 1212 beinhalten. Die Ablage / der Speicher 1212 bietet eine Ablage-/Speicherkapazität, die einem oder mehreren computerlesbaren Medien zugeordnet ist. Die Ablage-/Speicherkomponente 1212 kann flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr) beinhalten. Die Ablage-/Speicherkomponente 1212 kann feste Medien (beispielsweise RAM, ROM, ein Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr) beinhalten. Die computerlesbaren Medien 1206 können auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.
Eine Eingabe-/Ausgabe-Schnittstelle / Eingabe-/Ausgabe-Schnittstellen 1208 bietet/bieten eine Funktionalität, die ermöglicht, dass ein Nutzer Befehle und Information in die Rechenvorrichtung 1202 eingibt, und die zudem ermöglicht, dass dem Nutzer und/oder anderen Komponenten oder Vorrichtungen Information unter Nutzung verschiedener Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitive oder andere Sensoren, die dafür konfiguriert sind, eine physische Berührung zu detektieren), eine Kamera (die beispielsweise sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, dafür einsetzen kann, Bewegungen als Gesten, die keine Berührung implizieren, zu erkennen), und dergleichen mehr. Beispiele für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine taktil-reaktive Vorrichtung und dergleichen mehr. Daher kann die Rechenvorrichtung 1202 auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um die Nutzerinteraktion zu unterstützen.
Es sind hier verschiedene Techniken im allgemeinen Kontext von Software, Hardwareelementen oder Programmmodulen beschrieben worden. Allgemein beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul“, „Funktionalität“ und „Komponente“ bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen mit einer Vielzahl von Prozessoren implementiert sein können.
Eine Implementierung der beschriebenen Module und Techniken kann auf einer bestimmten Form von computerlesbaren Medien gespeichert sein oder über diese übertragen werden. Die computerlesbaren Medien können eine Vielzahl von Medien beinhalten, auf die von der Rechenvorrichtung 1202 zugegriffen werden kann. Beispiels- und nicht beschränkungshalber können computerlesbare Medien „computerlesbare Speichermedien“ und „computerlesbare Signalmedien“ beinhalten.
„Computerlesbare Speichermedien“ können Medien und/oder Vorrichtungen bezeichnen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder zu Signalen per se ermöglichen. Computerlesbare Speichermedien bezeichnen daher nicht signaltragende Medien. Computerlesbare Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien und/oder Speichervorrichtungen, die bei einem Verfahren oder einer Technologie implementiert sind, die zur Speicherung von Information geeignet ist, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule, Logikelemente/Schaltungen oder andere Daten. Beinhalten können Beispiele für computerlesbare Speichermedien unter anderem RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder eine andere Speichervorrichtung, physische Medien oder Objekte, die dafür geeignet sind, dass gewünschte Information gespeichert wird, und auf die ein Computer zugreifen kann.
„Computerlesbare Signalmedien“ können signaltragende Medien bezeichnen, die dafür konfiguriert sind, Anweisungen an die Hardware der Rechenvorrichtung 1202 beispielsweise über ein Netzwerk zu übermitteln. Signalmedien können typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal verkörpern, so beispielsweise Trägerwellen, Datensignale oder einen anderen Transportmechanismus. Signalmedien beinhalten zudem beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder verändert sind, dass Information in dem Signal codiert ist. Beispiels- und nicht beschränkungshalber beinhalten Kommunikationsmedien drahtgebundene Medien, so beispielsweise ein drahtgebundenes Netzwerk oder eine Direktdrahtverbindung, und drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere drahtlose Medien.
Wie vorstehend beschrieben worden ist, stellen die Hardwareelemente 1210 und die computerlesbaren Medien 1206 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik dar, die in Form von Hardware implementiert sind, die bei einigen Ausführungsformen dafür eingesetzt werden kann, wenigstens einige Aspekte der hier beschriebenen Techniken beispielsweise zur Ausführung einer oder mehrerer Anweisungen zu implementieren. Die Hardware kann Komponenten einer integrierten Schaltung oder eines On-Chip-Systems, eine anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), eine komplexe programmierbare Logikvorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware beinhalten. In diesem Zusammenhang kann Hardware als Verarbeitungsvorrichtung wirken, die Programmaufgaben wahrnimmt, die durch Anweisungen und/oder eine Logik definiert sind, die durch die Hardware verkörpert ist, wie auch Hardware, die zur Speicherung von Anweisungen zur Ausführung benutzt werden, so beispielsweise durch die vorbeschriebenen computerlesbaren Speichermedien.
Kombinationen des Vorbeschriebenen können zudem zur Implementierung verschiedener der hier beschriebenen Techniken eingesetzt werden. Entsprechend können Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 1210 verkörpert ist. Die Rechenvorrichtung 1202 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend Software- und/oder Hardwaremodulen zu implementieren. Entsprechend kann eine als Software gegebene Implementierung eines Moduls, das von der Rechenvorrichtung 1202 ausführbar ist, auch wenigstens teilweise in Hardware gegeben sein, so beispielsweise unter Nutzung computerlesbarer Speichermedien und/oder Hardwareelemente 1210 des Verarbeitungssystems 1204. Die Anweisungen und/oder Funktionen können von einem oder mehreren Objekten (beispielsweise einer oder mehreren Rechenvorrichtungen 1202 und/oder Verarbeitungssystemen 1204) ausführbar/betreibbar sein, um die hier beschriebenen Techniken, Module und Beispiele zu implementieren.
Die hier beschriebenen Techniken können von verschiedenen Konfigurationen der Rechenvorrichtung 1202 unterstützt werden und sind nicht auf die spezifischen Beispiele für die hier beschriebenen Techniken beschränkt. Die Funktionalität kann zudem gänzlich oder in Teilen unter Nutzung eines verteilten Systems implementiert sein, so beispielsweise über eine „Cloud“ 1214 mittels einer Plattform 1216, wie nachstehend noch beschrieben wird.
Die Cloud 1214 beinhaltet eine Plattform 1216 für Ressourcen 1218 und/oder stellt diese dar. Die Plattform 1216 abstrahiert die zugrunde liegende Funktionalität der Hardware- (beispielsweise Server) und Softwareressourcen der Cloud 1214. Die Ressourcen 1218 können Anwendungen und/oder Daten beinhalten, die eingesetzt werden können, während eine Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 1202 getrennt sind. Die Ressourcen 1218 können zudem Dienste beinhalten, die über das Internet und/oder über ein Teilnehmernetzwerk bereitgestellt werden, so beispielsweise ein zellenbasiertes oder ein Wi-Fi-Netzwerk.
Die Plattform 1216 kann Ressourcen und Funktionen abstrahieren, um die Rechenvorrichtung 1202 mit anderen Rechenvorrichtungen zu verbinden. Die Plattform 1216 kann zudem dafür dienen, die Skalierung von Ressourcen zu abstrahieren, um einen entsprechenden Skalierungsgrad für bestehenden Bedarf an den Ressourcen 1218, die über die Plattform 1216 implementiert sind, bereitzustellen. Entsprechend kann bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen eine Implementierung der hier beschriebenen Funktionalität über das System 1200 verteilt sein. Die Funktionalität kann beispielsweise teilweise auch auf der Rechenvorrichtung 1202 wie auch über die Plattform 1216, die die Funktionalität der Cloud 1214 abstrahiert, implementiert sein.
Schlussbemerkung
Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für Strukturmerkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht unbedingt auf die beschriebenen spezifischen Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims

System in einer zur zusammenstellungssensitiven Digitalbildsuche gegebenen Umgebung für Digitalmedien, umfassend: ein Hintergrundmerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware wenigstens einer Rechenvorrichtung implementiert ist, zum Extrahieren von Hintergrundmerkmalen aus einem Digitalbild unter Nutzung maschinellen Lernens; ein Vordergrundmerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Extrahieren von Vordergrundmerkmalen aus mehreren Kandidatendigitalbildern unter Nutzung maschinellen Lernens; ein Kennwertberechnungsmodul, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Berechnen von Kennwerten durch Merkmalseinbettung auf Grundlage der extrahierten Hintergrundmerkmale aus dem Digitalbild und der extrahierten Vordergrundmerkmale aus den mehreren Kandidatendigitalbildern; und ein Suchmodul, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Ausgeben eines Suchergebnisses auf Grundlage der berechneten Kennwerte.
System nach Anspruch 1, wobei das Hintergrundmerkmalmaschinenlernsystem durch ein faltungstechnisches neuronales Netzwerk implementiert ist und das Vordergrundmerkmalmaschinenlernsystem durch ein weiteres faltungstechnisches neuronales Netzwerk implementiert ist.
System nach Anspruch 1 oder 2, des Weiteren umfassend ein Kategoriemerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Generieren von Kategoriemerkmalen aus Kategoriedaten, die Text beinhalten, wobei der Text das Digitalbild beschreibt.
System nach Anspruch 3, wobei die Kategoriemerkmale eine Vektordarstellung des Textes sind, die unter Nutzung maschinellen Lernens gebildet wird.
System nach Anspruch 3 oder 4, wobei die Kategoriemerkmale in die Hintergrundmerkmale und die Vordergrundmerkmale eingebettet werden und von dem Kennwertberechnungsmodul zum Berechnen der Kennwerte genutzt werden.
System nach Anspruch 5, wobei das Einbetten unter Nutzung jeweiliger multimodaler kompakter bilinearer Pooling-Module (MCB) durchgeführt wird.
Verfahren, das durch eine Rechenvorrichtung implementiert ist, in einer Digitalmedienumgebung, wobei das Verfahren umfasst: durch die Rechenvorrichtung erfolgendes Extrahieren eines Positivvordergrunddigitalbildes und eines Hintergrunddigitalbildes aus einem einzigen Digitalbild; durch die Rechenvorrichtung erfolgendes Generieren eines Positivhintergrunddigitalbildes durch Füllen eines Bereiches in dem Hintergrunddigitalbild, aus dem das Vordergrunddigitalbild extrahiert ist; durch die Rechenvorrichtung erfolgendes Beziehen eines Negativvordergrunddigitalbildes; und durch die Rechenvorrichtung erfolgendes Trainieren eines Hintergrundmerkmalmaschinenlernsystems und eines Vordergrundmerkmalmaschinenlernsystems unter gemeinsamer Nutzung einer Verlustfunktion auf Grundlage des Positivvordergrunddigitalbildes, des Positivhintergrunddigitalbildes und des Negativvordergrunddigitalbildes.
Verfahren nach Anspruch 7, des Weiteren umfassend ein Generieren von Kategoriemerkmalen als Vektordarstellung von Text, die unter Nutzung maschinellen Lernens gebildet wird, aus Kategoriedaten, die den Text beinhalten, wobei das Trainieren wenigstens teilweise auf den Kategoriemerkmalen beruht.
Verfahren nach Anspruch 7 oder 8, wobei das Füllen ein Bilden eines Rechteckes mit einer Größe, einem Seitenverhältnis oder einem Ort entsprechend dem Vordergrunddigitalbild, wie es in dem Digitalbild angeordnet ist, beinhaltet.
Verfahren nach einem der Ansprüche 7 bis 9, des Weiteren umfassend ein Berechnen eines Farbmittelwertes von Farben des Hintergrunddigitalbildes, aus dem das Vordergrunddigitalbild extrahiert ist, wobei das Füllen den Farbmittelwert zum Füllen des Bereiches nutzt.
Verfahren nach einem der Ansprüche 7 bis 10, wobei die Verlustfunktion eine Tripelverlustfunktion ist.
Verfahren nach einem der Ansprüche 7 bis 11, des Weiteren umfassend ein Abrufen eines zusätzlichen Positivvordergrunddigitalbildes auf Grundlage des Positivvordergrunddigitalbildes.
Verfahren nach Anspruch 12, wobei das Abrufen wenigstens teilweise auf einem semantischen Kontext oder einer Form des Positivvordergrunddigitalbildes beruht.
Verfahren nach Anspruch 12 oder 13, wobei das Trainieren unter gemeinsamer Nutzung der Verlustfunktion auf Grundlage des zusätzlichen Positivvordergrunddigitalbildes zusammen mit dem Positivhintergrunddigitalbild durchgeführt wird.
Verfahren nach einem der Ansprüche 7 bis 14, des Weiteren umfassend ein Abrufen eines zusätzlichen Positivhintergrunddigitalbildes auf Grundlage des Positivhintergrunddigitalbildes.
Verfahren nach Anspruch 15, wobei das Abrufen wenigstens teilweise auf einem semantischen Kontext oder einer Form des Positivhintergrunddigitalbildes beruht.
Verfahren nach Anspruch 15 oder 16, wobei das Trainieren unter gemeinsamer Nutzung der Verlustfunktion auf Grundlage des zusätzlichen Positivhintergrunddigitalbildes zusammen mit dem Positivvordergrunddigitalbild durchgeführt wird.
System in einer zur zusammenstellungssensitiven Digitalbildsuche gegebenen Umgebung für Digitalmedien, umfassend: ein Vordergrundmerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Extrahieren von Vordergrundmerkmalen aus einem Digitalbild unter Nutzung maschinellen Lernens; ein Hintergrundmerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Extrahieren von Hintergrundmerkmalen aus mehreren Kandidatendigitalbildern unter Nutzung maschinellen Lernens; ein Kennwertberechnungsmodul, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Berechnen von Kennwerten durch Merkmalseinbettung auf Grundlage der extrahierten Vordergrundmerkmale aus dem Digitalbild und der extrahierten Hintergrundmerkmale aus den mehreren Kandidatendigitalbildern; und ein Suchmodul, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Ausgeben eines Suchergebnisses auf Grundlage der berechneten Kennwerte.
System nach Anspruch 18, des Weiteren umfassend ein Kategoriemerkmalmaschinenlernsystem, das wenigstens teilweise in der Hardware der wenigstens einen Rechenvorrichtung implementiert ist, zum Generieren von Kategoriemerkmalen aus Kategoriedaten, die Text beinhalten, und Einbetten der Kategoriemerkmale als Teil der Hintergrundmerkmale und der Vordergrundmerkmale, wobei der Text das Digitalbild beschreibt.
System nach Anspruch 19, wobei die Kategoriemerkmale eine Vektordarstellung des Textes sind, die unter Nutzung maschinellen Lernens gebildet wird.