DE102020007191A1

DE102020007191A1 - Maschinelles Lernen zur Digitalbildauswahl unter Objektvarianten

Info

Publication number: DE102020007191A1
Application number: DE102020007191.0A
Authority: DE
Inventors: Ajay Jain; Sanjeev Tagra; Sachin Soni; Ryan Timothy Rozich; Nikaash Puri; Jonathan Stephen Roeder
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2020-01-28
Filing date: 2020-11-24
Publication date: 2021-07-29
Also published as: US11397764B2; AU2020273315A1; GB202018709D0; CN113255713A; US11921777B2; US20210232621A1; GB2591583A; US20220253478A1

Abstract

Beschrieben werden Digitalbildauswahltechniken, die maschinelles Lernen einsetzen, um ein Digitalbild eines Objektes unter mehreren Digitalbildern des Objektes auszuwählen. Die mehreren Digitalbilder erfassen jeweils das Objekt zur Einbeziehung als Teil des Generierens von Digitalcontent, beispielsweise einer Webpage, einer Vorschau zur Darstellung eines Digitalvideos und dergleichen. Bei einem Beispiel werden Digitalbildauswahltechniken beschrieben, die maschinelles Lernen einsetzen, um ein Digitalbild eines Objektes unter mehreren Digitalbildern des Objektes auszuwählen. Im Ergebnis kann das Serviceprovidersystem unter mehreren Digitalbildern eines Objektes ein Digitalbild des Objektes auswählen, das eine erhöhte Wahrscheinlichkeit dafür aufweist, ein gewünschtes Ergebnis zu erreichen, und kann auf eine Vielzahl von verschiedenen Arten, auf die ein Objekt einem Nutzer präsentiert werden kann, eingehen.

Description

Hintergrund
Die Art, wie ein Objekt in einem Digitalbild abgebildet ist, ist eines der wichtigsten Mittel, die das Interesse eines Nutzers im Zusammenhang mit jenem Objekt erregen. Digitalbilder können beispielsweise derart konfiguriert sein, dass sie beliebten stilistischen Trends, Themen beliebter Fernsehsendungen und dergleichen mehr folgen. In solchen Fällen können Eigenschaften des Objektes selbst (beispielsweise Farben, Formen) gleich bleiben, wohingegen die Art, wie jenes Objekt in den verschiedenen Digitalbildern abgebildet ist, geändert wird. Beim Bestimmen eines möglichen von Interesse seienden Digitalbildes impliziert ein Problem eines Serviceprovidersystems daher die Art, wie jenes Objekt in dem Digitalbild abgebildet ist.
Dieses Problem wird dadurch verschärft, dass Nutzerpräferenzen bezüglich dessen, wie das Objekt abgebildet ist, stark schwanken können. In der Praxis hat sich gezeigt, dass jeder Nutzer seine eigenen Vorlieben und Neigungen bezüglich dessen hat, wie das Objekt abgebildet ist. Ein erster Nutzer kann beispielsweise Präferenzen haben, die seine Lieblingsfernsehsendung impliziert (um das Objekt beispielsweise in moderner Mid-Century-Aufmachung zu zeigen), wohingegen ein zweiter Nutzer gegebenenfalls vorzieht, das Objekt wegen der Klarheit der Farben des Objektes beispielsweise auf einem weißen Hintergrund in einem neutralen Umfeld zu betrachten. Für einen Menschen ist es gegebenenfalls schwierig, wenn nicht unmöglich, zu bestimmen, welche Präferenzen jedem Nutzer zugeordnet sind, und zwar insbesondere dann, wenn er sich Millionen von potenziellen Nutzern gegenübersieht, die gegebenenfalls Zugriff auf Digitalcontent mit dem Digitalbild haben, was beispielsweise bei Webpages, die in Echtzeit bereitgestellt werden, der Fall ist. Herkömmliche Serviceprovidersysteme können zudem nicht darauf eingehen, wie das Objekt in dem Digitalbild abgebildet ist. Dies rührt daher, dass herkömmliche Techniken auf einer Kennung des Digitalbildes als Ganzes beruhen und daher nicht auf tatsächliche visuelle Eigenschaften des Objekts so, wie es dargestellt ist, und auch nicht darauf, wie diese Eigenschaften mit anderen Digitalbildern in Zusammenhang stehen, eingehen können. Infolgedessen sind herkömmliche Servcieprovidersysteme gegebenenfalls ungenau und führen zu einer ineffizienten Nutzung von Rechen- und Hardwareressourcen beim Empfehlen eines von Interesse seienden Digitalbildes.
Zusammenfassung
Es werden Digitalbildauswahltechniken beschrieben, die maschinelles Lernen einsetzen, um ein Digitalbild eines Objektes unter mehreren Digitalbildern, die Varianten dahingehend, wie das Objekt abgebildet ist, implizieren, auszuwählen. Die mehreren Digitalbilder können beispielsweise ein Objekt erfassen, sind jedoch dahingehend verschieden, wie das Objekt in den Digitalbildern abgebildet ist, also beispielsweise hinsichtlich verschiedener Models, die dasselbe Kleidungsstück tragen, verschiedener Hintergründe und dergleichen. Das Digitalbild wird sodann zur Einbeziehung in Digitalcontent ausgewählt, um die Wahrscheinlichkeit für ein Ergebnis, so beispielsweise eine Realisierung einer Ware oder eines Dienstes, die von dem Objekt abgebildet werden, zu erhöhen, indem auf Nutzerpräferenzen, die diese Varianten implizieren, eingegangen wird.
Bei einem Beispiel werden Digitalbildauswahltechniken beschrieben, die maschinelles Lernen einsetzen, um ein Digitalbild eines Objektes unter mehreren Digitalbildern, die Varianten des Objektes implizieren, auszuwählen. Zunächst wird eine Nutzerkennung von einem Serviceprovidersystem als Teil einer Anforderung dahingehend, Digitalcontent, so beispielsweise eine Webpage, zu beziehen, empfangen. Sodann wird von dem Serviceprovidersystem auf Grundlage der Nutzerkennung ein Nutzerprofil bezogen. Das Serviceprovidersystem wählt zudem ein Digitalbild unter mehreren Digitalbildern, die Varianten des Objektes aufweisen, zur Einbeziehung als Teil des Digitalcontents aus.
Zu diesem Zweck werden Bildmetadaten, die Merkmale beinhalten, die aus den Digitalbildern (beispielsweise unter Nutzung eines faltungstechnischen neuronalen Netzwerkes (convolutional neural network)) extrahiert worden sind, zusammen mit dem Nutzerprofil eingesetzt, um einen Vorhersagekennwert für jedes der mehreren Digitalbilder, die die Varianten aufweisen, zu generieren. Das Digitalbild, von dem angegeben wird, dass es die größte Wahrscheinlichkeit dafür aufweist, in einem gewünschten Ergebnis (beispielsweise einer Konversion bzw. Realisierung) zu enden, wird von dem System sodann zur Einbeziehung als Teil des Digitalcontents, so beispielsweise für eine Webpage, ausgewählt. Im Ergebnis kann das Serviceprovidersystem unter mehreren Digitalbildern eines Objektes ein Digitalbild des Objektes auswählen, das eine erhöhte Wahrscheinlichkeit dafür aufweist, ein gewünschtes Ergebnis zu erreichen, und kann auf viele verschiedene Arten, wie einem Nutzer das Objekt präsentiert werden soll, eingehen.
Die vorliegende Zusammenfassung führt in vereinfachter Form eine Auswahl von Konzepten ein, die in der nachfolgenden Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung wesentliche Merkmale des beanspruchten Erfindungsgegenstandes nicht identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfanges des beanspruchten Erfindungsgegenstandes benutzt werden.
Figurenliste
Die Detailbeschreibung erfolgt anhand der begleitenden Figuren. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb in der Diskussion der Verweis auf eine oder mehrere Formen der Entitäten gleichwertig erfolgen kann.

1 ist eine Darstellung einer Umgebung bei einer exemplarischen Implementierung, die dafür betreibbar ist, hier beschriebene maschinell lernende Digitalbildauswahltechniken einzusetzen.
2 zeigt ein System bei einer exemplarischen Implementierung des Generierens von Trainingsdaten dafür, ein maschinell lernendes Modell zu trainieren.
3 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung unter Nutzung von Ausforschungs-/Verwertungstechniken dafür, Trainingsdaten zu generieren und das maschinell lernende Modell dafür zu trainieren, unter mehreren Digitalbildern eines Objektes ein Digitalbild zur Nutzung beim Generieren von Digitalcontent auszuwählen.
4 zeigt ein System bei einer exemplarischen Implementierung des Trainierens eines maschinell lernenden Modells unter Nutzung der Trainingsdaten von 2.
5 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung der Nutzung von Trainingsdaten mit Interaktionsereignissen, die ein Nutzerprofil, Bildmetadaten, die aus Digitalbildern extrahierte Bildmerkmale beinhalten, und Ergebnisdaten zum Trainieren des maschinell lernenden Modells beinhalten.
6 zeigt ein System bei einer exemplarischen Implementierung des Auswählens eines Digitalbildes unter mehreren Digitalbildern eines Objektes unter Nutzung des gemäß 4 trainierten maschinell lernenden Modells.
7 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung des Generierens von Digitalcontent mit einem Digitalbild, das von einem maschinell lernenden Modell auf Grundlage eines Nutzerprofils und Bildmetadaten ausgewählt ist.
8 zeigt ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die als beliebiger Typ von Rechenvorrichtung, wie sie anhand von 1 bis 7 beschrieben und/oder eingesetzt wird, implementiert sein kann, um Ausführungsformen der hier beschriebenen Techniken zu implementieren.

Detailbeschreibung
Übersicht
Man hat beobachtet, dass bei realen Szenarien jeder Nutzer andere Vorlieben bezüglich verschiedener Aspekte hat, die Varianten dahingehend implizieren, wie ein Objekt in einem Digitalbild abgebildet ist, und dies sogar in Fällen, in denen visuelle Eigenschaften des Objektes selbst unverändert bleiben. Herkömmlichen Techniken und Systeme, die zum Auswählen von Digitalbildern zur Einbeziehung als Teil des Digitalcontents benutzt werden, gehen jedoch nicht auf diese Varianten ein, also beispielsweise auf eine bestimmte Ansicht eines Objektes, die auf einer Webseite beinhaltet sein sollte, auf eine Vorschau mit Nutzung zur Darstellung eines Digitalvideos, auf Modells mit Einsatz beim Tragen eines Kleidungsstücks und dergleichen mehr. Vielmehr beruhen herkömmliche Techniken, wenn auf ein bestimmtes Ort eingegangen wird, auf einem One-Size-Fits-All-Ansatz. Des Weiteren trainieren herkömmliche Techniken üblicherweise ein eigens vorgesehenes maschinell lernendes Modell für jedes Digitalbild und können daher die visuelle Ähnlichkeit zu anderen Digitalbildern nicht einsetzen; sie sind daher mit einem „Kaltstartproblem“, das nachstehend noch beschrieben wird, konfrontiert. Infolgedessen führt dies gegebenenfalls zur ineffizienten Nutzung von Rechen- und Netzwerkressourcen, die zur Bereitstellung und zum Empfang von Digitalcontent, der diese Digitalbilder beinhaltet, so beispielsweise von Webpages, netzwerkfähigen Anwendungen und dergleichen mehr, benutzt werden.
Entsprechend werden Digitalbildauswahltechniken beschrieben, die maschinelles Lernen einsetzen, um ein Digitalbild eines Objektes unter mehreren Digitalbildern des Objektes auszuwählen. Die mehreren Digitalbilder erfassen das Objekt jeweils zur Einbeziehung als Teil des Generierens von Digitalcontent, beispielsweise für eine Webpage, eine Vorschau zur Darstellung eines Digitalvideos und dergleichen. Gleichwohl beinhalten die mehreren Digitalbilder Varianten dahingehend, wie das Objekt abgebildet ist, deren Präferenzen von Nutzer zu Nutzer variieren können. Bei einem Beispiel wird eine Nutzerkennung von einem Serviceprovidersystem als Teil einer Anforderung dessen, Digitalcontent, beispielsweise eine Webpage, zu beziehen, empfangen. Sodann wird ein Nutzerprofil von dem Serviceprovidersystem auf Grundlage der Nutzerkennung bezogen. Das Nutzerprofil kann beispielsweise eine Nutzerinteraktion mit Gegenständen des Digitalcontents, Digitalbilder, nutzerdemografische Daten, Orte, an denen Digitalcontentanforderungen entstehen, und dergleichen mehr beschreiben.
Das Serviceprovidersystem wählt sodann ein Digitalbild unter mehreren Digitalbildern des Objektes zur Einbeziehung als Teil des Digitalcontents aus. Die mehreren Digitalbilder können beispielsweise auf Grundlage einer Objektkennung, die dem angeforderten Digitalcontent zugeordnet ist, angeordnet werden. Die mehreren Digitalbilder erfassen bei diesem Beispiel jeweils ein von Interesse seiendes Objekt, das in dem Digitalbild dargestellt werden soll, weisen jedoch bei wenigstens einer visuellen Eigenschaft Unterschiede auf, die Varianten dahingehend, wie das Bild abgebildet ist, unterstützen. Das Objekt kann beispielsweise ein Kleidungsstück in einer bestimmten Farbe sein, das jedoch von verschiedenen menschlichen Models getragen wird. Andere Beispiele für Varianten sind ebenfalls einbezogen, darunter Eigenschaften des Hintergrundes einer Szene, in der das Objekt erfasst wird, verschiedene Winkel, Anordnungen, Orientierungen, Ausleuchtung und dergleichen mehr.
Bei einem Beispiel für die Digitalbildauswahl bestimmt das Serviceprovidersystem, ob Nutzerverhalten, das der Nutzerkennung zugeordnet ist, in Reaktion auf die Anforderung als Teil des Auswählens des Digitalbildes ausgeforscht oder verwertet werden soll. Eine Bestimmung dahingehend, das Nutzerverhalten auszuforschen, impliziert ein Auswählen von Digitalbildern, um mehr über das Nutzerverhalten im Zusammenhang mit dem in den Digitalbildern abgebildeten Objekt, das heißt über die Nutzerpräferenzen im Zusammenhang mit verschiedenen Abbildungen des Objektes zu lernen. Eine Bestimmung dahingehend, das Nutzerverhalten zu verwerten, wird demgegenüber vorgenommen, um die Wahrscheinlichkeit dafür zu maximieren, ein gewünschtes Ergebnis zu erreichen, wenn das Objekt über das Digitalbild beispielsweise beim Empfehlen eines von Interesse seienden Objektes, einer Konversion bzw. Realisierung oder dergleichen vorgelegt wird.
Wird daher eine Bestimmung dahingehend, das Nutzerverhalten auszuforschen, vorgenommen, so wählt das Serviceprovidersystem das Digitalbild unter mehreren Digitalbildern, die das Objekt aufweisen, zufällig aus. Wird eine Bestimmung dahingehend, das Nutzerverhalten zu verwerten, vorgenommen, so wählt das Serviceprovidersystem das Digitalbild unter mehreren Digitalbildern auf Grundlage des Nutzerprofils unter Nutzung eines maschinell lernenden Modells, beispielsweise eines neuronalen Netzwerkes, aus. Trainingsdaten werden sodann in jedem Fall auf Grundlage der Nutzerinteraktion mit dem ausgewählten Digitalbild generiert, um das maschinell lernende Modell zu trainieren und/oder das Training desselben zur Erfassung aktueller Trends zu aktualisieren.
Die Trainingsdaten können beispielsweise als mehrere Interaktionsereignisse ausgebildet sein, von denen wenigstens ein Teil Anforderungen, die bezüglich des Digitalcontents gemacht wurden, entspricht. Beinhalten kann jedes Interaktionsereignis die Nutzerkennung, von der die Anforderung ausging, das Nutzerprofil, das der Nutzerkennung zugeordnet ist, eine Bildkennung eines Digitalbildes, das in Reaktion auf die Anforderung ausgewählt worden ist, Bildmetadaten, die dem Digitalbild zugeordnet sind, und Ausgabedaten, die ein Ergebnis der Präsentation des Digitalbildes als Teil des Digitalcontents beschreiben. Das Ergebnis kann beispielsweise eine Konversion bzw. Realisierung beschreiben, also beispielsweise den Umstand, ob das Digitalbild ausgewählt worden ist (beispielsweise als Vorschau zum Starten eines Digitalvideos), ob ein Erwerb einer entsprechenden Ware oder eines entsprechenden Dienstes, die dem in dem Digitalbild abgebildeten Objekt entsprechen, zustande gekommen ist, und dergleichen mehr.
Die Bildmetadaten, die als Teil der Trainingsdaten und/oder zum Auswählen eines Digitalbildes für eine nachfolgende Anforderung benutzt werden, können eine erhöhte Funktionalität gegenüber herkömmlichen Techniken unterstützen. Bei einem herkömmlichen System werden Bildkennungen lediglich dazu genutzt, eine Entsprechung zwischen einem Digitalbild, einer Nutzerkennung und einem resultierenden Ergebnis zu identifizieren, da ein einziges Modell für jedes Bild trainiert wird. Entsprechend beschreibt die Bildkennung keine visuellen Eigenschaften und Varianten jener visuellen Eigenschaften, die direkt aus dem Digitalbild extrahiert worden sind, und kann als solches die Bestimmung der Ähnlichkeit zwischen einem Digitalbild und einem anderen Digitalbild nicht unterstützen. Herkömmliche Techniken leiden daher an einem „Kaltstartproblem“, bei dem Vorhersagen im Zusammenhang mit dem Digitalbild nicht ausreichend genau sind, bis eine ausreichende Menge von Trainingsdaten (üblicherweise über einige Wochen) empfangen worden ist. Es ist ressourcen- und rechentechnisch aufwändig, diese Daten zu sammeln, was zu Nutzerfrustration aufgrund ungenauer Vorhersagen führt.
Bei den hier beschriebenen Techniken nutzen die Bildmetadaten, die zum Trainieren des maschinell lernenden Modells benutzt werden, jedoch Bildmerkmale, die aus dem entsprechenden Digitalbild extrahiert werden, und zwar beispielsweise als Vektor, der durch eine Merkmalsextraktion unter Nutzung eines neuronalen Netzwerkes generiert wird. Auf diese Weise beschreiben die Bildmetadaten dasjenige, was visuell in dem Digitalbild enthalten ist, und können dies mit erhöhter Genauigkeit im Vergleich zu anderen Techniken vollziehen, so beispielsweise im Vergleich zum Bildetikettieren, das auf der Fähigkeit eines Nutzers beruht, dasjenige, was in einem Digitalbild enthalten ist, zu benennen und manuell zu etikettieren. Indem Merkmale, die aus dem Digitalbild extrahiert werden, auf einen Merkmalsraum unter Nutzung des maschinell lernenden Modells abgebildet werden, kann eine visuelle Ähnlichkeit des Digitalbildes zu anderen Digitalbildern bestimmt und benutzt werden, um das Kaltstartproblem herkömmlicher Techniken zu vermeiden und auf Varianten der Objektabbildung einzugehen. Dies wirkt im Sinne einer Verbesserung des Betriebs und der Genauigkeit der Rechenvorrichtungen, die diese Techniken implementieren.
Um die Merkmale und Nutzerprofile auf den Merkmalsraum abzubilden, wird ein maschinell lernendes Modell trainiert und aktualisiert, indem das Nutzerprofil und Bildmetadaten benutzt werden, die in jeweiligen Interaktionsereignissen in den Trainingsdaten beinhaltet sind, also beispielsweise Bildmerkmale, die aus den Digitalbildern unter Nutzung eines neuronalen Netzwerkes extrahiert werden. Das Serviceprovidersystem kann das Nutzerprofil und Bildmetadaten beispielsweise als Teil des maschinellen Lernens zusammen mit einer Verlustfunktion unter Nutzung der entsprechenden Ereignisdaten verarbeiten. Auf diese Weise wird ein einziges maschinell lernendes Modell dafür trainiert, einen Vorhersagekennwert für jede Kombination aus einem nachfolgenden Nutzerprofil und Bilddaten, die aus entsprechenden Digitalbildern des Objektes extrahiert sind, zu generieren. Dies überwindet die Beschränkungen herkömmlicher Techniken, bei denen ein eigens vorgesehenes maschinell lernendes Modell für jedes einzelne Digitalbild generiert wird, weshalb die Ähnlichkeit von Digitalbildern untereinander nicht unterstützt wird und weshalb Kaltstartprobleme, wie sie vorstehend beschrieben worden sind, auftreten.
Um in Fortsetzung des vorbeschriebenen Beispiels ein Digitalbild eines Objektes unter mehreren Digitalbildern des Objektes in Reaktion auf eine Verwertungsbestimmung auszuwählen, generiert das Serviceprovidersystem einen Vorhersagekennwert für jedes Digitalbild (der beispielsweise auf Grundlage der Objektkennung bezogen wird) unter Nutzung der zugeordneten Bildmetadaten und des Nutzerprofils entsprechend der Nutzerkennung, die der Anforderung zugeordnet ist. Das Digitalbild, von dem angegeben wird, dass es die größte Wahrscheinlichkeit dafür aufweist, zu einem gewünschten Ergebnis (beispielsweise einer Konversion bzw. Realisierung (engl. conversion) zu gelangen, wird von dem System sodann zur Einbeziehung als Teil des Digitalcontents, beispielsweise für eine Webpage, ausgewählt.
Das Digitalbild (sei es nur zufällig als Teil der Ausforschung oder auf Grundlage des maschinell lernenden Modells als Teil der Verwertung ausgewählt) wird von dem Serviceprovidersystem sodann benutzt, um den Digitalcontent (beispielsweise eine Webpage) zu generieren, der an den Ausgangspunkt der Anforderung rückübermittelt wird. Im Ergebnis kann das Serviceprovidersystem unter mehreren Digitalbildern eines Objektes ein Digitalbild des Objektes, das eine erhöhte Wahrscheinlichkeit dafür aufweist, ein gewünschtes Ergebnis zu erreichen, auswählen und kann auf viele verschiedene Arten, auf die ein Objekt einem Nutzer präsentiert werden kann, eingehen. Dass ein Mensch dies allein durchführt, ist aufgrund der Vielzahl von unterschiedlichen Nutzervorlieben für verschiedene visuelle Eigenschaften, die von einem Menschen nicht wahrnehmbar sind, nicht möglich. Weitere Erläuterungen dieser und anderer Beispiele sind in den nachfolgenden Abschnitten beinhaltet und in den entsprechenden Figuren gezeigt.
Exemplarische Begriffe
„Digitalcontent“ beinhaltet einen beliebigen Typ von Daten, die von einer Rechenvorrichtung wiedergegeben werden können. Beispiele für Digitalcontent beinhalten Webpages, Digitalvideos, Digitalmedien, Digitalaudio, Digitalbilder, Nutzerschnittstellen und dergleichen mehr.
Ein „neuronales Netzwerk“ beinhaltet üblicherweise eine Abfolge von Schichten, die derart modelliert sind, dass sie Knoten (das heißt Neuronen) und Verbindungen zwischen den Neuronen aufweisen und Daten verarbeiten, um ein Ergebnis zu erreichen, so beispielsweise zur Klassifizierung einer Eingabe dahingehend, dass eine bestimmte Eigenschaft gegeben ist oder nicht. Ein Beispiel für ein neuronales Netzwerk ist ein faltungstechnisches neuronales Netzwerk.
Eine „Verlustfunktion“ ist eine Funktion, die Werte einer oder mehrerer erläuternder Variablen (beispielsweise Merkmale) auf eine reelle Zahl abbildet, die Kosten darstellt, die einem Ereignis zugeordnet sind, wobei bei der Optimierung die Verlustfunktion minimiert wird, um ein maschinell lernendes Modell zu trainieren. Bei der Klassifizierung ist eine Verlustfunktion beispielsweise eine Sanktionierung (penalty) für eine unrichtige Klassifizierung, so beispielsweise dafür, ob das in den Ausgabedaten beschriebene Ergebnis aufgetreten ist oder nicht.
Die Begriffe „Ausforschung/Verwertung“ (exploration/exploitation) werden zur Bestimmung dessen eingesetzt, ob Nutzerverhalten ausgeforscht oder verwertet wird. Eine Bestimmung dahingehend, das Nutzerverhalten auszuforschen, impliziert das Auswählen von Digitalbildern, um mehr über das Nutzerverhalten im Zusammenhang mit dem Objekt, das in den Digitalbildern abgebildet ist, also beispielsweise über Nutzerpräferenzen dahingehend, wie das Objekt abgebildet ist, zu lernen. Eine Bestimmung dahingehend, das Nutzerverhalten zu verwerten, erfolgt demgegenüber, um die Wahrscheinlichkeit dafür zu maximieren, ein bestimmtes Ergebnis zu erreichen, wenn das Objekt über das Digitalbild beispielsweise beim Empfehlen eines von Interesse seienden Objektes, einer Realisierung oder dergleichen präsentiert wird.
Eine „Konversion“ bzw. „Realisierung“ (englisch: conversion) kann einer Vielzahl von Handlungen entsprechen. Beispiele für derartige Handlungen beinhalten dasjenige, ob eine Interaktion mit dem Digitalbild (beispielsweise ein Schweben bzw. Darüberbewegen des Mauszeigers oder ein „Anklicken“) aufgetreten ist, ob ein entsprechendes Produkt (beispielsweise das Objekt) oder ein entsprechender Dienst zu einem Einkaufswagen hinzugefügt worden ist, ob das entsprechende Produkt oder der entsprechende Dienst erworben worden ist, die Auswahl einer Vorschau zum Starten eines Digitalvideos oder eines Digitalaudios und dergleichen mehr.
Bei den nachfolgenden Erläuterungen wird eine exemplarische Umgebung beschrieben, in der die hier beschriebenen Techniken eingesetzt werden können. Zudem werden exemplarische Prozeduren beschrieben, die in der exemplarischen Umgebung wie auch in anderen Umgebungen durchgeführt werden können. Infolgedessen ist die Durchführung der exemplarischen Prozeduren nicht auf die exemplarische Umgebung beschränkt, und es ist die exemplarische Umgebung nicht auf die Durchführung der exemplarischen Prozeduren beschränkt.
Exemplarische Umgebung
1 ist eine Darstellung einer Digitalmedienumgebung 100 bei einer exemplarischen Implementierung, die dafür betreibbar ist, maschinelles Lernen und hier beschriebene Digitalbildauswahltechniken einzusetzen, die Varianten dahingehend, wie ein Objekt innerhalb der Digitalbilder abgebildet ist, unterstützen. Die dargestellte Umgebung 100 beinhaltet ein Serviceprovidersystem 102 und eine Clientvorrichtung 104, die kommunikationstechnisch über ein Netzwerk 106, beispielsweise das Internet, gekoppelt sind. Rechenvorrichtungen, die das Serviceprovidersystem 102 und die Clientvorrichtung 104 implementieren, können auf eine Vielzahl von Arten konfiguriert sein.
Konfiguriert sein kann eine Rechenvorrichtung beispielsweise als Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise unter Annahme einer manuellen Konfiguration wie bei einem Tablet oder einem Mobiltelefon, wie es für die Clientvorrichtung 104 dargestellt ist) und dergleichen mehr. Daher kann eine Rechenvorrichtung von über vollständige Ressourcen verfügenden Vorrichtungen mit beträchtlichen Speicher- und Prozessorressourcen (beispielsweise PCs, Spielekonsolen) zu über wenige Ressourcen verfügenden Vorrichtungen mit beschränkten Speicher- und/oder Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Obwohl zudem in einigen Fällen eine einzige Rechenvorrichtung gezeigt und beschrieben ist, kann eine Rechenvorrichtung auch mehrere verschiedene Vorrichtungen darstellen, so beispielsweise mehrere Server, die von einer Firma eingesetzt werden, um Vorgänge „über die Cloud“, wie anhand 8 beschrieben wird, durchzuführen.
Die Clientvorrichtung 104 beinhaltet ein Kommunikationsmodul 108 (beispielsweise einen Webbrowser, eine netzwerkfähige Anwendung und dergleichen mehr), das dafür konfiguriert ist, eine Anforderung 110 zur Kommunikation über das Netzwerk 106 an ein Digitalcontentgenerierungssystem 112 zu erstellen. In Reaktion hierauf generiert das Digitalcontentgenerierungssystem 112 Digitalcontent 114 zur Kommunikation an eine Nutzerschnittstelle 116 und zur Wiedergabe durch diese mittels einer Anzeigevorrichtung 118 der Clientvorrichtung 104. Der Digitalcontent 114 kann auf vielerlei Arten konfiguriert sein, so beispielsweise als Webpage, als Bildschirm einer Nutzerschnittstelle, als Digitalvideo und dergleichen mehr.
Als Teil des Generierens des Digitalcontents 114 setzt das Digitalcontentgenerierungssystem ein Digitalbildauswahlmodul 120 ein, um ein Digitalbild zur Einbeziehung als Teil des Digitalcontents 114 auszuwählen. Das Digitalbild 122(n) kann beispielsweise unter mehreren von einer Speichervorrichtung 124 gespeicherten Digitalbildern 122(1), 122(2), ..., 122(N) ausgewählt werden, die jeweils ein Objekt abbilden, jedoch visuelle Unterschiede dahingehend, wie das Objekt abgebildet ist, aufweisen.
Bei dem dargestellten Beispiel beinhalten die Digitalbilder 122(1) bis 122(N) jeweils ein Paar Schuhe, sind jedoch von verschiedenen Sichtpunkten aus aufgenommen, weisen verschiedene Anordnungen auf und dergleichen mehr. Bei diesem Beispiel bleiben daher die visuellen Eigenschaften des Objektes selbst (beispielsweise die Farbe) gleich, während sich dasjenige, wie das Objekt abgebildet ist, ändert. Einbezogen sind auch andere Beispiele, so beispielsweise Unterschiede beim Hintergrund der Digitalbilder, Unterschiede bei dem Objekt selbst, bei menschlichen Models, die mit dem Objekt abgebildet sind, und dergleichen mehr. Obwohl das Digitalbildauswahlmodul 120 derart dargestellt ist, dass es als Serviceprovidersystem 120 implementiert ist, kann die Funktionalität des Digitalbildauswahlmoduls 120 gänzlich oder in Teilen auch lokal auf der Clientvorrichtung 104 implementiert sein.
Um das Digitalbild auszuwählen, setzt das Digitalbildauswahlmodul 120 ein maschinell lernendes Modul 126 ein, das ein maschinell lernendes Modell 128 implementiert, um dasjenige Digitalbild auszuwählen, bei dem am wahrscheinlichsten ist, dass ein gewünschtes Ergebnis erreicht wird. Das Ergebnis kann beispielsweise eine Konversion bzw. Realisierung dahingehend beinhalten, ob eine entsprechende Ware oder ein entsprechender Dienst, die dem in dem Digitalbild abgebildeten Objekt zugeordnet sind, erworben wird, ob das Digitalbild ausgewählt wird (das heißt, ob es „angeklickt“ wird, ob es zum Initiieren einer Ausgabe des entsprechenden Digitalcontents in einem Digitalvideoszenario genutzt wird) und dergleichen.
Das Digitalbildauswahlmodul 120 kann beispielsweise die Anforderung 110 von Digitalcontent 114 empfangen und Digitalbilder 122(1) bis 122(N), die einer dem Digitalcontent 114 zugeordneten Objektkennung 130 zugeordnet sind, beziehen. Das maschinell lernende Modell 128 berechnet sodann einen Wahrscheinlichkeitskennwert. Der Wahrscheinlichkeitskennwert wird für jedes der mehreren Digitalbilder 122(1) bis 122(N) berechnet, und zwar auf Grundlage von visuellen Eigenschaften der Digitalbilder und eines Nutzerprofils, das einer Nutzerkennung zugeordnet ist, die als Teil der Anforderung empfangen wird. Der Wahrscheinlichkeitskennwert gibt eine Wahrscheinlichkeit dafür an, das erwünschte Ergebnis zu erreichen.
Um zu bestimmen, welche visuellen Eigenschaften in jeweiligen Digitalbildern beinhaltet sind, werden Bildmerkmale aus entsprechenden Digitalbildern extrahiert. Die Bildmerkmale können beispielsweise unter Nutzung einer Einbettungsschicht eines neuronalen Netzwerkes (beispielsweise eines faltungstechnischen neuronalen Netzwerkes) extrahiert werden, um die Digitalbilder auf einen niedriger dimensionalen Einbettungsraum abzubilden. Auf diese Weise kann das einzige maschinell lernende Modell 128 für mehrere verschiedene Digitalbilder benutzt werden und als solches auf die visuelle Ähnlichkeit dieser Digitalbilder untereinander eingehen. Bei herkömmlichen Techniken, die ein einziges eigens vorgesehenes Modell für jedes Digitalbild aufweisen, ist dies nicht möglich.
Im Ergebnis lösen die hier beschriebenen Techniken Probleme bei herkömmlichen Techniken und verbessern den Betrieb einer Rechenvorrichtung, die diese Techniken implementiert. Ein erstes Beispiel hierfür wird als Kontrafaktenproblem bezeichnet. Man nehme an, dass Daten empfangen werden, die eine Nutzerauswahl eines Digitalbildes (beispielsweise eine Konversion bzw. Realisierung) angeben, und dass diese Daten nicht angeben, wie eine Nutzerinteraktion mit anderen Digitalbildern erfolgt. Um dieses Problem zu vermeiden, nutzen herkömmliche Techniken separate eigens vorgesehene maschinell lernende Modelle für jedes Digitalbild. Das Problem bei diesem Ansatz besteht darin, dass es aufgrund dessen, dass jedes Digitalbild einem einzigen maschinell lernenden Modell zugeordnet ist, nicht möglich ist, Muster über die Digitalbilder hinweg zu erkennen. Dies hat negative Auswirkungen auf die Genauigkeit des maschinell lernenden Modells und daher auf den Betrieb einer entsprechenden Rechenvorrichtung.
Bei den hier beschriebenen Techniken wird jedoch ein System beschrieben, das dafür konfiguriert ist, auf die mehreren Digitalbilder eines Objektes unter Nutzung eines einzigen maschinell lernenden Modells einzugehen. Als Teil hiervon werden Bildmerkmale aus entsprechenden Digitalbildern unter Nutzung einer Einbettungsschicht eines neuronalen Netzwerkes extrahiert, um die Bilder auf einen niedriger dimensionalen Raum als Vektor abzubilden. Auf diese Weise ist die Nähe der Vektoren innerhalb des Einbettungsraumes ein Maß für die visuelle Ähnlichkeit der Digitalbilder untereinander, wobei als Ergebnis das maschinell lernende Modell 128 Entscheidungsstrategien über die Digitalbilder des Objektes hinweg implementieren kann, was zu einer verbesserten Genauigkeit beim Erstellen einer Vorhersage führt.
Da herkömmliche Techniken zudem ein separates maschinell lernendes Modell für jedes Digitalbild trainieren, beruhen die herkömmlichen Techniken nicht auf dem Bildcontent selbst, sondern lediglich auf der Bildkennung. Im Gegensatz hierzu sind die hier beschriebenen Techniken dafür nutzbar, ein einziges maschinell lernendes Modell 128 zu trainieren, das Bildmerkmale, die aus den mehreren Digitalbildern 122(1) bis 122(N) extrahiert werden, lernt. Dies kann beispielsweise durch Nutzung eines vortrainierten faltungstechnischen neuronalen Netzwerkes erfolgen, das die Bildmerkmale als Einbettung, die von der letzten Schicht des Netzwerkes gelernt wird, extrahiert. Hierdurch wird ermöglicht, dass das maschinell lernende Modell 128 Muster über Digitalbilder hinweg lernt, was bei herkömmlichen Techniken nicht möglich ist.
Des Weiteren leiden herkömmliche Techniken an einem Kaltstartproblem. Wird bei herkömmlichen Techniken ein neues Digitalbild hinzugefügt, um die Personalisierung von Digitalcontent zu unterstützen, so dauert es gegebenenfalls Wochen, bis das Digitalbild zur genauen Personalisierung bereitsteht. Dies rührt daher, dass ein separates maschinell lernendes Modell für jedes Digitalbild trainiert wird, weshalb es, wenn ein neues Digitalbild hinzugefügt wird, bei realen Implementierungen etwa zwei Wochen dauert, bis genug Trainingsdaten (beispielsweise „Klickdaten“) mittels Ausforschungstechniken für das Digitalbild gesammelt worden sind. Dies stellt ein erhebliches Problem dar, auch wenn das neue Digitalbild nur eine leicht abweichende Variante bestehender Digitalbilder ist.
Bei den hier beschriebenen Techniken wird auf dieses Problem auf verschiedenen Arten eingegangen. Unter Nutzung einer Einbettungsschicht bildet das maschinell lernende Modell 128 zunächst Bildidentifizierer auf einen niedriger dimensionalen Vektorraum ab. Wird ein neues Digitalbild hinzugefügt, so sind daher wenige Trainingsbeispiele ausreichend, um dieses Digitalbild auf einen Vektor in dem Einbettungsraum des maschinell lernenden Modells 128 abzubilden. Muster, die für Digitalbilder gelernt werden, die auf Vektoren abgebildet sind, die nahe an dem Vektor für das neue Digitalbild sind, können daher jetzt von dem maschinell lernenden Modell 128 benutzt werden, um die Verteilung beispielsweise als Teil des Digitalcontents 114 zu steuern bzw. zu regeln, ohne dass man, wie dies bei herkömmlichen Techniken erforderlich ist, Wochen warten müsste. Unter Nutzung von Bildmetadaten kann das maschinell lernende Modell 128 zudem Muster einsetzen, die aus anderen Digitalbildern mit ähnlichen Bildmetadaten gelernt werden, beispielsweise Formen, Farben und dergleichen mehr. Eine weitere Diskussion dieser und weiterer Beispiele ist in den nachfolgenden Abschnitten beinhaltet und wird anhand der entsprechenden Figuren gezeigt.
Im Allgemeinen können Funktionalitäten, Merkmale und Konzepte, die hier im Zusammenhang mit den vorstehenden und nachstehenden Beispielen beschrieben sind, im Kontext der in diesem Abschnitt beschriebenen exemplarischen Prozeduren eingesetzt werden. Des Weiteren können die Funktionalitäten, Merkmale und Konzepte, die in der vorliegenden Druckschrift im Zusammenhang mit verschiedenen Figuren und Beispielen beschrieben werden, untereinander ausgetauscht werden und sind nicht auf die Implementierung im Kontext einer bestimmten Figur oder Prozedur beschränkt. Darüber hinaus können Blöcke, die hier verschiedenen repräsentativen Prozeduren und entsprechenden Figuren zugeordnet sind, auch zusammen und/oder auf verschiedene Weisen kombiniert angewendet werden. Einzelne Funktionalitäten, Merkmale und Konzepte, die hier im Zusammenhang mit verschiedenen exemplarischen Umgebungen, Vorrichtungen, Komponenten, Figuren und Prozeduren beschrieben werden, können in beliebigen geeigneten Kombinationen genutzt werden und sind nicht auf diejenigen bestimmten Kombinationen, die bei den aufgeführten Beispielen in der vorliegenden Beschreibung dargestellt sind, beschränkt.
Generieren von Trainingsdaten
2 zeigt ein System 200 bei einer exemplarischen Implementierung des Generierens von Trainingsdaten, um ein maschinell lernendes Modell 128 zu trainieren. 3 zeigt eine Prozedur 300 bei einer exemplarischen Implementierung zur Nutzung von Ausforschungs-/Verwertungstechniken, um Trainingsdaten zu generieren und das maschinell lernende Modell 128 dafür zu trainieren, ein Digitalbild unter mehreren Digitalbildern auszuwählen, die Varianten eines Objektes abbilden, um Digitalcontent zu generieren.
Die nachfolgende Diskussion beschreibt Techniken, die unter Einsatz der vorstehend beschriebenen Systeme und Vorrichtungen implementiert werden können. Aspekte einer jeden der Prozeduren können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert werden. Die Prozeduren sind als Satz von Blöcken gezeigt, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind. In Teilen der nachfolgenden Diskussion wird auf 1 bis 3 verwiesen.
Zunächst wird beim vorliegenden Beispiel von dem Digitalcontentgenerierungssystem 112 von 1 eine Anforderung 110 von Digitalcontent 114, beispielsweise einer Webpage, empfangen. Das Kommunikationsmodul 108 ist als Webbrowser der Clientvorrichtung 104 konfiguriert und generiert die Anforderung 110 einer bestimmten Webpage. Die Anforderung 110 beinhaltet eine Nutzerkennung 202, die einem Nutzer der Clientvorrichtung 104 zugeordnet ist.
Die Nutzerkennung 202 wird sodann als Eingabe an ein Profilsammelmodul 204 des Digitalbildauswahlmoduls 120 weitergeleitet. Das Profilsammelmodul 204 ist dafür konfiguriert, ein Nutzerprofil 206 aus einer Speichervorrichtung 208 auf Grundlage der Nutzerkennung 202, die der Anforderung 110 des Digitalcontents, der ein Digitalbild eines Objektes beinhaltet, zugeordnet ist, zu beziehen (Block 302). Die Speichervorrichtung 208 kann lokal auf dem Serviceprovidersystem 102 und/oder entfernt von einem System dritter Seite oder einer Clientvorrichtung 104 vorgehalten werden. Das Nutzerprofil 206 ist dafür konfiguriert, eine Nutzerinteraktion mit Digitalbildern zu beschreiben, darunter dasjenige, welche Digitalbilder einer entsprechenden Nutzerkennung präsentiert werden sollen, und ein Ergebnis dieser Präsentation, also beispielsweise eine Realisierung. Das Nutzerprofil 206 kann zudem Eigenschaften eines entsprechenden Nutzers beschreiben, so beispielsweise demografische Daten (beispielsweise Alter, Geschlecht), wie auch andere Information, die mit der Nutzerkennung 202 in Zusammenhang steht, beispielsweise einen entsprechenden geografischen Ort, eine IP-Adresse und dergleichen.
Ein Ausforschungs-/Verwertungsbestimmungsmodul 210 wird sodann zur Bestimmung dessen eingesetzt, ob Nutzerverhalten, das der Nutzerkennung 202 zugeordnet ist, in Reaktion auf die Anforderung 110 ausgeforscht oder verwertet werden soll (Block 304). Eine Bestimmung dahingehend, das Nutzerverhalten auszuforschen, impliziert ein Auswählen von Digitalbildern, um mehr über das Nutzerverhalten im Zusammenhang mit dem in den Digitalbildern abgebildeten Objekt, so beispielsweise Nutzerpräferenzen dahingehend, wie das Objekt abgebildet ist, zu lernen. Eine Bestimmung dahingehend, das Nutzerverhalten zu verwerten, erfolgt demgegenüber, um die Wahrscheinlichkeit dafür zu maximieren, ein gewünschtes Ergebnis zu erreichen, wenn ein Objekt über das Digitalbild beispielsweise beim Empfehlen eines von Interesse seienden Gegenstandes, einer Realisierung oder dergleichen präsentiert wird.
Um bei dem dargestellten Beispiel die Bestimmung vorzunehmen, wird ein Epsilon-Greedy-Modul 212 von dem Ausforschungs-/Verwertungsbestimmungsmodul 210 eingesetzt. Epsilon kann beispielsweise als Wert zwischen 0 und 1, beispielsweise als 0,1, definiert werden. Angegeben wird durch diesen Wert ein prozentualer Anteil von Nutzerkennungen und zugeordnetem Nutzerverhalten, das ausgeforscht werden soll, und infolgedessen ein verbleibender prozentualer Anteil von Nutzerkennungen und zugeordnetem Nutzerverhalten, das verwertet werden soll. Der Wert von Epsilon kann nutzerseitig spezifiziert werden, automatisch und ohne Nutzereingriff auf Grundlage von Heuristiken spezifiziert werden und dergleichen mehr. Der Kompromiss zwischen Ausforschung und Verwertung ermöglicht, dass Trainingsdaten von dem Digitalbildauswahlmodul 120 generiert werden, das neue Trends im Nutzerverhalten erfasst und daher genau und aktuell bleibt. Es können auch andere Techniken von dem Ausforschungs-/Verwertungsbestimmungsmodul 210 eingesetzt werden, um die Bestimmung vorzunehmen.
Entsprechend setzt ein Ausforschungsmodul 214 in Reaktion auf die Ausforschungsbestimmung ein Zufallsbildauswahlmodul 216 ein, um ein Digitalbild unter mehreren Digitalbildern, die Varianten dahingehend, wie das Bild abgebildet ist, aufweisen, vom einen zum anderen zufällig auszuwählen (Block 306). Demgegenüber wird in Reaktion auf eine Verwertungsbestimmung ein Verwertungsmodul 218 benutzt, um das Digitalbild unter den mehreren Digitalbildern, die Varianten dahingehend, wie das Objekt abgebildet ist, aufweisen, unter Nutzung des maschinell lernenden Modells 128 auszuwählen (Block 308). Weitere Erläuterungen zum Betrieb des maschinell lernenden Modells 128 zur Auswahl eines Digitalbildes eines Objektes folgen in der nachfolgenden Diskussion anhand 6 und 7.
Das ausgewählte Digitalbild wird als Teil von Digitalcontent einbezogen, und es wird ein Ergebnis der Nutzerinteraktion mit dem Digitalbild an ein Trainingsdatengenerierungsmodul 220 kommuniziert. Das ausgewählte Digitalbild kann das Objekt beispielsweise als Verkaufsware als Teil einer Webpage erfassen. Das Ergebnis besteht daher darin, ob eine Konversion bzw. Realisierung aufgetreten ist, die an ein Trainingsdatengenerierungsmodul 220 kommuniziert wird. Die Konversion bzw. Realisierung kann, wie vorstehend beschrieben worden ist, einer Vielzahl von Handlungen entsprechen, so beispielsweise denjenigen, ob eine Interaktion mit dem Digitalbild erfolgt ist (beispielsweise ein Schweben bzw. Darüberbewegen oder „Anklicken“), ob ein entsprechendes Produkt (beispielsweise das Objekt) oder ein Dienst zu einem Einkaufswagen hinzugefügt worden ist, ob das entsprechende Produkt oder der entsprechende Dienst erworben worden ist, und dergleichen. Andere Ergebnisse zusätzlich zur Realisierung sind ebenfalls mit einbezogen, ohne vom Wesen und Umfang des vorliegenden Erfindungsgegenstandes abzugeben, so beispielsweise das Starten eines entsprechenden Digitalvideos durch Auswahl des Digitalbildes, das das Video darstellt.
Das Trainingsdatengenerierungsmodul 220 wird sodann benutzt, um Trainingsdaten 222 (als in einer Speichervorrichtung 224 gespeichert dargestellt) zu generieren, die zum Trainieren des maschinell lernenden Modells 128 nutzbar sind. Zu diesem Zweck generiert das Trainingsdatengenerierungsmodul 220 entsprechend der Anforderung 110 ein Interaktionsereignis 226. Das Interaktionsereignis 226 beinhaltet die Nutzerkennung 202, ein Nutzerprofil 206, das der Nutzerkennung 202 zugeordnet ist, eine Bildkennung 228 des ausgewählten Digitalbildes, Bildmetadaten 230 und Ergebnisdaten 232 zur Beschreibung eines Ergebnisses derart, dass es das ausgewählte Digitalbild als Teil des Digitalcontents beinhaltet (Block 310). Die Ergebnisdaten 232 können beispielsweise beschreiben, ob ein Ergebnis aufgetreten ist oder nicht, so beispielsweise ob eine Konversion bzw. Realisierung oder dergleichen, aufgetreten ist oder nicht.
Wie vorstehend beschrieben worden ist, können die Bildmetadaten 230 Merkmale 234 beinhalten, die aus dem ausgewählten Digitalbild unter Nutzung maschinellen Lernens extrahiert worden sind. Dies kann als Teil der Trainingsdaten 222 während des Generierens oder später gespeichert werden, indem ein Digitalbild, das der Bildkennung 228 entspricht, abgerufen und das Bild unter Nutzung einer Merkmalsextraktion, wie vorstehend beschrieben worden ist, verarbeitet wird. Die Bildmetadaten 230 können zudem Objektmetadaten 236 beinhalten. Die Objektmetadaten 236 beinhalten Information über das Objekt, das in den Digitalbildern erfasst wird, also beispielsweise die Produktkategorie, eine Beschreibung, die Farbe, die Größe, Bildetiketten und dergleichen mehr, die aus Text (beispielsweise einer Bildunterschrift, einem Etikett, einer Beschreibung), der dem jeweiligen Digitalbild zugeordnet ist, oder anderswo entnommen sind. Ein maschinell lernendes Modell wird sodann unter Nutzung der Trainingsdaten 222 generiert (Block 312), wie im nachfolgenden Abschnitt weiter beschrieben wird.
Trainieren des maschinell lernenden Modells
4 zeigt ein System 400 bei einer exemplarischen Implementierung des Trainierens des maschinell lernenden Modells 128 unter Nutzung der Trainingsdaten von 2. 5 zeigt eine Prozedur 500 bei einer exemplarischen Implementierung des Nutzens von Trainingsdaten mit Interaktionsereignissen, die ein Nutzerprofil, Bildmetadaten, die aus Digitalbildern extrahierte Bildmerkmale beinhalten, und Ergebnisdaten zum Trainieren des maschinell lernenden Modells 128 beinhalten.
Die nachfolgende Diskussion beschreibt Techniken, die unter Einsatz der vorstehend beschriebenen Systeme und Vorrichtungen implementiert werden können. Aspekte einer jeden der Prozeduren können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Die Prozeduren sind als Satz von Blöcken gezeigt, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind. In Teilen der nachfolgenden Beschreibung wird auf 4 und 5 verwiesen.
Die vorliegende exemplarische Diskussion schließt an den vorherigen Abschnitt an und beginnt als solches mit dem Empfangen der Trainingsdaten 222 durch ein maschinell lernendes Modul 126 des Digitalbildauswahlmoduls 120. Die Bildmetadaten 230 können zudem Objektmetadaten 236 beinhalten. Die Trainingsdaten 222 beinhalten Objektmetadaten 236, die Information über das Objekt, das in den Digitalbildern erfasst ist, aufweisen, so beispielsweise die Produktkategorie, die Beschreibung, die Farbe, die Größe, Bildetiketten und dergleichen.
Die Trainingsdaten 222 werden, wie beim vorherigen Beispiel beschrieben worden ist, als mehrere Interaktionsereignisse 226 auf Grundlage einer beobachteten Nutzerinteraktion mit Digitalbildern des Objektes gesammelt. Als Teil hiervon beinhaltet jedes der Interaktionsereignisse 226 in den Trainingsdaten 222 ein Nutzerprofil 206, das der Nutzerkennung 202 zugeordnet ist, Bildmetadaten 230, die Bildmerkmale 234 aufweisen, die aus einem jeweiligen Digitalbild der mehreren Digitalbilder unter Nutzung maschinellen Lernens extrahiert worden sind, und Ergebnisdaten 232, die ein Ergebnis dahingehend, dass das ausgewählte Digitalbild als Teil des Digitalcontents beinhaltet ist, beschreiben (Block 502). Die Objektmetadaten 236 können daher für das Interaktionsereignis 226 (beispielsweise dahingehend, wie das Objekt in den Digitalbildern erfasst ist) spezifisch und/oder Eigenschaften sein, die den mehreren Digitalbildern gemeinsam sind, so beispielsweise eine Farbe, die mehreren Digitalbildern gemeinsam ist.
Eingesetzt wird das maschinell lernende Modul 126 sodann zum Generieren eines maschinell lernenden Modells 128 mit Training auf Grundlage der Objektmetadaten 236, des Nutzerprofils 206, der Bildmetadaten 230 und einer Verlustfunktion 402 auf Grundlage der Ergebnisdaten 232 (Block 504). Die Verlustfunktion 402 ist eine Funktion, die Werte einer oder mehrerer erläuternder Variablen (beispielsweise Merkmale) auf eine reelle Zahl abbildet, die Kosten darstellt, die einem Ereignis zugeordnet sind, wobei bei der Optimierung die Verlustfunktion 402 minimiert wird, um das maschinell lernende Modell 128 zu trainieren. Bei der Klassifizierung ist die Verlustfunktion 402 beispielsweise eine Sanktionierung (penalty) für eine unrichtige Klassifizierung, so beispielsweise dafür, ob das in den Ausgabedaten 232 beschriebene Ergebnis aufgetreten ist oder nicht.
Entsprechend werden die Objektmetadaten 236, das Nutzerprofil 206 und die Bildmerkmale 234 durch Einbettungsschichten 404 des maschinell lernenden Modells 128 verarbeitet, um eine Trainingsvorhersage 406 beispielsweise für jedes der Interaktionsereignisse 226 zu generieren. Die Trainingsvorhersage wird als Teil der Verlustfunktion 402 zusammen mit den Ergebnisdaten 232 benutzt, um ein Ergebnis des Vergleiches der Trainingsvorhersage 406 mit den Ergebnisdaten 232 rückzuverfolgen, um wiederum Parameterwerte innerhalb des maschinell lernenden Modells 128 (beispielsweise Neuronen und entsprechende Verbindungen innerhalb eines neuronalen Netzwerks) zu setzen, damit das maschinell lernende Modell 128 trainiert wird.
Auf diese Weise lernt das maschinell lernende Modell 128 für verschiedene Bilder eines Objektes einen Einbettungsraum, der zur Bestimmung einer Ähnlichkeit der Digitalbilder untereinander benutzt werden kann, wodurch herkömmliche Kaltstart- und Kontrafaktenprobleme, wie sie vorstehend beschrieben worden sind, behoben werden. Dieses Trainieren kann durchgeführt werden, um das maschinell lernende Modell 128 zu generieren und auch um aktualisierte Versionen des maschinell lernenden Modells 128 zu generieren, um beispielsweise sich ändernde Trends im Nutzerverhalten dahingehend, wie das Objekt in den Digitalbildern dargestellt wird, zu erfassen. Das generierte maschinell lernende Modell 128 kann sodann benutzt werden, um das Digitalbild auszuwählen, wie im nachfolgenden Abschnitt weiter beschrieben wird.
Digitalbildauswahl unter Nutzung des maschinell lernenden Modells
6 zeigt ein System 600 bei einer exemplarischen Implementierung des Auswählens eines Digitalbildes unter mehreren Digitalbildern, die Varianten eines Objektes abbilden, unter Nutzung des maschinell lernenden Modells 128, das gemäß 4 trainiert worden ist. 7 zeigt eine Prozedur 700 bei einer exemplarischen Implementierung des Generierens von Digitalcontent 114, der ein Digitalbild aufweist, das von einem maschinell lernenden Modell 128 auf Grundlage eines Nutzerprofils 206 und von Bildmetadaten 230 ausgewählt worden ist.
Die nachfolgende Diskussion beschreibt Techniken, die unter Einsatz der vorstehend beschriebenen Systeme und Vorrichtungen implementiert werden können. Aspekte einer jeden der Prozeduren können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Die Prozeduren sind als Satz von Blöcken gezeigt, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht unbedingt auf diejenigen Reihenfolgen beschränkt sind, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind. In Teilen der nachfolgenden Diskussion wird auf 4 und 5 verwiesen.
Beim vorliegenden Beispiel wird Digitalcontent 114 unter Nutzung des maschinell lernenden Modells 128, das gemäß Beschreibung im vorherigen Abschnitt trainiert worden ist, generiert. Zunächst wird eine Nutzerkennung 202 empfangen, die einer Anforderung 110 von Digitalcontent 114, der ein Digitalbild eines Objektes beinhaltet, zugeordnet ist (Block 702). Der Digitalcontent kann beispielsweise als Webpage konfiguriert sein, und das Digitalbild ist als Teil der Webpage beinhaltet. Weitere Beispiele sind ebenfalls einbezogen, so beispielsweise eine Vorschau, die zur Darstellung eines Digitalvideos benutzt wird.
In Reaktion hierauf wird ein Nutzerprofil 206, das der Nutzerkennung 202 zugeordnet ist, von einem Profilsammelmodul 208 aus einer Speichervorrichtung 208, die lokal oder entfernt von dem Serviceprovidersystem 102 angeordnet sein kann, bezogen (Block 704). Das Nutzerprofil 206 beschreibt eine Vielzahl von Eigenschaften, die der Nutzerkennung 202 zugeordnet sind. Beinhaltet sein können Eigenschaften eines zugeordneten Nutzers, so beispielsweise demografische Information (beispielsweise Alter und Geschlecht), Eigenschaften dahingehend, wie der Zugriff durch die Nutzerkennung 202 erfolgt ist (beispielsweise der Typ der Vorrichtung, Netzwerkverbindung), der Ort und dergleichen. Das Nutzerprofil 206 kann zudem vergangene Nutzerinteraktionen mit entsprechenden Digitalbildern, so beispielsweise das Ergebnis einer Interaktion mit den Digitalbildern, beschreiben.
Vom einen zum anderen bezogen werden (Block 706) zudem mehrere Digitalbilder, die einer Objektkennung 130 zugeordnet sind, die Varianten dahingehend, wie ein Objekt abgebildet ist, beinhalten. Ein Bildsammelmodul 602 kann die Objektkennung 130, die einem Gegenstand des zu generierenden Digitalcontents entspricht, ausfindig machen. Der Digitalcontent kann in Fortsetzung des vorherigen Beispiels als Webpage mit einem Abschnitt zum Abbilden eines Objektes konfiguriert sein, so beispielsweise als Produkt oder Dienst zum Verkauf auf einer E-Commerce-Webseite. Die Webpage beinhaltet daher eine Objektkennung 130, die den dieses Objekt abbildenden Digitalbildern 604 zugeordnet ist. Es wird sodann eine Auswahl dahingehend vorgenommen, welches Digitalbild unter den mehreren Digitalbildern 604 auf der Webseite beinhaltet sein sollte. Auf diese Weise wird bei diesem Beispiel die Auswahl auf Grundlage des Objektes allein und nicht auf Grundlage des Digitalcontents als Ganzes vorgenommen, weshalb die Vorhersage als solche mit erhöhter Genauigkeit vorgenommen und nicht dadurch, „was sonst noch“ in dem Digitalcontent beinhaltet ist, verfälscht wird.
Zu diesem Zweck werden das Nutzerprofil 206 und die Digitalbilder 604 an das maschinell lernende Modul 126 weitergeleitet. Das maschinell lernende Modul 126 wird sodann dafür konfiguriert, mehrere Vorhersagekennwerte 606 für die mehreren Digitalbilder 604 zu generieren. Jeder Vorhersagekennwert wird von dem maschinell lernenden Modell 128 auf Grundlage des Nutzerprofils 206 und von Merkmalen, die aus einem jeweiligen Digitalbild der mehreren Digitalbilder 604 extrahiert werden, generiert (Block 708). Das maschinell lernende Modell 128 kann beispielsweise Einbettungsschichten 404 beinhalten, um Bildmetadaten zu generieren, die Bildmerkmale aufweisen, die aus jedem der Digitalbilder 604 extrahiert sind. Diese Bildmerkmale werden zusammen mit dem Nutzerprofil durch das maschinell lernende Modell 128 unter Nutzung maschinellen Lernens verarbeitet, um einen Vorhersagekennwert 606 für jedes der Digitalbilder 604 zu generieren. Der Vorhersagekennwert gibt eine Wahrscheinlichkeit (beispielsweise zwischen 0 und 1) dafür an, dass ein entsprechendes Ergebnis auftritt, und zwar auf Grundlage einer Einbeziehung des ausgewählten Digitalbildes als Teil des Digitalcontents 114. Die Vorhersagekennwerte 606 können beispielsweise eine Wahrscheinlichkeit für eine Realisierung angeben, also beispielsweise dafür, dass das Digitalbild ausgewählt wird, um ein entsprechendes Digitalvideo zu starten, um den Erwerb einer Ware oder eines Dienstes entsprechend dem Objekt in dem Digitalbild zu initiieren und dergleichen mehr.
Die Vorhersagekennwerte 606 werden sodann von dem maschinell lernenden Modul 126 als Eingabe an ein Vorhersageauswahlmodul 608 weitergereicht. Das Vorhersageauswahlmodul 608 ist dafür konfiguriert, ein Digitalbild unter den mehreren Digitalbildern 604 auf Grundlage der mehreren Vorhersagekennwerte auszuwählen (Block 710). Das Vorhersageauswahlmodul 608 kann beispielsweise dasjenige Digitalbild auswählen, das die höchste Wahrscheinlichkeit dafür aufweist, dass das gewünschte Ergebnis (beispielsweise eine Konversion bzw. Realisierung) erreicht wird, und zwar auf Grundlage der Vorhersagekennwerte 606. Die Vorhersage 610 wird sodann an das Digitalcontentgenerierungsmodul 612 weitergeleitet, um den Digitalcontent 114 derart zu generieren, dass er das ausgewählte Digitalbild 604(n), das das Objekt beinhaltet, aufweist (Block 712), um also beispielsweise das Digitalbild 604(n) als Teil einer Webpage einzubeziehen.
Auf diese Weise überwinden die hier beschriebenen Techniken die Probleme, Beschränkungen und rechentechnischen Ineffizienzen herkömmlicher Techniken. Dies beinhaltet das Eingehen auf das Kontrafaktenproblem, das Kaltstartproblem (weshalb Rechenressourcen im Vergleich zu herkömmlichen Techniken um Wochen früher verfügbar sind) und das Eingehen auf den Bildcontent selbst, um Muster über die Digitalbilder hinweg zu lernen, was bei herkömmlichen Techniken nicht möglich ist.
Exemplarisches System und exemplarische Vorrichtung
8 zeigt bei 800 allgemein ein exemplarisches System, das eine exemplarische Rechenvorrichtung 802 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen darstellt, die die hier beschriebenen verschiedenen Techniken implementieren können. Dies ist durch Einbeziehung des Digitalbildauswahlmoduls 120 dargestellt. Die Rechenvorrichtung 802 kann beispielsweise ein Server eines Serviceproviders, eine Vorrichtung, die einem Client zugeordnet ist (beispielsweise eine Clientvorrichtung), ein On-Chip-System und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein.
Die exemplarische Rechenvorrichtung 802 beinhaltet, wie dargestellt ist, ein Verarbeitungssystem 804, ein oder mehrere computerlesbare Medien 806 und eine oder mehrere I/O-Schnittstellen 808, die kommunikationstechnisch miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 802 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination aus verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor- oder Lokalbus, der eine Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl von weiteren Beispielen, so beispielsweise Steuer- bzw. Regel- und Datenleitungen, ist ebenfalls einbezogen.
Das Verarbeitungssystem 804 stellt eine Funktionalität zur Durchführung eines oder mehrerer Vorgänge unter Nutzung von Hardware dar. Entsprechend ist das Verarbeitungssystem 804 derart dargestellt, dass es ein Hardwareelement 810 beinhaltet, das als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein kann. Dies kann eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder als andere Logikvorrichtung, die unter Nutzung eines oder mehrerer Halbleiter gebildet ist, beinhalten. Die Hardwareelemente 810 sind nicht durch die Materialien, aus denen sie gebildet sind, oder durch die Verarbeitungsmechanismen, die zum Einsatz kommen, beschränkt. Die Prozessoren können beispielsweise aus einem Halbleiter / Halbleitern und/oder Transistoren (beispielsweise elektronischen integrierten Schaltungen (ICs)) bestehen. In diesem Zusammenhang können prozessorseitig ausführbare Anweisungen elektronisch ausführbare Anweisungen sein.
Die computerlesbaren Speichermedien 806 sind derart dargestellt, dass sie einen Memory/Speicher 812 beinhalten. Der Memory/Speicher 812 bietet eine Memory-/Speicherkapazität, die einem oder mehreren computerlesbaren Medien zugeordnet ist. Die Memory-/Speicherkomponente 812 kann flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr) beinhalten. Die Memory-/Speicherkomponente 812 kann feste Medien (beispielsweise RAM, ROM, ein Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr) beinhalten. Die computerlesbaren Medien 806 können auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.
Eine Eingabe-/Ausgabe-Schnittstelle / Eingabe-/Ausgabe-Schnittstellen 808 bietet/bieten eine Funktionalität, die ermöglicht, dass ein Nutzer Befehle und Information in die Rechenvorrichtung 802 eingibt, und die zudem ermöglicht, dass dem Nutzer und/oder anderen Komponenten oder Vorrichtungen Information unter Nutzung verschiedener Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitive oder andere Sensoren, die dafür konfiguriert sind, eine physische Berührung zu detektieren), eine Kamera (die beispielsweise sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, dafür einsetzen kann, Bewegungen als Gesten, die keine Berührung implizieren, zu erkennen), und dergleichen mehr. Beispiele für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine taktil-reaktive Vorrichtung und dergleichen mehr. Daher kann die Rechenvorrichtung 802 auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um die Nutzerinteraktion zu unterstützen.
Verschiedene Techniken können hier im allgemeinen Kontext von Software, Hardwareelementen oder Programmmodulen beschrieben werden. Allgemein beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul“, „Funktionalität“ und „Komponente“ bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen mit einer Vielzahl von Prozessoren implementiert sein können.
Eine Implementierung der beschriebenen Module und Techniken kann auf einer bestimmten Form von computerlesbaren Medien gespeichert sein oder über diese übertragen werden. Die computerlesbaren Medien können eine Vielzahl von Medien beinhalten, auf die von der Rechenvorrichtung 802 zugegriffen werden kann. Beispiels- und nicht beschränkungshalber können computerlesbare Medien „computerlesbare Speichermedien“ und „computerlesbare Signalmedien“ beinhalten.
„Computerlesbare Speichermedien‟ können Medien und/oder Vorrichtungen bezeichnen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder zu Signalen per se ermöglichen. Computerlesbare Speichermedien bezeichnen daher nichtsignaltragende Medien. Computerlesbare Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien und/oder Speichervorrichtungen, die in einem Verfahren oder einer Technologie implementiert sind, die zur Speicherung von Information geeignet ist, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule, Logikelemente/Schaltungen oder andere Daten. Beinhalten können Beispiele für computerlesbare Speichermedien unter anderem RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder eine andere Speichervorrichtung, physische Medien oder Elemente, die dafür geeignet sind, dass gewünschte Information gespeichert wird, und auf die ein Computer zugreifen kann.
„Computerlesbare Signalmedien‟ können signaltragende Medien bezeichnen, die dafür konfiguriert sind, Anweisungen an die Hardware der Rechenvorrichtung 802 beispielsweise über ein Netzwerk zu übermitteln. Signalmedien können typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal verkörpern, so beispielsweise Trägerwellen, Datensignale oder einen anderen Transportmechanismus. Signalmedien beinhalten zudem beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder verändert sind, dass Information in dem Signal codiert ist. Beispiels- und nicht beschränkungshalber beinhalten Kommunikationsmedien drahtgebundene Medien, so beispielsweise ein drahtgebundenes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere drahtlose Medien.
Wie vorstehend beschrieben worden ist, stellen die Hardwareelemente 810 und die computerlesbaren Medien 806 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik dar, die in Form von Hardware implementiert sind, die bei einigen Ausführungsformen dafür eingesetzt werden kann, wenigstens einige Aspekte der hier beschriebenen Techniken beispielsweise zur Durchführung einer oder mehrerer Anweisungen zu implementieren. Die Hardware kann Komponenten einer integrierten Schaltung oder eines On-Chip-Systems, eine anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), eine komplexe programmierbare Logikvorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware beinhalten. In diesem Zusammenhang kann Hardware als Verarbeitungsvorrichtung wirken, die Programmaufgaben wahrnimmt, die durch Anweisungen und/oder eine Logik definiert sind, die durch die Hardware verkörpert ist, wie auch Hardware, die zur Speicherung von Anweisungen zur Ausführung benutzt wird, so beispielsweise die vorbeschriebenen computerlesbaren Speichermedien.
Kombinationen des Vorbeschriebenen können zudem zur Implementierung verschiedener hier beschriebener Techniken eingesetzt werden. Entsprechend können Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 810 verkörpert ist.
Die Rechenvorrichtung 802 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend Software- und/oder Hardwaremodulen zu implementieren. Entsprechend kann eine als Software gegebene Implementierung eines Moduls, das von der Rechenvorrichtung 802 ausführbar ist, auch wenigstens teilweise in Hardware erreicht werden, so beispielsweise unter Nutzung computerlesbarer Speichermedien und/oder Hardwareelemente 810 des Verarbeitungssystems 804. Die Anweisungen und/oder Funktionen können von einem oder mehreren Elementen (beispielsweise einer oder mehreren Rechenvorrichtungen 802 und/oder einem oder mehreren Verarbeitungssystemen 804) ausführbar/betreibbar sein, um die hier beschriebenen Techniken, Module und Beispiele zu implementieren.
Die hier beschriebenen Techniken können von verschiedenen Konfigurationen der Rechenvorrichtung 802 unterstützt werden und sind nicht auf die spezifischen Beispiele für die hier beschriebenen Techniken beschränkt. Diese Funktionalität kann zudem gänzlich oder in Teilen unter Nutzung eines verteilten Systems implementiert sein, so beispielsweise über eine „Cloud“ 814 mittels einer Plattform 816, wie nachstehend noch beschrieben wird.
Die Cloud 814 beinhaltet eine Plattform 816 für Ressourcen 818 und/oder stellt diese dar. Die Plattform 816 abstrahiert die zugrunde liegende Funktionalität der Hardware- (beispielsweise Server) und Softwareressourcen der Cloud 814. Die Ressourcen 818 können Anwendungen bzw. Apps und/oder Daten beinhalten, die eingesetzt werden können, während eine Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 802 entfernt sind. Die Ressourcen 818 können zudem Dienste beinhalten, die über das Internet und/oder über ein Teilnehmernetzwerk, so beispielsweise ein zellenbasiertes oder ein Wi-Fi-Netzwerk, bereitgestellt werden.
Die Plattform 816 kann Ressourcen und Funktionen abstrahieren, um die Rechenvorrichtung 802 mit anderen Rechenvorrichtungen zu verbinden. Die Plattform 816 kann zudem dazu dienen, die Skalierung von Ressourcen zu abstrahieren, um einen entsprechenden Skalierungsgrad für bestehenden Bedarf an den Ressourcen 818, die über die Plattform 816 implementiert sind, bereitzustellen. Entsprechend kann bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen eine Implementierung der hier beschriebenen Funktionalität über das System 800 verteilt sein. Die Funktionalität kann teilweise beispielsweise auch auf der Rechenvorrichtung 802 wie auch über die Plattform 816, die die Funktionalität der Cloud 814 abstrahiert, implementiert sein.
Schlussbemerkung
Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht unbedingt auf die beschriebenen spezifischen Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims

Verfahren, das durch wenigstens eine Rechenvorrichtung implementiert ist, in einer Digitalcontentgenerierungsumgebung für Digitalmedien, die auf Objektvarianten als Teil einer Digitalbildauswahl eingeht, wobei das Verfahren umfasst: durch die wenigstens eine Rechenvorrichtung erfolgendes Empfangen einer Nutzerkennung, die einer Anforderung von Digitalcontent zugeordnet ist; durch die wenigstens eine Rechenvorrichtung erfolgendes Beziehen mehrerer Digitalbilder, die Varianten dahingehend, wie ein Objekt abgebildet ist, aufweisen, und eines Nutzerprofils, das der Nutzerkennung zugeordnet ist; durch die wenigstens eine Rechenvorrichtung erfolgendes Generieren mehrerer Vorhersagekennwerte für die mehreren Digitalbilder, wobei jeder Vorhersagekennwert von einem maschinell lernenden Modell auf Grundlage des Nutzerprofils und von Bildmetadaten generiert wird, die Merkmale beinhalten, die aus einem jeweiligen Digitalbild der mehreren Digitalbilder extrahiert sind; durch die wenigstens eine Rechenvorrichtung erfolgendes Auswählen eines Digitalbildes der mehreren Digitalbilder auf Grundlage der mehreren Vorhersagekennwerte; und durch die wenigstens eine Rechenvorrichtung erfolgendes Generieren des Digitalcontents derart, dass dieser das das Objekt abbildende, ausgewählte Digitalbild aufweist.
Verfahren nach Anspruch 1, wobei das Generieren beinhaltet: Extrahieren der Merkmale als Einbettung aus dem jeweiligen Digitalbild unter Nutzung eines convolutionalen bzw. faltungstechnischen neuronalen Netzwerkes .
Verfahren nach Anspruch 1 oder 2, wobei die Bildmetadaten zudem eine Eigenschaft des Objektes beschreiben, die eine Produktkategorie oder eine Objektbeschreibung aus Text, der dem jeweiligen Digitalbild zugeordnet ist, beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Nutzerprofil Nutzerinformation, die demografische oder Ortsinformation beinhaltet, aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Vorhersagekennwert der mehreren Vorhersagekennwerte eine Wahrscheinlichkeit dafür angibt, ein Ergebnis zu erreichen, das sich aus der Einbeziehung des jeweiligen Digitalbildes als Teil des Digitalcontents ergibt.
Verfahren nach Anspruch 5, wobei das Ergebnis eine Konversion bzw. Realisierung ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Digitalcontent eine Webpage ist und die mehreren Digitalbilder jeweilige Unterschiede dahingehend, wie das Objekt abgebildet wird, beinhalten.
Verfahren nach Anspruch 7, wobei das Objekt ein Kleidungsstück ist und die jeweiligen Unterschiede das Kleidungsstück tragende menschliche Models sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Digitalcontent ein Digitalvideo ist und das ausgewählte Digitalbild als Thumbnail bzw. Vorschau konfiguriert ist, die auswählbar ist, um das Digitalvideo zu starten.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das maschinell lernende Modell ein einziges konvolutionales bzw. faltungstechnisches neuronales Netzwerk mit Training unter Nutzung mehrerer Trainingsdigitalbilder ist und die mehreren Vorhersagekennwerte aus den mehreren Digitalbildern unter Nutzung des einzigen faltungstechnischen neuronalen Netzwerkes generiert sind.
System in einer mit einem maschinell lernenden Modell trainierenden Umgebung für Digitalmedien, die auf Objektvarianten als Teil einer Digitalbildauswahl eingeht, wobei das System umfasst: ein Ausforschungs-/Verwertungsbestimmungsmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Vornehmen einer Ausforschungs- oder Verwertungsbestimmung, um Nutzerverhalten, das einer Nutzerkennung zugeordnet ist, in Reaktion auf eine Anforderung von Digitalcontent auszuforschen oder zu verwerten; ein Ausforschungsmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum vom einen zum anderen erfolgenden zufälligen Auswählen eines Digitalbildes unter mehreren Digitalbildern, die Varianten eines Objektes abbilden, in Reaktion auf die Ausforschungsbestimmung; ein Verwertungsmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Auswählen eines Digitalbildes unter den mehreren Digitalbildern, die die Varianten des Objektes abbilden, auf Grundlage eines maschinell lernenden Modells in Reaktion auf die Verwertungsbestimmung; ein Trainingsdatengenerierungsmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Generieren eines Interaktionsereignisses für jede Anforderung als Teil von Trainingsdaten, wobei das Interaktionsereignis beinhaltet: ein Nutzerprofil, das der Nutzerkennung zugeordnet ist, Ergebnisdaten, die ein Ergebnis des Einbeziehens des ausgewählten Digitalbildes als Teil des Digitalcontents beschreiben, und Bildmetadaten, die Merkmale aufweisen, die aus dem ausgewählten Digitalbild unter Nutzung maschinellen Lernens extrahiert sind; und ein maschinell lernendes Modul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Generieren eines maschinell lernenden Modells unter Nutzung der Trainingsdaten.
System nach Anspruch 11, wobei die Merkmale aus dem ausgewählten Digitalbild unter Nutzung eines konvolutionalen bzw. faltungstechnischen neuronalen Netzwerkes extrahiert werden.
System nach Anspruch 11 oder 12, wobei die Trainingsdaten zudem eine Eigenschaft des Objektes beschreiben, die eine Produktkategorie oder eine Objektbeschreibung aus Text, der dem jeweiligen Digitalbild zugeordnet ist, beinhaltet.
System nach einem der Ansprüche 11 bis 13, des Weiteren umfassend: ein Profilsammelmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Beziehen des Nutzerprofils auf Grundlage der Nutzerkennung, die der Anforderung des Digitalcontents zugeordnet ist.
System nach einem der Ansprüche 11 bis 14, des Weiteren umfassend ein Bildsammelmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Beziehen der mehreren Digitalbilder auf Grundlage einer Objektkennung, die dem Digitalcontent zugeordnet ist.
System nach einem der Ansprüche 11 bis 15, wobei das Ausforschungs-/Verwertungsbestimmungsmodul eine Epsilon-Greedy-Ausforschungstechnik einsetzt.
System in einer mit einem maschinell lernenden Modell trainierenden Umgebung für Digitalmedien, wobei das System umfasst: Mittel zum Empfangen von Trainingsdaten, die beinhalten: Objektmetadaten, die ein Objekt beschreiben, das in mehreren Digitalbildern beinhaltet ist; und mehrere Interaktionsereignisse, wobei jedes Interaktionsereignis der mehreren Interaktionsereignisse beinhaltet: Ergebnisdaten, ein Nutzerprofil und Bildmetadaten, die Merkmale aufweisen, die aus einem jeweiligen Digitalbild der mehreren Digitalbilder unter Nutzung maschinellen Lernens extrahiert werden; und Mittel zum Generieren eines maschinell lernenden Modells mit Training unter Nutzung maschinellen Lernens auf Grundlage der Objektmetadaten, eines Nutzerprofils und von Bildmetadaten und einer Verlustfunktion auf Grundlage der Ergebnisdaten.
System nach Anspruch 17, wobei die Merkmale als Einbettung aus dem jeweiligen Digitalbild unter Nutzung eines faltungstechnischen neuronalen Netzwerkes extrahiert werden.
System nach Anspruch 17 oder 18, wobei die Bildmetadaten zudem eine Eigenschaft des Objektes beschreiben, die eine Produktkategorie oder eine Objektbeschreibung aus Text, der dem jeweiligen Digitalbild zugeordnet ist, beinhaltet.
System nach einem der Ansprüche 17 bis 19, wobei das Nutzerprofil Nutzerinformation, die demografische oder Ortsinformation beinhaltet, aufweist.