DE102021002071A1 - Mehrdimensionale Digitalcontentsuche - Google Patents

Mehrdimensionale Digitalcontentsuche Download PDF

Info

Publication number
DE102021002071A1
DE102021002071A1 DE102021002071.5A DE102021002071A DE102021002071A1 DE 102021002071 A1 DE102021002071 A1 DE 102021002071A1 DE 102021002071 A DE102021002071 A DE 102021002071A DE 102021002071 A1 DE102021002071 A1 DE 102021002071A1
Authority
DE
Germany
Prior art keywords
search
continuous space
multidimensional
coordinates
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021002071.5A
Other languages
English (en)
Inventor
Akhilesh Kumar
Zhe Lin
Ratheesh Kalarot
Jinrong Xie
Jianming Zhang
Baldo Antonio Faieta
Alex Charles Filipkowski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Inc filed Critical Adobe Inc
Publication of DE102021002071A1 publication Critical patent/DE102021002071A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Beschrieben werden Techniken der mehrdimensionalen Digitalcontentsuche, die die Fähigkeit einer Rechenvorrichtung unterstützen, eine Suche mit erhöhter Detailliertheit und Flexibilität im Vergleich zu herkömmlichen Techniken durchzuführen. Bei einem Beispiel ist eine Steuerung bzw. Regelung durch eine Rechenvorrichtung implementiert, die einen mehrdimensionalen (beispielsweise zweidimensionalen) kontinuierlichen Raum definiert. Orte in dem mehrdimensionalen kontinuierlichen Raum sind für verschiedene Suchkriterien durch verschiedene Gewichtungen, die bei den den Achsen zugeordneten Kriterien angewendet werden, nutzbar. Daher kann eine Nutzerinteraktion mit dieser Steuerung bzw. Regelung dafür benutzt werden, einen Ort und entsprechende Koordinaten, die als Gewichtungen für die Suchkriterien fungieren können, zu definieren, um eine Suche nach Digitalcontent unter Nutzung einer einzigen Nutzereingabe durchzuführen.

Description

  • Hintergrund
  • Die Suche ist eine der primären Techniken, die von einer Rechenvorrichtung benutzt wird, um ein bestimmtes Digitalcontentobjekt unter Tausenden und sogar Millionen von Instanzen von Digitalcontent ausfindig zu machen. Eine Suche kann von einer Rechenvorrichtung beispielsweise benutzt werden, um ein Digitalbild unter Millionen von vorrätigen Digitalbildern, ein Digitalmusikobjekt aus einer Liedersammlung, einen Digitalfilm unter Tausenden von Filmen, die bei einem Online-Streamingdienst verfügbar sind, und dergleichen mehr ausfindig zu machen. Als Ergebnis hiervon kann eine Digitalsuche implementiert werden, die mit Gegebenheiten, die eine Anzahl von Digitalcontentobjekten betreffen, auf eine Art, die von einem Menschen praktisch nicht zu bewerkstelligen ist, umgehen kann.
  • Eine Suche, die von einer Rechenvorrichtung implementiert wird, ist jedoch mit zahlreichen Problemen verbunden, von denen eines die Fähigkeit betrifft, die Absicht eines Nutzers in einer Suchanfrage zu bestimmen und Digitalcontent, der zu dieser Absicht passt, ausfindig zu machen. Üblicherweise beruhen herkömmliche Suchtechniken beispielsweise auf der Fähigkeit, Text, den man in einer Suchanfrage empfangen hat, mit Text, der dem Digitalcontent zugeordnet ist, abzugleichen. Obwohl diese Technik durchaus funktionieren kann, wenn Digitalcontent mit bestimmten Objekten (beispielsweise in der Suchanfrage „Hund“) ausfindig zu machen ist, scheitert diese Technik gegebenenfalls, wenn sie auf Konzepte trifft, die mit Worten nicht ohne Weiteres ausgedrückt werden können, wie dies bei Gefühlsregungen, relativen Anteilen von Suchkriterien und dergleichen mehr der Fall ist. Herkömmliche Suchtechniken sind, wenn solche Konzepte auftreten, daher üblicherweise ungenau und bewirken eine ineffiziente Nutzung von Rechen- und Netzwerkressourcen infolge wiederholter Versuche dahingehend, ein bestimmtes von Interesse seiendes Digitalcontentobjekt ausfindig zu machen.
  • Zusammenfassung
  • Es werden Techniken der mehrdimensionalen Digitalcontentsuche beschrieben, die die Fähigkeit einer Rechenvorrichtung unterstützen, eine Suche mit erhöhter Detailliertheit und Flexibilität im Vergleich zu herkömmlichen Techniken durchzuführen. Bei einem Beispiel ist durch eine Rechenvorrichtung eine Steuerung bzw. Regelung implementiert, die einen mehrdimensionalen (beispielsweise zweidimensionalen) kontinuierlichen Raum definiert. Orte in dem mehrdimensionalen kontinuierlichen Raum können benutzt werden, um Gewichtungen zu spezifizieren, die bei Suchkriterien, die den Achsen zugeordnet sind, angewendet werden. Daher kann eine Nutzerinteraktion mit dieser Steuerung bzw. Regelung benutzt werden, um einen Ort und entsprechende Koordinaten, die als Gewichtungen für die Suchkriterien fungieren können, zu definieren, um eine Suche nach Digitalcontent unter Nutzung einer einzigen Nutzereingabe durchzuführen.
  • Die vorliegende Zusammenfassung bietet in vereinfachter Form eine Auswahl von Konzepten, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung wesentliche Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfangs des beanspruchten Erfindungsgegenstandes benutzt werden.
  • Figurenliste
  • Die Detailbeschreibung erfolgt anhand der begleitenden Figuren. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb ein Verweis auf eine einzige oder mehrere Formen der Entitäten in der Diskussion gleichermaßen erfolgen kann.
    • 1 ist eine Darstellung einer Digitalmediensuchumgebung bei einer exemplarischen Implementierung, die betreibbar ist, um Techniken der Digitalcontentsuche einzusetzen.
    • 2 zeigt ein Beispiel für eine Steuerung bzw. Regelung von 1, die derart konfiguriert ist, dass sie einen mehrdimensionalen kontinuierlichen Raum zur Suche unter Nutzung von Gefühlsregungen unterstützt.
    • 3 zeigt ein System bei einer exemplarischen Implementierung, die detaillierter den Betrieb eines Such-I/O-Moduls und des Digitalcontentsuchsystems von 1 bei der Durchführung einer mehrdimensionalen Digitalcontentsuche zeigt.
    • 4 zeigt ein Beispiel für eine mehrdimensionale Digitalcontentsuche, bei der eine Gefühlsregung auftritt.
    • 5 zeigt ein weiteres Beispiel für eine mehrdimensionale Digitalcontentsuche, bei der eine Gefühlsregung auftritt.
    • 6 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung, bei der eine Steuerung bzw. Regelung, die eine Darstellung eines mehrdimensionalen kontinuierlichen Raumes beinhaltet, als Teil einer Digitalcontentsuche eingesetzt wird.
    • 7 zeigt detaillierter ein maschinell lernendes Modell nach 3 als Bündelmodell, das ein Bildmodell und ein tagbasiertes Modell beinhaltet.
    • 8 zeigt ein Beispiel für Gefühlsregungstagkoordinaten, die in Bezug auf eine X-Achse des Angetanseins und eine Y-Achse des Aufgeregtseins definiert sind.
    • 9 zeigt ein Beispiel für Tags, die einem Digitalbild zugeordnet sind.
    • 10 zeigt ein weiteres Beispiel für Tags, die einem Digitalbild zugeordnet sind.
    • 11 zeigt ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die als beliebiger Typ einer Rechenvorrichtung so, wie sie eingesetzt und/oder anhand von 1 bis 10 beschrieben wird, implementiert sein kann, um Ausführungsformen der hier beschriebenen Techniken zu implementieren.
  • Detailbeschreibung
  • Übersicht
  • Eine Suche, die durch Rechenvorrichtungen implementiert wird, kann benutzt werden, um in Echtzeit ein bestimmtes Digitalcontentobjekt unter Millionen von Beispielen ausfindig zu machen. Daher unterstützt eine Suche, die durch Rechenvorrichtungen implementiert wird, die Fähigkeit, dass Nutzer auf eine Art, die anders nicht möglich ist, die also von einem Menschen allein nicht bewerkstelligt werden kann, mit diesem Digitalcontent interagieren. Herkömmliche Suchtechniken, die durch Rechenvorrichtungen implementiert werden, scheitern jedoch oftmals, wenn sie auf Konzepte betreffen, die beispielsweise mit Worten schwer auszudrücken sind.
  • Die Textsuchanfrage „Hund“ kann von einer Rechenvorrichtung beispielsweise dafür benutzt werden, zahlreiche Beispiele für Digitalbilder, die dem Tag „Hund“ zugeordnet sind, ausfindig zu machen. Auf ähnliche Weise kann eine Suche nach einer einzelnen Gefühlsregung zusammen mit der Identifikation eines Objektes, so beispielsweise „glücklicher Hund“ Digitalbilder liefern, die sowohl den Tag „Hund“ wie auch den Tag „glücklich“ aufweisen. Herkömmliche Techniken unterstützen jedoch nicht die Fähigkeit, eine Gewichtung für ein Suchkriterium zu spezifizieren, noch unterstützen sie Gewichtungen, die bei mehreren Suchkriterien zusammen angewendet werden. Eine Suchanfrage, die beispielsweise „glücklicher, begeisterter Hund“ oder „trauriges, stilles Mädchen“ beinhaltet, scheitert bei Nutzung einer herkömmlichen Technik üblicherweise an der Unfähigkeit, mehrere Gefühlsregungen zusammen zu behandeln, was eine ineffiziente Nutzung von Netzwerk- und Rechenressourcen bewirkt.
  • Entsprechend werden Techniken der mehrdimensionalen Digitalcontentsuche beschrieben, die die Fähigkeit einer Rechenvorrichtung unterstützen, eine Suche mit erhöhter Detailliertheit und Flexibilität im Vergleich zu herkömmlichen Techniken durchzuführen. Bei einem Beispiel wird durch eine Rechenvorrichtung eine Steuerung bzw. Regelung implementiert, die einen kontinuierlichen Raum definiert, der wenigstens zwei Suchkriterien impliziert. Eine erste Achse und eine zweite Achse der Steuerung bzw. Regelung können beispielsweise den positiven und negativen Ausprägungen der Gefühlsregung „Aufgeregtsein“ beziehungsweise der Gefühlsregung „Angetansein“ entsprechen.
  • Auf diese Weise definiert die Steuerung bzw. Regelung einen mehrdimensionalen (beispielsweise zweidimensionalen) kontinuierlichen Raum. In dem mehrdimensionalen kontinuierlichen Raum können Orte benutzt werden, um Gewichtungen zu spezifizieren, die auf Suchkriterien, die den Achsen zugeordnet sind, angewendet werden. Bei dem vorstehend angegebenen Beispiel für eine Gefühlsregung können Gefühlsregungen wie glücklich, erfreut, aufgeregt, angespannt, verärgert, frustriert, deprimiert, gelangweilt, müde, still, entspannt und zufrieden durch Koordinaten innerhalb des mehrdimensionalen kontinuierlichen Raumes in Bezug auf die Gefühlsregungen „Aufgeregtsein“ und „Angetansein“ definiert werden. Daher kann eine Nutzerinteraktion mit dieser Steuerung bzw. Regelung dafür benutzt werden, einen Ort und entsprechende Koordinaten zu definieren, die als Gewichtungen für die Suchkriterien fungieren, um eine Suche nach Digitalcontent unter Nutzung einer einzigen Nutzereingabe durchzuführen.
  • Bei dem vorstehend angegebenen Beispiel für eine Gefühlsregung kann über die Steuerung bzw. Regelung eine Nutzereingabe empfangen werden, die einen Ort innerhalb des mehrdimensionalen kontinuierlichen Raumes spezifiziert, der unter Nutzung von positiven und negativen Ausprägungen des Aufgeregtseins und des Angetanseins definiert ist. Die Nutzereingabe kann beispielsweise einen Ort, der der Gefühlsregung „entspannt“ entspricht, unter Nutzung der Steuerung bzw. Regelung zusammen mit der Texteingabe „Hund“ spezifizieren. Der Ort (beispielsweise die Koordinaten des Ortes) und die Texteingabe bilden eine Suchanfrage, die sodann dafür benutzt wird, Digitalcontent (beispielsweise Digitalbilder), der ähnliche Objekte beinhaltet und der zudem ähnlichen Koordinaten innerhalb des mehrdimensionalen kontinuierlichen Raumes zugeordnet ist, (beispielsweise unter Nutzung von Tags) ausfindig zu machen.
  • Der Ort, der beispielsweise „entspannt“ entspricht, spezifiziert eine mittlere positive Ausprägung des Angetanseins und eine mittlere negative Ausprägung des Aufgeregtseins. Auf diese Weise dient der Ort dazu, innerhalb des mehrdimensionalen kontinuierlichen Raumes, der durch das Aufgeregtsein und das Angetansein definiert ist, Gewichtungen zu spezifizieren, um wiederum Gefühlsregungen zu definieren, deren Definieren unter Nutzung herkömmlicher Techniken schwierig, wenn nicht unmöglich wäre. Hierdurch werden bei herkömmlichen tagbasierten Ansätzen zudem Probleme überwunden, die vom Bestimmen einer Übereinstimmung zwischen der Absicht einer Nutzereingabe bei der Suche nach Digitalcontent und einer Absicht, die durch dem Digitalcontent zugeordnete Tags ausgedrückt wird, herrühren.
  • Obwohl bei diesem Beispiel Digitalbilder und Gefühlsregungen beschrieben werden, ist die Steuerung bzw. Regelung dafür nutzbar, eine Vielzahl von anderen Suchkriterien als Teil des mehrdimensionalen kontinuierlichen Raumes zu definieren, so beispielsweise Eigenschaften von Digitalcontent, so beispielsweise Einstellungen bei der Erzeugung (beispielsweise Belichtung bzw. Beleuchtung, Kontrast), akustische Eigenschaften (beispielsweise Färbung bzw. Timbre, Bereich) und dergleichen mehr. Diese Suchtechniken können des Weiteren dafür eingesetzt werden, nach einer Vielzahl von Digitalcontenttypen zu suchen, so beispielsweise nach Digitalbildern, Digitalfilmen, Digitalton, Webseiten, Digitalmedien und dergleichen mehr. Die weitere Diskussion dieser und anderer Beispiele ist in den nachfolgenden Abschnitten beinhaltet und erfolgt unter Nutzung der entsprechenden Figuren.
  • In der nachfolgenden Diskussion wird zunächst eine exemplarische Umgebung beschrieben, in der die hier beschriebenen Suchtechniken eingesetzt werden können. Zudem werden exemplarische Prozeduren beschrieben, die in der exemplarischen Umgebung wie auch in anderen Umgebungen durchgeführt werden können. Infolgedessen ist die Durchführung der exemplarischen Prozeduren nicht auf die exemplarische Umgebung beschränkt, und es ist die exemplarische Umgebung nicht auf die Durchführung der exemplarischen Prozeduren beschränkt.
  • Exemplarische Umgebung
  • 1 ist eine Darstellung einer Digitalmediensuchumgebung 100 bei einer exemplarischen Implementierung, die dafür betreibbar ist, die hier beschriebenen Techniken der Digitalcontentsuche einzusetzen. Die dargestellte Umgebung 100 beinhaltet eine Rechenvorrichtung 102, die über ein Netzwerk 106, so beispielsweise das Internet, mit einem Serviceprovidersystem 104 kommunikationstechnisch gekoppelt ist. Rechenvorrichtungen, die die Rechenvorrichtung 102 implementieren, und das Serviceprovidersystem 104 können auf vielerlei Arten konfiguriert sein.
  • Eine Rechenvorrichtung kann beispielsweise als Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise unter Einbeziehung einer Handkonfiguration wie bei einem Tablet oder Mobiltelefon, wie dargestellt ist) und dergleichen mehr konfiguriert sein. Daher kann eine Rechenvorrichtung von einer über vollständige Ressourcen verfügenden Vorrichtung mit erheblichen Speicher- und Prozessorressourcen (beispielsweise PCs, Spielekonsolen), zu einer über wenige Ressourcen verfügenden Vorrichtung mit begrenzten Speicher- und/oder Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Zusätzlich kann eine Rechenvorrichtung mehrere verschiedene Vorrichtungen darstellen, so beispielsweise mehrere Server, die von einer Firma benutzt werden, um Vorgänge „über die Cloud“ abzuwickeln, wie für das Serviceprovidersystem 104 anhand von 11 gezeigt ist und dort weiter beschrieben wird. Obwohl bei diesem Beispiel Suchtechniken dargestellt und beschrieben werden, die über ein Netzwerk 106 arbeiten, können diese Techniken auch lokal nur durch die Rechenvorrichtung 112 implementiert sein.
  • Die Rechenvorrichtung 102 ist derart dargestellt, dass sie ein Kommunikationsmodul 108 beinhaltet, das dafür konfiguriert ist, mit dem Serviceprovidersystem 104 über das Netzwerk 106 zu kommunizieren. Das Kommunikationsmodul 108 kann als Browser, als netzwerkfähige Anwendung, als Plug-in-Modul und dergleichen konfiguriert sein. Das Kommunikationsmodul 108 beinhaltet ein Such-I/O-Modul 110 (Eingabe/Aufgabe), das dafür konfiguriert ist, bei einer Suche nach Digitalcontent eine Suchanfrage 112 zu generieren und ein Suchergebnis 114, das diese Suche liefert, in einer Nutzerschnittstelle 116 auszugeben.
  • Die Nutzerschnittstelle 116 beinhaltet bei dem dargestellten Beispiel einen Texteingabeabschnitt 118, über den eine Nutzereingabe, die Text spezifiziert, als Teil der Suchanfrage 112, so beispielsweise „Hund“, empfangen werden kann. Die Nutzerschnittstelle 116 beinhaltet zudem eine Steuerung bzw. Regelung 120, die eine Darstellung eines mehrdimensionalen kontinuierlichen Raumes beinhaltet, der bei diesem Beispiel in Bezug auf ein erstes Kriterium 122, das einer ersten Achse der Steuerung bzw. Regelung 120 zugeordnet ist, und ein zweites Kriterium 124, das einer zweiten Achse der Steuerung bzw. Regelung 120 zugeordnet ist, definiert ist, wobei die Achsen beispielsweise senkrecht zueinander sind. Sowohl das erste wie auch das zweite Kriterium 122, 124 können unter Nutzung von positiven, neutralen und negativen Ausprägungen, wie sie nachstehend noch beschrieben werden, definiert sein. Der Raum ist dahingehend kontinuierlich, dass er jeweilige Ausprägungen für jedes der Suchkriterien zusammen an entsprechenden Orten innerhalb des Raumes definiert. Eine einzige Nutzereingabe 126 kann daher benutzt werden, um einen Ort sowohl in Bezug auf die erste wie auch die zweite Achse zusammen nebst entsprechenden Gewichtungen bezüglich dieser Achsen zu definieren.
  • Die Suchanfrage 112, die den Text und den Ort beinhaltet, ist derart dargestellt, dass sie von der Rechenvorrichtung 102 über das Netzwerk 106 an das Digitalcontentsuchsystem 128 des Serviceprovidersystems 104 kommuniziert wird. Das Digitalcontentsuchsystem 128 ist dafür konfiguriert, Digitalcontent 130 auf Grundlage der Suchanfrage 112 zu suchen, und hieraus das Suchergebnis 114 für die Rückkommunikation an die Rechenvorrichtung 102 zu generieren. Obwohl der Digitalcontent 130 derart dargestellt ist, dass er lokal von der Speichervorrichtung 132 des Serviceprovidersystems 104 gespeichert wird, kann der Digitalcontent 130 auch an anderer Stelle, so beispielsweise von einem Drittseitensystem, vorgehalten werden.
  • Das Digitalcontentsuchsystem 128 beinhaltet ein Mehrdimensionalsuchmodul 134, das eine Funktionalität dafür darstellt, die Suche nach Digitalcontent 130 zu unterstützen, indem es einen mehrdimensionalen kontinuierlichen Raum, der von der Steuerung bzw. Regelung 120 dargestellt wird, einsetzt. Jedes Digitalcontentobjekt kann beispielsweise einem Ort (beispielsweise Koordinaten) innerhalb des mehrdimensionalen digitalen Raumes zugeordnet sein. Daher kann das Mehrdimensionalsuchmodul 134 eine Beziehung zwischen dem Ort, der in Bezug auf diesen Raum von der Suchanfrage 112 spezifiziert wird, zu Orten, die für jeweilige Objekte des Digitalcontents 130 spezifiziert sind, wiedergeben. Auf diese Weise kann das Digitalcontentsuchsystem 128 eine erhöhte Detailliertheit und Flexibilität als Teil einer Suche nach Digitalcontent 130 unterstützen, und zwar insbesondere bei Konzepten, die mit Worten schwer auszudrücken sind, wie dies bei Gefühlsregungen der Fall ist.
  • 2 zeigt ein Beispiel für die Steuerung bzw. Regelung 120 von 1, die derart konfiguriert ist, dass sie einen mehrdimensionalen kontinuierlichen Raum zur Suche unter Nutzung von Gefühlsregungen unterstützt. Die Steuerung bzw. Regelung 120 unterstützt eine Nutzereingabe, um die Stärke von wenigstens zwei Suchkriterien kontinuierlich zu spezifizieren, die in diesem Falle die Gefühlsregungssignale „Angetansein“ (P) und „Aufgeregtsein“ (E) sind. Erreicht wird dies durch Abbilden der „P“- und „E“-Parameter auf „X“- und „Y“-Achsen in einem mehrdimensionalen kontinuierlichen Raum, der bei diesem Beispiel eine zweidimensionale (2D) Ebene ist. Um eine Kombination aus „P“ und „E“ zu spezifizieren, wird eine Nutzereingabe empfangen, die einen Ort in Bezug auf diese Darstellung der 2D-Ebene spezifiziert, und zwar beispielsweise über eine Cursorsteuer- bzw. Regelvorrichtung, wie sie dargestellt ist, über eine Geste (beispielsweise ein Antippen (tag), ein Ziehen (drag)), über eine gesprochene Äußerung und dergleichen mehr, die über eine Nutzerschnittstelle empfangen werden. Es kann beispielsweise eine Nutzereingabe empfangen werden, um einen Ort mit einem Pin bzw. Steckstift zu spezifizieren, wobei die Koordinaten des Ortes sodann in der Nutzerschnittstelle angezeigt werden.
  • Um das Nutzererlebnis weiter zu verbessern und die Nutzerintuition in Bezug auf die Bedeutung dieses Ortes (das heißt der Koordinaten) zu unterstützen, werden als Teil der Steuerung bzw. Regelung 120 Textlabels angezeigt, die eine feindetaillierte Gefühlsregung entsprechend jeweiligen Abschnitten der 2D-Ebene angeben. Die dargestellten Beispiele beinhalten aufgeregt, erfreut, glücklich, zufrieden, entspannt, still, müde, gelangweilt, deprimiert, frustriert, verärgert und angespannt. Jede dieser feindetaillierten Gefühlsregungen entspricht jeweiligen Ausprägungen von „P“ und „E“, die positiv, neutral oder negativ sein können. Beispielsweise sind „aufgeregt“, „erfreut“ und „glücklich“ im oberen rechten Bereich der 2D-Ebene gelabelt und werden auf Instanzen abgebildet, in denen sowohl die „P“- wie auch die „E“-Signale positiv sind. Auf ähnliche Weise sind „deprimiert“, „gelangweilt“ und „müde“ im unteren linken Bereich gelabelt, um relative negative Ausprägungen sowohl der „P“- wie auch der „E“-Signale anzugeben. Auf diese Weise können Nutzereingaben effizient bereitgestellt werden, um eine Digitalsuche zu unterstützen, deren weitere Diskussion im nachfolgenden Abschnitt beinhaltet ist und anhand der entsprechenden Figuren erfolgt.
  • Allgemein können eine Funktionalität, Merkmale und Konzepte, die hier im Zusammenhang mit den vorstehenden und nachstehenden Beispielen erläutert werden, auch im Kontext der in diesem Abschnitt beschriebenen exemplarischen Prozeduren eingesetzt werden. Des Weiteren können eine Funktionalität, Merkmale und Konzepte, die in der vorliegenden Druckschrift im Zusammenhang mit anderen Figuren und Beispielen beschrieben werden, auch untereinander ausgetauscht werden und sind nicht auf die Implementierung im Kontext einer bestimmten Figur oder Prozedur beschränkt. Blöcke, die hier verschiedenen repräsentativen Prozeduren und entsprechenden Figuren zugeordnet sind, können zudem zusammen angewendet und/oder auf verschiedene Arten kombiniert werden. Daher können eine einzelne Funktionalität, Merkmale und Konzepte, die hier im Zusammenhang mit verschiedenen exemplarischen Umgebungen, Vorrichtungen, Komponenten, Figuren und Prozeduren beschrieben werden, auch in beliebigen geeigneten Kombinationen benutzt werden, und sind nicht auf bestimmte Kombinationen, die in der vorliegenden Beschreibung anhand der aufgezählten Beispiele dargestellt werden, beschränkt.
  • Mehrdimensionale Digitalcontentsuche
  • 3 zeigt detaillierter ein System 300 einer exemplarischen Implementierung zur Darstellung des Betriebs des Such-I/O-Moduls 110 und des Digitalcontentsuchsystems 128 von 1 beim Durchführen einer mehrdimensionalen Digitalcontentsuche. 4 zeigt ein Beispiel 400 für eine mehrdimensionale Digitalcontentsuche, die eine Gefühlsregung impliziert. 5 zeigt ein weiteres Beispiel 500 für eine mehrdimensionale Digitalcontentsuche, die ein Gefühl impliziert. 6 zeigt eine Prozedur 600 bei einer exemplarischen Implementierung, bei der eine Steuerung bzw. Regelung, die eine Darstellung eines mehrdimensionalen kontinuierlichen Raumes beinhaltet, als Teil der Digitalcontentsuche eingesetzt wird.
  • Die nachfolgende Diskussion beschreibt Suchtechniken, die unter Einsatz der vorbeschriebenen Systeme und Vorrichtungen implementiert sein können. Aspekte der Prozedur können in Hardware, Firmware, Software oder einer Kombination hieraus implementiert sein. Die Prozedur ist als Satz von Blöcken gezeigt, die Vorgänge spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und nicht unbedingt auf diejenigen Reihenfolgen, die zur Durchführung der Vorgänge durch die jeweiligen Blöcke gezeigt sind, beschränkt sind. In Abschnitten der nachfolgenden Diskussion wird gleichwertig auf 1 bis 6 verwiesen.
  • Bei diesem Beispiel beinhaltet das Such-I/O-Modul 110, das in 3 dargestellt ist, zunächst ein Nutzerschnittstellenmodul 302 und ein Suchanfragengenerierungsmodul 304. Das Nutzerschnittstellenmodul 302 ist dafür konfiguriert, die Nutzerschnittstelle 116 von 1 auszugeben. Als Teil hiervon beinhaltet das Nutzerschnittstellenmodul 302 ein Texteingabemodul 306, das dafür konfiguriert ist, eine Nutzereingabe zur Spezifizierung von Text 308 beispielsweise über einen Texteingabeabschnitt 118 zu empfangen. Das Nutzerschnittstellenmodul 302 beinhaltet zudem ein Steuer- bzw. Regelmodul 310, das dafür konfiguriert ist, die Steuerung bzw. Regelung 120 in der Nutzerschnittstelle 116 anzuzeigen.
  • Die Steuerung bzw. Regelung 120 beinhaltet eine Darstellung eines mehrdimensionalen kontinuierlichen Raumes, der eine erste Achse, die einer Darstellung eines ersten Suchkriteriums zugeordnet ist, und eine zweite Achse, die einer Darstellung eines zweitens Suchkriteriums zugeordnet ist, wie in 1 gezeigt ist, beinhaltet (Block 602). Wie in 2 gezeigt ist, können die ersten und zweiten Suchkriterien Gefühlsregungen wie beispielsweise „Angetansein“ beziehungsweise „Aufgeregtsein“ entsprechen.
  • Sodann wird durch eine Interaktion mit der Steuerung bzw. Regelung 120 eine Nutzereingabe empfangen. Die Nutzereingabe stellt eine Angabe 312 eines Ortes 314 (beispielsweise Koordinaten 316) bereit, der in Bezug auf den mehrdimensionalen kontinuierlichen Raum definiert ist. Die Nutzereingabe beinhaltet zudem den Text 308 (Block 604). Der Text 308 kann beispielsweise durch den Texteingabeabschnitt 118, der von dem Texteingabemodul 306 ausgegeben wird, empfangen werden, so beispielsweise „Hund“, mit Eingabe unter Nutzung einer Tastatur, einer gesprochenen Äußerung, einer Geste und dergleichen. Zudem empfangen werden kann eine Angabe 312, die einen Ort 314 (beispielsweise Koordinaten 316) spezifiziert, der in Bezug auf eine Darstellung des mehrdimensionalen kontinuierlichen Raumes definiert ist, die wiederum von der Steuerung bzw. Regelung 120 definiert wird, und zwar beispielsweise durch „Anklicken“ eines Ortes unter Nutzung einer Cursorsteuer- bzw. Regelvorrichtung, durch eine Geste des Antippens und dergleichen.
  • Wie bei dem Beispiel 400 von 4 gezeigt ist, kann die Suchanfrage 112 beispielsweise den Text 308 „(mehrere) Mädchen“ beinhalten. Die Suchanfrage 112 beinhaltet zudem Koordinaten 322, die in Bezug auf die Darstellung des mehrdimensionalen kontinuierlichen Raumes der Steuerung bzw. Regelung 120 definiert sind, die von dem Steuer- bzw. Regelmodul 310 ausgegeben wird, wodurch in diesem Fall ein Ort in der Nähe von „aufgeregt“ und „erfreut“ angegeben wird, um eine starke Ausprägung des „Aufgeregtseins“ und eine mittlere Ausprägung des „Angetanseins“ anzugeben. Bei dem Beispiel 500 von 5 beinhaltet die Suchanfrage 112 demgegenüber den Text 308 „Junge“. Die Suchanfrage 112 beinhaltet zudem Koordinaten 322, die in Bezug auf den mehrdimensionalen kontinuierlichen Raum der Steuerung bzw. Regelung 120 definiert sind, die von dem Steuer- bzw. Regelmodul 310 ausgegeben wird, wodurch ein Ort in der Nähe von „gelangweilt“ und „müde“ angegeben wird, um eine vergleichsweise schwache Ausprägung des „Aufgeregtseins“ und eine negative Ausprägung des „Angetanseins“ anzugeben. In beiden Fällen spezifizieren die Koordinaten 322 durch eine einzige Nutzereingabe daher entweder positive oder negative Gewichtungen, die bei beiden Gefühlsregungen angewendet werden.
  • Der Text 308 und die Angabe 312 werden sodann von dem Nutzerschnittstellenmodul 302 an ein Suchanfragegenerierungsmodul 304 ausgegeben. Die Suchanfrage 112 wird von dem Suchanfragegenerierungsmodul 304 auf Grundlage des Ortes 314 (beispielsweise auf Grundlage der Koordinaten 316 in Bezug auf den mehrdimensionalen kontinuierlichen Raum) und des Textes 308 (Block 606) von der Nutzereingabe generiert. Die Suchanfrage 112 wird sodann an ein Suchanfragesammelmodul 318 des Digitalcontentsuchsystems 128 kommuniziert und von diesem empfangen (Block 608). Durchgeführt werden kann dies aus der Ferne (remote) unter Nutzung des Netzwerkes 106 oder lokal auf einer einzigen Rechenvorrichtung 102, wie vorstehend beschrieben worden ist.
  • Die Suchanfrage 112, die von dem Suchanfragesammelmodul 318 gesammelt worden ist, wird von dem Mehrdimensionalsuchmodul 134 eingesetzt, um ein Suchergebnis 114 zu generieren. Das Suchergebnis 114 beruht auf einer Suche nach mehreren Digitalcontents 130 durch ein maschinell lernendes Modell 320 auf Grundlage des Textes 308 und des Ortes 314 aus der Suchanfrage 112 (Block 610). Das maschinell lernende Modell 320 kann beispielsweise als Bündelmodell konfiguriert sein, das anhand 7 weiter beschrieben wird und das ein Bildmodell und ein tagbasiertes Modell beinhaltet. Das Bündelmodell kann daher dafür genutzt werden, die Koordinaten 322 für jeweilige Objekte des Digitalcontents 130 zu generieren. Auf diese Weise können der Text 308 und die Koordinaten 316 aus der Angabe 312 des Ortes 314 von der Suchanfrage 112 dafür benutzt werden, Digitalcontent 130 mit ähnlichem Text und ähnlichen Koordinaten ausfindig zu machen. Das Suchergebnis 114 wird sodann von einem Ausgabemodul 324 ausgegeben (Block 612). Auf diese Weise unterstützt das Mehrdimensionalsuchmodul 134 eine erhöhte Flexibilität und Detailliertheit im Vergleich zu herkömmlichen Techniken.
  • Bei dem ersten Beispiel 400 von 4 kann eine Suchanfrage 112 den Text 308 „(mehrere) Mädchen“ beinhalten. Die Suchanfrage 112 beinhaltet zudem die Koordinaten 322, die in Bezug auf die Darstellung des mehrdimensionalen kontinuierlichen Raumes der Steuerung bzw. Regelung 120 definiert sind, die von dem Steuer- bzw. Regelmodul 310 ausgegeben wird, wodurch ein Ort in der Nähe von „aufgeregt“ und „erfreut“ angegeben wird, um eine vergleichsweise starke positive Ausprägung des „Aufgeregtseins“ und eine mittlere positive Ausprägung des „Angetanseins“ anzugeben. Entsprechend wird von dem Mehrdimensionalsuchmodul 134 ein Suchergebnis 114 generiert, das bei diesem Beispiel ein Digitalbild beinhaltet, das Mädchen, die eine starke Ausprägung des Aufgeregtseins und eine mittlere Ausprägung des Angetanseins aufweisen, auf Grundlage von Koordinaten, die dem Digitalbild zugewiesen sind, zeigt, und zwar beispielsweise beim Abspringen von einem Steg mit hochgerissenen Armen.
  • Auf gleiche Weise beinhaltet bei dem Beispiel 500 von 5 eine Suchanfrage 112 den Text 308 „Junge“. Die Suchanfrage 112 beinhaltet zudem die Koordinaten 322, die in Bezug auf den mehrdimensionalen kontinuierlichen Raum der Steuerung bzw. Regelung 120 definiert sind, die durch das Steuer- bzw. Regelmodul 310 ausgegeben wird, wodurch ein Ort in der Nähe von „gelangweilt“ und „müde“ angegeben wird. Dies gibt eine vergleichsweise schwache negative Ausprägung des „Aufgeregtseins“ und eine schwache negative Ausprägung des „Angetanseins“ an. Entsprechend wird von dem Mehrdimensionalsuchmodul 134 ein Suchergebnis 114 generiert, das ein Digitalbild, das dem Text 308 „Junge“ und den Koordinaten 322 zugeordnet ist, beinhaltet, das einen Jungen, der eine schwache Ausprägung des Aufgeregtseins und des Angetanseins aufweist, zeigt, und zwar beispielsweise einen Jungen, der auf einem Sofa liegt und auf ein Tablet starrt. Im Ergebnis unterstützt der mehrdimensionale kontinuierliche Raum Suchtechniken mit höherer rechentechnischer Effizienz und Genauigkeit, als dies bislang möglich war. Eine weitere Diskussion eines Implementierungsbeispiels ist im nachfolgenden Abschnitt beinhaltet und erfolgt anhand der entsprechenden Figuren, die zusätzliche Details im Zusammenhang mit der Konfiguration von Digitalcontent beinhalten, um eine mehrdimensionale kontinuierliche Suche und die Nutzung von Digitalcontent als Teil der Suche zu unterstützen.
  • Implementierungsbeispiel
  • Beim vorliegenden Implementierungsbeispiel ist die Steuerung bzw. Regelung 120 dafür konfiguriert, eine gefühlsregungsbasierte Digitalbildsuche zu unterstützen. Eine gefühlsregungsbasierte Bildsuche ist ein mächtiges Werkzeug, das von einer Rechenvorrichtung benutzt werden kann, um Digitalbilder, die jeweilige Gefühlsregungen auslösen, aufzufinden. Verschiedene Digitalbilder können bei Menschen beispielsweise verschiedene Gefühlsregungen hervorrufen. Im vorliegenden Fall werden die Gefühlsregungen „Angetansein“ und „Aufgeregtsein“ als Grundlage dafür genutzt, zusätzliche Gefühlsregungen unter Nutzung eines mehrdimensionalen kontinuierlichen Raumes zu definieren.
  • Herkömmliche Suchlösungen beruhen auf tagbasierten Ansätzen, bei denen die Suche auf einzelne Gefühlsregungen als Teil der Suchanfrage, so beispielsweise auf „glückliches Kind“ oder „verärgertes Kind“, beschränkt ist. Eine herkömmliche tagbasierte Suche funktioniert beispielsweise durchaus, wenn eine einzelne Gefühlsregung bei einer Person vorhanden ist, funktioniert jedoch bei stärkerer Detailliertheit und Flexibilität nicht mehr. „Glückliches Kind“ und „trauriges Mädchen“ funktionieren beispielsweise durchaus bei einer tagbasierten Buche; demgegenüber unterstützen herkömmliche Techniken eine einen annehmbaren Grad der Genauigkeit aufweisende Suche nach mehreren Begriffen zusammen, wie dies beispielsweise bei „glückliches, begeistertes Kind“ oder „trauriges, stilles Mädchen“ der Fall ist, jedoch nicht. Des Weiteren unterstützen herkömmliche Techniken nicht die Fähigkeit, Begriffen, die Gefühlsregungen ausdrücken, eine Gewichtung beizuordnen, und dies schon gar nicht im Zusammenspiel. Herkömmliche Techniken unterstützen beispielsweise nicht die Fähigkeit, bei einer Suche nach einem „glücklichen, begeisterten Kind“ die Gewichtungen der „Glücklichkeit“ und der „Begeisterung“ zu spezifizieren.
  • Entsprechend unterstützen die hier beschriebenen Techniken die Fähigkeit, nach Digitalbildern zu suchen, die Gefühlsregungen mit verschiedenen zugeordneten Graden aufweisen. Daher unterstützen diese Techniken die Nutzererfahrung mit erhöhter Effizienz und Genauigkeit, um eine Suche nach Digitalbildern, wie sie nachstehend noch beschrieben wird, durchzuführen. Wie vorstehend beschrieben worden ist, unterstützt das Mehrdimensionalsuchmodul 134 eine Suche unter Einsatz eines mehrdimensionalen kontinuierlichen Raumes. Bei diesem Beispiel wird dieser Raum genutzt, um menschliche Gefühlsregungen als Konzepte zu erfassen und zu definieren, indem definiert wird, wo diese Gefühlsregungen innerhalb des Raumes, so beispielsweise in einem zweidimensionalen Gitter, liegen.
  • 7 zeigt detaillierter eine exemplarische Implementierung 700 des maschinell lernenden Modells 320 des Mehrdimensionalsuchmoduls 134 von 3. Bei diesem Beispiel ist das maschinell lernende Modell 320 als Bündelmodell 702 implementiert, das ein bildbasiertes Modell 704 und ein tagbasiertes Modell 706 beinhaltet.
  • Das bildbasierte Modell 704 wird in zwei Phasen trainiert. Zunächst wird ein Basismodell auf Grundlage einer vergleichsweise großen Anzahl von schwach überwachten Digitalbildern unter Nutzung von Trainingsdaten 708 aus einem Basisdatensatz 710 trainiert. Das Basismodell wird sodann unter Nutzung eines feinabgestimmten Datensatzes 712 „feinabgestimmt“, um das bildbasierte Modell 704 zu generieren.
  • Beim vorliegenden Beispiel ist das Basismodell des bildbasierten Modells 704 unter Nutzung einer Resnet50-Architektur gebildet. Das Trainieren eines maschinell lernenden Modells dafür, Gefühlsregungen in einem Digitalbild zu erkennen, impliziert einen großen Datensatz. Um diesen zu verarbeiten, wird ein schwach hergeleiteter großskaliger Basisdatensatz 710 verarbeitet, der mehr als eine Million Digitalbilder beinhaltet, die verschiedene Konzepte von Gefühlsregungen im Zusammenhang mit Menschen, Szenen und Symbolen abdecken. Ein Teil des Basisdatensatzes 710 kann unvollständig und verrauscht sein. So beinhaltet das Digitalbild beispielsweise wenige Tags oder unvollständige Tags oder Tags, die für das Digitalbild wenig relevant sind. Da die Darstellung der visuellen Daten und die Textdaten semantisch nahe beieinander sein müssen, dient die korrelierende Information in den Tags und den Digitalbildern dem Regularisieren der Bilddarstellung. Dafür wird das Training bei diesem Beispiel an Text- und Bildinformation des Digitalbildes gemeinsam durchgeführt.
  • Der Basisdatensatz 710 nutzt 690 gefühlsregungsbezogene Tags als Label, woraus sich ein reichhaltiger Satz von Gefühlsregungslabels ergibt, wodurch Schwierigkeiten bei der manuellen Erstellung von Annotierungen für Gefühlsregungen vermieden werden. Der Basisdatensatz 710 wird benutzt, um ein Merkmalsextraktionsnetzwerk des bildbasierten Modells 704 zu trainieren, das unter Nutzung einer gemeinsamen Text- und Bildeinbettung und einer Textdestillation weiter regularisiert wird. Dieses Modell liefert einen 690-dimensionalen Wahrscheinlichkeitskennwert für 690 Tags (main task bzw. Hauptaufgabe) und einen 300-dimensionalen Merkmalsvektor (main task bzw. Hauptaufgabe). Ein achtdimensionaler Wahrscheinlichkeitskennwert für acht Kategorien (auxiliary task bzw. Nebenaufgabe) wird ebenfalls trainiert. Das Modell wird unter Nutzung von Multitask- bzw. Mehraufgabenverlusten für die drei vorgenannten Aufgaben trainiert.
  • Für den feinabgestimmten Datensatz 721 werden 21.000 Digitalbilder gesammelt, von denen jedes auf Grundlage der zwei Suchkriterien (beispielsweise auf Grundlage der zwei Achsen) mit 25 Werten von -2, -1, 0, +1, +2 für jede Dimension gelabelt wird. Diese Annotierung wird entlang einer jeden Achse unabhängig durchgeführt. Zur Feinabstimmung des Basismodells mit diesem feinabgestimmten Datensatz 712 wird die letzte Schicht aus dem Basismodell entfernt, und es wird eine vollständig verbundene (fully-connected) Schicht am Anfang (head) des Basismodells mit einer Ausgabeabbildung auf eine Klasse mit zwei Kennwerten hinzugefügt. Es wird ein logarithmischer Mehrklassenverlust benutzt, um das Modell, wie nachstehend gezeigt ist, zu trainieren. l o g l o s s = 1 N i N j M y i j   log ( p i j )
    Figure DE102021002071A1_0001
  • Bei dem tagbasierten Modell 706 verfügt ein Vorratsdatensatz der Trainingsdaten 708 über 140 Millionen Digitalbilder mit schwachen Tags, beispielsweise Textlabels, die wenigstens teilweise von einem Nutzer bereitgestellt werden. Jedes Digitalbild beinhaltet zudem eine veränderliche Anzahl von Tags. Um die Koordinaten für jedes Digitalbild innerhalb des mehrdimensionalen kontinuierlichen Raumes aufzufinden, werden jedem der Gefühlsregungstags auf Grundlage dieses Raumes beispielsweise unter Nutzung von 2D-Achsen auf Grundlage von deren Positionen in einem 2D-Gitter Koordinaten zugewiesen.
  • Bei dem dargestellten Beispiel von 8 können Gefühlsregungstagkoordinaten beispielsweise in Bezug auf die X-Achse des Angetanseins und die Y-Achse des Aufgeregtseins definiert werden. Die Gefühlsregungen und die entsprechenden Koordinaten können beispielsweise das Nachfolgende beinhalten:
    • • glücklich [0,67; 1]
    • • erfreut [0,67; 0,67]
    • • aufgeregt [0,33; 1]
    • • angespannt [-0,33; 1]
    • • verärgert [-0,67; 0,67]
    • • frustriert [-1; 0,33]
    • • deprimiert [-1; -0,33]
    • • gelangweilt [-0,67; -0,67]
    • • müde [-0,33; -1]
    • • still [0,33; -1]
    • • entspannt [0,67; -0,67]
    • • zufrieden [0,67; -0,33]
  • Entsprechend werde Beispiel 900 von 9 betrachtet, wo das Digitalbild 902 die nachfolgenden Tags 904 beinhaltet.
    • • glücklich
    • • Kind
    • • Eltern
    • • sonnig
    • • vergnügt
    • • Gras
    • • entspannt
    • • spielen
    • • Abend
    • • Himmel
    • • Bäume
    • • bedeckt
    • • Sonnenlicht
    • • Mutter
    • • draußen
  • Bei diesem Beispiel ist das Digitalbild 902 fünfzehn Tags zugeordnet. Von diesen Tags bezeichnen drei, nämlich (1) „glücklich“, (2) „vergnügt“ und (3) „entspannt“, Gefühlsregungen. Entsprechend können die Koordinaten jedem dieser Tags einzeln und/oder für das Digitalbild 902 als Ganzes zugewiesen werden.
  • Für das Digitalbild 902 als Ganzes werden beispielsweise zunächst die Tags, die dem Digitalbild 902 zugeordnet sind, mit Tags aus dem Beispiel von 8 (beispielsweise unter Nutzung einer Verarbeitung natürlicher Sprache, von Vektoren in einem word2vec-Raum und dergleichen) abgeglichen, und man enthält entsprechende Koordinaten. Die Gefühle „glücklich“ und „vergnügt“ können beispielsweise auf den Tag „glücklich“ in der Tabelle abgebildet werden. Auf ähnliche Weise kann die Gefühlsregung „entspannt“ auf „entspannt“ in der Tabelle abgebildet werden.
  • Als Nächstes erhält man zwei Sätze von Koordinaten, nämlich „[0,67; 1]“ entsprechend „glücklich“ und „[0,67; -0,67]“ entsprechend „entspannt“. Die Koordinaten des Digitalbildes 902 als Ganzes werden sodann als Mittel der Koordinaten gemäß [(0,67+0,67)/2; (1+(-0,67))/2)] = [0,67; 0,16] berechnet. Die sich ergebenden Koordinaten [0,67; 0,16] werden dem Ort des Digitalbildes 902 innerhalb des mehrdimensionalen kontinuierlichen Raumes zugewiesen. In diesem Fall liegt das Digitalbild 902 daher irgendwo im ersten Quadranten.
  • Auf gleiche Weise werde Beispiel 1000 von 10 betrachtet, bei dem das Digitalbild 1002 die nachfolgenden Tags 1004 beinhaltet.
    • • gelangweilt
    • • erfreut
    • • still
    • • Familie
    • • Paar
  • Hier beziehen sich drei Tags von fünf auf Gefühlsregungen, nämlich „gelangweilt“, „erfreut“ und „still“. Diese Gefühlsregungen entsprechen den Koordinaten [-0,67; -0,67], [0,67; 0,67] beziehungsweise [0,33; -1]. Entsprechend können die Koordinaten, die dem Digitalbild 1002 als Ganzes zugeordnet sind, folgendermaßen berechnet werden: [ ( ( 0,67 ) + ( 0,67 ) + ( 0,33 ) ) / 3 ;    ( ( 0,67 ) + ( 0,67 ) + ( 1 ) ) / 3 ] = [ 0,11 ;    0,33 ]
    Figure DE102021002071A1_0002
  • In diesem Fall liegt das Digitalbild 1002 daher irgendwo im vierten Quadranten.
  • Das bildbasierte Modell 704 und das tagbasierte Modell 706 bilden ein Bündelmodell 702, das von dem Mehrdimensionalsuchmodul 134 eingesetzt wird. Bei einem Beispiel wird beiden Modellen dieselbe Gewichtung zugewiesen, wobei das fertige Modell als M dargestellt ist: M=1*m1+ ( 1-l ) *m2
    Figure DE102021002071A1_0003
  • Hierbei ist „m1“ das bildbasierte Modell 704, „m2“ ist das tagbasierte Modell 706, und es gilt I = 0,5 was, wie man in der Praxis herausgefunden hat, optimale Ergebnisse liefert.
  • Das Ergebnis des Resnet-basierten Bildmodells ist [0,75; 0,67], und die Ausgabe des tagbasierten Modells ist [0,67; 0,16]. Die Ausgabe des Bündelmodell 702 für I = 0,5 kann als 0,5 * [0,75; 0,67] + (1 - 0,5) * 10,67; 0,16] = [0,71; 0,41] berechnet werden. Einige Digitalbilder in dem Trainingsdatensatz beinhalten gegebenenfalls keine Gefühlsregungstags. In diesem Fall wird I = 1 zugewiesen, und die Ausgabe des Bündelmodells wird zu: M=m1
    Figure DE102021002071A1_0004
  • Hierbei ist „m1“ ein Resnetbasiertes Bildmodell. Die Ausgabe des Bündelmodells 702 ist ein Kennwert des Formats [x, y], wobei der Kennwert zwischen [-1; 1] sowohl für die X-wie auch die Y-Achsen liegt. Diese [x; y]-Koordinaten entsprechen ebenfalls Punkten in dem mehrdimensionalen kontinuierlichen Raum.
  • Es kann von dem Mehrdimensionalsuchmodul 134 ein elastischer Suchindex eingesetzt werden, bei dem die Koordinaten offline generiert werden, um beim Empfang einer Suchanfrage 112 einen Echtzeitbetrieb zu unterstützen, um wiederum ein Suchergebnis 114 zu generieren. Zu diesem Zweck kann eine Infrastruktur des Mehrdimensionalsuchmoduls 134 einen Analysator und einen elastischen Suchindex beinhalten. Der Analysator wird als Teil eines Setups benutzt, wobei das Bündelmodell als Webdienst innerhalb eines Dockercontainers eingesetzt wird. Der Analysator kann zudem dafür skaliert werden, ausreichende Ressourcen zur Indexierung von Millionen von Digitalbildern binnen kurzer Zeit zuzuteilen.
  • Der elastische Suchindex wird auf Grundlage einer elastischen Suche indexiert, die angefragt werden kann, um Digitalcontent 130 (beispielsweise Digitalbilder) auszugeben, der auf Grundlage eines L2-Abstandes am nächsten an dem Ort ist, der als Teil der Suchanfrage 112 spezifiziert wird. Um den Index zu erzeugen, wird eine Produktquantisierungstechnik eingesetzt, die ein Komprimieren der Merkmalseinbettungen, ein Bucketizing (Clustern) und ein Zuweisen an einen von 1k Buckets impliziert. Ein vorab erstellter invertierter ES-Index ermöglicht das Abrufen des Digitalcontents 130 in Echtzeit.
  • Zum Komprimieren der Dimension des Merkmalsvektors des Bildes und zum Berechnen eines PQ-Codes werden die nachfolgenden Vorgänge durchgeführt. Zunächst wird der Einbettungsraum in Unterräume von jeweils 8 Bit unterteilt. Jedes Byte bezeichnet einen Bucket-Identifikator des elastischen Suchindex. Aus der Perspektive einer Next-Neighbor-Suche bezeichnet jedes Byte das Zentroid des Clusters im KNN. Jeder Unterraumvektor der Einbettung wird sodann mit einer Kennung ID des nächsten Clusters (bucket) codiert. Ein PQ-Code wird unter Nutzung der Unterraumkennungen berechnet, und es werden der PQ-Code und die Bucket-Kennung als invertierter Index in der elastischen Suche gespeichert.
  • Sobald der Setup des invertierten ES-Index erfolgt ist, kann man das Ergebnis durch nachfolgenden Mechanismus abrufen:
    1. 1. Der Nutzer stellt eine Anfrage unter Nutzung des 2D-Gitters;
    2. 2. Der besagte Analysator übersetzt die Anfrage, und es wird eine Ausgabe an ein PQ-Code-Plug-in gesendet;
    3. 3. Das PQ-Code-Plug-in vergleicht den Eingabevektor mit der Unterraumkennung und gibt die auf Grundlage eines L2-Abstandes nächste Unterraumkennung aus. Dies ist ein Beispiel für eine Approximate-Nearest-Neighbor-Suche;
    4. 4. Der Digitalcontent 130 aus dem Bucket / den Buckets, der/die der Unterraumkennung zugeordnet ist/sind, wird zum Generieren des Suchergebnisses 114 benutzt; und
    5. 5. Es kann ein reverser Index zur Beschränkung der Suche auf den nächstliegenden N-Bucket / die nächstliegenden N Buckets benutzt werden.
  • Auf diese Weise kann eine Echtzeitsuche als Teil der hier beschriebenen Techniken zur mehrdimensionalen Digitalcontentsuche implementiert werden.
  • In einem Fall, in dem beispielsweise 180 Millionen Digitalbilder (beispielsweise als Teil eines Vorratsdigitalbilddienstes) verarbeitet werden, können einige Zonen des mehrdimensionalen kontinuierlichen Raumes dicht besiedelt sein, während andere dünn besiedelt sind. Um daher die Effizienz beim Betrieb der die Suche durchführenden Rechenvorrichtung zu erhöhen, kann die Implementierung so erfolgen, dass nicht direkt nach dem nächstliegenden Digitalbild in dem Raum gesucht wird. Die Suche nach „glückliches Kind“ kann als Teil des Suchergebnisses 114 beispielsweise 10 Millionen Digitalbilder ergeben. Um daher die Effizienz des Prozesses zu erhöhen, werden die Digitalbildorte innerhalb des mehrdimensionalen kontinuierlichen Raumes vorab berechnet und zu Bins geclustert, und es wird auf Grundlage dieser Bins, beispielsweise hinsichtlich eines Zentroids, eine Suche durchgeführt.
  • Der mehrdimensionale kontinuierliche Raum (beispielsweise der in 2 dargestellte 2D-Raum) kann in Boxen unterteilt werden, wobei die oberen „X“ (beispielsweise 1000) Digitalbilder innerhalb dieser Box befindlich sind, was als Teil einer Local-Neighborhood-Suche zu erhöhter Effizienz führt. Des Weiteren kann das Suchergebnis 114 als Ausgabe in der Nutzerschnittstelle 116 eine Dichtheitskarte beinhalten, um eine „wo-die-Dinge-sind“-Zone in Bezug auf die Darstellung des mehrdimensionalen kontinuierlichen Raumes beispielsweise als Verfügbarkeits-Heatmap zu zeigen. Die Gittergröße kann sich in denjenigen Bereichen, die zur Darstellung verschiedener Gefühlsregungen genutzt werden, auf Grundlage der Menge des Digitalcontents, der diesem Bereich zugeordnet ist, ändern, und es kann ein „Zoomen“ unterstützt werden, um verschiedene Stufen der Detailliertheit zu unterstützen. Weitere Beispiele sind ebenfalls einbezogen, ohne vom Wesen und Umfang der vorliegenden Erfindung abzugehen.
  • Exemplarisches System und exemplarische Vorrichtung
  • 11 zeigt bei 1100 allgemein ein exemplarisches System, das eine exemplarische Rechenvorrichtung 1102 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen darstellt, die die hier beschriebenen verschiedenen Techniken implementieren können. Dies ist durch Einbeziehung des Mehrdimensionalsuchmoduls 134 dargestellt. Die Rechenvorrichtung 1102 kann beispielsweise ein Server eines Serviceproviders, eine Vorrichtung, die einem Client zugeordnet ist (beispielsweise eine Clientvorrichtung), ein On-Chip-System und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein.
  • Die exemplarische Rechenvorrichtung 1102 beinhaltet, wie dargestellt ist, ein Verarbeitungssystem 1104, ein oder mehrere computerlesbare Medien 1106 und eine oder mehrere I/O-Schnittstellen 1108, die kommunikationstechnisch miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 1102 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination aus verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor- oder Lokalbus, der eine Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl von weiteren Beispielen, so beispielsweise Steuer- bzw. Regel- und Datenleitungen, ist ebenfalls einbezogen.
  • Das Verarbeitungssystem 1104 stellt eine Funktionalität zur Durchführung eines oder mehrerer Vorgänge unter Nutzung von Hardware dar. Entsprechend ist das Verarbeitungssystem 1104 derart dargestellt, dass es ein Hardwareelement 1110 beinhaltet, das als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein kann. Dies kann eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder als andere Logikvorrichtung, die unter Nutzung eines oder mehrerer Halbleiter gebildet ist, beinhalten. Die Hardwareelemente 1110 sind nicht durch die Materialien, aus denen sie gebildet sind, oder durch die Verarbeitungsmechanismen, die zum Einsatz kommen, beschränkt. Die Prozessoren können beispielsweise aus einem Halbleiter / Halbleitern und/oder Transistoren (beispielsweise elektronischen integrierten Schaltungen (ICs)) bestehen. In diesem Zusammenhang können prozessorseitig ausführbare Anweisungen elektronisch ausführbare Anweisungen sein.
  • Die computerlesbaren Speichermedien 1106 sind derart dargestellt, dass sie einen Memory/Speicher 1112 beinhalten. Der Memory/Speicher 1112 bietet eine Memory-/Speicherkapazität, die einem oder mehreren computerlesbaren Medien zugeordnet ist. Die Memory-/Speicherkomponente 1112 kann flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr) beinhalten. Die Memory-/Speicherkomponente 1112 kann feste Medien (beispielsweise RAM, ROM, ein Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr) beinhalten. Die computerlesbaren Medien 1106 können auf vielerlei andere Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.
  • Eine Eingabe-/Ausgabe-Schnittstelle / Eingabe-/Ausgabe-Schnittstellen 1108 bietet/bieten eine Funktionalität, die ermöglicht, dass ein Nutzer Befehle und Information in die Rechenvorrichtung 1102 eingibt, und die zudem ermöglicht, dass dem Nutzer und/oder anderen Komponenten oder Vorrichtungen Information unter Nutzung verschiedener Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitive oder andere Sensoren, die dafür konfiguriert sind, eine physische Berührung zu detektieren), eine Kamera (die beispielsweise sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, dafür einsetzen kann, Bewegungen als Gesten, die keine Berührung implizieren, zu erkennen), und dergleichen mehr. Beispiele für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine taktil-reaktive Vorrichtung und dergleichen mehr. Daher kann die Rechenvorrichtung 1102 auf vielerlei Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um die Nutzerinteraktion zu unterstützen.
  • Verschiedene Techniken können hier im allgemeinen Kontext von Software, Hardwareelementen oder Programmmodulen beschrieben sein. Allgemein beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul“, „Funktionalität“ und „Komponente“ bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen mit einer Vielzahl von Prozessoren implementiert sein können.
  • Eine Implementierung der beschriebenen Module und Techniken kann auf einer Form von computerlesbaren Medien gespeichert sein oder über diese übertragen werden. Die computerlesbaren Medien können eine Vielzahl von Medien beinhalten, auf die von der Rechenvorrichtung 1102 zugegriffen werden kann. Beispiels- und nicht beschränkungshalber können computerlesbare Medien „computerlesbare Speichermedien“ und „computerlesbare Signalmedien“ beinhalten.
  • „Computerlesbare Speichermedien‟ können Medien und/oder Vorrichtungen bezeichnen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder zu Signalen per se ermöglichen. Computerlesbare Speichermedien bezeichnen nichtsignaltragende Medien. Computerlesbare Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien und/oder Speichervorrichtungen, die in einem Verfahren oder einer Technologie implementiert sind, die zur Speicherung von Information geeignet ist, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule, Logikelemente/Schaltungen oder andere Daten. Beinhalten können Beispiele für computerlesbare Speichermedien unter anderem RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder eine andere Speichervorrichtung, physische Medien oder Produkte, die dafür geeignet sind, dass gewünschte Information gespeichert wird, und auf die ein Computer zugreifen kann.
  • „Computerlesbare Signalmedien‟ können signaltragende Medien bezeichnen, die dafür konfiguriert sind, Anweisungen an die Hardware der Rechenvorrichtung 1102 beispielsweise über ein Netzwerk zu übermitteln. Signalmedien können typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal verkörpern, so beispielsweise Trägerwellen, Datensignale oder einen anderen Transportmechanismus. Signalmedien beinhalten zudem beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder verändert sind, dass Information in dem Signal codiert ist. Beispiels- und nicht beschränkungshalber beinhalten Kommunikationsmedien drahtgebundene Medien, so beispielsweise ein drahtgebundenes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere drahtlose Medien.
  • Wie vorstehend beschrieben worden ist, stellen die Hardwareelemente 1110 und die computerlesbaren Medien 1106 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik dar, die in Form von Hardware implementiert sind, die bei einigen Ausführungsformen dafür eingesetzt werden kann, wenigstens einige Aspekte der hier beschriebenen Techniken beispielsweise zur Durchführung einer oder mehrerer Anweisungen zu implementieren. Die Hardware kann Komponenten einer integrierten Schaltung oder eines On-Chip-Systems, eine anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), eine komplexe programmierbare Logikvorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware beinhalten. In diesem Zusammenhang kann Hardware als Verarbeitungsvorrichtung wirken, die Programmaufgaben wahrnimmt, die durch Anweisungen und/oder eine Logik definiert sind, die durch die Hardware verkörpert ist, wie auch Hardware, die zur Speicherung von Anweisungen zur Ausführung benutzt wird, so beispielsweise die vorbeschriebenen computerlesbaren Speichermedien.
  • Kombinationen des Vorbeschriebenen können zudem zur Implementierung verschiedener hier beschriebener Techniken eingesetzt werden. Entsprechend können Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 1110 verkörpert sind. Die Rechenvorrichtung 1102 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend Software- und/oder Hardwaremodulen zu implementieren. Entsprechend kann eine als Software gegebene Implementierung eines Moduls, das von der Rechenvorrichtung 1102 ausführbar ist, auch wenigstens teilweise in Hardware verwirklicht werden, so beispielsweise unter Nutzung computerlesbarer Speichermedien und/oder Hardwareelemente 1110 des Verarbeitungssystems 1104. Die Anweisungen und/oder Funktionen können von einem oder mehreren Produkten (beispielsweise einer oder mehreren Rechenvorrichtungen 1102 und/oder einem oder mehreren Verarbeitungssystemen 1104) ausführbar/betreibbar sein, um die hier beschriebenen Techniken, Module und Beispiele zu implementieren.
  • Die hier beschriebenen Techniken können von verschiedenen Konfigurationen der Rechenvorrichtung 1102 unterstützt werden und sind nicht auf die spezifischen Beispiele für die hier beschriebenen Techniken beschränkt. Diese Funktionalität kann zudem gänzlich oder in Teilen unter Nutzung eines verteilten Systems implementiert sein, so beispielsweise über eine „Cloud“ 1114 mittels einer Plattform 1116, wie nachstehend noch beschrieben wird.
  • Die Cloud 1114 beinhaltet eine Plattform 1116 für Ressourcen 1118 und/oder stellt diese dar. Die Plattform 1116 abstrahiert die zugrunde liegende Funktionalität der Hardware (beispielsweise Server) und Softwareressourcen der Cloud 1114. Die Ressourcen 1118 können Anwendungen bzw. Apps und/oder Daten beinhalten, die eingesetzt werden können, während eine Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 1102 entfernt sind. Die Ressourcen 1118 können zudem Dienste beinhalten, die über das Internet und/oder über ein Teilnehmernetzwerk, so beispielsweise ein zellenbasiertes oder ein Wi-Fi-Netzwerk, bereitgestellt werden.
  • Die Plattform 1116 kann Ressourcen und Funktionen abstrahieren, um die Rechenvorrichtung 1102 mit anderen Rechenvorrichtungen zu verbinden. Die Plattform 1116 kann zudem dazu dienen, die Skalierung von Ressourcen zu abstrahieren, um einen entsprechenden Skalierungsgrad für bestehenden Bedarf an den Ressourcen 1118, die über die Plattform 1116 implementiert sind, bereitzustellen. Entsprechend kann bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen eine Implementierung der hier beschriebenen Funktionalität über das System 1100 verteilt sein. Die Funktionalität kann teilweise beispielsweise auch auf der Rechenvorrichtung 1102 wie auch über die Plattform 1116, die die Funktionalität der Cloud 1114 abstrahiert, implementiert sein.
  • Schlussbemerkung
  • Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht unbedingt auf die beschriebenen spezifischen Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims (20)

  1. Verfahren, das durch eine Rechenvorrichtung implementiert ist, in einer Digitalmediensuchumgebung, wobei das Verfahren umfasst: durch die Rechenvorrichtung erfolgendes Empfangen einer Suchanfrage, die eine Angabe eines Ortes in Bezug auf einen mehrdimensionalen kontinuierlichen Raum beinhaltet, wobei der mehrdimensionale kontinuierliche Raum unter Nutzung einer ersten Achse, die einer ersten Gefühlsregung entspricht, und einer zweiten Achse, die einer zweiten Gefühlsregung entspricht, definiert ist; durch die Rechenvorrichtung erfolgendes Suchen nach mehreren Digitalcontents auf Grundlage der Angabe des Ortes, wobei das Suchen beinhaltet: Vergleichen der Angabe des Ortes mit Angaben von Orten, die jeweils den mehreren Digitalcontents zugewiesen sind, in Bezug auf den mehrdimensionalen kontinuierlichen Raum; durch die Rechenvorrichtung erfolgendes Generieren eines Suchergebnisses auf Grundlage des Suchens; und durch die Rechenvorrichtung erfolgendes Ausgeben des Suchergebnisses.
  2. Verfahren nach Anspruch 1, wobei die erste Achse einem Aufgeregtsein oder einer Begeisterung entspricht und die zweite Achse einem Angetansein oder einer Glücklichkeit entspricht.
  3. Verfahren nach Anspruch 1 oder 2, wobei die erste Achse und die zweite Achse positive und negative Ausprägungen für die erste Gefühlsregung beziehungsweise die zweite Gefühlsregung innerhalb des mehrdimensionalen kontinuierlichen Raumes definieren.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Angabe des Ortes Gewichtungen, die jeweils den ersten und zweiten Gefühlsregungen zugewiesen sind, spezifiziert.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Suchanfrage eine Textanfrage beinhaltet und das Suchen eine Schlüsselwortsuche der mehreren Digitalbilder unter Nutzung der Textanfrage beinhaltet.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Angabe durch Empfangen einer Nutzereingabe über eine Steuerung, die in einer Nutzerschnittstelle ausgegeben wird, generiert wird, wobei die Nutzereingabe den Ort in Bezug auf eine Darstellung des mehrdimensionalen kontinuierlichen Raumes, die als Teil der Steuerung angezeigt wird, auswählt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Angabe des Ortes unter Nutzung von Koordinaten in Bezug auf den mehrdimensionalen kontinuierlichen Raum spezifiziert ist.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der mehrdimensionale kontinuierliche Raum wenigstens zwei Dimensionen beinhaltet und die mehreren Digitalcontents als mehrere Digitalbilder konfiguriert sind.
  9. System in einer Digitalmediensuchumgebung, umfassend: ein Suchanfragesammelmodul, das wenigstens teilweise in der Hardware einer Rechenvorrichtung implementiert ist, zum Empfangen einer Suchanfrage, die einen Text und Koordinaten beinhaltet, die in Bezug auf einen mehrdimensionalen kontinuierlichen Raum spezifiziert sind; ein Mehrdimensionalsuchmodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Generieren eines Suchergebnisses auf Grundlage einer Suche nach mehreren Digitalbildern auf Grundlage des Textes und der Koordinaten aus der Suchanfrage; und ein Ausgabemodul, das wenigstens teilweise in der Hardware der Rechenvorrichtung implementiert ist, zum Ausgeben des Suchergebnisses.
  10. System nach Anspruch 9, wobei das Mehrdimensionalsuchmodul ein Neuronalnetzwerkbündelmodell beinhaltet, das zum Generieren von Koordinaten für jeweilige Digitalbilder der mehreren Digitalbilder benutzt wird.
  11. System nach Anspruch 10, wobei das Neuronalnetzwerkbündelmodell ein bildbasiertes Modell und ein tagbasiertes Modell beinhaltet.
  12. System nach einem der Ansprüche 9 bis 11, wobei der mehrdimensionale kontinuierliche Raum jeweilige Ausprägungen von wenigstens zwei Gefühlsregungen definiert.
  13. Verfahren nach einem der Ansprüche 9 bis 12, wobei eine erste Achse und eine zweite Achse positive und negative Ausprägungen für erste beziehungsweise zweite Suchkriterien innerhalb des mehrdimensionalen kontinuierlichen Raumes definieren.
  14. System nach einem der Ansprüche 9 bis 13, wobei die Koordinaten Gewichtungen, die jeweils ersten und zweiten Gefühlsregungen zugewiesen sind, innerhalb des mehrdimensionalen kontinuierlichen Raumes spezifizieren.
  15. System nach einem der Ansprüche 9 bis 14, wobei die Koordinaten durch Empfangen einer Nutzereingabe über eine Steuerung, die in einer Nutzerschnittstelle ausgegeben wird, generiert werden, wobei die Nutzereingabe einen Ort der Koordinaten in Bezug auf eine Darstellung des mehrdimensionalen kontinuierlichen Raumes, die als Teil der Steuerung angezeigt wird, auswählt.
  16. System in einer Digitalmediensuchumgebung, umfassend: Mittel zum Anzeigen einer Steuerung in einer Nutzerschnittstelle, wobei die Steuerung eine Darstellung eines mehrdimensionalen kontinuierlichen Raumes beinhaltet, der eine erste Achse, die einer Darstellung eines ersten Suchkriteriums zugeordnet ist, und eine zweite Achse, die einer Darstellung eines zweiten Suchkriteriums zugeordnet ist, beinhaltet; Mittel zum Generieren einer Suchanfrage, die einen Ort beinhaltet, der in Bezug auf die Darstellung des mehrdimensionalen kontinuierlichen Raumes spezifiziert ist, wobei der Ort über eine Nutzereingabe, die durch eine Interaktion mit der Steuerung empfangen wird, spezifiziert wird; und Mittel zum Ausgeben eines Suchergebnisses, das auf Grundlage einer Suche nach Digitalcontent unter Nutzung der Suchanfrage generiert wird.
  17. System nach Anspruch 16, wobei der mehrdimensionale kontinuierliche Raum jeweilige Ausprägungen von wenigstens zwei Gefühlsregungen definiert.
  18. System nach Anspruch 16 oder 17, wobei eine erste Achse und eine zweite Achse positive und negative Ausprägungen für die ersten beziehungsweise zweiten Suchkriterien innerhalb des mehrdimensionalen kontinuierlichen Raumes definieren.
  19. System nach einem der Ansprüche 16 bis 18, wobei der Ort unter Nutzung von Koordinaten spezifiziert wird.
  20. System nach Anspruch 19, wobei die Koordinaten Gewichtungen, die jeweils ersten und zweiten Gefühlsregungen zugewiesen sind, innerhalb des mehrdimensionalen kontinuierlichen Raumes spezifizieren.
DE102021002071.5A 2020-06-24 2021-04-20 Mehrdimensionale Digitalcontentsuche Pending DE102021002071A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/910,440 US11853348B2 (en) 2020-06-24 2020-06-24 Multidimensional digital content search
US16/910,440 2020-06-24

Publications (1)

Publication Number Publication Date
DE102021002071A1 true DE102021002071A1 (de) 2021-12-30

Family

ID=78827298

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021002071.5A Pending DE102021002071A1 (de) 2020-06-24 2021-04-20 Mehrdimensionale Digitalcontentsuche

Country Status (3)

Country Link
US (1) US11853348B2 (de)
CN (1) CN113836382A (de)
DE (1) DE102021002071A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6976537B1 (ja) * 2020-10-08 2021-12-08 株式会社Fronteo 情報検索装置、情報検索方法および情報検索用プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005113099A2 (en) * 2003-05-30 2005-12-01 America Online, Inc. Personalizing content
US20120272185A1 (en) * 2011-01-05 2012-10-25 Rovi Technologies Corporation Systems and methods for mixed-media content guidance
CN105830006B (zh) * 2014-01-30 2020-02-14 华为技术有限公司 图像及视频内容的情感修改
US10783431B2 (en) * 2015-11-11 2020-09-22 Adobe Inc. Image search using emotions
US11157700B2 (en) * 2017-09-12 2021-10-26 AebeZe Labs Mood map for assessing a dynamic emotional or mental state (dEMS) of a user
EP3695570A4 (de) * 2017-11-24 2021-06-02 Microsoft Technology Licensing, LLC Bereitstellung einer antwort in einer sitzung
US10635939B2 (en) * 2018-07-06 2020-04-28 Capital One Services, Llc System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis
EP3644616A1 (de) * 2018-10-22 2020-04-29 Samsung Electronics Co., Ltd. Anzeigevorrichtung und betriebsverfahren dafür

Also Published As

Publication number Publication date
US11853348B2 (en) 2023-12-26
US20210406302A1 (en) 2021-12-30
CN113836382A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
DE102016013372A1 (de) Bildbeschriften mit schwacher Überwachung
DE102020001790A1 (de) Auf maschinellem Lernen basierende Text-in-Bild-Einbettungstechniken
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE102016011173A1 (de) Erstellen von Zusammenfassungen von Multimediadokumenten
DE102018006962A1 (de) Regelfestlegung für Black-Box-Maschinenlernmodelle
DE112017006517T5 (de) Visuelle kategoriedarstellung mit vielfältiger einstufung
DE212011100024U1 (de) Suche mit gemeinsamen Bild-Audio-Abfragen
DE102016012537A1 (de) Gewichten von Attributen für medieninhaltsbasierte Empfehlungen
DE202015009254U1 (de) Automatisch erzeugende ausführungssequenzen für workflows
DE10317234A1 (de) Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt
DE112018005244T5 (de) Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen
DE102017009505A1 (de) Erzeugen einer kompakten Videomerkmaldarstellung in einer digitalen Medienumgebung
DE10297802B4 (de) Verfahren, Speichermedium und System zum Suchen einer Sammlung von Medienobjekten
DE102016010909A1 (de) Strukturiertes Modellieren, Extrahieren und Lokalisieren von Wissen aus Bildern
DE202017107393U1 (de) Vorhersagen eines Suchmaschinen-Einordnungssignalwerts
DE112021002867T5 (de) Defektdetektion für eine leiterplattenbaugruppe
DE112020002886T5 (de) Kontextabhängiges data-mining
DE112017007530T5 (de) Entitätsmodell-erstellung
DE112021006604T5 (de) Dynamisches in-rangordnung-bringen von facetten
DE102022003003A1 (de) Automatische Fotobearbeitung mittels sprachlicher Anweisung
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE202016009145U1 (de) Deep-Learning-basierte funktionale Korrelation von volumetrischen Designs
DE102021002071A1 (de) Mehrdimensionale Digitalcontentsuche
DE202022002901U1 (de) Text-Bild-Layout Transformer (TILT)

Legal Events

Date Code Title Description
R012 Request for examination validly filed