DE102017008030A1

DE102017008030A1 - USE OF A DIGITAL CANVAS TO PERFORM A ROOM-SEMANTIC SEARCH FOR DIGITAL VISUAL MEDIA

Info

Publication number: DE102017008030A1
Application number: DE102017008030.5A
Authority: DE
Inventors: Zhe Lin; Mai Long; Jonathan Brandt; Hailin Jin; Chen Fang
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-10-28
Filing date: 2017-08-24
Publication date: 2018-05-03
Also published as: GB201714053D0; GB2556378B; GB2556378A

Abstract

Die vorliegende Offenbarung umfasst Verfahren und Systeme zum Suchen von digitalen visuellen Medien auf der Basis von semantischen und räumlichen Informationen. Insbesondere identifiziert oder identifizieren eine oder mehrere Ausführungsform(en) der offenbarten Systeme und Verfahren digitale visuelle Medien, die einen gesuchten visuellen Inhalt in einem gesuchten Bereich wiedergeben, auf der Basis eines Abfragebegriffs und eines Abfragebereichs, die mittels einer digitalen Leinwand bereitgestellt werden. Insbesondere können die offenbarten Systeme und Verfahren eine Nutzereingabe eines Abfragebegriffs und eines Abfragebereichs erhalten und den Abfragebegriff und den Abfragebereich für ein neuronales Abfragenetzwerk zur Erzeugung eines Abfragemerkmalssatzes bereitstellen. Darüber hinaus können die offenbarten Systeme und Verfahren den Abfragemerkmalssatz mit digitale visuelle Medien-Merkmalssätzen vergleichen. Ferner können die offenbarten Systeme und Verfahren auf der Basis des Vergleichs digitale visuelle Medien, die einen gesuchten visuellen Inhalt, der dem Abfragebegriff entspricht, innerhalb eines gesuchten Bereichs wiedergeben, der dem Abfragebereich entspricht, identifizieren.The present disclosure includes methods and systems for searching digital visual media based on semantic and spatial information. In particular, one or more embodiments of the disclosed systems and methods identify or identify digital visual media that represents a searched visual content in a searched area based on a query term and an interrogation area provided by a digital canvas. In particular, the disclosed systems and methods may receive user input of a query term and an interrogation area and provide the query term and polling area for a neural polling network to generate a polling feature set. In addition, the disclosed systems and methods may compare the query feature set with digital visual media feature sets. Further, the disclosed systems and methods may identify, based on the comparison, digital visual media that represents a searched visual content corresponding to the query term within a searched range that corresponds to the query range.

Description

Diese Anmeldung beansprucht die Priorität der US-Provisional-Patentanmeldung Nr. 62/414,140 , die am 28. Oktober 2016 eingereicht worden ist und die Bezeichnung „Nutzung einer digitalen Leinwand zur Durchführung einer räumlich-semantischen Suche nach digitalen visuellen Medien“ hat, und die in ihrer Gesamtheit unter Bezugnahme hierin einbezogen ist.This application claims the priority of U.S. Provisional Patent Application No. 62 / 414,140 , filed October 28, 2016, entitled "Use of a Digital Canvas to Perform a Spatial-Semantic Search for Digital Visual Media," which is incorporated herein by reference in its entirety.

HINTERGRUNDBACKGROUND

In den letzten Jahren gab es eine rasche technologische Entwicklung in dem Bereich der Suche in digitalen visuellen Medien. Als Ergebnis der Verbreitung von Personalcomputervorrichtungen und Digitalkameras verwalten Einzelpersonen und Unternehmen nunmehr routinemäßig große Speicherinhalte mit digitalen Bildern und digitalen Videos. Demgemäß wurde eine Suche nach digitalen visuellen Medien ein weit verbreiteter Bedarf für Einzelpersonen und Unternehmen in verschiedenen Szenarien, die von gelegentlichen Nutzern, die spezifische Momente von einer persönlichen Photosammlung lokalisieren wollen, bis zu professionellen Graphikdesignern reichen, die Bildersammlungen durchsuchen, um kreative Projekte zu verbessern.In recent years, there has been a rapid technological development in the field of search in digital visual media. As a result of the proliferation of personal computer devices and digital cameras, individuals and businesses now routinely manage large memory contents with digital images and digital video. Accordingly, a search for digital visual media has become a widespread need for individuals and businesses in various scenarios ranging from occasional users seeking to locate specific moments from a personal photo collection to professional graphic designers who browse image collections to enhance creative projects ,

Als Reaktion haben Entwickler verschiedene digitale Suchsysteme erzeugt, die digitale visuelle Medien suchen können. Diese herkömmlichen digitalen Suchsysteme fallen größtenteils unter zwei Hauptsuchparadigma: Suche durch textbasierte Suchvorgänge (d.h., Systeme, die ein Schlüsselwort zum Durchsuchen eines Speicherinhalts mit digitalen Bildern nutzen) und Suche durch ein ähnliches Bild (d.h., Systeme, die ein bestehendes digitales Bild zum Suchen nach ähnlichen digitalen Bildern nutzen). Obwohl diese herkömmlichen digitalen Suchsysteme digitale visuelle Medien identifizieren können, die einen bestimmten Inhalt wiedergeben, weisen sie auch eine Anzahl von Mängeln auf. Obwohl beispielsweise herkömmliche digitale Suchsysteme einen Inhalt in digitalen Bildern identifizieren können, sind solche herkömmlichen digitalen Suchsysteme nicht in der Lage, einen digitalen visuellen Inhalt, der eine bestimmte räumliche Konfiguration wiedergibt, effizient zu identifizieren.In response, developers have created various digital search systems that can search digital visual media. These conventional digital search systems fall largely under two main search paradigms: search through text-based searches (ie, systems that use a keyword to search a memory content with digital images) and search through a similar image (ie, systems that use an existing digital image to search for use similar digital pictures). Although these conventional digital search systems can identify digital visual media that reflect a particular content, they also have a number of deficiencies. For example, although conventional digital search systems may identify content in digital images, such conventional digital search systems are unable to efficiently identify digital visual content that reflects a particular spatial configuration.

Als Beispiel wollen Nutzer häufig digitale Bilder mit einer spezifischen visuellen Anordnung von Gegenständen finden. Beispielsweise kann ein professioneller Designer ein digitales Bild, das einen spezifischen Gegenstand an einem bestimmten Ort zeigt, für ein kreatives Projekt benötigen. Bestehende digitale Systeme ermöglichen Nutzern die Suche nach digitalen Bildern, die einen spezifischen Inhalt wiedergeben, können jedoch digitale Bilder auf der Basis der räumlichen Anordnung nicht genau identifizieren.As an example, users often want to find digital images with a specific visual arrangement of objects. For example, a professional designer may need a digital image showing a specific item in a particular location for a creative project. Existing digital systems allow users to search for digital images that reflect specific content but can not accurately identify digital images based on the spatial arrangement.

Zur Veranschaulichung dieses Punkts zeigen die 1A und 1B die Ergebnisse von herkömmlichen Suchsystemen für ein Bild einer Person, die einen Tennisschläger nach links hält. Die 1A zeigt die Ergebnisse einer herkömmlichen textbasierten Suche, während die 1B die Ergebnisse einer herkömmlichen ähnlichen bildbasierten Suche zeigt. Wie es gezeigt ist, zeigt die 1A, dass eine Wortabfrage 102 bezüglich deren Vermögen zur Wiedergabe von räumlichen Merkmalen in einer Suche beschränkt ist. Insbesondere kann die Wortabfrage 102 einen gewünschten Inhalt (d.h., „Tennisschläger“) beschreiben, kann jedoch keinen Weg für genaue räumliche Beschränkungen bereitstellen. Obwohl die Wortabfrage 102 den Text umfasst, der eine bestimmte Konfiguration beschreibt (d.h., „links“), kann ein solcher Begriff nicht in ein sinnvolles Suchergebnis umgesetzt werden. Folglich geben die Wortsuchergebnisse 102a digitale Bilder wieder, die Tennisschläger umfassen; die räumliche Konfiguration der innerhalb der digitalen Bilder dargestellten Tennisschläger ist jedoch zufällig. Demgemäß wird ein Nutzer, der ein Bild einer Person sucht, die einen Tennisschläger nach links hält, die Wortsuchergebnisse 102a in einem Versuch durchsuchen müssen, ein digitales Bild zu finden, das mit der gewünschten räumlichen Anordnung übereinstimmt.To illustrate this point show the 1A and 1B the results of conventional search systems for a picture of a person holding a tennis racket to the left. The 1A shows the results of a conventional text-based search, while the 1B shows the results of a conventional similar image-based search. As it is shown, the shows 1A in that a word query 102 is limited in its ability to render spatial features in a search. In particular, the word query 102 may describe a desired content (ie, "tennis racket") but may not provide a way for accurate spatial restrictions. Although the word query 102 includes the text describing a particular configuration (ie, "left"), such a term can not be translated into a meaningful search result. Thus, the word search results 102a represent digital images that include tennis rackets; however, the spatial configuration of the tennis rackets shown within the digital images is random. Accordingly, a user searching an image of a person holding a tennis racket to the left will see the word search results 102a in one Attempt to find a digital image that matches the desired spatial arrangement.

Entsprechend ist, wie es gezeigt ist, die Bildabfrage 104 bezüglich deren Vermögen beschränkt, eine räumliche Information in einer Suche wiederzugeben. Als einen ursprünglichen Gegenstand erfordert die Bildabfrage 104 zum Suchen nach einem digitalen Bild einer Person, die einen Tennisschläger nach links hält, ein Bild einer Person, die einen Tennisschläger nach links hält. Selbstverständlich stellt dies eine signifikante Unbequemlichkeit für den Nutzer dar, und zwar insoweit als der Mangel eines digitalen Beispielbilds in erster Linie der Grund für die Durchführung der Suche ist. Selbst wenn angenommen wird, dass ein Nutzer bereits ein Bild einer Person hat, die einen Tennisschläger nach links hält, um die Bildabfrage 104 zu erzeugen, kann die Bildabfrage 104 räumliche Konzepte nicht angemessen in die Suche einbeziehen. Obwohl die Bildsuchergebnisse 104a im Allgemeinen Tennisschläger und Tennisspieler umfassen, geben die Bildsuchergebnisse 104 Tennisschläger in vielen verschiedenen räumlichen Konfigurationen wieder. Folglich wird ein Nutzer, der ein Bild einer Person sucht, die einen Tennisschläger nach links hält, die Bildsuchergebnisse 104a in einem Versuch durchsuchen müssen, ein digitales Bild zu finden, das mit der gewünschten räumlichen Anordnung übereinstimmt.Accordingly, as shown, the image query 104 is limited in its ability to render spatial information in a search. As an original item, the picture retrieval unit 104 requires an image of a person holding a tennis racket to the left to search for a digital image of a person holding a tennis racket to the left. Of course, this represents a significant inconvenience to the user, inasmuch as the lack of a digital example image is primarily the reason for conducting the search. Even if it is assumed that a user already has an image of a person holding a tennis racket to the left to produce the image query 104, the image query 104 may not adequately include spatial concepts in the search. Although the image search results 104a generally include tennis rackets and tennis players, the image search results reflect 104 tennis rackets in many different spatial configurations. Thus, a user seeking an image of a person holding a tennis racket to the left will have to search the image search results 104a in an attempt to find a digital image that matches the desired spatial arrangement.

Wie es gezeigt ist, mangelt es herkömmlichen digitalen Suchsystemen im Allgemeinen das Vermögen zur Ausgabe von genauen Suchergebnissen für Bilder mit einer bestimmten räumlichen Anordnung von Gegenständen.As shown, conventional digital search systems generally lack the ability to output accurate search results for images having a particular spatial arrangement of objects.

KURZE ZUSAMMENFASSUNGSHORT SUMMARY

Eine oder mehrere Ausführungsform(en) der vorliegenden Offenbarung stellt oder stellen einen Nutzen bereit und/oder löst oder lösen eines oder mehrere der vorstehenden oder von anderen Probleme(n) im Stand der Technik mit Systemen und Verfahren, die auf der Basis von räumlichen und semantischen Informationen nach digitalen visuellen Medien suchen und diese identifizieren. Insbesondere nutzen die offenbarten Systeme und Verfahren in einer oder mehreren Ausführungsform(en) eine Nutzerinteraktion mit einer digitalen Leinwand zum Bestimmen sowohl eines räumlichen als auch eines semantischen Suchgegenstands (z.B. eines Abfragebegriffs, der einen gesuchten visuellen Inhalt angibt, und eines Abfragebereichs, der einen gesuchten Bereich für den visuellen Inhalt angibt). Darüber hinaus führen die offenbarten Systeme und Verfahren eine Suche auf der Basis des bestimmten räumlichen und semantischen Suchgegenstands zum Finden von digitalen Bildern durch, die den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergeben. Insbesondere entwickeln die offenbarten Systeme und Verfahren in einer oder mehreren Ausführungsform(en) ein tiefgehendes Lernen-Modell, das eine Darstellung von semantischen und räumlichen Merkmalen von einem oder mehreren Abfragebegriff(en) und einem oder mehreren Abfragebereich(en) erzeugt. Darüber hinaus nutzen die offenbarten Systeme und Verfahren die Merkmale von dem tiefgehendes Lernen-Modell zum Suchen nach entsprechenden digitale visuelle Medien-Gegenständen mit ähnlichen Merkmalen. Insbesondere vergleichen die offenbarten Systeme und Verfahren eine Merkmalsdarstellung eines Abfragebereichs und eines Abfragebegriffs mit digitalen Bildmerkmalssätzen, die eine Mehrzahl von digitalen Bildern darstellen. Auf diese Weise identifizieren die offenbarten Systeme und Verfahren digitale visuelle Mediengegenstände, die einen gesuchten visuellen Inhalt innerhalb eines gesuchten Bereichs wiedergeben.One or more embodiments of the present disclosure provide or provide a benefit and / or solves or solves one or more of the above or other problems in the art with systems and methods based on spatial and environmental principles Search for and identify semantic information about digital visual media. In particular, in one or more embodiments, the disclosed systems and methods utilize user interaction with a digital canvas to determine both a spatial and a semantic search subject (eg, a query term indicating a searched visual content and a query range that includes a searched Indicates the visual content area). Moreover, the disclosed systems and methods perform a search based on the particular spatial and semantic search subject for finding digital images that represent the searched visual content within the searched area. In particular, in one or more embodiments, the disclosed systems and methods develop a deep learning model that generates a representation of semantic and spatial features of one or more query terms and one or more query ranges. In addition, the disclosed systems and methods utilize the features of the in-depth learning model to search for corresponding digital visual media assets having similar characteristics. In particular, the disclosed systems and methods compare a feature representation of a query region and a query term with digital image feature sets representing a plurality of digital images. In this way, the disclosed systems and methods identify digital visual media objects that render searched visual content within a searched area.

Zusätzliche Merkmale und Vorteile einer oder mehrerer Ausführungsform(en) der vorliegenden Offenbarung sind in der nachstehenden Beschreibung angegeben und sind zum Teil aus der Beschreibung offensichtlich oder werden durch die Durchführung solcher Beispielausführungsformen ersichtlich.Additional features and advantages of one or more embodiments of the present disclosure are set forth in the description which follows, and in part will be obvious from the description, or may be learned by practice of such example embodiments.

Figurenlistelist of figures

Die detaillierte Beschreibung bezieht sich auf die beigefügten Zeichnungen, worin:

1A die Ergebnisse einer Suche nach einer Person, die einen Tennisschläger nach links hält, mittels einer herkömmlichen Textsuche zeigt;
1B die Ergebnisse einer Suche nach einer Person, die einen Tennisschläger nach links hält, mittels einer herkömmlichen entsprechenden Bildsuche zeigt;
1C die Ergebnisse einer Suche nach einer Person, die einen Tennisschläger nach links hält, mittels einer räumlich-semantischen Suche gemäß einer oder mehrerer Ausführungsform(en) zeigt;
2 eine Darstellung der Identifizierung von digitalen visuellen Medien mittels eines trainierten neuronalen Abfragenetzwerks und eines Schritts zur Erzeugung eines Abfragemerkmalssatzes mittels eines neuronalen Abfragenetzwerks gemäß einer oder mehrerer Ausführungsform(en) zeigt;
3 eine Darstellung der Erzeugung einer Darstellung von Abfragebegriffen und Abfragebereichen in einer digitalen Leinwand gemäß einer oder mehrerer Ausführungsform(en) zeigt;
4A und 4B ein Training eines neuronalen Abfragenetzwerks gemäß einer oder mehrerer Ausführungsform(en) zeigen;
5A bis 5C eine Rechenvorrichtung und eine graphische Nutzerschnittstelle zur Durchführung einer Suche nach digitalen Bildern unter Verwendung einer digitalen Leinwand gemäß einer oder mehrerer Ausführungsform(en) zeigen;
6 eine Darstellung einer Mehrzahl von beispielhaften räumlich-semantischen Suchen und Suchergebnissen gemäß einer oder mehrerer Ausführungsform(en) zeigt;
7 ein schematisches Diagramm, das ein räumlich-semantisches Mediensuchsystem darstellt, gemäß einer oder mehrerer Ausführungsform(en) zeigt;
8 ein schematisches Diagramm, das eine beispielhafte Umgebung, in der ein räumlich-semantisches Mediensuchsystem implementiert werden kann, gemäß einer oder mehrerer Ausführungsform(en) zeigt;
9 ein Flussdiagramm einer Reihe von Vorgängen in einem Verfahren des Identifizierens eines digitalen Bilds mittels räumlicher Informationen und semantischer Informationen gemäß einer oder mehrerer Ausführungsform(en) zeigt; und
10 ein Blockdiagramm einer beispielhaften Rechenvorrichtung gemäß einer oder mehrerer Ausführungsform(en) zeigt.

The detailed description refers to the attached drawings, wherein:

1A showing the results of a search for a person holding a tennis racket to the left by a conventional text search;
1B showing the results of a search for a person holding a tennis racket to the left by means of a conventional corresponding image search;
1C showing the results of a search for a person holding a tennis racket to the left by means of a spatial-semantic search according to one or more embodiments;
2 Figure 12 shows an illustration of the identification of digital visual media by means of a trained neural interrogation network and a step of generating a query feature set by means of a neural interrogation network according to one or more embodiments;
3 Figure 12 shows an illustration of the generation of a representation of query terms and query ranges in a digital canvas according to one or more embodiments;
4A and 4B show training of a neural interrogation network according to one or more embodiments;
5A to 5C show a computing device and graphical user interface for performing a digital image search using a digital canvas in accordance with one or more embodiments;
6 depicting a plurality of exemplary spatially-semantic searches and search results according to one or more embodiments;
7 12 is a schematic diagram illustrating a spatial-semantic media search system, according to one or more embodiments;
8th 12 is a schematic diagram illustrating an example environment in which a spatial semantic media search system may be implemented, according to one or more embodiments;
9 FIG. 3 shows a flowchart of a series of operations in a method of identifying a digital image using spatial information and semantic information, in accordance with one or more embodiments; and
10 a block diagram of an exemplary computing device according to one or more embodiments (s) shows.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Eine oder mehrere Ausführungsform(en) der vorliegenden Offenbarung umfasst oder umfassen ein räumlich-semantisches Mediensuchsystem, das digitale visuelle Medien, einschließlich räumliche und semantische Eigenschaften, identifiziert. Insbesondere identifiziert das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) digitale Bilder, die einen gesuchten visuellen Inhalt innerhalb eines gesuchten Bereichs wiedergeben. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) ein neuronales Netzwerk zum Erzeugen eines Abfragemerkmalsatzes von einem Abfragebegriff und einem Abfragebereich. Ferner nutzt das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz zum Durchsuchen eines Speicherinhalts von digitalen visuellen Medien. Insbesondere erzeugt das räumlich-semantische Mediensuchsystem Merkmalssätze von digitalen Bildern, die digitalen Bildern entsprechen, unter Verwendung eines weiteren neuronalen Netzwerks und vergleicht den Abfragemerkmalssatz mit den Merkmalssätzen von digitalen Bildern. Auf der Basis dieses Vergleichs identifiziert das räumlich-semantische Mediensuchsystem digitale visuelle Mediengegenstände, die einen gesuchten Inhalt wiedergeben, der einem Abfragebegriff innerhalb eines gesuchten Bereichs entspricht, der einem Abfragebereich entspricht.One or more embodiments of the present disclosure include or include a spatial-semantic media search system that identifies digital visual media, including spatial and semantic properties. In particular, in one or more embodiments, the spatial semantic media search system identifies digital images that render searched visual content within a searched area. For example, in one or more embodiments, the spatial semantic media search system utilizes a neural network to generate a query feature set from a query term and a query scope. Further, the spatial semantic media search system utilizes the query feature set to search a storage content of digital visual media. In particular, the spatial semantic media search system generates feature sets of digital images corresponding to digital images using another neural network and compares the query feature set with the feature sets of digital images. Based on this comparison, the spatial semantic media search system identifies digital visual media objects that reflect searched content that corresponds to a query term within a searched range that corresponds to a query scope.

Das räumlich-semantische Mediensuchsystem stellt eine Anzahl von Vorteilen gegenüber herkömmlichen digitalen Suchsystemen bereit. Als ursprünglicher Gegenstand bestimmt das räumlich-semantische Mediensuchsystem die Nutzerabsicht zum Suchen sowohl von semantischen als auch räumlichen Merkmalen und stellt digitale visuelle Medien-Suchergebnisse bereit, welche die gewünschten semantischen und räumlichen Merkmale wiedergeben. Demgemäß sucht das räumlich-semantische Mediensuchsystem schnell und einfach nach digitalen visuellen Mediengegenständen und identifizieren diese, die gewünschte räumliche und semantische Merkmale wiedergeben.The spatial semantic media search system provides a number of advantages over conventional digital search systems. As an original item, the spatial semantic media search system determines the user's intent to search for both semantic and spatial features, and provides digital visual media search results representing the desired semantic and spatial features. Accordingly, the spatial semantic media search system quickly and easily searches for and identifies digital visual media objects that represent desired spatial and semantic features.

Ferner analysiert das räumlich-semantische Mediensuchsystem durch die Nutzung von tiefgehendes Lernen-Techniken Hochniveau- und Niedrigniveaumerkmale beim Identifizieren von digitalen visuellen Medien von Abfragebegriffen und Abfragebereichen. Beispielsweise analysiert das räumlich-semantische Mediensuchsystem tiefgehende Merkmale, die von einem trainierten neuronalen Netzwerk gelernt worden sind und die Hochniveaukonzepte sowie Niedrigniveau-Pixelähnlichkeiten effektiv erfassen. Dies führt verglichen mit herkömmlichen digitalen Suchsystemen zu genaueren und zuverlässigeren Ergebnissen.Further, through the use of in-depth learning techniques, the spatial semantic media search system analyzes high level and low level features in identifying digital visual media of query terms and query ranges. For example, the spatial semantic media search system analyzes in-depth features that have been learned by a trained neural network and that effectively capture high-level concepts as well as low-level pixel similarities. This results in more accurate and reliable results compared to conventional digital search systems.

Beispielsweise weisen herkömmliche digitale Suchsysteme häufig das Problem einer semantischen Lücke auf. Eine semantische Lücke bezieht sich auf den Unterschied der Bedeutung zwischen Darstellungssystemen, wie z.B. die Differenz der Bedeutung zwischen digitalen Niedrigniveaudarstellungen von visuellen Medien (z.B. Pixeln in einem digitalen Bild) und Hochniveaukonzepten, die durch digitale visuelle Medien wiedergegeben werden (z.B. ein Gegenstand oder eine Umgebung, der oder die durch ein digitales Bild wiedergegeben wird). Herkömmliche digitale Suchsysteme sind beim Identifizieren von digitalen visuellen Mediengegenständen mit ähnlichen Niedrigniveaumerkmalen (z.B. Pixeln mit roter Farbe) im Allgemeinen genauer, haben jedoch Schwierigkeiten bei der Identifizierung einer Ähnlichkeit von Hochniveaumerkmalen (z.B. einer Unterscheidung zwischen einer roten Socke und roten Hosen). Durch die Nutzung von Techniken eines tiefgehenden Lernens zum Trainieren eines neuronalen Abfragenetzwerks vergleicht das räumlich-semantische Mediensuchsystem sowohl Hochniveau- als auch Niedrigniveaumerkmale und überbrückt die semantische Lücke.For example, conventional digital search systems often have the problem of a semantic gap. A semantic gap refers to the difference in meaning between presentation systems, such as the difference in meaning between digital low-level representations of visual media (e.g., pixels in a digital image) and high-level concepts rendered by digital visual media (e.g., an item or an environment rendered through a digital image). Conventional digital search systems are generally more accurate in identifying digital visual media items having similar low level features (e.g., red color pixels), but have difficulties in identifying similarity of high level features (e.g., a distinction between a red sock and red pants). Utilizing deep learning techniques to train a neural interrogation network, the spatial semantic media search system compares both high and low level features and bridges the semantic gap.

Ferner kann das räumlich-semantische Mediensuchsystem durch Nutzen eines neuronalen Abfragenetzwerks direkt eine Merkmalsdarstellung (z.B. einen Merkmalssatz) aus einer Abfrage unter Verwendung eines neuronalen Abfragenetzwerks erzeugen und die erzeugte Merkmalsdarstellung mit einem Speicherinhalt von digitalen visuellen Mediengegenständen vergleichen. Da das räumlich-semantische Mediensuchsystem einen trainierbaren Ende-zu-Ende-Rahmen bereitstellt, kann das räumlich-semantische Mediensuchsystem flexibler arbeiten und Suchen und Konzepte, die in digitalen visuellen Medien wiedergegeben werden, einfacher verallgemeinern.Further, by utilizing a neural interrogation network, the spatial semantic media search system may directly generate a feature representation (e.g., a feature set) from a query using a neural interrogation network and compare the generated feature representation to a memory content of digital visual media objects. Because the spatial semantic media search system provides a trainable end-to-end framework, the spatial semantic media search system can work more flexibly and more easily generalize searches and concepts rendered in digital visual media.

Beispielsweise beruhen einige herkömmliche Systeme auf einer textbasierten Suche in Datenbanken (z.B. einer Textsuche von markierten Gegenständen, die in einer Probenbilddatenbank mit entsprechenden Merkmalssätzen wiedergegeben sind), um visuelle Merkmale zu identifizieren. Ein solcher Ansatz beschränkt die Zuverlässigkeit der resultierenden Suche. Tatsächlich ist ein solcher Ansatz auf den bestimmten Satz von Proben innerhalb der Probenbilddatenbank beschränkt. Im Gegensatz dazu nutzt das räumlich-semantische Mediensuchsystem ein neuronales Abfragenetzwerk, das direkt einen Merkmalssatz erzeugt. Das Ergebnis ist ein flexiblerer Ansatz, der Hochniveaukonzepte und - merkmale bei der Durchführung einer Suche verallgemeinern kann, und der nicht von bestimmten Proben abhängig ist, die in einer Datenbank identifiziert werden. For example, some conventional systems rely on a text-based search in databases (eg, a text search of tagged items rendered in a sample image database with corresponding feature sets) to identify visual features. Such an approach limits the reliability of the resulting search. In fact, such an approach is limited to the particular set of samples within the sample image database. In contrast, the spatial semantic media search system uses a neural interrogation network that directly generates a feature set. The result is a more flexible approach that can generalize high-level concepts and features when performing a search, and that does not depend on specific samples identified in a database.

Ferner kann das räumlich-semantische Mediensuchsystem, wie es nachstehend detaillierter beschrieben ist, durch die Nutzung eines neuronalen Abfragenetzwerks das Auffindungsleistungsvermögen direkt optimieren. Dies verbessert sowohl die Nutzererfahrung als auch das Leistungsvermögen von Computervorrichtungen, die das räumlich-semantische Mediensuchsystem betreiben. Insbesondere trainiert das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) das neuronale Abfragenetzwerk unter Verwendung einer objektiven Verlustfunktion, die das Leistungsvermögen des neuronalen Abfragenetzwerks optimiert. Insbesondere nutzt das räumlich-semantische Mediensuchsystem eine Verlustfunktion zum Trainieren des neuronalen Abfragenetzwerks zum Erzeugen von Merkmalssätzen, die einen Ähnlichkeitsverlust vermindern und die Differenzierung in Bezug auf irrelevante visuelle Medien und Begriffe erhöhen. Das Ergebnis ist ein neuronales Abfragenetzwerk, das einen gesuchten visuellen Inhalt innerhalb von gesuchten Bereichen genauer, schneller und mit weniger Rechenresourcen (z.B. weniger Resourcen zum Trainieren und Nutzen des neuronalen Abfragenetzwerks) identifizieren kann.Further, as described in more detail below, the spatial semantic media search system can directly optimize the retrieval performance through the use of a neural interrogation network. This improves both the user experience and the performance of computer devices that operate the spatial semantic media search system. In particular, in one or more embodiments, the spatial semantic media search system trains the neural interrogation network using an objective loss function that optimizes the performance of the neural interrogation network. In particular, the spatial semantic media search system utilizes a loss function to train the neural interrogation network to generate feature sets that reduce similarity loss and increase differentiation with respect to irrelevant visual media and terms. The result is a neural interrogation network that can identify sought-after visual content within searched areas more accurately, faster, and with fewer computational resources (e.g., fewer resources to train and use the neural interrogation network).

Unter Bezugnahme auf die Figuren werden zusätzliche Details bezüglich einer Suche nach digitalen visuellen Medien gemäß einer oder mehrerer Ausführungsform(en) bereitgestellt. Wie hier verwendet, bezieht sich der Ausdruck „digitale visuelle Medien“ (oder „digitale visuelle Mediengegenstände) auf jedweden digitalen Gegenstand, der eine visuelle Darstellung bereitstellen kann. Beispielsweise umfasst der Ausdruck „digitaler visueller Mediengegenstand“ digitale Bilder und digitale Videos. Wie hier verwendet, umfasst der Ausdruck „digitales Bild“ jedwede(s) digitale Symbol, Bild, Icon oder Darstellung. Beispielsweise umfasst der Ausdruck „digitales Bild“ digitale Dateien mit den folgenden Dateiextensions: JPG, TIFF, BMP, PNG, RAW oder PDF. Entsprechend bezieht sich der Ausdruck „digitales Video“, wie er hier verwendet wird, auf eine digitale Abfolge von Bildern. Beispielsweise umfasst der Ausdruck „digitales Video“ digitale Dateien mit den folgenden Dateiextensions: FLV, GIF, MOV, QT, AVI, WMV, MP4, MPG, MPEG oder M4V. Obwohl hier viele Beispiele in Bezug auf digitale Bilder beschrieben sind, können die offenbarten Ausführungsformen auch in Bezug auf jedwede digitale visuelle Mediengegenstände implementiert werden.With reference to the figures, additional details regarding a search for digital visual media according to one or more embodiments are provided. As used herein, the term "digital visual media" (or "digital visual media objects") refers to any digital object that can provide a visual representation. For example, the term "digital visual media article" includes digital images and digital video. As used herein, the term "digital image" includes any digital symbol, image, icon or representation. For example, the term "digital image" includes digital files with the following file extensions: JPG, TIFF, BMP, PNG, RAW, or PDF. Accordingly, the term "digital video" as used herein refers to a digital sequence of images. For example, the term "digital video" includes digital files with the following file extensions: FLV, GIF, MOV, QT, AVI, WMV, MP4, MPG, MPEG, or M4V. Although many examples are described herein with respect to digital images, the disclosed embodiments may also be implemented with respect to any digital visual media objects.

Die 1C zeigt ein Beispiel für Suchergebnisse des räumlich-semantischen Mediensuchsystems der vorliegenden Offenbarung. Insbesondere zeigt die 1C entsprechend den 1A und 1B eine Ausführungsform, in der ein Nutzer ein Bild einer Person finden will, die einen Tennisschläger nach links hält. Wie es in der 1C gezeigt ist, erzeugt ein Nutzer eine räumlich-semantische Abfrage 106, die sowohl räumliche Informationen als auch semantische Informationen enthält, zum Suchen nach einem digitalen Bild, das einen gesuchten visuellen Inhalt innerhalb von gesuchten Bereichen umfasst. Zur Veranschaulichung zeigt die 1C, dass die räumlich-semantische Abfrage 106 eine digitale Leinwand 108, einen ersten Abfragebereich 110, der einem ersten Abfragebegriff 110a (d.h., einer Person) entspricht, und einen zweiten Abfragebereich 112, der einem zweiten Abfragebegriff 112a (d.h., einen Tennisschläger) entspricht, umfasst. Die digitale Leinwand 108 ermöglicht es Nutzern, ein Suchinteresse sowohl in Bezug auf semantische Informationen (d.h., die Abfragebegriffe 110a, 112a) als auch auf räumliche Informationen (d.h., die Abfragebereiche 110, 112) durchzuführen.The 1C shows an example of search results of the spatial semantic media search system of the present disclosure. In particular, the shows 1C according to the 1A and 1B an embodiment in which a user wants to find a picture of a person holding a tennis racket to the left. As it is in the 1C is shown, a user generates a spatial-semantic query 106 containing both spatial information and semantic information for searching for a digital image that includes searched visual content within searched areas. To illustrate, the 1C that the spatially-semantic query 106 a digital canvas 108 , a first query area 110 , the first query term 110a (ie, one person) and a second polling area 112 , the second query term 112a (ie, a tennis racket) includes. The digital canvas 108 allows users to have a search interest both in terms of semantic information (ie, the query terms 110a . 112a ) as well as spatial information (ie, the query areas 110 . 112 ).

Wie hier verwendet, bezieht sich der Ausdruck „gesuchtes digitales Bild“ (oder gesuchte visuelle Medien) auf ein digitales Bild (oder einen visuellen Mediengegenstand), der Suchparameter erfüllt. Insbesondere umfasst ein „gesuchtes digitales Bild“ ein gewünschtes digitales Bild, nach dem ein Nutzer sucht (d.h., das die gewünschten Suchparameter des Nutzers erfüllt). Beispielsweise sucht ein Nutzer in Bezug auf die 1C ein Bild, das eine Person zeigt, die einen Tennisschläger nach links hält. Demgemäß ist ein gesuchtes digitales Bild in Bezug auf die 1C ein digitales Bild, das eine Person zeigt, die einen Tennisschläger nach links hält.As used herein, the phrase "searched digital image" (or searched visual media) refers to a digital image (or visual media object) that meets search parameters. In particular, a "searched digital image" includes a desired digital image that a user is looking for (ie, that satisfies the user's desired search parameters). For example, a user searches in relation to the 1C an image showing a person holding a tennis racket to the left. Accordingly, a searched digital image with respect to the 1C a digital image showing a person holding a tennis racket to the left.

Wie hier verwendet, bezieht sich der Ausdruck „gesuchter visueller Inhalt“ auf eine gewünschte Darstellung, die in digitalen visuellen Medien gezeigt wird. Insbesondere bezieht sich der Ausdruck „gesuchter visueller Inhalt“ auf eine visuelle Darstellung, die ein Nutzer in einem gesuchten digitalen Bild sucht. Beispielsweise kann ein gesuchter visueller Inhalt einen gewünschten Gegenstand, eine gewünschte Aktion oder jedwede andere gesuchte visuelle Darstellung umfassen. Zur Veranschaulichung ist der gesuchte visuelle Inhalt in Bezug auf die 1C eine Person und ein Tennisschläger. In Bezug auf das räumlich-semantische Mediensuchsystem kann ein Abfragebegriff einen gesuchten visuellen Inhalt angeben.As used herein, the phrase "sought-after visual content" refers to a desired representation that is displayed in digital visual media. In particular, the phrase "sought-after visual content" refers to a visual representation that a user seeks in a searched digital image. For example, a sought-after visual content may include a desired item, a desired action, or any other desired visual representation. By way of illustration, the visual content sought is in terms of the 1C a person and a tennis racket. With respect to the spatial semantic media search system, a query term may indicate a searched visual content.

Wie hier verwendet, bezieht sich „Abfragebegriff” auf ein Wort oder einen Satz, das oder der zum Ausdrücken eines gewünschten Konzepts verwendet wird. Insbesondere umfasst „Abfragebegriff” ein Wort oder einen Satz, das oder der zum Ausdrücken eines gewünschten visuellen Inhalts in einem gesuchten digitalen Bild verwendet wird. Mit anderen Worten bezieht sich ein Abfragebegriff in einem oder mehreren Beispiel(en) auf einen Gegenstand in einem zu identifizierenden Bild. Ein Abfragebegriff kann jedwedes Wort oder jedweden Satz umfassen, einschließlich z.B. Substantive, Verben, Adverbien oder Adjektive. Folglich kann ein „Abfragebegriff” einen Begriff, der einen Gegenstand angibt (z.B. den Begriff „Auto“), eine Aktion (z.B. den Begriff „rasen“), einen Deskriptor (z.B. den Begriff „rot“), ein Abfragekriterium (z.B. den Begriff „gefährlich“) oder jedwede Kombination davon (z.B. den Satz „rotes Auto, das gefährlich rast“) umfassen. Beispielsweise umfasst der Abfragebegriff 110a in Bezug auf die 1 „Person“ und der Abfragebegriff 112a umfasst „Tennisschläger“.As used herein, "query term" refers to a word or phrase that is used to express a desired concept. In particular, "query term" includes a word or phrase used to express a desired visual content in a searched digital image. In other words, a query term in one or more examples refers to an item in an image to be identified. A query term may include any word or sentence, including, for example, nouns, verbs, adverbs or adjectives. Thus, a "query term" may include a term indicating an item (eg, the term "car"), an action (eg, the term "pitch"), a descriptor (eg, the term "red"), a query criterion (eg, the term "Dangerous") or any combination thereof (eg the phrase "red car that is racing dangerously"). For example, the query term includes 110a in terms of the 1 "Person" and the query term 112a includes "tennis rackets".

Wie hier verwendet, bezieht sich der Ausdruck „gesuchter Bereich“ auf einen Bereich eines digitalen Bilds. Insbesondere umfasst der Ausdruck „gesuchter Bereich“ einen Bereich eines digitalen Bilds, der einen gesuchten visuellen Inhalt umfasst. Beispielsweise ist der „gesuchte Bereich“ für die räumlich-semantische Suche von 1C nach der Person die Mitte des digitalen Bilds. In Bezug auf das räumlich-semantische Mediensuchsystem kann ein Nutzer einen gesuchten Bereich mittels eines Abfragebereichs ausdrücken.As used herein, the phrase "searched area" refers to an area of a digital image. In particular, the term "searched area" includes an area of a digital image that includes a searched visual content. For example, the "searched area" for the spatial-semantic search of 1C after the person the center of the digital image. With respect to the spatial-semantic media search system, a user can express a searched area by means of a polling area.

Wie hier verwendet, bezieht sich der Begriff „Abfragebereich“ auf einen angegebenen Bereich eines digitalen Gegenstands. Insbesondere bezieht sich der Begriff „Abfragebereich“ auf einen Bereich einer digitalen Leinwand. Beispielsweise umfasst der „Abfragebereich“ einen Bereich einer digitalen Leinwand, der einen gesuchten Bereich in einem gesuchten digitalen Bild angibt. Insbesondere umfasst der Begriff „Abfragebereich“ einen Bereich einer digitalen Leinwand, der einen gesuchten Bereich angibt, der einen gesuchten visuellen Inhalt wiedergibt. Ein Abfragebereich kann viele verschiedene Formen oder Bereichstypen umfassen. Beispielsweise kann ein Abfragebereich einen Kreis, ein Quadrat, ein Rechteck, ein Dreieck oder eine andere Form umfassen. Entsprechend kann ein Abfragebereich eine Skizze, eine Zeichnung oder eine andere unregelmäßige Grenze oder Form umfassen. In Bezug auf die 1C ist der Abfragebereich 110 ein Rechteck innerhalb der digitalen Leinwand 108, das den Bereich angibt, in dem der Nutzer wünscht, dass sich dort eine Person befindet.As used herein, the term "query area" refers to a specified area of a digital asset. In particular, the term "interrogation area" refers to an area of a digital screen. For example, the "query area" includes an area of a digital canvas that indicates a searched area in a searched digital image. In particular, the term "query area" includes an area of a digital canvas that indicates a searched area that reflects a searched visual content. A query scope can include many different shapes or scope types. For example, a query region may include a circle, square, rectangle, triangle, or other shape. Similarly, a query area may include a sketch, a drawing, or other irregular border or shape. Regarding the 1C is the query area 110 a rectangle inside the digital canvas 108 indicating the area in which the user wishes to have a person there.

Darüber hinaus bezieht sich, wie hier verwendet, der Ausdruck „digitale Leinwand“ auf einen digitalen Bereich, in dem ein Nutzer einen Abfragebereich und/oder einen Abfragebegriff angeben oder eingeben kann. Insbesondere umfasst der Ausdruck „digitale Leinwand“ ein graphisches Nutzerschnittstellenelement, das eine visuelle Darstellung eines gesuchten digitalen Bilds zum Eingeben eines Abfragebereichs, der einen Suchbereich angibt, und eines Suchbegriffs, der einen gesuchten visuellen Inhalt angibt, umfasst. Beispielsweise umfasst eine digitale Leinwand eine digitale, zweidimensionale Darstellung eines Felds, mit dem ein Nutzer interagieren kann, um eine Nutzereingabe eines Abfragebereichs und/oder eines Abfragebegriffs bereitzustellen. Folglich umfasst die digitale Leinwand 108 in Bezug auf die 1C ein Feld zum Eingeben der Abfragebegriffe 110a, 112a und der Abfragebereiche 110, 112. In einer oder mehreren Ausführungsform(en) kann eine digitale Leinwand 108 eine Größe/Form aufweisen, die einem digitalen Bild oder anderen digitalen visuellen Medien entspricht.Moreover, as used herein, the term "digital canvas" refers to a digital area in which a user can specify or enter a query area and / or a query term. In particular, the term "digital canvas" includes a graphical user interface element that includes a visual representation of a searched digital image for inputting a query region indicating a search region and a search term indicating a searched visual content. For example, a digital canvas includes a digital, two-dimensional representation of a field with which a user may interact to provide user input of a query area and / or a query term. Consequently, the digital canvas includes 108 in terms of the 1C a field for entering the query terms 110a . 112a and the query areas 110 . 112 , In one or more embodiments, a digital canvas may be used 108 have a size / shape corresponding to a digital image or other digital visual media.

Wie es in der 1C gezeigt ist, führt das räumlich-semantische Mediensuchsystem eine Suche auf der Basis der digitalen Leinwand 108 durch. Insbesondere führt das räumlich-semantische Mediensuchsystem eine Suche auf der Basis des ersten Abfragebereichs 110, des ersten Abfragebegriffs 110a, des zweiten Abfragebereichs 112 und des zweiten Abfragebegriffs 112a durch, um digitale Bilder zu identifizieren. Insbesondere führt das räumlich-semantische Mediensuchsystem eine Suche zur Identifizierung von digitalen Bilden durch, die einen gesuchten visuellen Inhalt, der dem ersten Abfragebegriff 110a innerhalb eines gesuchten Bereichs entspricht, der dem ersten Abfragebereich 110 entspricht, und einen gesuchten visuellen Inhalt wiedergeben, der dem zweiten Abfragebegriff 112a innerhalb eines gesuchten Bereichs entspricht, der dem zweiten Abfragebereich 112 entspricht. Folglich umfassen, wie es gezeigt ist, die räumlich-semantischen Suchergebnisse 106a digitale Bilder mit einer Person, die einen Tennisschläger nach links hält. Insbesondere geben die digitalen Bilder in den räumlich-semantischen Suchergebnissen 106a eine Person innerhalb eines ersten gesuchten Bereichs, der dem ersten Abfragebereich 110 entspricht, und einen Tennisschläger innerhalb eines zweiten gesuchten Bereichs, der dem zweiten Abfragebereich 112 entspricht, wieder.As it is in the 1C is shown, the spatial-semantic media search system performs a search on the basis of the digital screen 108 by. In particular, the spatial-semantic media search system performs a search based on the first one query range 110 , the first query term 110a , the second query range 112 and the second query term 112a through to identify digital images. In particular, the spatial-semantic media search system performs a search to identify digital images that contain searched visual content corresponding to the first query term 110a within a searched range corresponding to the first query range 110 and to present a searched visual content corresponding to the second query term 112a within a searched range corresponding to the second query range 112 equivalent. Thus, as shown, the spatial-semantic search results include 106a digital pictures with a person holding a tennis racket to the left. In particular, the digital images in the spatial-semantic search results 106a a person within a first searched area that corresponds to the first query area 110 and a tennis racket within a second searched area corresponding to the second query area 112 corresponds, again.

Demgemäß kann ein Nutzer, der ein bestimmtes Seitenlayout gestaltet (d.h., ein Seitenlayout, das einen Tennisspieler erfordert, der einen Tennisschläger nach links hält), einfach eine Nutzereingabe des ersten Abfragebereichs 110, des ersten Abfragebegriffs 110a, des zweiten Abfragebereichs 112 und des zweiten Abfragebegriffs 112a mittels der digitalen Leinwand 108 bereitstellen. Als Reaktion kann das räumlich-semantische Mediensuchsystem eine Anzeige einer Mehrzahl von digitalen Bildern, die mit den angeforderten semantischen und räumlichen Merkmalen übereinstimmen, identifizieren und diese bereitstellen.Accordingly, a user designing a particular page layout (ie, a page layout that requires a tennis player holding a tennis racket to the left) may simply be a user input of the first polling area 110 , the first query term 110a , the second query range 112 and the second query term 112a by means of the digital screen 108 provide. In response, the spatial semantic media search system may identify and provide an indication of a plurality of digital images that match the requested semantic and spatial features.

Wie es vorstehend erwähnt worden ist, wählt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) durch die Nutzung eines neuronalen Abfragenetzwerks und eines neuronalen digitalen Bildnetzwerks digitale Bilder aus, die einem Abfragebereich und einem Abfragebegriff einer digitalen Leinwand entsprechen. Insbesondere erzeugt das räumlich-semantische Mediensuchsystem einen Abfragemerkmalssatz auf der Basis einer digitalen Leinwand durch Bereitstellen der digitalen Leinwand für ein neuronales Abfragenetzwerk. Entsprechend erzeugt das räumlich-semantische Mediensuchsystem digitale Bildmerkmalssätze durch Bereitstellen von digitalen Bildern für ein neuronales digitales Bildnetzwerk. Darüber hinaus kann das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz und die digitalen Bildmerkmalssätze vergleichen, so dass digitale Bilder ausgewählt werden, die der digitalen Leinwand entsprechen. Beispielsweise zeigt die 2 eine Darstellung des Identifizierens von digitalen Bildern auf der Basis eines neuronalen Abfragenetzwerks und eines neuronalen digitalen Bildnetzwerks gemäß einer oder mehrerer Ausführungsform(en).As mentioned above, in one or more embodiments, the spatial semantic media search system selects digital images corresponding to an interrogation area and a query term of a digital canvas through the use of a neural interrogation network and a neural digital image network. In particular, the spatial semantic media search system generates a query feature set based on a digital canvas by providing the digital canvas for a neural interrogation network. Accordingly, the spatial semantic media search system generates digital image feature sets by providing digital images for a neural digital image network. In addition, the spatial semantic media search system may compare the query feature set and the digital image feature sets to select digital images corresponding to the digital canvas. For example, the shows 2 4 is an illustration of identifying digital images based on a neural interrogation network and a neural digital image network in accordance with one or more embodiments.

Wie hier verwendet, bezieht sich der Ausdruck „neuronales Abfragenetzwerk“ auf ein neuronales Netzwerk, das einen Merkmalssatz auf der Basis von räumlichen und semantischen Informationen erzeugt. Insbesondere umfasst der Ausdruck „neuronales Abfragenetzwerk“ ein neuronales Faltungsnetzwerk, das einen Abfragemerkmalssatz auf der Basis eines Abfragebegriffs und eines Abfragebereichs erzeugt. Zusätzliche Details bezüglich Beispielausführungsformen eines neuronalen Abfragenetzwerks sind nachstehend angegeben.As used herein, the term "neural interrogation network" refers to a neural network that generates a feature set based on spatial and semantic information. In particular, the term "neural interrogation network" includes a neural convolution network that generates a query feature set based on a query term and an interrogation area. Additional details regarding example embodiments of a neural interrogation network are provided below.

Wie hier verwendet, bezieht sich der Ausdruck „neuronales digitales Bildnetzwerk“ auf ein neuronales Netzwerk, das einen Merkmalssatz auf der Basis eines digitalen Bilds erzeugt. Insbesondere umfasst der Ausdruck „neuronales digitales Bildnetzwerk“ ein neuronales Faltungsnetzwerk, das einen digitalen Bildmerkmalssatz auf der Basis eines digitalen Bilds als Eingabe in das neuronale Faltungsnetzwerk erzeugt. Das räumlich-semantische Mediensuchsystem kann auch ein neuronales digitales Mediennetzwerk nutzen, das einen Merkmalssatz auf der Basis eines digitalen Mediengegenstands erzeugt (z.B. einen Merkmalssatz auf der Basis von einem oder mehreren repräsentativen Rahmen („frame“) eines digitalen Videos). Zusätzliche Details bezüglich Beispielausführungsformen eines neuronalen digitalen Bildnetzwerks sind nachstehend angegeben.As used herein, the term "neural digital image network" refers to a neural network that generates a feature set based on a digital image. In particular, the term "neural digital image network" includes a neural convolution network that generates a digital image feature set based on a digital image as input to the neural convolution network. The spatial semantic media search system may also utilize a neural digital media network that generates a feature set based on a digital media item (e.g., a feature set based on one or more representative frames of a digital video). Additional details regarding example embodiments of a neural digital image network are given below.

Wie hier verwendet, bezieht sich der Begriff „Abfragemerkmalssatz“ auf einen digitalen Gegenstand, der durch ein neuronales Abfragenetzwerk auf der Basis eines Abfragebegriffs und eines Abfragebereichs erzeugt worden ist. Insbesondere kann der Begriff „Abfragemerkmalssatz“ einen oder mehrere Merkmalsvektor(en) umfassen, der oder die durch ein neuronales Faltungsnetzwerk erzeugt worden ist oder sind und räumliche und semantische Informationen wiedergibt oder wiedergeben. Beispielsweise kann ein Abfragemerkmalssatz einen Merkmalssatz umfassen, der durch eine Ebene eines neuronalen Faltungsnetzwerks erzeugt worden ist, die eine Darstellung von Merkmalen wiedergibt, die einem Abfragebegriff und einem Abfragebereich entsprechen. Beispielsweise kann der Abfragemerkmalssatz eine Sammlung von Merkmalsvektoren umfassen, die einen Abfragebegriff und einen Abfragebereich wiedergeben, wobei der Abfragemerkmalssatz dieselbe Dimensionalität wie ein digitaler Bildmerkmalssatz aufweist.As used herein, the term "query feature set" refers to a digital object that has been generated by a neural interrogation network based on a query term and an interrogation area. In particular, the term "query feature set" may include one or more feature vectors that have been or are being generated by a neural convolution network and that represent or reproduce spatial and semantic information. For example, a query feature set may include a feature set generated by a level of a neural convolution network that represents a representation of features that correspond to a query term and a query scope. For example, the query feature set may include a collection of feature vectors representing a query term and a query scope, the query feature set having the same dimensionality as a digital image feature set.

Wie er hier verwendet wird, bezieht sich darüber hinaus der Ausdruck „digitaler Bildmerkmalssatz“ auf einen digitalen Gegenstand, der durch ein neuronales digitales Bildnetzwerk auf der Basis eines digitalen Bilds erzeugt worden ist. Insbesondere umfasst der Ausdruck „digitaler Bildmerkmalssatz“ einen oder mehrere Merkmalsvektor(en), der oder die durch ein neuronales Faltungsnetzwerk erzeugt worden ist oder sind und Merkmale des digitalen Bilds wiedergibt oder wiedergeben. Beispielsweise kann ein Abfragemerkmalssatz einen Merkmalssatz umfassen, der durch eine Ebene eines neuronalen Faltungsnetzwerks erzeugt worden ist, die semantische Informationen und räumliche Informationen von dem digitalen Bild wiedergibt (z.B. einen Merkmalssatz an einer Hochniveauebene eines neuronalen Faltungsnetzwerks im Gegensatz zu einer vollständig verbundenen Ebene). Beispielsweise kann der digitale Bildmerkmalssatz eine Sammlung von Merkmalsvektoren umfassen, die ein digitales Bild wiedergeben, wobei der digitale Bildmerkmalssatz dieselbe Dimensionalität wie ein Abfragemerkmalssatz aufweist.As used herein, moreover, the term "digital image feature set" refers to a digital object that has been generated by a digital image based neural digital image network. In particular, the term "digital image feature set" includes one or more feature vectors that are or have been generated by a neural convolution network and that render or reproduce features of the digital image. For example, a query feature set may include a feature set generated by a plane of a neural convolution network that reproduces semantic information and spatial information from the digital image (e.g., a feature set at a high level of a convolutional neural network as opposed to a fully connected plane). For example, the digital image feature set may comprise a collection of feature vectors representing a digital image, wherein the digital image feature set has the same dimensionality as a query feature set.

Zur Veranschaulichung zeigt die 2 eine Darstellung des Identifizierens von digitalen Bildern, die einer digitalen Leinwand entspricht, mittels eines neuronalen Abfragenetzwerks und eines neuronalen digitalen Bildnetzwerks. Insbesondere zeigt die 2 eine digitale Leinwand 202, die einen Abfragebereich 202a und einen entsprechenden Abfragebegriff 202b umfasst. Darüber hinaus zeigt die 2 einen Speicherinhalt für digitale Bilder 208, der eine Mehrzahl von digitalen Bildern 208a bis 208n umfasst. Auf der Basis der digitalen Leinwand 202 führt das räumlich-semantische Mediensuchsystem ein Durchsuchen des Speicherinhalts für digitale Bilder 208 nach digitalen Bildern durch, die den Abfragebegriff 202b innerhalb des Abfragebereichs 202a wiedergeben.To illustrate, the 2 a representation of identifying digital images that corresponds to a digital canvas, using a neural interrogation network and a neural digital image network. In particular, the shows 2 a digital canvas 202 containing a query area 202a and a corresponding query term 202b includes. In addition, the shows 2 a memory content for digital pictures 208 that has a majority of digital pictures 208a to 208n includes. On the basis of the digital screen 202 The spatial-semantic media search system performs a search of the storage contents for digital images 208 according to digital images, the query term 202b within the query range 202a play.

Insbesondere führt das räumlich-semantische Mediensuchsystem, wie es in der 2 gezeigt ist, einen Schritt 220 zum Erzeugen eines Abfragemerkmalssatzes aus dem Abfragebereich und dem Abfragebegriff mittels eines neuronalen Abfragenetzwerks durch. Wie es in der 2 und der nachstehenden Beschreibung angegeben ist, führt das räumlich-semantische Mediensuchsystem den Schritt 220 durch Bereitstellen der digitalen Leinwand 202 für ein neuronales Abfragenetzwerk 204 zum Erzeugen eines Abfragemerkmalssatzes 206 durch.In particular, the spatial-semantic media search system, as described in the 2 shown is a step 220 for generating a query feature set from the query area and the query term by means of a neural interrogation network. As it is in the 2 and the description below, the spatial semantic media search system performs the step 220 by providing the digital canvas 202 for a neural interrogation network 204 for generating a query feature set 206 by.

Das räumlich-semantische Mediensuchsystem stellt die digitalen Bilder 208a bis 208n des Speicherinhalts für digitale Bilder 208 für ein neuronales digitales Bildnetzwerk 210 zum Erzeugen einer Mehrzahl von digitalen Bildmerkmalssätzen 212a bis 212n bereit. Ferner vergleicht das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz 206 und die Mehrzahl von digitalen Bildmerkmalssätzen 212a bis 212n zum Identifizieren von digitalen Bildern 214a bis 214c, die der digitalen Leinwand 202 entsprechen.The spatial-semantic media search system provides the digital images 208a to 208n the memory contents for digital pictures 208 for a neural digital image network 210 for generating a plurality of digital image feature sets 212a to 212n ready. Further, the spatial semantic media search system compares the query feature set 206 and the plurality of digital image feature sets 212a to 212n for identifying digital images 214a to 214c that the digital canvas 202 correspond.

In Bezug auf die Ausführungsform von 2 umfasst die digitale Leinwand 202 den Abfragebereich 202a und den Abfragebegriff 202b, die einen gesuchten Bereich bzw. einen gesuchten visuellen Inhalt wiedergeben. Wie es vorstehend erwähnt worden ist, kann die digitale Leinwand 202 jedwede Anzahl oder jedweden Typ von Abfragebereichen und entsprechenden Abfragebegriffen umfassen. Beispielsweise kann die digitale Leinwand 202 statt eines einzelnen Abfragebegriffs und eines einzelnen Abfragebereichs eine Mehrzahl von Abfragebegriffen und eine Mehrzahl von Abfragebereichen umfassen.With respect to the embodiment of 2 includes the digital canvas 202 the query area 202a and the query term 202b that represent a searched area or visual content. As mentioned above, the digital canvas can 202 include any number or type of query areas and corresponding query terms. For example, the digital canvas 202 instead of a single query term and a single query area, comprise a plurality of query terms and a plurality of query areas.

Wie es in der 2 gezeigt ist, stellt das räumlich-semantische Mediensuchsystem die digitale Leinwand 202 für das neuronale Abfragenetzwerk 204 bereit (d.h., als Teil des Schritts 220 zum Erzeugen eines Abfragemerkmalssatzes aus dem Abfragebereich und dem Abfragebegriff mittels eines neuronalen Abfragenetzwerks). Insbesondere stellt das räumlich-semantische Mediensuchsystem die digitale Leinwand 202 für das neuronale Abfragenetzwerk 204 durch Erzeugen einer Darstellung des Abfragebereichs 202a und des Abfragebegriffs 202b bereit. Insbesondere stellt das räumlich-semantische Mediensuchsystem die digitale Leinwand 202 als dreidimensionales Gitter bereit und stellt das dreidimensionale Gitter als Eingabe für das trainierte neuronale Abfragenetzwerk 204 bereit.As it is in the 2 is shown, the spatial-semantic media search system is the digital canvas 202 for the neural interrogation network 204 ready (ie, as part of the step 220 for generating a query feature set from the query area and the query term using a neural interrogation network). In particular, the spatial-semantic media search system represents the digital screen 202 for the neural interrogation network 204 by generating a representation of the query area 202a and the query term 202b ready. In particular, the spatial-semantic media search system represents the digital screen 202 as a three-dimensional grid and provides the three-dimensional grid as input to the trained neural interrogation network 204 ready.

Beispielsweise wandelt das räumlich-semantische Mediensuchsystem den Abfragebegriff 202b mittels eines Wort-zu-Vektor-Algorithmus in einen Abfragebegriffvektor um. Darüber hinaus bestückt das räumlich-semantische Mediensuchsystem dann Elemente (z.B. räumliche Orte) des dreidimensionalen Gitters, das dem Abfragebereich 202a entspricht, mit dem Abfragebegriffvektor. Obwohl das räumlich-semantische Mediensuchsystem ein dreidimensionales Gitter mit vielen verschiedenen Größen erzeugen kann, erzeugt das räumlich-semantische Mediensuchsystem zur Veranschaulichung in einer oder mehreren Ausführungsform(en) ein dreidimensionales 31 x 31 x 300-Gitter, das die digitale Leinwand darstellt. Zusätzliche Details in Bezug auf das Erzeugen eines dreidimensionalen Gitters sind nachstehend in Bezug auf die 3 angegeben.For example, the spatial-semantic media search system converts the query term 202b using a word-to-vector algorithm into a query term vector. In addition, the spatial-semantic media search system then populates elements (eg, spatial locations) of the three-dimensional grid, the query area 202a corresponds to the query term vector. Although the spatial semantic media search system may generate a three-dimensional grid of many different sizes, the spatial-semantic media search system for illustration in one or more embodiments generates a three-dimensional 31 x 31 x 300 grid that represents the digital canvas. Additional details relating to generating a three-dimensional grid are given below with respect to FIGS 3 specified.

Wie es in der 2 gezeigt ist, nutzt das räumlich-semantische Mediensuchsystem als Teil des Schritts 220 das neuronale Abfragenetzwerk 204 zum Erzeugen des Abfragemerkmalssatzes 206 auf der Basis der digitalen Leinwand 202. Insbesondere ist das neuronale Abfragenetzwerk 204 von 2 ein generatives Faltungsmodell (d.h., ein neuronales Faltungsnetzwerk). Insbesondere ist das neuronale Abfragenetzwerk 204 ein neuronales Faltungsnetzwerk, das die Eingabe eines dreidimensionalen Gitters (z.B. eines dreidimensionalen 31 x 31 x 300-Gitters) nutzt und einen Abfragemerkmalssatz als Ausgabe erzeugt. Insbesondere erzeugt das räumlich-semantische Mediensuchsystem einen Abfragemerkmalssatz mit einer ähnlichen Dimensionalität wie die digitalen Bildmerkmalssätze (z.B. einen 7 x 7 x 832-Merkmalssatz).As it is in the 2 shown uses the spatial-semantic media search system as part of the step 220 the neural interrogation network 204 for generating the query feature set 206 on the basis of the digital screen 202 , In particular, the neural interrogation network 204 from 2 a generative convolution model (ie, a neuronal convolution network). In particular, the neural interrogation network 204 a convolutional neural network that utilizes the input of a three-dimensional grid (eg, a three-dimensional 31 x 31 x 300 grid) and generates a query feature set as output. In particular, the spatial semantic media search system generates a query feature set having a similar dimensionality as the digital image feature sets (eg, a 7x7x832 feature set).

Das räumlich-semantische Mediensuchsystem nutzt ein neuronales Abfragenetzwerk mit verschiedenen Formen zur Erzeugung von Abfragemerkmalssätzen. In Bezug auf die Ausführungsform von 2 und als Teil des Schritts 220 umfasst das neuronale Abfragenetzwerk 204 ein generatives Faltungsmodell mit drei Faltungsebenen, die durch zwei Max-Pooling- und zwei Subsampling-Ebenen verschachtelt sind. Insbesondere umfasst die Tabelle 1 die detaillierte Architektur des neuronalen Abfragenetzwerks 204 in Bezug auf die Ausführungsform von 2. TABELLE 1 Ebene Typ Anzahl der Merkmale Rezeptives Feld Schritt 1 Faltung 256 3x3 1 2 Max-Pooling 256 2x2 2 3 Faltung 512 3x3 1 4 Max-Poolinq 512 2x2 2 5 Faltung 832 2x2 1 The spatial semantic media search system uses a neural interrogation network of various forms to generate query feature sets. With respect to the embodiment of 2 and as part of the step 220 includes the neural interrogation network 204 a generative convolution model with three levels of convolution, which are nested by two max-pooling and two subsampling levels. In particular, Table 1 includes the detailed architecture of the neural interrogation network 204 with respect to the embodiment of 2 , TABLE 1 level Type Number of features Receptive field step 1 folding 256 3x3 1 2 Max pooling 256 2x2 2 3 folding 512 3x3 1 4 Max Poolinq 512 2x2 2 5 folding 832 2x2 1

Zusätzlich zur Nutzung des neuronalen Abfragenetzwerks 204 zur Erzeugung des Abfragemerkmalssatzes 206, wie es in der 2 gezeigt ist, nutzt das räumlich-semantische Mediensuchsystem auch das neuronale digitale Bildnetzwerk 210 zur Erzeugung der digitalen Bildmerkmalssätze 212a bis 212n. Insbesondere stellt das räumlich-semantische Mediensuchsystem die Mehrzahl von digitalen Bildern 208a bis 208n für das neuronale digitale Bildnetzwerk 210 zur Erzeugung der digitalen Bildmerkmalssätze 212a bis 212n bereit.In addition to using the neural interrogation network 204 to generate the query feature set 206 as it is in the 2 is shown, the spatial-semantic media search system also uses the neural digital image network 210 for generating the digital image feature sets 212a to 212n , In particular, the spatial semantic media search system provides the plurality of digital images 208a to 208n for the neural digital image network 210 for generating the digital image feature sets 212a to 212n ready.

In Bezug auf die 2 umfasst das neuronale digitale Bildnetzwerk 210 ein tiefgehendes neuronales Faltungsnetzwerk. Insbesondere umfasst das neuronale digitale Bildnetzwerk 210 ein tiefgehendes neuronales Faltungsnetzwerk mit einer Mehrzahl von Ebenen (d.h., Hochniveaufaltungsebenen, Max-Pooling-Ebenen und vollständig verbundene Ebenen). Beispielsweise umfasst das neuronale digitale Bildnetzwerk 210 in einer oder mehreren Ausführungsform(en) das neuronale Faltungsnetzwerk GoogLeNet, das in C. Szegedy et al., „Going deeper with convolutions“, 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, Seiten 1 bis 9 , beschrieben ist, dessen gesamter Inhalt hierin unter Bezugnahme einbezogen ist.Regarding the 2 includes the neural digital image network 210 a deep neural folding network. In particular, the neural digital image network includes 210 a deep neural convolution network with a plurality of levels (ie, high level levels, max pool levels, and fully connected levels). For example, the neural digital image network includes 210 in one or more embodiments, the neural convolution network GoogLeNet, which is incorporated in C. Szegedy et al., "Going deeper with convolutions," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pages 1-9 , the entire contents of which are incorporated herein by reference.

GoogLeNet ist ein neuronales Faltungsnetzwerk mit einer spezifischen Architektur. Insbesondere umfasst GoogLeNet im Allgemeinen einen Stamm, eine Mehrzahl von Anfangsmodulen und einen Ausgabeklassifizierer. Der Stamm umfasst eine aufeinander folgende Kette von Vorgängen des Faltens, Poolings und Normalisierens einer lokalen Reaktion. Die Anfangsmodule umfassen jeweils einen Satz von Faltungen und Poolings in verschiedenen Maßstäben, die jeweils parallel ausgeführt und dann miteinander verknüpft werden. Beispielsweise nutzt GoogLeNet 22 Anfangsmodule. Der Ausgabeklassifizierer führt einen Durchschnittspoolingvorgang gefolgt von einer vollständig verbundenen Ebene durch.GoogLeNet is a neural folding network with a specific architecture. In particular, GoogLeNet generally includes a root, a plurality of starting modules and an output classifier. The strain comprises a successive chain of processes of folding, pooling and normalizing a local response. The initial modules each comprise a set of convolutions and poolings of different scales, each being executed in parallel and then linked together. For example, GoogLeNet uses 22 startup modules. The output classifier performs an average pooling followed by a fully connected level.

In einer oder mehreren Ausführungsform(en) nutzt das räumlich-semantische Mediensuchsystem das neuronale digitale Bildnetzwerk 210 zur Erzeugung der digitalen Bildmerkmalssätze 212a bis 212n durch Nutzen eines Merkmalssatzes, der bei einer Hochniveauebene innerhalb des neuronalen digitalen Bildnetzwerks 210 erzeugt worden ist. Beispielsweise wird das neuronale digitale Bildnetzwerk 210 in einer oder mehreren Ausführungsform(en) zum Vorhersagen von Gegenstandsklassifizierungen trainiert, die in einem digitalen Bild dargestellt sind. In einer oder mehreren Ausführungsform(en) erhält das räumlich-semantische Mediensuchsystem statt des Erhaltens einer Klassifizierung von dem neuronalen digitalen Bildnetzwerk einen Merkmalssatz von einer Ebene des neuronalen digitalen Bildnetzwerks und nutzt den Merkmalssatz als einen der digitalen Bildmerkmalssätze 212a bis 212n.In one or more embodiments, the spatial semantic media search system utilizes the neural digital image network 210 for generating the digital image feature sets 212a to 212n by using a feature set that is at a high level within the neural digital image network 210 has been generated. For example, the neural digital image network becomes 210 in one or more embodiments for predicting item classifications represented in a digital image. In one or more embodiments, instead of receiving a classification from the neural digital image network, the spatial semantic media search system obtains a feature set from a level of the neural digital image network and uses the feature set as one of the digital image feature sets 212a to 212n ,

Insbesondere umfasst, wie es vorstehend beschrieben worden ist, das neuronale digitale Bildnetzwerk 210 in einer oder mehreren Ausführungsform(en) eine Mehrzahl von Hochniveaufaltungsebenen, Max-Pooling-Ebenen und vollständig verbundenen Ebenen. Die Hochniveaufaltungsebenen innerhalb des neuronalen digitalen Bildnetzwerks neigen dazu, sowohl räumliche Informationen (d.h., Informationen bezüglich der Anordnung von Gegenständen in dem digitalen Bild) als auch semantische Informationen (d.h., Informationen bezüglich der Klassifizierung oder der Markierung von Gegenständen in dem digitalen Bild) zu bewahren, und zwar im Gegensatz zu vollständig verbundenen Ebenen, die sich auf die semantischen Informationen zum Klassifizieren der in dem digitalen Bild gezeigten Gegenstände fokussieren. Demgemäß nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) einen Merkmalssatz, der bei einer Hochniveaufaltungsebene bestimmt worden ist, die sowohl räumliche Informationen als auch semantische Informationen bewahrt. Zur Veranschaulichung nutzt das räumlich-semantische Mediensuchsystem in Bezug auf die 2 einen Merkmalssatz von dem vierten Anfangsmodul der GoogLeNet-Architektur zum Erzeugen der digitalen Bildmerkmalssätze 212a bis 212n.In particular, as described above, the neural digital image network includes 210 in one or more embodiments, a plurality of high level setup levels, max pooling levels, and fully connected levels. The high level circuitry levels within the neural digital image network tend to retain both spatial information (ie, information regarding the location of objects in the digital image) and semantic information (ie, information regarding the classification or marking of objects in the digital image) as opposed to fully connected layers that focus on the semantic information for classifying the objects shown in the digital image. Accordingly, in one or more embodiments, the spatial semantic media search system utilizes a feature set determined at a high-level setup level that preserves both spatial information and semantic information. By way of illustration, the spatio-semantic uses Media search system in relation to the 2 a feature set from the fourth initial module of the GoogLeNet architecture for generating the digital image feature sets 212a to 212n ,

In einer oder mehreren Ausführungsform(en) trainiert das räumlich-semantische Mediensuchsystem auch ein neuronales digitales Bildnetzwerk. Beispielsweise trainiert das räumlich-semantische Mediensuchsystem in Bezug auf die 2 das neuronale digitale Bildnetzwerk 210 mittels eines Satzes von digitalen Trainingsbildern mit einer oder mehreren bekannten Klassfizierung(en) (z.B. bekannten Gegenständen, die in dem digitalen Bild gezeigt sind). Das räumlich-semantische Mediensuchsystem stellt den Satz von digitalen Trainingsbildern für das neuronale digitale Bildnetzwerk 210 bereit und das neuronale digitale Bildnetzwerk 210 erzeugt vorhergesagte Klassifizierungen der digitalen Trainingsbilder (z.B. einen Versuch zum Klassifizieren von Gegenständen, die in den digitalen Trainingsbildern gezeigt sind). Das räumlich-semantische Mediensuchsystem trainiert das neuronale digitale Bildnetzwerk 210 durch Vergleichen der vorhergesagten Klassifizierung mit der tatsächlichen Klassifizierung der in dem digitalen Bild gezeigten Gegenstände. Obwohl das räumlich-semantische Mediensuchsystem jedwede Vielfalt von digitalen Trainingsbildern oder Speicherinhalten von digitalen Trainingsbildern nutzen kann, trainiert das räumlich-semantische Mediensuchsystem in Bezug auf die Ausführungsform von 2 das neuronale digitale Bildnetzwerk 210 durch Versorgen des neuronalen digitalen Bildnetzwerks mit dem ImageNet-Bilddatensatz - vgl. J. Deng, W. Dong, R. Socher, L. J. Li, Kai Li and Li Fei-Fei, „ImageNet: A large-scale hierarchical image database“, Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, Miami, FL, 2009, Seiten 248-255 , dessen gesamter Inhalt unter Bezugnahme hierin einbezogen ist.In one or more embodiments, the spatial semantic media search system also trains a neural digital image network. For example, the spatial-semantic media search system trains with respect to the 2 the neural digital image network 210 by means of a set of digital training images with one or more known classifications (eg known objects shown in the digital image). The spatial semantic media search system provides the set of digital training images for the neural digital image network 210 ready and the neural digital image network 210 generates predicted classifications of the digital training images (eg, an attempt to classify objects shown in the digital training images). The spatial-semantic media search system trains the neural digital image network 210 by comparing the predicted classification with the actual classification of the items shown in the digital image. Although the spatial semantic media search system may utilize any variety of digital training images or storage contents of digital training images, the spatial semantic media search system is practicing with respect to the embodiment of FIG 2 the neural digital image network 210 by providing the neural digital image network with the ImageNet image data set - cf. J. Deng, W. Dong, R. Socher, Li Li, Kai Li and Li Fei-Fei, "ImageNet: A large-scale hierarchical image database", Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, Miami, FL, 2009, pages 248-255 the entire contents of which are incorporated herein by reference.

Wie es in der 2 gezeigt ist, vergleicht das räumlich-semantische Mediensuchsystem nach dem Erzeugen der digitalen Bildmerkmalssätze 212a bis 212n und des Bildmerkmalssatzes 206 den Abfragemerkmalssatz und die digitalen Bildmerkmalssätze 212a bis 212n zum Identifizieren von digitalen Bildern, die der digitalen Leinwand 202 entsprechen. Insbesondere vergleicht das räumlich-semantische Mediensuchsystem die Merkmalssätze durch Bestimmen eines Abstands zwischen dem Abfragemerkmalssatz und den digitalen Bildmerkmalssätzen 212a bis 212n. Insbesondere umfassen die Merkmalssätze in Bezug auf die Ausführungsform von 2 Merkmalsvektoren. Demgemäß vergleicht das räumlich-semantische Mediensuchsystem die Merkmalssätze durch Bestimmen eines Kosinusabstands zwischen den Merkmalsvektoren.As it is in the 2 3, the spatial-semantic media search system compares after generating the digital image feature sets 212a to 212n and the picture feature set 206 the query feature set and the digital image feature sets 212a to 212n to identify digital images, the digital canvas 202 correspond. In particular, the spatial semantic media search system compares the feature sets by determining a distance between the query feature set and the digital image feature sets 212a to 212n , In particular, the feature sets in relation to the embodiment of FIG 2 Feature vectors. Accordingly, the spatial semantic media search system compares the feature sets by determining a cosine distance between the feature vectors.

Auf der Basis des Vergleichs zwischen dem Abfragemerkmalssatz 206 und der Mehrzahl von digitalen Bildmerkmalssätzen 212a bis 212n identifiziert das räumlich-semantische Mediensuchsystem die digitalen Bilder 214a bis 214c, die der digitalen Leinwand 202 entsprechen. Insbesondere identifiziert das räumlich-semantische Mediensuchsystem die digitalen Bilder 214a bis 214c, die einen visuellen Inhalt zeigen, der dem Abfragebegriff 202b innerhalb eines Bereichs entspricht, der dem Abfragebereich 202a entspricht. Zur Veranschaulichung klassifiziert das räumlich-semantische Mediensuchsystem digitale Bilder auf der Basis des Vergleichs zwischen dem Abfragemerkmalssatz 206 und der Mehrzahl von digitalen Bildmerkmalssätzen 212a bis 212n (d.h., klassifiziert die digitalen Bilder auf der Basis des Abstands zwischen dem Abfragemerkmalssatz und den entsprechenden digitalen Bildmerkmalssätzen). Darüber hinaus stellt das räumlich-semantische Mediensuchsystem die am Besten klassifizierten digitalen Bilder 214a bis 214c für eine Anzeige bereit (d.h., den besten Prozentsatz oder die beste Anzahl von digitalen Bildern). Zusätzliche Details bezüglich einer graphischen Nutzerschnittstelle zur Bereitstellung von digitalen Bildsuchergebnissen zur Anzeige sind nachstehend in Bezug auf die 5A bis 5C angegeben.Based on the comparison between the query feature set 206 and the plurality of digital image feature sets 212a to 212n The spatial-semantic media search system identifies the digital images 214a to 214c that the digital canvas 202 correspond. In particular, the spatial semantic media search system identifies the digital images 214a to 214c that show a visual content that matches the query term 202b within an area corresponding to the query area 202a equivalent. By way of illustration, the spatial semantic media search system classifies digital images based on the comparison between the query feature set 206 and the plurality of digital image feature sets 212a to 212n (ie, classifies the digital images based on the distance between the query feature set and the corresponding digital image feature sets). In addition, the spatial semantic media search system provides the best classified digital images 214a to 214c ready for an ad (ie, the best percentage or the best number of digital images). Additional details regarding a graphical user interface for providing digital image search results for display are described below with respect to FIGS 5A to 5C specified.

Unter Bezugnahme auf die 3 werden zusätzliche Details in Bezug auf die Erzeugung einer Darstellung einer digitalen Leinwand gemäß einer oder mehrerer Ausführungsform(en) bereitgestellt. Wie es vorstehend diskutiert worden ist, erzeugt das räumlich-semantische Mediensuchsystem eine Darstellung eines Abfragebegriffs und eines Abfragebereichs zur Bereitstellung eines neuronalen Abfragenetzwerks. Die 3 zeigt die Erzeugung eines Abfragebereichs und eines Abfragebegriffs aus einer digitalen Leinwand. Insbesondere zeigt die 3 eine digitale Leinwand 300, die einen ersten Abfragebereich 302 mit einem ersten Abfragebegriff 302a (d.h., „Fenster“), einen zweiten Abfragebereich 304 mit einem zweiten Abfragebegriff 304a (d.h., „Wand“) und einen dritten Abfragebereich 306 mit einem dritten Abfragebegriff 306a (d.h., „Bett“) umfasst.With reference to the 3 Additional details regarding the generation of a representation of a digital canvas according to one or more embodiments are provided. As discussed above, the spatial semantic media search system generates a representation of a query term and an interrogation area to provide a neural interrogation network. The 3 shows the generation of a query area and a query term from a digital canvas. In particular, the shows 3 a digital canvas 300 containing a first query area 302 with a first query term 302a (ie, "window"), a second polling area 304 with a second query term 304a (ie, "wall") and a third polling area 306 with a third query term 306a (ie, "bed").

Wie es gezeigt ist, extrahiert das räumlich-semantische Mediensuchsystem die Abfragebegriffe 302a, 304a, 306a aus der digitalen Leinwand 300 und wendet einen Wort-zu-Vektor-Algorithmus 308 an. Ein Wort-zu-Vektor-Algorithmus erzeugt eine Vektordarstellung bezüglich eines linguistischen Kontexts eines Begriffs oder mehrerer Begriffe. Insbesondere wird ein Wort-zu-Vektor-Algorithmus zum Erzeugen eines Vektors aus Worten oder Sätzen trainiert, wobei der resultierende Vektor einen linguistischen Kontext aus Worten oder Sätzen angibt. Beispielsweise kann ein Wort-zu-Vektor-Algorithmus als Trainingseingabe einen Speicherinhalt von Text verwenden und jedem Wort einem vieldimensionalen Raum zuordnen. Insbesondere ordnet der Wort-zu-Vektor-Algorithmus jedem Wort in dem Trainingsspeicherinhalt von Text einen entsprechenden Vektor in dem vieldimensionalen Raum zu. Der Wort-zu-Vektor-Algorithmus positioniert die Wortvektoren derart in dem Raum, dass Worte mit einem (einer) entsprechenden linguistischen Kontext/Bedeutung in dem Raum sehr nahe beieinander angeordnet sind. Demgemäß kann ein Wort-zu-Vektor-Algorithmus Vektoren erzeugen, die eine linguistische Bedeutung eines oder mehrerer Eingabebegriffe wiedergeben. Das räumlich-semantische Mediensuchsystem kann jedweden von verschiedenen Wort-zu-Vektor-Algorithmen nutzen. In Bezug auf die 3 nutzt das räumlich-semantische Mediensuchsystem „Word2vec“ als Wort-zu-Vektor-Algorithmus 308, wie er in Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, Jeff Dean (2013), „Distributed representations of words and phrases and their compositionality“, NIPS 2013, beschrieben worden ist, wobei dessen gesamter Inhalt unter Bezugnahme hierin einbezogen ist.As shown, the spatial semantic media search system extracts the query terms 302a . 304a . 306a from the digital screen 300 and applies a word-to-vector algorithm 308 at. A word-to-vector algorithm generates a vector representation relating to a linguistic context of a term or terms. In particular, a word-to-vector algorithm for generating a vector from words or sentences is trained, the resulting vector indicating a linguistic context of words or sentences. For example, a word-to-vector algorithm training input may use a memory content of text and associate each word with a multidimensional space. In particular, the word-to-vector algorithm assigns each word in the training memory content of text a corresponding vector in the multidimensional space. The word-to-vector algorithm positions the word vectors in the space such that words having a corresponding linguistic context / meaning in the space are located very close to each other. Accordingly, a word-to-vector algorithm may generate vectors that represent a linguistic meaning of one or more input terms. The spatio-semantic Media search system may use any of various word-to-vector algorithms. Regarding the 3 uses the spatial-semantic media search system "Word2vec" as a word-to-vector algorithm 308 , as in Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, Jeff Dean ( 2013 ), "Distributed representations of words and phrases and their compositionality", NIPS 2013 , the entire contents of which are incorporated herein by reference.

Wie es gezeigt ist, wendet das räumlich-semantische Mediensuchsystem den Wort-zu-Vektor-Algorithmus 308 auf die Abfragebegriffe 302a, 304a, 306a an und erzeugt einen ersten Abfragebegriffvektor 310, einen zweiten Abfragebegriffvektor 312 und einen dritten Abfragebegriffvektor 314. Wie hier verwendet, bezieht sich der Begriff „Abfragebegriffvektor“ auf eine Vektordarstellung eines Worts. Insbesondere umfasst der Begriff „Abfragebegriffvektor“ eine Vektordarstellung einer linguistischen Bedeutung eines Abfragebegriffs. Demgemäß umfasst der erste Abfragebegriffvektor 310 eine Vektordarstellung der linguistischen Bedeutung des Abfragebegriffs 302a. Entsprechend umfasst der zweite Abfragebegriffvektor 312 eine Vektordarstellung der linguistischen Bedeutung des Abfragebegriffs 304a und der dritte Abfragebegriffvektor 314 umfasst eine Vektordarstellung der linguistischen Bedeutung des Abfragebegriffs 306a.As shown, the spatial semantic media search system applies the word-to-vector algorithm 308 on the query terms 302a . 304a . 306a and generates a first query term vector 310 , a second query term vector 312 and a third query term vector 314 , As used herein, the term "query term vector" refers to a vector representation of a word. In particular, the term "query term vector" includes a vector representation of a linguistic meaning of a query term. Accordingly, the first query term vector comprises 310 a vector representation of the linguistic meaning of the query term 302a , Accordingly, the second query term vector comprises 312 a vector representation of the linguistic meaning of the query term 304a and the third query term vector 314 includes a vector representation of the linguistic meaning of the query term 306a ,

Nach der Erzeugung der Abfragebegriffvektoren 310 bis 314 kodiert das räumlich-semantische Mediensuchsystem die Abfragebegriffvektoren in einem dreidimensionalen Gitter 320. Wie hier verwendet, bezieht sich der Ausdruck „dreidimensionales Gitter“ auf einen digitalen Gegenstand, der drei Variablen wiedergibt. Demgemäß umfasst der Ausdruck „dreidimensionales Gitter“ eine Matrix, eine Datenbank oder eine Tabelle, die Daten umfasst, die drei Variablen wiedergeben. Beispielsweise umfasst ein dreidimensionales Gitter eine Matrix mit Daten, die eine Position in einer ersten Richtung, eine Position in einer zweiten Richtung und einen Abfragebegriffvektor darstellen. Zur Veranschaulichung kann ein dreidimensionales Gitter eine Matrix mit Abfragebegriffvektorwerten umfassen, die in Bezug auf einen räumlichen Ort einer digitalen Leinwand eingebettet sind.After generating the query term vectors 310 to 314 The Spatial Semantic Media Search System encodes the query term vectors in a three-dimensional grid 320 , As used herein, the term "three-dimensional grid" refers to a digital object that represents three variables. Accordingly, the term "three-dimensional grid" includes a matrix, a database, or a table that includes data that represents three variables. For example, a three-dimensional grid includes a matrix of data representing a position in a first direction, a position in a second direction, and a query term vector. By way of illustration, a three-dimensional grid may comprise a matrix of query term vector values embedded with respect to a spatial location of a digital canvas.

Beispielsweise zeigt die 3 das dreidimensionale Gitter 320 in der Form einer dreidimensionalen Matrix, wobei zwei Dimensionen der x-Position und der y-Position (d.h., einer räumlichen Position) der digitalen Leinwand 300 entsprechen und eine dritte Dimension Werten von Abfragebegriffvektoren entspricht. Insbesondere erzeugt das räumlich-semantische Mediensuchsystem das dreidimensionale Gitter 320 durch Zuordnen der Abfragebegriffvektoren 310 bis 314 zu den räumlichen Positionen der entsprechenden Abfragebereiche 302 bis 306. Folglich ordnet das räumlich-semantische Mediensuchsystem den ersten Abfragebegriffvektor 310 räumlichen Positionen zu, die dem ersten Abfragebereich 302 entsprechen, ordnet den zweiten Abfragebegriffvektor 312 dem zweiten Abfragebereich 304 zu und ordnet den dritten Abfragebegriffvektor 314 dem dritten Abfragebereich 306 zu. Demgemäß ist das dreidimensionale Gitter 320 eine digitale Darstellung sowohl der Abfragebereiche 302 bis 306 als auch der Abfragebegriffe 302a bis 306a.For example, the shows 3 the three-dimensional grid 320 in the form of a three-dimensional matrix, wherein two dimensions of the x-position and the y-position (ie, a spatial position) of the digital canvas 300 and a third dimension matches values of query term vectors. In particular, the spatial-semantic media search system generates the three-dimensional grid 320 by associating the query term vectors 310 to 314 to the spatial positions of the corresponding query areas 302 to 306 , As a result, the spatial-semantic media search system orders the first query term vector 310 spatial locations corresponding to the first query area 302 match, assigns the second query term vector 312 the second query area 304 and assigns the third query term vector 314 the third query area 306 to. Accordingly, the three-dimensional grid 320 a digital representation of both the query areas 302 to 306 as well as the query terms 302a to 306a ,

Obwohl die 3 das dreidimensionale Gitter 320 zeigt, das eine bestimmte Struktur (z.B. sieben Spalten und fünf Zeilen) aufweist, kann das räumlich-semantische Mediensuchsystem ein dreidimensionales Gitter erzeugen, dass viele verschiedene Strukturen aufweist. Beispielsweise erzeugt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) ein dreidimensionales Gitter, das eine 31 x 31 x 300-Leinwanddarstellung umfasst. Darüber hinaus kann, wie es vorstehend beschrieben worden ist, das räumlich-semantische Mediensuchsystem die 31 x 31 x 300-Leinwanddarstellung für ein neuronales Abfragenetzwerk bereitstellen, so dass ein 7 x 7 x 832-Merkmalssatz erzeugt wird, bei dem es sich um die Dimensionalität von Merkmalssätzen handelt, die durch GoogLeNet zur Darstellung von digitalen Bildern erzeugt worden sind.Although the 3 the three-dimensional grid 320 Having a particular structure (eg, seven columns and five rows), the spatial-semantic media search system can create a three-dimensional mesh that has many different structures. For example, in one or more embodiments, the spatial semantic media search system generates a three-dimensional grid that includes a 31x31x300 canvas image. In addition, as described above, the spatial semantic media search system may provide the 31x31x300 screen representation for a neural interrogation network to produce a 7x7x832 feature set that is dimensionality of feature sets generated by GoogLeNet to display digital images.

Wie es vorstehend erwähnt worden ist, trainiert das räumlich-semantische Mediensuchsystem zusätzlich zur Nutzung eines neuronalen Abfragenetzwerks in einer oder mehreren Ausführungsform(en) auch ein neuronales Abfragenetzwerk. Insbesondere trainiert das räumlich-semantische Mediensuchsystem ein neuronales Abfragenetzwerk zum Erzeugen eines Abfragemerkmalsatzes auf der Basis einer Darstellung einer digitalen Leinwand. Insbesondere trainiert das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) ein neuronales Abfragenetzwerk durch Bereitstellen einer Mehrzahl von Trainingsbegriffen und Trainingsbereichen, die einer Mehrzahl von digitalen Trainingsbildern entsprechen. Das neuronale Abfragenetzwerk erzeugt vorhergesagte Merkmalssätze auf der Basis der Trainingsbegriffe und der Trainingsbereiche. Darüber hinaus trainiert das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk mittels einer Trainingsstruktur, welche die vorhergesagten Merkmalssätze mit realen Merkmalssätzen vergleicht, die den digitalen Trainingsbildern entsprechen.As mentioned above, in addition to using a neural interrogation network in one or more embodiments, the spatial semantic media search system also trains a neural interrogation network. In particular, the spatial semantic media search system trains a neural interrogation network to generate a query feature set based on a representation of a digital canvas. In particular, in one or more embodiments, the spatial semantic media search system trains a neural interrogation network by providing a plurality of training terms and training areas corresponding to a plurality of digital training images. The neural interrogation network generates predicted feature sets based on the training terms and the training areas. In addition, the spatial semantic media search system trains the neural interrogation network using a training structure that compares the predicted feature sets to real feature sets that correspond to the digital training images.

Wie hier verwendet, bezieht sich der Ausdruck „digitales Trainingsbild“ auf ein digitales Bild, das zum Trainieren eines neuronalen Netzwerks verwendet wird. Insbesondere umfasst ein digitales Trainingsbild ein digitales Bild, das einen bekannten visuellen Inhalt in einem bestimmten Bereich des digitalen Bilds zeigt (z.B. einen identifizierten Gegenstand, der eine bekannte Gegenstandsmaske innerhalb des digitalen Bilds aufweist). Wie es nachstehend beschrieben ist, kann das räumlich-semantische Mediensuchsystem den bekannten visuellen Inhalt und den Bereich zum Trainieren des neuronalen Netzwerks nutzen. Insbesondere kann das räumlich-semantische Mediensuchsystem einen Trainingsbegriff und einen Trainingsbereich identifizieren und den Trainingsbegriff und den Trainingsbereich für das neuronale Abfragenetzwerk bereitstellen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem einen Merkmalssatz, der dem digitalen Trainingsbild entspricht, zum Trainieren des neuronalen Netzwerks zum Vorhersagen genauerer Merkmalssätze nutzen. As used herein, the term "digital training image" refers to a digital image used to train a neural network. In particular, a digital training image includes a digital image that displays known visual content in a particular area of the digital image (eg, an identified object that has a known subject mask within the digital image). As described below, the spatial semantic media search system may utilize the known visual content and the neural network training area. In particular, the spatial semantic media search system may identify a training term and a training area and provide the training term and training area for the neural interrogation network. In addition, the spatial semantic media search system may utilize a feature set corresponding to the digital training image to train the neural network to predict more accurate feature sets.

Wie hier verwendet, bezieht sich der Begriff „Trainingsbereich“ auf einen Bereich, der für ein neuronales Netzwerk zum Trainieren des neuronalen Netzwerks bereitgestellt wird. Insbesondere bezieht sich der Begriff „Trainingsbereich“ auf einen Bereich eines digitalen Trainingsbilds, das einen bekannten visuellen Inhalt enthält. Beispielsweise umfasst der Begriff „Trainingsbereich“ eine Gegenstandsmaske oder eine andere Grenze, die einem visuellen Inhalt (z.B. einem Gegenstand) entspricht, der in einem digitalen Trainingsbild gezeigt ist.As used herein, the term "training area" refers to an area provided for a neural network to train the neural network. In particular, the term "training area" refers to an area of a digital training image that contains a known visual content. For example, the term "training area" includes an object mask or other border that corresponds to a visual content (e.g., an item) shown in a digital training image.

Darüber hinaus bezieht sich der Begriff „Trainingsbegriff“ auf ein Wort oder einen Satz, das oder der einen visuellen Inhalt eines digitalen Trainingsbilds beschreibt. Insbesondere umfasst der Begriff „Trainingsbegriff” ein Wort oder einen Satz, das oder der einen visuellen Inhalt beschreibt, der innerhalb eines Trainingsbereichs eines digitalen Trainingsbilds liegt. Folglich kann z.B. in Bezug auf ein digitales Trainingsbild, das ein Auto zeigt, das räumlich-semantische Mediensuchsystem einen Trainingsbegriff (d.h., „Auto“) und einen Trainingsbereich (d.h., einen Bereich des digitalen Trainingsbilds, der das Auto umfasst) identifizieren.In addition, the term "training term" refers to a word or phrase that describes a visual content of a digital training image. In particular, the term "training term" includes a word or phrase that describes a visual content that is within a training range of a digital training image. Consequently, e.g. with respect to a digital training image showing an automobile, the spatial semantic media search system identifies a training term (i.e., "car") and training range (i.e., an area of the digital training image that includes the car).

Beispielsweise zeigen die 4A und 4B das Trainieren eines neuronalen Abfragenetzwerks gemäß einer oder mehreren Ausführungsform(en) des räumlich-semantischen Mediensuchsystems. Insbesondere zeigt die 4A einen ersten Trainingsbereich 402a, der einem ersten Trainingsbegriff 402b entspricht, einen zweiten Trainingsbereich 404a, der einem zweiten Trainingsbegriff 404b entspricht, und einen dritten Trainingsbereich 406a, der einem dritten Trainingsbegriff 406b entspricht. Jeder der Trainingsbereiche 402a bis 406a und der Trainingsbegriffe 402b bis 406b entspricht einem visuellen Inhalt der digitalen Trainingsbilder 402 bis 406. Beispielsweise entsprechen der Trainingsbereich 402a und der Trainingsbegriff 402b dem digitalen Trainingsbild 402, das eine Person innerhalb des Trainingsbereichs des digitalen Trainingsbilds 402 zeigt.For example, the show 4A and 4B training a neural interrogation network according to one or more embodiments of the spatial semantic media search system. In particular, the shows 4A a first training area 402a , the first training concept 402b corresponds to a second training area 404a , the second training concept 404b corresponds, and a third training area 406a , the third training concept 406b equivalent. Each of the training areas 402a to 406a and the training terms 402b to 406b corresponds to a visual content of the digital training images 402 to 406 , For example, the training area corresponds 402a and the training concept 402b the digital training image 402 Being a person within the training area of the digital training image 402 shows.

Das räumlich-semantische Mediensuchsystem erhält die digitalen Trainingsbilder 402 bis 406 von einem Speicherinhalt von digitalen Trainingsbildern. Insbesondere greift das räumlich-semantische Mediensuchsystem auf einen Speicherinhalt von digitalen Trainingsbildern zu und wählt die digitalen Trainingsbilder 402 bis 406 zusammen mit Informationen aus, die Gegenstände, die in den digitalen Trainingsbildern 402 bis 406 gezeigt sind, und den Ort der in den digitalen Trainingsbildern 402 bis 406 gezeigten Gegenstände angeben. Das räumlich-semantische Mediensuchsystem erzeugt dann die Trainingsbegriffe 402b bis 406b und die Trainingsbereiche 404a bis 406a auf der Basis der Informationen, welche die Gegenstände, die in den digitalen Bildern gezeigt sind, und den Ort der gezeigten Gegenstände angeben.The spatial-semantic media search system receives the digital training images 402 to 406 from a memory content of digital training images. In particular, the spatial semantic media search system accesses a memory content of digital training images and selects the digital training images 402 to 406 along with information from, the items included in the digital training images 402 to 406 are shown, and the place in the digital training images 402 to 406 specify items shown. The spatial-semantic media search system then generates the training terms 402b to 406b and the training areas 404a to 406a on the basis of the information indicating the objects shown in the digital images and the location of the objects shown.

Darüber hinaus weist jedes der digitalen Trainingsbilder einen entsprechenden digitales Trainingsbild-Merkmalssatz auf. Beispielsweise entsprechen der erste Trainingsbereich 402a und der erste Trainingsbegriff 402b (d.h., „Person“) einem ersten Merkmalssatz 402c des ersten digitalen Trainingsbilds 402. Entsprechend entsprechen der zweite Trainingsbereich 404a und der zweite Trainingsbegriff 404b (d.h., „Auto“) einem zweiten Merkmalssatz 404c eines zweiten digitalen Trainingsbilds 404.In addition, each of the digital training images has a corresponding digital training image feature set. For example, the first training area correspond 402a and the first concept of training 402b (ie, "person") a first feature set 402c the first digital training image 402 , Accordingly, the second training area correspond 404a and the second concept of training 404b (ie, "car") a second feature set 404c a second digital training image 404 ,

Das räumlich-semantische Mediensuchsystem erhält oder erzeugt die digitales Trainingsbild-Merkmalssätze 402c bis 406c. Beispielsweise greift das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) auf einen Speicherinhalt von digitalen Bildern zu, der bereits die Merkmalssätze 402c bis 406c umfasst. In anderen Ausführungsformen erzeugt das räumlich-semantische Mediensuchsystem die Merkmalssätze 402c bis 406c (z.B. durch Bereitstellen der digitalen Trainingsbilder 402 bis 406 für ein digitales Bildabfragenetzwerk).The spatial semantic media search system obtains or generates the digital training image feature sets 402c to 406c , For example, in one or more embodiments, the spatial semantic media search system accesses a memory content of digital images that already contains the feature sets 402c to 406c includes. In other embodiments, the spatial semantic media search system generates the feature sets 402c to 406c (eg by providing the digital training images 402 to 406 for a digital image interrogation network).

Wie es in der 4A gezeigt ist, stellt das räumlich-semantische Mediensuchsystem die Trainingsbereiche 402a bis 406a und die Trainingsbegriffe 402b bis 406b für ein neuronales Abfragenetzwerk 410 bereit (z.B. das neuronale Abfragenetzwerk 204, das vorstehend beschrieben worden ist). Wie bei der Nutzung eines neuronalen Abfragenetzwerks zum Erzeugen eines Abfragemerkmalssatzes kann das räumlich-semantische Mediensuchsystem beim Training eines neuronalen Abfragenetzwerks eine Darstellung eines Trainingsbereichs und eines Trainingsbegriffs erzeugen und die Darstellung des Trainingsbereichs und des Trainingsbegriffs für das neuronale Abfragenetzwerk bereitstellen. Beispielsweise kann das räumlich-semantische Mediensuchsystem ein dreidimensionales Gitter erzeugen (z.B. das dreidimensionale Gitter 320), das jedem Trainingsbereich und entsprechendem Trainingsbegriff entspricht, und das dreidimensionale Gitter für ein neuronales Abfragenetzwerk bereitstellen.As it is in the 4A is shown, the spatial-semantic media search system sets the training areas 402a to 406a and the training terms 402b to 406b for a neural interrogation network 410 ready (eg the neural interrogation network 204 which has been described above). As with the use of a neural interrogation network to generate a query feature set, the spatially-semantic media search system may provide a representation of a neural interrogation network when training a neural interrogation network Create a training area and a training term and provide the representation of the training area and the training concept for the neural interrogation network. For example, the spatial-semantic media search system may generate a three-dimensional grid (eg, the three-dimensional grid 320 ), which corresponds to each training area and training term, and provide the three-dimensional grid for a neural interrogation network.

Beispielsweise erzeugt das räumlich-semantische Mediensuchsystem in Bezug auf die 4A ein dreidimensionales Gitter, das dem ersten Trainingsbereich 402a und dem ersten Trainingsbegriff 402b entspricht. Insbesondere wandelt das räumlich-semantische Mediensuchsystem den ersten Trainingsbegriff 402b mittels eines Wort-zu-Vektor-Algorithmus in einen Trainingsbegriffvektor um. Das räumlich-semantische Mediensuchsystem kodiert dann den Trainingsbegriffvektor zu einem räumlichen Bereich eines dreidimensionalen Gitters, der dem Trainingsbereich 402a entspricht. Das räumlich-semantische Mediensuchsystem stellt dann das dreidimensionale Gitter für das neuronale Abfragenetzwerk 410 bereit. Das räumlich-semantische Mediensuchsystem kann entsprechend Darstellungen der restlichen Trainingsbereich und Trainingsbegriffe erzeugen und bereitstellen.For example, the spatial semantic media search system generates with respect to the 4A a three-dimensional grid that is the first training area 402a and the first concept of training 402b equivalent. In particular, the spatial-semantic media search system transforms the first concept of training 402b using a word-to-vector algorithm into a training term vector. The spatial-semantic media search system then encodes the training term vector to a spatial area of a three-dimensional grid that corresponds to the training area 402a equivalent. The spatial-semantic media search system then provides the three-dimensional grid for the neural interrogation network 410 ready. The spatial semantic media search system may generate and provide representations of the remaining training area and training terms accordingly.

Ferner nutzt das räumlich-semantische Mediensuchsystem, wie es in der 4A gezeigt ist, nach dem Erhalten eines Trainingsbereichs und eines Trainingsbegriffs (d.h., einer Darstellung des Trainingsbereichs und des Trainingsbegriffs) das neuronale Abfragenetzwerk 410 zum Erzeugen von vorhergesagten Merkmalssätzen. Insbesondere nutzt das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk 410 zum Erzeugen eines ersten vorhergesagten Merkmalssatzes 412, eines zweiten vorhergesagten Merkmalssatzes 414 und eines dritten vorhergesagten Merkmalssatzes 416, die den Trainingsbereichen 402a bis 406a und den Trainingsbegriffen 402b bis 406b entsprechen. Insbesondere erzeugt das räumlich-semantische Mediensuchsystem die vorhergesagten Merkmalssätze 412 bis 416 derart, dass sie dieselbe Dimensionalität aufweisen wie die Merkmalssätze 402c bis 406c, die den digitalen Trainingsbildern 402 bis 406 entsprechen. Zur Veranschaulichung erzeugt das räumlich-semantische Mediensuchsystem die vorhergesagten Merkmalssätze 412 bis 416 mit einer Dimensionalität von 7 x 7 x 832, die den Merkmalssätzen 402c bis 406c der digitalen Trainingsbilder entspricht, die ebenfalls eine Dimensionalität von 7 x 7 x 832 aufweisen.Furthermore, the spatial-semantic media search system, as used in the 4A after obtaining a training area and a training term (ie, a representation of the training area and the training term), the neural interrogation network is shown 410 for generating predicted feature sets. In particular, the spatial semantic media search system utilizes the neural interrogation network 410 for generating a first predicted feature set 412 , a second predicted feature set 414 and a third predicted feature set 416 that the training areas 402a to 406a and the training terms 402b to 406b correspond. In particular, the spatial semantic media search system generates the predicted feature sets 412 to 416 such that they have the same dimensionality as the feature sets 402c to 406c that the digital training images 402 to 406 correspond. By way of illustration, the spatial semantic media search system generates the predicted feature sets 412 to 416 with a dimensionality of 7 x 7 x 832, the feature sets 402c to 406c corresponds to the digital training images, which also have a dimensionality of 7 x 7 x 832.

Nach dem Erzeugen der vorhergesagten Merkmalssätze 412 bis 416 nutzt das räumlich-semantische Mediensuchsystem die Merkmalssätze 402c bis 406c, die den digitalen Trainingsbildern 402 bis 406 entsprechen, zum Trainieren des neuronalen Abfragenetzwerks. Insbesondere zeigt die 4A eine Trainingsstruktur 420, welche die vorhergesagten Merkmalssätze 412 bis 416 zum Erzeugen eines trainierten neuronalen Abfragenetzwerks 430 nutzt. Insbesondere umfasst die Trainingsstruktur 420 eine erste Verlustfunktion 422, eine zweite Verlustfunktion 424 und eine dritte Verlustfunktion 426.After generating the predicted feature sets 412 to 416 the spatial semantic media search system uses the feature sets 402c to 406c that the digital training images 402 to 406 to train the neural interrogation network. In particular, the shows 4A a training structure 420 which the predicted feature sets 412 to 416 for generating a trained neural interrogation network 430 uses. In particular, the training structure includes 420 a first loss function 422 , a second loss function 424 and a third loss function 426 ,

Wie es gezeigt ist, vergleicht jede Verlustfunktion 422 bis 426 vorhergesagte Merkmalssätze mit den tatsächlichen Merkmalssätzen, die jedem digitalen Trainingsbild entsprechen. Beispielsweise vergleicht das räumlich-semantische Mediensuchsystem in Bezug auf die erste Verlustfunktion 422 den vorhergesagten ersten Merkmalssatz 412 und den ersten Merkmalssatz 402c, die dem ersten digitalen Trainingsbild 402 entsprechen. Entsprechend vergleicht das räumlich-semantische Mediensuchsystem in Bezug auf die zweite Verlustfunktion 424 den vorhergesagten zweiten Merkmalssatz 414 und den zweiten Merkmalssatz 404c, die dem zweiten digitalen Trainingsbild 404 entsprechen.As shown, every loss function compares 422 to 426 predicted feature sets with the actual feature sets corresponding to each digital training image. For example, the spatial semantic media search system compares with respect to the first loss function 422 the predicted first feature set 412 and the first feature set 402c that the first digital training image 402 correspond. Accordingly, the spatial-semantic media search system compares with respect to the second loss function 424 the predicted second feature set 414 and the second feature set 404c that the second digital training image 404 correspond.

Das räumlich-semantische Mediensuchsystem vergleicht die vorhergesagten Merkmalssätze 412 bis 416 mit den Merkmalssätzen 402c bis 406c mittels verschiedener Verlustfunktionen. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsformen eine Verlustfunktion (d.h., minimiert eine Verlustfunktion), die den Abstand zwischen den vorhergesagten Merkmalssätzen 412 bis 416 und den Merkmalssätzen 402c bis 406c vergleicht. Zur Veranschaulichung in Bezug auf die Ausführungsform von 4A umfassen die vorhergesagten Merkmalssätze 412 bis 416 und die Merkmalssätze 402c bis 406c Merkmalsvektoren; demgemäß vergleicht das räumlich-semantische Mediensuchsystem die vorhergesagten Merkmalssätze 412 bis 416 und die Merkmalssätze 402c bis 406c durch Bestimmen eines Abstands (z.B. eines Kosinusabstands) zwischen Merkmalsvektoren.The spatial-semantic media search system compares the predicted feature sets 412 to 416 with the feature sets 402c to 406c by means of different loss functions. For example, in one or more embodiments, the spatial semantic media search system utilizes a loss function (ie, minimizes a loss function) that determines the distance between the predicted feature sets 412 to 416 and the feature sets 402c to 406c compares. To illustrate with respect to the embodiment of 4A include the predicted feature sets 412 to 416 and the feature sets 402c to 406c Feature vectors; accordingly, the spatial semantic media search system compares the predicted feature sets 412 to 416 and the feature sets 402c to 406c by determining a distance (eg, a cosine distance) between feature vectors.

Obwohl die 4A das räumlich-semantische Mediensuchsystem zeigt, das drei Verlustfunktionen 422 bis 426, die drei verschiedenen digitalen Bildern 402 bis 406 und drei verschiedenen Merkmalssätzen 402c bis 406c entsprechen, gleichzeitig analysiert, kann das räumlich-semantische Mediensuchsystem digitale Bilder gleichzeitig oder nacheinander analysieren. Beispielsweise trainiert das räumlich-semantische Mediensuchsystem in Bezug auf die Ausführungsform von 4A das neuronale Abfragenetzwerk 410 mittels der Verlustfunktion 422, des Merkmalssatzes 402c und des vorhergesagten Merkmalssatzes 412 in einer ersten Trainingsabfrage. Danach trainiert das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk 410 mittels der zweiten Verlustfunktion 424, des zweiten Merkmalssatzes 404c und des vorhergesagten Merkmalssatzes 414 in einer zweiten Trainingsabfrage. Insbesondere nutzt das räumlich-semantische Mediensuchsystem in Bezug auf die Ausführungsform von 4A einen „Stochastic Gradient Descend“-Algorithmus zum Trainieren des neuronalen Abfragenetzwerks 410 durch Minimieren des akkumulierten stochastischen Verlusts, der für jede Trainingsabfrage festgelegt ist.Although the 4A the spatial-semantic media search system shows that three loss functions 422 to 426 , the three different digital images 402 to 406 and three different feature sets 402c to 406c Simultaneously analyzed, the spatial-semantic media search system can analyze digital images simultaneously or sequentially. For example, the spatially-semantic media search system trains with respect to the embodiment of FIG 4A the neural interrogation network 410 by means of the loss function 422 , the feature set 402c and the predicted feature set 412 in a first training query. Thereafter, the spatial-semantic media search system trains the neural interrogation network 410 by means of the second loss function 424 , the second feature set 404c and the predicted feature set 414 in a second training query. In particular, the spatial semantic media search system utilizes the embodiment of FIG 4A a "Stochastic Gradient Descend" algorithm for training the neural interrogation network 410 by minimizing the accumulated stochastic loss set for each training query.

Trainingsstrukturen und die Verlustfunktionen können auch als Pseudocode und/oder Gleichungen beschrieben werden, die durch eine Rechenvorrichtung implementiert werden, um den akkumulierten stochastischen Verlust zu minimieren. Beispielsweise minimiert das räumlich-semantische Mediensuchsystem eine Ähnlichkeitsverlustfunktion, die den Kosinusabstand zwischen einem vorhergesagten Merkmalssatz, F_q (z.B. dem vorhergesagten Merkmalssatz 412), mit einem bekannten Merkmalssatz, F_I
q (z.B. dem Merkmalssatz 402c), des digitalen Trainingsbilds, I_q (z.B. des digitalen Trainingsbilds 402), vergleicht. Insbesondere nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) die folgende Ähnlichkeitsverlustfunktion: $L_{s} (F_{q}) = 1 - cos (F_{q}, F_{1_{q}})$

Training structures and the loss functions may also be described as pseudocode and / or equations implemented by a computing device to minimize the accumulated stochastic loss. For example, the spatial semantic media search system minimizes a similarity loss function that reduces the cosine distance between a predicted feature set, F _q (eg, the predicted feature set 412 ), with a known feature set, F _I _q (eg the feature set 402c ), the digital training image, I _q (eg the digital training image 402 ), compares. In particular, in one or more embodiments, the spatial semantic media search system utilizes the following similarity loss function:

L_{s} (F_{q}) = 1 - cos (F_{q} . F_{1_{q}})

Das Minimieren dieser Verlustfunktion unterstützt ein neuronales Abfragenetzwerk (z.B. das neuronale Abfragenetzwerk 410) bei der Vorhersage des Merkmalssatzes F_q so ähnlich wie möglich an dem richtigen („ground-truth“) digitalen Trainingsbild (z.B. dem digitalen Trainingsbild 402), auf dem der Trainingsbereich (z.B. der Trainingsbereich 402a) und der Trainingsbegriff (z.B. der Trainingsbegriff 402b) basieren. Mit anderen Worten, das Minimieren der Verlustfunktion (mittels eines „Stochastic Gradient Descend“-Algorithmus) erzeugt ein trainiertes neuronales Netzwerk, das Merkmalssätze erzeugen wird, die näher an dem gesuchten visuellen Inhalt innerhalb von gesuchten Bereichen von gesuchten digitalen Bildern liegen.Minimizing this loss function supports a neural interrogation network (eg, the neural interrogation network 410 ) in predicting feature set F _q as closely as possible to the true ("ground-truth") digital training image (eg, the digital training image 402 ) on which the training area (eg the training area 402a ) and the training concept (eg the training concept 402b ). In other words, minimizing the loss function (using a Stochastic Gradient Descend algorithm) creates a trained neural network that will produce feature sets that are closer to the searched visual content within searched ranges of searched digital images.

Das räumlich-semantische Mediensuchsystem kann verschiedene digitale Trainingsbilder (mit entsprechenden Trainingsbegriffen und Trainingsbereichen) nutzen, um das trainierte neuronale Abfragenetzwerk 430 zu erzeugen. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) einen Speicherinhalt von digitalen Bildern, der tausende von gesuchten digitalen Bildern mit einem bekannten visuellen Inhalt und bekannten Bereichen umfasst (d.h., digitale Bilder mit bekannten Gegenständen und Gegenstandsnetzen). Zur Veranschaulichung nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) eine Kombination aus MS-COCO- und Visual Genome-Datensätzen. Das räumlich-semantische Mediensuchsystem kann auch andere Speicherinhalte von digitalen Bildern nutzen, wie z.B. digitale Bilder, die von der ADOBE STOCK®-Software und einer digitalen Bilddatenbank verwaltet werden.The spatial semantic media search system may use various digital training images (with corresponding training terms and training areas) to form the trained neural interrogation network 430 to create. For example, in one or more embodiments, the spatial semantic media search system utilizes a memory content of digital images that includes thousands of searched digital images having known visual content and known regions (ie, digital images with known objects and meshes). By way of illustration, in one or more embodiments, the spatial semantic media search system utilizes a combination of MS COCO and visual genome data sets. The spatial semantic media search system may also utilize other storage contents of digital images, such as digital images managed by the ADOBE STOCK® software and a digital image database.

In einer oder mehreren Ausführungsform(en) nutzt das räumlich-semantische Mediensuchsystem auch eine räumliche Maske beim Trainieren eines neuronalen Abfragenetzwerks. Insbesondere kann das räumlich-semantische Mediensuchsystem eine räumliche Maske auf Merkmalssätze von digitalen Trainingsbildern zum Fokussieren des Trainings des neuronalen Abfragenetzwerks auf einen Trainingsbereich anwenden. Insbesondere bestimmt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) eine Gegenstandsgrenze eines Gegenstands, der in einem digitalen Trainingsbild gezeigt ist, und wendet eine räumliche Maske auf einen Bereich außerhalb der Gegenstandsgrenze an, um einen maskierten Merkmalssatz zu erzeugen. Das räumlich-semantische Mediensuchsystem kann dann den maskierten Merkmalssatz zum Trainieren des neuronalen Abfragenetzwerks nutzen.In one or more embodiments, the spatial semantic media search system also utilizes a spatial mask when training a neural interrogation network. In particular, the spatial semantic media search system may apply a spatial mask to feature sets of digital training images to focus training of the neural interrogation network on a training area. In particular, in one or more embodiments, the spatial semantic media search system determines an article boundary of an object shown in a digital training image and applies a spatial mask to an area outside the article boundary to produce a masked feature set. The spatial semantic media search system may then use the masked feature set to train the neural interrogation network.

Beispielsweise zeigt die 4A das Anwenden einer räumlichen Maske auf einen Merkmalssatz zum Erzeugen eines maskierten Merkmalssatzes gemäß einer oder mehrerer Ausführungsform(en). Insbesondere wendet das räumlich-semantische Mediensuchsystem eine räumliche Maske 432 auf den zweiten Merkmalssatz 404c an. Insbesondere bestimmt das räumlich-semantische Mediensuchsystem eine Gegenstandsgrenze 428 eines Gegenstands (z.B. des Autos), das in dem digitalen Trainingsbild 404 gezeigt ist, das dem zweiten Merkmalssatz 404c entspricht. Darüber hinaus wendet das räumlich-semantische Mediensuchsystem die räumliche Maske 432 auf einen Bereich außerhalb der Gegenstandsgrenze 428 an, so dass der zweite Merkmalssatz 404c nur Merkmale innerhalb der Gegenstandsgrenze 428 umfasst. Auf diese Weise entfernt das räumlich-semantische Mediensuchsystem einen anderen visuellen Inhalt, der in dem digitalen Trainingsbild 402 gezeigt ist, um das neuronale Abfragenetzwerk 410 schneller auf Merkmale zu fokussieren, die innerhalb des zweiten Trainingsbereichs 404a enthalten sind (anstatt auf irrelevante Merkmale außerhalb des gesuchten Bereichs). Durch Anwenden einer räumlichen Maske kann das räumlich-semantische Mediensuchsystem die Geschwindigkeit des Trainings eines neuronalen Abfragenetzwerks signifikant verbessern.For example, the shows 4A applying a spatial mask to a feature set to generate a masked feature set according to one or more embodiments. In particular, the spatial semantic media search system uses a spatial mask 432 on the second feature set 404c at. In particular, the spatial-semantic media search system determines an item boundary 428 of an object (eg the car) in the digital training image 404 shown is the second feature set 404c equivalent. In addition, the spatial-semantic media search system uses the spatial mask 432 to an area outside the subject line 428 so that the second feature set 404c only features within the item boundary 428 includes. In this way, the spatial semantic media search system removes another visual content contained in the digital training image 402 shown to the neural interrogation network 410 Focuss faster on features that are within the second training range 404a contained (rather than on irrelevant features outside of the searched Range). By applying a spatial mask, the spatial semantic media search system can significantly improve the speed of training a neural interrogation network.

Obwohl in der 4A nur das Anwenden einer räumlichen Maske auf das digitale Trainingsbild 404 gezeigt ist, das dem zweiten Merkmalssatz 404c entspricht, kann das räumlich-semantische Mediensuchsystem beim Trainieren eines neuronalen Abfragenetzwerks eine räumliche Maske auf zusätzliche (oder alle) digitale(n) Bilder anwenden. Zusätzlich kann, obwohl die 4A eine bestimmte Gegenstandsgrenze 428 zeigt (d.h., eine Gegenstandsmaske, die sehr genau den Konturen eines Autos folgt, das in dem digitalen Trainingsbild 404 gezeigt ist) und die räumliche Maske 432 auf einen Bereich außerhalb der Gegenstandsgrenze 428 anwendet, das räumlich-semantische Mediensuchsystem viele verschiedene Gegenstandsgrenzen verwenden. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) eine Gegenstandsgrenze auf der Basis eines gesuchten Bereichs (z.B. ist die Gegenstandsgrenze 428 äquivalent zu dem Trainingsbereich 404a und das räumlich-semantische Mediensuchsystem wendet eine räumliche Maske auf einen Bereich außerhalb des Trainingsbereichs 404a an).Although in the 4A just applying a spatial mask to the digital training image 404 shown is the second feature set 404c Similarly, when training a neural interrogation network, the Spatial Semantic Media Search System may apply a spatial mask to additional (or all) digital images. In addition, although the 4A a certain subject line 428 shows (ie, an object mask that follows very closely the contours of a car, in the digital training image 404 shown) and the spatial mask 432 to an area outside the subject line 428 applies, the spatial-semantic media search system uses many different subject boundaries. For example, in one or more embodiments, the spatial-semantic media search system uses an article boundary based on a searched area (eg, the subject boundary 428 equivalent to the training area 404a and the spatial semantic media search system applies a spatial mask to an area outside of the training area 404a at).

Wie es vorstehend erwähnt worden ist, trainiert das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) ferner ein neuronales Abfragenetzwerk zum Unterstützen eines optimalen Auffindungsleistungsvermögens. Insbesondere kann das räumlich-semantische Mediensuchsystem ein neuronales Abfragenetzwerk so trainieren, dass es nicht nur Abfragemerkmalssätze erzeugt, die gesuchten digitalen Bildern ähnlich sind, sondern auch so, dass es zwischen irrelevanten digitalen Bildern oder Abfragen unterscheidet. Insbesondere nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) nicht nur eine Ähnlichkeitsverlustfunktion (wie es vorstehend beschrieben worden ist), sondern nutzt auch eine bildbasierte Einstufungsverlustfunktion und/oder eine abfragebasierte Einstufungsverlustfunktion beim Trainieren eines neuronalen Abfragenetzwerks.As mentioned above, in one or more embodiments, the spatial semantic media search system further trains a neural interrogation network to support optimal retrieval performance. In particular, the spatial semantic media search system may train a neural interrogation network to not only generate query feature sets that are similar to searched digital images, but also to distinguish between irrelevant digital images or queries. In particular, in one or more embodiments, the spatial semantic media search system not only utilizes a similarity loss function (as described above) but also utilizes an image-based rating loss function and / or a query-based rating loss function in training a neural interrogation network.

Beispielsweise zeigt die 4B das Trainieren eines neuronalen Abfragenetzwerks mittels einer Ähnlichkeitsverlustfunktion, einer bildbasierten Einstufungsverlustfunktion und einer abfragebasierten Einstufungsverlustfunktion gemäß einer oder mehreren Ausführungsform(en) des räumlich-semantischen Mediensuchsystems. Insbesondere zeigt die 4B einen Trainingsbereich 440a und einen Trainingsbegriff 440b. Insbesondere entsprechen der Trainingsbereich 440a und der Trainingsbegriff 440b einem digitalen Trainingsbild 440, das einen Merkmalssatz 440c aufweist (d.h., das digitale Trainingsbild 440 zeigt den Trainingsbereichbegriff 440b, eine Person, innerhalb des Trainingsbereichs 440a, wie es in dem Trainingsmerkmalssatz 440c dargestellt ist)For example, the shows 4B training a neural interrogation network using a similarity loss function, an image-based rating loss function, and a query-based rating loss function according to one or more embodiments of the spatial-semantic media search system. In particular, the shows 4B a training area 440a and a training concept 440b , In particular, the training area correspond 440a and the training concept 440b a digital training image 440 that has a feature set 440c (ie, the digital training image 440 shows the training area term 440b , a person, within the training area 440a as it is in the training feature set 440c is shown)

Wie es gezeigt ist, stellt das räumlich-semantische Mediensuchsystem den Trainingsbereich 440a und den Trainingsbegriff 440b für das neuronale Abfragenetzwerk 442 bereit. Darüber hinaus erzeugt das Trainieren des neuronalen Abfragenetzwerks 442 einen vorhergesagten Merkmalssatz 444. Das räumlich-semantische Mediensuchsystem nutzt dann eine Trainingsstruktur 446 zum Erzeugen eines trainierten neuronalen Abfragenetzwerks 460. Insbesondere umfasst die Trainingsstruktur 446 eine abfragebasierte Einstufungsverlustfunktion 448, eine Ähnlichkeitsverlustfunktion 450 und eine bildbasierte Einstufungsverlustfunktion 452.As shown, the spatial semantic media search system provides the training area 440a and the training concept 440b for the neural interrogation network 442 ready. In addition, training trains the neural interrogation network 442 a predicted feature set 444 , The spatial-semantic media search system then uses a training structure 446 for generating a trained neural interrogation network 460 , In particular, the training structure includes 446 a query-based rating loss function 448 , a similarity loss function 450 and an image-based rating loss function 452 ,

Wie es vorstehend beschrieben worden ist, umfasst die Ähnlichkeitsverlustfunktion 450 einen Vergleich zwischen dem vorhergesagten Merkmalssatz 444 und dem Merkmalssatz 440c, der dem digitalen Trainingsbild entspricht. Die Ähnlichkeitsverlustfunktion 450 gibt daher ein Maß der Ähnlichkeit zwischen dem digitalen Trainingsbild 440, das zum Erzeugen des Trainingsbereichs 440a und des Trainingsbegriffs 440b verwendet wird, und dem vorhergesagten Merkmalssatz 444 wieder. Darüber hinaus hat die Minimierung der Ähnlichkeitsverlustfunktion 450 den Effekt, dass dem neuronalen Abfragenetzwerk das Erzeugen von Merkmalssätzen gelernt wird, die Merkmalssätzen von digitalen Trainingsbildern ähnlich sind.As described above, the similarity loss function includes 450 a comparison between the predicted feature set 444 and the feature set 440c that corresponds to the digital training image. The similarity loss function 450 therefore gives a measure of similarity between the digital training image 440 that for creating the training area 440a and the training concept 440b is used and the predicted feature set 444 again. In addition, minimization has the similarity loss function 450 the effect of learning to the neural interrogation network how to create feature sets that are similar to feature sets of digital training images.

Zusätzlich zu der Ähnlichkeitsverlustfunktion 450 umfasst die Trainingsstruktur 446 auch die abfragebasierte Einstufungsverlustfunktion 448. Das räumlich-semantische Mediensuchsystem nutzt die abfragebasierte Einstufungsverlustfunktion 448 zum Unterstützen einer geeigneten Einstufung über einen Satz von Abfragen mit einem referenzierten digitalen Bild. Mit anderen Worten, das räumlich-semantische Mediensuchsystem nutzt die abfragebasierte Einstufungsverlustfunktion 448 zum Trainieren des neuronalen Abfragenetzwerks 442 zum Erzeugen eines Abfragemerkmalssatzes, der nicht nur gesuchten digitalen Bildern ähnlich ist, sondern auch von irrelevanten digitalen Bildern verschieden ist. Wie es gezeigt ist, umfasst die abfragebasierte Einstufungsverlustfunktion 448 einen Vergleich zwischen dem vorhergesagten Merkmalssatz 444 und einem negativen digitalen Bildmerkmalssatz 454 auf der Basis eines negativen digitalen Bilds.In addition to the similarity loss function 450 includes the training structure 446 also the query-based rating loss function 448 , The spatial-semantic media search system uses the query-based ranking loss function 448 to support an appropriate ranking via a set of queries with a referenced digital image. In other words, the spatial semantic media search system uses the query-based rating loss function 448 to train the neural interrogation network 442 for generating a query feature set that is not only similar to searched digital images but is also different from irrelevant digital images. As shown, the query-based rating loss function includes 448 a comparison between the predicted feature set 444 and a negative digital image feature set 454 based on a negative digital image.

Wie hier verwendet, bezieht sich der Ausdruck „negatives digitales Bild“ auf ein digitales Bild, das sich von einem digitalen Trainingsbild unterscheidet. Insbesondere umfasst der Ausdruck „negatives digitales Bild“ ein digitales Bild, das einen visuellen Inhalt wiedergibt, der von einem Trainingsbegriff verschieden ist, der einen visuellen Inhalt beschreibt, der in einem digitalen Trainingsbild gezeigt ist. Beispielsweise wenn ein digitales Trainingsbild eine Katze zeigt, würde ein negative digitales Trainingsbild ein digitales Bild umfassen, das einen Hund zeigt (d.h., keine Katze). As used herein, the term "negative digital image" refers to a digital image that is different from a digital training image. In particular, the term "negative digital image" includes a digital image representing a visual content other than a training term describing a visual content shown in a digital training image. For example, if a digital training image shows a cat, a negative digital training image would include a digital image showing a dog (ie, not a cat).

Wie hier verwendet bezieht sich der Ausdruck „negatives digitales Bild-Merkmalssatz“ auf einen Merkmalssatz, der von einem negativen digitalen Bild erzeugt worden ist. Insbesondere umfasst der Ausdruck „negatives digitales Bild-Merkmalssatz“ einen oder mehrere Merkmalsvektor(en), der oder die ein negatives digitales Bild wiedergibt oder wiedergeben. Beispielsweise umfasst ein negativer digitaler Bild-Merkmalssatz einen Merkmalssatz, der durch ein neuronales digitales Bildnetzwerk auf der Basis einer Eingabe eines negativen digitalen Bilds erzeugt worden ist.As used herein, the term "negative digital image feature set" refers to a feature set that has been generated from a negative digital image. In particular, the term "negative digital image feature set" includes one or more feature vectors that render or reproduce a negative digital image. For example, a negative digital image feature set includes a feature set that has been generated by a neural digital image network based on input of a negative digital image.

In einer oder mehreren Ausführungsform(en) erzeugt, bestimmt und/oder identifiziert das räumlich-semantische Mediensuchsystem ein negatives digitales Bild und/oder einen negatives digitales Bild-Merkmalssatz. Beispielsweise durchsucht das räumlich-semantische Mediensuchsystem in Bezug auf die Ausführungsform von 4B einen Speicherinhalt von digitalen Trainingsbildern zum Identifizieren des negatives digitales Bild-Merkmalssatzes 454. Insbesondere führt das räumlich-semantische Mediensuchsystem ein Durchsuchen eines Speicherinhalts von digitalen Trainingsbildern auf der Basis des Trainingsbegriffs 440b durch, um digitale Trainingsbilder zu identifizieren, die keinen visuellen Inhalt zeigen, der dem Trainingsbegriff 440b entspricht. Beispielsweise da der Trainingsbegriff 440b „Person“ ist, führt das räumlich-semantische Mediensuchsystem eine Suche nach einem digitalen Trainingsbild durch, das einen visuellen Inhalt zeigt, der keine Person umfasst. Nach dem Identifizieren eines negativen digitalen Trainingsbilds identifiziert oder erzeugt das räumlich-semantische Mediensuchsystem auch einen entsprechenden negatives digitales Trainingsbild-Merkmalssatz (z.B. aus dem Speicherinhalt von digitalen Trainingsbildern oder durch Nutzen eines neuronalen digitalen Bildnetzwerks).In one or more embodiments, the spatial semantic media search system generates, determines, and / or identifies a negative digital image and / or a negative digital image feature set. For example, the spatially-semantic media search system searches with respect to the embodiment of FIG 4B a memory content of digital training images for identifying the negative digital image feature set 454 , In particular, the spatial semantic media search system performs a search of a memory content of digital training images based on the training term 440b to identify digital training images that do not show visual content, the training concept 440b equivalent. For example, there the training concept 440b "Person", the spatial-semantic media search system performs a search for a digital training image that shows visual content that does not include a person. After identifying a negative digital training image, the spatial semantic media search system also identifies or generates a corresponding negative digital training image feature set (eg, from the memory content of digital training images or by using a neural digital image network).

In einer oder mehreren Ausführungsform(en) kann das räumlich-semantische Mediensuchsystem auch ein negatives digitales Bild auf der Basis eines Abfragebereichs auswählen. Beispielsweise führt das räumlich-semantische Mediensuchsystem in Bezug auf die 4B eine Suche nach digitalen Trainingsbildern (d.h., von einem Speicherinhalt von digitalen Trainingsbildern) durch, die einen visuellen Inhalt innerhalb des Trainingsbereichs 440a zeigen, wobei der visuelle Inhalt keine Person umfasst. Das räumlich-semantische Mediensuchsystem kann folglich ein negatives digitales Bild identifizieren, das einen visuellen Inhalt an einem räumlichen Ort umfasst, der dem Trainingsbereich 440a entspricht. Auf diese Weise kann das räumlich-semantische Mediensuchsystem eine gewisse Konzeptüberlappung (d.h., eine räumliche Ähnlichkeit) zwischen dem negatives digitales Trainingsbild-Merkmalssatz und dem Merkmalssatz 440c des digitalen Trainingsbilds 440 einführen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk 442 zum Unterscheiden zwischen digitalen Bildern trainieren, die einen unterschiedlichen visuellen Inhalt an demselben (oder einem ähnlichen) räumlichen Ort enthalten.In one or more embodiments, the spatial semantic media search system may also select a negative digital image based on a query region. For example, the spatial semantic media search system performs in relation to the 4B a search for digital training images (ie, from a memory content of digital training images) that provides visual content within the training area 440a show, wherein the visual content does not include a person. The spatial-semantic media search system can thus identify a negative digital image that includes visual content at a spatial location that belongs to the training area 440a equivalent. In this way, the spatial semantic media search system may have some concept overlap (ie, spatial similarity) between the negative digital training image feature set and the feature set 440c of the digital training image 440 introduce. In addition, the spatial-semantic media search system can use the neural interrogation network 442 train to discriminate between digital images containing different visual content at the same (or similar) spatial location.

Das räumlich-semantische Mediensuchsystem kann ein neuronales Abfragenetzwerk auch zum Auswählen von negativen digitalen Bildern nutzen. Beispielsweise bestimmt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) das Trainieren von digitalen Bildern, die ein neuronales Abfragenetzwerk (z.B. das neuronale Abfragenetzwerk 442) nur schwer unterscheiden kann, und nutzt dann diese digitalen Trainingsbilder zum weiteren Trainieren des neuronalen Abfragenetzwerks. Insbesondere kann das räumlich-semantische Mediensuchsystem, wie es bereits in Bezug auf die 2 beschrieben worden ist, ein neuronales Abfragenetzwerk zum Erzeugen eines Abfragemerkmalssatzes nutzen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz zum Auswählen von digitalen Bildern von einem Speicherinhalt von digitalen Trainingsbildern nutzen. Das räumlich-semantische Mediensuchsystem kann dann die digitalen Trainingsbilder, die durch das neuronale Abfragenetzwerk ausgewählt worden sind (z.B. die besten hundert ausgewählten digitalen Bilder) analysieren, um irrelevante digitale Bilder zu bestimmen, die das neuronale Abfragenetzwerk ausgewählt hat (z.B. digitale Trainingsbilder mit einer geringen Ähnlichkeit, die das neuronale Abfragenetzwerk dennoch als ähnlich identifiziert hat). Das räumlich-semantische Mediensuchsystem kann dann die digitalen Trainingsbilder, die durch das neuronale Abfragenetzwerk in einer ungeeigneten Weise ausgewählt worden sind, als negative digitale Trainingsbilder nutzen.The spatial semantic media search system may also use a neural interrogation network to select negative digital images. For example, in one or more embodiments, the spatial semantic media search system determines the training of digital images that comprise a neural interrogation network (eg, the neural interrogation network 442 ), and then uses these digital training images to further train the neural interrogation network. In particular, the spatial-semantic media search system, as already described in relation to the 2 has been described using a neural interrogation network to generate a query feature set. In addition, the spatial semantic media search system may use the query feature set to select digital images from a memory content of digital training images. The spatial-semantic media search system may then analyze the digital training images selected by the neural interrogation network (eg, the best one hundred selected digital images) to determine irrelevant digital images that the neural interrogation network has selected (eg, low-training digital training images) Similarity, which nevertheless identified the neural interrogation network as similar). The spatial semantic media search system may then use the digital training images selected by the neural interrogation network in an inappropriate manner as negative digital training images.

Beispielsweise identifiziert das neuronale Abfragenetzwerk 442 mittels des Ansatzes, der in der 2 beschrieben ist, ein irrelevantes digitales Trainingsbild als das fünftrelevanteste digitale Bild. Das räumlich-semantische Mediensuchsystem nutzt dann das irrelevante digitale Trainingsbild zum weiteren Trainieren des neuronalen Abfragenetzwerks 442. Auf diese Weise identifiziert das räumlich-semantische Mediensuchsystem digitale Trainingsbilder, die das neuronale Abfragenetzwerk 442 nur schwer genau unterscheiden kann und nutzt dann diese digitalen Trainingsbilder, um dem neuronalen Abfragenetzwerk 442 zu lernen, Abfragemerkmalssätze genauer und effizienter zu erzeugen.For example, the neural interrogation network identifies 442 by means of the approach used in the 2 described, an irrelevant digital training image as the most relevant digital image. The spatial-semantic media search system then uses the irrelevant digital training image to further train the neural interrogation network 442 , In this way, the spatial semantic media search system identifies digital training images that comprise the neural interrogation network 442 difficult to distinguish accurately and then uses these digital training images to the neural interrogation network 442 to learn to generate query feature sets more accurately and efficiently.

Nach dem Identifizieren des negatives digitales Bild-Merkmalssatzes vergleicht das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) den negatives digitales Bild-Merkmalssatz und einen vorhergesagten Merkmalssatz. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem eine Verlustfunktion, die einen Abstand (z.B. einen Kosinusabstand) zwischen dem vorhergesagten Merkmalssatz und dem negatives digitales Bild-Merkmalssatz misst. Wie es in der 4B gezeigt ist, nutzt das räumlich-semantische Mediensuchsystem die abfragebasierte Einstufungsverlustfunktion 448, die den negatives digitales Bild-Merkmalssatz 454 und den vorhergesagten Merkmalssatz 444 vergleicht.After identifying the negative digital image feature set, the spatial semantic media search system in one or more embodiments compares the negative digital image feature set and a predicted feature set. For example, the spatial semantic media search system uses a loss function that measures a distance (eg, a cosine distance) between the predicted feature set and the negative digital image feature set. As it is in the 4B 3, the spatial semantic media search system utilizes the query-based rating loss function 448 containing the negative digital image feature set 454 and the predicted feature set 444 compares.

Zusätzlich zu dem Vergleichen eines negatives digitales Bild-Merkmalssatzes und eines vorhergesagten Merkmalssatzes kann das räumlich-semantische Mediensuchsystem auch die Differenz zwischen einem negatives digitales Bild-Merkmalssatz und einem vorhergesagten Merkmalssatz mit der Differenz zwischen einem Merkmalssatz eines digitalen Trainingsbilds und eines vorhergesagten Merkmalssatzes vergleichen. Auf diese Weise unterstützt das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk bei der Unterscheidung zwischen digitalen Bildern und negativen digitalen Bildern.In addition to comparing a negative digital image feature set and a predicted feature set, the spatial semantic media search system may also compare the difference between a negative digital image feature set and a predicted feature set with the difference between a feature set of a digital training image and a predicted feature set. In this way, the spatial-semantic media search system supports the neural interrogation network in distinguishing between digital images and negative digital images.

Beispielsweise vergleicht das räumlich-semantische Mediensuchsystem in Bezug auf die 4B eine Differenz zwischen dem negatives digitales Bild-Merkmalssatz 454 und dem vorhergesagten Merkmalssatz 444 mit einer Differenz zwischen dem Merkmalssatz 440c des digitalen Trainingsbilds 440 und dem vorhergesagten Merkmalssatz 444. Mit anderen Worten, die abfragebasierte Einstufungsverlustfunktion 448 misst das Vermögen des neuronalen Abfragenetzwerks 442 zum Unterscheiden zwischen dem negatives digitales Bild-Merkmalssatz und dem Merkmalssatz des digitalen Trainingsbilds. Durch Minimieren der abfragebasierten Einstufungsverlustfunktion 448 unterstützt das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk 442 zum Erzeugen von Abfragemerkmalssätzen, die nicht nur gesuchten digitalen Bildern ähnlich sind, sondern auch irrelevanten digitalen Bildern nicht ähnlich sind.For example, the spatial-semantic media search system compares with respect to the 4B a difference between the negative digital image feature set 454 and the predicted feature set 444 with a difference between the feature set 440c of the digital training image 440 and the predicted feature set 444 , In other words, the query-based ranking loss function 448 measures the fortune of the neural interrogation network 442 for discriminating between the negative digital image feature set and the feature set of the digital training image. By minimizing the query-based rating loss function 448 The spatial-semantic media search system supports the neural interrogation network 442 for generating query feature sets that are not only similar to searched digital images but are also not similar to irrelevant digital images.

Eine abfragebasierte Einstufungsverlustfunktion kann auch in Bezug auf einen Pseudocode und/oder Gleichungen beschrieben werden, der oder die durch eine Computervorrichtung implementiert wird oder werden, um einen abfragebasierten Einstufungsverlust zu minimieren. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) die folgende abfragebasierte Einstufungsverlustfunktion: $L_{r_{q}} (F_{q}) = max (0, α - C o s (F_{q}, F_{1_{q}}) + C o s (F_{q}, F_{1_{\bar{q}}}))$

wobei F_I
q den negatives digitales Bild-Merkmalssatz bezeichnet (z.B. den negatives digitales Bild-Merkmalssatz 454), der von einem negativen digitalen Trainingsbild, I_q̅, extrahiert worden ist. Das Minimieren dieses Verlusts unterstützt die geeignete Einstufung über einen Satz von Abfragen bezüglich eines referenzierten digitalen Bilds.A query-based rating loss function may also be described in terms of a pseudocode and / or equations implemented by a computing device to minimize query-based rating loss. For example, in one or more embodiments, the spatial semantic media search system uses the following query-based rating loss function:

L_{r_{q}} (F_{q}) = Max (0 α - C O s (F_{q} . F_{1_{q}}) + C O s (F_{q} . F_{1_{\bar{q}}}))

where F _I _q denotes the negative digital image feature set (eg, the negative digital image feature set 454 ) extracted from a negative digital training _image , I _q̅ . Minimizing this loss assists the proper ranking over a set of queries regarding a referenced digital image.

Wie es in der 4B gezeigt ist, nutzt das räumlich-semantische Mediensuchsystem zusätzlich zu der abfragebasierten Einstufungsverlustfunktion 448 auch eine bildbasierte Einstufungsverlustfunktion 452. Das räumlich-semantische Mediensuchsystem nutzt die bildbasierte Einstufungsverlustfunktion 452 zum Unterstützen einer geeigneten Einstufung von Bildern bezogen auf einen Abfragemerkmalssatz. Mit anderen Worten, die bildbasierte Einstufungsverlustfunktion unterstützt die Erzeugung von Abfragemerkmalssätzen, die nicht nur digitale Bilder genau wiedergeben, die bestimmte Begriffe wiedergeben, sondern die auch zwischen Bildern unterscheiden, die irrelevante Abfragebegriffe wiedergeben. Wie es gezeigt ist, umfasst die bildbasierte Einstufungsverlustfunktion 452 einen Vergleich zwischen dem vorhergesagten Merkmalssatz 444 und einem negativer Trainingsbegriff-Merkmalssatz 458, der von einem negativen Trainingsbegriff 462 erzeugt worden ist.As it is in the 4B In addition to the query-based rating loss function, the spatial semantic media search system utilizes 448 also an image-based rating loss function 452 , The spatial-semantic media search system uses the image-based ranking loss function 452 to support appropriate grading of images relative to a query feature set. In other words, the image-based ranking loss function supports the generation of query feature sets that not only accurately represent digital images that represent particular terms but that also distinguish between images that represent irrelevant query terms. As shown, the image-based grading loss function includes 452 a comparison between the predicted feature set 444 and a negative training term feature set 458 that of a negative training term 462 has been generated.

Wie hier verwendet, bezieht sich der Ausdruck „negativer Trainingsbegriff“ auf ein Wort oder einen Satz, das oder der sich von einem Trainingsbegriff unterscheidet. Insbesondere umfasst der Ausdruck „negativer Trainingsbegriff“ ein Wort oder einen Satz mit einer von einem Trainingsbegriff unterschiedlichen linguistischen Bedeutung. Beispielsweise wenn das räumlich-semantische Mediensuchsystem den Trainingsbegriff „heiß“ nutzt, würde ein negativer Trainingsbegriff „kalt“ (oder einen Begriff oder einen Satz, der von heiß verschieden ist) umfassen.As used herein, the term "negative training term" refers to a word or phrase that differs from a training term. In particular, the term "negative training term" includes a word or sentence having a linguistic meaning different from a training term. For example, if the spatial-semantic media search system uses the term "hot" would use a negative term "cold" (or a term or phrase that is different from hot).

Wie hier verwendet, bezieht sich der Ausdruck „negativer Trainingsbegriff-Merkmalssatz“ auf einen Merkmalssatz, der aus einem negativen Trainingsbegriff erzeugt worden ist. Insbesondere umfasst der Ausdruck „negativer Trainingsbegriff-Merkmalssatz“ einen oder mehrere Merkmalsvektor(en), der oder die einen negativen Trainingsbegriff wiedergibt oder wiedergeben. Beispielsweise umfasst ein negativer Trainingsbegriff-Merkmalssatz einen Merkmalssatz, der durch ein neuronales Abfragenetzwerk mit einem negativen Trainingsbegriff als Eingabe erzeugt worden ist.As used herein, the term "negative training term feature set" refers to a feature set that has been generated from a negative training term. In particular, the term "negative training term feature set" includes one or more feature vectors that represent or reproduce a negative training term. For example, a negative training term feature set includes a feature set that has been generated by a neural interrogation network with a negative training term as input.

In einer oder mehreren Ausführungsform(en) erzeugt, bestimmt und/oder identifiziert das räumlich-semantische Mediensuchsystem einen negativen Trainingsbegriff. Zur Veranschaulichung wählt das räumlich-semantische Mediensuchsystem in Bezug auf die 4B den negativen Trainingsbegriff 462 (d.h., „Bonbon“) auf der Basis des Trainingsbegriffs 440b (d.h., „Person“). Insbesondere wählt das räumlich-semantische Mediensuchsystem zufällig einen Begriff aus, der sich von dem Trainingsbegriff 440b unterscheidet.In one or more embodiments, the spatial semantic media search system generates, determines, and / or identifies a negative training term. By way of illustration, the spatial-semantic media search system chooses with respect to the 4B the negative training concept 462 (ie, "candy") based on the training concept 440b (ie, "person"). In particular, the spatial-semantic media search system randomly selects a term that differs from the training term 440b different.

Darüber hinaus nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) ein neuronales Abfragenetzwerk (z.B. das neuronale Abfragenetzwerk 442) zum Auswählen eines negativen Trainingsgegenstands. Beispielsweise bestimmt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) negative Trainingsbegriffe, die ein neuronales Abfragenetzwerk nur schwer unterscheiden kann, und nutzt dann diese negativen Trainingsbegriffe zum weiteren Trainieren des neuronalen Abfragenetzwerks.In addition, in one or more embodiments, the spatial semantic media search system utilizes a neural interrogation network (eg, the neural interrogation network 442 ) for selecting a negative training item. For example, in one or more embodiments, the spatial semantic media search system determines negative training terms that are difficult for a neural interrogation network to distinguish, and then uses these negative training terms to further train the neural interrogation network.

Insbesondere kann, wie es in Bezug auf die 2 diskutiert worden ist, das räumlich-semantische Mediensuchsystem ein neuronales Abfragenetzwerk zum Erzeugen eines Abfragemerkmalssatzes nutzen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz zum Auswählen von digitalen Bildern aus einem Speicherinhalt von digitalen Trainingsbildern nutzen. Das räumlich-semantische Mediensuchsystem kann dann die digitalen Trainingsbilder, die durch das neuronale Abfragenetzwerk ausgewählt worden sind, analysieren, um irrelevante visuelle Konzepte zu bestimmen, die in den ausgewählten digitalen Trainingsbildern gezeigt sind. Das räumlich-semantische Mediensuchsystem kann dann die irrelevanten visuellen Konzepte, die durch das neuronale Abfragenetzwerk ausgewählt worden sind, als negative Trainingsbegriffe nutzen.In particular, as it regards the 2 has been discussed, the spatial-semantic media search system uses a neural interrogation network to generate a query feature set. In addition, the spatial semantic media search system may use the query feature set to select digital images from a memory content of digital training images. The spatial semantic media search system may then analyze the digital training images selected by the neural interrogation network to determine irrelevant visual concepts shown in the selected digital training images. The spatial-semantic media search system may then use the irrelevant visual concepts selected by the neural interrogation network as negative training terms.

Beispielsweise kann das neuronale Abfragenetzwerk 442 mittels des Ansatzes, der im Zusammenhang mit der 2 beschrieben ist, in einem Speicherinhalt von digitalen Trainingsbildern nach digitalen Bildern suchen, die eine Person zeigen. Darüber hinaus kann das neuronale Abfragenetzwerk 442 ein Bild eines Bonbons als das beste resultierende digitale Bild identifizieren. Das räumlich-semantische Mediensuchsystem kann bestimmen, dass der Gegenstand Bonbon, der in dem resultierenden digitalen Bild gezeigt ist, irrelevant ist. Als Reaktion kann das räumlich-semantische Mediensuchsystem den irrelevanten Trainingsbegriff „Bonbon“ als negativen Trainingsbegriff beim Trainieren des neuronalen Abfragenetzwerks 442 nutzen.For example, the neural interrogation network 442 by means of the approach associated with the 2 in a memory content of digital training images search for digital images showing a person. In addition, the neural query network 442 identify an image of a candy as the best resulting digital image. The spatial semantic media search system may determine that the item candy shown in the resulting digital image is irrelevant. In response, the spatio-semantic media search system can use the irrelevant training concept "candy" as a negative training concept when training the neural interrogation network 442 use.

Nach dem Identifizieren eines negativen Trainingsbegriffs kann das räumlich-semantische Mediensuchsystem auch einen negativer Trainingsbegriff-Merkmalssatz erzeugen. Beispielsweise kann, wie es in der 4B gezeigt ist, das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk 442 zum Erzeugen des negativer Trainingsbegriff-Merkmalssatzes 458 nutzen. Insbesondere stellt das räumlich-semantische Mediensuchsystem in Bezug auf die Ausführungsform von 4B den negativen Trainingsbegriff 462 für das neuronale Abfragenetzwerk 442 bereit. Insbesondere stellt das räumlich-semantische Mediensuchsystem den negativen Trainingsbegriff 462 für das neuronale Abfragenetzwerk 442 zusammen mit dem Trainingsbereich 440a bereit (z.B. als dreidimensionales Gitter, das einen Vektor umfasst, der den negativen Trainingsgegenstand 462 darstellt, der dem Trainingsbereich 440a zugewiesen ist).After identifying a negative training term, the spatial semantic media search system may also generate a negative training term feature set. For example, as it is in the 4B the spatial semantic media search system shows the neural interrogation network 442 for generating the negative training term feature set 458 use. In particular, the spatial semantic media search system makes reference to the embodiment of FIG 4B the negative training concept 462 for the neural interrogation network 442 ready. In particular, the spatial-semantic media search system provides the negative concept of training 462 for the neural interrogation network 442 along with the training area 440a ready (eg as a three-dimensional grid that includes a vector containing the negative training subject 462 represents the training area 440a is assigned).

Wie es in der 4B gezeigt ist, kann das räumlich-semantische Mediensuchsystem dann das neuronale Abfragenetzwerk 442 nutzen, um den negativer Trainingsbegriff-Merkmalssatz 458 zu erzeugen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem dann den negativer Trainingsbegriff-Merkmalssatz 458 in der bildbasierten Einstufungsverlustfunktion 452 nutzen. Insbesondere kann das räumlich-semantische Mediensuchsystem den negativer Trainingsbegriff-Merkmalssatz 458 mit dem vorhergesagten Merkmalssatz 444 vergleichen. Beispielsweise bestimmt das räumlich-semantische Mediensuchsystem einen Abstand zwischen dem negativer Trainingsbegriff-Merkmalssatz 458 und dem vorhergesagten Merkmalssatz 444.As it is in the 4B 3, the spatial semantic media search system may then use the neural interrogation network 442 use the negative training term feature set 458 to create. In addition, the spatial semantic media search system may then use the negative training term feature set 458 in the image-based classification loss function 452 use. In particular, the spatial semantic media search system may use the negative training term feature set 458 with the predicted feature set 444 to compare. For example, the spatial semantic media search system determines a distance between the negative training term feature set 458 and the predicted feature set 444 ,

Darüber hinaus nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) eine Verlustfunktion, welche die Differenz zwischen dem negativer Trainingsbegriff-Merkmalssatz und dem vorhergesagten Merkmalssatz mit einer Differenz zwischen dem Merkmalssatz des digitalen Trainingsbilds und dem vorhergesagten Merkmalssatz vergleicht. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in Bezug auf die 4B die bildbasierte Einstufungsverlustfunktion 452, die eine Differenz zwischen dem negativer Trainingsbegriff-Merkmalssatz 458 und dem vorhergesagten Merkmalssatz 444 mit einer Differenz zwischen dem Merkmalssatz 440c und dem vorhergesagten Merkmalssatz 444 vergleicht. Mittels dieses Ansatzes misst das räumlich-semantische Mediensuchsystem das Vermögen des neuronalen Abfragenetzwerks 442 zum Differenzieren zwischen dem negativer Trainingsbegriff-Merkmalssatz und dem Merkmalssatz des digitalen Trainingsbilds. Insbesondere unterstützt das räumlich-semantische Mediensuchsystem das neuronale Abfragenetzwerk durch Minimieren der bildbasierten Verlustfunktion 552 beim Erzeugen von Abfragemerkmalssätzen, die nicht nur Abfragebegriffen ähnlich sind, sondern irrelevanten Abfragebegriffen unähnlich sind. In addition, in one or more embodiments, the spatial semantic media search system uses a loss function that compares the difference between the negative training term feature set and the predicted feature set with a difference between the digital training image feature set and the predicted feature set. For example, the spatial-semantic media search system uses in relation to the 4B the image-based rating loss function 452 representing a difference between the negative training term feature set 458 and the predicted feature set 444 with a difference between the feature set 440c and the predicted feature set 444 compares. Using this approach, the spatial semantic media search system measures the capacity of the neural interrogation network 442 for differentiating between the negative training term feature set and the feature set of the digital training image. In particular, the spatial semantic media search system assists the neural interrogation network by minimizing the image-based loss function 552 When generating query feature sets that are not only similar to query terms, but dissimilar to irrelevant query terms.

Eine bildbasierte Einstufungsverlustfunktion kann auch als Pseudocode und/oder Gleichungen beschrieben werden, der oder die durch eine Rechenvorrichtung zum Minimieren des bildbasierten Einstufungsverlusts implementiert wird oder werden. Beispielsweise nutzt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) die folgende bildbasierte Einstufungsverlustfunktion: $L_{r_{1}} (F_{q}) = max (0, α - C o s (F_{q}, F_{1_{q}}) + C o s (F_{\bar{q}}, F_{1_{q}}))$

wobei F_q̅ einen negativer Trainingsbegriff-Merkmalssatz (z.B. den negativer Trainingsbegriff-Merkmalssatz 458) darstellt, der auf der Basis eines negativen Trainingsbegriffs erzeugt worden ist (z.B. auf der Basis des negativen Trainingsbegriffs 462 und des Trainingsbereichs 440a erzeugt worden ist). Das Minimieren dieses Verlusts unterstützt bei der geeigneten Einstufung von Bildern in Bezug auf einen vorhergesagten Abfragemerkmalssatz.An image-based grading loss function may also be described as pseudocode and / or equations implemented by a computing device to minimize image-based grading loss. For example, in one or more embodiments, the spatial semantic media search system utilizes the following image-based ranking loss function:

L_{r_{1}} (F_{q}) = Max (0 α - C O s (F_{q} . F_{1_{q}}) + C O s (F_{\bar{q}} . F_{1_{q}}))

where F _{q̅ is} a negative training term feature set (eg, the negative training term feature set 458 ), which has been generated on the basis of a negative training concept (eg on the basis of the negative training concept 462 and the training area 440a has been generated). Minimizing this loss helps in properly ranking images for a predicted query feature set.

Wie es vorstehend erwähnt worden ist, minimiert das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) zusammen Verlustfunktionen. Insbesondere minimiert das räumlich-semantische Mediensuchsystem zusammen eine Ähnlichkeitsverlustfunktion, eine bildbasierte Einstufungsverlustfunktion und eine abfragebasierte Einstufungsverlustfunktion. Beispielsweise zeigt die 4B die Trainingsstruktur 446, die zusammen die abfragebasierte Einstufungsverlustfunktion 448, die Ähnlichkeitsverlustfunktion 450 und die bildbasierte Einstufungsverlustfunktion 452 minimiert. Insbesondere minimiert das räumlich-semantische Mediensuchsystem in Bezug auf die 4B die folgende gemeinsame Verlustfunktion: $L (F_{q}) = L_{s} (F_{q}) + L_{r_{1}} (F_{q}) + L_{r_{q}} (F_{q})$

Insbesondere nutzt das räumlich-semantische Mediensuchsystem einen „Stochastic Gradient Descent“-Algorithmus zum Trainieren des neuronalen Abfragenetzwerks 442 zum Minimieren des akkumulierten stochastischen Verlusts der drei Verlustfunktionen, L_s(F_q), L_r
I(F_q), L_r
q(F_q), über jeder Trainingsabfrage.As mentioned above, the spatial semantic media search system in one or more embodiments together minimize loss functions. In particular, the spatial semantic media search system together minimizes a similarity loss function, an image-based rating loss function, and a query-based rating loss function. For example, the shows 4B the training structure 446 , which together form the query-based ranking loss function 448 , the similarity loss function 450 and the image-based grading loss function 452 minimized. In particular, the spatial semantic media search system minimizes with respect to the 4B the following common loss function:

L (F_{q}) = L_{s} (F_{q}) + L_{r_{1}} (F_{q}) + L_{r_{q}} (F_{q})

In particular, the spatial semantic media search system utilizes a "Stochastic Gradient Descent" algorithm to train the neural interrogation network 442 to minimize the accumulated stochastic loss of the three loss functions, L _s (F _q ), L _r _I (Q _q ), L _r _q (F _q ), above each training query.

Ferner unterstützt das räumlich-semantische Mediensuchsystem, wie es vorstehend diskutiert worden ist, durch Minimieren der gemeinsamen Verlustfunktion das trainierte Modell bei der Optimierung des Auffindungsleistungsvermögens. Insbesondere trainiert das räumlich-semantische Mediensuchsystem, wie es vorstehend erwähnt worden ist, das neuronale Abfragenetzwerk 442 zum Erzeugen von Abfragemerkmalssätzen, die genau ähnliche digitale Bilder wiedergeben, während sie zwischen irrelevanten digitalen Bildern und irrelevanten Abfragebegriffen differenzieren. Durch gemeinsames Minimieren der drei individuellen Verluste wird das neuronale Abfragenetzwerk 442 trainiert (d.h., das räumlich-semantische Mediensuchsystem wird das trainierte neuronale Abfragenetzwerk 460 erzeugen), so dass es die Ähnlichkeit von dessen vorhergesagten Merkmalen optimiert und gleichzeitig die geeignete Einstufung zwischen den Abfragen und den Bildern in Bezug auf deren Relevanz unterstützt.Further, as discussed above, by minimizing the common loss function, the spatial semantic media search system assists the trained model in optimizing retrieval performance. In particular, as mentioned above, the spatial semantic media search system trains the neural interrogation network 442 to generate query feature sets that represent closely similar digital images as they differentiate between irrelevant digital images and irrelevant query terms. By jointly minimizing the three individual losses becomes the neural interrogation network 442 training (ie, the spatio-semantic media search system becomes the trained neural interrogation network 460 to optimize the similarity of its predicted features while supporting the appropriate ranking between the queries and the images for their relevance.

Obwohl die 4B einen einzelnen negativen Trainingsbegriff 462 und einen einzelnen negativer Trainingsbegriff-Merkmalssatz 458 zeigt, kann das räumlich-semantische Mediensuchsystem eine Mehrzahl von negativen Trainingsbegriffen und negativer Trainingsbegriff-Merkmalssätze identifizieren und erzeugen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem eine bildbasierte Einstufungsverlustfunktion bestimmen, welche die Differenz zwischen einer Mehrzahl von digitalen Bildern mit negativem Trainingsbegriff und dem vorhergesagten Merkmalssatz 444 analysiert.Although the 4B a single negative training term 462 and a single negative training term feature set 458 2, the spatial semantic media search system may identify and generate a plurality of negative training terms and negative training term feature sets. In addition, the spatial semantic media search system may provide an image-based rating loss function determine the difference between a plurality of negative training digital images and the predicted feature set 444 analyzed.

Obwohl die 4B einen einzelnen negativen digitalen Bildmerkmalssatz 454 zeigt, kann das räumlich-semantische Mediensuchsystem entsprechend eine Mehrzahl von negativen digitalen Bildern und negativen digitalen Bildmerkmalssätzen auswählen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem eine abfragebasierte Einstufungsverlustfunktion berechnen, welche die Differenz zwischen einer Mehrzahl von negativen digitalen Bildmerkmalssätzen und dem vorhergesagten Merkmalssatz 444 analysiert.Although the 4B a single negative digital image feature set 454 3, the spatial semantic media search system may accordingly select a plurality of negative digital images and negative digital image feature sets. In addition, the spatial semantic media search system may calculate a query-based rating loss function that measures the difference between a plurality of negative digital image feature sets and the predicted feature set 444 analyzed.

Obwohl die 4A und 4B Trainingsbereiche 402a bis 406a als Rechtecke zeigen, kann das räumlich-semantische Mediensuchsystem Trainingsbereiche in vielen verschiedenen Formen festlegen. Beispielsweise kann das räumlich-semantische Mediensuchsystem anstelle der Nutzung von Rechtecken, die Trainingsbereiche um einen visuellen Inhalt festlegen, der in einem digitalen Trainingsbild gezeigt ist, Trainingsbereiche festlegen, die Kreise oder Vielecke umfassen. Entsprechend kann das räumlich-semantische Mediensuchsystem Gegenstandsmasken, die den Konturen eines visuellen Inhalts sehr genau folgen, der in einem digitalen Trainingsbild gezeigt ist, zum Erzeugen eines Trainingsbereichs nutzen.Although the 4A and 4B training areas 402a to 406a As rectangles, the spatial-semantic media search system can define training areas in many different forms. For example, instead of using rectangles defining training areas around a visual content shown in a digital training image, the spatial semantic media search system may define training areas that include circles or polygons. Accordingly, the spatial-semantic media search system may use object masks that closely follow the contours of visual content shown in a digital training image to create a training area.

Wie es vorstehend erwähnt worden ist, sucht das räumlich-semantische Mediensuchsystem zusätzlich zum Identifizieren eines digitalen Bilds auf der Basis eines Abfragebegriffs und eines Abfragebereichs in einer oder mehreren Ausführungsform(en) nach digitalen Bildern auf der Basis einer iterativen Nutzereingabe von Abfragebegriffen und Abfragebereichen. Beispielsweise zeigen die 5A bis 5C eine Nutzerschnittstelle für eine iterative Nutzereingabe von Abfragebegriffen und Abfragebereichen und zum iterativen Anzeigen von gesuchten digitalen Bildern auf der Basis der Abfragebegriffe und Abfragebereiche gemäß einer oder mehrerer Ausführungsform(en).As mentioned above, in addition to identifying a digital image based on a query term and a query scope in one or more embodiments, the spatial semantic media search system searches for digital images based on iterative user input of query terms and query ranges. For example, the show 5A to 5C a user interface for an iterative user input of query terms and query ranges and for iteratively displaying searched digital images based on the query terms and query ranges according to one or more embodiments.

Insbesondere zeigt die 5A eine Rechenvorrichtung 500 mit einem Bildschirm 502, der eine Nutzerschnittstellle 504 zeigt. Wie es gezeigt ist, umfasst die Nutzerschnittstelle 504 eine digitale Leinwand 506. Darüber hinaus umfasst die Nutzerschnittstelle 504 eine Mehrzahl von Nutzerschnittstellenelementen 508a bis 508n zum Erzeugen, Bearbeiten und Modifizieren der digitalen Leinwand 506. Ferner umfasst die Nutzerschnittstelle 504 einen Suchergebnisse-Bereich 512 zum Anzeigen von digitalen Bildern, die sich aus einer Suche auf der Basis der digitalen Leinwand 506 ergeben. Wie es gezeigt ist, kann ein Nutzer mit der digitalen Leinwand 506 mittels der Nutzerschnittstelle 504 interagieren, um einen Abfragebereich 510 bereitzustellen. Beispielsweise zeigt die 5A eine Nutzereingabe des Abfragebereichs 510 mittels eines Auswahlereignisses (z.B. mit einer Maus oder einem Berührungsbildschirm), eines Ziehereignisses und eines Freigabeereignisses.In particular, the shows 5A a computing device 500 with a screen 502 , which is a user interface 504 shows. As shown, the user interface includes 504 a digital canvas 506 , In addition, the user interface includes 504 a plurality of user interface elements 508a to 508N to create, edit and modify the digital canvas 506 , Furthermore, the user interface includes 504 a search results area 512 to display digital images resulting from a search based on the digital canvas 506 result. As it is shown, a user can use the digital screen 506 by means of the user interface 504 interact to a query area 510 provide. For example, the shows 5A a user input of the query area 510 by means of a selection event (eg with a mouse or a touch screen), a drag event and a release event.

Zusätzlich zu einer Nutzereingabe des Abfragebereichs 510 kann ein Nutzer auch eine Nutzereingabe eines Abfragebegriffs bereitstellen. Beispielsweise kann ein Nutzer auf der Basis einer Nutzerinteraktion (z.B. einer Auswahl) des Abfragebereichs 510 eine Nutzereingabe eines Abfragebegriffs bereitstellen. Beispielsweise zeigt die 5B die Nutzerschnittstelle 504 nach der Eingabe eines Abfragebegriffs. Wie es gezeigt ist, umfasst die digitale Leinwand 506 einen Abfragebereich 510 und einen Abfragebegriff 520. Darüber hinaus identifiziert das räumlich-semantische Mediensuchsystem auf der Basis des Abfragebereichs 510 und des Abfragebegriffs 520 eine erste Mehrzahl von resultierenden digitalen Bildern 522a bis 522n und zeigt die Mehrzahl von resultierenden digitalen Bildern 522a bis 522n in dem Suchergebnissebereich 512 an.In addition to a user input of the query area 510 a user may also provide a user input of a query term. For example, a user may be based on a user interaction (eg, a selection) of the query area 510 provide a user input of a query term. For example, the shows 5B the user interface 504 after entering a query term. As it is shown, the digital canvas includes 506 a query area 510 and a query term 520 , In addition, the spatio-semantic media search system identifies based on the query range 510 and the query term 520 a first plurality of resulting digital images 522a to 522n and shows the plurality of resulting digital images 522a to 522n in the search results area 512 at.

Insbesondere stellt das räumlich-semantische Mediensuchsystem den Abfragebereich 510 und den Abfragebegriff 520 für ein neuronales Abfragenetzwerk bereit. Als Reaktion erzeugt das neuronale Abfragenetzwerk einen Abfragemerkmalssatz und vergleicht den Abfragemerkmalssatz mit einem Speicherinhalt von digitalen Bildern. Insbesondere vergleicht das räumlich-semantische Mediensuchsystem den Abfragemerkmalssatz mit digitales Bild-Merkmalssätzen, die dem Speicherinhalt von digitalen Bildern entsprechen. Auf der Basis des Vergleichs identifiziert das räumlich-semantische Mediensuchsystem die erste Mehrzahl von resultierenden digitalen Bildern 522a bis 522n. Das räumlich-semantische Mediensuchsystem identifiziert die erste Mehrzahl von resultierenden digitalen Bildern 522a bis 522n, die einen gesuchten visuellen Inhalt, der dem Abfragebegriff 520 entspricht, innerhalb eines gesuchten Bereichs umfassen, der dem Abfragebereich 510 entspricht.In particular, the spatial-semantic media search system provides the query area 510 and the query term 520 ready for a neural interrogation network. In response, the neural interrogation network generates a query feature set and compares the query feature set with a memory content of digital images. In particular, the spatial semantic media search system compares the query feature set with digital image feature sets that correspond to the memory contents of digital images. Based on the comparison, the spatial semantic media search system identifies the first plurality of resulting digital images 522a to 522n , The spatial semantic media search system identifies the first plurality of resulting digital images 522a to 522n that provide a searched visual content that matches the query term 520 matches within a searched range that corresponds to the query range 510 equivalent.

Das räumlich-semantische Mediensuchsystem kann auch eine zusätzliche Nutzereingabe von zusätzlichen Abfragebegriffen und Abfragebereichen erhalten und zusätzliche resultierende digitale Bilder identifizieren. Beispielsweise zeigt die 5C die Nutzerschnittstelle 504 nach der Nutzereingabe eines zweiten Abfragebereichs 530, eines zweiten Abfragebegriffs 532, eines dritten Abfragebereichs 534 und eines dritten Abfragebegriffs 536. Auf der Basis des Abfragebereichs 510, des Abfragebegriffs 520, des zweiten Abfragebereichs 530, des zweiten Abfragebegriffs 532, des dritten Abfragebereichs 534 und des dritten Abfragebegriffs 536 identifiziert das räumlich-semantische Mediensuchsystem eine zweite Mehrzahl von resultierenden digitalen Bildern 538a bis 538n. Folglich können, wie es gezeigt ist, Nutzer nach und nach verschiedene Suchergebnisse durch iteratives Hinzufügen von Konzepten auf der Leinwand anstatt des Spezifizierens aller Elemente auf einmal untersuchen.The spatial semantic media search system may also receive additional user input of additional query terms and query ranges and identify additional resulting digital images. For example, the shows 5C the user interface 504 after the user input of a second query area 530 , a second query term 532 , a third query area 534 and a third query term 536 , Based on the query range 510 , the query term 520 , the second query range 530 , the second query term 532 , the third query area 534 and the third query term 536 The spatial semantic media search system identifies a second plurality of resulting digital images 538a to 538n , Thus, as shown, users may progressively examine different search results by iteratively adding concepts to the canvas rather than specifying all the elements at once.

Das räumlich-semantische Mediensuchsystem kann die zweite Mehrzahl von digitalen Bildern 538a bis 538n in verschiedenartiger Weise identifizieren. In einer oder mehreren Ausführungsform(en) stellt das räumlich-semantische Mediensuchsystem den Abfragebereich 510, den Abfragebegriff 520, den zweiten Abfragebereich 530, den zweiten Abfragebegriff 532, den dritten Abfragebereich 534 und den dritten Abfragebegriff 536 für das neuronale Abfragenetzwerk bereit, um einen zweiten Abfragemerkmalssatz zu erzeugen. Zur Veranschaulichung kann das räumlich-semantische Mediensuchsystem ein dreidimensionales Gitter erzeugen, das den Abfragebegriff 520 zu einem räumlichen Ort, der dem Abfragebereich 510 entspricht, den zweiten Abfragebegriff 532 zu einem räumlichen Ort, der dem zweiten Abfragebereich 530 entspricht, und den dritten Abfragebegriff 536 zu einem räumlichen Ort kodiert, der dem dritten Abfragebereich 534 entspricht. Das räumlich-semantische Mediensuchsystem kann das dreidimensionale Gitter für ein neuronales Abfragenetzwerk bereitstellen, so dass ein zweiter Abfragemerkmalssatz bereitgestellt wird. Darüber hinaus kann das räumlich-semantische Mediensuchsystem den zweiten Abfragemerkmalssatz zum Identifizieren der zweiten Mehrzahl von resultierenden digitalen Bildern 538a bis 538n nutzen.The spatial-semantic media search system may include the second plurality of digital images 538a to 538n identify in various ways. In one or more embodiments, the spatial semantic media search system provides the query area 510 , the query term 520 , the second query area 530 , the second query term 532 , the third query area 534 and the third query term 536 for the neural interrogation network to generate a second query feature set. By way of illustration, the spatio-semantic media search system may generate a three-dimensional grid representing the query term 520 to a spatial location corresponding to the query area 510 corresponds to the second query term 532 to a spatial location that is the second query range 530 corresponds, and the third query term 536 encoded to a spatial location corresponding to the third query area 534 equivalent. The spatial semantic media search system may provide the three-dimensional grid for a neural query network to provide a second query feature set. In addition, the spatial semantic media search system may use the second query feature set to identify the second plurality of resulting digital images 538a to 538n use.

Statt des Erzeugens eines zweiten Abfragemerkmalssatzes durch Bereitstellen des Abfragebereichs 510, des Abfragebegriffs 520, des zweiten Abfragebereichs 530, des zweiten Abfragebegriffs 532, des dritten Abfragebereichs 534 und des dritten Abfragebegriffs 536 für das neuronale Abfragenetzwerk nutzt das räumlich-semantische Mediensuchsystem den ursprünglichen Abfragemerkmalssatz (d.h., der in Bezug auf die 5B erzeugt worden ist). Insbesondere kann das räumlich-semantische Mediensuchsystem den ursprünglichen Abfragemerkmalssatz zusammen mit einer Darstellung (z.B. einem dreidimensionalen Gitter) des zweiten Abfragebereichs 530, des zweiten Abfragebegriffs 532, des dritten Abfragebereichs 534 und des dritten Abfragebegriffs 536 für das neuronale Abfragenetzwerk bereitstellen. Das neuronale Abfragenetzwerk kann dann den zweiten Abfragemerkmalssatz auf der Basis des ursprünglichen Abfragemerkmalssatzes zusammen mit der Darstellung des zweiten Abfragebereichs 530, des zweiten Abfragebegriffs 532, des dritten Abfragebereichs 534 und des dritten Abfragebegriffs 536 erzeugen.Instead of generating a second query feature set by providing the query area 510 , the query term 520 , the second query range 530 , the second query term 532 , the third query area 534 and the third query term 536 For the neural interrogation network, the spatial semantic media search system uses the original query feature set (ie, the one related to the 5B has been generated). In particular, the spatial semantic media search system may include the original query feature set along with a representation (eg, a three-dimensional grid) of the second query region 530 , the second query term 532 , the third query area 534 and the third query term 536 for the neural interrogation network. The neural interrogation network may then retrieve the second query feature set based on the original query feature set along with the representation of the second query range 530 , the second query term 532 , the third query area 534 and the third query term 536 produce.

Obwohl die 5A bis 5C die Nutzerschnittstelle 504 zeigen, die resultierende digitale Bilder in dem Suchergebnissebereich 512 bereitstellt, kann das räumlich-semantische Mediensuchsystem ein oder mehrere digitale Bilder an anderen Orten oder mittels anderer Elemente bereitstellen. Beispielsweise stellt das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsformen ein resultierendes digitales Bild auf der digitalen Leinwand 506 dar. Folglich kann das räumlich-semantische Mediensuchsystem nach dem Erhalten des ersten Abfragebereichs und des ersten Abfragebegriffs ein resultierendes digitales Bild mittels der digitalen Leinwand 506 bereitstellen. Darüber hinaus kann das räumlich-semantische Mediensuchsystem ein zweites resultierendes digitales Bild mittels der digitalen Leinwand 506 nach dem Erhalten zusätzlicher Abfragebegriffe und/oder Abfragebereiche bereitstellen. Auf diese Weise kann es das räumlich-semantische Mediensuchsystem einem Nutzer ermöglichen, mittels der digitalen Leinwand 506 zu sehen, wie die Abfragebereiche und die Abfragebegriffe resultierenden digitalen Bildern entsprechen.Although the 5A to 5C the user interface 504 show the resulting digital images in the search results area 512 provides, the spatial semantic media search system may provide one or more digital images in other locations or by other means. For example, in one or more embodiments, the spatial semantic media search system provides a resulting digital image on the digital canvas 506 Thus, after obtaining the first query area and the first query term, the spatial-semantic media search system may obtain a resulting digital image using the digital canvas 506 provide. In addition, the spatial semantic media search system can create a second resulting digital image using the digital canvas 506 after obtaining additional query terms and / or query ranges. In this way, the spatial-semantic media search system can enable a user by means of the digital screen 506 to see how the query areas and the query terms correspond to resulting digital images.

Obwohl die 5A bis 5C das Durchführen einer Suche nach gesuchten digitalen Bildern auf der Basis von Abfragebegriffen und Abfragebereichen zeigen, sollte darüber hinaus beachtet werden, dass das räumlich-semantische Mediensuchsystem auch Suchen mittels anderer Eingaben durchführen kann. Beispielsweise kann das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) eine Suche nach digitalen Bildern auf der Basis eines Hintergrundtags durchführen (z.B. eines Abfragebegriffs für den Hintergrund eines gesuchten digitalen Bilds). Zur Veranschaulichung kann das räumlich-semantische Mediensuchsystem eine Nutzereingabe eines Begriffs als Hintergrundtag erhalten und eine Suche nach Bildern durchführen, die den Hintergrundtag zeigen. Insbesondere kann das räumlich-semantische Mediensuchsystem den Hintergrundtag für ein neuronales Netzwerk bereitstellen (z.B. in einem dreidimensionalen Gitter, wobei der gesamte räumliche Bereich des dreidimensionalen Gitters mit einem Vektor kodiert ist, der dem Hintergrundtag entspricht), und das räumlich-semantische Mediensuchsystem kann das neuronale Netzwerk zum Erzeugen eines Abfragemerkmalssatzes nutzen. Das räumlich-semantische Mediensuchsystem kann dann den Abfragemerkmalssatz zum Identifizieren von gesuchten digitalen Bildern nutzen, die einen gesuchten visuellen Inhalt zeigen, der dem Hintergrundtag entspricht.Although the 5A to 5C In addition, when performing a search for searched digital images based on query terms and query ranges, it should be noted that the spatial semantic media search system may also perform searches by other inputs. For example, in one or more embodiments, the spatial semantic media search system may perform a search for digital images based on a background tag (eg, a query term for the background of a searched digital image). By way of illustration, the spatial semantic media search system may receive a user input of a term as a background tag and perform a search for images showing the background tag. In particular, the spatial-semantic media search system may provide the background tag for a neural network (eg, in a three-dimensional grid, with the entire spatial area of the three-dimensional grid coded with a vector corresponding to the background tag), and the spatial-semantic media search system may use the neural network Use a network to generate a query feature set. The spatial semantic media search system may then use the query feature set to identify searched for digital images that show searched visual content corresponding to the background day.

Obwohl das vorstehende Beispiel die Durchführung einer Suche mittels eines Hintergrundtags als solchen beschreibt, kann das räumlich-semantische Mediensuchsystem auch eine Suche auf der Basis eines Hintergrundtags und einem oder mehreren zusätzlichen Suchbegriff(en) und Suchbereich(en) durchführen. Beispielsweise kann das räumlich-semantische Mediensuchsystem eine Nutzereingabe eines Hintergrundtags und einen Abfragebereich und einen Abfragebegriff erhalten. Das räumlich-semantische Mediensuchsystem kann den Hintergrundtag, den Abfragebereich und den Abfragebegriff für ein neuronales Netzwerk bereitstellen (z.B. in der Form eines dreidimensionalen Gitters mit einem ersten räumlichen Bereich, der dem Abfragebereich entspricht, der durch einen Vektor festgelegt ist, der dem Abfragebegriff entspricht, und wobei der Rest des dreidimensionalen Gitters durch einen Vektor festgelegt ist, der dem Hintergrundbegriff entspricht). Das räumlich-semantische Mediensuchsystem kann das neuronale Netzwerk zum Erzeugen eines Abfragemerkmalssatzes und zum Identifizieren von digitalen Bildern nutzen, die einen visuellen Inhalt wiedergeben, der dem ersten Abfragebegriff innerhalb eines gesuchten Bereichs entspricht, welcher der Abfrage entspricht, während sie auch einen visuellen Inhalt zeigen, der dem Hintergrundtag in dem Hintergrund des digitalen Bilds entspricht. Although the above example describes performing a search by means of a background tag as such, the spatial semantic media search system may also perform a search based on a background tag and one or more additional search term (s) and search range (s). For example, the spatial semantic media search system may receive user input of a background tag and a query scope and query term. The spatial-semantic media search system may provide the background tag, query area and query term for a neural network (eg in the form of a three-dimensional grid having a first spatial area corresponding to the query area defined by a vector corresponding to the query term). and wherein the remainder of the three-dimensional grid is defined by a vector corresponding to the background concept). The spatial-semantic media search system may use the neural network to generate a query feature set and to identify digital images that represent visual content corresponding to the first query term within a searched area that corresponds to the query while also displaying visual content. which corresponds to the background tag in the background of the digital image.

Zusätzlich zu Hintergrundtags kann das räumlich-semantische Mediensuchsystem auch eine Suche auf der Basis eines bestehenden digitalen Bilds durchführen. Beispielsweise kann ein Nutzer ein bestehendes digitales Bild haben, das verschiedene gewünschte Eigenschaften aufweist (z.B. ein Bild eines Strands), wobei jedoch dem bestehenden digitalen Bild ein gewünschtes Element fehlt (z.B. fehlt dem Bild ein Strandball auf der linken Seite des Bilds). Das räumlich-semantische Mediensuchsystem kann eine Suche auf der Basis des bestehenden digitalen Bilds und eines Abfragebereichs und eines Abfragebegriffs durchführen.In addition to background tags, the spatial semantic media search system may also perform a search based on an existing digital image. For example, a user may have an existing digital image that has various desired characteristics (e.g., an image of a beach) but the existing digital image is missing a desired element (e.g., the image lacks a beach ball on the left side of the image). The spatial-semantic media search system may perform a search based on the existing digital image and a query region and a query term.

Zur Veranschaulichung kann ein Nutzer eine Eingabe des bestehenden digitalen Bilds (z.B. das bestehende digitale Bild auswählen) und eines Abfragebegriffs (z.B. „Strandball“) und eines Abfragebereichs (z.B. eines gesuchten Bereichs auf der linken Seite) bereitstellen. Das räumlich-semantische Mediensuchsystem kann einen Merkmalssatz auf der Basis des bestehenden digitalen Bilds (z.B. durch Nutzen eines neuronalen digitalen Bildnetzwerks) und eines Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs erzeugen. Das räumlich-semantische Mediensuchsystem kann dann eine Suche auf der Basis sowohl des Merkmalssatzes auf der Basis des bestehenden digitalen Bilds als auch des Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs durchführen. Beispielsweise kann das räumlich-semantische Mediensuchsystem digitale Bildmerkmalssätze analysieren und einen Abstand zwischen den digitalen Bildmerkmalssätzen und dem Merkmalssatz auf der Basis des bestehenden digitalen Bilds und des Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs bestimmen. Auf diese Weise kann das räumlich-semantische Mediensuchsystem gesuchte digitale Bilder identifizieren, die dem bestehenden digitalen Bild ähnlich sind und die einen visuellen Inhalt zeigen, der dem Abfragebegriff innerhalb eines gesuchten Bereichs entspricht, der dem Abfragebereich entspricht.By way of illustration, a user may provide input of the existing digital image (e.g., select the existing digital image) and a query term (e.g., "beach ball") and an interrogation area (e.g., a searched area on the left). The spatial semantic media search system may generate a feature set based on the existing digital image (e.g., by using a neural digital image network) and a query feature set based on the query term and the query region. The spatial semantic media search system may then perform a search based on both the feature set based on the existing digital image and the query feature set based on the query term and the query range. For example, the spatial semantic media search system may analyze digital image feature sets and determine a distance between the digital image feature sets and the feature set based on the existing digital image and the query feature set based on the query term and the query region. In this way, the spatial semantic media search system can identify searched digital images that are similar to the existing digital image and that display visual content corresponding to the query term within a searched range that corresponds to the query region.

Entsprechend kann das räumlich-semantische Mediensuchsystem auch Suchen auf der Basis eines Modifizierers oder mehrerer Modifizierer durchführen. Beispielsweise kann das räumlich-semantische Mediensuchsystem Farbmodifizierer unterstützen. Beispielsweise kann das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) das neuronale Netzwerk zum Umwandeln von Farbbegriffen in einen Farbmerkmalssatz und zum Kombinieren des Farbmerkmalssatzes mit anderen Abfragemerkmalssätzen trainieren. Das räumlich-semantische Mediensuchsystem kann dann gesuchte digitale Bilder auf der Basis des Farbmerkmalssatzes und der anderen Abfragemerkmals-sätze identifizieren. Entsprechend kann das räumlich-semantische Mediensuchsystem in einer oder mehreren Ausführungsform(en) einen Farbmodifizierer mit anderen Abfragebegriffen bei der Erzeugung eines Abfragemerkmalssatzes kombinieren (z.B. den Farbmodifizierer zusammen mit anderen Abfragebegriffen mittels eines Wort-zu-Vektor-Algorithmus umwandeln und die Abfragebegriffe für das neuronale Abfragenetzwerk bereitstellen). Auf diese Weise kann das räumlich-semantische Mediensuchsystem gesuchte digitale Bilder identifizieren, die mit Abfragebegriffen und Abfragebereichen übereinstimmen, während auch bestimmte Farben angezeigt werden.Accordingly, the spatial semantic media search system may also perform searches based on one or more modifiers. For example, the spatial semantic media search system may support color modifiers. For example, in one or more embodiments, the spatial semantic media search system may train the neural network to convert color terms to a color feature set and to combine the color feature set with other query feature sets. The spatial semantic media search system may then identify searched digital images based on the color feature set and the other query feature sets. Accordingly, in one or more embodiments, the spatial semantic media search system may combine a color modifier with other query terms in generating a query feature set (eg, transform the color modifier along with other query terms using a word-to-vector algorithm and query terms for the neural Provide a query network). In this way, the spatial-semantic media search system can identify searched digital images that match query terms and query ranges, while also displaying certain colors.

Wie es vorstehend erwähnt worden ist, ermöglicht es das räumlich-semantische Mediensuchsystem Nutzern, eine Mehrzahl von gesuchten digitalen Bildern, die einen visuellen Inhalt innerhalb eines gesuchten Bereichs wiedergeben, schnell und einfach zu identifizieren. Zur Veranschaulichung zeigt die 6 drei Beispielabfragen mit den besten zehn resultierenden digitalen Bildern. Insbesondere zeigt die 6 eine erste digitale Leinwand 602, eine zweite digitale Leinwand 604 und eine dritte digitale Leinwand 606. Ferner zeigt die 6 eine erste Mehrzahl von Suchergebnissen 602a, die der ersten digitalen Leinwand 602 entsprechen, eine zweite Mehrzahl von Suchergebnissen 604a, die der zweiten digitalen Leinwand 604 entsprechen, und eine dritte Mehrzahl von Suchergebnissen 606a, die der dritten digitalen Leinwand 606 entsprechen. Wie es gezeigt ist, kann das räumlich-semantische Mediensuchsystem digitale visuelle Medien identifizieren, die einen gesuchten visuellen Inhalt zeigen, der Abfragebegriffen innerhalb von gesuchten Bereichen entspricht, die gesuchten Abfragebereichen entsprechen.As mentioned above, the spatial semantic media search system allows users to quickly and easily identify a plurality of searched digital images that render visual content within a searched area. To illustrate, the 6 three sample queries with the best ten resulting digital images. In particular, the shows 6 a first digital canvas 602 , a second digital canvas 604 and a third digital canvas 606 , Furthermore, the shows 6 a first plurality of search results 602a that's the first digital canvas 602 correspond to a second plurality of search results 604a that the second digital canvas 604 correspond, and a third plurality of search results 606a , the third digital canvas 606 correspond. As shown, the spatial semantic media search system can identify digital visual media that Show a searched visual content that matches query terms within searched ranges that match the query ranges you want.

Unter Bezugnahme auf die 7 werden zusätzliche Details bezüglich Komponenten und Fähigkeiten einer Ausführungsform des räumlich-semantischen Mediensuchsystems bereitgestellt. Insbesondere zeigt die 7 eine Ausführungsform eines beispielhaften räumlich-semantischen Mediensuchsystems 700 (z.B. des vorstehend genannten räumlich-semantischen Mediensuchsystems). Wie es gezeigt ist, kann das räumlich-semantische Mediensuchsystem 700 einen Nutzereingabedetektor 702, eine Nutzerschnittstellenverwaltung 704, eine digitale Leinwand-Verwaltung 706, eine Merkmalssatzerzeugungseinrichtung 708, ein digitale visuelle Medien-Suchmodul 710, eine neuronales Netzwerk-Trainingseinrichtung 712 und eine Speicherverwaltung 714 (die ein neuronales Abfragenetzwerk 714a, ein neuronales digitale visuelle Medien-Netzwerk 714b, einen digitale visuelle Medien-Speicherinhalt 714c, digitale visuelle Trainingsmedien 714d und Suchergebnisse 714e umfasst) umfassen, ist jedoch nicht darauf beschränkt.With reference to the 7 additional details regarding components and capabilities of one embodiment of the spatial semantic media search system are provided. In particular, the shows 7 an embodiment of an exemplary spatial semantic media search system 700 (eg the aforementioned spatial-semantic media search system). As shown, the spatial-semantic media search system 700 a user input detector 702 , a user interface management 704 , a digital canvas management 706 , a feature set generator 708 , a digital visual media search engine 710 , a neural network training facility 712 and a memory manager 714 (which is a neural interrogation network 714a , a neural digital visual media network 714b , a digital visual media storage content 714c , digital visual training media 714d and search results 714E includes), but is not limited thereto.

Wie es unmittelbar vorstehend erwähnt worden ist und wie es in der 7 gezeigt ist, kann das räumlich-semantische Mediensuchsystem 700 den Nutzereingabedetektor 702 umfassen. Der Nutzereingabedetektor 702 kann verschiedene Typen einer Nutzereingabe erfassen, identifizieren, überwachen, erhalten, verarbeiten, festhalten und/oder aufzeichnen. Beispielsweise kann der Nutzereingabedetektor 702 eine oder mehrere Nutzerinteraktion(en) in Bezug auf eine Nutzerschnittstelle und/oder eine digitale Leinwand erfassen. Insbesondere kann der Nutzereingabedetektor 702 eine Nutzereingabe eines Abfragebegriffs und/oder eines Abfragebereichs mittels einer digitalen Leinwand erfassen.As it has been mentioned immediately above and as it is in the 7 can be shown, the spatial-semantic media search system 700 the user input detector 702 include. The user input detector 702 can capture, identify, monitor, obtain, process, capture, and / or record various types of user input. For example, the user input detector 702 capture one or more user interaction (s) related to a user interface and / or a digital canvas. In particular, the user input detector 702 capture a user input of a query term and / or a query area using a digital canvas.

Der Nutzereingabedetektor 702 kann im Zusammenhang mit jedweder Anzahl von Nutzereingabevorrichtungen oder Rechenvorrichtungen (einzeln oder in einer Kombination) arbeiten, einschließlich Personalcomputer, Laptops, Smartphones, Smartuhren, Tablets, Berührungsbildschirmvorrichtungen, Fernsehgeräte, persönliche digitale Assistenten, Mausgeräte, Tastaturen, Trackpads oder Stiftgeräte. Der Nutzereingabedetektor 702 erfasst und identifiziert verschiedene Typen von Nutzerinteraktionen mit Nutzereingabevorrichtungen, wie z.B. Drückereignisse, Ziehereignisse, Scrollereignisse, Freigabeereignisse, usw. Beispielsweise erfasst der Nutzereingabedetektor 702 in dem Fall, bei dem eine Clientvorrichtung, die dem räumlich-semantischen Mediensuchsystem 700 entspricht, einen Berührungsbildschirm umfasst, eine oder mehrere Berührungsgeste(n) (z.B. Wischgesten, Klopfgesten, Zusammenführungsgesten und Auseinanderziehgesten) von einem Nutzer, der eine Nutzerinteraktion ausführt.The user input detector 702 may work in conjunction with any number of user input devices or computing devices (individually or in combination) including personal computers, laptops, smartphones, smart watches, tablets, touch screen devices, televisions, personal digital assistants, mouse devices, keyboards, trackpads, or pen devices. The user input detector 702 detects and identifies various types of user interactions with user input devices, such as push events, drag events, scrolling events, enable events, etc. For example, the user input detector detects 702 in the case where a client device belonging to the spatial semantic media search system 700 A touch screen includes one or more touch gestures (eg, swipe gestures, knock gestures, merge gestures, and swipe gestures) from a user performing a user interaction.

Wie es vorstehend erwähnt worden ist und wie es in der 7 gezeigt ist, umfasst das räumlich-semantische Mediensuchsystem 700 auch die Nutzerschnittstellenverwaltung 704. Die Nutzerschnittstellenverwaltung 704 stellt bereit, verwaltet und/oder steuert eine graphische Nutzerschnittstelle (oder einfach „Nutzerschnittstelle“) zur Verwendung mit dem räumlich-semantischen Mediensuchsystem 700. Insbesondere kann die Nutzerschnittstellenverwaltung 704 die Darstellung von Informationen mittels einer externen Komponente einer Clientvorrichtung (z.B. einer Rechenvorrichtung 500) erleichtern. Beispielsweise kann die Nutzerschnittstellenverwaltung 704 eine Nutzerschnittstelle mittels eines Anzeigebildschirms anzeigen, der einer Clientvorrichtung zugeordnet ist. Die Nutzerschnittstelle kann aus einer Mehrzahl von graphischen Komponenten, Gegenständen und/oder Elementen zusammengesetzt sein, die einem Nutzer die Ausführung einer Funktion ermöglichen. Die Nutzerschnittstellenverwaltung 704 stellt mittels einer Clientvorrichtung verschiedene Typen von Informationen dar, einschließlich Text, Bilder, Videos, Audioinhalte, Buchstaben oder andere Informationen. Darüber hinaus stellt die Nutzerschnittstellenverwaltung 704 verschiedene Nutzerschnittstellen bereit (z.B. die Nutzerschnittstelle 504), die für jedwede(s) von verschiedenen Funktionen, Programmen, Anwendungen, Plugins, Vorrichtungen, Betriebssystemen und/oder Komponenten einer Clientvorrichtung spezifisch sind. Darüber hinaus kann die Nutzerschnittstellenverwaltung 704 verschiedene Elemente für eine Anzeige bereitstellen, einschließlich eine digitale Leinwand, Abfragebegriffe, Abfragebereiche und/oder andere Felder oder auswählbare Elemente.As it has been mentioned above and as it is in the 7 is shown, includes the spatial-semantic media search system 700 also the user interface management 704 , The user interface management 704 provides, manages and / or controls a graphical user interface (or simply "user interface") for use with the spatial semantic media search system 700 , In particular, the user interface management 704 the representation of information by means of an external component of a client device (eg a computing device 500 ) facilitate. For example, the user interface management 704 display a user interface by means of a display screen associated with a client device. The user interface may be composed of a plurality of graphical components, objects, and / or elements that enable a user to perform a function. The user interface management 704 represents various types of information by means of a client device, including text, images, videos, audio content, characters or other information. In addition, the user interface management 704 various user interfaces ready (eg the user interface 504 ) specific to any of a variety of functions, programs, applications, plug-ins, devices, operating systems, and / or components of a client device. In addition, the user interface management 704 provide various elements for a display, including a digital canvas, query terms, query ranges, and / or other fields or selectable elements.

Darüber hinaus umfasst, wie es in der 7 gezeigt ist, das räumlich-semantische Mediensuchsystem 700 auch die digitale Leinwand-Verwaltung 706. Die digitale Leinwand-Verwaltung 706 kann eine Nutzereingabe mittels einer digitalen Leinwand identifizieren, erhalten, bestimmen, erfassen, extrahieren und/oder verwalten. Insbesondere kann die digitale Leinwand-Verwaltung 706 einen oder mehrere Abfragebegriff(e) und einen oder mehrere Abfragebereich(e) erhalten, der oder die einer digitalen Leinwand entspricht oder entsprechen. Entsprechend kann die digitale Leinwand-Verwaltung 706 einen Hintergrundtag und bestehende digitale Bilder bestimmen (z.B. Hintergrundtags oder bestehende digitale Bilder, die ein Nutzer beim Suchen nach einem gesuchten digitalen Bild nutzen will). It also includes, as in the 7 is shown, the spatial-semantic media search system 700 also the digital screen management 706 , The digital canvas management 706 can identify, obtain, determine, capture, extract, and / or manage a user input via a digital canvas. In particular, digital canvas management 706 receive one or more query terms and one or more query ranges that match or correspond to a digital canvas. Accordingly, the digital canvas management 706 determine a background tag and existing digital images (eg, background tags or existing digital images that a user wants to use in searching for a searched digital image).

Darüber hinaus umfasst, wie es in der 7 gezeigt ist, das räumlich-semantische Mediensuchsystem 700 auch die Merkmalssatzerzeugungseinrichtung 708. Die Merkmalssatzerzeugungseinrichtung 708 kann einen Merkmalssatz oder mehrere Merkmalssätze erzeugen, generieren, besetzen, bestimmen und/oder identifizieren. Beispielsweise kann, wie es vorstehend beschrieben ist, die Merkmalssatzerzeugungseinrichtung 708 eine digitale Leinwand zum Erzeugen eines Abfragemerkmalssatzes nutzen. Entsprechend kann die Merkmalssatzerzeugungseinrichtung 708 ein digitales Bild zum Erzeugen eines digitalen Bildmerkmalssatzes nutzen.It also includes, as in the 7 is shown, the spatial-semantic media search system 700 also the feature set generator 708 , The feature set generator 708 can generate, generate, occupy, determine and / or identify a feature set or multiple feature sets. For example, as described above, the feature set generating means 708 use a digital canvas to generate a query feature set. Accordingly, the feature set generating means 708 use a digital image to generate a digital image feature set.

Zur Veranschaulichung kann die Merkmalssatzerzeugungseinrichtung 708 eine Darstellung eines Abfragebegriffs und eines Abfragebereichs erzeugen. Beispielsweise kann die Merkmalssatzerzeugungseinrichtung 708 ein dreidimensionales Gitter erzeugen, das einen Abfragebegriff und einen Abfragebereich von einer digitalen Leinwand erzeugt. Darüber hinaus kann der Merkmalssatzerzeugungssatz die Darstellung des Abfragebegriffs und des Abfragebereichs für ein neuronales Abfragenetzwerk bereitstellen (z.B. das neuronale Abfragenetzwerk 714a), um einen Abfragemerkmalssatz zu erzeugen.By way of illustration, the feature set generator 708 create a representation of a query term and a query scope. For example, the feature set generator 708 create a three-dimensional grid that generates a query term and a query area from a digital canvas. In addition, the feature set generation kit may provide the representation of the query term and query space for a neural interrogation network (eg, the neural interrogation network 714a ) to generate a query feature set.

Entsprechend kann die Merkmalssatzerzeugungseinrichtung 708 einen digitales Bild-Merkmalssatz erzeugen. Beispielsweise kann die Merkmalssatzerzeugungseinrichtung 708 ein digitales Bild für ein neuronales digitales Bild-Netzwerk bereitstellen (z.B. das neuronale digitale visuelle Medien-Netzwerk 714b), um einen digitalen Bildmerkmalssatz zu erzeugen.Accordingly, the feature set generating means 708 generate a digital image feature set. For example, the feature set generator 708 provide a digital image for a neural digital image network (eg, the neural digital visual media network 714b ) to generate a digital image feature set.

Wie es in der 7 gezeigt ist, kann das räumlich-semantische Mediensuchsystem 700 auch das digitale visuelle Medien-Suchmodul 710 umfassen. Das digitale visuelle Medien-Suchmodul 710 kann visuelle Medien identifizieren, auswählen und/oder bestimmen, die einer digitalen Leinwand entsprechen. Insbesondere kann das digitale visuelle Medien-Suchmodul 710 digitale Bilder identifizieren, die gesuchte visuelle Medien, die einem Abfragebegriff entsprechen, innerhalb eines gesuchten Bereichs, der einem Abfragebereich entspricht, zeigen. Wie es beschrieben ist, identifiziert das digitale visuelle Medien-Suchmodul 710 in einer oder mehreren Ausführungsform(en) digitale Bilder durch Vergleichen von einem Abfragemerkmalssatz oder mehreren Abfragemerkmalssätzen und einem digitalen Bildmerkmalssatz oder mehreren digitalen Bildmerkmalssätzen (z.B. von der Merkmalssatzerzeugungseinrichtung 708).As it is in the 7 can be shown, the spatial-semantic media search system 700 also the digital visual media search module 710 include. The digital visual media search engine 710 can identify, select and / or determine visual media corresponding to a digital canvas. In particular, the digital visual media search module 710 Identify digital images that show searched visual media that match a query term within a searched range that corresponds to a query scope. As described, the digital visual media search engine identifies 710 In one or more embodiments, digital images are obtained by comparing one or more query feature sets and a digital image feature set or a plurality of digital image feature sets (eg, from the feature set generator) 708 ).

Wie es in der 7 gezeigt ist, kann das räumlich-semantische Mediensuchsystem 700 zusätzlich auch die neuronales Netzwerk-Trainingseinrichtung 712 umfassen. Die neuronales Netzwerk-Trainingseinrichtung 712 kann ein neuronales Netzwerk bezüglich der Erzeugung einer gewünschten Ausgabe leiten, lernen, fördern und trainieren. Insbesondere kann, wie es vorstehend beschrieben ist, die neuronales Netzwerk-Trainingseinrichtung 712 ein neuronales Abfragenetzwerk zum Erzeugen eines Abfragemerkmalssatzes trainieren (z.B. durch die Nutzung von Trainingsbegriffen, Trainingsbereichen, einer Ähnlichkeitsverlustfunktion, einer abfragebasierten Verlustfunktion und/oder einer bildbasierten Verlustfunktion). Ferner kann die neuronales Netzwerk-Trainingseinrichtung 712 auch ein neuronales digitales Bildnetzwerk trainieren (z.B. durch Nutzen von digitalen Trainingsbildern und einer Ähnlichkeitsverlustfunktion).As it is in the 7 can be shown, the spatial-semantic media search system 700 in addition, the neural network training facility 712 include. The neural network training device 712 can direct, learn, promote and train a neural network to produce a desired output. In particular, as described above, the neural network training device 712 train a neural interrogation network to generate a query feature set (eg, by using training terms, training areas, a similarity loss function, a query-based loss function, and / or an image-based loss function). Furthermore, the neural network training device 712 also train a neural digital image network (eg, by using digital training images and a similarity loss function).

Darüber hinaus umfasst, wie es in der 7 gezeigt ist, das räumlich-semantische Mediensuchsystem 700 auch die Speicherverwaltung 714. Die Speicherverwaltung 714 bewahrt Daten zur Ausführung der Funktionen des räumlich-semantischen Mediensuchsystems 700. Die Speicherverwaltung 714 kann eine(n) oder mehrere Speicher oder Speichervorrichtung(en) zum Bewahren von Daten für das räumlich-semantische Mediensuchsystem 700 umfassen. Wie es gezeigt ist, umfasst die Speicherverwaltung 714 das neuronale Abfragenetzwerk 714a (z.B. das trainierte neuronale Abfragenetzwerk 430 oder das trainierte neuronale Abfragenetzwerk 460), das neuronale digitale Bildnetzwerk 714b (z.B. das neuronale digitale Bildnetzwerk 210), den digitales Bild-visuelle Medien-Speicherinhalt 714c (z.B. eine Mehrzahl von digitalen Bildern, die ein Nutzer suchen will), digitale visuelle Trainingsmedien 714d (z.B. eine Mehrzahl von digitalen Trainingsbildern, die einen bekannten visuellen Inhalt zeigen, digitale Trainingsbildmerkmalssätze, Trainingsbegriffe, Trainingsbereiche und/oder Gegenstandsgrenzen) und Suchergebnisse 714e (z.B. identifizierte digitale Bilder und/oder Abfragemerkmalssätze).It also includes, as in the 7 is shown, the spatial-semantic media search system 700 also the memory management 714 , The memory management 714 preserves data for performing the functions of the spatial semantic media search system 700 , The memory management 714 may include one or more memory or storage devices for preserving data for the spatial semantic media search system 700 include. As shown, memory management includes 714 the neural interrogation network 714a (eg the trained neural interrogation network 430 or the trained neural interrogation network 460 ), the neural digital image network 714b (eg the neural digital image network 210 ), the digital image visual media storage content 714c (eg, a plurality of digital images that a user wants to search), digital visual training media 714d (eg, a plurality of digital training images showing known visual content, digital training image feature sets, training terms, training areas, and / or subject boundaries) and search results 714E (eg, identified digital images and / or query feature sets).

Jede der Komponenten 702 bis 714 des räumlich-semantischen Mediensuchsystems 700 (wie es in der 7 gezeigt ist) kann mit einer anderen Komponente durch jedwede geeigneten Kommunikationstechnologien in Verbindung stehen. Es sollte beachtet werden, dass, obwohl die Komponenten 702 bis 714 des räumlich-semantischen Mediensuchsystems 700 in der 7 getrennt gezeigt sind, jedwede der Komponenten 702 bis 714 zu weniger Komponenten kombiniert werden kann, wie z.B. zu einer einzelnen Einrichtung oder einem einzelnen Modul, in mehr Komponenten aufgeteilt werden kann, oder zu verschiedenen Komponenten ausgebildet werden kann, die als spezielle Ausführungsform dienen können.Each of the components 702 to 714 of the spatial-semantic media search system 700 (as it is in the 7 shown) may be associated with another component by any suitable communication technologies. It should be noted that, although the components 702 to 714 of the spatial-semantic media search system 700 in the 7 are shown separately, any of the components 702 to 714 may be combined into fewer components, such as a single device or a single module, divided into more components, or may be formed into various components that may serve as a specific embodiment.

Die Komponenten 702 bis 714 des räumlich-semantischen Mediensuchsystems 700 können Software, Hardware oder beides umfassen. Beispielsweise können die Komponenten 702 bis 714 eine oder mehrere Anweisung(en) umfassen, die auf einem computerlesbaren Speichermedium gespeichert sind und durch Prozessoren von einer oder mehreren Rechenvorrichtung(en) ausführbar sind. Wenn sie durch den einen oder die mehreren Prozessor(en) ausgeführt werden, können die computerausführbaren Anweisungen des räumlich-semantischen Mediensuchsystems 700 bewirken, dass eine Clientvorrichtung und/oder eine Servervorrichtung die hier beschriebenen Verfahren ausführt oder ausführen. Alternativ können die Komponenten 702 bis 714 und deren entsprechenden Elemente eine Hardware umfassen, wie z.B. eine spezielle Verarbeitungsvorrichtung zur Ausführung einer bestimmten Funktion oder Gruppe von Funktionen. Zusätzlich können die Komponenten 702 bis 714 eine Kombination von computerausführbaren Anweisungen und Hardware umfassen. The components 702 to 714 of the spatial-semantic media search system 700 may include software, hardware, or both. For example, the components 702 to 714 comprise one or more instructions stored on a computer-readable storage medium and executable by processors of one or more computing devices. When executed by the one or more processors, the computer-executable instructions of the spatial semantic media search system may be used 700 cause a client device and / or a server device to execute or execute the methods described herein. Alternatively, the components can 702 to 714 and their corresponding elements comprise hardware, such as a special processing device for performing a particular function or group of functions. In addition, the components can 702 to 714 a combination of computer-executable instructions and hardware.

Ferner können die Komponenten 702 bis 714 z.B. als ein oder mehrere Betriebssystem(e), als eine oder mehrere eigenständige Anwendung(en), als ein oder mehrere Modul(e) einer Anwendung, als ein oder mehrere Plugin(s), als eine oder mehrere Bibliotheksfunktion(en) oder Funktionen, die durch andere Anwendungen aufgerufen werden können, und/oder als Cloudcomputingmodell implementiert werden. Folglich können die Komponenten 702 bis 714 als eigenständige Anwendung, wie z.B. als Desktopanwendung oder mobile Anwendung, implementiert werden. Ferner können die Komponenten 702 bis 714 als eine oder mehrere webbasierte Anwendung(en) implementiert werden, die auf einem Remoteserver installiert ist oder sind. Die Komponenten 702 bis 714 können auch in einem Bündel von mobilen Vorrichtungsanwendungen oder „Apps“ implementiert werden. Zur Veranschaulichung können die Komponenten 702 bis 714 in einer Anwendung implementiert werden, einschließlich, aber nicht beschränkt auf, ADOBE PHOTOSHOP-Software, ADOBE STOCK-Software und einen Bildspeicherinhalt, oder ADOBE LIGHTROOM-Software. „ADOBE“, „PHOTOSHOP“, „STOCK“ und „LIGHTROOM“ sind entweder eingetragene Marken oder Marken von Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern.Furthermore, the components can 702 to 714 for example, as one or more operating systems, as one or more standalone application (s), as one or more modules of an application, as one or more plugins, as one or more library function (s) or functions that can be invoked by other applications and / or implemented as a cloud computing model. Consequently, the components can 702 to 714 as a stand-alone application, such as a desktop application or mobile application. Furthermore, the components can 702 to 714 be implemented as one or more web-based application (s) installed on a remote server. The components 702 to 714 can also be implemented in a bundle of mobile device applications or "apps". By way of illustration, the components may be 702 to 714 are implemented in an application, including, but not limited to, ADOBE PHOTOSHOP software, ADOBE STOCK software and image memory content, or ADOBE LIGHTROOM software. "ADOBE", "PHOTOSHOP", "STOCK" and "LIGHTROOM" are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States and / or other countries.

Die 8 zeigt ein schematisches Diagramm einer Ausführungsform einer beispielhaften Umgebung 800, in der das räumlich-semantische Mediensuchsystem 700 betrieben werden kann. In einer oder mehreren Ausführungsform(en) umfasst die beispielhafte Umgebung 800 eine oder mehrere Clientvorrichtung(en) 802a, 802b, ... 802n, ein Netzwerk 804 und Server 806. Das Netzwerk 804 kann jedwedes geeignete Netzwerk sein, über das die Rechenvorrichtungen kommunizieren können. Beispiele für Netzwerke werden nachstehend unter Bezugnahme auf die 10 detaillierter diskutiert.The 8th FIG. 12 is a schematic diagram of one embodiment of an example environment. FIG 800 in which the spatial-semantic media search system 700 can be operated. In one or more embodiments, the example environment includes 800 one or more client device (s) 802a . 802b , ... 802n, a network 804 and server 806 , The network 804 may be any suitable network over which the computing devices can communicate. Examples of networks will be described below with reference to FIGS 10 discussed in more detail.

Wie es in der 8 gezeigt ist, umfasst die Umgebung 800 die Clientvorrichtungen 802a-802n. Die Clientvorrichtungen 802a-802n können jedwede Rechenvorrichtung umfassen. Beispielsweise umfasst eine oder mehrere der Clientvorrichtung(en) 802a-802n in einer oder mehreren Ausführungsform(en) eine oder mehrere Rechenvorrichtung(en), die nachstehend in Bezug auf die 10 beschrieben sind.As it is in the 8th shown includes the environment 800 the client devices 802a - 802N , The client devices 802a - 802N may include any computing device. For example, one or more of the client device (s) comprises 802a - 802N in one or more embodiments, one or more computing devices described below with respect to FIGS 10 are described.

Darüber hinaus kann die Umgebung 800 auch den oder die Server 806 umfassen. Der oder die Server 806 kann jedweden Typ von Daten erzeugen, speichern, erhalten und übertragen, einschließlich das neuronale Abfragenetzwerk 714a, das neuronale digitale visuelle Medien-Netzwerk 714b, den digitale visuelle Medien-Speicherinhalt 714c, die digitalen visuellen Trainingsmedien 714d und die Suchergebnisse 714e. Beispielsweise kann oder können der oder die Server 806 Daten zu einer Clientvorrichtung übertragen, wie z.B. zu der Clientvorrichtung 802a. Der oder die Server 806 kann oder können auch elektronische Nachrichten zwischen einem oder mehreren Nutzer(n) der Umgebung 800 übertragen. In einer Beispielausführungsform umfasst oder umfassen der oder die Server 806 einen Inhaltsserver. Der oder die Server 806 kann oder können auch einen Kommunikationsserver oder einen Webhostingserver umfassen. Zusätzliche Details bezüglich des oder der Server(s) 806 werden nachstehend in Bezug auf die 10 diskutiert.In addition, the environment can 800 also the server (s) 806 include. The server or servers 806 can generate, store, receive and transmit any type of data, including the neural interrogation network 714a , the neural digital visual media network 714b , the digital visual media storage content 714c , the digital visual training media 714d and the search results 714E , For example, the server (s) may or may not 806 Transfer data to a client device, such as the client device 802a , The server or servers 806 may or may also be electronic messages between one or more users of the environment 800 transfer. In an example embodiment, the server (s) includes or includes 806 a content server. The server or servers 806 may or may also include a communication server or a web hosting server. Additional details regarding server (s) 806 will be described below with respect to FIGS 10 discussed.

Wie es gezeigt ist, kann oder können der oder die Server 806 in einer oder mehreren Ausführungsform(en) das gesamte räumlich-semantische Mediensuchsystem 700 oder einen Teil davon umfassen. Insbesondere kann das räumlich-semantische Mediensuchsystem 700 eine Anwendung umfassen, die auf dem oder den Server(n) 806 läuft, oder einen Teil einer Softwareanwendung umfassen, die von dem oder den Server(n) 806 heruntergeladen werden kann. Beispielsweise kann das räumlich-semantische Mediensuchsystem 700 eine Webhostinganwendung umfassen, die es den Clientvorrichtungen 802a-802n ermöglicht, mit einem Inhalt zu interagieren, der auf dem oder den Server(n) 806 vorliegt. Zur Veranschaulichung kann oder können in einer oder mehreren Ausführungsform(en) der beispielhaften Umgebung 800 eine oder mehrere Clientvorrichtung(en) 802a-802n auf eine Webseite zugreifen, die auf dem oder den Server(n) 806 vorliegt. Insbesondere kann die Clientvorrichtung 802a eine Anwendung betreiben, die es einem Nutzer ermöglicht, auf eine Webseite oder eine Website, die auf dem oder den Server(n) 806 vorliegt, zuzugreifen, diese zu betrachten und/oder mit dieser zu interagieren.As it is shown, the server (s) can or can 806 in one or more embodiments, the entire spatially-semantic media search system 700 or part of it. In particular, the spatial-semantic media search system 700 comprise an application running on the server (s) 806 or comprise part of a software application that may be downloaded from the server (s) 806. For example, the spatial semantic media search system 700 include a web hosting application that allows the client devices 802a - 802N allows to interact with content residing on the server (s) 806. By way of illustration, in one or more embodiments, the example environment may 800 one or more client device (s) 802a - 802N access a web page that resides on the server (s) 806. In particular, the client device 802a run an application that allows a user to access, view, and / or interact with a web page or web site located on the server (s) 806.

Obwohl die 8 eine spezielle Anordnung der Clientvorrichtungen 802a-802n, des Netzwerks 804 und des oder der Server(s) 806 zeigt, sind verschiedene zusätzliche Anordnungen möglich. Beispielsweise während die 8 eine Mehrzahl von getrennten Clientvorrichtungen 802a-802n zeigt, die mit dem oder den Server(n) 806 über das Netzwerk 804 kommunizieren, kann in einer oder mehreren Ausführungsform(en) eine einzelne Clientvorrichtung direkt mit dem oder den Server(n) 806 kommunizieren, wobei das Netzwerk 804 umgangen wird. Although the 8th a special arrangement of client devices 802a - 802N , the network 804 and the server (s) 806, various additional arrangements are possible. For example, while the 8th a plurality of separate client devices 802a - 802N shows that with the server (s) 806 over the network 804 In one or more embodiments, a single client device may communicate directly with the server (s) 806, the network 804 is bypassed.

Entsprechend kann, obwohl die Umgebung 800 von 8 so gezeigt ist, dass sie verschiedene Komponenten aufweist, die Umgebung 800 zusätzliche oder alternative Komponenten aufweisen. Beispielsweise kann das räumlich-semantische Mediensuchsystem 700 auf einer einzelnen Rechenvorrichtung implementiert werden. Insbesondere kann das räumlich-semantische Mediensuchsystem 700 als Ganzes durch die Clientvorrichtung 802a implementiert werden oder das räumlich-semantische Mediensuchsystem 700 kann als Ganzes durch den oder die Server 806 implementiert werden. Alternativ kann das räumlich-semantische Mediensuchsystem 700 über mehrere Vorrichtungen oder Komponenten implementiert werden (z.B. mittels der Clientvorrichtungen 802a-802n und dem oder den Server(n) 806).Accordingly, although the environment 800 from 8th is shown to have different components, the environment 800 have additional or alternative components. For example, the spatial semantic media search system 700 be implemented on a single computing device. In particular, the spatial-semantic media search system 700 as a whole by the client device 802a be implemented or the spatio-semantic media search system 700 can be as a whole by the server or servers 806 be implemented. Alternatively, the spatial-semantic media search system 700 be implemented over several devices or components (eg by means of the client devices 802a - 802N and server (s) 806).

Beispielsweise erhält in einer oder mehreren Ausführungsform(en) die Clientvorrichtung 802a eine Nutzereingabe (z.B. mittels des Nutzereingabedetektors 702) eines Abfragebegriffs und eines Abfragebereichs mittels einer digitalen Leinwand (z.B. mittels der digitalen Leinwandverwaltung 706). Darüber hinaus sendet die Clientvorrichtung 802a den Abfragebegriff und den Abfragebereich an den oder die Server 806. Der oder die Server 806 stellt oder stellen den Abfragebegriff und den Abfragebereich (z.B. mittels der Merkmalssatzerzeugungseinrichtung 708) einem neuronalen Abfragenetzwerk (z.B. dem neuronalen Abfragenetzwerk 714a) zum Erzeugen eines Abfragemerkmalssatzes bereit. Ferner vergleicht oder vergleichen der oder die Server 806 (z.B. mittels des digitale visuelle Medien-Suchmoduls 710) den Abfragemerkmalssatz mit einer Mehrzahl von gelernten digitale Medien-Merkmals-sätzen (z.B. mittels der Merkmalssatzerzeugungseinrichtung 708) von einer Mehrzahl von digitalen Bildern mittels eines neuronalen digitalen Bildnetzwerks (z.B. des neuronalen digitalen Bildnetzwerks 714b). Auf der Basis des Vergleichs identifiziert oder identifizieren der oder die Server 806 (z.B. mittels des digitale visuelle Medien-Suchmoduls 710) ein digitales Bild, das einen gesuchten visuellen Inhalt, der dem Abfragebegriff entspricht, innerhalb eines gesuchten visuellen Bereichs zeigt, der dem Abfragebereich entspricht. Darüber hinaus stellt oder stellen der oder die Server 806 das identifizierte digitale Bild für eine Anzeige für die Clientvorrichtung 802a bereit (z.B. mittels der Nutzerschnittstellenverwaltung 704).For example, in one or more embodiments, the client device receives 802a a user input (eg by means of the user input detector 702 ) of a query term and a query area by means of a digital screen (eg by means of digital screen management 706 ). In addition, the client device sends 802a the query term and the query scope to the server (s) 806 , The server or servers 806 provides or sets the query term and the query range (eg by means of the feature set generator 708 ) a neural interrogation network (eg the neural interrogation network 714a ) for generating a query feature set. It also compares or compares the server (s) 806 (eg by means of the digital visual media search module 710 ) retrieves the query feature set with a plurality of learned digital media feature sets (eg, by the feature set generator) 708 ) of a plurality of digital images using a neural digital image network (eg, the neural digital image network 714b ). Based on the comparison, identify or identify the server (s) 806 (eg by means of the digital visual media search module 710 ) a digital image showing a searched visual content corresponding to the query term within a searched visual area corresponding to the query area. It also provides or sets the server or servers 806 the identified digital image for a display to the client device 802a ready (eg by means of user interface management 704 ).

Ferner trainiert oder trainieren in einer oder mehreren Ausführungsform(en) der oder die Server 806 auch ein neuronales Abfragenetzwerk und/oder ein neuronales digitales Bildnetzwerk (z.B. mittels der neuronales Netzwerk-Trainingseinrichtung 712). Wie es vorstehend diskutiert worden ist, stellt der oder stellen die Server 806 in einer oder mehreren Ausführungsform(en) ein neuronales Abfragenetzwerk mit einem Trainingsbereich und einem Trainingsbegriff bereit, die einem digitalen Trainingsbild entsprechen, und trainiert oder trainieren das neuronale Abfragenetzwerk durch Vergleichen eines vorhergesagten Merkmalssatzes mit einem tatsächlichen Merkmalssatz, der dem digitalen Trainingsbild entspricht. Ferner kann oder können der oder die Server 806 zusammen Ähnlichkeitsverlustfunktionen, abfragebasierte Einstufungsverlustfunktionen und bildbasierte Einstufungsverlustfunktionen zum Trainieren des neuronalen Abfragenetzwerks minimieren. Entsprechend kann oder können der oder die Server 806 auch ein neuronales digitales Bildnetzwerk durch Bereitstellen von digitalen Trainingsbildern für das neuronale digitale Bildnetzwerk und Vergleichen eines vorhergesagten Merkmalssatzes mit einem tatsächlichen Merkmalssatz, der dem digitalen Trainingsbild entspricht, trainieren.Further, in one or more embodiments, the server (s) train or train 806 also a neural interrogation network and / or a neural digital image network (eg by means of the neural network training device 712 ). As has been discussed above, this constitutes or constitutes the servers 806 in one or more embodiments, provide a neural interrogation network having a training area and a training term corresponding to a digital training image, and train or train the neural interrogation network by comparing a predicted feature set to an actual feature set corresponding to the digital training image. Furthermore, the server (s) may or may not 806 together, minimize similarity loss functions, query-based rating loss functions, and image-based rating loss functions to train the neural interrogation network. Accordingly, the server (s) may or may not 806 also train a neural digital image network by providing digital training images to the neural digital image network and comparing a predicted feature set to an actual feature set corresponding to the digital training image.

Als zusätzliches Beispiel umfasst die Umgebung 800 in einer oder mehreren Ausführungsform(en) einen oder mehrere Speicher (z.B. an dem oder den Server(n) 806 und/oder den Clientvorrichtungen 802a-802n). Der eine oder die mehreren Speicher kann oder können eine Mehrzahl von Merkmalssätzen umfassen, wobei jeder Merkmalssatz einem digitalen Bild einer Mehrzahl von digitalen Bildern entspricht und von einer Ebene eines neuronalen digitalen Bildnetzwerks extrahiert wird, die semantische und räumliche Informationen von dem entsprechenden digitalen Bild bewahrt. Ferner kann oder können der eine oder die mehreren Speicher auch ein neuronales Abfragenetzwerk umfassen, das zum Erzeugen von Abfragemerkmalssätzen aus Darstellungen von Abfragebereichen und Abfragebegriffen trainiert ist, wobei die Abfragemerkmalssätze eine Dimensionalität der Merkmals-sätze der Mehrzahl von digitalen Bildern aufweisen.As an additional example, the environment includes 800 in one or more embodiments, one or more memories (eg, at the server (s) 806 and / or the client devices 802a - 802N ). The one or more memories may include a plurality of feature sets, each feature set corresponding to a digital image of a plurality of digital images and extracted from a level of a neural digital image network that preserves semantic and spatial information from the corresponding digital image. Further, the one or more memories may also include a neural interrogation network trained to generate query feature sets from representations of query areas and query terms, the query feature sets having a dimensionality of the feature sets of the plurality of digital images.

Darüber hinaus speichert oder speichern der oder die Server 806 in einer oder mehreren Ausführungsformen Anweisungen, die, wenn sie durch den oder die Server ausgeführt werden, bewirken, dass das System (z.B. die Clientvorrichtungen 802a-802n und/oder der oder die Server 806): eine Darstellung eines Abfragebereichs und eines Abfragebegriffs erzeugt, die den Abfragebegriff an einem räumlichen Ort kodiert, der dem Abfragebereich entspricht, wobei der Abfragebegriff einen gesuchten visuellen Inhalt angibt und die Abfrage einen gesuchten Bereich zum Darstellen des gesuchten visuellen Inhalts angibt; mittels des neuronalen Abfragenetzwerks einen Abfragemerkmalssatz aus der Darstellung des Abfragebereichs und des Abfragebegriffs erzeugt; und aus der Mehrzahl von digitalen Bildern ein digitales Bild, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergibt, durch Vergleichen des Abfragemerkmalssatzes mit der Mehrzahl von Merkmalssätzen identifiziert. Der oder die Server 806 kann oder können auch Anweisungen speichern, die, wenn sie durch den oder die Server 806 ausgeführt werden, die nachstehend in Bezug auf die 9 beschriebenen Schritte ausführen.In addition, stores or stores the server or servers 806 In one or more embodiments, instructions that, when executed by the server or servers, cause the system (eg, the client devices 802a - 802N and / or the server (s) 806 ): generates a representation of a query area and a query term that encodes the query term in a spatial location corresponding to the query term Query Area, where the query term specifies a searched visual content and the query specifies a searched area to represent the searched visual content; using the neural interrogation network, generates a query feature set from the representation of the query area and the query term; and from the plurality of digital images, identify a digital image representing the searched visual content within the searched area by comparing the query feature set with the plurality of feature sets. The server or servers 806 may or may also store instructions as they pass through the server or servers 806 which are described below in relation to 9 perform the steps described.

Die 1A bis 8, der entsprechende Text und die Beispiele stellen eine Anzahl von verschiedenen Systemen und Vorrichtungen zum Bereitstellen von digitalen Bildern einer virtuellen Umgebung mittels eines „Full path space“-Lernens bereit. Zusätzlich zu dem Vorstehenden können Ausführungsform(en) auch mittels Flussdiagrammen beschrieben werden, die Vorgänge und Schritte in einem Verfahren zum Erreichen eines bestimmten Ergebnisses umfassen. Beispielsweise zeigen die 9 Flussdiagramme von beispielhaften Verfahren gemäß einer oder mehrerer Ausführungsform(en). Die in Bezug auf die 9 beschriebenen Verfahren können mit weniger oder mehr Schritten/Vorgängen durchgeführt werden oder die Schritte/Vorgänge können in unterschiedlichen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Vorgänge parallel oder parallel mit verschiedenen Instanzen derselben oder von ähnlichen Schritten/Vorgängen wiederholt oder durchgeführt werden.The 1A to 8th , the related text and examples provide a number of different systems and apparatus for providing digital images of a virtual environment via full path space learning. In addition to the foregoing, embodiment (s) may also be described by way of flowcharts including acts and steps in a method to achieve a particular result. For example, the show 9 Flowcharts of example methods according to one or more embodiments. The in terms of the 9 described methods may be performed with fewer or more steps / operations or the steps / operations may be performed in different orders. In addition, the steps / operations described herein may be repeated or performed in parallel or in parallel with different instances of the same or similar steps / operations.

Die 9 zeigt ein Flussdiagramm einer Reihe von Vorgängen in einem Verfahren 900 des Nutzens von räumlichen und semantischen Informationen zum Suchen nach digitalen Bildern gemäß einer oder mehreren Ausführungsform(en). In einer oder mehreren Ausführungsform(en) wird das Verfahren 900 in einer digitalen Medienumgebung durchgeführt, die das räumlich-semantische Mediensuchsystem 700 umfasst. Das Verfahren 900 soll für ein oder mehrere Verfahren gemäß der vorliegenden Offenbarung repräsentativ sein und soll potenzielle Ausführungsformen nicht beschränken. Alternative Ausführungsformen können zusätzliche, weniger oder andere Schritte als diejenigen umfassen, die in der 9 gezeigt sind.The 9 shows a flowchart of a series of operations in a method 900 the use of spatial and semantic information to search for digital images according to one or more embodiments. In one or more embodiments, the method becomes 900 performed in a digital media environment, the spatial-semantic media search system 700 includes. The procedure 900 is intended to be representative of one or more methods in accordance with the present disclosure and is not intended to limit potential embodiments. Alternative embodiments may include additional, fewer, or different steps than those described in the 9 are shown.

Wie es in der 9 gezeigt ist, umfasst das Verfahren 900 einen Vorgang 910 des Erhaltens einer Nutzereingabe eines Abfragebereichs und eines Abfragebegriffs. Insbesondere kann der Vorgang 910 das Erhalten einer Nutzereingabe eines Abfragebereichs und eines Abfragebegriffs mittels einer digitalen Leinwand umfassen, wobei der Abfragebegriff einen gesuchten visuellen Inhalt angibt und der Abfragebereich einen gesuchten Bereich zum Wiedergeben des gesuchten Inhalts angibt.As it is in the 9 is shown, the method comprises 900 a process 910 getting a user input of a query area and a query term. In particular, the process can 910 receiving a user input of a query area and a query term using a digital canvas, the query term indicating a searched visual content, and the query area indicating a searched area for displaying the searched content.

Wie es in der 9 gezeigt ist, umfasst das Verfahren 900 auch einen Vorgang 920 des Bestimmens eines Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs durch Erzeugen einer Darstellung und Bereitstellen der Darstellung für ein neuronales Abfragenetzwerk. Insbesondere kann der Vorgang 920 das Bestimmen eines Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs umfassen, wobei das Bestimmen des Abfragemerkmalssatzes umfasst: Erzeugen einer Darstellung des Abfragebegriffs und des Abfragebereichs; und Bereitstellen der Darstellung des Abfragebegriffs und des Abfragebereichs für ein neuronales Abfragenetzwerk. Beispielsweise umfasst das neuronale Abfragenetzwerk in einer oder mehreren Ausführungsform(en) ein neuronales Faltungsnetzwerk mit drei Faltungsebenen, zwei Max-Pooling-Ebenen und zwei Subsampling-Ebenen. Darüber hinaus umfasst der Vorgang 920 in einer oder mehreren Ausführungsform(en) ferner das Umwandeln des Abfragebegriffs in einen Abfragebegriffvektor mittels eines Wort-zu-Vektor-Algorithmus; und das Erzeugen eines dreidimensionalen Gitters durch Zuordnen des Abfragebegriffvektors zu dem Abfragebereich der digitalen Leinwand.As it is in the 9 is shown, the method comprises 900 also a process 920 determining a query feature set based on the query term and the query range by generating a representation and providing the representation for a neural query network. In particular, the process can 920 determining a query feature set based on the query term and the query range, wherein determining the query feature set comprises: generating a representation of the query term and the query range; and providing the representation of the query term and the query range for a neural query network. For example, in one or more embodiments, the neural interrogation network includes a neural convolution network having three convolution levels, two max-pooling levels, and two subsampling levels. In addition, the process includes 920 in one or more embodiments, further converting the query term into a query term vector using a word-to-vector algorithm; and generating a three-dimensional grid by associating the query term vector with the query area of the digital canvas.

Wie es in der 9 gezeigt ist, kann das Verfahren 900 auch einen Vorgang 930 des Identifizierens eines digitalen Bilds, das einen gesuchten visuellen Inhalt innerhalb eines gesuchten Bereichs zeigt, auf der Basis des Abfragemerkmalssatzes umfassen. Insbesondere kann der Vorgang 930 das Identifizieren eines digitalen Bilds von einer Mehrzahl von digitalen Bildern, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs zeigt, durch Vergleichen des Abfragemerkmalssatzes mit Merkmalssätzen umfassen, die von der Mehrzahl von digitalen Bildern mittels eines neuronalen digitalen Bildnetzwerks gelernt worden sind. Beispielsweise umfasst der Merkmalssatz in einer oder mehreren Ausführungsform(en) Merkmalsvektoren mit einer Dimensionalität der Merkmalssätze, die von der Mehrzahl von digitalen Bildern mittels des neuronalen digitalen Bildnetzwerks gelernt worden sind. Darüber hinaus umfasst der Vorgang 930 in einer oder mehreren Ausführungsform(en) das Extrahieren der Merkmalssätze von einer Ebene des neuronalen digitalen Bildnetzwerks, das die semantischen und räumlichen Informationen von den digitalen Bildern bewahrt.As it is in the 9 The procedure can be shown 900 also a process 930 identifying a digital image showing a searched visual content within a searched area based on the query feature set. In particular, the process can 930 identifying a digital image from a plurality of digital images showing the searched visual content within the searched area by comparing the query feature set with feature sets learned from the plurality of digital images using a neural digital image network. For example, in one or more embodiments, the feature set includes feature vectors having a dimensionality of the feature sets that have been learned from the plurality of digital images using the neural digital image network. In addition, the process includes 930 in one or more embodiments, extracting the feature sets from a level of the neural digital image network that preserves the semantic and spatial information from the digital images.

Darüber hinaus kann das Verfahren 900 auch einen Vorgang des Trainierens eines neuronalen Abfragenetzwerks umfassen. Insbesondere umfasst das Verfahren 900 in einer oder mehreren Ausführungsform(en) das Trainieren des neuronalen Abfragenetzwerks durch: Bereitstellen eines Trainingsbegriffs und eines Trainingsbereichs als Eingabe für das neuronale Abfragenetzwerk, wobei der Trainingsbegriff und der Trainingsbereich einem Gegenstand entsprechen, der in einem digitalen Trainingsbild gezeigt ist, wobei das digitale Trainingsbild einen entsprechenden Merkmalssatz aufweist; Erzeugen eines vorhergesagten Merkmalssatzes durch das neuronale Abfragenetzwerk auf der Basis des Trainingsbegriffs und des Trainingsbereichs; und Vergleichen des durch das neuronale Abfragenetzwerk erzeugten vorhergesagten Merkmalssatzes mit dem Merkmalssatz, der dem digitalen Trainingsbild entspricht. Ferner kann das Trainieren des neuronalen Abfragenetzwerks auch das Identifizieren eines negativen Trainingsbegriffs, der von dem Trainingsbegriff verschieden ist; das Erzeugen eines negativer Trainingsbegriff-Merkmalssatzes auf der Basis des negativen Trainingsbegriffs; und das Vergleichen des negativer Trainingsbegriff-Merkmalssatzes, des vorgesagten Merkmalssatzes und des Merkmalssatzes, der dem digitalen Trainingsbild entspricht, umfassen. In addition, the procedure can 900 also include a process of training a neural interrogation network. In particular, the method comprises 900 In one or more embodiments, training the neural interrogation network by: providing a training term and training range as input to the neural interrogation network, wherein the training term and training range correspond to an item shown in a digital training image, wherein the digital training image has a corresponding feature set; Generating a predicted feature set by the neural interrogation network based on the training term and training range; and comparing the predicted feature set generated by the neural interrogation network with the feature set corresponding to the digital training image. Furthermore, training the neural interrogation network may also involve identifying a negative training term that is different from the training term; generating a negative training term feature set based on the negative training term; and comparing the negative training term feature set, the predicted feature set, and the feature set corresponding to the digital training image.

Das Trainieren des neuronalen Abfragenetzwerks kann auch das Identifizieren eines negativen digitalen Bilds, das einen Gegenstand zeigt, der von dem Trainingsbegriff verschieden ist; das Erzeugen eines negatives digitales Bild-Merkmalssatzes aus dem negativen digitalen Bild; und das Vergleichen des vorhergesagten Merkmalssatzes, des negatives digitales Bild-Merkmalssatzes und des Merkmalssatzes, der dem digitalen Trainingsbild entspricht, umfassen. Darüber hinaus kann das Trainieren des neuronalen Abfragenetzwerks auch das Konstruieren einer Trainingsstruktur umfassen, die eine Ähnlichkeitsverlustfunktion, eine bildbasierte Einstufungsverlustfunktion und eine abfragebasierte Einstufungsverlustfunktion umfasst, wobei die Ähnlichkeitsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz vergleicht, der dem digitalen Trainingsbild entspricht; die bildbasierte Einstufungsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz, der dem digitalen Trainingsbild entspricht, und ein Maß der Unähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem negativer Trainingsbegriff-Merkmalssatz vergleicht; und die abfragebasierte Einstufungsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz, der dem digitalen Trainingsbild entspricht, und ein Maß der Unähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem negatives digitales Bild-Merkmalssatz vergleicht. In einer oder mehreren Ausführungsform(en) minimiert das neuronale Abfragenetzwerk zusammen die Ähnlichkeitsverlustfunktion, die bildbasierte Einstufungsverlustfunktion und die abfragebasierte Einstufungsverlustfunktion.The training of the neural interrogation network may also include identifying a negative digital image that shows an item other than the training term; generating a negative digital image feature set from the negative digital image; and comparing the predicted feature set, the negative digital image feature set, and the feature set corresponding to the digital training image. In addition, training the neural interrogation network may also include constructing a training structure that includes a similarity loss function, an image-based rating loss function, and a query-based rating loss function, wherein the similarity loss function compares a similarity between the predicted feature set and the feature set that corresponds to the digital training image; the image-based ranking loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative training term feature set; and the query based rating loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative digital image feature set. In one or more embodiments, the neural interrogation network collectively minimizes the similarity loss function, the image-based rating loss function, and the query-based rating loss function.

Das Trainieren des digitalen Bilds kann ferner das Erzeugen des Merkmalssatzes umfassen, der dem digitalen Trainingsbild entspricht. Insbesondere kann das Erzeugen des Merkmalssatzes, der dem digitalen Trainingsbild entspricht, das Identifizieren eines Gegenstands, der in dem digitalen Trainingsbild gezeigt ist, und einer Gegenstandsgrenze, die dem Gegenstand entspricht, der in dem digitalen Trainingsbild gezeigt ist; und das Anwenden einer räumlichen Maske auf einen Bereich des digitalen Trainingsbilds außerhalb der Gegenstandsgrenze umfassen.The training of the digital image may further include generating the feature set corresponding to the digital training image. In particular, generating the feature set corresponding to the digital training image may include identifying an item shown in the digital training image and an item boundary corresponding to the item shown in the digital training image; and applying a spatial mask to an area of the digital training image outside the subject boundary.

Das Verfahren 900 kann auch das Erhalten einer Nutzereingabe eines zweiten Abfragebegriffs und eines zweiten Abfragebereichs mittels der digitalen Leinwand zusätzlich zu dem Abfragebegriff und dem Abfragebereich, wobei der Abfragebegriff einen zweiten gesuchten visuellen Inhalt angibt und der zweite Abfragebereich einen zweiten gesuchten Bereich zum Zeigen des gesuchten visuellen Inhalts angibt; das Erzeugen eines zweiten Abfragemerkmalssatzes mittels des neuronalen Abfragenetzwerks durch Bereitstellen des zweiten Abfragebegriffs, des zweiten Abfragebereichs und des Abfragemerkmalssatzes für das neuronale Abfragenetzwerk; und das Identifizieren mindestens eines digitalen Bilds von der Mehrzahl von digitalen Bildern, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs und den zweiten gesuchten visuellen Inhalt innerhalb des zweiten gesuchten Bereichs zeigt, durch Vergleichen des zweiten Abfragemerkmalssatzes und der Merkmalssätze, die von der Mehrzahl von digitalen Bildern mittels des neuronalen digitalen Bildnetzwerks gelernt worden sind, umfassen.The procedure 900 can also receive a user input of a second query term and a second query range by means of the digital canvas in addition to the query term and the query area, the query term indicating a second searched visual content and the second query area indicating a second searched area for showing the searched visual content; generating a second query feature set using the neural query network by providing the second query term, the second query range and the query feature set for the neural query network; and identifying at least one digital image of the plurality of digital images showing the searched visual content within the searched area and the second searched visual content within the second searched area by comparing the second query feature set and the feature sets that are among the plurality of digital images digital images have been learned by means of the neural digital image network.

Darüber hinaus kann das Verfahren 900 auch das Empfangen eines zweiten Abfragebegriffs und eines zweiten Abfragebereichs mittels der digitalen Leinwand; das Modifizieren des Abfragemerkmalssatzes mittels des neuronalen Abfragenetzwerks zum Wiedergeben des zweiten Abfragebegriffs und des zweiten Abfragebereichs; und das Identifizieren mindestens eines digitalen Bilds durch Vergleichen des modifizierten Abfragemerkmalssatzes und der digitalen Merkmalssätze, die der Mehrzahl von digitalen Bildern entsprechen, umfassen.In addition, the procedure can 900 also receiving a second query term and a second query range using the digital canvas; modifying the query feature set using the neural query network to render the second query term and the second query scope; and identifying at least one digital image by comparing the modified query feature set and the digital feature sets corresponding to the plurality of digital images.

Ausführungsformen können auch mittels computerimplementierter Verfahren oder Systeme beschrieben werden. Beispielsweise umfasst eine oder mehrere Ausführungsform(en) in einer digitalen Medienumgebung ein computerimplementiertes Verfahren des Suchens nach und des Identifizierens von digitalen Bildern auf der Basis von semantischen und räumlichen Informationen, umfassend:

Erhalten einer Nutzereingabe eines Abfragebereichs und eines Abfragebegriffs mittels einer digitalen Leinwand, wobei der Abfragebegriff einen gesuchten visuellen Inhalt angibt und der Abfragebereich einen gesuchten Bereich zum Wiedergeben des gesuchten visuellen Inhalts angibt;
einen Schritt zum Erzeugen eines Abfragemerkmalssatzes aus dem Abfragebereich und dem Abfragebegriff mittels eines neuronalen Abfragenetzwerks; und
Identifizieren eines digitalen Bilds von einer Mehrzahl von digitalen Bildern, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergibt, durch Vergleichen des Abfragemerkmalssatzes mit Merkmalssätzen, die von der Mehrzahl von digitalen Bildern mittels eines neuronalen digitalen Bildnetzwerks gelernt worden sind.

Embodiments may also be described by computer-implemented methods or systems. For example, one or more embodiments include (s) in a digital Media Environment A computer-implemented method of searching for and identifying digital images based on semantic and spatial information, comprising:

Obtaining a user input of a query area and a query term using a digital canvas, the query term indicating a searched visual content and the query area indicating a searched area for displaying the searched visual content;
a step of generating a query feature set from the query area and the query term using a neural interrogation network; and
Identifying a digital image of a plurality of digital images representing the searched visual content within the searched area by comparing the query feature set with feature sets learned from the plurality of digital images using a neural digital image network.

Ferner kann bei dem Verfahren der Abfragemerkmalssatz Merkmalsvektoren mit einer Dimensionalität der Merkmalssätze umfassen, die von der Mehrzahl von digitalen Bildern mittels des neuronalen digitalen Bildnetzwerks gelernt worden sind.Further, in the method, the query feature set may include feature vectors having a dimensionality of the feature sets that have been learned from the plurality of digital images through the neural digital image network.

Das Verfahren kann auch ferner das Trainieren des neuronalen Abfragenetzwerks durch:

Bereitstellen eines Trainingsbegriffs und eines Trainingsbereichs als Eingabe für das neuronale Abfragenetzwerk, wobei der Trainingsbegriff und der Trainingsbereich einem Gegenstand entsprechen, der in einem digitalen Trainingsbild wiedergegeben ist, wobei das digitale Trainingsbild einen entsprechenden Merkmalssatz aufweist;
Erzeugen eines vorhergesagten Merkmalssatzes durch das neuronale Abfragenetzwerk auf der Basis des Trainingsbegriffs und des Trainingsbereichs; und
Vergleichen des vorhergesagten Merkmalssatzes, der durch das neuronale Abfragenetzwerk mit dem Merkmalssatz erzeugt worden ist, der dem digitalen Trainingsbild entspricht, umfassen.

The method may also further train the neural interrogation network by:

Providing a training term and training range as input to the neural interrogation network, wherein the training term and training range correspond to an item displayed in a digital training image, the digital training image having a corresponding feature set;
Generating a predicted feature set by the neural interrogation network based on the training term and training range; and
Comparing the predicted feature set generated by the neural interrogation network with the feature set corresponding to the digital training image.

Ferner kann bei dem Verfahren das Trainieren des neuronalen Abfragenetzwerks ferner umfassen:

Identifizieren eines negativen Trainingsbegriffs, der von dem Trainingsbegriff verschieden ist;
Erzeugen eines negativer Trainingsbegriff-Merkmalssatzes auf der Basis des negativen Trainingsbegriffs; und
Vergleichen des negativer Trainingsbegriff-Merkmalssatzes, des vorhergesagten Merkmalssatzes und des Merkmalssatzes, der dem digitalen Trainingsbegriff entspricht.

Further, in the method, training the neural interrogation network may further include:

Identifying a negative training term different from the training term;
Generating a negative training term feature set based on the negative training term; and
Comparing the negative training term feature set, the predicted feature set, and the feature set corresponding to the digital training term.

Darüber hinaus kann bei dem Verfahren das Trainieren des neuronalen Abfragenetzwerks ferner umfassen:

Identifizieren eines negativen digitalen Bilds, das einen Gegenstand wiedergibt, der von dem Trainingsbegriff verschieden ist;
Erzeugen eines negatives digitales Bild-Merkmalssatzes von dem negativen digitalen Bild; und
Vergleichen des vorhergesagten Merkmalssatzes, des negatives digitales Bild-Merkmalssatzes und des Merkmalssatzes, der dem digitalen Trainingsbild entspricht.

In addition, in the method, training the neural interrogation network may further include:

Identifying a negative digital image representing an item other than the training term;
Generating a negative digital image feature set from the negative digital image; and
Comparing the predicted feature set, the negative digital image feature set and the feature set corresponding to the digital training image.

Bei dem Verfahren kann das Trainieren des neuronalen Abfragenetzwerks auch das Konstruieren einer Trainingsstruktur umfassen, die umfasst:

eine Ähnlichkeitsverlustfunktion, eine bildbasierte Einstufungsverlustfunktion und eine abfragebasierte Einstufungsverlustfunktion, wobei
die Ähnlichkeitsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz vergleicht, der dem digitalen Trainingsbild entspricht;
die bildbasierte Einstufungsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz, der dem digitalen Trainingsbild entspricht, und ein Maß der Unähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem negativer Trainingsbegriff-Merkmalssatz vergleicht; und
die abfragebasierte Einstufungsverlustfunktion eine Ähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem Merkmalssatz, der dem digitalen Trainingsbild entspricht, und ein Maß der Unähnlichkeit zwischen dem vorhergesagten Merkmalssatz und dem negatives digitales Bild-Merkmalssatz vergleicht.

In the method, training the neural interrogation network may also include constructing a training structure comprising:

a similarity loss function, an image-based ranking loss function and a query-based rating loss function, wherein
the similarity loss function is similar comparing between the predicted feature set and the feature set corresponding to the digital training image;
the image-based ranking loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative training term feature set; and
the query-based rating loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative digital image feature set.

Bei dem Verfahren kann das neuronale Abfragenetzwerk zusammen die Ähnlichkeitsverlustfunktion, die bildbasierte Einstufungsverlustfunktion und die abfragebasierte Einstufungsverlustfunktion minimieren.In the method, the neural interrogation network may together minimize the similarity loss function, the image-based ranking loss function and the query-based rating loss function.

Das Verfahren kann ferner das Extrahieren der Merkmalssätze von einer Ebene des neuronalen digitalen Bildnetzwerks, die semantische und räumliche Informationen von den digitalen Bildern bewahrt, umfassen.The method may further comprise extracting the feature sets from a level of the neural digital image network that preserves semantic and spatial information from the digital images.

Das Verfahren kann auch umfassen:

Erhalten einer Nutzereingabe eines zweiten Abfragebegriffs und eines zweiten Abfragebereichs mittels der digitalen Leinwand zusätzlich zu dem Abfragebegriff und dem Abfragebereich, wobei der Abfragebegriff einen zweiten gesuchten visuellen Inhalt angibt und der zweite Abfragebereich einen zweiten gesuchten Bereich zum Zeigen des gesuchten visuellen Inhalts angibt;
Erzeugen eines zweiten Abfragemerkmalssatzes mittels des neuronalen Abfragenetzwerks durch Bereitstellen des zweiten Abfragebegriffs, des zweiten Abfragebereichs und des Abfragemerkmalssatzes für das neuronale Abfragenetzwerk; und
Identifizieren mindestens eines digitalen Bilds von der Mehrzahl von digitalen Bildern, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs und den zweiten gesuchten visuellen Inhalt innerhalb des zweiten gesuchten Bereichs wiedergibt, durch Vergleichen des zweiten Abfragemerkmalssatzes und der Merkmalssätze, die von der Mehrzahl von digitalen Bildern mittels des neuronalen digitalen Bildnetzwerks gelernt worden sind.

The method may also include:

Receiving a user input of a second query term and a second query scope using the digital canvas in addition to the query term and the query scope, the query term indicating a second searched visual content and the second query scope indicating a second searched scope for showing the searched visual content;
Generating a second query feature set using the neural query network by providing the second query term, the second query range, and the neural query network query feature set; and
Identifying at least one digital image from the plurality of digital images representing the searched visual content within the searched area and the second searched visual content within the second searched area by comparing the second query feature set and the feature sets that are from the plurality of digital images have been learned by means of the neural digital image network.

Zusätzlich umfasst oder umfassen eine oder mehrere Ausführungsform(en) in einer digitalen Medienumgebung auch ein computerimplementiertes Verfahren des Suchens nach und des Identifizierens von digitalen Bildern auf der Basis von semantischen und räumlichen Informationen, umfassend:

Erhalten einer Nutzereingabe eines Abfragebegriffs und eines Abfragebereichs, die einer digitalen Leinwand entsprechen, wobei der Abfragebegriff einen gesuchten visuellen Inhalt angibt und der Abfragebereich einen gesuchten Bereich zum Wiedergeben des gesuchten visuellen Inhalts angibt;
Bestimmen eines Abfragemerkmalssatzes auf der Basis des Abfragebegriffs und des Abfragebereichs, wobei das Bestimmen des Abfragemerkmalssatzes umfasst:
- Erzeugen einer Darstellung des Abfragebereichs und des Abfragebegriffs; und
- Bereitstellen der Darstellung des Abfragebereichs und des Abfragebegriffs für ein neuronales Abfragenetzwerk; und
Identifizieren eines digitalen Bilds von einer Mehrzahl von digitalen Bildern, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergibt, durch Vergleichen des Abfragemerkmalssatzes mit Merkmalssätzen, die von der Mehrzahl von digitalen Bildern mittels eines neuronalen digitalen Bildnetzwerks gelernt worden sind.

Additionally, one or more embodiments in a digital media environment also include or include a computer-implemented method of searching for and identifying digital images based on semantic and spatial information, comprising:

Obtaining a user input of a query term and a query range corresponding to a digital canvas, the query term indicating a searched visual content, and the query scope indicating a searched range for reproducing the searched visual content;
Determining a query feature set based on the query term and the query range, wherein determining the query feature set comprises:
- Generating a representation of the query area and the query term; and
- Providing the representation of the query area and the query term for a neural interrogation network; and
Identifying a digital image of a plurality of digital images representing the searched visual content within the searched area by comparing the query feature set with feature sets learned from the plurality of digital images using a neural digital image network.

Bei dem Verfahren kann das neuronale Abfragenetzwerk auch ein neuronales Faltungsnetzwerk mit drei Faltungsebenen, zwei Max-Pooling-Ebenen und zwei Subsampling-Ebenen umfassen.In the method, the neural interrogation network may also include a neural convolution network having three convolution levels, two max-pooling levels, and two subsampling levels.

Bei dem Verfahren kann das Erzeugen der Darstellung des Abfragebereichs und des Abfragebegriffs umfassen:

Umwandeln des Abfragebegriffs in einen Abfragebegriffvektor mittels eines Wort-zu-Vektor-Algorithmus; und
Erzeugen eines dreidimensionalen Gitters durch Zuordnen des Abfragebegriffvektors zu dem Abfragebereich der digitalen Leinwand.

In the method, generating the representation of the query area and the query term may include:

Converting the query term into a query term vector using a word-to-vector algorithm; and
Generating a three-dimensional grid by assigning the query term vector to the query area of the digital canvas.

Das Verfahren kann ferner das Trainieren des neuronalen Abfragenetzwerks durch:

Bereitstellen eines Trainingsbegriffs und eines Trainingsbereichs als Eingabe für das neuronale Abfragenetzwerk, wobei der Trainingsbegriff und der Trainingsbereich einem Gegenstand entsprechen, der in einem digitalen Trainingsbild gezeigt ist, wobei das digitale Trainingsbild einen entsprechenden Merkmalssatz aufweist;
Erzeugen eines vorhergesagten Merkmalssatzes durch das neuronale Abfragenetzwerk auf der Basis des Trainingsbegriffs und des Trainingsbereichs; und
Vergleichen des durch das neuronale Abfragenetzwerk erzeugten vorhergesagten Merkmalssatzes mit dem Merkmalssatz, der dem digitalen Trainingsbild entspricht, umfassen.

The method may further include training the neural interrogation network by:

Providing a training term and training range as input to the neural interrogation network, the training term and training range corresponding to an item shown in a digital training image, the digital training image having a corresponding feature set;
Generating a predicted feature set by the neural interrogation network based on the training term and training range; and
Comparing the predicted feature set generated by the neural interrogation network with the feature set corresponding to the digital training image.

Bei dem Verfahren kann das Trainieren des neuronalen Abfragenetzwerks ferner umfassen:

Bestimmen eines negativen Trainingsbegriffs, der von dem Trainingsbegriff verschieden ist;
Erzeugen eines negativer Trainingsbegriff-Merkmalssatzes auf der Basis des negativen Trainingsbegriffs;
Identifizieren eines negativen digitalen Bilds, das einen Gegenstand wiedergibt, der von dem Trainingsbegriff verschieden ist, wobei das negative digitale Bild einen negatives digitales Bild-Merkmalssatz aufweist; und
Nutzen einer Verlustfunktion zum Vergleichen des negativer Trainingsbegriff-Merkmalssatzes, des negatives digitales Bild-Merkmalssatzes, des vorhergesagten Merkmalssatzes und des Merkmalssatzes, der dem digitalen Trainingsbild entspricht.

In the method, training the neural interrogation network may further include:

Determining a negative training term different from the training term;
Generating a negative training term feature set based on the negative training term;
Identifying a negative digital image representing an item other than the training term, the negative digital image having a negative digital image feature set; and
Taking advantage of a loss function to compare the negative training term feature set, the negative digital image feature set, the predicted feature set and the feature set corresponding to the digital training image.

Das Verfahren kann ferner das Erzeugen des Merkmalssatzes, der dem digitalen Trainingsbild entspricht, durch

Identifizieren eines Gegenstands, der in dem digitalen Trainingsbild wiedergegeben ist, und einer Gegenstandsgrenze, die dem Gegenstand entspricht, der in dem digitalen Trainingsbild wiedergegeben ist; und
Anwenden einer räumlichen Maske auf einen Bereich des digitalen Trainingsbilds außerhalb der Gegenstandsgrenze umfassen.

The method may further include generating the feature set corresponding to the digital training image

Identifying an item displayed in the digital training image and an item border corresponding to the item displayed in the digital training picture; and
Applying a spatial mask to an area of the digital training image outside the subject boundary.

Das Verfahren kann ferner umfassen:

Erhalten eines zweiten Abfragebegriffs und eines zweiten Abfragebereichs mittels der digitalen Leinwand;
Modifizieren des Abfragemerkmalssatzes mittels des neuronalen Abfragenetzwerks zum Wiedergeben des zweiten Abfragebegriffs und des zweiten Abfragebereichs; und
Identifizieren mindestens eines digitalen Bilds durch Vergleichen des modifizierten Abfragemerkmalssatzes und der digitalen Merkmalssätze, die der Mehrzahl von digitalen Bildern entsprechen.

The method may further include:

Obtaining a second query term and a second query range using the digital canvas;
Modifying the query feature set using the neural query network to render the second query term and the second query scope; and
Identifying at least one digital image by comparing the modified query feature set and the digital feature sets corresponding to the plurality of digital images.

Darüber hinaus umfasst oder umfassen eine oder mehrere Ausführungsform(en) auch ein System zum Identifizieren von digitalen Bildern auf der Basis von semantischen und räumlichen Informationen, umfassend:

einen oder mehrere Speicher, umfassend:
- eine Mehrzahl von Merkmalssätzen, wobei jeder Merkmalssatz:
  - einem digitalen Bild einer Mehrzahl von digitalen Bildern entspricht, und
  - von einer Ebene eines neuronalen digitalen Bildnetzwerks extrahiert wird, das semantische und räumliche Informationen von dem entsprechenden digitalen Bild bewahrt;
- ein neuronales Abfragenetzwerk, das zum Erzeugen von Abfragemerkmalssätzen aus Darstellungen von Abfragebereichen und Abfragebegriffen trainiert ist, wobei die Abfragemerkmalssätze eine Dimensionalität der Merkmalssätze der Mehrzahl von digitalen Bildern aufweisen;
- mindestens einen Server, auf dem Anweisungen gespeichert sind, die, wenn sie durch den mindestens einen Server ausgeführt werden, bewirken, dass das System:
  - eine Darstellung eines Abfragebereichs und eines Abfragebegriffs erzeugt, die den Abfragebegriff an einem räumlichen Ort kodiert, der dem Abfragebereich entspricht, wobei der Abfragebegriff einen gesuchten visuellen Inhalt angibt und die Abfrage einen gesuchten Bereich zum Wiedergeben des gesuchten visuellen Inhalts angibt;
  - mittels des neuronalen Abfragenetzwerks einen Abfragemerkmalssatz aus der Darstellung des Abfragebereichs und des Abfragebegriffs erzeugt; und
  - aus der Mehrzahl von digitalen Bildern ein digitales Bild, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergibt, durch Vergleichen des Abfragemerkmalssatzes mit der Mehrzahl von Merkmalssätzen identifiziert.

In addition, one or more embodiments also include or include a system for identifying digital images based on semantic and spatial information, comprising:

one or more memories comprising:
- a plurality of feature sets, each feature set:
  - corresponds to a digital image of a plurality of digital images, and
  - is extracted from a level of a neural digital image network that preserves semantic and spatial information from the corresponding digital image;
- a neural interrogation network trained to generate query feature sets from representations of query areas and query terms, the query feature sets having a dimensionality of the feature sets of the plurality of digital images;
- At least one server that stores instructions that, when executed by the at least one server, causes the system to:
  - generates a representation of a query scope and a query term that encodes the query term in a spatial location that corresponds to the query scope, the query term indicating a searched visual content, and the query indicates a searched scope for displaying the searched visual content;
  - using the neural interrogation network, generates a query feature set from the representation of the query area and the query term; and
  - from the plurality of digital images, identifying a digital image representing the searched visual content within the searched area by comparing the query feature set with the plurality of feature sets.

Bei dem System kann das neuronale Abfragenetzwerk ein neuronales Faltungsnetzwerk mit drei Faltungsebenen, zwei Max-Pooling-Ebenen und zwei Subsampling-Ebenen umfassen.In the system, the neural interrogation network may include a neural convolution network having three convolution levels, two max-pooling levels, and two subsampling levels.

Bei dem System kann der Server ferner Anweisungen umfassen, die, wenn sie durch den mindestens einen Server ausgeführt werden, ferner bewirken, dass das System die Darstellung des Abfragebereichs und des Abfragebegriffs durch Durchführen von Vorgängen erzeugt, umfassend:

Umwandeln des Abfragebegriffs in einen Abfragebegriffvektor mittels eines Wort-zu-Vektor-Algorithmus; und
Erzeugen eines dreidimensionalen Gitters durch Zuordnen des Abfragebegriffvektors zu dem räumlichen Ort, der dem Abfragebereich entspricht.

In the system, the server may further include instructions that, when executed by the at least one server, further cause the system to generate the representation of the query scope and the query term by performing operations comprising:

Converting the query term into a query term vector using a word-to-vector algorithm; and
Create a three-dimensional grid by associating the query term vector with the spatial location corresponding to the query area.

Das System kann ferner Anweisungen umfassen, die, wenn sie durch den Server ausgeführt werden, ferner bewirken, dass das System:

eine Nutzereingabe eines zweiten Abfragebegriffs und eines zweiten Abfragebereichs zusätzlich zu dem Abfragebegriff und dem Abfragebereich erhält, wobei der zweite Abfragebegriff einen zweiten gesuchten visuellen Inhalt angibt und der zweite Abfragebereich einen zweiten gesuchten Bereich zum Wiedergeben des zweiten gesuchten visuellen Inhalts angibt;
mittels des neuronalen Abfragenetzwerks einen zweiten Abfragemerkmalssatz durch Bereitstellen des zweiten Abfragebegriffs, des zweiten Abfragebereichs und des Abfragemerkmalssatzes für das trainierte neuronale Netzwerk erzeugt; und
von der Mehrzahl von digitalen Bildern mindestens ein digitales Bild, das den gesuchten visuellen Inhalt innerhalb des gesuchten Bereichs wiedergibt und den zweiten gesuchten visuellen Inhalt innerhalb des zweiten gesuchten Bereichs wiedergibt, durch Vergleichen des zweiten Abfragemerkmalssatzes mit der Mehrzahl von Merkmalssätzen identifiziert.

The system may further include instructions that, when executed by the server, further cause the system to:

a user input of a second query term and a second query range is obtained in addition to the query term and the query scope, the second query term indicating a second searched visual content and the second query scope indicating a second searched scope for rendering the second searched visual content;
using the neural interrogation network to generate a second query feature set by providing the second query term, the second interrogation area, and the trained neural network query feature set; and
among the plurality of digital images, at least one digital image representing the searched visual content within the searched area and reproducing the second searched visual content within the second searched area is identified by comparing the second query feature set with the plurality of feature sets.

Ausführungsformen der vorliegenden Offenbarung können einen speziellen oder allgemeinen Computer umfassen oder nutzen, der Computerhardware umfasst, wie z.B. einen oder mehrere Prozessor(en) und einen Systemspeicher, wie es nachstehend detaillierter diskutiert wird. Ausführungsformen innerhalb des Umfangs der vorliegenden Offenbarung umfassen auch physikalische und andere computerlesbare Medien zum Beinhalten oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere kann einer oder können mehrere der hier beschriebenen Vorgänge mindestens zum Teil als Anweisungen implementiert werden, die in einem nicht-flüchtigen computerlesbaren Medium vorliegen und durch eine oder mehrere Rechenvorrichtung(en) (z.B. jedwede der hier beschriebenen Medieninhalt-Zugangsvorrichtungen) ausgeführt werden können. Im Allgemeinen erhält ein Prozessor (z.B. ein Mikroprozessor) Anweisungen von einem nicht-flüchtigen computerlesbaren Medium (z.B. einem Speicher, usw.) und führt diese Anweisungen aus, wodurch ein Vorgang oder mehrere Vorgänge, einschließlich ein Vorgang oder mehrere Vorgänge, der oder die hier beschrieben ist oder sind, ausgeführt wird oder werden.Embodiments of the present disclosure may include or utilize a special or generic computer that includes computer hardware, such as computer hardware. one or more processors and system memory, as discussed in greater detail below. Embodiments within the scope of the present disclosure also include physical and other computer-readable media for containing or storing computer-executable instructions and / or data structures. In particular, one or more of the acts described herein may be implemented, at least in part, as instructions residing in a non-transitory computer-readable medium and executable by one or more computing devices (e.g., any of the media content access devices described herein). In general, a processor (eg, a microprocessor) receives instructions from a non-transitory computer-readable medium (eg, a memory, etc.) and executes those instructions, thereby performing one or more operations, including one or more operations, here or there is or is, is or will be.

Computerlesbare Medien können jedwede verfügbare Medien sein, auf die durch einen allgemeines oder spezifisches Computersystem zugegriffen werden kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nicht-flüchtige computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen beinhalten, sind Übertragungsmedien. Folglich können beispielhaft und ohne Beschränkung Ausführungsformen der Offenbarung mindestens zwei deutlich verschiedene Arten von computerlesbaren Medien umfassen: nicht-flüchtige computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.Computer readable media can be any available media that can be accessed by a general or specific computer system. Computer-readable media storing computer-executable instructions are non-transitory computer-readable storage media (devices). Computer-readable media containing computer-executable instructions are transmission media. Thus, by way of example and not limitation, embodiments of the disclosure may include at least two distinctly different types of computer-readable media: non-transitory computer-readable storage media (devices) and transmission media.

Nicht-flüchtige computerlesbare Speichermedien (Vorrichtungen) umfassen RAM, ROM, EEPROM, CD-ROM, Halbleiterlaufwerke („SSDs“) (z.B. auf der Basis eines RAM), Flashspeicher, Phasenänderungsspeicher („PCM“), andere Speichertypen, andere optische Plattenspeicher, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen, oder jedwedes andere Medium, das zum Speichern von gewünschten Programmcodemitteln in der Form von computerausführbaren Anweisungen oder Datenstrukturen geeignet ist und auf das durch einen allgemeinen oder speziellen Computer zugegriffen werden kann.Non-transitory computer-readable storage media (devices) include RAM, ROM, EEPROM, CD-ROM, SSDs (eg, based on RAM), flash memory, phase change memory ("PCM"), other types of memory, other optical disk storage, Magnetic disk storage or other magnetic storage devices, or any other medium for storing desired Program code means in the form of computer-executable instructions or data structures and which can be accessed by a general or special computer.

Ferner können beim Erreichen von verschiedenen Computersystemkomponenten Programmcodemittel in der Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nicht-flüchtige computerlesbare Speichermedien (Vorrichtungen) übertragen werden (oder umgekehrt). Beispielsweise können computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder eine Datenverknüpfung erhalten worden sind, in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (z.B. einem „NIC“) gepuffert werden und dann schließlich zu einem Computersystem-RAM und/oder weniger flüchtigen Computerspeichermedien (Vorrichtungen) in einem Computersystem übertragen werden. Folglich sollte beachtet werden, dass nicht-flüchtige computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten einbezogen werden können, die auch (oder sogar vorwiegend) Übertragungsmedien nutzen.Further, upon reaching various computer system components, program code means in the form of computer-executable instructions or data structures may be automatically transferred from transmission media to non-transitory computer-readable storage media (devices) (or vice versa). For example, computer-executable instructions or data structures obtained via a network or data link may be buffered in RAM within a network interface module (eg, a "NIC") and then eventually to a computer system RAM and / or less volatile computer storage media (devices). be transmitted in a computer system. Thus, it should be noted that non-transitory computer-readable storage media (devices) can be included in computer system components that also use (or even predominantly) transmission media.

Computerausführbare Anweisungen umfassen z.B. Anweisungen und Daten, die, wenn sie in einem Prozessor ausgeführt werden, bewirken, dass ein allgemeiner Computer, ein spezieller Computer oder eine spezielle Verarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen ausübt. In einigen Ausführungsformen werden computerausführbare Anweisungen auf einem allgemeinen Computer ausgeführt, so dass der allgemeine Computer zu einem speziellen Computer wird, der Elemente der Offenbarung ausführt. Die computerausführbaren Anweisungen können z.B. binäre Anweisungen („binaries“), Zwischenformatanweisungen, wie z.B. Assembly-Sprache, oder sogar ein Quellcode sein. Obwohl der Gegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Vorgänge spezifisch ist, sollte beachtet werden, dass der in den beigefügten Ansprüchen festgelegte Gegenstand nicht notwendigerweise auf die beschriebenen Merkmale oder die vorstehend beschriebenen Vorgänge beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Vorgänge als Beispielformen zur Implementierung der Ansprüche offenbart.Computer-executable instructions include e.g. Instructions and data that, when executed in a processor, cause a general purpose computer, computer, or processing device to perform a particular function or set of functions. In some embodiments, computer-executable instructions are executed on a general computer so that the general computer becomes a particular computer that executes elements of the disclosure. The computer-executable instructions may be e.g. binary statements ("binaries"), intermediate format statements, such as Assembly language, or even a source code. Although the subject matter has been described in language specific to structural features and / or methodological acts, it should be understood that the subject matter defined in the appended claims is not necessarily limited to the described features or acts described above. Rather, the features and processes described are disclosed as example forms for implementing the claims.

Einem Fachmann ist klar, dass die Offenbarung in Netzwerkrechenumgebungen mit vielen Typen von Computersystemkonfigurationen ausgeführt werden kann, einschließlich Personalcomputer, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, handgehaltenen Vorrichtungen, Mehrprozessorsystemen, mikroprozessorbasierte oder programmierbare Haushaltselektronik bzw. Verbraucherelektronik, Netzwerk-PCs, Minicomputer, Großrechner, Mobiltelefone, PDAs, Tablets, Pager, Router, Koppler („switches“) und dergleichen. Die Offenbarung kann auch in verteilten Systemumgebungen durchgeführt werden, bei denen lokale und entfernte Computersysteme, die durch ein Netzwerk verbunden sind (entweder durch drahtgebundene Datenverbindungen, drahtlose Datenverbindungen oder eine Kombination aus drahtgebundenen und drahtlosen Datenverbindungen), beide Aufgaben ausführen. In einer verteilten Systemumgebung können sich Programmmodule sowohl in lokalen als auch entfernten Speichervorrichtungen befinden.One skilled in the art will appreciate that the disclosure can be made in network computing environments with many types of computer system configurations, including personal computers, desktop computers, laptop computers, message processors, handheld devices, multi-processor systems, microprocessor-based or programmable consumer electronics, network PCs, minicomputers, mainframes, cell phones , PDAs, tablets, pagers, routers, switches, and the like. The disclosure may also be made in distributed system environments where local and remote computer systems connected through a network (either through wired data links, wireless data links, or a combination of wired and wireless data links) perform both tasks. In a distributed system environment, program modules may reside in both local and remote storage devices.

Ausführungsformen der vorliegenden Offenbarung können auch in Cloudcomputing-Umgebungen implementiert werden. In dieser Beschreibung ist „Cloudcomputing“ als ein Modell festgelegt, das einen Netzwerkzugang zu einem gemeinsamen Pool von konfigurierbaren Rechenresourcen nach Bedarf ermöglicht. Beispielsweise kann ein Cloudcomputing auf dem Markt eingesetzt werden, um einen überall vorhandenen und bequemen Zugang nach Bedarf zu dem gemeinsamen Pool von konfigurierbaren Rechenresourcen anzubieten. Der gemeinsame Pool von konfigurierbaren Rechenresourcen kann mittels einer Virtualisierung schnell bereitgestellt werden und mit einem geringen Verwaltungsaufwand oder einer geringen Serviceproviderinteraktion freigegeben werden und dann entsprechend skaliert werden.Embodiments of the present disclosure may also be implemented in cloud computing environments. In this description, "cloud computing" is defined as a model that allows network access to a common pool of configurable computing resources as needed. For example, cloud computing may be deployed in the marketplace to provide anywhere, convenient on-demand access to the common pool of configurable computing resources. The shared pool of configurable computing resources can be quickly deployed through virtualization and released with a low overhead or service provider interaction, and then scaled accordingly.

Ein Cloudcomputingmodell kann aus verschiedenen Charakteristika zusammengesetzt sein, wie z.B. einer Selbstbedienung nach Bedarf, einem breiten Netzwerkzugang, einem Resourcenpooling, einer schnellen Elastizität, einem gemessenen Dienst, usw. Ein Cloudcomputingmodell kann auch verschiedene Dienstmodelle aufweisen, wie z.B. Software als Dienst („SaaS“), Plattform als Dienst („PaaS“) und Infrastruktur als Dienst („IaaS“). Ein Cloudcomputingmodell kann auch mittels verschiedener Verbreitungsmodelle verbreitet werden, wie z.B. einer Privatcloud, einer Communitycloud, einer öffentlichen Cloud, einer Hybridcloud, usw. In dieser Beschreibung und in den Ansprüchen ist eine „Cloudcomputing-Umgebung“ eine Umgebung, in der ein Cloudcomputing eingesetzt wird.A cloud computing model may be composed of various characteristics, such as e.g. on-demand self-service, broad network access, resource pooling, rapid elasticity, measured service, etc. A cloud computing model may also include various service models, such as: Software as a Service ("SaaS"), Platform as a Service ("PaaS") and Infrastructure as a Service ("IaaS"). A cloud computing model may also be propagated by means of various distribution models, e.g. a private cloud, a community cloud, a public cloud, a hybrid cloud, etc. In this description and in the claims, a "cloud computing environment" is an environment in which cloud computing is employed.

Die 10 zeigt in einer Blockdiagrammform eine beispielhafte Rechenvorrichtung 1000, die so ausgebildet sein kann, dass sie einen oder mehrere der vorstehend beschriebenen Vorgänge ausführt. Es ist klar, dass das räumlich-semantische Mediensuchsystem 700 Implementierungen der Rechenvorrichtung 1000 umfassen kann. Wie es in der 10 gezeigt ist, kann die Rechenvorrichtung einen Prozessor 1002, einen Speicher 1004, eine Speichervorrichtung 1006, eine I/O-Schnittstellle 1008 und eine Kommunikationsschnittstelle 1010 umfassen. In bestimmten Ausführungsformen kann die Rechenvorrichtung 1000 weniger oder mehr Komponenten als diejenigen umfassen, die in der 10 gezeigt sind. Komponenten der Rechenvorrichtung 1000, die in der 10 gezeigt sind, werden nachstehend detaillierter beschrieben.The 10 shows in block diagram form an exemplary computing device 1000 , which may be configured to perform one or more of the above-described operations. It is clear that the spatial-semantic media search system 700 Implementations of the computing device 1000 may include. As it is in the 10 1, the computing device may be a processor 1002 , a store 1004 , a storage device 1006 , an I / O interface 1008 and a Communication Interface 1010 include. In certain embodiments, the computing device 1000 include fewer or more components than those used in the 10 are shown. Components of the computing device 1000 in the 10 are shown below in more detail.

In bestimmten Ausführungsformen umfasst oder umfassen der oder die Prozessor(en) 1002 Hardware zum Ausführen von Anweisungen, die z.B. solchen, die ein Computerprogramm bilden. Als Beispiel und nicht beschränkend kann oder können der oder die Prozessor(en) 1002 die Anweisungen von einem internen Register, einem internen Cache, einem Speicher 1004 oder einer Speichervorrichtung 1006 abrufen (oder holen) und diese dekodieren und ausführen.In certain embodiments, the processor (s) comprise or include 1002 Hardware for executing instructions, such as those that make up a computer program. By way of example and not limitation, the processor (s) may or may not be 1002 the instructions from an internal register, an internal cache, a memory 1004 or a storage device 1006 retrieve (or fetch) and decode and execute.

Die Rechenvorrichtung 1000 umfasst einen Speicher 1004, der mit dem oder den Prozessor(en) 1002 gekoppelt ist. Der Speicher 1004 kann zum Speichern von Daten, Metadaten und Programmen zum Ausführen durch den oder die Prozessor(en) verwendet werden. Der Speicher 1004 kann einen oder mehrere von flüchtigen und nicht-flüchtigen Speichern umfassen, wie z.B. einen Direktzugriffsspeicher („RAM“), einen Festwertspeicher („ROM“), eine Halbleiterplatte („SSD“), einen Flashspeicher, einen Phasenänderungsspeicher („PCM“) oder andere Typen von Datenspeicher. Der Speicher 1004 kann ein interner oder ein verteilter oder externer Speicher sein.The computing device 1000 includes a memory 1004 that is related to the processor (s) 1002 is coupled. The memory 1004 may be used to store data, metadata and programs for execution by the processor (s). The memory 1004 may include one or more of volatile and nonvolatile memories, such as random access memory ("RAM"), read only memory ("ROM"), semiconductor disk ("SSD"), flash memory, phase change memory ("PCM"), or other types of data storage. The memory 1004 can be an internal or a distributed or external memory.

Die Rechenvorrichtung 1000 umfasst eine Speichervorrichtung 1006, die einen Speicher zum Speichern von Daten oder Anweisungen umfasst. Als ein Beispiel und nicht beschränkend kann die Speichervorrichtung 1006 ein vorstehend beschriebenes nichtflüchtiges Speichermedium umfassen. Die Speichervorrichtung 1006 kann eine Festplatte (HDD), einen Flashspeicher, ein serielles Universalbus (USB)-Laufwerk oder eine Kombination dieser oder anderer Speichervorrichtungen umfassen.The computing device 1000 comprises a storage device 1006 which includes a memory for storing data or instructions. As an example and not by way of limitation, the memory device 1006 comprise a nonvolatile storage medium as described above. The storage device 1006 may include a hard disk drive (HDD), a flash memory, a serial universal bus (USB) drive, or a combination of these or other memory devices.

Die Rechenvorrichtung 1000 umfasst auch eine oder mehrere Eingabe- oder Ausgabe („I/O“)-Vorrichtungen/Schnittstellen 1008, die bereitgestellt sind, um es einem Nutzer zu ermöglichen, eine Eingabe in (wie z.B. Nutzerberührungen) die Rechenvorrichtung 1000 durchzuführen, eine Ausgabe von der Rechenvorrichtung 1000 zu erhalten oder in sonstiger Weise Daten zu der und von der Rechenvorrichtung 1000 zu übertragen. Diese I/O-Vorrichtungen/Schnittstellen 1008 können eine Maus, ein Keypad oder eine Tastatur, einen Berührungsbildschirm, eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem oder andere bekannte I/O-Vorrichtungen oder eine Kombination solcher I/O-Vorrichtungen/Schnittstellen 1008 umfassen. Der Berührungsbildschirm kann mit einem Stift oder einem Finger aktiviert werden.The computing device 1000 Also includes one or more input or output ("I / O") devices / interfaces 1008 provided to enable a user input to (such as user touches) the computing device 1000 perform an output from the computing device 1000 or otherwise receive data to and from the computing device 1000 transferred to. These I / O devices / interfaces 1008 may be a mouse, keypad or keyboard, touch screen, camera, optical scanner, network interface, modem or other known I / O devices, or a combination of such I / O devices. Devices / interfaces 1008 include. The touch screen can be activated with a pen or a finger.

Die I/O-Vorrichtungen/Schnittstellen 1008 können eine oder mehrere Vorrichtung(en) zum Darstellen einer Ausgabe für einen Nutzer umfassen, einschließlich, jedoch nicht beschränkt auf, ein Graphikmodul, eine Anzeige (z.B. einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (z.B. Anzeigetreiber), einen oder mehrere Lautsprecher und einen oder mehrere Audiotreiber. In bestimmten Ausführungsformen sind die Vorrichtungen/Schnittstellen 1008 so ausgebildet, dass sie graphische Daten für eine Anzeige zur Darstellung für einen Nutzer bereitstellen. Die graphischen Daten können für eine oder mehrere graphische Nutzerschnittstellen und/oder jedweden anderen graphischen Inhalt repräsentativ sein, der als spezielle Implementierung dienen kann.The I / O devices / interfaces 1008 may include one or more devices for presenting an output to a user, including, but not limited to, a graphics module, a display (eg, a display screen), one or more output drivers (eg Display driver), one or more speakers, and one or more audio drivers. In certain embodiments, the devices / interfaces 1008 adapted to provide graphical data for a display for presentation to a user. The graphical data may be representative of one or more graphical user interfaces and / or any other graphical content that may serve as a particular implementation.

Die Rechenvorrichtung 1000 kann ferner eine Kommunikationsschnittstelle 1010 umfassen. Die Kommunikationsschnittstelle 1010 kann Hardware, Software oder beides umfassen. Die Kommunikationsschnittstelle 1010 kann eine oder mehrere Schnittstelle(n) zum Kommunizieren (wie z.B. mit einer Kommunikation auf Paketbasis) zwischen der Rechenvorrichtung und einer oder mehrerer anderer Rechenvorrichtung(en) 1000 oder einem oder mehreren Netzwerk(en) bereitstellen. Als Beispiel und nicht beschränkend kann die Kommunikationsschnittstelle 1010 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zum Kommunizieren mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einem drahtlosen NIC (WNIC) oder einem drahtlosen Adapter zum Kommunizieren mit einem drahtlosen Netzwerk, wie z.B. WI-FI, umfassen. Die Rechenvorrichtung 1000 kann ferner einen Bus 1012 umfassen. Der Bus 1012 kann Hardware, Software oder beides umfassen, die Komponenten der Rechenvorrichtung 1000 miteinander koppelt.The computing device 1000 may further include a communication interface 1010 include. The communication interface 1010 may include hardware, software, or both. The communication interface 1010 may include one or more interfaces for communicating (such as with packet-based communication) between the computing device and one or more other computing devices. 1000 or one or more network (s). By way of example and not limitation, the communication interface 1010 a network interface controller (NIC) or network adapter for communicating with an Ethernet or other wire-based network or wireless NIC (WNIC) or wireless adapter for communicating with a wireless network, such as WI-FI. The computing device 1000 can also have a bus 1012 include. The bus 1012 may include hardware, software, or both, the components of the computing device 1000 coupled with each other.

In der vorstehenden Beschreibung wurde die Erfindung unter Bezugnahme auf spezifische beispielhafte Ausführungsformen davon beschrieben. Verschiedene Ausführungsformen und Aspekte der Erfindung sind unter Bezugnahme auf hier diskutierte Details beschrieben und die beigefügten Zeichnungen veranschaulichen die verschiedenen Ausführungsformen. Die vorstehende Beschreibung und die Zeichnungen dienen nur zur Veranschaulichung der Erfindung und sollen nicht so aufgefasst werden, dass sie die Erfindung beschränken. Es sind zahlreiche spezifische Details beschrieben, so dass verschiedene Ausführungsformen der vorliegenden Erfindung gut verständlich werden.In the foregoing description, the invention has been described with reference to specific exemplary embodiments thereof. Various embodiments and aspects of the invention are described with reference to details discussed herein, and the accompanying drawings illustrate the various embodiments. The foregoing description and drawings are merely illustrative of the invention and should not be construed as limiting the invention. Numerous specific details are described so that various embodiments of the present invention will be readily understood.

Die vorliegende Erfindung kann in anderen spezifischen Formen ausgeführt werden, ohne von deren Wesen oder essentiellen Eigenschaften abzuweichen. Die beschriebenen Ausführungsformen sollen in jeder Hinsicht lediglich als veranschaulichend und nicht als beschränkend aufgefasst werden. Beispielsweise können die hier beschriebenen Verfahren mit weniger oder mehr Schritten/Vorgängen ausgeführt werden oder die Schritte/Vorgänge können in einer anderen Reihenfolge ausgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Vorgänge wiederholt oder parallel mit verschiedenen Instanzen derselben oder ähnlicher Schritte/Vorgänge ausgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben. Alle Änderungen innerhalb der Bedeutung und des Äquivalenzbereichs der Ansprüche sollen von dem Umfang der Erfindung umfasst sein. The present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. The described embodiments are to be considered in all respects only as illustrative and not restrictive. For example, the methods described herein may be performed with fewer or more steps / operations, or the steps / operations may be performed in a different order. In addition, the steps / operations described herein may be repeated or performed in parallel with different instances of the same or similar steps / operations. The scope of the invention is, therefore, indicated by the appended claims rather than by the foregoing description. Any changes within the meaning and range of equivalency of the claims are intended to be within the scope of the invention.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

US 62414140 [0001]

Zitierte Nicht-PatentliteraturCited non-patent literature

C. Szegedy et al., "Going deeper with convolutions," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pages 1-9 [0042]
ImageNet image data set - cf. J. Deng, W. Dong, R. Socher, Li Li, Kai Li and Li Fei-Fei, "ImageNet: A large-scale hierarchical image database", Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, Miami, FL, 2009, pages 248-255 [0046]

Claims

A computer-implemented method of searching for and identifying digital images based on semantic and spatial information in a digital media environment, comprising: Obtaining a user input of a query area and a query term using a digital canvas, the query term indicating a searched visual content and the query area indicating a searched area for displaying the searched visual content; a step of generating a query feature set from the query area and the query term using a neural interrogation network; and Identifying a digital image of a plurality of digital images representing the searched visual content within the searched area by comparing the query feature set with feature sets learned from the plurality of digital images using a neural digital image network.

Method according to Claim 1 in which the query feature set comprises feature vectors having a dimensionality of the feature sets that have been learned from the plurality of digital images using the neural digital image network.

Method according to Claim 2 further comprising training the neural interrogation network by: providing a training term and a training range as input to the neural interrogation network, wherein the training term and training range correspond to an item displayed in a digital training image, the digital training image having a corresponding feature set ; Generating a predicted feature set by the neural interrogation network based on the training term and training range; and comparing the predicted feature set generated by the neural interrogation network with the feature set corresponding to the digital training image.

Method according to Claim 3 wherein training the neural interrogation network further comprises: identifying a negative training term different from the training term; Generating a negative training term feature set based on the negative training term; and comparing the negative training term feature set, the predicted feature set, and the feature set corresponding to the digital training term.

Method according to Claim 4 wherein training the neural interrogation network further comprises: identifying a negative digital image representing an object other than the training term; Generating a negative digital image feature set from the negative digital image; and comparing the predicted feature set, the negative digital image feature set and the feature set corresponding to the digital training image.

Method according to Claim 5 wherein training the neural interrogation network comprises constructing a training structure comprising: a similarity loss function, an image-based rating loss function, and a query-based rating loss function, wherein: the similarity loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image; the image-based ranking loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative training term feature set; and the query based rating loss function compares a similarity between the predicted feature set and the feature set corresponding to the digital training image and a measure of the dissimilarity between the predicted feature set and the negative digital image feature set.

Method according to Claim 6 in which the neural interrogation network together minimizes the similarity loss function, the image-based ranking loss function and the query-based rating loss function.

The method of any one of the preceding claims, further comprising extracting the feature sets from a level of the neural digital image network that preserves semantic and spatial information from the digital images.

The method of any one of the preceding claims, further comprising: Receiving a user input of a second query term and a second query scope using the digital canvas in addition to the query term and the query scope, the query term indicating a second searched visual content and the second query scope indicating a second searched scope for showing the searched visual content; Generating a second query feature set using the neural query network by providing the second query term, the second query range, and the neural query network query feature set; and Identifying at least one digital image from the plurality of digital images representing the searched visual content within the searched area and the second searched visual content within the second searched area by comparing the second query feature set and the feature sets that are from the plurality of digital images have been learned by means of the neural digital image network,

A computer-implemented method of searching for and identifying digital images based on semantic and spatial information in a digital media environment, comprising: Obtaining a user input of a query term and a query range corresponding to a digital canvas, the query term indicating a searched visual content, and the query scope indicating a searched range for reproducing the searched visual content; Determining a query feature set based on the query term and the query range, wherein determining the query feature set comprises: Generating a representation of the query area and the query term; and Providing the representation of the query area and the query term for a neural interrogation network; and Identifying a digital image of a plurality of digital images representing the searched visual content within the searched area by comparing the query feature set with feature sets learned from the plurality of digital images using a neural digital image network.

Method according to Claim 10 in which the neural interrogation network comprises a three-fold neural folding network, two max-pooling levels, and two subsampling levels.

Method according to Claim 10 or 11 wherein generating the representation of the query area and the query term comprises: converting the query term into a query term vector using a word-to-vector algorithm; and generating a three-dimensional grid by associating the query term vector with the query area of the digital canvas.

Method according to one of Claims 10 to 12 further comprising training the neural interrogation network by: providing a training term and training range as input to the neural interrogation network, wherein the training term and training range correspond to an item shown in a digital training image, the digital training image having a corresponding feature set ; Generating a predicted feature set by the neural interrogation network based on the training term and training range; and comparing the predicted feature set generated by the neural interrogation network with the feature set corresponding to the digital training image.

Method according to Claim 13 wherein training the neural interrogation network further comprises: determining a negative training term other than the training term; Generating a negative training term feature set based on the negative training term; Identifying a negative digital image representing an item other than the training term, the negative digital image having a negative digital image feature set; and using a loss function to compare the negative training term feature set, the negative digital image feature set, the predicted feature set, and the feature set corresponding to the digital training image.

Method according to Claim 13 or 14 further comprising generating the feature set corresponding to the digital training image by identifying an object represented in the digital training image and an article boundary corresponding to the object rendered in the digital training image; and applying a spatial mask to an area of the digital training image outside the subject boundary.

Method according to one of Claims 10 to 15 further comprising: obtaining a second query term and a second query range using the digital canvas; Modifying the query feature set using the neural query network to render the second query term and the second query domain; and identifying at least one digital image by comparing the modified query feature set and the digital feature sets corresponding to the plurality of digital images.

A system for identifying digital images based on semantic and spatial information, comprising: one or more memories comprising: a plurality of feature sets, each feature set: corresponds to a digital image of a plurality of digital images, and is extracted from a level of a neural digital image network that preserves semantic and spatial information from the corresponding digital image; a neural interrogation network trained to generate query feature sets from representations of query areas and query terms, the query feature sets having a dimensionality of the feature sets of the plurality of digital images; At least one server that stores instructions that, when executed by the at least one server, causes the system to: generates a representation of a query scope and a query term that encodes the query term in a spatial location that corresponds to the query scope, the query term indicating a searched visual content, and the query indicates a searched scope for displaying the searched visual content; using the neural interrogation network, generates a query feature set from the representation of the query area and the query term; and from the plurality of digital images, identifying a digital image representing the searched visual content within the searched area by comparing the query feature set with the plurality of feature sets.

System after Claim 17 in which the neural interrogation network comprises a three-fold neural folding network, two max-pooling levels, and two subsampling levels.

System after Claim 17 or 18 wherein the server further comprises instructions that, when executed by the at least one server, further cause the system to generate the representation of the query area and the query term by performing operations, comprising: converting the query term into a query term vector by means of a word-to-vector algorithm; and generating a three-dimensional grid by associating the query term vector with the spatial location corresponding to the query area.

System according to one of Claims 17 to 19 method further comprising instructions that, when executed by the server, further cause the system to: receive a user input of a second query term and a second query range in addition to the query term and the query scope, the second query term having a second searched visual content and the second polling area indicates a second searched area for displaying the second searched visual content; using the neural interrogation network to generate a second query feature set by providing the second query term, the second interrogation area, and the trained neural network query feature set; and from the plurality of digital images, at least one digital image representing the searched visual content within the searched area and the second searched visual content within the second is searched by comparing the second query feature set with the plurality of feature sets.