DE102016013631A1

DE102016013631A1 - Modeling semantic concepts in an embedding space as distributions

Info

Publication number: DE102016013631A1
Application number: DE102016013631.6A
Authority: DE
Inventors: Hailin Jin; Zhou Ren; Zhe Lin; Chen Fang
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-01-15
Filing date: 2016-11-15
Publication date: 2017-07-20
Also published as: GB2546369A; GB2546368A; GB2546368B; GB2546369B; DE102016013630A1

Abstract

Beschrieben wird das Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen. In dem Einbettungsraum werden sowohl Bilder wie auch Textetiketten dargestellt. Die Textetiketten beschreiben semantische Konzepte, die in dem Bildinhalt vorhanden sind. In dem Einbettungsraum werden die durch die Textetiketten beschriebenen semantischen Konzepte als Verteilungen modelliert. Unter Verwendung von Verteilungen wird jedes semantische Konzept als kontinuierliches Cluster modelliert, das mit anderen Clustern, die andere semantische Konzepte modellieren, überlappen kann. Eine Verteilung für das semantische Konzept „Apfel” kann beispielsweise mit Verteilungen für die semantischen Konzepte „Frucht” und „Baum” überlappen, da es sowohl eine Frucht wie auch einen Baum betreffen kann. Im Gegensatz zu herkömmlich konfigurierten Einbettungsräumen werden die hier beschriebenen Einbettungsräume derart erzeugt, dass sie semantische Konzepte als Verteilungen, so beispielsweise als Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen mehr, modellieren.The modeling of semantic concepts in an embedding space is described as distributions. In the embedding room both images and text labels are displayed. The text labels describe semantic concepts that are present in the image content. In the embedding space, the semantic concepts described by the text labels are modeled as distributions. Using distributions, each semantic concept is modeled as a continuous cluster that can overlap with other clusters that model other semantic concepts. For example, a distribution for the semantic concept "apple" may overlap with distributions for the semantic concepts "fruit" and "tree," as it may affect both a fruit and a tree. In contrast to conventionally configured embedding spaces, the embedding spaces described herein are created to model semantic concepts as distributions, such as Gaussian distributions, Gaussian mixed distributions, and the like.

Description

Hintergrundbackground

Ein fundamentales Problem im Computerbereich ist die Bildklassifikation. Im Allgemeinen versucht die Bildklassifikation, semantische Information aus einem Bild zu extrahieren, damit das Bild zur Beschreibung des Inhalts des Bildes etikettiert (labeled) werden kann. Beinhalten kann semantische Information beispielsweise Objekte, die in einem Bild dargestellt sind (und Orte des Bildes, an denen die Objekte dargestellt sind), Szenen, die in einem Bild dargestellt sind (beispielsweise ob das Bild einen Strand oder einen Sonnenuntergang darstellt), Stimmungen, die mit menschlichen Gesichtern oder Gesichtsausdrücken, die in einem Bild dargestellt sind, verknüpft sind, bildästhetische Eigenschaften (beispielsweise gute Komposition, schlechte Komposition, Einhaltung der Drittelregel und dergleichen mehr), Bildgefühl (beispielsweise Angst, Ärger und dergleichen) und ähnliches mehr.A fundamental problem in the computer field is image classification. In general, image classification attempts to extract semantic information from an image so that the image can be labeled to describe the content of the image. For example, semantic information may include objects represented in an image (and locations of the image on which the objects are depicted), scenes represented in an image (eg, whether the image is a beach or a sunset), moods, which are associated with human faces or facial expressions represented in an image, image aesthetics (eg, good composition, poor composition, third-rule rule, and the like), image feeling (eg, fear, anger, and the like), and the like.

Einige herkömmliche Bildklassifikationstechniken verwenden visuell-semantische Einbettungsräume, in denen sowohl Textetiketten, die semantische Konzepte beschreiben, wie auch Bilder, die die semantischen Konzepte exemplarisch darstellen, eingebettet sind. Die visuell-semantischen Einbettungsräume, die entsprechend herkömmlichen Techniken erstellt werden, stellen semantische Konzepte, die durch Textetiketten beschrieben werden, üblicherweise als einzelne Punkte im Einbettungsraum dar. Infolge der komplizierten Beziehungen zwischen semantischen Konzepten und der Vielzahl von Bedeutungen, die ein einziges semantisches Konzept tragen kann, spiegelt das Darstellen von semantischen Konzepten als einzelne Punkte in einem Einbettungsraum die Art, wie diese in der realen Welt verstanden werden, jedoch gegebenenfalls nicht wider. Herkömmlich konfigurierte visuell-semantische Einbettungsräume stellen semantische Konzepte daher gegebenenfalls ungenau dar. Da diese Ungenauigkeiten bei Verwendung mit Textetiketten gegebenenfalls übernommen werden, sind derartige Einbettungsräume zum genauen Etikettieren von Bildern mit Textetiketten zur Beschreibung von deren Inhalt gegebenenfalls ungeeignet.Some conventional image classification techniques use visual-semantic embedding spaces in which both text labels that describe semantic concepts and images that exemplify the semantic concepts are embedded. The visual-semantic embedding spaces created according to conventional techniques usually represent semantic concepts described by text labels as individual points in the embedding space. Because of the complicated relationships between semantic concepts and the multitude of meanings that carry a single semantic concept However, representing semantic concepts as individual points in an embedding space may not reflect the way they are understood in the real world. Conventionally configured visual-semantic embedding spaces may therefore present semantic concepts inaccurate. Because these inaccuracies may be adopted when used with text labels, such embedding spaces may not be suitable for accurately labeling images with text labels to describe their contents.

ZusammenfassungSummary

Beschrieben wird das Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen. In dem Einbettungsraum werden sowohl Bilder wie auch Textetiketten dargestellt. Die Textetiketten beschreiben semantische Konzepte, die in dem Bildinhalt vorhanden sind. In dem Einbettungsraum werden die durch die Textetiketten beschriebenen semantischen Konzepte als Verteilungen modelliert. Unter Verwendung von Verteilungen wird jedes semantische Konzept in dem Einbettungsraum als kontinuierliches Cluster modelliert, das mit anderen Clustern, die andere semantische Konzepte modellieren, überlappen kann. Eine Verteilung für das semantische Konzept „Apfel” kann beispielsweise mit Verteilungen für die semantischen Konzepte „Frucht” und „Baum” überlappen, die Apfel sowohl eine Frucht wie auch einen Baum betreffen kann. Gegenüber der Verwendung von Verteilungen stellen herkömmlich konfigurierte Einbettungsräume ein semantisches Konzept als einzelnen Punkt dar. Im Gegensatz zu herkömmlich konfigurierten Einbettungsräumen werden die hier beschriebenen Einbettungsräume derart erzeugt, dass sie semantische Konzepte als Verteilungen (beispielsweise als Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen mehr) modellieren, was zu einer genaueren Darstellung der semantischen Konzepte, mehr Möglichkeiten beim Kommentieren von Bildern mit Textetiketten, die deren gezeigten Inhalt genauer beschreiben, und dergleichen mehr führt.The modeling of semantic concepts in an embedding space is described as distributions. In the embedding room both images and text labels are displayed. The text labels describe semantic concepts that are present in the image content. In the embedding space, the semantic concepts described by the text labels are modeled as distributions. Using distributions, each semantic concept in the embedding space is modeled as a continuous cluster that can overlap with other clusters that model other semantic concepts. For example, a distribution for the semantic concept "apple" may overlap with distributions for the semantic concepts "fruit" and "tree", which may affect both a fruit and a tree. Compared to the use of distributions, conventionally configured embedding spaces represent a semantic concept as a single point. In contrast to conventionally configured embedding spaces, the embedding spaces described herein are generated to use semantic concepts as distributions (eg, Gaussian distributions, Gaussian mixed distributions, and the like) such more), resulting in a more detailed representation of the semantic concepts, more opportunities to annotate images with text labels that more accurately describe their displayed content, and the like.

Sobald ein Einbettungsraum trainiert ist, kann der Einbettungsraum zum Ausfindigmachen von Textetiketten zur Beschreibung des Inhalts eines Bildes verwendet werden. Zur Verwendung eines trainierten Einbettungsraumes zum Ausfindigmachen von Textetiketten, die den Inhalt eines Bildes beschreiben, können mehrere semantisch aussagekräftige Bereiche des Bildes bestimmt werden, und es können entsprechende Textetiketten in dem trainierten Einbettungsraum für jeden der Bereiche ausfindig gemacht werden. Die Textetiketten, die für die mehreren Bereiche des Bildes ausfindig gemacht werden, können sodann mit dem Bild, beispielsweise zur Verwendung beim Kommentieren des Bildes, verknüpft werden.Once an embedding space is trained, the embedding space can be used to locate text labels to describe the content of an image. To use a trained embedding space to locate text labels that describe the content of an image, multiple semantically meaningful areas of the image may be determined, and corresponding text labels may be located in the trained embedding space for each of the areas. The text labels that are located for the multiple regions of the image may then be associated with the image, for example, for use in annotating the image.

Die vorliegende Zusammenfassung führt eine Auswahl von Konzepten in vereinfachter Form ein, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Als solches soll die vorliegende Zusammenfassung die wesentlichen Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe bei der Bestimmung des Umfanges des beanspruchten Erfindungsgegenstandes verwendet werden.The present Summary introduces a selection of concepts in simplified form, which are further described below in the Detailed Description. As such, the present summary is not intended to identify the essential characteristics of the claimed subject matter, nor should it be taken as an aid in determining the scope of the claimed subject matter.

Kurzbeschreibung der Zeichnung Brief description of the drawing

Die Detailbeschreibung erfolgt anhand der begleitenden Figuren. In den Figuren bezeichnet die am weitesten links stehende Ziffer/bezeichnen die am weitesten links stehenden Ziffern eines Bezugszeichens die Figur, in der das Bezugszeichen erstmalig auftritt. Die Verwendung derselben Bezugszeichen in verschiedenen Zusammenhängen in der Beschreibung und den Figuren kann ähnliche oder identische Objekte bezeichnen. Entitäten, die in den Figuren dargestellt sind, können eine oder mehrere Entitäten angeben, weshalb die Bezugnahme auf eine einzelne oder mehrere Formen der Entitäten in den Erläuterungen gleichwertig erfolgen kann.The detailed description is based on the accompanying figures. In the figures, the leftmost digit / denote the leftmost digits of a reference numeral the figure in which the numeral first appears. The use of the same reference numerals in various contexts in the description and figures may refer to similar or identical objects. Entities depicted in the figures may indicate one or more entities, and therefore reference to a single or multiple forms of the entities may be equivalently made in the discussion.

1 ist eine Darstellung einer digitalen Umgebung bei einer exemplarischen Implementierung, die zum Einsetzen der hier beschriebenen Techniken betreibbar ist. 1 FIG. 10 is an illustration of a digital environment in an exemplary implementation operable to employ the techniques described herein.

2 ist eine exemplarische Implementierung zur Darstellung eines Bildes mit mehreren Textetiketten und Angaben von Bereichen des Bildes, die den mehreren Textetiketten entsprechen. 2 FIG. 10 is an exemplary implementation for displaying an image with multiple text labels and regions of the image corresponding to the multiple text labels.

3 ist eine exemplarische Implementierung eines Einbettungsraumes, der dafür konfiguriert ist, sowohl Textetiketten wie auch auf die Textetiketten abgebildete Bildbereiche einzubetten. 3 is an exemplary implementation of an embedding space configured to embed both text labels and image areas mapped to the text labels.

4 ist eine weitere exemplarische Implementierung des Einbettungsraumes, wobei durch die Textetiketten beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum modelliert sind. 4 is another exemplary implementation of the embedding space wherein semantic concepts described by the textual labels are modeled as distributions in the embedding space.

5 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer exemplarischen Implementierung, bei der Bereiche eines Trainingsbildes, die mit mehreren Textetiketten verknüpft sind, auf die entsprechenden Textetiketten in einem Einbettungsraum abgebildet werden und bei der Etikettenausfindigmachungstechniken auf ein Abfragebild angewendet werden, um Textetiketten, die Bereichen des Abfragebildes entsprechen, in dem Einbettungsraum ausfindig zu machen. 5 FIG. 10 is a flowchart illustrating a procedure in an exemplary implementation in which portions of a training image associated with multiple text labels are mapped to the corresponding text labels in an embedding space and tagging techniques are applied to a query image to provide text labels representing portions of the text Query image correspond to locate in the embedment space.

6 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer weiteren exemplarischen Implementierung, bei der ein trainierter Einbettungsraum zum Verknüpfen von mehreren Textetiketten mit jeweiligen Bereichen eines zu kommentierenden Bildes verwendet wird. 6 FIG. 10 is a flowchart illustrating a procedure in another exemplary implementation in which a trained embedding space is used to associate multiple text labels with respective portions of an image to be commented.

7 ist ein Flussdiagramm zur Darstellung einer Prozedur bei einer weiteren exemplarischen Implementierung, bei der ein Einbettungsraum erzeugt wird, um von Textetiketten beschriebene semantische Konzepte als Verteilungen in dem Einbettungsraum zu modellieren. 7 Figure 4 is a flow chart illustrating a procedure in another exemplary implementation in which an embedding space is created to model semantic concepts described by text labels as distributions in the embedding space.

8 ist ein exemplarisches System, das verschiedene Komponenten einer exemplarischen Vorrichtung beinhaltet, die für eine oder mehrere Implementierungen von Techniken zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen, wie sie hier beschrieben sind, eingesetzt werden kann. 8th is an exemplary system that includes various components of an exemplary device that may be employed for one or more implementations of techniques for modeling semantic concepts in an embedding space as distributions as described herein.

Detailbeschreibungdetailed description

ÜbersichtOverview

Herkömmliche visuell-semantische Einbettungstechniken nutzen semantische Information aus unkommentierten Textdaten, um semantische Beziehungen zwischen Textetiketten zu gewinnen, und bilden Bilder explizit in einen reichen semantischen Einbettungsraum ab. Herkömmlich konfigurierte visuell-semantische Einbettungsräume stellen semantische Konzepte jedoch üblicherweise als einzelne Punkte im Einbettungsraum dar. Infolge der komplizierten Beziehungen zwischen semantischen Konzepten und der Vielzahl von Bedeutungen, die ein einziges semantisches Konzept tragen kann, spiegelt das Darstellen von semantischen Konzepten als einzelne Punkte die Art, wie diese in der realen Welt verstanden werden, jedoch gegebenenfalls nicht wider. Infolgedessen stellen herkömmlich konfigurierte visuell-semantische Einbettungsräume semantische Konzepte gegebenenfalls ungenau dar. Des Weiteren werden diese Ungenauigkeiten dann, wenn derartige Einbettungsräume zur Etikettierung von Bildern verwendet werden, gegebenenfalls übernommen. Als solche sind herkömmlich konfigurierte visuell-semantische Einbettungsräume zum genauen Etikettieren von Bildern mit Textetiketten zur Beschreibung von deren Inhalt gegebenenfalls ungeeignet.Conventional visual-semantic embedding techniques use semantic information from uncommented textual data to gain semantic relationships between textual labels and explicitly map images into a rich semantic embedding space. Traditionally configured visual-semantic embedding spaces, however, usually present semantic concepts as individual points in the embedding space. Because of the complicated relationships between semantic concepts and the multitude of meanings that a single semantic concept can support, representing semantic concepts as individual points reflects the nature How they are understood in the real world, but may not be reflected. As a result, conventionally configured visual-semantic embedding spaces may present inaccurate semantic concepts. Further, if such embedding spaces are used to label images, these inaccuracies may be adopted. As such, conventionally configured visual-semantic embedding spaces may be unsuitable for accurately labeling images with text labels to describe their contents.

Beschrieben wird das Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen. Insbesondere wird ein Einbettungsraum erzeugt, in dem sowohl Bilder wie auch Textetiketten dargestellt werden. Gegenüber herkömmlichen Techniken impliziert das Erzeugen des Einbettungsraumes ein Modellieren von durch Textetiketten eines Textvokabulars beschriebenen semantischen Konzepten als Verteilungen, so beispielsweise als Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen. Man betrachte die semantischen Konzepte, die durch die Worte „Baum”, „Apfel” und „Frucht” beschrieben werden. Es ist zumindest ein gewisser Überlapp zwischen den semantischen Konzepten vorhanden, da ein Apfel eine Frucht und auch einer Art von Baum zuzuordnen ist. Die Darstellung derartiger semantische Konzepte als Verteilungen und nicht als einzelne Punkte ermöglicht, dass die semantischen Konzepte derart überlappen, dass die Verteilung für das semantische Konzept eines Apfels mit den Verteilungen für die semantischen Konzepte sowohl eines Baumes wie auch einer Frucht überlappt.The modeling of semantic concepts in an embedding space is described as distributions. In particular, an embedding space is created in which both images and text labels being represented. Compared to conventional techniques, creating the embedding space implies modeling semantic concepts described by textual lables of a textual vocabulary as distributions, such as Gaussian distributions, Gaussian mixed distributions, and the like. Consider the semantic concepts described by the words "tree", "apple" and "fruit". At least there is a certain overlap between the semantic concepts, since an apple is a fruit and also a kind of tree to assign. The presentation of such semantic concepts as distributions, rather than individual points, allows the semantic concepts to overlap such that the distribution for the semantic concept of an apple overlaps the distributions for the semantic concepts of both a tree and a fruit.

Der Einbettungsraum ist als gemeinsamer Bild-Text-Einbettungsraum konfiguriert, in dem sowohl Textetiketten wie auch repräsentative Bilder (beispielsweise Bereiche von Bildern) dargestellt sind. In dem Einbettungsraum modellieren die Verteilungen semantische Konzepte, die in Bildern vorhanden sein können und durch Textetiketten eines Textvokabulars beschrieben werden. Beim Modellieren der semantischen Konzepte als Verteilungen werden auch semantische Beziehungen zwischen diesen Textetiketten berücksichtigt. Mit anderen Worten, die semantischen Konzepte werden derart modelliert, dass Verteilungen zur Darstellung von semantischen Konzepten wie „Sonne” und „Sonnenuntergang” enger als Verteilungen zur Darstellung von semantischen Konzepten wie „Sonne” und „Vogel” korreliert werden.The embedding space is configured as a common image text embedding space in which both text labels and representative images (eg, areas of images) are represented. In the embedding space, the distributions model semantic concepts that may exist in images and are described by text labels of a text vocabulary. When modeling the semantic concepts as distributions, semantic relationships between these text labels are also considered. In other words, the semantic concepts are modeled so that distributions representing semantic concepts such as "sun" and "sunset" are correlated more closely than distributions to represent semantic concepts such as "sun" and "bird".

Sobald der Einbettungsraum gemäß vorliegender Beschreibung trainiert ist, kann er zum Kommentieren von Bildern mit Textetiketten verwendet werden. Man betrachte ein Beispiel, bei dem ein noch nicht mit Textetiketten verknüpftes Bild als Eingabe zur Kommentierung empfangen wird. Etikettausfindigmachungstechniken können bei dem Eingabebild angewendet werden, um Textetiketten aus dem trainierten Einbettungsraum zur Beschreibung des Inhalts des Eingabebildes ausfindig zu machen. Zu diesem Zweck werden semantisch aussagekräftige Bereiche des Eingabebildes beispielsweise unter Verwendung eines geodätischen Objektvorschlages vorgeschlagen. Der Begriff „geodätischer Objektvorschlag” bezeichnet eine Technik, bei der ein Satz von Kandidatenobjekten in einem gegebenen Bild entsprechend kritischen Niveausätzen bei geodätischen Abstandstransformationen, die für in dem Bild platzierte Kernpunkte (seeds) berechnet werden, identifiziert wird. Zum Platzieren der Kernpunkte (seeds) verwendet der geodätische Objektvorschlag trainierte Klassifikatoren, die zum Ausfindigmachen von Objekten optimiert werden. Sobald der Vorschlag unterbreitet ist, werden die für das Eingabebild vorgeschlagenen semantisch aussagekräftigen Bereiche mit den Bildbereichen, die in dem Einbettungsraum relativ zu den semantischen Konzepten mit Modellierung als Verteilungen eingebettet sind, beispielsweise durch Vergleichen von Vektoren zur Angabe von visuellen Eigenschaften der eingebetteten Bildbereiche und der vorgeschlagenen Bereiche des Eingabebildes verglichen. Auf Grundlage des Vergleiches können die vorgeschlagenen Bereiche des Bildes auf visuell ähnliche eingebettete Bildbereiche und damit auch auf diejenigen Textetiketten abgebildet werden, die die semantischen Konzepte, denen die ähnlichen eingebetteten Bildbereiche entsprechen, beschreiben. Das Eingabebild kann sodann mit den bei diesem Prozess ausfindig gemachten Textetiketten kommentiert werden.Once the embedding space has been trained as described herein, it can be used to annotate pictures with text labels. Consider an example where an image not yet linked to text labels is received as input for commenting. Label discovery techniques may be applied to the input image to locate text labels from the trained embedding space to describe the content of the input image. For this purpose, semantically meaningful areas of the input image are proposed, for example using a geodetic object proposal. The term "geodetic object suggestion" refers to a technique in which a set of candidate objects in a given image is identified according to critical level sets in geodetic distance transforms computed for seeds placed in the image. To place the seeds, the geodetic object proposal uses trained classifiers that are optimized to locate objects. Once the proposal is made, the semantically meaningful regions proposed for the input image are embedded with the image regions embedded in the embedding space as distributions relative to the semantic concepts with modeling as distributions, for example by comparing vectors to indicate the visual properties of the embedded image regions and suggested areas of the input image compared. Based on the comparison, the proposed areas of the image can be mapped to visually similar embedded image areas and thus also to those text labels that describe the semantic concepts corresponding to the similar embedded image areas. The input image can then be commented on with the text labels found in this process.

Die hier beschriebenen visuell-semantischen Einbettungsräume (beispielsweise zur Darstellung von durch Textetiketten beschriebenen semantischen Konzepten als Verteilungen) stellen semantische Konzepte und die Beziehungen zwischen diesen genauer als herkömmlich konfigurierte visuell-semantische Einbettungsräume, die semantische Konzepte als einzelne Punkte darstellen, dar. Des Weiteren ermöglichen die hier beschriebenen Techniken das Trainieren eines gemeinsamen Bild-Text-Einbettungsraumes unter Verwendung von Trainingsbildern mit mehreren Textetiketten und das Kommentieren eines Bildes mit mehreren Textetiketten unter Verwendung des gemeinsamen Bild-Text-Einbettungsraumes. Die hier beschriebenen Techniken ermöglichen zudem, dass semantisch aussagekräftige Bereiche für jedes der mit einem Bild verknüpften mehreren Textetiketten ausfindig gemacht werden. Darüber hinaus bieten die hier beschriebenen Techniken einen Vorteil beim Zero-Shot-Learning gegenüber herkömmlichen Techniken beispielsweise beim Klassifizieren von Bildern in neuen Kategorien, die vorher nicht durch die Textetiketten des Einbettungsraumes beschrieben worden sind.The visual-semantic embedding spaces described here (for example, for representing semantic concepts described by text labels as distributions) represent semantic concepts and the relationships between them more precisely than conventionally configured visual-semantic embedding spaces that represent semantic concepts as individual points the techniques described herein train a common image text embedding space using training images with multiple text labels and annotating an image with multiple text labels using the common image text embedding space. The techniques described herein also enable semantically meaningful areas to be found for each of the multiple text labels associated with an image. Moreover, the techniques described herein offer an advantage in zero-shot learning over conventional techniques, for example in classifying images in new categories that have not previously been described by the embedding room text labels.

Bei der nachfolgenden Diskussion wird zunächst eine exemplarische Umgebung beschrieben, die die hier beschriebenen Techniken einsetzen kann. Sodann werden exemplarische Implementierungsdetails und Prozeduren beschrieben, die in der exemplarischen Umgebung wie auch in anderen Umgebungen zum Einsatz kommen können. infolgedessen ist das Leistungsvermögen der exemplarischen Prozeduren nicht auf die exemplarische Umgebung beschränkt, und es ist die exemplarische Umgebung nicht auf das Leistungsvermögen der exemplarischen Prozeduren beschränkt.In the following discussion, an exemplary environment that can employ the techniques described herein will first be described. Next, exemplary implementation details and procedures that may be used in the exemplary environment as well as in other environments will be described. as a result, the performance of the example procedures is not limited to the exemplary environment, and the example environment is not limited to the performance of the example procedures.

Exemplarische Umgebung Exemplary environment

1 ist eine Darstellung einer Umgebung 100 bei einer exemplarischen Implementierung, die zum Einsetzen der hier beschriebenen Techniken betreibbar ist. Die dargestellte Umgebung 100 beinhaltet eine Rechenvorrichtung 102, die ein Verarbeitungssystem 104 aufweist, das eine oder mehrere Verarbeitungsvorrichtungen (beispielsweise Prozessoren) und ein oder mehrere computerlesbare Speichermedien 106 beinhaltet. Die dargestellte Umgebung 100 beinhaltet zudem Bilddaten 108, Textetiketten 110, ein Multi-Instanzen-Einbettungsmodell 112, ein Multi-Instanzen-Einbettungsmodul 114 („MIE-Modul 114”) und bereichsbasierte mehrfach etikettierte Bilder 116, die auf den computerlesbaren Speichermedien 106 verkörpert und über das Verarbeitungssystem 104 betreibbar sind, um die hier beschriebene entsprechende Funktionalität zu implementieren. Bei wenigstens einigen Implementierungen beinhaltet die Rechenvorrichtung 102 eine Funktionalität für einen Zugriff auf verschiedene Arten von webbasierten Ressourcen (Inhalt und Dienste) zum Interagieren mit Online-Providern und dergleichen mehr, wie nachstehend noch detaillierter beschrieben wird. 1 is a representation of an environment 100 in an exemplary implementation operable to employ the techniques described herein. The illustrated environment 100 includes a computing device 102 that is a processing system 104. comprising the one or more processing devices (eg, processors) and one or more computer-readable storage media 106 includes. The illustrated environment 100 also includes image data 108 , Text labels 110 , a multi-instance embedding model 112 , a multi-instance embedding module 114 ( "MIE module 114 ") And area-based multi-tagged images 116 on the computer-readable storage media 106 embodied and through the processing system 104. are operable to implement the corresponding functionality described herein. In at least some implementations, the computing device includes 102 functionality for accessing various types of web-based resources (content and services) for interacting with online providers and the like, as will be described in more detail below.

Die Rechenvorrichtung 102 ist als beliebiger geeigneter Typ von Rechenvorrichtung konfigurierbar. Konfiguriert sein kann die Rechenvorrichtung 102 beispielsweise als Server, Desktopcomputer, Laptopcomputer, Mobilvorrichtung (beispielsweise unter der Annahme einer Handkonfiguration, so beispielsweise als Tablet oder Mobiltelefon), Tablet, Vorrichtung mit Konfigurierung zum Empfangen einer Gesteneingabe, Vorrichtung mit Konfigurierung zum Empfangen von dreidimensionalen (3D) Gesten als Eingabe, Vorrichtung mit Konfigurierung zum Empfangen einer Spracheingabe, Vorrichtung mit Konfigurierung zum Empfangen einer stiftbasierten Eingabe, Vorrichtung mit Konfigurierung zum Empfangen einer Kombination aus den genannten Eingaben und dergleichen mehr. Daher kann die Rechenvorrichtung 102 von Vollressourcenvorrichtungen mit beträchtlichen Speicher- und Prozessorressourcen (beispielsweise Server, PCs, Spielekonsolen) bis hin zu einer Vorrichtung mit geringen Ressourcen und begrenzten Speicher- und Verarbeitungsressourcen (beispielsweise Mobilvorrichtungen) reichen. Darüber hinaus kann, obwohl eine einzige Rechenvorrichtung 102 gezeigt ist, die Rechenvorrichtung 102 auch für eine Mehrzahl von verschiedenen Vorrichtungen repräsentativ sein, um Operationen „über die Cloud”, wie nachstehend noch detailliert anhand 8 beschrieben wird, durchzuführen.The computing device 102 is configurable as any suitable type of computing device. The computing device can be configured 102 for example, as a server, desktop computer, laptop computer, mobile device (eg, assuming a hand configuration, such as a tablet or mobile phone), tablet, device configured to receive gesture input, device configured to receive three-dimensional (3D) gestures as input, device with a configuration for receiving a voice input, a device configured to receive a pen-based input, a device configured to receive a combination of said inputs, and the like. Therefore, the computing device 102 from full-resource devices with significant memory and processor resources (e.g., servers, personal computers, game consoles) to a low-resource device with limited storage and processing resources (e.g., mobile devices). In addition, although a single computing device can 102 shown is the computing device 102 Also, for a variety of different devices, be representative of operations "over the cloud," as detailed below 8th is described to perform.

Die Umgebung 100 stellt des Weiteren einen oder mehrere Service-Provider 118 dar, die zum Kommunizieren mit der Rechenvorrichtung 102 über ein Netzwerk 120, so beispielsweise das Internet, konfiguriert sind, um eine „cloudbasierte” Rechenumgebung bereitzustellen. Allgemein bedeutet dies, dass die Service-Provider 118 dafür konfiguriert sind, verschiedene Ressourcen 122 über das Netzwerk 120 für Clients zugänglich zu machen. Bei einigen Szenarios richten Nutzer Konten ein, die für einen Zugriff auf entsprechende Providerressourcen genutzt werden können. Der Provider authentifiziert Berechtigungsnachweise (credentials) eines Nutzers (beispielsweise Nutzername und Passwort), bevor er einen Zugriff auf ein Konto und entsprechende Ressourcen 122 gewährt. Andere Ressourcen 122 sind frei zugänglich gemacht (beispielsweise ohne Authentifizierung oder einen kontenbasierten Zugang). Die Ressourcen 122 können eine beliebige geeignete Kombination aus Diensten und/oder Inhalt beinhalten, die typischerweise über ein Netzwerk von einem oder mehreren Providern zugänglich gemacht werden. Einige Beispiele für Dienste beinhalten unter anderem Bildspeicher- und/oder Sharing-Dienste (beispielsweise Flickr^®), Dienste sozialer Netzwerke (beispielsweise Facebook^®, Twitter^®, Instagram^®, Hyperlapse^® und dergleichen), Suchmaschinendienste, die als Suchergebnisse Bilder ausgeben können, und dergleichen mehr.The environment 100 also provides one or more service providers 118 which is to communicate with the computing device 102 over a network 120 For example, the Internet is configured to provide a "cloud-based" computing environment. Generally, this means that the service provider 118 are configured for different resources 122 over the network 120 accessible to clients. In some scenarios, users set up accounts that can be used to access appropriate provider resources. The provider authenticates credentials (credentials) of a user (for example username and password) before having access to an account and corresponding resources 122 granted. Other resources 122 are made freely accessible (for example, without authentication or account-based access). The resources 122 may include any suitable combination of services and / or content that are typically accessed via a network by one or more providers. Some examples of services include, among others, image storage and / or sharing services (eg Flickr ^®), social networking services (such as Facebook ^®, Twitter ^®, Instagram ^®, hyperlapse ^® and the like), search engine services that can output images as search results, and more.

Diese Dienste dienen als Quellen für beträchtliche Mengen von Bilddaten. Die Bilddaten 108 stellen Bilddaten dar, die in einer Vielzahl von Bildformaten formatiert sein können, darunter unter anderem JPEG, TIFF, RAW, GIF, BMP, PNG und dergleichen mehr. Die Bilddaten, die durch die Dienste verfügbar gemacht werden, können von Nutzern, die Konten bei diesen Diensten eingerichtet haben, gepostet bzw. hinterlegt werden. So lädt beispielsweise ein Nutzer, der ein Konto bei einem Bildspeicher- und/oder Sharing-Dienst eingerichtet hat, Bilder hoch, so beispielsweise solche, die er mit seiner Digitalkamera aufgenommen hat, oder solche, die an den Nutzer über elektronische Mittel gesendet werden. Ein Nutzer des Bildspeicher- und/oder Sharing-Dienstes kann sodann die hochgeladenen Bilder mit anderen teilen, so beispielsweise durch Bereitstellen eines Links zu Alben von Bildern oder zu einem Profil des Nutzers.These services serve as sources of significant amounts of image data. The image data 108 represent image data that may be formatted in a variety of image formats including, but not limited to, JPEG, TIFF, RAW, GIF, BMP, PNG, and the like. The image data made available by the Services may be posted by users who have established accounts with these Services. For example, a user who has set up an account with an image storage and / or sharing service uploads images, such as those taken with his digital camera or those sent to the user via electronic means. A user of the image storage and / or sharing service may then share the uploaded images with others, such as by providing a link to albums of images or to a profile of the user.

Darüber hinaus können die Bilder mit zusätzlicher Information zur Beschreibung der Bilder verknüpft werden. Die von den Bilddaten 108 dargestellten Bilder können Metadaten beinhalten, die die Bilder beschreiben. Beschreiben können die Metadaten eines Bildes bei einem Beispiel die Pixelgröße des Bildes, die Speichergröße des Bildes, die zum Aufnehmen des Bildes verwendete Kameravorrichtung, das Datum, an dem das Bild aufgenommen worden ist, das Datum, an dem das Bild letztmalig modifiziert worden ist, und dergleichen mehr. Darüber hinaus können die von den Bilddaten 108 dargestellten Bilder mit Metadaten verknüpft werden, die den in den Bildern dargestellten Inhalt beschreiben. Die Metadaten können beispielsweise als Textetiketten konfiguriert sein, und es können die Bilder mit jenen Textetiketten, die ihren Inhalt beschreiben, kommentiert werden. Beschreiben können derartige Textetiketten Objekte, die in einem Bild dargestellt sind (und Orte des Bildes, an denen die Objekte dargestellt sind), Szenen, die in einem Bild dargestellt sind (beispielsweise ob das Bild einen Strand oder einen Sonnenuntergang darstellt), Stimmungen, die mit menschlichen Gesichtern oder Gesichtsausdrücken, die in einem Bild dargestellt sind, verknüpft sind, bildästhetische Eigenschaften (beispielsweise gute Komposition, schlechte Komposition, Einhaltung der Drittelregel und dergleichen mehr), Bildgefühl (beispielsweise Angst, Ärger und dergleichen) und ähnliches mehr. Allgemein bedeutet dies, dass die Textetiketten 110 eine Vielzahl von Textetiketten, mit denen die Bilder kommentiert werden können, darstellen.In addition, the images can be linked with additional information describing the images. The of the image data 108 Images displayed may include metadata describing the images. In one example, the metadata of an image may describe the pixel size of the image, the memory size of the image, the camera device used to capture the image, the date the image was taken, the date on which the image was last modified, and more. In addition, those from the image data 108 images associated with metadata describing the content displayed in the images. The metadata can be used as text labels, for example be configured and the images can be annotated with those text labels describing their content. Such text labels may describe objects represented in an image (and locations of the image on which the objects are depicted), scenes represented in an image (eg, whether the image is a beach or a sunset), moods that are associated with human faces or facial expressions represented in an image, image aesthetic characteristics (for example, good composition, poor composition, respect of the rule of thirds and the like), image feeling (such as fear, anger and the like) and the like. Generally, this means that the text labels 110 a variety of text labels with which the images can be commented represent.

Das MIE-Modul 114 stellt eine Funktionalität zum Implementieren von Techniken zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen, wie sie hier beschrieben sind, dar. Als Teil hiervon stellt das MIE-Modul 114 einen Einbettungsraum, der als gemeinsamer Bild-Text-Einbettungsraum konfiguriert ist, bereit. Ein „gemeinsamer Bild-Text-Einbettungsraum” bedeutet hierbei, dass sowohl die Textetiketten 110 wie auch repräsentative Bilder (beispielsweise Bereiche von Bildern) aus den Bilddaten 108 darin eingebettet sein können. Das Multi-Instanzen-Einbettungsmodell 112 ist für einen derartigen Einbettungsraum repräsentativ. Des Weiteren stellt das MIE-Modul 114 eine Funktionalität dar, die das Multi-Instanzen-Einbettungsmodell 112 derart trainiert, dass bei einem gegebenen Bildbereich das Multi-Instanzen-Einbettungsmodell 112 zum Ausfindigmachen eines Textetiketts, das den in dem Bildbereich dargestellten Inhalt beschreibt, verwendet werden kann.The MIE module 114 provides functionality for implementing techniques for modeling semantic concepts in an embedding space as distributions as described herein. As part of this, the MIE module provides 114 an embedding space configured as a common image text embedding space. A "common picture-text embedding room" here means that both the text labels 110 as well as representative images (for example, areas of images) from the image data 108 can be embedded in it. The multi-instance embedding model 112 is representative of such an embedding space. Furthermore, the MIE module provides 114 a functionality that represents the multi-instance embedding model 112 such that for a given image area the multi-instance embedding model 112 for finding a text label describing the content displayed in the image area can be used.

Zum Trainieren des Multi-Instanzen-Einbettungsmodells 112 korreliert das MIE-Modul 114 die Textetiketten, die in dem Multi-Instanzen-Einbettungsmodell 112 eingebettet sind, entsprechend den durch die Textetiketten beschriebenen semantischen Konzepten semantisch. Das MIE-Modul 114 korreliert beispielsweise die Textetiketten semantisch derart, dass die Textetiketten „Sonne” und „Sonnenuntergang” enger in dem Multi-Instanzen-Einbettungsmodell 112 als die Textetiketten „Sonne” und „Vogel” positioniert sind.To train the multi-instance embedding model 112 correlates the MIE module 114 the text labels used in the multi-instance embedding model 112 embedded semantically according to the semantic concepts described by the textual labels. The MIE module 114 For example, the text labels are semantically correlated such that the text labels "Sun" and "Sunset" are closer in the multi-instance embedding model 112 when the text labels "Sun" and "Bird" are positioned.

Das MIE-Modul 114 trainiert zudem das Multi-Instanzen-Einbettungsmodell 112 unter Verwendung von Trainingsbildern, die als Teil von Bilddaten 108 beinhaltet sein können. Die Trainingsbilder sind vor dem Training jeweils bereits mit mehreren Textetiketten verknüpft, die den dargestellten Inhalt beschreiben. Für jedes Trainingsbild verarbeitet das MIE-Modul 114 das Bild zum Erzeugen eines Satzes von Bereichen des Bildes, die den mehreren Textetiketten des Trainingsbildes entsprechen. Damit bildet das MIE-Modul 114 eine Bereich-zu-Etikett-Entsprechung für jedes Trainingsbild derart, dass ein Bereich des Trainingsbildes ausgewählt wird, um jedes der mehreren Textetiketten darzustellen. Das MIE-Modul 114 bettet sodann den Satz von Bereichen in dem Multi-Instanzen-Einbettungsmodell 112 ein. Insbesondere bettet das MIE-Modul 114 einen Bereich in dem Multi-Instanzen-Einbettungsmodell 112 auf Grundlage einer Position ein, an der das entsprechende Etikett des Bereiches eingebettet ist. Ist ein Trainingsbild beispielsweise mit dem Textetikett „Sonne” verknüpft, so wird ein Bereich des Trainingsbildes entsprechend der „Sonne” ausgewählt. Das MIE-Modul 114 bettet sodann den Bereich des Trainingsbildes, der der „Sonne” entspricht, wenigstens teilweise auf Grundlage einer Position in dem Multi-Instanzen-Einbettungsmodell 112, an der das Textetikett „Sonne” eingebettet ist, ein. Das MIE-Modul 114 kann diesen Prozess für jedes Trainingsbild in einem Satz von Trainingsbildern durchführen.The MIE module 114 also trains the multi-instance embedding model 112 using training images as part of image data 108 can be included. The training images are already linked before each workout with several text labels that describe the content presented. The MIE module processes for every training image 114 the image for generating a set of regions of the image corresponding to the plurality of text labels of the training image. This forms the MIE module 114 an area-to-label correspondence for each training image such that an area of the training image is selected to represent each of the plurality of textual labels. The MIE module 114 then embeds the set of areas in the multi-instance embedding model 112 one. In particular, the MIE module embeds 114 an area in the multi-instance embedding model 112 based on a position where the corresponding label of the area is embedded. If a training image is linked, for example, to the text label "sun", an area of the training image corresponding to the "sun" is selected. The MIE module 114 then at least partially embeds the region of the training image corresponding to the "sun" based on a position in the multi-instance embedding model 112 with the text label "Sun" embedded. The MIE module 114 can perform this process for each training image in a set of training images.

Bei einer oder mehreren Implementierungen ist das Multi-Instanzen-Einbettungsmodell 112 dafür konfiguriert, die durch die Textetiketten beschriebenen und durch die repräsentativen Bilder dargestellten semantischen Konzepte als Verteilungen zu modellieren, so beispielsweise als Gauß'sche Verteilungen, als Gauß'sche Mischverteilungen und dergleichen mehr. Dies steht im Gegensatz zu Techniken, bei denen die semantischen Konzepte als einzelne Punkte dargestellt werden. Das Einbetten von Bildern, die mit mehreren Textetiketten verknüpft sind, bei einzelnen Punkten in einem visuell-semantischen Einbettungsraum kann bewirken, dass visuell-semantische Einbettungsfunktionen leicht verwechselt werden, indem sie beispielsweise bewirken, dass die Techniken bei der Vorhersage des in einem Bild dargestellten Inhalts weniger genau sind.One or more implementations is the multi-instance embedding model 112 configured to model the semantic concepts described by the text labels and represented by the representative images as distributions, such as Gaussian distributions, Gaussian mixed distributions and the like. This is in contrast to techniques in which the semantic concepts are represented as individual points. Embedding images associated with multiple text labels at individual points in a visual-semantic embedding space can cause visual-semantic embedding functions to be easily confused, for example, causing the techniques to predict the content displayed in an image are less accurate.

Darüber hinaus stellt das MIE-Modul 114 eine Funktionalität zum Kommentieren von Bildern bereit. „Kommentieren” bedeutet hierbei, dass Textetiketten, die den in einem Bild dargestellten Inhalt beschreiben, gewählt und mit dem Bild verknüpft werden können. Zum Kommentieren eines Bildes bestimmt das MIE-Modul 114 einen Satz von Bereichen des Bildes. Insbesondere extrahiert das MIE-Modul 114 Bereiche aus dem Bild, die semantisch aussagekräftig sind, und zwar beispielsweise unter Verwendung eines geodätischen Objektvorschlages, da dieser sowohl Vordergrund- wie auch Hintergrundbereiche abdeckt. Das MIE-Modul 114 wendet sodann eine oder mehrere Etikettausfindigmachungstechniken auf den Satz von Bereichen an, um Etiketten für die Bereiche ausfindig zu machen. Dies impliziert ein Vergleichen eines jeden Bereiches mit den in dem Multi-Instanzen-Einbettungsmodell 112 eingebetteten repräsentativen Bildern. Das MIE-Modul 114 kann sodann bestimmen, welches der in dem Multi-Instanzen-Einbettungsmodell 112 eingebetteten Bilder zu einem zu kommentierenden Bereich ähnlich ist, und das Textetikett, das ähnlichen eingebetteten Bildern entspricht, mit dem zu kommentierenden Bereich verknüpfen.In addition, the MIE module provides 114 a functionality for commenting images. "Commenting" means that text labels that describe the content displayed in an image can be selected and linked to the image. To comment on an image, the MIE module determines 114 a set of areas of the image. In particular, the MIE module extracts 114 Regions of the image that are semantically meaningful, for example using a geodetic object suggestion, as it covers both foreground and background areas. The MIE module 114 then applies one or more label discovery techniques to the set of areas to locate labels for the areas. This implies comparing each area with those in the multi-instance embedding model 112 embedded representative images. The MIE module 114 can then determine which one in the multi-instance embedding model 112 embedded images to one is similar to the commenting area, and the text label corresponding to similar embedded images is linked to the area to be commented.

Auf diese Weise kann ein Bild anfänglich mit einer großen Anzahl von Textetiketten, so beispielsweise mit einem für jeden der vorgeschlagenen Bereiche, verknüpft werden. Die Anzahl von Textetiketten kann jedoch verringert werden, sodass ein Bild mit den Etiketten, von denen bestimmt ist, dass sie für den Bildinhalt am besten repräsentativ sind, kommentiert werden kann. So kann das MIE-Modul 114 beispielsweise ein Bild mit einer vorbestimmten Anzahl von Textetiketten auswählen. Bei diesem Szenario wählt das MIE-Modul 114 die vorbestimmte Anzahl von Textetiketten aus, für die die Bereiche des Bildes zu in dem Multi-Instanzen-Einbettungsmodell 112 eingebetteten Bildern am ähnlichsten sind. Alternativ wählt das MIE-Modul 114 eine veränderliche Anzahl von Textetiketten für Bilder, die kommentiert werden sollen, aus. Bei diesem alternativen Szenario kann die Anzahl von ausgewählten Textetiketten auf einer Schwellenähnlichkeit basieren, sodass bei beliebigen Bereichen des Bildes, bei denen die Ähnlichkeit zu einem eingebetteten Bild über der Schwellenähnlichkeit liegt, das ausfindig gemachte Textetikett zum Kommentieren des Bildes verwendet wird. Auf jeden Fall stellen die bereichsbasierten mehrfach etikettierten Bilder 116 Bilder dar, die das MIE-Modul 114 mit mehreren Textetiketten kommentiert, indem Bildbereiche bestimmt werden und das Multi-Instanzen-Einbettungsmodell 112 zum Ausfindigmachen von Etiketten für die Bildbereiche verwendet wird.In this way, an image may initially be associated with a large number of text labels, such as one for each of the suggested regions. However, the number of text labels can be reduced so that an image can be annotated with the labels that are determined to be most representative of the image content. So can the MIE module 114 For example, select an image with a predetermined number of text labels. In this scenario, the MIE module chooses 114 the predetermined number of text labels to which the areas of the image belong in the multi-instance embedding model 112 most similar to embedded images. Alternatively, the MIE module selects 114 a variable number of text labels for images to be annotated. In this alternative scenario, the number of selected text labels may be based on a threshold similarity such that any portions of the image that resemble an embedded image above the threshold similarity will use the retrieved text label to annotate the image. In any case, the area-based multi-tagged images represent 116 Images representing the MIE module 114 annotated with multiple text labels by defining image areas and the multi-instance embedding model 112 used to locate labels for the image areas.

Bei einer oder mehreren Implementierungen ist das MIE-Modul 114 als Softwaremodul, Hardwarevorrichtung oder unter Verwendung einer Kombination aus Software, Hardware, Firmware, einer Schaltung mit fester Logik und dergleichen mehr implementierbar. Des Weiteren kann das MIE-Modul 114 als eigenständige Komponente der Rechenvorrichtung 102, wie dargestellt ist, implementierbar sein. Zusätzlich oder alternativ kann das MIE-Modul 114 als Komponente eines Webdienstes, als Anwendung bzw. App, als Betriebssystem der Rechenvorrichtung 102, als Plug-in-Modul oder als andere Vorrichtungsanwendung bzw. App, wie nachstehend anhand 8 beschrieben wird, konfiguriert sein.In one or more implementations, the MIE module is 114 as a software module, hardware device, or using a combination of software, hardware, firmware, fixed logic circuitry, and the like. Furthermore, the MIE module 114 as an independent component of the computing device 102 as shown, be implementable. Additionally or alternatively, the MIE module 114 as a component of a web service, as an application or app, as the operating system of the computing device 102 , as a plug-in module or as another device application or app, as shown below 8th be configured.

Nach der Betrachtung einer exemplarischen Umgebung folgt nunmehr eine Diskussion von einigen exemplarischen Details der Techniken zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen entsprechend einer oder mehreren Implementierungen.Having considered an exemplary environment, a discussion of some exemplary details of the techniques for modeling semantic concepts in an embedding space as distributions according to one or more implementations now follows.

Modellieren von semantischen Konzepten in einem Einbettungsraum als VerteilungenModeling semantic concepts in an embedding space as distributions

Der vorliegende Abschnitt beschreibt exemplarische Details von Techniken zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen entsprechend einer oder mehreren Implementierungen. Die Diskussion erfolgt anhand 2, die ein Bild mit mehreren Textetiketten und die Konzepte darstellt, die für die hier beschriebene Funktionalität einschlägig sind.This section describes exemplary details of techniques for modeling semantic concepts in an embedding space as distributions according to one or more implementations. The discussion is based on 2 which represents a picture with multiple text labels and the concepts relevant to the functionality described herein.

Insbesondere stellt 2 allgemein bei 200 ein Bild 202 mit Textetiketten 204, 206, 208, 210, 212 dar. 2 stellt zudem Bildbereiche 214, 216, 218, 220 dar. Das Bild 202 kann ein Trainingsbild darstellen, das bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist und für das das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 derart auswählt, dass eine Entsprechung zu den Textetiketten derart vorhanden ist, dass beispielsweise der Bildbereich 214 dem Textetikett 208 entspricht, der Bildbereich 216 dem Textetikett 206 entspricht, der Bildbereich 218 dem Textetikett 204 entspricht, der Bildbereich 220 dem Textetikett 210 entspricht, und der Bildbereich, der das Bild 202 als Ganzes darstellt, dem Textetikett 212 entspricht. Alternativ kann das Bild 202 ein Bild darstellen, das von dem MIE-Modul 114 derart kommentiert wird, dass das MIE-Modul 114 vorgeschlagene Bereiche für das Bild 202 erzeugt, Textetiketten für die vorgeschlagenen Bereiche unter Verwendung des Multi-Instanzen-Einbettungsmodells 112 ausfindig macht und die Textetiketten 204, 206, 208, 210, 212, die den Bildbereichen 214, 216, 218, 220 (wie auch einem Bereich entsprechend dem Bild als Ganzes) unter den ausfindig gemachten Textetiketten entsprechen, zur Beschreibung des Inhalts des Bildes 202 auswählt.In particular, presents 2 generally included 200 a picture 202 with text labels 204 . 206 . 208 . 210 . 212 represents. 2 also provides image areas 214 . 216 . 218 . 220 dar. The picture 202 can represent a training image already with the text labels 204 . 206 . 208 . 210 . 212 and for that the MIE module 114 the image areas 214 . 216 . 218 . 220 such that a correspondence to the text labels is provided such that, for example, the image area 214 the text label 208 corresponds to the image area 216 the text label 206 corresponds to the image area 218 the text label 204 corresponds to the image area 220 the text label 210 corresponds to, and the image area, the image 202 as a whole, the text label 212 equivalent. Alternatively, the picture 202 represent an image that is from the MIE module 114 so commented that the MIE module 114 suggested areas for the picture 202 generates text labels for the proposed areas using the multi-instance embedding model 112 locates and the text labels 204 . 206 . 208 . 210 . 212 that the image areas 214 . 216 . 218 . 220 (as well as an area corresponding to the image as a whole) among the retrieved text labels for describing the content of the image 202 selects.

3 zeigt allgemein bei 300 einen exemplarischen Einbettungsraum, in dem sowohl Textetiketten wie auch Bildbereiche, die auf die Textetiketten abgebildet sind, eingebettet sind. Insbesondere beinhaltet 3 einen gemeinsamen Bild-Text-Einbettungsraum 302 (der dem Multi-Instanzen-Einbettungsmodell 112 von 1 entsprechen kann), eine Bilddatenbank 304 (die Bilder enthält, die von dem MIE-Modul 114 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet werden) und ein Textvokabular 306 (das den Textetiketten 110 von 1 entsprechen kann, die zum Beschreiben von in den Bildern dargestellten semantischen Konzepten verwendbar sind). 3 generally indicates 300 an exemplary embedding space in which both text labels and image areas mapped to the text labels are embedded. In particular, includes 3 a common image-text embedding space 302 (the multi-instance embedding model 112 from 1 can correspond), an image database 304 (which contains images from the MIE module 114 to train the common image-text embedding space 302 used) and a text vocabulary 306 (the text labels 110 from 1 which can be used to describe semantic concepts represented in the images).

Der gemeinsame Bild-Text-Einbettungsraum 302 ist dafür konfiguriert, sowohl Textetiketten wie auch Bilder (Bilder als Ganzes und Teile von Bildern), die darin eingebettet sind, aufzuweisen. Die Bilddatenbank 304 und das Textvokabular 306 stellen die Bilder beziehungsweise Textetiketten dar, die das MIE-Modul 114 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet, damit der gemeinsame Bild-Text-Einbettungsraum 302 beispielsweise zum Ausfindigmachen von Textetiketten, die den Inhalt eines Bildes beschreiben, verwendet werden kann. Die Textetiketten, die das Textvokabular 306 bilden, sind zum Beschreiben von semantischen Konzepten, die in dem Bildinhalt vorhanden sein können, konfiguriert. Die Bilder der Bilddatenbank 304 stellen einen Bildinhalt dar, der die durch die Textetiketten des Textvokabulars 306 beschriebenen semantischen Konzepte exemplarisch darstellt. The common image text embedding room 302 is configured to have both text labels and pictures (pictures as a whole and parts of pictures) embedded therein. The image database 304 and the text vocabulary 306 represent the images or text labels that make up the MIE module 114 to train the common image-text embedding space 302 used to allow the common image text embedding space 302 for example, to locate text labels that describe the content of an image. The text labels that make up the text vocabulary 306 are configured to describe semantic concepts that may be present in the image content. The images of the image database 304 represent a picture content, which through the text labels of the text vocabulary 306 exemplifies described semantic concepts.

Beim Trainieren korreliert das MIE-Modul 114 semantisch die Textetiketten innerhalb des Textvokabulars 306. Man nehme beispielsweise das Textetikett 308 für „Baum”. Das MIE-Modul 114 stellt eine Funktionalität zum semantischen Korrelieren des Textetikettes 308 für „Baum” mit dem Textetikett 310 für „Frau” und dem Textetikett 312 für „Gebäude” bereit, indem beispielsweise die Textetiketten 308, 310, 312 an Positionen in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden. Die Positionen, an denen die Textetiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden, hängen davon ab, wie eng die durch die Textetiketten beschriebenen semantischen Konzepte korreliert sind. Bei einem Beispiel kann das Textetikett 308 für „Baum” in dem gemeinsamen Bild-Text-Einbettungsraum 302 derart eingebettet werden, dass es näher an den Textetiketten für „Kiefer”, „Wald” und „Pflanzen” (nicht gezeigt) als an dem Textetikett 310 für „Frau” und dem Textetikett 312 für „Gebäude” positioniert ist.When training, the MIE module correlates 114 semantically the text labels within the text vocabulary 306 , Take, for example, the text label 308 for "tree". The MIE module 114 provides functionality for semantically correlating the text label 308 for "tree" with the text label 310 for "woman" and the text label 312 ready for "building" by, for example, the text labels 308 . 310 . 312 at locations in the common image text embedding space 302 be embedded. The positions where the text labels in the common image text embedding space 302 depending on how closely the semantic concepts described by the textual labels are correlated. In one example, the text label 308 for "tree" in the common image text embedding space 302 be embedded so that it is closer to the text labels for "pine", "forest" and "plants" (not shown) than to the text label 310 for "woman" and the text label 312 is positioned for "building".

In 3 ist jedes der Textetiketten 308, 310, 312 nahe an einer ausgefüllten Form dargestellt, die das jeweilige Textetikett bezeichnet. So ist das Textetikett 308 für „Baum” beispielsweise nahe an einem ausgefüllten Stern dargestellt, das Textetikett 310 für „Frau” ist nahe an einem ausgefüllten Kreuz dargestellt, und das Textetikett 312 für „Gebäude” ist nahe an einem ausgefüllten X-Gebilde dargestellt. Jede dieser ausgefüllten Formen ist zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 beinhaltet, um die Einbettung der Textetiketten 308, 310, 312 darzustellen. Man beachte, dass die dargestellte Form des gemeinsamen Bild-Text-Einbettungsraumes 302 und die dargestellten Positionen der ausgefüllten Formen die tatsächliche Form des gemeinsamen Bild-Text-Einbettungsraumes 302 oder die Positionen, an denen das MIE-Modul 114 die Textetiketten 308, 310, 312 tatsächlich einbettet, gegebenenfalls nicht genau wiedergeben. Anstatt dessen sind die dargestellte Form des gemeinsamen Bild-Text-Einbettungsraumes 302 und die dargestellten Positionen der ausgefüllten Formen zur Erläuterung der hier beschriebenen Techniken von Nutzen.In 3 is each of the text labels 308 . 310 . 312 shown near a filled form denoting the respective text label. Such is the text label 308 for "tree", for example, shown near a solid star, the text label 310 for "woman" is shown near a filled cross, and the text label 312 for "building" is shown near a solid X-shape. Each of these filled forms is also in the common image text embedding space 302 involves embedding the text labels 308 . 310 . 312 display. Note that the illustrated form of the common image-text embedding space 302 and the illustrated positions of the filled shapes represent the actual shape of the common image text embedding space 302 or the positions where the MIE module 114 the text labels 308 . 310 . 312 actually embeds, may not accurately reproduce. Instead, the illustrated form of the common image-text embedding space 302 and the illustrated positions of the filled shapes will be useful in explaining the techniques described herein.

Das MIE-Modul 114 korreliert zudem die Bilder in der Bilddatenbank 304 mit den Textetiketten des Textvokabulars 306. Wie vorstehend ausgeführt worden ist, können die Trainingsbilder der Bilddatenbank 304 einen Bildinhalt darstellen, der die durch die Textetiketten des Textvokabulars 306 beschriebenen semantischen Konzepte exemplarisch darstellt. Zum Korrelieren der Bilder mit den Textetiketten bettet das MIE-Modul 114 jedes Bild an einer Position in dem gemeinsamen Bild-Text-Einbettungsraum 302 teilweise auf Grundlage einer Position des entsprechenden Textetiketts ein. Mit anderen Worten, das MIE-Modul 114 bildet jedes Bild auf dasjenige Textetikett ab, das den Bildinhalt für das Bild darstellt, und bettet das Bild auf Grundlage der Position dieses Textetiketts ein.The MIE module 114 also correlates the images in the image database 304 with the text labels of the text vocabulary 306 , As stated above, the training images of the image database 304 represent a picture content that matches that through the text labels of the text vocabulary 306 exemplifies described semantic concepts. To correlate the images with the text labels, the MIE module embeds 114 each image at a location in the common image text embedding space 302 partly based on a position of the corresponding text label. In other words, the MIE module 114 maps each image to the text label that represents the image content for the image and embeds the image based on the position of this text label.

Die Bilder der Bilddatenbank 304, die einen Baum darstellen, sind in dem gemeinsamen Bild-Text-Einbettungsraum 302 beispielsweise auf Grundlage einer Position eingebettet, an der das Textetikett 308 für „Baum” eingebettet ist. So bildet das MIE-Modul 114 beispielsweise diejenigen Bilder, die Bäume darstellen, auf das Textetikett 308 für „Baum” ab. Auf ähnliche Weise werden Bilder, die eine Frau darstellen, auf Grundlage einer Position eingebettet, an der das Textetikett 310 für „Frau” eingebettet ist, und es werden Bilder, die ein Gebäude darstellen, auf Grundlage einer Position eingebettet, an der das Textetikett 312 für „Gebäude” eingebettet ist. Mit anderen Worten, ein Bild wird in dem gemeinsamen Bild-Text-Einbettungsraum 302 an einer Position eingebettet, die näher an einem Textetikett, dem das Bildelement entspricht, als an anderen Textetiketten ist. Ein Bild wird zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 näher an Bildern, die eng korrelierten semantischen Konzepten entsprechen, als an Bildern, die weniger eng korrelierten semantischen Konzepten entsprechen, eingebettet. Bei einem Beispiel ist das Bild eines Baumes in dem gemeinsamen Bild-Text-Einbettungsraum 302 im Allgemeinen näher an Bildern von Kiefern und Wäldern als an Bildern von Gebäuden oder Bildern von Frauen eingebettet.The images of the image database 304 that represent a tree are in the common image text embedding space 302 for example, based on a position embedded at the text label 308 is embedded for "tree". This is how the MIE module forms 114 For example, those images that represent trees on the text label 308 for "tree". Similarly, images representing a woman are embedded based on a position at which the text label 310 is embedded for "woman", and images representing a building are embedded based on a position at which the text label 312 is embedded for "building". In other words, an image will be in the common image text embedding space 302 embedded at a position closer to a text label corresponding to the picture element than to other text labels. An image is also in the common image text embedding space 302 closer to images that correspond to closely correlated semantic concepts than to images that correspond to less closely correlated semantic concepts. In one example, the image of a tree is in the common image text embedding space 302 generally closer to pictures of pines and forests than to pictures of buildings or pictures of women.

In 3 stellt der Bildsatz 314 die Bilder der Bilddatenbank 304 dar, die einen Baum darstellen, der Bildsatz 316 stellt die Bilder der Bilddatenbank 304 dar, die eine Frau darstellen, und der Bildsatz 318 stellt die Bilder der Bilddatenbank 304 dar, die ein Gebäude darstellen. Die Bilder eines jeden Bildsatzes 314, 316, 318 sind als nichtausgefüllte Formen dargestellt, die die Bilder bezeichnen. So sind die Bilder des Bildsatzes 314 (die Bäume darstellen) als nichtausgefüllte Sterne dargestellt, die Bilder des Bildsatzes 316 (die Frauen darstellen) sind als nichtausgefüllte Kreuze dargestellt, und die Bilder des Bildsatzes 318 (die Gebäude darstellen) sind als nichtausgefüllte X-Gebilde dargestellt.In 3 represents the image set 314 the images of the image database 304 representing a tree, the image set 316 Represents the images of the image database 304 representing a woman, and the image set 318 Represents the images of the image database 304 representing a building. The pictures of each picture set 314 . 316 . 318 are represented as unfilled shapes that designate the images. Such are the pictures of the picture set 314 (representing the trees) are shown as non-filled stars, the images of the image set 316 (representing women) are shown as unfilled crosses, and the images of the image set 318 (representing the buildings) are shown as non-filled X-entities.

Die nichtausgefüllten Formen sind zudem in dem gemeinsamen Bild-Text-Einbettungsraum 302 beinhaltet und stellen die Einbettung der Bilder von den Bildsätzen 314, 316, 318 dar, deren Positionen darauf beruhen, wo die entsprechenden Textetiketten 308, 310, 312 eingebettet sind. Infolgedessen sind die nichtausgefüllten Sterne, die die Bilder darstellen, die Bäume zeigen, um den ausgefüllten Stern herum dargestellt, der das Textetikett 308 für „Baum” darstellt, die nichtausgefüllten Kreuze, die die Bilder darstellen, die Frauen zeigen, sind um das ausgefüllte Kreuz herum dargestellt, das das Textetikett 310 für „Frau” darstellt, und die nichtausgefüllten X-Gebilde, die die Bilder darstellen, die „Gebäude” zeigen, sind um das ausgefüllte X-Gebilde herum dargestellt, das das Textetikett 312 für „Gebäude” darstellt.The unfilled shapes are also in the common image text embedding space 302 includes and represent the embedding of images from the image sets 314 . 316 . 318 whose positions are based on where the corresponding text labels 308 . 310 . 312 are embedded. As a result, the unfilled stars representing the images that show trees are depicted around the filled star surrounding the text label 308 for "tree", the unfilled crosses that represent the images that show women are depicted around the filled cross, which is the text label 310 for "Ms." and the unfilled X-shapes that represent the images that depict "buildings" are shown around the solid X-shape that contains the text label 312 represents for "building".

In Bezug auf die jeweiligen Bilder, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, extrahiert das MIE-Modul 114 diese aus den Trainingsbildern als Bereiche. Daher kann der Satz von Bildern 304, die Frauen darstellen, Bereichen (beispielsweise Abschnitten von Bildern, die kleiner als das gesamte Bild sind) entsprechen, die aus Trainingsbildern extrahiert werden. Allgemeiner bedeutet dies, dass zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 das MIE-Modul 114 mit dem Trainieren von Bildern beginnt, die jeweils mit mehreren Textetiketten verknüpft sind. Bei einem Beispiel beginnt das MIE-Modul 114 mit dem Trainieren von Bildern, so beispielsweise mit dem Bild 202, das bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist.Regarding the respective pictures, in the common picture text embedding room 302 embedded, the MIE module extracts 114 these from the training images as areas. Therefore, the set of images 304 that represent women, areas (for example, portions of images that are smaller than the entire image) that are extracted from training images. More generally, this means that to train the common image-text embedding space 302 the MIE module 114 begins with the training of images, each associated with multiple text labels. In one example, the MIE module begins 114 with the training of pictures, so for example with the picture 202 that already with the text labels 204 . 206 . 208 . 210 . 212 is linked.

Für jedes Trainingsbild erzeugt das MIE-Modul 114 einen Satz von Bereichen, die den Textetiketten des Trainingsbildes entsprechen. Man betrachte das Beispiel von 2, bei dem das Bild 202 mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist. In diesem Beispiel kann das MIE-Modul 114 einen Bereich erzeugen, der jedem der Textetiketten 204, 206, 208, 210, 212 derart entspricht, dass der Bildbereich 214 dem Textetikett 208 für „Frau” entspricht, der Bildbereich 216 dem Textetikett 206 für „Eiffelturm” entspricht, der Bildbereich 218 dem Textetikett 204 für „Tasche” entspricht, der Bildbereich 220 dem Textetikett 210 für „Gebäude” entspricht und der Bildbereich, der das Bild 202 als Ganzes darstellt, dem Textetikett 212 für „Stadtszene” entspricht.The MIE module generates for each training image 114 a set of areas corresponding to the text labels of the training image. Consider the example of 2 in which the picture 202 with the text labels 204 . 206 . 208 . 210 . 212 is linked. In this example, the MIE module can 114 Create an area corresponding to each of the text labels 204 . 206 . 208 . 210 . 212 such that corresponds to the image area 214 the text label 208 for "woman" corresponds to the image area 216 the text label 206 for "Eiffel Tower", the image area 218 the text label 204 for "bag" corresponds to the image area 220 the text label 210 corresponds to "building" and the image area containing the image 202 as a whole, the text label 212 for "city scene".

Zum Erzeugen der Bereiche, die den Textetiketten des Trainingsbildes entsprechen, verwendet das MIE-Modul 114 anfänglich eine Bereichsvorschlagstechnik für das Trainingsbild. Das MIE-Modul 114 verwendet beispielsweise wenigstens eines von einer geodätischen Objektvorschlagstechnik, einer Vorschlagstechnik für beliebige Bereiche und dergleichen mehr. Semantisch aussagekräftige Bereiche eines Bildes enthalten nicht nur Objekte, die im Vordergrund des Bildes dargestellt sind. Hintergrundabschnitte eines Bildes können vielmehr ebenfalls semantisch aussagekräftig sein. Im Gegensatz zu allgemeinen Objektvorschlagstechniken decken die Bereichsvorschlagstechniken, die von dem MIE-Modul 114 verwendet werden, sowohl Vordergrund- wie auch Hintergrundbereiche von Bildern zum Vorschlagen von Bildbereichen ab.The MIE module uses to create the areas corresponding to the text labels of the training image 114 initially a range suggestion technique for the training image. The MIE module 114 For example, it uses at least one of a geodetic object suggestion technique, arbitrary range proposition technique, and the like. Semantically meaningful areas of an image contain not only objects that are shown in the foreground of the image. Rather, background portions of an image may also be semantically meaningful. In contrast to general object suggestion techniques, the range suggestion techniques covered by the MIE module cover 114 Both foreground and background areas of images are used to suggest image areas.

Sobald ein Satz von Kandidatenbereichen für ein Trainingsbild vorgeschlagen worden ist, sondert das MIE-Modul 114 wenigstens einige der vorgeschlagenen Kandidatenbereiche aus. Die Anzahl der Kandidatenbereiche, die anfänglich von den Objektvorschlagstechniken, die das MIE-Modul 114 verwendet, vorgeschlagen werden, kann tausende umfassen, weshalb die Verwendung eines jeden der vorgeschlagenen Kandidatenbereiche zum Trainieren die Rechenressourcen erheblich in Anspruch nehmen würde. Entsprechend kann das MIE-Modul 114 eine oder mehrere verarbeitungsnachgelagerte Techniken einsetzen, um wenigstens einige der vorgeschlagenen Kandidatenbereiche auszusondern. Das MIE-Modul 114 kann beispielsweise eine oder mehrere verarbeitungsnachgelagerte Techniken einsetzen, um vorgeschlagene Kandidatenbereiche auszusondern, die vordefinierten Größenkriterien oder Seitenverhältniskriterien nicht entsprechen. Bei einem Beispiel und nicht beschränkungshalber kann ein vordefiniertes Größenkriterium spezifizieren, dass zur Verwendung eines vorgeschlagenen Kandidatenbereiches die Seiten des vorgeschlagenen Kandidatenbereiches wenigstens 30% der Länge einer entsprechenden Seite des Bildes aufweisen sollen. Für ein Bild, das beispielsweise eine Größe von 400 Pixeln mal 500 Pixeln aufweist, setzt das MIE-Modul 114 das Kriterium durch Aussondern eines vorgeschlagenen Kandidatenbereiches mit einer Größe von weniger als 120 Pixeln mal 150 Pixeln durch. Mit Blick auf das exemplarische Seitenverhältnis kann ein vordefiniertes Seitenverhältniskriterium spezifizieren, dass zur Verwendung eines vorgeschlagenen Kandidatenbereiches das Seitenverhältnis des vorgeschlagenen Kandidatenbereiches zwischen 1:4 und 4:1 liegen soll.Once a set of candidate regions has been suggested for a training image, the MIE module discards 114 at least some of the proposed candidate areas. The number of candidate areas, initially from the object suggestion techniques, which is the MIE module 114 may include thousands, so using each of the proposed candidate areas for training would consume significantly the computational resources. Accordingly, the MIE module 114 employ one or more post-processing techniques to discard at least some of the proposed candidate areas. The MIE module 114 For example, it may employ one or more post-processing techniques to weed out candidate candidate regions that do not meet predefined size criteria or aspect ratio criteria. By way of example and not by way of limitation, a predefined size criterion may specify that to use a proposed candidate area, the pages of the proposed candidate area should be at least 30% of the length of a corresponding page of the image. For example, for an image having a size of 400 pixels by 500 pixels, the MIE module resets 114 the criterion by discarding a suggested candidate area having a size of less than 120 pixels by 150 pixels. With regard to the exemplary aspect ratio, a predefined aspect ratio criterion may specify that to use a suggested candidate range, the aspect ratio of the proposed candidate range should be between 1: 4 and 4: 1.

Von den verbleibenden vorgeschlagenen Kandidatenbereichen weist das MIE-Modul 114 sodann den am besten passenden Kandidatenbereich jedem Textetikett des Trainingsbildes gemeinsam zu, um eine Bereich-zu-Etikett-Entsprechung aufzubauen. Hierbei ist das MIE-Modul 114 dafür konfiguriert, ein Einzeletiketteinbettungsmodell zu verwenden. Dies hat die Wirkung eines Aussonderns einer sogar noch größeren Anzahl von vorgeschlagenen Kandidatenbereichen, sodass die Anzahl von verbleibenden Bereichen der Anzahl der mit dem Bild verknüpften Textetiketten entspricht. Das MIE-Modul 114 bettet diese Bereiche sodann in dem gemeinsamen Bild-Text-Einbettungsraum 302 ein. Wie in dem Beispiel von 2 und in dem Szenario, in dem das Bild 202 zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 302 verwendet wird, dargestellt ist, kann das MIE-Modul tausende der von den Bereichsvorschlagstechniken vorgeschlagenen Kandidatenbereiche auf die Bildbereiche 214, 216, 218, 220 wie auch einen Bereich entsprechend dem Bild 202 als Ganzes verringern.Of the remaining proposed candidate areas, the MIE module indicates 114 then the best fit candidate area is shared with each text label of the training image to build an area-to-label correspondence. Here is the MIE module 114 configured for one Use single label embedding model. This has the effect of discarding an even larger number of proposed candidate areas such that the number of remaining areas corresponds to the number of text labels associated with the image. The MIE module 114 then embeds these areas in the common image-text embedding space 302 one. As in the example of 2 and in the scenario where the picture 202 to train the common image-text embedding space 302 is used, the MIE module may apply thousands of the candidate areas proposed by the area proposal techniques to the image areas 214 . 216 . 218 . 220 as well as an area corresponding to the picture 202 decrease as a whole.

Zur Einbettung der Bereiche der Trainingsbilder in dem gemeinsamen Bild-Text-Einbettungsraum 302 berechnet das MIE-Modul 114 d-dimensionale Merkmalsvektoren für die Bereiche. Das MIE-Modul 114 kann die Merkmalsvektoren für die Bereiche beispielsweise dadurch berechnen, dass Bildmerkmale mit einem faltungstechnischen neuronalen Netzwerk (Convolutional Neural Network CNN) extrahiert werden, so beispielsweise einem, das ein Falten und Poolen sowie Inception Layers beinhaltet. Bei einem bestimmten Beispiel extrahiert das MIE-Modul 114 die Bildmerkmale mittels der RCNN-Technik (fast region-based CNN; schnelles, bereichsbasiertes CNN). Anders gesagt, bei einem gegebenen Trainingsbild und Bereichen, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet werden sollen, leitet das MIE-Modul 114 das Trainingsbild ein einziges Mal durch das CNN. Das MIE-Modul 114 kann sodann jeden Bereich des erzeugten Satzes von Bereichen in einer Merkmalsabbildung fester Größe poolen, um einen endgültigen Merkmalsvektor zu ermitteln.To embed the areas of the training images in the common image-text embedding space 302 calculates the MIE module 114 d-dimensional feature vectors for the ranges. The MIE module 114 For example, the feature vectors for the regions may be computed by extracting image features with a Convolutional Neural Network (CNN), such as one that includes convolution and pooling, as well as inception layers. For a specific example, the MIE module extracts 114 the image features using the RCNN technique (fast region-based CNN). In other words, given a training image and areas in the common image text embedding space 302 to embed, directs the MIE module 114 the training image once through the CNN. The MIE module 114 may then pool each area of the generated set of areas in a fixed size feature map to determine a final feature vector.

Man betrachte ein Beispiel, bei dem das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302 unter Verwendung eines Satzes von Trainingsbildern trainiert, von denen jedes mit mehreren Textetiketten verknüpft ist. Ein derartiger Satz von Trainingsbildern kann als D ≡ {(x_i, y_i)} N / i=1 formuliert werden. Hierbei bezeichnet x_i das i-te Bild in dem Satz, während N die Anzahl von Trainingsbildern in dem Satz bezeichnet.Consider an example where the MIE module 114 the common image-text embedding space 302 is trained using a set of training images, each associated with multiple text labels. Such a set of training images can be considered D ≡ {(x _i , y _i )} N / i = 1 be formulated. Here, x _i denotes the i-th image in the sentence, while N denotes the number of training images in the sentence.

Des Weiteren kann jedes Bild durch einen d-dimensionalen Merkmalsvektor

dargestellt werden, der gemäß vorstehender Diskussion berechnet werden kann, und zwar beispielsweise für das i-te Bild des Satzes x_i ∊

Des Weiteren ist jedes Trainingsbild derart mit einem Satz von Textetiketten verknüpft, dass für das i-te Bild x_i der Satz von Textetiketten y_i als

(y 1 / i, ..., y t / i)

definiert ist, wobei t die Anzahl von Textetiketten, die mit dem i-ten Bild verknüpft sind, bezeichnet. Man beachte, dass diese Definition für den Satz von Textetiketten ermöglicht, dass die Anzahl von Etiketten, die mit den Trainingsbildern verknüpft sind, von Bild zu Bild variiert.Furthermore, each image may be represented by a d-dimensional feature vector

can be calculated, which can be calculated according to the above discussion, for example, for the ith image of the set x _i ε

Furthermore, each training image is linked to a set of text labels such that for the i-th image x _i the set of text labels y _i as

(y 1 / i, ..., yt / i)

where t is the number of text labels associated with the ith image. Note that this definition for the set of text labels allows the number of labels associated with the training images to vary from image to image.

Aus Gründen der Einfachheit werde der Satz von einzubettenden Trainingsbildern mit

bezeichnet. Herkömmliche Techniken formulieren das Klassifikations- oder Kommentierungsproblem für Bilder, die mit mehreren Textetiketten verknüpft sind, als Mehr-Klassen-Klassifikation. Im Gegensatz zu den hier beschriebenen Techniken definiert diese herkömmliche Formulierung vorab einen festen Satz von Klassenetiketten, so beispielsweise

y 1 / i ∊ Y ≡ {1, ..., m},

gewinnt einen m-Wege-Klassifikator oder m Einer-gegen-Alle-Klassifikatoren und verwendet den gewonnenen Klassifikator oder die gewonnenen Klassifikatoren zum Klassifizieren des Satzes von Trainingsbildern X als festen Satz von Klassenetiketten Y derart, dass (X → Y) gilt. Die Skalierbarkeit derartiger herkömmlicher Techniken ist jedoch mit Blick auf die Anzahl von Etiketten beschränkt, da herkömmliche Techniken die Modelle, die sie verwenden, neutrainieren, wenn neue Etiketten auftauchen.For the sake of simplicity, the set of training images to be embedded will be included

designated. Conventional techniques formulate the classification or annotation problem for images associated with multiple text labels as a multi-class classification. In contrast to the techniques described herein, this conventional formulation pre-defines a fixed set of class labels, such as

y 1 / i ε Y ≡ {1, ..., m},

obtains an m-way classifier or m one-to-all classifiers and uses the obtained classifier or classifiers to classify the set of training images X as a fixed set of class labels Y such that (X → Y) holds. However, the scalability of such conventional techniques is limited in view of the number of labels since conventional techniques re-train the models they use when new labels appear.

Anstatt eines Definierens von Textetiketten als diskreter Satz, wie dies bei herkömmlichen Techniken der Fall ist, gewinnen visuell-semantische Modelle einen kontinuierlichen semantischen Raum S, der semantische Beziehungen zwischen Textetiketten erfasst und eine Abbildungsfunktion (X → S) aus dem Satz von Trainingsbildern X auf den kontinuierlichen semantischen Raum S explizit gewinnt. Daher ist das MIE-Modul 114 dafür konfiguriert, ein Bild-Etiketten-Trainingsdatenpaar {(x_i, s(y_i))} aufzubauen, um eine Abbildungsfunktion f: X → S für den gemeinsamen Bild-Text-Einbettungsraum 302 zu gewinnen. Das MIE-Modul 114 gewinnt die Einbettungsfunktion, um das i-te Bild x_i des Satzes von Trainingsbildern auf den gemeinsamen Bild-Text-Einbettungsraum 302 abzubilden. Das MIE-Modul 114 gewinnt dies als Funktion s(y_i) des Satzes von Textetiketten y_i, die mit dem i-ten Bild x_i verknüpft sind. Die Funktion s(y_i) wird derart gewonnen, dass ein Satz von verwendeten Etiketten Y auf den kontinuierlichen semantischen Raum S derart abgebildet wird, dass s: Y → S gilt.Instead of defining text labels as a discrete sentence, as is the case with conventional techniques, visual semantic models gain a continuous semantic space S that captures semantic relationships between text labels and a mapping function (X → S) from the set of training images X. wins the continuous semantic space S explicitly. Therefore, the MIE module is 114 configured to construct an image tag training data pair {(x _i , s (y _i ))} to provide a mapping function f: X → S for the common image text embedding space 302 to win. The MIE module 114 the embedding function wins the i-th image x _{i of} the set of training images onto the common image text embedding space 302 map. The MIE module 114 obtains this as a function s (y _i ) of the set of text labels y _{i associated} with the ith image x _i . The function s (y _i ) is obtained such that a set of labels Y used is mapped to the continuous semantic space S such that s: Y → S.

Bei einer oder mehreren Implementierungen ist das MIE-Modul 114 dafür konfiguriert, den kontinuierlichen semantischen Etikettenraum S (beispielsweise die Beziehungen zwischen den Textetiketten) unter Verwendung einer Textmodellierungsarchitekturtechnik, die mit unkommentierten Textdaten, so beispielsweise mit unkommentierten Textdaten aus dem Internet, trainiert wird, zu gewinnen. Die Textmodellierungsarchitektur ermöglicht, dass das MIE-Modul 114 ähnliche Einbettungspositionen für semantisch korrelierte Textetiketten gewinnt, da Synonyme in ähnlichen semantischen Kontexten wahrscheinlicher auftreten. Bei einem Beispiel verwendet das MIE-Modul 114 ein Glove-Modell, um einen 300-dimensionalen Textetikettenraum S aufzubauen, der die semantischen Beziehungen zwischen Textetiketten verkörpert.In one or more implementations, the MIE module is 114 configured to use the continuous semantic tag space S (for example, the relationships between the text labels) using text modeling architecture technique provided with uncommented text data, such as For example, with uncommented text data from the Internet, is trained to win. The text modeling architecture allows the MIE module 114 similar embedment positions for semantically correlated text labels gain because synonyms are more likely to occur in similar semantic contexts. In one example, the MIE module uses 114 a glove model to construct a 300-dimensional text label space S that embodies the semantic relationships between text labels.

In Bezug auf das Gewinnen von Einbettungsfunktionen gewinnen einige herkömmliche visuell-semantische Lösungsansätze die Abbildungsfunktion f: X → S für einen Einbettungsraum mit einer L₂-Verlustfunktion (L₂ loss function) oder einer Rangordnungsverlustfunktion (ranking loss function). Im Allgemeinen fördern derartige Funktionen, dass ein projizierter Einbettungspunkt für ein gegebenes Bild näher an seinem entsprechenden Etikett im Einbettungsraum ist. Das Folgende ist ein Beispiel für eine derartige Rangordnungsverlustfunktion, die von herkömmlichen visuell-semantischen Lösungsansätzen verwendet wird. Insbesondere entspricht sie einer paarbasierten Gelenkrangordnungsverlustfunktion (pairwise hinge-ranking loss function):

With respect to the recovery of embedding functions, some conventional visual-semantic solutions win the mapping function f: X → S for embedding space having an L ₂ -Verlustfunktion (L ₂ loss function) or a rank order loss function (ranking loss function). In general, such functions promote a projected embedding point for a given image closer to its corresponding label in the embedding space. The following is an example of such a rank order loss function used by conventional visual-semantic approaches. In particular, it corresponds to a pair-based hinge-ranking loss function:

Hierbei stellt der Term f(·) eine zu gewinnende Einbettungsfunktion dar, während der Term m einen Rand darstellt. Aus Gründen der einfacheren Notierung wird y anstelle von s(y) zur Bezeichnung des Etikettenvektors in dem kontinuierlichen semantischen Etikettenraum S verwendet. Des Weiteren bezeichnet τ₊ einen Satz von positiven Textetiketten, τ_– bezeichnet einen Satz von negativen Textetiketten,

bezeichnet positive Etikettenvektoren, und

bezeichnet negative Etikettenvektoren. Der Term

bezeichnet einen Abstand zwischen einem Einbettungsvektor

für das i-te Bild x_i und einem Vektor y_i für die Etiketten des Bildes.Here, the term f (·) represents an embedding function to be obtained, while the term m represents an edge. For ease of notation, y is used instead of s (y) to designate the tag vector in the continuous semantic tag space S. Furthermore, τ ₊ denotes a set of positive text labels, τ _- denotes a set of negative text labels,

denotes positive label vectors, and

denotes negative label vectors. The term

denotes a distance between an embedding vector

for the i-th image x _i and a vector y _i for the labels of the image.

Herkömmliche visuell-semantische Lösungsansätze, die die paarbasierte Gelenkrangordnungsfunktion gemäß vorstehender Darstellung verwenden, weisen jedoch Nachteile auf. Obwohl beispielsweise jedes Bild x_i mehreren Etiketten in dem Satz von Textetiketten y_i entsprechen kann, können ein oder mehrere Paare von jenen Etiketten an Positionen eingebettet sein, die in dem kontinuierlichen semantischen Etikettenraum S vergleichsweise weit voneinander entfernt sind. Daher kann das Verschieben der Einbettung eines ganzen Bildes

derart, dass das i-te Bild x_i an einer Position in dem Einbettungsraum nahe an den mehreren Textetiketten (die an Positionen relativ weit entfernt voneinander eingebettet sind) eingebettet ist, Fehler bei der Einbettungsfunktion bewirken. Führen kann eine derartige Vorgehensweise zusätzlich oder alternativ zum Abbilden des Bildes x_i auf eine durchschnittliche Position der Etikettenvektoren derart, dass die durchschnittliche Position einem anderen semantischen Konzept als die durch die einzelnen Textetiketten beschriebenen Konzepte entspricht.However, conventional visual-semantic approaches using the pair-based articular function as described above have disadvantages. For example, although each image x _i may correspond to multiple labels in the set of text labels y _i , one or more pairs of those labels may be embedded at positions that are relatively far apart in the continuous semantic label space S. Therefore, moving the embedding of an entire image may be a difficult task

such that the i-th image x _{i is} embedded at a position in the embedding space near the plural text labels (which are embedded at positions relatively far apart from each other), causing errors in the embedding function. Such an approach may additionally or alternatively map the image x _i to an average position of the label vectors such that the average position corresponds to a different semantic concept than the concepts described by the individual text labels.

Im Gegensatz zu herkömmlichen visuell-semantischen Einbettungstechniken ist das MIE-Modul 114 dafür konfiguriert, die nachfolgende Verlustfunktion bei einer oder mehreren Implementierungen zum Gewinnen einer Multi-Instanzen-Einbettung für den gemeinsamen Bild-Text-Einbettungsraum 302 zu verwenden:

In contrast to conventional visual-semantic embedding techniques, the MIE module is 114 configured to use the subsequent loss function in one or more implementations to obtain a multi-instance embedding for the common image text embedding space 302 to use:

Hierbei bezeichnet der Term x c / i einen bestimmten Bereich c des i-ten Bildes x_i, also beispielsweise einen Bereich, der auf vorbeschriebene Weise in Entsprechung zu demjenigen der mit dem i-ten Bild x_i verknüpften Textetiketten erzeugt worden ist. Der Term C bezeichnet den Satz von Bereichen, die für das i-te Bild x_i erzeugt werden. Des Weiteren bezeichnet

die positiven Etikettenvektoren,

bezeichnet die negativen Etikettenvektoren, und

bezeichnet einen Abstand zwischen der Einbettung des Bildbereiches

f(x c / i)

und dem entsprechenden Textetikett y_j, für das der Bildbereich erzeugt wird. Bei einer oder mehreren Implementierungen berechnet das MIE-Modul 114 den Abstand als quadrierten Euklidischen Abstand. Des Weiteren kann, wie in der Verlustgleichung gezeigt ist, zum Gewinnen der Multi-Instanzen-Einbettung das MIE-Modul 114 Bereich-zu-Etikett-Entsprechungen durch Anwenden einer Minimaloperation (beispielsweise des min-Terms) auf die Abstände von einem Etikett zu jedem Bereich des Satzes von Bereichen modellieren. Hierbei wählt das MIE-Modul 114 wenigstens einen Bereich eines Trainingsbildes aus, um das durch jedes Textetikett des Trainingsbildes beschriebene semantische Konzept zu erläutern. Des Weiteren wählt das MIE-Modul 114 den Bereich für ein Textetikett mit einer eingebetteten Position am nächsten an dem Textetikett in dem Einbettungsraum wahrscheinlicher aus.Here, the term denotes

xc / i

a certain area c of the i-th image x _i , that is, for example, a region generated in the manner described above in correspondence with that of the text labels linked to the ith image x _i . The term C denotes the set of regions which are generated for the ith image x _i . Further referred to

the positive label vectors,

denotes the negative label vectors, and

denotes a distance between the embedding of the image area

f (xc / i)

and the corresponding text label y _j for which the image area is created. In one or more implementations, the MIE module calculates 114 the distance as a squared Euclidean distance. Furthermore, as shown in the loss equation, to obtain the multi-instance embedding, the MIE module may be used 114 Model area-to-label correspondences by applying a minimum operation (e.g., the min-term) to the distances from a label to each area of the set of areas. Here, the MIE module selects 114 at least a portion of a training image to explain the semantic concept described by each text label of the training image. Furthermore, the MIE module chooses 114 the area for a text label with an embedded position closest to the text label in the embedding space is more likely.

Bei einer oder mehreren Implementierungen optimiert das MIE-Modul 114 die Rangordnung der vorhergesagten Textetiketten für die Bereiche eines Trainingsbildes. Zu diesem Zweck verwendet das MIE-Modul 114 eine angepasste Multi-Instanzen-Einbettungsverlustformel, die ermöglicht, dass positive Textetiketten (beispielsweise diejenigen, die mit dem Trainingsbild verknüpft sind) kleinere min-Abstände als die meisten negativen Textetiketten aufweisen. Auf diese Weise ordnet das MIE-Modul 114 dem Rang nach die positiven Textetiketten an der Spitze einer Liste von vorhergesagten Textetiketten für einen gegebenen Bereich eines Trainingsbildes an. Mit anderen Worten, das MIE-Modul 114 straft falsche Vorhersagen, die positive Textetiketten dem Rang nach am unteren Ende der Liste anordnen, ab. Bei einem Beispiel kann das MIE-Modul 114 dafür konfiguriert sein, die Rangordnung der vorhergesagten Textetiketten entsprechend der nachfolgenden angepassten Formel zu optimieren:

In one or more implementations, the MIE module optimizes 114 the ranking of the predicted text labels for the areas of a training image. For this purpose, the MIE module uses 114 a customized multi-instance embedding loss formula that allows positive text labels (for example, those associated with the training image) to have smaller min increments than most negative text labels. In this way, the MIE module maps 114 ranked the positive text labels at the top of a list of predicted text labels for a given area of a training image. In other words, the MIE module 114 Punishes false forecasts that rank positive text labels at the bottom of the list. In one example, the MIE module 114 be configured to optimize the ranking of the predicted text labels according to the following fitted formula:

Hierbei ist der Term w(·) eine Gewichtungsfunktion, während der Term r_j eine Rangordnung eines positiven Textetiketts in einer Liste von vorhergesagten Textetiketten für einen gegebenen Bereich eines Trainingsbildes ist. Bei einer oder mehreren Implementierungen bestimmt das MIE-Modul 114 den Term r_j entsprechend folgendermaßen:

Here, the term w (·) is a weighting function, while the term r _{j is} a ranking of a positive text label in a list of predicted text labels for a given area of a training image. In one or more implementations, the MIE module determines 114 the term r _j is as follows:

Hierbei ist der Ausdruck

eine Indikatorfunktion, die das MIE-Modul 114 für das i-te Bild x_i zum Rangordnen eines vorhergesagten Textetiketts y_t entsprechend dessen Abstand (beispielsweise in dem gemeinsamen Bild-Text-Einbettungsraum 302) zu jedem Bereich in dem Satz von Bereichen C verwendet. Insbesondere berechnet das MIE-Modul 114 die Rangordnung als Funktion des Minimalabstandes zu jedem Bereich, was durch den folgenden Term dargestellt wird:

Here is the expression

an indicator function, which is the MIE module 114 for the i-th image x _i for ranking a predicted text label y _t according to its spacing (for example in the common image text embedding space 302 ) to each area in the set of areas C. In particular, the MIE module calculates 114 the ranking as a function of the minimum distance to each area, which is represented by the following term:

Des Weiteren kann das MIE-Modul 114 zur Verwendung einer Gewichtungsfunktion konfiguriert werden, die folgendermaßen definiert ist:

Furthermore, the MIE module 114 be configured to use a weighting function defined as follows:

Hierbei bezeichnet der Term #(τ₊) die Anzahl von Textetiketten, die mit dem i-ten Bild x_i verknüpft sind. Ist eines der Textetiketten, das mit dem i-ten-Bild x_i verknüpft ist, eines der obersten #(τ₊)-Textetiketten in der Vorhersageliste, so straft das MIE-Modul 114 den Verlust ab, indem der Gewichtung eine kleinere Zahl zugewiesen wird. Ist das i-te Bild x_i beispielsweise mit fünf Textetiketten verknüpft und ist eines der verknüpften Textetiketten eines der fünf obersten (top five) dem Rang nach geordneten Etiketten in der Liste von Textetiketten, die für das Bild vorhergesagt worden sind, so straft das MIE-Modul 114 den berechneten Verlust ab, indem der Gewichtung eine kleinere Zahl zugewiesen wird. Ist im Gegensatz hierzu eines der mit dem i-ten Bild x_i verknüpften Etiketten keines der obersten #(τ₊)-Textetiketten in der Vorhersageliste, so straft das MIE-Modul 114 den Verlust ab, indem der Gewichtung eine größere Zahl zugewiesen wird.Here, the term # (τ ₊ ) denotes the number of text labels associated with the ith image x _i . If one of the text labels associated with the i-th image x _i is one of the top # (τ ₊ ) text labels in the prediction list, the MIE module will punish 114 the loss by assigning a smaller number to the weighting. For example, if the i-th image x _i is associated with five text labels and one of the linked text labels is one of the top five ranked labels in the list of text labels predicted for the image, the MIE penalizes -Module 114 the calculated loss by assigning a smaller number to the weighting. Conversely, if one of the labels associated with the i-th image x _{i is} not one of the topmost # (τ ₊ ) text labels in the prediction list, the MIE module will punish 114 the loss by assigning a larger number to the weighting.

Weiter werde anhand eines Beispiels, bei dem das i-te Bild x_i mit fünf Textetiketten verknüpft ist, ein Szenario betrachtet, bei dem eines der verknüpften Textetiketten keines der obersten fünf (top five) dem Rang nach geordneten Etiketten in der Liste der für das Bild vorhergesagten Textetiketten ist. In diesem Fall straft das MIE-Modul 114 den berechneten Verlust ab, indem der Gewichtung eine größere Zahl zugewiesen wird. Indem auf diese Weise auf die Verlustfunktion ein Abstrafen angewandt wird, bildet das MIE-Modul 114 semantisch aussagekräftige Bereiche näher an ihren entsprechenden Etiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 ab. Nachdem die Bereiche der Trainingsbilder (beispielsweise diejenigen, die in der Bilddatenbank 304 beinhaltet sind) auf die Textetiketten (beispielsweise diejenigen, die in dem Textvokabular 306 beinhaltet sind) in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet sind, kann eine Verwendung dahingehend erfolgen, dass das MIE-Modul 114 Textetiketten für unkommentierte Bilder auffindet.Further, using an example where the i-th image x _{i is associated} with five text labels, consider a scenario in which one of the linked text labels does not include any of the top five ranked labels in the list for the Image is predicted text labels. In this case, the MIE module punishes 114 the calculated loss by assigning a larger number to the weighting. By applying abstraction to the loss function in this way, the MIE module forms 114 semantically meaningful areas closer to their corresponding labels in the common image-text embedding space 302 from. After the areas of the training images (for example, those in the Image Database 304 includes) on the text labels (for example, those in the text vocabulary 306 are included) in the common image text embedding space 302 may be used in that the MIE module 114 Find text labels for uncommented images.

Man betrachte ein Beispiel, bei dem in das MIE-Modul 114 ein Bild zur Kommentierung x' beispielweise in Verbindung mit der Indexierung von Bildern für die Suche eingegeben wird. Auf eine Weise, die zu derjenigen ähnlich ist, wie Bereiche für die trainierten Bilder erzeugt werden, erzeugt das MIE-Modul 114 einen Satz von Bereichen C' für das zu kommentierende Bild x'. So wendet das MIE-Modul 114 beispielsweise eine Bereichsvorschlagstechnik (beispielsweise einen geodätischen Objektvorschlag oder einen beliebigen Bereichsvorschlag) auf das zu kommentierende Bild an und wendet sodann verarbeitungsnachgelagerte Techniken auf die vorgeschlagenen Bereiche an, um die Anzahl der vorgeschlagenen Bereiche für das zu kommentierende Bild zu verringern.Consider an example where in the MIE module 114 an image for commentary x 'is input, for example, in connection with the indexing of images for the search. In a manner similar to that of creating areas for the trained images, the MIE module generates 114 a set of areas C 'for the picture to be commented x'. This is how the MIE module applies 114 For example, an area proposal technique (eg, a geodetic object proposal or an arbitrary area proposal) is applied to the image to be commented and then applies post-processing techniques to the suggested areas to reduce the number of suggested areas for the image to be commented.

Das MIE-Modul 114 leitet sodann das zu kommentierende Bild und den Satz von hieraus erzeugten Bereichen an den gemeinsamen Bild-Text-Einbettungsraum 302, um Einbettungsvektoren für jeden der Bereiche zu ermitteln. Ist die vorstehend erläuterte Einbettungsfunktion gegeben, so berechnet das MIE-Modul 114 Einbettungsvektoren für einen Satz von Bereichen des zu kommentierenden Bildes derart, dass ein Einbettungsvektor f(x^'c) für einen gegebenen Bereich c ermittelt wird. Für ein beliebiges der Textetiketten y' in dem gemeinsamen Bild-Text-Einbettungsraum 302 berechnet das MIE-Modul 114 sodann den Abstand zwischen dem zu kommentierenden Bild x' und Positionen der Textetiketten y' in dem gemeinsamen Bild-Text-Einbettungsraum 302 durch folgenden Term:

The MIE module 114 then directs the image to be commented and the set of areas created therefrom to the common image text embedding space 302 to determine embed vectors for each of the areas. If the embedding function explained above is given, the MIE module calculates 114 Embedding vectors for a set of regions of the image to be commented such that an embedment vector f (x ^'c ) is determined for a given region c. For any of the text labels y 'in the common image text embedding space 302 calculates the MIE module 114 then the distance between the image to be commented x 'and positions of the text labels y' in the common image text embedding space 302 by the following term:

Damit bestimmt das MIE-Modul 114 für jeden Bereich des zu kommentierenden Bildes ein Textetikett, dem der Bereich in dem gemeinsamen Bild-Text-Einbettungsraum 302 am nächsten ist, und zwar beispielsweise auf Grundlage des Abstandes zwischen dem für den Bereich bestimmten Einbettungsvektor und einer Position des Textetiketts in dem gemeinsamen Bild-Text-Einbettungsraum 302.This determines the MIE module 114 for each area of the picture to be commented, a text label to which the area in the common picture text embedding space 302 for example, based on the distance between the area-determined embedding vector and a position of the text label in the common image text embedding space 302 ,

Das MIE-Modul 114 ordnet sodann die Textetiketten, die für das zu kommentierende Bild bestimmt sind, dem Rang nach. Insbesondere ordnet das MIE-Modul 114 die bestimmten Textetiketten entsprechend den Abständen zwischen den Einbettungsvektoren der Bereiche und den jeweiligen Textetiketten derart dem Rang nach, dass die Textetiketten, für die der Abstand zu dem jeweiligen Bereich kleiner ist, günstiger dem Rang nach geordnet werden. Entsprechend ist das bestimmte Textetikett, für das der Abstand zu dem jeweiligen Bereich am geringsten ist, das dem Rang nach oberste (top ranked) Textetikett. Unter Verwendung der Rangordnung erzeugt das MIE-Modul 114 eine ranggeordnete Liste von Textetiketten, die derart bestimmt sind, dass sie den Bereichen des zu kommentierenden Bildes entsprechen. Das MIE-Modul 114 kann das zu kommentierende Bild sodann mit einer vorbestimmten Anzahl von Etiketten aus der Liste kommentieren. Bei einem Beispiel und nicht beschränkungshalber kann das MIE-Modul 114 das zu kommentierende Bild mit den dem Rang nach besten fünf (top ranked) Textetiketten aus der Liste von Textetiketten entsprechend den Bereichen kommentieren. Unabhängig von der vorbestimmten Anzahl ist das MIE-Modul 114 dafür konfiguriert, den gemeinsamen Bild-Text-Einbettungsraum 302 zu verwenden, um Bilder mit mehreren Textetiketten zu kommentieren.The MIE module 114 then arranges the text labels intended for the picture to be commented by rank. In particular, the MIE module orders 114 the particular text labels ranked according to the distances between the embedding vectors of the areas and the respective text labels such that the text labels for which the distance to the respective area is smaller are ranked more favorably. Likewise, the particular text label for which the distance to the particular area is the lowest is the top ranked text label. Using the Ranking creates the MIE module 114 a ranked list of text labels that are determined to correspond to the areas of the image to be commented. The MIE module 114 can then comment on the image to be commented with a predetermined number of labels from the list. By way of example and not by way of limitation, the MIE module 114 Comment on the image to be commented with the top five ranked text labels from the list of text labels corresponding to the areas. Regardless of the predetermined number, the MIE module is 114 configured to use the common image text embedding space 302 to comment on images with multiple text labels.

Wie vorstehend kurz beschrieben worden ist, ist der gemeinsame Bild-Text-Einbettungsraum 302 zudem dafür konfiguriert, semantische Konzepte, die durch die Textetiketten beschrieben und auf die die jeweiligen Bilder abgebildet werden, als Verteilungen, beispielsweise Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen mehr, zu modellieren.As briefly described above, the common image text embedding space is 302 also configured to model semantic concepts described by the text labels and onto which the respective images are mapped as distributions, such as Gaussian distributions, Gaussian mixed distributions, and the like.

4 zeigt bei 400 ein Beispiel für einen Einbettungsraum, der durch Textetiketten beschriebene semantische Konzepte als Verteilungen darstellt. Insbesondere zeigt das Beispiel 400 einen gemeinsamen Bild-Text-Einbettungsraum 402, der Verteilungen 404, 406, 408 beinhaltet. Die Verteilungen 404, 406, 408 können beispielsweise die semantischen Konzepte eines Baumes, eines Apfels beziehungsweise einer Frucht darstellen. Man beachte, dass ein gewisser Überlapp zwischen den Verteilungen 404, 406, 408 vorhanden sein kann, wodurch ausgedrückt wird, dass die durch die Textetiketten dargestellten semantischen Konzepte überlappen können. Mit anderen Worten, die durch die Textetiketten für „Baum”, „Apfel” und „Frucht” dargestellten semantischen Konzepte können teilweise aufgrund dessen überlappen, dass ein Apfel einem Baum und auch einer Frucht entsprechen kann. Entsprechend werden semantische Konzepte als Verteilungen in dem gemeinsamen Bild-Text-Einbettungsraum 402 und nicht als einzelne Punkte modelliert. 4 shows 400 an example of an embedding space that represents semantic concepts described by text labels as distributions. In particular, the example shows 400 a common image-text embedding space 402 , the distributions 404 . 406 . 408 includes. The distributions 404 . 406 . 408 For example, they may represent the semantic concepts of a tree, an apple, or a fruit. Note that there is a certain overlap between the distributions 404 . 406 . 408 which expresses that the semantic concepts represented by the text labels can overlap. In other words, the semantic concepts represented by the textual labels for "tree", "apple" and "fruit" may overlap partly because an apple may correspond to a tree and also to a fruit. Accordingly, semantic concepts become distributions in the common image-text embedding space 402 and not modeled as single points.

Das MIE-Modul 114 gewinnt den gemeinsamen Bild-Text-Einbettungsraum 402, um ihn durch Modellieren eines jeden durch die Textetiketten beschriebenen semantischen Konzepts zu erzeugen. Bei einem Beispiel modelliert das MIE-Modul 114 jedes der semantischen Konzepte folgendermaßen als Gauß'sche Verteilung: t_k ~ N(μ_k, Σ_k), ∀_k ∈ (1, ..., M) The MIE module 114 Wins the common image-text embedding space 402 to create it by modeling each semantic concept described by the text labels. In one example, the MIE module models 114 each of the semantic concepts as Gaussian distribution as follows: t _k ~ N (μ _k, Σ _k) ∀ _k ∈ (1, ..., M)

Hierbei bezeichnet der Term M die Anzahl von Textetiketten in einem Textvokabular, das zum Trainieren des gemeinsamen Bild-Text-Einbettungsraumes 402 verwendet wird. Der Term t_k bezeichnet das k-te Textetikett t in dem Textvokabular, der Term μ_k bezeichnet einen Vektor des k-ten Textetiketts t (beispielsweise ein Glove-Merkmal des Textetiketts, das aus einem Glove-Modell für die Textetikettdarstellung ermittelt wird), der Term Σ_k bezeichnet eine Identitätsmatrix, die auf den gemeinsamen Bild-Text-Einbettungsraum 402 initialisiert ist, und N(·) bezeichnet eine Verteilungsmodellierungsfunktion (beispielsweise eine Gauß'sche Standardverteilung, obwohl auch andere Verteilungen verwendet werden können). Bei einer oder mehreren Implementierungen gewinnt das MIE-Modul 114 die Verteilungen für den gemeinsamen Bild-Text-Einbettungsraum 402 durch ein tiefes neuronales Netzwerk. Das MIE-Modul 114 kann ein gegebenes Bild I in einem Satz von Trainingsbildern durch ein faltungstechnisches neuronales Netzwerk (Convolutional Neural Network CNN) darstellen und kann eine Bildeinbettungsgewichtung für das Bild entsprechend einer Verlustfunktion, so beispielsweise entsprechend einem Rangordnungsverlust, initialisieren. Mit Blick auf den Term Σ_k gewinnt das MIE-Modul 114 diesen durch Minimieren eines Verlustes für jedes Bild I in dem Satz von Trainingsbildern folgendermaßen:

Here, the term M denotes the number of text labels in a text vocabulary used to train the common image text embedding space 402 is used. The term t _k denotes the k-th text label t in the text vocabulary, the term μ _k denotes a vector of the k-th text label t (for example a text label glove feature, which is determined from a glove model for the text label representation), the term Σ _k denotes an identity matrix that points to the common image text embedding space 402 is initialized, and N (·) denotes a distribution modeling function (for example, a standard Gaussian distribution, although other distributions may be used). In one or more implementations, the MIE module wins 114 the distributions for the common image-text embedding space 402 through a deep neural network. The MIE module 114 may represent a given image I in a set of training images through a Convolutional Neural Network (CNN) and may initialize an image embedding weight for the image corresponding to a loss function, such as a rank order loss. With regard to the term Σ _k , the MIE module wins 114 by minimizing a loss for each image I in the set of training images as follows:

Wie diese Gleichung deutlich macht, ist das MIE-Modul 114 dafür konfiguriert, die positiven Textetiketten t_i für ein gegebenes Bild I als N(μ_i, F_i) zu modellieren und die negativen Textetiketten t_n für das gegebene Bild als N(μ_n, Σ_n) zu modellieren. In den vorstehenden Gleichungen bezeichnet m einen Randterm.As this equation makes clear, the MIE module is 114 configured to model the positive text labels t _i for a given image I as N (μ _i , F _i ) and to model the negative text labels t _n for the given image as N (μ _n , Σ _n ). In the above equations, m denotes a boundary term.

Obwohl Implementierungen der Modellierung von semantischen Konzepten als Verteilungen in einem Einbettungsraum primär unter Bezugnahme auf Gauß'sche Verteilungen beschrieben worden sind, sollte einsichtig sein, dass das MIE-Modul 114 dafür konfiguriert ist, die durch die Textetiketten in einem Einbettungsraum beschriebenen semantischen Konzepte unter Verwendung einer Vielzahl von anderen Verteilungen zu modellieren, ohne vom Wesen oder Umfang der hier beschriebenen Techniken abzugehen. Bei einem Beispiel und nicht beschränkungshalber kann das MIE-Modul 114 die durch die Textetiketten in einem Einbettungsraum beschriebenen semantischen Konzepte auch als Gauß'sche Mischverteilungen (Gaussian mixtures), Log-Normalverteilungen, Pareto-Verteilungen und dergleichen mehr modellieren.Although implementations of modeling semantic concepts as distributions in an embedding space have been described primarily with reference to Gaussian distributions, it should be appreciated that the MIE module 114 is configured to model the semantic concepts described by the text labels in an embedding space using a variety of other distributions, without departing from the spirit or scope of the techniques described herein. By way of example and not by way of limitation, the MIE module 114 also model the semantic concepts described by the text labels in an embedding space as Gaussian mixtures, log normal distributions, Pareto distributions, and the like.

Durch Modellieren der durch die Textetiketten beschriebenen semantischen Konzepte als Verteilungen und nicht als einzelne Punkte ermöglichen die hier beschriebenen Techniken, dass die semantischen Konzepte überlappen. Dies führt zur Erzeugung eines Einbettungsraumes, der die Beziehungen zwischen semantischen Konzepten genauer darstellt, als dies bei Einbettungsräumen der Fall ist, die semantische Konzepte als einzelne Punkte modellieren, was beispielsweise daher rührt, dass viele semantische Konzepte überlappen. So überlappen beispielsweise die semantischen Konzepte einer Sonne und eines Sonnenuntergangs, was auch für die semantischen Konzepte einer Sonne und eines Sonnenaufgangs gilt. In jedem Fall ist das MIE-Modul 114 dafür konfiguriert, Einbettungsräume zu erzeugen, die die von den Textetiketten eines Textvokabulars beschriebenen semantischen Konzepte als Verteilungen modellieren.By modeling the semantic concepts described by the text labels as distributions rather than individual points, the techniques described herein allow the semantic concepts to overlap. This leads to the creation of an embedding space, which represents the relationships between semantic concepts in more detail than is the case with embedding spaces, which model semantic concepts as single points, for example because many of the semantic concepts overlap. For example, the semantic concepts of a sun and a sunset overlap, as do the semantic concepts of a sun and a sunrise. In any case, the MIE module 114 configured to create embedding spaces that model the semantic concepts described by the textual labels of a textual vocabulary as distributions.

Nachdem exemplarische Details der Techniken zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen beschrieben worden sind, werden nunmehr einige exemplarische Prozeduren zur Darstellung von zusätzlichen Aspekten der Techniken betrachtet.Having described exemplary details of the techniques for modeling semantic concepts in an embedding space as distributions, some exemplary procedures for illustrating additional aspects of the techniques will now be considered.

Exemplarische ProzedurenExemplary procedures

Der vorliegende Abschnitt beschreibt exemplarische Prozeduren zum Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen bei einer oder mehreren Implementierungen. Aspekte der Prozeduren können in Hardware, Firmware oder Software oder auch in einer Kombination hieraus implementiert sein. Die Prozeduren sind als Satz von Blöcken gezeigt, die Operationen spezifizieren, die von einer oder mehreren Vorrichtungen durchgeführt werden und die nicht notwendigerweise auf diejenigen Reihenfolgen, die zur Durchführung der Operationen durch die jeweiligen Blöcke gezeigt sind, beschränkt sind. Bei wenigstens einigen Implementierungen werden die Prozeduren von einer geeignet konfigurierten Vorrichtung durchgeführt, so beispielsweise von der exemplarischen Rechenvorrichtung 102 von 1, die sich des MIE-Moduls 114 bedient.This section describes exemplary procedures for modeling semantic concepts in an embedding space as distributions in one or more implementations. Aspects of the procedures may be implemented in hardware, firmware or software or even a combination thereof. The procedures are shown as a set of blocks that specify operations performed by one or more devices and not necessarily those Sequences that are shown to perform the operations by the respective blocks are limited. In at least some implementations, the procedures are performed by a suitably configured device, such as the example computing device 102 from 1 , which is the MIE module 114 served.

5 zeigt eine exemplarische Prozedur 500, bei der Bereiche eines mit mehreren Textetiketten verknüpften Trainingsbildes auf die entsprechenden Textetiketten in einem Einbettungsraum abgebildet werden, um den Einbettungsraum zu trainieren, und bei der Etikettausfindigmachungstechniken bei einem Abfragebild angewendet werden, um Textetiketten in dem Einbettungsraum ausfindig zu machen, die Bereichen des Abfragebildes entsprechen. Ein mit mehreren Textetiketten verknüpftes Trainingsbild wird verarbeitet, um einen Satz von Bildbereichen zu erzeugen, die den jeweiligen mehreren Textetiketten entsprechen (Block 502). 5 shows an exemplary procedure 500 in which areas of a training image associated with multiple text labels are mapped to the corresponding text labels in an embedding space to train the embedding space, and label exploitation techniques are applied to a query image to locate text labels in the embedding space that correspond to areas of the query image , A training image associated with multiple text labels is processed to produce a set of image areas corresponding to the respective plurality of text labels (Block 502 ).

Man nehme beispielsweise an, dass das Bild 202 einem Trainingsbild entspricht und bereits mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist. Bei diesem Szenario verarbeitet das MIE-Modul 114 das Bild 202, um die Bildbereiche 214, 216, 218, 220 entsprechend den Textetiketten derart zu erzeugen, dass der Bildbereich 214 entsprechend dem Textetikett 208 erzeugt wird, der Bildbereich 216 entsprechend dem Textetikett 206 erzeugt wird, der Bildbereich 218 entsprechend dem Textetikett 204 erzeugt wird, der Bildbereich 220 entsprechend dem Textetikett 210 erzeugt wird und der Bildbereich zur Darstellung des Bildes 202 als Ganzes entsprechend dem Textetikett 212 erzeugt wird. Wie vorstehend detailliert beschrieben worden ist, erzeugt das MIE-Modul 114 die Bildbereiche durch Anwenden einer Bereichsvorschlagstechnik und Durchführen von verarbeitungsnachgelagerten Techniken bei den vorgeschlagenen Kandidatenbereichen. Das MIE-Modul 114 erzeugt zudem die entsprechenden Bereiche durch Auswählen eines am besten passenden Bereiches für jedes der Textetiketten 204, 206, 208, 210, 212 beispielsweise auf Grundlage des Abstandes zwischen Positionen, an denen die Bereiche in dem Einbettungsraum eingebettet sind, und einer Position des Textetiketts in dem Einbettungsraum.For example, suppose that the picture 202 corresponds to a training image and already with the text labels 204 . 206 . 208 . 210 . 212 is linked. In this scenario, the MIE module processes 114 the picture 202 to the image areas 214 . 216 . 218 . 220 according to the text labels to produce such that the image area 214 according to the text label 208 is generated, the image area 216 according to the text label 206 is generated, the image area 218 according to the text label 204 is generated, the image area 220 according to the text label 210 is generated and the image area for displaying the image 202 as a whole according to the text label 212 is produced. As described in detail above, the MIE module generates 114 the image regions by applying a region proposal technique and performing post-processing techniques in the proposed candidate regions. The MIE module 114 also creates the corresponding areas by selecting a best fit area for each of the text labels 204 . 206 . 208 . 210 . 212 for example, based on the distance between positions where the areas are embedded in the embedding space and a position of the text label in the embedding space.

Der Satz von Bereichen wird innerhalb eines Einbettungsraumes eingebettet, der zum Einbetten sowohl von Textetiketten wie auch Bildbereichen, die auf die Textetiketten abgebildet sind, konfiguriert ist (Block 504). Des Weiteren wird der Satz von Bereichen wenigstens teilweise auf Grundlage von Positionen eingebettet, an denen die mehreren Textetiketten, die den Bildbereichen des Trainingsbildes entsprechen, in dem Einbettungsraum eingebettet sind. Bei einem Beispiel bettet das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, in dem gemeinsamen Bild-Text-Einbettungsraum 302 ein. Das MIE-Modul 114 führt dies wenigstens teilweise auf Grundlage von Positionen aus, an denen die Textetiketten 204, 206, 208, 210, 212 in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind.The set of areas is embedded within an embedding space configured to embed both text labels and image areas mapped to the text labels (Block 504 ). Furthermore, the set of areas is embedded at least partially based on positions at which the multiple text labels corresponding to the image areas of the training image are embedded in the embedding space. In one example, the MIE module embeds 114 the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, in the common image-text embedding space 302 one. The MIE module 114 This is at least partly based on positions where the text labels 204 . 206 . 208 . 210 . 212 in the common image-text embedding space 302 are embedded.

Wie vorstehend detailliert beschrieben worden ist, berechnet das MIE-Modul 114 Merkmalsvektoren für jeden der Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, um diese in dem gemeinsamen Bild-Text-Einbettungsraum 302 einzubetten, indem beispielsweise Bildmerkmale mit einem faltungstechnischen neuronalen Netzwerk (CNN), so beispielsweise mit einer RCNN-Technik (Fast Region-based CNN) extrahiert werden. Zusätzlich bildet, wenn das MIE-Modul 114 die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, in dem gemeinsamen Bild-Text-Einbettungsraum 302 einbettet, das MIE-Modul 114 die Bereiche auf die entsprechenden Textetiketten ab, um eine Einbettungsfunktion zu gewinnen, und zwar beispielsweise derart, dass Bilder und Bildbereiche ohne Textetiketten auf eine Position in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet werden können.As described in detail above, the MIE module calculates 114 Feature vectors for each of the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole corresponds to these in the common image text embedding space 302 for example, by extracting image features with a convolutional neural network (CNN), such as a Fast Region-based CNN (RCNN) technique. In addition, if the MIE module forms 114 the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, in the common image-text embedding space 302 embeds, the MIE module 114 For example, such that images and image areas without text labels are placed on a location in the common image text embedding space 302 can be displayed.

Sobald der Einbettungsraum trainiert ist, ist er dafür verwendbar, Textetiketten für Bilder ausfindig zu machen, beispielsweise zum Bildauszeichnen (image tagging), für eine mehrfach textbasierte Bildsuche (zum als Suchvorgängen entsprechend erfolgenden Identifizieren von Bildern), zum Bildbeschriften (image captioning) und dergleichen mehr. Es werden Etikettausfindigmachungstechniken bei einem Abfragebild angewendet, um Bildbereiche des Abfragebildes auf die in dem Einbettungsraum eingebetteten Textetiketten abzubilden, um Textetiketten ausfindig zu machen, die den Bildbereichen entsprechen (Block 506).Once trained, the embedding room is useful for finding text labels for images, such as image tagging, multi-text image search (for identifying images as searches), image captioning, and the like more. Label retrieval techniques are applied to a query image to map image areas of the query image to the text labels embedded in the embedding space to locate text labels corresponding to the image areas (Block 506 ).

Man gehe nunmehr davon aus, dass das Bild 202 dem Abfragebild entspricht und die Textetiketten 204, 206, 208, 210, 212 noch nicht mit dem Bild 202 verknüpft worden sind. Bei diesem Szenario kann wenigstens eine Etikettausfindigmachungstechnik bei dem Bild 202 angewendet werden, um die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes bezüglich der Textetiketten in dem gemeinsamen Bild-Text-Einbettungsraum 302 entspricht, abzubilden.Now assume that the picture 202 corresponds to the query image and the text labels 204 . 206 . 208 . 210 . 212 not yet with the picture 202 have been linked. In this scenario, at least one label locator technique may be present in the image 202 be applied to the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, regarding the text labels in the common image text embedding space 302 corresponds to depict.

Implizieren kann die angewendete Etikettausfindigmachungstechnik einen Vergleich der Bildbereiche 214, 216, 218, 220 und desjenigen Bildbereiches, der dem Bild 202 als Ganzes entspricht, mit den Bildbereichen, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind. Durchgeführt wird der Vergleich bei einer oder mehreren Implementierungen durch Vergleichen von Merkmalsvektoren, die für die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, extrahiert worden sind, mit Merkmalsvektoren der Bildbereiche, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, und zwar als Teil des Trainings. Auf Grundlage des Vergleiches bestimmt das MIE-Modul 114 die eingebetteten Bereiche, die zu den Bildbereichen 214, 216, 218, 220 ähnlich sind, und den Bildbereich, der dem Bild 202 als Ganzes entspricht. Das MIE-Modul 114 weist die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, den eingebetteten Textetiketten zu, auf die die ähnlichen eingebetteten Bildbereiche abgebildet sind. Auf diese Weise macht das MIE-Modul 114 die Textetiketten 204, 206, 208, 210, 212 in dem gemeinsamen Bild-Text Einbettungsraum 302 für die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, ausfindig.The applied label finding technique can implicate a comparison of the image areas 214 . 216 . 218 . 220 and the image area that corresponds to the image 202 as a whole corresponds with the Image areas residing in the common image text embedding space 302 are embedded. The comparison is performed in one or more implementations by comparing feature vectors that apply to the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, have been extracted with feature vectors of the image areas included in the common image text embedding space 302 embedded, as part of the training. Based on the comparison, the MIE module determines 114 the embedded areas leading to the image areas 214 . 216 . 218 . 220 are similar, and the image area of the image 202 as a whole corresponds. The MIE module 114 assigns the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, to the embedded text labels to which the similar embedded image areas are mapped. That's how the MIE module does it 114 the text labels 204 . 206 . 208 . 210 . 212 in the common image text embedding space 302 for the image areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, locate.

Das Abfragebild wird mit den ausfindig gemachten Textetiketten zur Beschreibung des Inhalts des Abfragebildes kommentiert (Block 508). Bei einem Beispiel kommentiert das MIE-Modul 114 das Bild 202 mit den Textetiketten 204, 206, 208, 210, 212 beispielsweise durch Einbeziehen derselben mit dem Bild 202 als Metadaten oder durch auf irgendeine andere Weise erfolgendes Verknüpfen derselben mit dem Bild 202.The query image is annotated with the text labels located to describe the content of the query image (block 508 ). For one example, the MIE module comments 114 the picture 202 with the text labels 204 . 206 . 208 . 210 . 212 for example, by incorporating the same with the image 202 as metadata or by otherwise linking it to the image 202 ,

Die Bereiche des Abfragebildes, die den Textetiketten entsprechen, werden präsentiert (Block 510). Bei einem Beispiel wird eine Nutzeranforderung dahingehend empfangen, die Bereiche des Bildes 202, die den Textetiketten entsprechen, mit denen das Bild 202 kommentiert ist, zu präsentieren. Das MIE-Modul 114 präsentiert Angaben (beispielsweise Begrenzungsrahmen (bouding boxes)) eines oder mehrerer der Bildbereiche 214, 216, 218, 220 und des Bildbereiches, der dem Bild 202 als Ganzes entspricht, beispielsweise über eine Anzeige des Bildes 202. Es sollte einsichtig sein, dass das MIE-Modul 114 Angaben zu den Bildbereichen auf eine Vielzahl von Arten präsentieren kann, ohne dass hierbei vom Wesen oder Umfang der hier beschriebenen Techniken abgewichen würde. Bei einem Beispiel und nicht beschränkungshalber können Angaben zu den Bildbereichen zusammen mit entsprechenden Textetiketten präsentiert werden, es kann ein Bereich visuell derart geändert werden, dass er im Vergleich zu anderen Abschnitten des Bildes anders aussieht (beispielsweise scharf, während andere Abschnitte des Bildes verschwommen sind) und dergleichen mehr.The areas of the query image corresponding to the text labels are presented (block 510 ). In one example, a user request is received to the areas of the image 202 that match the text labels that match the image 202 is commented on, present. The MIE module 114 presents indications (for example, bouling boxes) of one or more of the image areas 214 . 216 . 218 . 220 and the image area, the image 202 as a whole corresponds, for example via a display of the image 202 , It should be clear that the MIE module 114 Present information on image areas in a variety of ways without departing from the spirit or scope of the techniques described herein. By way of example and not by way of limitation, indications of the image areas may be presented along with corresponding text labels, one area may be visually altered to look different (eg, sharp, while other portions of the image are blurry) compared to other portions of the image. and more.

6 zeigt eine exemplarische Prozedur 600, bei der ein trainierter Einbettungsraum verwendet wird, um mehrere Textetiketten mit jeweiligen Bereichen eines zu kommentierenden Bildes zu verknüpfen. Es wird ein Einbettungsraum trainiert, in dem sowohl Bilder wie auch Text eingebettet sind (Block 602). Das Training impliziert ein semantisches Korrelieren von Textetiketten, die zum Beschreiben von semantischen Konzepten konfiguriert sind, die in dem Bildinhalt vorhanden sind, und ein Abbilden von repräsentativen Bildern, die einen Bildinhalt aufweisen, der die semantischen Konzepte exemplarisch darstellt, auf jeweilige Textetiketten. 6 shows an exemplary procedure 600 in which a trained embedding space is used to associate multiple text labels with respective areas of an image to be commented. An embedding room is trained in which both images and text are embedded (Block 602 ). Training involves semantically correlating text labels configured to describe semantic concepts that are present in the image content and mapping representative images that have image content that exemplifies the semantic concepts to respective text labels.

Bei einem Beispiel trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302. Zu diesem Zweck korreliert das MIE-Modul 114 die Textetiketten des Textvokabulars 306 semantisch beispielsweise unter Rückgriff auf Textdaten, die im Internet erhältlich sind, um skalierbare und lexikalisch verteilte Darstellungen von Worten zum Erfassen der semantischen Bedeutung unter den Textetiketten des Textvokabulars 306 zu gewinnen. Bei einer oder mehreren Implementierungen greift das MIE-Modul 114 zu diesem Zweck auf eine oder mehrere Textmodellierungsarchitekturtechniken zurück, so beispielsweise auf das word2vec-Modell, das Glove-Modell und dergleichen mehr. Wie weiterhin anhand dieses Beispiels gezeigt werden kann, trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 302 durch Abbilden der repräsentativen Bilder der Bilddatenbank 304 auf die jeweiligen Textetiketten des Textvokabulars 306 in dem gemeinsamen Bild-Text-Einbettungsraum 302. Das MIE-Modul 114 bildet in dem gemeinsamen Bild-Text-Einbettungsraum 302 die Bilder des Bildsatzes 314 auf das Textetikett 308 für „Baum” ab, bildet die Bilder des Bildsatzes 316 auf das Textetikett 310 für „Frau” ab und bildet die Bilder des Bildsatzes 318 auf das Textetikett 312 für „Gebäude” ab.In one example, the MIE module trains 114 the common image-text embedding space 302 , For this purpose, the MIE module correlates 114 the text labels of the text vocabulary 306 semantically using, for example, textual data available on the Internet, scalable and lexically distributed representations of words to capture the semantic meaning among the textual labels of the textual vocabulary 306 to win. In one or more implementations, the MIE module takes effect 114 to this end, rely on one or more text modeling architecture techniques, such as the word2vec model, the glove model, and the like. As can further be demonstrated by this example, the MIE module trains 114 the common image-text embedding space 302 by mapping the representative images of the image database 304 on the respective text labels of the text vocabulary 306 in the common image-text embedding space 302 , The MIE module 114 forms in the common image text embedding space 302 the pictures of the picture set 314 on the text label 308 for "tree", forms the images of the image set 316 on the text label 310 for "woman" and forms the images of the image set 318 on the text label 312 for "building".

Sobald der gemeinsame Bild-Text-Einbettungsraum 302 trainiert ist, kann er zum Kommentieren von Bildern verwendet werden. Es wird ein zu kommentierendes Bild bezogen (Block 604). Bei einem Beispiel wird das Bild 202 bezogen. Bei diesem Beispiel gehe man davon aus, dass das Bild 202 unkommentiert und noch nicht mit den Textetiketten 204, 206, 208, 210, 212 verknüpft ist.Once the common image text embedding room 302 trained, it can be used to comment on pictures. An image to be commented is related (Block 604 ). In one example, the picture becomes 202 based. In this example, assume that the image 202 uncommented and not yet with the text labels 204 . 206 . 208 . 210 . 212 is linked.

Es wird ein Satz von Bereichen des Bildes erzeugt (Block 606). Bei einer oder mehreren Implementierungen impliziert das Erzeugen die Verwendung einer Bereichsvorschlagstechnik, die Bereiche vorschlägt, die auf entsprechende Textetiketten in dem Einbettungsraum abgebildet werden können. Bei einem Beispiel erzeugt das MIE-Modul 114 einen Satz von Bereichen für das Bild 202, der die Bildbereiche 214, 216, 218, 220 und den Bildbereich, der dem Bild 202 als Ganzes entspricht, beinhaltet. Das MIE-Modul 114 erzeugt den Satz von Bereichen für das Bild 202 auf die vorstehend detailliert dargestellte Weise. Die erzeugten Bereiche sind semantisch aussagekräftig und können auf ein eingebettetes Textetikett in dem Einbettungsraum abgebildet werden.A set of areas of the image is created (Block 606 ). In one or more implementations, generating implies the use of a scoping technique that suggests areas that can be mapped to corresponding text labels in the embedding space. In one example, the MIE module generates 114 a set of areas for the image 202 that the picture areas 214 . 216 . 218 . 220 and the image area corresponding to the image 202 as a whole, includes. The MIE module 114 generates the set of areas for the image 202 in the manner detailed above. The generated areas are semantically meaningful and can be mapped to an embedded text label in the embedding room.

Wenigstens eine Etikettausfindigmachungstechnik wird bei dem Satz von Bereichen angewendet, um den Satz von Bereichen auf entsprechende Textetiketten in dem Einbettungsraum zur Beschreibung von semantischen Konzepten, die in dem Satz von Bereichen vorhanden sind, abzubilden (Block 608). Bei einem Beispiel wendet das MIE-Modul 114 eine Etikettausfindigmachungstechnik bei dem Satz von Bereichen an, der für das Bild 202 erzeugt worden ist, siehe Block 606. Insbesondere bildet das MIE-Modul 114 den Satz von Bereichen auf die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebetteten Textetiketten ab, die die semantischen Konzepte beschreiben, die in jedem der Bildbereiche 214, 216, 218, 220 und dem Bildbereich, der dem Bild 202 als Ganzes entspricht, vorhanden sind. Abgebildet durch das MIE-Modul 114 werden insbesondere der Bildbereich 214, der eine Frau zeigt, auf das Textetikett 208 für „Frau”, der Bildbereich 216, der den Eiffelturm zeigt, auf das Textetikett 206 für „Eiffelturm”, der Bildbereich 218, der Einkaufstaschen zeigt, auf das Textetikett 204 für „Tasche”, der Bildbereich 220, der Gebäude zeigt, auf das Textetikett 210 für „Gebäude” und der Bildbereich, der dem Bild 202 als Ganzes entspricht, auf das Textetikett 212 für „Stadtszene”.At least one label discovery technique is used in the set of areas to map the set of areas to corresponding text labels in the embedding space for describing semantic concepts existing in the set of areas (Block 608 ). In one example, the MIE module applies 114 a label locator technique at the set of areas that is responsible for the image 202 has been generated, see block 606 , In particular, the MIE module forms 114 the set of areas to those in the common image-text embedding space 302 embedded text labels that describe the semantic concepts that exist in each of the image areas 214 . 216 . 218 . 220 and the image area, the image 202 as a whole, are present. Shown by the MIE module 114 especially the image area 214 pointing a woman at the text label 208 for "woman", the image area 216 pointing the Eiffel Tower on the text label 206 for "Eiffel Tower", the image area 218 pointing shopping bags on the text label 204 for "bag", the image area 220 pointing building on the text label 210 for "building" and the picture area, the picture 202 as a whole, on the text label 212 for "city scene".

Das Bild wird mit wenigstens zweien der entsprechenden Textetiketten kommentiert (Block 610). Das MIE-Modul 114 kommentiert das Bild 202 beispielsweise mit den Textetiketten 204, 206, 208, 210, 212 auf Grundlage der Abbildung in Block 608. Wie vorstehend beschrieben worden ist, kann eine größere Anzahl von Bildbereichen als die in 2 gezeigte erzeugt und in dem gemeinsamen Bild-Text-Einbettungsraum 302 abgebildet werden. Im Ergebnis kann eine Liste von Textetiketten entsprechend dem Bild 202 erzeugt werden. Das Bild 202 kann jedoch mit einer ausgewählten Gruppe von Textetiketten aus der Liste kommentiert werden. Bei einem Beispiel und nicht beschränkungshalber kann die Liste von Textetiketten dem Rang nach geordnet sein, wie vorstehend bereits detailliert beschrieben worden ist, wobei das MIE-Modul 114 eine vorbestimmte Anzahl der am besten ranggeordneten Etiketten zur Kommentierung des Bildes 202 auswählt.The picture is commented on with at least two of the corresponding text labels (block 610 ). The MIE module 114 comments the picture 202 for example with the text labels 204 . 206 . 208 . 210 . 212 based on the figure in block 608 , As described above, a larger number of image areas than those in FIG 2 shown and created in the common image text embedding space 302 be imaged. As a result, a list of text labels corresponding to the image 202 be generated. The picture 202 however, can be commented on with a selected group of text labels from the list. By way of example and not by way of limitation, the list of text labels may be ranked, as previously described in detail, with the MIE module 114 a predetermined number of the best ranking labels for annotating the image 202 selects.

Zusätzlich zur Verwendung einer ranggeordneten Liste können die Etiketten, die zur Kommentierung eines Bildes ausgewählt werden, auch auf vielerlei andere Arten gewählt werden. Die Etiketten können beispielsweise auf Grundlage einer Schwellendifferenz des entsprechenden Bereiches zu repräsentativen Bildern, die in dem gemeinsamen Bild-Text-Einbettungsraum 302 eingebettet sind, gewählt werden. Zu diesem Zweck kann das MIE-Modul 114 einen Abstand (beispielsweise einen Euklidischen Abstand) zwischen jedem Bereich, der für ein Bild erzeugt ist, und eingebetteten repräsentativen Bildern in dem gemeinsamen Bild-Text-Einbettungsraum 302 auffinden, und zwar beispielsweise durch Extrahieren von Merkmalsvektoren der Bildbereiche und der eingebetteten repräsentativen Bilder und Vergleichen der Merkmalsvektoren. Das MIE-Modul 114 kann sodann Textetiketten auswählen, für die der Bildbereich eine Differenz, die kleiner als eine Schwellendifferenz ist, zu den eingebetteten repräsentativen Bildern aufweist. Das MIE-Modul 114 kann Textetiketten zum Kommentieren eines Bildes von den Textetiketten, die entsprechend den Bereichen des Bildes bestimmt werden, auch auf andere Arten auswählen, ohne dass vom Wesen oder Umfang der hier beschriebenen Techniken abgewichen würde.In addition to using a ranked list, the labels that are selected to annotate an image can also be selected in many other ways. For example, based on a threshold difference of the corresponding area, the labels may become representative images stored in the common image text embedding space 302 are embedded. For this purpose, the MIE module 114 a distance (e.g., a Euclidean distance) between each area generated for an image and embedded representative images in the common image text embedding space 302 for example, by extracting feature vectors of the image areas and the embedded representative images and comparing the feature vectors. The MIE module 114 may then select text labels for which the image area has a difference less than a threshold difference to the embedded representative images. The MIE module 114 Also, text labels may be selected in other ways to annotate an image from the text labels determined according to the areas of the image, without departing from the spirit or scope of the techniques described herein.

7 zeigt eine exemplarische Prozedur 700, bei der ein Einbettungsraum zur Darstellung von semantischen Konzepten in einem Einbettungsraum als Verteilungen erzeugt wird. Es wird ein Einbettungsraum, der sowohl Bilder wie auch Textetiketten eines Textvokabulars darstellt, erzeugt (Block 702). Als Teil des Erzeugens des Einbettungsraumes werden Verteilungen zur Darstellung von semantischen Konzepten berechnet. Die semantischen Konzepte, für die die Verteilungen erzeugt werden, werden durch jeweilige Textetiketten eines Textvokabulars beschrieben und können in einem Bildinhalt dargestellt sein. Zudem werden repräsentative Bilder auf die Verteilungen des Einbettungsraumes als Teil des Erzeugens abgebildet. Die jeweiligen Bilder, die als Teil des Erzeugens abgebildet werden, zeigen Bildinhalt, der die entsprechenden semantischen Konzepte der Verteilungen exemplarisch darstellt. 7 shows an exemplary procedure 700 in which an embedding space for representing semantic concepts in an embedding space is generated as distributions. An embedding space is created that represents both images and text labels of a text vocabulary (block 702 ). As part of creating the embedding space, distributions are computed to represent semantic concepts. The semantic concepts for which the distributions are generated are described by respective textual labels of a textual vocabulary and can be represented in an image content. In addition, representative images are mapped to the distributions of the embedding space as part of the creation. The respective images, which are mapped as part of the rendering, show image content that exemplifies the corresponding semantic concepts of the distributions.

Bei einem Beispiel erzeugt dass MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 durch Berechnen von Verteilungen (beispielsweise Gauß'sche Verteilungen, Gauß'sche Mischverteilungen und dergleichen) zur Darstellung von semantischen Konzepten, die durch Textetiketten aus einem Textvokabular beschrieben werden. Das MIE-Modul 114 erzeugt den gemeinsamen Bild-Text-Einbettungsraum 402, um ein Bild- und Textetiketteinbetten relativ zu den Verteilungen, die die semantischen Konzepte darstellen, zu ermöglichen. Des Weiteren trainiert das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 durch Einbetten von repräsentativen Bildbereichen, die einen Bildinhalt aufweisen, der die semantischen Konzepte exemplarisch darstellt, mit für die semantischen Konzepte gebildeten jeweiligen Verteilungen.In one example, that generates MIE module 114 the common image-text embedding space 402 by calculating distributions (e.g., Gaussian distributions, Gaussian mixed distributions, and the like) to represent semantic concepts described by textual labels from a textual vocabulary. The MIE module 114 creates the common image-text embedding space 402 to allow image and text label embedding relative to the distributions representing the semantic concepts. Furthermore, the MIE module trains 114 the common image-text embedding space 402 by embedding representative image areas having image content exemplifying the semantic concepts with respective distributions formed for the semantic concepts.

Der Einbettungsraum, der die semantischen Konzepte als Verteilungen darstellt, wird zum Kommentieren eines Bildes verwendet (Block 704). Bei einem Beispiel verwendet das MIE-Modul 114 den gemeinsamen Bild-Text-Einbettungsraum 402 zum Kommentieren des Bildes 202 mit Textetiketten, die den Inhalt des Bildes 202 beschreiben. Das MIE-Modul 114 verwendet den gemeinsamen Bild-Text-Einbettungsraum 402 beispielsweise zum Ausfindigmachen der Textetiketten 204, 206, 208, 210, 212 und zum sodann erfolgenden Kommentieren des Bildes 202 mit den ausfindig gemachten Etiketten. The embedding space, which represents the semantic concepts as distributions, is used to annotate an image (Block 704 ). In one example, the MIE module uses 114 the common image-text embedding space 402 to comment the picture 202 with text labels representing the content of the image 202 describe. The MIE module 114 uses the common image text embedding space 402 for example, to locate the text labels 204 . 206 . 208 . 210 . 212 and then annotating the image 202 with the labels found.

Nach erfolgter Beschreibung von exemplarischen Prozeduren entsprechend einer oder mehreren Implementierungen werden nunmehr ein exemplarisches System und eine exemplarische Vorrichtung betrachtet, die zum Implementieren der verschiedenen hier beschriebenen Techniken eingesetzt werden können.Having described exemplary procedures in accordance with one or more implementations, an exemplary system and apparatus will now be considered that may be used to implement the various techniques described herein.

Exemplarisches System und exemplarische VorrichtungExemplary system and exemplary device

8 zeigt allgemein bei 800 ein exemplarisches System, das eine exemplarische Rechenvorrichtung 802 beinhaltet, die ein oder mehrere Rechensysteme und/oder eine oder mehrere Vorrichtungen, die verschiedene der hier beschriebenen Techniken implementieren, darstellt. Dies ist durch Einbeziehung des MIE-Moduls 114, das gemäß vorstehender Beschreibung arbeitet, dargestellt. Die Rechenvorrichtung 802 kann beispielsweise ein Server eines Service-Providers, eine Vorrichtung, die mit einem Client verknüpft ist (beispielsweise eine Client-Vorrichtung), ein chipinternes System (on-chip system) und/oder eine beliebige andere geeignete Rechenvorrichtung oder ein solches Rechensystem sein. 8th generally indicates 800 an exemplary system that includes an exemplary computing device 802 which represents one or more computing systems and / or one or more devices implementing various of the techniques described herein. This is by including the MIE module 114 , which works according to the above description. The computing device 802 For example, a server of a service provider, a device associated with a client (eg, a client device), an on-chip system, and / or any other suitable computing device or system may be included.

Die exemplarische Rechenvorrichtung 802 beinhaltet ein Verarbeitungssystem 804, ein oder mehrere computerlesbare Medien 806 und ein oder mehrere I/O-Schnittstellen 808, die kommunikativ miteinander gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 802 des Weiteren einen Systembus oder ein anderes Daten- und Befehlsübertragungssystem beinhalten, das die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige Busstruktur oder eine Kombination von verschiedenen Busstrukturen beinhalten, so beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen universellen seriellen Bus und/oder einen Prozessor oder lokalen Bus, der eine beliebige aus einer Vielzahl von Busarchitekturen einsetzt. Eine Vielzahl von weiteren Beispielen ist einbezogen, so beispielsweise Steuer- bzw. Regel- und Datenleitungen.The exemplary computing device 802 includes a processing system 804 , one or more computer-readable media 806 and one or more I / O interfaces 808 that are communicatively coupled with each other. Although not shown, the computing device may 802 further include a system bus or other data and command transfer system that couples the various components together. A system bus may include any bus structure or combination of different bus structures, such as a memory bus or memory controller, a peripheral bus, a universal serial bus, and / or a processor or local bus employing any of a variety of bus architectures. A variety of other examples are included, such as control and data lines.

Das Verarbeitungssystem 804 stellt eine Funktionalität zur Durchführung einer oder mehrerer Operationen unter Verwendung von Hardware bereit. Entsprechend ist das Verarbeitungssystem 804 derart dargestellt, dass es Hardwareelemente 810 beinhaltet, die als Prozessoren, funktionelle Blöcke und dergleichen mehr konfiguriert sein können. Dies beinhaltet eine Implementierung in Hardware als anwendungsspezifische integrierte Schaltung oder eine andere logische Vorrichtung, die unter Verwendung eines oder mehrerer Halbleiter gebildet ist. Die Hardwareelemente 810 sind nicht durch die Materialien, aus denen sie gebildet sind, oder die hierbei eingesetzten Verarbeitungsmechanismen beschränkt. So können die Prozessoren beispielsweise aus einem Halbleiter/Halbleitern und/oder Transistoren (beispielsweise elektronische integrierte Schaltungen (ICs)) gebildet sein. In diesem Zusammenhang können prozessorausführbare Anweisungen auch elektronisch ausführbare Anweisungen sein.The processing system 804 provides functionality to perform one or more operations using hardware. Accordingly, the processing system 804 such that it is hardware elements 810 which may be more configured as processors, functional blocks, and the like. This includes an implementation in hardware as an application specific integrated circuit or other logic device formed using one or more semiconductors. The hardware elements 810 are not limited by the materials of which they are formed or the processing mechanisms employed therein. For example, the processors may be formed of a semiconductor / semiconductors and / or transistors (eg, electronic integrated circuits (ICs)). In this context, processor executable instructions may also be electronically executable instructions.

Das computerlesbare Speichermedium 806 ist derart dargestellt, dass es einen Speicher/eine Ablage 812 aufweist. Der Speicher/die Ablage 812 bietet eine Speicher-/Ablagekapazität, die mit einem oder mehreren computerlesbaren Medien verknüpft ist. Beinhalten kann die Speicher-/Ablage-Komponente 812 flüchtige Medien (so beispielsweise einen Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtflüchtige Medien (so beispielsweise einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, optische Platten, magnetische Platten und dergleichen mehr). Beinhalten kann die Speicher-/Ablagekomponente 812 feste Medien (beispielsweise RAM, ROM, ein fixes Festplattenlaufwerk und dergleichen mehr) wie auch entfernbare Medien (beispielsweise einen Flash-Speicher, ein entfernbares Festplattenlaufwerk, eine optische Platte und dergleichen mehr). Die computerlesbaren Medien 806 können auf eine Vielzahl von anderen Arten, wie nachstehend noch beschrieben wird, konfiguriert sein.The computer-readable storage medium 806 is shown as having a memory / shelf 812 having. The storage / storage 812 provides storage / storage capacity associated with one or more computer-readable media. The storage / storage component can be included 812 volatile media (such as a random access memory (RAM)) and / or nonvolatile media (such as a read only memory (ROM), a flash memory, optical disks, magnetic disks, and the like). This may include the storage / storage component 812 fixed media (e.g., RAM, ROM, a fixed hard disk drive, and the like) as well as removable media (eg, a flash memory, a removable hard disk drive, an optical disk, and the like). The computer-readable media 806 can be configured in a variety of other ways as described below.

Die Eingabe-/Ausgabe-Schnittstelle 808 bietet/die Eingabe-/Ausgabe-Schnittstellen 808 bieten eine Funktionalität, die einem Nutzer ermöglicht, Befehle und Information in die Rechenvorrichtung 802 einzugeben, und die zudem ermöglicht, dass Information dem Nutzer und/oder anderen Komponenten oder Vorrichtungen unter Verwendung von Eingabe-/Ausgabevorrichtungen präsentiert wird. Beispiele für Eingabevorrichtungen beinhalten eine Tastatur, eine Cursorsteuer- bzw. Regelvorrichtung (beispielsweise eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (beispielsweise kapazitiv oder mit anderen Sensoren, die zum Detektieren einer physischen Berührung konfiguriert sind), eine Kamera (beispielsweise eine solche, die sichtbare oder unsichtbare Wellenlängen, so beispielsweise Infrarotfrequenzen, einsetzt, um Bewegungen als Gesten, die keine Berührung implizieren, zu erkennen) und dergleichen mehr. Beispiel für Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (beispielsweise einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, eine Taktilreaktionsvorrichtung und dergleichen mehr. Die Rechenvorrichtung 802 kann auf eine Vielzahl von Arten, wie nachstehend noch beschrieben wird, konfiguriert sein, um eine Nutzerinteraktion zu unterstützen.The input / output interface 808 provides / the input / output interfaces 808 provide functionality that allows a user to send commands and information to the computing device 802 and that also allows information to be presented to the user and / or other components or devices using input / output devices. Examples of input devices include a keyboard, a cursor control device (eg, a mouse), a microphone, a scanner, a touch functionality (eg, capacitive or with other sensors configured to detect a physical touch), a camera (e.g. such, which use visible or invisible wavelengths, such as infrared frequencies, to detect movements as gestures that do not imply touch) and the like. Examples of output devices include a display device (eg, a monitor or projector), speakers, a printer, a network card, a tactile response device, and the like. The computing device 802 may be configured in a variety of ways, as described below, to assist user interaction.

Verschiedene Techniken sind hier im allgemeinen Kontext von Software- und Hardwareelementen oder Programmmodulen beschrieben worden. Im Allgemeinen beinhalten derartige Module Routinen, Programme, Objekte, Elemente, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe „Modul”, „Funktionalität” und „Komponente” bezeichnen im Sinne des Vorliegenden allgemein Software, Firmware, Hardware oder eine Kombination hieraus. Die Merkmale der hier beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielzahl von handelsüblichen Rechenplattformen, die eine Vielzahl von Prozessoren aufweisen, implementiert sein können.Various techniques have been described herein in the general context of software and hardware elements or program modules. In general, such modules include routines, programs, objects, elements, components, data structures, and the like that perform particular tasks or implement particular abstract data types. The terms "module," "functionality," and "component" generally refer to software, firmware, hardware, or a combination thereof as used herein. The features of the techniques described herein are platform independent, meaning that the techniques may be implemented on a variety of off-the-shelf computing platforms having a plurality of processors.

Eine Ausführungsform der beschriebenen Module und Techniken kann auf einer beliebigen Form von computerlesbarem Medium gespeichert oder durch dieses übertragen werden. Das computerlesbare Medium kann eine Vielzahl von Medien beinhalten, auf die durch die Rechenvorrichtung 802 zugegriffen werden kann. Bei einem Beispiel und nicht beschränkungshalber beinhalten die computerlesbaren Medien „computerlesbare Speichermedien” und „computerlesbare Signalmedien”.An embodiment of the described modules and techniques may be stored on or transmitted through any form of computer-readable medium. The computer-readable medium may include a variety of media that may be accessed by the computing device 802 can be accessed. By way of example and not by way of limitation, the computer-readable media includes "computer-readable storage media" and "computer-readable signal media."

„Computerlesbare Speichermedien” bezeichnen Medien und/oder Vorrichtungen, die eine dauerhafte und/oder nichttemporäre Speicherung von Information ermöglichen, im Gegensatz zur bloßen Signalübertragung, zu Trägerwellen oder Signalen als solche. Daher beinhalten computerlesbare Speichermedien keine Signale oder signaltragenden Medien als solche. Die computerlesbaren Speichermedien beinhalten Hardware, so beispielsweise flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien, und/oder Speichervorrichtungen zur Implementierung bei einem Verfahren oder einer Technologie, die zur Speicherung von Information geeignet ist, so beispielsweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule, logische Elemente/Schaltungen oder andere Daten. Beispiele für computerlesbare Speichermedien beinhalten unter anderem RAM, ROM, EEPROM, einen Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Speicher, Festplatten, magnetische Kassetten, Magnetbänder, magnetische Plattenspeicher oder andere magnetische Speichervorrichtungen, oder eine andere Speichervorrichtung, physische Medien oder ein Herstellungserzeugnis, das dafür geeignet ist, die gewünschte Information so zu speichern, dass ein Computer darauf zugreifen kann."Computer-readable storage media" refers to media and / or devices that enable permanent and / or non-temporary storage of information, as opposed to mere signal transmission, to carrier waves or signals as such. Therefore, computer readable storage media does not include signals or signal carrying media as such. The computer readable storage media include hardware, such as volatile and nonvolatile, removable and non-removable media, and / or storage devices for implementation in a method or technology suitable for storage of information, such as computer readable instructions, data structures, program modules, logical elements. Circuits or other data. Examples of computer-readable storage media include, but are not limited to, RAM, ROM, EEPROM, flash memory or other storage technology, CD-ROM, DVD or other optical storage, hard drives, magnetic cassettes, magnetic tapes, magnetic disk storage or other magnetic storage devices, or others A storage device, physical media or an article of manufacture adapted to store the desired information so that a computer can access it.

„Computerlesbare Signalmedien” bezeichnen ein signaltragendes Medium, das dafür konfiguriert ist, Anweisungen an die Hardware der Rechenvorrichtung 802 beispielsweise über ein Netzwerk zu übertragen. Signalmedien verkörpern typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, so beispielsweise Trägerwellen, Datensignale oder einen anderen Transportmechanismus. Signalmedien beinhalten zudem eine beliebige Art von Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal” bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigenschaften derart verändert sind, dass Information in dem Signal codiert ist. Bei einem Beispiel und nicht beschränkungshalber beinhalten Kommunikationsmedien verdrahtete Medien, so beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, wie auch drahtlose Medien, so beispielsweise akustische, hochfrequenzbasierte, infrarote und andere Drahtlosmedien."Computer readable signal media" refers to a signal bearing medium configured to provide instructions to the computing device hardware 802 for example, to transmit over a network. Signal media typically embodies computer readable instructions, data structures, program modules, or other data in a modulated data signal, such as carrier waves, data signals, or other transport mechanism. Signal media also includes any type of information distribution media. The term "modulated data signal" refers to a signal in which one or more of its characteristics are altered to encode information in the signal. By way of example, and not limitation, communication media includes wired media, such as a wired network or a direct-wired connection, as well as wireless media, such as acoustic, radio frequency-based, infrared, and other wireless media.

Wie vorstehend beschrieben worden ist, bezeichnen Hardwareelemente 810 und computerlesbare Medien 806 Module, eine programmierbare Vorrichtungslogik und/oder eine feste Vorrichtungslogik, die in Form von Hardware implementiert sind, die bei einigen Implementierungen dafür eingesetzt wird, wenigstens einige Aspekte der hier beschriebenen Techniken zu implementieren, so beispielsweise beim Ausführen einer oder mehrerer Anweisungen. Beinhalten kann die Hardware Komponenten einer integrierten Schaltung oder eines chipinternen Systems, einer anwendungsspezifischen integrierten Schaltung (ASIC), eines feldprogrammierbaren Gate-Arrays (FPGA), einer komplexen programmierbaren logischen Vorrichtung (CPLD) und anderer Implementierungen in Silizium oder anderer Hardware. In diesem Zusammenhang wirkt Hardware als Verarbeitungsvorrichtung, die Programmaufgaben ausführt, die durch Anweisungen und/oder eine Logik definiert sind, die durch die Hardware verkörpert ist, wie auch Hardware, die zum Speichern von Anweisungen zur Ausführung verwendet wird, so beispielsweise die vorstehend beschriebenen computerlesbaren Speichermedien.As described above, hardware elements 810 and computer-readable media 806 Modules, programmable device logic, and / or fixed device logic implemented in the form of hardware that is employed in some implementations to implement at least some aspects of the techniques described herein, such as when executing one or more instructions. The hardware may include components of an integrated circuit or on-chip system, an application specific integrated circuit (ASIC), field programmable gate array (FPGA), complex programmable logic device (CPLD) and other implementations in silicon or other hardware. In this context, hardware acts as a processing device executing program tasks defined by instructions and / or logic embodied by the hardware, as well as hardware used to store instructions for execution, such as the computer-readable ones described above storage media.

Es können auch Kombinationen aus dem Vorstehenden zur Implementierung von verschiedenen der hier beschriebenen Techniken eingesetzt werden. Entsprechend werden Software, Hardware oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert, die in irgendeiner Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardwareelemente 810 verkörpert sind. Die Rechenvorrichtung 802 kann dafür konfiguriert sein, bestimmte Anweisungen und/oder Funktionen entsprechend den Software- und/oder Hardwaremodulen zu implementieren. Entsprechend ist die als Software erfolgende Implementierung eines Moduls, das von der Rechenvorrichtung 802 ausführbar ist, auch wenigstens teilweise durch Hardware zu verwirklichen, und zwar beispielsweise unter Verwendung eines computerlesbaren Speichermediums und/oder von Hardware-Elementen 810 des Verarbeitungssystems 804. Die Anweisungen und/oder Funktionen sind durch einen oder mehrere Herstellungserzeugnisse (beispielsweise eine oder mehrere Rechenvorrichtungen 802 und/oder Verarbeitungssysteme 804) ausführbar/betreibbar, um hier beschriebene Techniken, Module und Beispiele auszuführen.Combinations of the foregoing may also be used to implement various of the techniques described herein. Accordingly, software, hardware or executable modules are implemented as one or more instructions and / or logic that may be in any form of computer-readable storage media and / or by one or more hardware elements 810 are embodied. The computing device 802 may be configured to implement certain instructions and / or functions corresponding to the software and / or hardware modules. Accordingly, the software implementation of a module is that of the computing device 802 is executable to realize at least partially by hardware, for example, using a computer-readable storage medium and / or hardware elements 810 of the processing system 804 , The instructions and / or functions are by one or more manufactured products (for example, one or more computing devices 802 and / or processing systems 804 ) executable / operable to perform techniques, modules, and examples described herein.

Die hier beschriebenen Techniken werden durch verschiedene Konfigurationen der Rechenvorrichtung 802 unterstützt und sollen die spezifischen Beispiele der hier beschriebenen Techniken nicht beschränken. Diese Funktionalität kann auch gänzlich oder teilweise unter Verwendung eines verteilten Systems implementiert sein, so beispielsweise mittels einer „Cloud” 814 über eine Plattform 816, wie nachstehend beschrieben wird.The techniques described herein are provided by various configurations of the computing device 802 support and should not limit the specific examples of the techniques described here. This functionality can also be implemented in whole or in part using a distributed system, for example by means of a "cloud". 814 over a platform 816 as described below.

Die Cloud 814 beinhaltet eine Plattform 816 für Ressourcen 818 und/oder stellt eine solche dar. Die Plattform 816 abstrahiert eine darunter liegende Hardwarefunktionalität (beispielsweise Server) und Softwareressourcen der Cloud 814. Die Ressourcen 818 können Anwendungen bzw. Apps und/oder Daten beinhalten, die verwendet werden können, während die Computerverarbeitung auf Servern ausgeführt wird, die von der Rechenvorrichtung 802 entfernt sind. Die Ressourcen 818 können zudem Dienste beinhalten, die über das Internet und/oder durch ein Teilnehmernetzwerk bereitgestellt werden, so beispielsweise ein zellbasiertes oder Wi-Fi-Netzwerk.The cloud 814 includes a platform 816 for resources 818 and / or represents such. The platform 816 abstracts an underlying hardware functionality (such as servers) and software resources of the cloud 814 , The resources 818 may include applications and / or data that may be used while computer processing is performed on servers that are hosted by the computing device 802 are removed. The resources 818 may also include services provided over the Internet and / or through a subscriber network, such as a cell-based or Wi-Fi network.

Die Plattform 816 abstrahiert Ressourcen und Funktionen zum Verbinden der Rechenvorrichtung 802 mit anderen Rechenvorrichtungen. Die Plattform 816 dient zudem einer abstrakten Skalierung von Ressourcen zur Bereitstellung eines entsprechenden Skalierungsniveaus für bestehenden Bedarf an den Ressourcen 818, die über die Plattform 816 implementiert sind. Entsprechend ist bei einer Ausführungsform mit wechselseitig verbundenen Vorrichtungen die Implementierung einer hier beschriebenen Funktionalität insbesondere in dem System 800 verteilt. Die Funktionalität ist beispielsweise teilweise auf der Rechenvorrichtung 802 wie auch über die Plattform 816, die die Funktionalität der Cloud 814 abstrahiert, implementiert.The platform 816 abstracts resources and functions for connecting the computing device 802 with other computing devices. The platform 816 It also provides abstract scaling of resources to provide an appropriate scale level for existing resource demands 818 that over the platform 816 are implemented. Accordingly, in one embodiment with inter-connected devices, the implementation of a functionality described herein is particularly in the system 800 distributed. The functionality is partly on the computing device, for example 802 as well as the platform 816 that the functionality of the cloud 814 abstracted, implemented.

Schlussbemerkungconcluding remark

Obwohl die Erfindung in einer Sprache beschrieben worden ist, die für Strukturmerkmale und/oder methodische Vorgänge spezifisch ist, sollte einsichtig sein, dass die in den beigefügten Ansprüchen definierte Erfindung nicht notwendigerweise auf die beschriebenen bestimmten Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die spezifischen Merkmale und Vorgänge als exemplarische Formen der Implementierung der beanspruchten Erfindung offenbart.While the invention has been described in language specific to structural features and / or methodological acts, it is to be understood that the invention as defined in the appended claims is not necessarily limited to the particular features or acts described. Rather, the specific features and acts are disclosed as exemplary forms of implementation of the claimed invention.

Claims

By a computing device ( 102 ; 802 ) implemented method for annotating images ( 202 ; 314 ) with certain text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) to describe the content of the images ( 202 ; 314 ), the method comprising: creating an embedding space ( 302 ; 402 ), both images ( 202 ; 314 ) as well as text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of a text vocabulary, wherein the generating includes: calculating distributions to represent semantic concepts in the embedding space ( 302 ; 402 ), whereby the semantic concepts for which the distributions are calculated are indicated by respective text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of the text vocabulary and can be shown in an image content, and imaging of representative images ( 202 ; 314 ) on the distributions of the embedding space ( 302 ; 402 ), the image represented by the representative images ( 202 ; 314 ) shows corresponding semantic concepts of the distributions exemplarily, using the embedding space ( 302 ; 402 ) determining at least one of the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) for describing at least one semantic concept shown in the image content of an input image ( 202 ; 314 ); and Comment the input image ( 202 ; 314 ) by linking the specific text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) with the input image ( 202 ; 314 ).

The method of claim 1, wherein the distributions are calculated as Gaussian distributions to represent the semantic concepts.

The method of claim 1, wherein the distributions are calculated as Gaussian mixed distributions to represent the semantic concepts.

The method of claim 1, wherein generating the embedding space ( 302 ; 402 ) further includes: determining semantic relationships between the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of the text vocabulary; Position the distributions in the embedding space ( 302 ; 402 ) on the basis of the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) certain semantic relationships; Processing a plurality of training images ( 202 ; 314 ), each training image ( 202 ; 314 ) several text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ), wherein the processing comprises generating sets of image areas ( 214 . 216 . 218 . 220 ), which correspond to the respective several text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ), includes; and selecting the sets of image areas ( 214 . 216 . 218 . 220 ) as representative pictures ( 202 ; 314 ) for mapping to the distributions of the embedding space ( 302 ; 402 ).

The method of claim 4, wherein processing the plurality of training images ( 202 ; 314 ) for each training image ( 202 ; 314 ) includes: determining candidate image areas ( 214 . 216 . 218 . 220 ) for a respective set of image areas ( 214 . 216 . 218 . 220 ) of the training image ( 202 ; 314 ); and reducing a number of the determined candidate image areas ( 214 . 216 . 218 . 220 ) using at least one post-processing technique.

Method according to claim 5, wherein the candidate image areas ( 214 . 216 . 218 . 220 ) using a geodetic object proposal.

The method of claim 5, wherein the at least one post-processing technique comprises enforcing a size criterion by discarding candidate image areas ( 214 . 216 . 218 . 220 ) is implied with less than a threshold size.

The method of claim 5, wherein the at least one post-processing technique comprises enforcing an aspect ratio by discarding candidate image areas ( 214 . 216 . 218 . 220 ) with aspect ratios outside predefined allowable aspect ratios.

The method of claim 5, wherein the at least one post-processing technique assigns a single candidate image area to each of the respective plurality of text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of the training image ( 202 ; 314 ) based on a single label embedding model.

The method of claim 1, wherein determining the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) for describing the at least one semantic concept shown in the image content of the input image ( 202 ; 314 ) includes: determining a set of semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ); Discarding at least one of the semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ) using a post-processing technique; and mapping remaining semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ) on the distributions of the embedding space ( 302 ; 402 ) for determining the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ).

The method of claim 1, wherein determining the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) calculating distances in the embedding space ( 302 ; 402 ) between embedding of semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ) and the distributions.

The method of claim 11, wherein the distances are calculated using vectors representing respective semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ), wherein the vectors from the semantically meaningful image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ) with a convolutional neural network (CNN).

The method of claim 11, further comprising selecting the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) for linking to the input image ( 202 ; 314 ) based on the distances.

The method of claim 1, further comprising presenting information about image areas ( 214 . 216 . 218 . 220 ) of the input image ( 202 ; 314 ) containing at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) correspond.

System for commenting images ( 202 ; 314 ) with certain text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) to describe the content of the images ( 202 ; 314 ), the system comprising: one or more processors; and computer readable storage media having stored thereon instructions executable by the one or more processors to perform operations comprising: processing a training image ( 202 ; 314 ) with several text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ), wherein the processing comprises generating a set of image areas ( 214 . 216 . 218 . 220 ), which correspond to the respective several text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ), includes; Embedding the set of image areas ( 214 . 216 . 218 . 220 ) within an embedding room ( 302 ; 402 ), which presents semantic concepts as distributions, where the presented semantic concepts are represented by text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of a text vocabulary and can be shown in the image content, the set of image regions ( 214 . 216 . 218 . 220 ) with the distributions corresponding to those in the image content of the set of image areas ( 214 . 216 . 218 . 220 ), is embedded; Determining the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ), the semantic concepts of a query image ( 202 ; 314 ) by mapping image areas ( 214 . 216 . 218 . 220 ) of the query image ( 202 ; 314 ) on the distributions of the embedding space ( 302 ; 402 ); and commenting on the query image ( 202 ; 314 ) with at least two of the specific text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ).

The system of claim 15, further comprising semantically correlating the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of the text vocabulary before embedding the image areas ( 214 . 216 . 218 . 220 ) a plurality of training images ( 202 ; 314 ) in the embedding room ( 302 ; 402 ).

The system of claim 16, wherein the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of the text vocabulary are semantically correlated based on the glove model.

One or more computer-readable storage media comprising instructions stored thereon responsive to execution by the computing device (10). 102 ; 802 ) Perform operations that include: preserving an image ( 202 ; 314 ) with at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) for describing at least one respective semantic concept that is present in the image content of the image ( 202 ; 314 ) is commented on, the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) for the picture ( 202 ; 314 ) using an embedding room ( 302 ; 402 ), which presents semantic concepts as distributions, rather than representing the semantic concepts as individual points, with the semantic concepts represented by the text labels ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) of a text vocabulary and can be present in the image content.

One or more computer-readable storage media according to claim 18, wherein said image ( 202 ; 314 ) with the at least one text label ( 110 ; 204 . 206 . 208 . 210 . 212 ; 308 . 310 . 312 ) as part of the indexing of the image ( 202 ; 314 ) is commented on for a search.

One or more computer-readable storage media according to claim 18, wherein the distributions representing the semantic concepts are at least one of Gaussian distributions and Gaussian mixed distributions.