DE102016010909A1 - Structured modeling, extraction and localization of knowledge from images - Google Patents
Structured modeling, extraction and localization of knowledge from images Download PDFInfo
- Publication number
- DE102016010909A1 DE102016010909A1 DE102016010909.2A DE102016010909A DE102016010909A1 DE 102016010909 A1 DE102016010909 A1 DE 102016010909A1 DE 102016010909 A DE102016010909 A DE 102016010909A DE 102016010909 A1 DE102016010909 A1 DE 102016010909A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- structured
- text
- model
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 43
- 230000004807 localization Effects 0.000 title description 16
- 238000000034 method Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000010801 machine learning Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 44
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 238000003058 natural language processing Methods 0.000 claims description 14
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 10
- 230000000007 visual effect Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 239000003607 modifier Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 244000025254 Cannabis sativa Species 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000015243 ice cream Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010418 babysitting Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/424—Syntactic representation, e.g. by using alphabets or grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Es werden Techniken und Systeme zum Modellieren und Extrahieren von Wissen aus Bildern beschrieben. Eine digitale Medienumgebung ist konfiguriert, ein Modell zu lernen und zu verwenden, um eine beschreibende Zusammenfassung eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Es werden Trainingsdaten erhalten, um ein Modell unter Verwendung von maschinellem Lernen zu lernen, um eine strukturierte Bildrepräsentation zu erzeugen, die als die beschreibende Zusammenfassung eines eingegebenen Bildes dient. Die Bilder und der assoziierte Text werden verarbeitet, um strukturiertes semantisches Wissen aus dem Text zu extrahieren, welches dann mit den Bildern assoziiert wird. Das strukturierte semantische Wissen wird zusammen mit entsprechenden Bildern verarbeitet, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, so dass das Modell eine Beziehung zwischen Textmerkmalen in dem strukturierten semantischen Wissen beschreibt. Nachdem das Modell gelernt wurde, kann das Modell verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen.Techniques and systems for modeling and extracting knowledge from images are described. A digital media environment is configured to learn and use a model to compute a descriptive summary of an input image automatically and without user intervention. Training data is obtained to learn a model using machine learning to create a structured image representation that serves as the descriptive summary of an input image. The images and associated text are processed to extract structured semantic knowledge from the text, which is then associated with the images. The structured semantic knowledge is processed along with corresponding images to train a model using machine learning so that the model describes a relationship between textual features in the structured semantic knowledge. After the model has been learned, the model can be used to process input images to produce a structured image representation of the image.
Description
Verwandte AnmeldungenRelated applications
Diese Anmeldung beansprucht die Priorität der provisionellen US Anmeldung Nr. 62/254,147, eingereicht am 11. November 2015, mit dem Titel „Structured Knowledge Modeling, Extraction and Localization from Images”, deren Offenbarung in Gänze hiermit durch Bezugnahme aufgenommen ist.This application claims the benefit of US Provisional Application No. 62 / 254,147, filed on Nov. 11, 2015, entitled "Structured Knowledge Modeling, Extraction and Localization from Images", the disclosure of which is incorporated herein by reference in its entirety.
Hintergrundbackground
Bildersuchen involvieren oft die Herausforderung, Text in einer Suchanfrage mit Text abzugleichen, der mit dem Bild assoziiert ist, beispielsweise Tags und so weiter. Beispielsweise mag ein berufstätig Kreativer ein Bild erfassen und Text aufweisende Tags assoziieren, die verwendet werden, um das Bild zu lokalisieren. Andererseits gibt ein Benutzer, der versucht, das Bild in einer Bildersuche aufzufinden, ein oder mehrere Schlüsselwörter ein. Dementsprechend erfordert dies, dass der berufstätig Kreative und die Benutzer zu einem Verständnis gelangen, wie das Bild mit Text zu beschreiben ist, so dass der Benutzer das Bild auffinden der berufstätig Kreative das Bild für Benutzer verfügbar machen kann, welche das Bild wünschen. Als solche können herkömmliche Tag- und Schlüsselwortsuchtechniken können anfällig für Fehler, Missverständnisse und unterschiedliche Interpretationen sein, so dass sie zu ungenauen Suchergebnissen führen.Image searches often involve the challenge of matching text in a search query with text associated with the image, such as tags, and so forth. For example, a creative professional may capture an image and associate text-containing tags used to locate the image. On the other hand, a user attempting to locate the image in an image search inputs one or more keywords. Accordingly, this requires that the working creative and the users come to an understanding of how to describe the image with text, so that the user can find the image of the working creative who can make the image available to users who desire the image. As such, conventional tag and keyword searching techniques can be prone to errors, misunderstandings, and different interpretations, leading to inaccurate search results.
Weiter unterstützen herkömmliche Bildersuchtechniken keine hochpräzisen semantischen Bildersuchen auf Grund von Beschränkungen des herkömmlichen Taggens und Suchens von Bildern. Dies aus dem Grund, dass herkömmlich Techniken lediglich Tags mit den Bildern assoziieren, aber weder Beziehungen zwischen den Tags, noch mit den Bildern selbst definieren. Als solche können herkömmliche Suchtechniken keine akkuraten Suchergebnisse für komplexe Suchabfragen erzielen, wie etwa ein „Mann, der ein Baby in einem Hochstuhl füttert, während das Baby ein Spielzeug hält”. Dementsprechend zwingen diese herkömmlichen Suchtechniken Benutzer dazu, durch einige zehn, hunderte und sogar tausende von Bildern zu navigieren, oftmals unter Verwendung mehrerer Suchanfragen, um ein gewünschtes Bild aufzufinden.Further, conventional image search techniques do not support high-precision semantic image searches due to limitations of conventional tagging and image searching. This is because conventional techniques only associate tags with the pictures, but neither define relationships between the tags nor with the pictures themselves. As such, conventional search techniques can not provide accurate search results for complex searches, such as a "man feeding a baby in a high chair while the baby is holding a toy". Accordingly, these conventional search techniques force users to navigate through tens, hundreds and even thousands of images, often using multiple search queries, to find a desired image.
ZusammenfassungSummary
Es werden Techniken und Systeme beschrieben zum Extrahieren und Modellieren von strukturiertem Wissen aus Bildern. In einer oder mehreren Implementierungen ist eine digitale Medienumgebung konfiguriert, ein Modell zu lernen und zu verwenden, um eine beschreibende Zusammenfassung eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Es werden zuerst Trainingsdaten (zum Beispiel Bild und unstrukturierter Text wie etwa Bildbeschriftungen) erlangt, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, um eine strukturierte Bildrepräsentation zu erzeugen, welche als die beschreibende Zusammenfassung eines eingegebenen Bildes dient.Techniques and systems are described for extracting and modeling structured knowledge from images. In one or more implementations, a digital media environment is configured to learn and use a model to compute a descriptive summary of an input image automatically and without user intervention. Training data (e.g., image and unstructured text such as image captions) are first obtained to train a model using machine learning to produce a structured image representation that serves as the descriptive summary of an input image.
Die Bilder und assoziierter Text werden dann verarbeitet, um aus dem Text strukturiertes semantisches Wissen zu extrahieren, das dann mit den Bildern assoziiert wird. Strukturiertes semantisches Wissen kann eine Vielfalt von Formen annehmen, wie Tupel <Subjekt, Attribut> und Tupel <Subjekt, Prädikat, Objekt>, welche als ein Ausdruck fungieren, welcher das Subjekt über das Prädikat mit dem Objekt verknüpft. Dies kann eine Assoziation mit dem Bild als Ganzes und/oder mit Objekten in dem Bild beinhalten, mittels einem Prozess, der „Lokalisierung” genannt wird.The images and associated text are then processed to extract structured semantic knowledge from the text, which is then associated with the images. Structured semantic knowledge can take on a variety of forms, such as tuple <subject, attribute> and tuple <subject, predicate, object>, which act as an expression linking the subject to the object via the predicate. This may involve an association with the image as a whole and / or with objects in the image, by a process called "localization".
Das strukturierte semantische Wissen wird dann mit entsprechenden Bildern verarbeitet, um ein Modell zu trainieren unter Verwendung von maschinellem Lernen, so dass das Modell eine Beziehung zwischen Textmerkmalen innerhalb des strukturierten semantischen Wissens (zum Beispiel Subjekte und Objekte) und Bildmerkmalen von Bildern herstellt, zum Beispiel Teile des Bildes, die in begrenzenden Rechtecken definiert sind, welche die Subjekte oder Objekte enthalten.The structured semantic knowledge is then processed with corresponding images to train a model using machine learning so that the model establishes a relationship between textual features within the structured semantic knowledge (e.g., subjects and objects) and image features of images, for example Parts of the image defined in bounding rectangles containing the subjects or objects.
Sobald das Modell gelernt ist, kann das Modell dann verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen. Die strukturierte Bildrepräsentation kann Text beinhalten, der auf eine Weise strukturiert ist, welche Beziehungen zwischen Objekten in dem Bild und dem Bild selbst beschreibt. Die strukturierte Bildrepräsentation kann verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, einschließlich Bildersuchen, automatische Erzeugung von Bildbeschriftungen und Metadaten, Objekt-Taggen und so weiter.Once the model is learned, the model can then be used to process input images to produce a structured image representation of the image. The structured image representation may include text that is structured in a manner that describes relationships between objects in the image and the image itself. The structured image representation can be used to support a variety of functionalities, including image browsing, automatic generation of image captions and metadata, object tagging, and so forth.
Diese Zusammenfassung führt eine Auswahl von Konzepten auf vereinfachte Weise ein, die nachfolgend in der detaillierten Beschreibung weiter beschrieben werden. Als solches ist diese Zusammenfassung nicht dazu gedacht, wesentliche Merkmale des beanspruchten Gegenstandes zu identifizieren, und ist auch nicht dazu gedacht, als eine Hilfe beim Bestimmen des Bereichs des beanspruchten Gegenstandes verwendet zu werden.This summary introduces a selection of concepts in a simplified manner, which are further described below in the detailed description. As such, this summary is not intended to identify essential features of the claimed subject matter, nor is it intended to be used as an aid in determining the scope of the claimed subject matter.
Kurze Beschreibung der ZeichnungenBrief description of the drawings
Die detaillierte Beschreibung wird mit Bezug auf die beigefügten Figuren beschrieben. In den Figuren identifiziert bzw. identifizieren die am weitesten links stehende(n) Ziffer(n) die Figur, in welcher das Bezugszeichen zum ersten Mal erscheint. Die Verwendung desselben Bezugszeichens in unterschiedlichen Instanzen in der Beschreibung und den Figuren kann ähnliche oder identische Elemente anzeigen. Entitäten, die in den Figuren dargestellt sind, können für eine oder für mehrere Entitäten repräsentativ sein, und es mag sich daher in der Diskussion synonym auf Singularformen oder Pluralformen der Entitäten bezogen werden.The detailed description will be described with reference to the accompanying drawings. In the figures, identify or identify the furthest left digit (s) the figure in which the reference number appears for the first time. The use of the same reference numeral in different instances in the description and figures may indicate similar or identical elements. Entities depicted in the figures may be representative of one or more entities, and therefore, in the discussion may be synonymously referenced to singular forms or plural forms of the entities.
Detaillierte BeschreibungDetailed description
ÜbersichtOverview
Es werden Techniken und Systeme beschrieben, welche Wissensextraktion aus einem Bild unterstützen, um eine beschreibende Zusammenfassung des Bildes zu erzeugen, welche dann verwendet werden kann, um Bildersuche, automatische Erstellung von Bildbeschriftungen und Metadaten für das Bild und eine Vielfalt von anderen Verwendungen zu unterstützen. Die beschreibende Zusammenfassung kann zum Beispiel Qualitäten des Bildes insgesamt beschreiben, sowie Attribute, Objekte und Interaktion der Objekte miteinander in dem Bild wie nachstehend weiter beschrieben. Auch wenn im Nachfolgenden Beispiele beschrieben werden, welche Bildersuchen beinhalten, sind diese Techniken dementsprechend gleichermaßen auf eine Vielfalt von anderen Beispielen anwendbar, wie etwa automatisiertes strukturiertes Bilder-Taggen, Erzeugung von Bildbeschriftungen und so weiter.Techniques and systems are described which support knowledge extraction from an image to produce a descriptive summary of the image, which can then be used to support image searching, automatic creation of image captions and metadata for the image, and a variety of other uses. For example, the descriptive summary may describe qualities of the image as a whole, as well as attributes, objects and interaction of the objects with each other in the image as further described below. Accordingly, although examples will be described below that include image searches, these techniques are equally applicable to a variety of other examples, such as automated structured image tagging, image captioning, and so forth.
Es werden zuerst Trainingsdaten erlangt, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, um eine strukturierte Bildrepräsentation zu erzeugen. Es werden hierin Techniken beschrieben, in denen Trainingsdaten erhalten werden, welche Bilder und zugeordneten Text (zum Beispiel Beschriftungen der Bilder, welche jede Art von Textkonfiguration beinhalten, welche eine von dem Bild eingefangene Szene beschreibt) verwendet, welche aus eine Vielfalt von Quellen leicht erhalten werden können. Die Bilder und zugeordnete Text werden dann automatisch und ohne Benutzereingriff verarbeitet, um aus dem Text strukturiertes semantisches Wissen zu extrahieren, das dann mit den Bildern assoziiert wird. Dies kann eine Assoziation mit dem Bild als Ganzes und/oder mit Objekten in dem Bild durch einen im Folgenden „Lokalisierung” genannten Prozess beinhalten. Die Verwendung dieser Trainingsdaten unterscheidet sich von herkömmlichen Techniken, die auf Crowd Sourcing beruhen, wobei Menschen manuell Bilder beschriften, was teuer, fehlerträchtig und ineffizient sein kann.Training data is first obtained to train a model using machine learning to produce a structured image representation. Techniques are described herein in which training data is obtained which images and associated text (e.g., captions of the images containing any type of text configuration describing a scene captured by the image) that are easily obtained from a variety of sources can be. The images and associated text are then processed automatically and without user intervention to extract semantic knowledge structured from the text which is then associated with the images. This may involve an association with the image as a whole and / or with objects in the image through a process referred to hereinafter as "localization". The use of this training data differs from conventional techniques based on crowd sourcing, where Manually labeling people pictures, which can be expensive, error prone, and inefficient.
In einem Beispiel wird strukturiertes semantisches Wissen aus dem Text extrahiert unter Verwendung einer Verarbeitung natürlicher Sprache. Strukturiertes semantisches Wissen kann eine Vielfalt von Formen annehmen, wie Tupel <Subjekt, Attribut> und <Subjekt, Prädikat, Objekt>, welche als eine Aussage fungieren, welche das Subjekt über das Prädikat mit dem Objekt verknüpft. Das strukturierte semantische Wissen wird dann mit den entsprechenden Bildern verarbeitet, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, so dass das Modell eine Beziehung zwischen Textmerkmalen in dem strukturierten semantischen Wissen (zum Beispiel Subjekte und Objekte) und Bildmerkmale von Bildern beschreibt, zum Beispiel Teile des Bildes, die in begrenzenden Rechtecken definiert sind, welche die Subjekte oder Objekte enthalten. In einem Beispiel ist das Modell ein gemeinsames probabilistisches Modell, das errichtet wird, ohne eine Reduktion eines großen Vokabulars einzelner Wörter zu einer kleinen vordefinierten Menge von Konzepten zu erfordern, und als solches kann das Modell direkt dieses große Vokabular adressieren, was unter Verwendung herkömmlicher Techniken nicht möglich ist.In one example, structured semantic knowledge is extracted from the text using natural language processing. Structured semantic knowledge can take on a variety of forms, such as tuple <subject, attribute> and <subject, predicate, object>, which act as a statement linking the subject to the object via the predicate. The structured semantic knowledge is then processed with the corresponding images to train a model using machine learning so that the model describes a relationship between textual features in the structured semantic knowledge (e.g., subjects and objects) and image features of images, for example Example Parts of the image defined in bounding rectangles containing the subjects or objects. In one example, the model is a common probabilistic model that is built without requiring a reduction of a large vocabulary of individual words to a small predefined set of concepts, and as such, the model can directly address this large vocabulary, using conventional techniques not possible.
Zum Beispiel können Lokalisierungstechniken verwendet werden, so dass das strukturierte semantische Wissen auf das entsprechende Objekt in einem Bild abgebildet wird. Ein Tupel <Baby, hält, Spielzeug> kann zum Beispiel das Subjekt „Baby” in einem Bild unter Verwendung des Prädikats „hält” auf das Objekt „Spielzeug” in dem Bild abbilden und stellt daher eine Struktur bereit, um zu beschreiben, was in dem Bild „vor sich geht”, was in herkömmlichen Techniken des unstrukturierten Taggens nicht möglich war. Die Verwendung von explizitem, strukturiertem Wissen, das von den hierin beschriebenen Techniken bereitgestellt wird, kann daher auf eine Weise verwendet werden, die von einer Rechnervorrichtung durchsucht werden kann.For example, localization techniques may be used so that the structured semantic knowledge is mapped to the corresponding object in an image. For example, a tuple <baby, holds, toy> may map the subject "baby" in an image using the predicate "holds" to the object "toy" in the image, and thus provides a structure to describe what is in The image "is going on", which was not possible in conventional techniques of unstructured Taggens. The use of explicit, structured knowledge provided by the techniques described herein can therefore be used in a manner that can be searched by a computing device.
Wenn man beispielsweise nach Bildern einer „roten Blume” sucht, betrachtet ein herkömmlicher Sack-von-Worten bzw. „Bag-of-Words” Ansatz „rot” und „Blume” getrennt, was Bilder von Blumen zurückliefern mag, die nicht rot sind, die aber rot an anderer Stelle in dem Bild enthalten. Die Verwendung der hierin beschriebenen Techniken weiß jedoch, dass ein Benutzer nach dem Konzept <Blume, rot> sucht von einer Struktur einer Suchanforderung, was dann verwendet wird, um Bilder aufzufinden, die eine entsprechende Struktur aufweisen. Auf diese Weise kann das Modell eine erhöhte Genauigkeit gegenüber Techniken aufweisen, die auf einer Beschreibung des Bildes als ein ganzes basieren, wie hiernach weiter beschrieben mit Bezug auf
Diese Abbildung kann weiter einen gemeinsamen Vektorraum nutzen, der Differenzen pönalisiert, so dass ähnliche semantische Konzepte in diesem Raum einander nahe sind. Dies kann zum Beispiel ausgeführt werden für Merkmalsvektoren für Text, so dass „kurvige Straße” und „sich windende Straße” einander relativ nahe sind in dem Vektorraum. Ähnliche Techniken können verwendet werden, um ähnliche Konzepte für Bildvektoren zu begünstigen, sowie um die Bild- und Textvektoren aneinander anzupassen. Eine Vielfalt von Techniken des maschinellen Lernens können verwendet werden, um das Modell so zu trainieren, dass es diese Abbildung ausführt. In einem solchen Beispiel wird ein zweispaltiges tiefes Netzwerk verwendet, um die Korrelation zwischen der strukturierten semantischen Information und einem Bild oder einem Teil eines Bildes, zum Beispiel ein begrenzendes Rechteck, von dem ein Beispiel in
Sobald das Modell gelernt wurde, kann das Modell dann verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen durch Berechnen eines Konfidenzwerts, um zu beschreiben, welcher Text am besten dem Bild entspricht. Das Modell kann zum Beispiel über begrenzende Rechtecke von Teilen des Bildes iterieren, um zu bestimmen, welcher strukturierte Text (zum Beispiel <Blume, rot>) wahrscheinlich den Teil des Bildes beschreibt, wie Objekte, Attribute und Beziehungen zwischen diesen, durch Berechnen von Wahrscheinlichkeiten (das heißt, die Konfidenzwerte), dass der strukturierte Text ein gleiches Konzept beschreibt wie die Bildmerkmale in dem Bild. Auf diese Weise stellt die strukturierte Bildrepräsentation eine beschreibende Zusammenfassung des Bildes bereit, die strukturierten Text verwendet, um die Bilder und Teile des Bildes zu beschreiben. Die strukturierte Bildrepräsentation kann daher für ein Bildberechnet werden, um Text zu enthalten, der auf eine Weise strukturiert ist, die Beziehungen zwischen Objekten in dem Bild (zum Beispiel Blume), Attribute des Objekts (zum Beispiel rot), Beziehungen dazwischen (zum Beispiel <Blume, rot> <Baby, hält, Spielzeug>) und das Bild selbst beschreibt, wie oben beschrieben. Die strukturierte Bildrepräsentation kann verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, einschließlich Bildersuchen, automatische Erstellung von Bildbeschriftungen und Metadaten, automatisiertes Taggen von Objekten und so weiter. Eine weitere Diskussion dieser und anderer Beispiele ist in den folgenden Abschnitten enthalten.Once the model has been learned, the model can then be used to process input images to produce a structured image representation of the image by calculating a confidence value to describe which text best suits the image. For example, the model may iterate over bounding rectangles of parts of the image to determine which structured text (for example, <flower, red>) is likely to describe the part of the image, such as objects, attributes, and relationships between them, by computing probabilities (that is, the confidence values) that the structured text describes a similar concept as the image features in the image. In this way, the structured image representation provides a descriptive summary of the image that uses structured text to describe the images and parts of the image. The structured image representation can therefore be calculated for an image to contain text structured in a manner that includes relationships between objects in the image (for example flower), attributes of the object (for example red), relationships between them (for example < Flower, red> <baby, holds, toy>) and the picture itself describes as described above. The structured image representation can be used to support a variety of functionalities, including image browsing, automatic creation of image captions and metadata, automated object tagging, and so forth. Further discussion of these and other examples is included in the following sections.
In der folgenden Diskussion wird zunächst eine beispielhafte Umgebung beschrieben, welche die hierin beschriebenen Wissensextraktionstechniken verwenden kann. Danach werden dann beispielhafte Prozeduren beschrieben, die in der beispielhaften Umgebung sowie anderen Umgebungen ausgeführt werden können. Dementsprechend ist das Ausführen der beispielhaften Prozeduren nicht auf die beispielhafte Umgebung beschränkt, und die beispielhafte Umgebung ist nicht auf das Ausführen der beispielhaften Prozeduren beschränkt.In the following discussion, an exemplary environment that can use the knowledge extraction techniques described herein will first be described. Thereafter, exemplary procedures will be described that are useful in the example environment as well as other environments can be executed. Accordingly, executing the example procedures is not limited to the example environment, and the example environment is not limited to performing the example procedures.
Beispielhafte UmgebungExemplary environment
Die Rechnervorrichtung
Die Rechnervorrichtung
Die strukturierte Bildrepräsentation
Eine hochpräzise semantische Bildersuche beinhaltet zum Beispiel das Auffinden von Bildern mit dem spezifischen Inhalt, der in einer textuellen Suchabfrage angefordert wird. Zum Beispiel kann ein Benutzer eine Suchabfrage in einen Bilderteildienst eingeben nach einem „Mann, der ein Baby in einem Hochstuhl füttert, während das Baby ein Spielzeug hält”, um ein Bild von Interesse aufzufinden, das zur Lizensierung verfügbar ist. Herkömmliche Techniken, die auf unstrukturierten Tags basieren, sind jedoch nicht in der Lage, diese Abfrage akkurat zu erfüllen. Aufgrund dieses Fehlens von Struktur erfüllen in der Praxis von herkömmlichen Bildersuchen bereitgestellte Bilder einige, aber nicht alle der Elemente in der Abfrage, wie etwa ein Mann, der ein Baby füttert, aber das Baby hält kein Spielzeug, ein Baby in einem Hochstuhl, aber es ist kein Mann im Bild, ein Bild einer Frau, die ein Baby füttert, das ein Spielzeug hält und so weiter.For example, a high-precision semantic image search involves finding images with the specific content requested in a textual search query. For example, a user may enter a search query into a rendering service for a "man feeding a baby in a high chair while the baby is holding a toy" to retrieve an image of interest that is available for licensing. However, traditional techniques based on unstructured tags are unable to accurately satisfy this query. Due to this lack of structure, images provided in practice by conventional image browsing satisfy some but not all of the elements in the query, such as a man feeding a baby, but the baby does not hold a toy, a baby in a high chair, but it there is no man in the picture, a picture of a woman feeding a baby holding a toy and so on.
Eine strukturierte Bildrepräsentation
Es sei ein Beispiel der Verwendung der strukturierten Bildrepräsentation
{<Mann, lächelnd>, <Baby, lächelnd>, <Baby, hält, Spielzeug>,
<Mann, sitzt am, Tisch>, <Baby, sitzt in, Hochstuhl>,
<Mann, füttert, Baby>, <Baby, trägt, blaue Kleidung>}.It is an example of using the
{<Husband, smiling>, <baby, smiling>, <baby, holds, toy>,
<Husband, sitting at, table>, <baby, sitting in, highchair>,
<Husband, feeding, baby>, <baby, wearing, blue clothing>}.
Das Bildbeschriftungserzeugungssystem
„Ein Mann füttert ein lächelndes Baby, während das Baby ein Spielzeug hält. Das Baby sitzt in einem Hochstuhl. Der Mann ist auch fröhlich. Es ist wahrscheinlich ein Vater, der seinen Sohn füttert. Der Vater und sein Sohn haben zusammen Spaß, während die Mutter weg ist”.The
"A man is feeding a smiling baby while the baby is holding a toy. The baby is sitting in a high chair. The man is also happy. It's probably a father feeding his son. The father and his son have fun together while the mother is away ".
Die explizite Repräsentation von Wissen der strukturierten Bildrepräsentation
Das Bildbeschriftungserzeugungssystem
Es sei bemerkt, dass ein Bildbeschriftungserzeugungssystem
Die strukturierte Bildrepräsentation
Darüber hinaus ermöglicht die explizite Extraktion von Wissen aus Bildern
{<Fußball>, <Person 1, trägt, blaues Hemd>,
<Person 2, trägt, rotes Hemd>, <Person 3, trägt, rotes Hemd>,
<Person 4, trägt, rotes Hemd>, <Person 5, trägt, blaues Hemd>,
<Person 6, trägt, blaues Hemd>, <Feld>, <Person 5, tritt, Fußball>,
<Person 6, rennt>, <Person 4, verfolgt, Person 5>, <Person 3, läuft>,
<Person 1, lauft>}.
{<Football>, <
<
<Person 4, wearing, red shirt>, <person 5, wearing, blue shirt>,
<
<
<
Das Vorhandensein eines Fußballs zeigt an, dass die Leute Fußball spielen, was weiter durch das Wissen gestützt wird, dass einer der Leute den Fußball tritt. Dass es nur zwei Farben von Hemden gibt, zeigt an, dass zwei Mannschaften ein Spiel spielen. Dies wird durch das Wissen gestützt, dass eine Person in Rot tatsächlich eine Person in blau verfolgt, welche den Ball tritt, und dass andere Leute auf einem Feld rennen. Aus diesem extrahierten Wissen auf Objektebene können Szenenebeneneigenschaften von dem Bildbeschriftungserzeugungssystem
Weiteres Schließen und Schlussfolgern über Szenen und deren konstituierender Objekte und Aktionen kann auch erzielt werden durch Errichten einer Wissensbasis über den Inhalt von Bildern, wo die Wissensbasis dann von einem Schlussfolgerungswerk verwendet wird. Die Errichtung einer Wissensbasis kann als Eingabe zum Beispiel strukturiertes Wissen nehmen, das Bilder beschreibt, wie etwa <Subjekt, Attribut, ->, <Subjekt, Prädikat, Objekt>, <Subjekt, -, ->, <-, Aktion, ->. Eingegebene Daten zum Errichten der Wissensbasis können aus bestehenden Bildbeschriftungsdatenbanken und aus Bildbeschriftungen und umgebendem Text in Dokumenten genommen werden. Die Fähigkeit der hierin beschriebenen Techniken, derartiges Wissen aus einem beliebigen Bild zu extrahieren, erlaubt es der Bildwissensbasis, viel mehr Daten aus nicht mit Bildbeschriftungen versehenen Bildern und nicht mit Tags versehenen Bildern aufzunehmen, wie es für die meisten Bilder der Fall ist. Die Bildwissensbasis und das entsprechende Schlussfolgerungswerk können Schlussfolgerungen treffen, wie diejenigen, die in dem obigen Beispiel des Mannes, der das Baby füttert, notwendig sind. Die Bildwissensbasis kann auch die Statistiken bereitstellen, um das probabilistische Schlussfolgern zu unterstützen, das in jenem Beispiel verwendet wird, die das Schlussfolgern, dass der Mann wahrscheinlich der Vater des Babys ist. Hätte das Beispiel ein Attribut wie <Mann, alt> enthalten, dann könnte eine wahrscheinlichere Schlussfolgerung beinhalten, dass der Mann wahrscheinlich der Großvater des Babys ist.Further closing and reasoning about scenes and their constituent objects and actions can also be achieved by building a knowledge base about the content of images, where the knowledge base is then used by a conclusion work. The establishment of a knowledge base may take as input, for example, structured knowledge describing images such as <subject, attribute, ->, <subject, predicate, object>, <subject, -, ->, <-, action, -> , Input data for building the knowledge base can be taken from existing image caption databases and from image captions and surrounding text in documents. The ability of the techniques described herein to extract such knowledge from any image allows the image knowledge base to capture much more data from non-captioned images and untagged images, as is the case with most images. The image-knowledge base and the corresponding inference work can make conclusions, such as those necessary in the above example of the man feeding the baby. The image-knowledge base may also provide the statistics to aid in the probabilistic reasoning used in the example that concludes that the man is probably the baby's father. If the example contained an attribute such as "old man," then a more likely conclusion might be that the man is probably the baby's grandfather.
Nachdem Beispiele einer Umgebung beschrieben wurden, in denen eine strukturierte Bildrepräsentation
In dem dargestellten Beispiel beinhalten die Trainingsdaten
Die Bilder
Das Modell
Das strukturierte semantische Wissen
Eine Vielfalt von Tupelextraktionslösungen können von dem Modul
In einer oder in mehreren Implementierungen werden Techniken zur Repräsentation abstrakter Bedeutung („abstract meaning representation”, AMR) von dem Modul
Wenn es zum Beispiel eine komplexe Szene gibt, beispielsweise mit einem Mann, der einen Hund Gassi führt, dann kann das strukturierte semantische Wissen
Dementsprechend kann dies die Genauigkeit beim Trainieren und nachfolgenden Verwenden für Bilder, die mehrere Entitäten und entsprechende Aktionen aufweisen, befördern. Wenn zum Beispiel eine Gesamtheit eines Bildes, das mit einer Bildbeschriftung versehen ist, die mehrere Konzepte enthält, zum Beispiel eine Frau, die joggt, oder ein Junge, der auf einen Baum klettert, dann wird jedes maschinelle Lernen, das ausgeführt wird, damit konfrontiert werden, zu bestimmen, welcher Teil des Bildes tatsächlich mit <Mann, Gassi führen, Hund> korreliert. Umso mehr das strukturierte semantische Wissen
Das Erdungs- und Lokalisierungsmodul
In einem anderen Beispiel werden Tupel strukturierten semantischen Wissens
Bevor das Erdungs- und Lokalisierungsmodul
Sobald eine Menge von begrenzenden Rechtecken
Für ein Tupel <Subjekt, Prädikat, Objekt> mit nur einem einzigen Vorkommen der Subjektklasse und einem Vorkommen der Objektklasse wird der Tupel mit dem kleinsten rechteckigen Bildbereich assoziiert, der den kleinsten rechteckigen Bildbereich bedeckt, der das begrenzenden Rechteck für das Subjekt und das begrenzende Rechteck für das Objekt abdeckt, das heißt das begrenzende Rechteck der zwei begrenzenden Rechtecke. Wenn es zum Beispiel eine einzelne Person und einen einzelnen Hund in dem Bild gibt, dann wird <Person, Gassi führen, Hund> zu den die Person und den Hund begrenzenden Rechtecken lokalisiert. Dies enthält wahrscheinlich die Leine, welche die Person und den Hund verbindet. Allgemein ist die stillschweigende Annahme hier, dass das Prädikat, welches das Subjekt und das Objekt in Beziehung setzt, in der Nähe des Subjekts und des Objekts sichtbar ist.For a tuple <subject, predicate, object> with only a single occurrence of the subject class and an occurrence of the object class, the tuple is associated with the smallest rectangular image area covering the smallest rectangular image area, the bounding rectangle for the subject and the bounding rectangle covering the object, that is, the bounding rectangle of the two bounding rectangles. For example, if there is a single person and a single dog in the picture, then <lead person, walk dog, dog> will be located to the rectangles bounding the person and the dog. This probably includes the leash that connects the person and the dog. In general, the tacit assumption here is that the predicate that relates the subject and the object is visible near the subject and the object.
Für einen Tupel <Subjekt, Prädikat, Objekt> mit einem einzelnen Subjekt und einem einzelnen Objekt („Automobil” nicht „Automobile”) und mehr als einem Vorkommen von entweder der Subjektklasse oder der Objektklasse wird das Folgende bestimmt. Wenn ein nächstes Paar von begrenzenden Rechtecken
Die obigen Heuristiken geben Beispiele von Arten an Information, die bei der Lokalisierung berücksichtigt werden. Es können auch weitere Techniken verwendet werden, um die Lokalisierung zu unterstützen, die von dem Erdungs- und Lokalisierungsmodul
Beim Erden eines Tupels reduziert das Erdungs- und Lokalisierungsmodul
Relative Positionsinformation wird ebenfalls verwendet, um das richtige Paar von Subjektklasse und Objektklasse begrenzenden Rechtecken für eine Positionsbeziehung auszuwählen. Wenn zum Beispiel die Bildbeschriftung „Ein Baby sitzt auf einem Tisch” ist, dann werden das Baby und der Tisch zu Rechtecken in dem Bild geerdet, wobei das Rechteck des Babys über dem Rechteck des Tischs ist. Als solches identifiziert dies eindeutig den Bildbereich, der mit diesem Tupel zu assoziieren ist, wenn es mehrere Babys und/oder mehrere Tische in der Szene gibt.Relative position information is also used to select the correct pair of subject class and object class bounding rectangles for a positional relationship. For example, if the caption is "A baby is sitting on a table," then the baby and the table are grounded to rectangles in the image, with the baby's rectangle over the rectangle of the table. As such, this uniquely identifies the image area to be associated with this tuple when there are multiple babies and / or multiple tables in the scene.
Für einen Tupel <Subjekt, Prädikat, Objekt>, bei dem das Subjekt und das Objekt in dem Bild geerdet sind, der Tupel mit einem kleinsten rechteckigen Bildbereich, welcher das begrenzende Rechteck für das Subjekt und das begrenzende Rechteck für das Objekt bedeckt. Eine Vielfalt von anderen Beispielen ist ebenfalls angedacht, wie etwa eine Menge von Kontext den begrenzenden Rechtecken hinzuzufügen, indem ein größerer Bereich eingeschlossen wird, als anderweitig in einem „engen” begrenzenden Rechteck enthalten wäre.For a tuple <subject, predicate, object> in which the subject and the object in the image are grounded, the tuple has a smallest rectangular image area covering the bounding rectangle for the subject and the bounding rectangle for the object. A variety of other examples are also contemplated, such as adding a set of context to the bounding rectangles by trapping a larger area than would otherwise be contained within a "narrow" bounding rectangle.
Ein multivariates Modell „P(<Subjekt, Attribut>, Bild I), P(<Subjekt, Prädikat, Objekt>, Bild I)” wird in diesem Beispiel so errichtet, eine Wahrscheinlichkeit auszugeben, dass das Bild „I” und der strukturierte Text <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> dasselbe Konzept der realen Welt visuell und textuell repräsentieren. Das Modell
Eine textbasierte Bildersuche involviert beispielsweise ein Zuordnen einer Textabfrage (zum Beispiel repräsentiert als eine Menge von strukturiertem Wissen unter Verwendung eines natürlichen Sprache-Tupelextraktionstechnik) zu einem Bild. Dies wird durch ein gemeinsames Modell unterstützt, wie weiter beschrieben mit Bezug auf
Für das Bilden des Modells gibt es zwei Teile: (1) eine Merkmalsrepräsentation für den strukturierten Text „<S, P, O>”, „<S, A, ->”, „<S, -, ->” (wobei „-” eine nicht verwendete Stelle anzeigt, um alle Konzepte als Tripel zu repräsentieren) und für Bilder, und (2) ein Modell, um das Textmerkmal „t”
Die Tupel „<S, P, O>” und „<S, A>” des strukturierten semantischen Wissens
Das Modelltrainingsmodul
Wenn ein „<S, P, O>” Element fehlt, wie das Objekt „O”, wenn ein „<Subjekt, Attribut>” repräsentiert wird, oder sowohl ein Prädikat „P” als auch ein Objekt „O” fehlen, wenn ein „<Subjekt>” repräsentiert wird, wird bzw. werden die entsprechenden Vektorstellen mit Nullen gefüllt. Daher liegt die Vektorrepräsentation für ein alleiniges Subjekt entlang der „S” Achse im „S, P, O” Raum. Visuelle Attribute können als Modifikatoren für ein schmuckloses Subjekt adressiert werden, welche die Repräsentation von „<S, P>” in die „SP” Ebene des „S, P, O” Raums bewegen. Eine andere Option beinhaltet das Summieren der Vektorrepräsentationen der einzelnen Worte.If an "<S, P, O>" element is missing, such as the object "O", if a "<subject, attribute>" is represented, or both a predicate "P" and an object "O" are missing, then a "<subject>" is represented, the corresponding vector locations are or are filled with zeros. Therefore, the vector representation for a single subject lies along the "S" axis in "S, P, O" space. Visual attributes may be addressed as modifiers for a plain subject moving the representation of "<S, P>" to the "SP" level of "S, P, O" space. Another option involves summing the vector representations of the individual words.
Für ein zusammengesetztes „S” oder „P” oder „O” wird die Vektorrepräsentation für jedes einzelne Wort in der Phrase gemittelt, um einen einzigen Vektor in eine Zielstelle in einer „[vec(S)vec(P)vec(O)]” Repräsentation einzusetzen. Zum Beispiel ist „vec(„rennt in Richtung zu”)” gleich „0,5·(vec(„rennt”) + vec(„in Richtung zu”))”. Es kann auch ein Mittelwert mit ungleichen Gewichtungen verwendet werden, wenn einige Wörter in der Phrase mehr Bedeutung tragen als andere. In einer Implementierung wird eine semantische Repräsentation (zum Beispiel Vektor oder Wahrscheinlichkeitsverteilung) für zusammengesetzte Phrasen wie „rennt in Richtung zu” oder „rennt weg von” direkt gelernt, indem diese Phrasen atomar als neue Vokabularelemente in einem existierenden semantischen Worteinbettungsmodell behandelt werden.For a composite "S" or "P" or "O", the vector representation for each word in the phrase is averaged to place a single vector in a target location in a "[vec (S) vec (P) vec (O)] "To use representation. For example, "vec (" runs toward ") is" equal to "0.5 * (vec (" run ") + vec (" toward "))". An average of unequal weights may also be used if some words in the phrase carry more meaning than others. In one implementation, a semantic representation (for example, vector or probability distribution) for compound phrases such as "run towards" or "run away from" is learned directly by treating these phrases atomically as new vocabulary elements in an existing semantic word embedding model.
Es steht eine Vielfalt von Techniken zur Auswahl, die verwendet werden können, um Semantiken von Bildmerkmalen
Zudem wurde gezeigt, dass Klassifikationsmerkmale von tiefen Klassifikationsnetzwerken hochqualitative Ergebnisse für andere Aufgaben (zum Beispiel Segmentierung) geben, insbesondere nach Feintunen dieser Merkmale für die andere Aufgabe. Ausgehend von Merkmalen, die zur Klassifikation gelernt wurden, und mit nachfolgendem Feintunen dieser Merkmale für eine andere Aufgabe des Bildverständnisses, kann daher eine erhöhte Effizienz in Begriffen des Trainings zeigen, als wenn das Training von Grund auf für eine neue Aufgabe begonnen wird. Aus den obigen Gründen werden CNN Merkmale als feste Merkmale angenommen in einem linearen CCA Grundlagenmodell. Das maschinelle Lernmodul
Das maschinelle Lernmodul
Eine Technik, die zu diesem Zweck genutzt werden kann, beinhaltet eine lineare Abbildung, welche als kanonische Korrelationsanalyse bzw. Canonical Correlation Analysis (CCA) bezeichnet wird, die auf Text- und Bildmerkmale
Es können auch Verlustfunktionen verwendet werden zur Modellanpassung unter Verwendung von Trainingspaaren „(t, x)” basierend auf quadratischem Euklidischem Abstand „∥t' – x'∥_2^2”, oder einer Kosinusähnlichkeit „skalaprodukt(t', x')”, oder der „winkel_zwischen(t', x')”, welcher die Vektorlänge von dem Kosinusähnlichkeitsmaß entfernt. Wenn das Skalarprodukt verwendet wird, dann wird die CCA Korrelationsfunktion wie folgt ausgedrückt:
Für einen quadratischen Euklidischen Verlust kann die CCA Korrelationsfunktion wie folgt ausgedrückt werden:
Die obige einfache geschlossene Form der Korrelationsfunktion mag wiederum eine schnellere als erschöpfende Suche nach Bildern oder Text unterstützen, wenn das andere gegeben ist. Zum Beispiel werden in einer textbasierten Bildersuche Bilder mit Merkmalsvektoren „x” derart gefunden, dass „f_CCA_E(t, x)” klein ist für einen gegebenen Textvektor „t”. Wenn „(T, X)” vom Anpassen des CCA Modells und die Abfrage „t” gegeben ist, liefert lineare Algebra eine Menge von Vektoren, welche „f(t, x)” minimieren, und es werden Bilder mit einem Merkmalsvektor „x” nahe dieser Menge gefunden.The above simple closed form of the correlation function, in turn, may support a faster than exhaustive search for images or text if the other is given. For example, in a text-based image search, images having feature vectors "x" are found such that "f_CCA_E (t, x)" is small for a given text vector "t". Given "(T, X)" of fitting the CCA model and the query "t", linear algebra yields a set of vectors that minimize "f (t, x)", and images with a feature vector "x "Found near this amount.
Die maschinelle Textlernspalte
Die maschinelle Bildlernspalte
Anpassschichten
Eine diskriminierende Verlustfunktion, wie eine Ranking-Verlust-Funktion, kann verwendet werden, um sicherzustellen, dass falsch zugeordneter Text und Bilder eine kleinere Korrelation oder einen größeren Abstand haben als korrekt zugeordneter Text und Bilder. Zum Beispiel kann eine einfache Ranking-Verlust-Korrelationen erfordern „skalarprodukt(t_i', x_i') > skalarprodukt(t_j', x_i')” für ein Trainingsbeispiel „(t_i, x_i)” und wo der ursprüngliche Tupel zum Trainieren des Tupels t_j nicht zu dem Trainingsbild „x_i” passt. Eine Ranking-Verlust-Funktion kann auch eine semantische Textähnlichkeit oder eine externe Objekthierarchie verwenden, wie etwa ImageNet, um den Verlust zu formulieren, um unterschiedliche falsche Zuordnungen unterschiedlich zu pönalisieren.A discriminating loss function, such as a ranking loss function, can be used to ensure that misallocated text and images have a smaller correlation or distance than correctly mapped text and images. For example, simple rank-loss correlations may require "scalar product (t_i ', x_i')> scalar product (t_j ', x_i')" for a training example "(t_i, x_i)" and where the original tuple for training the tuple t_j does not match the training image "x_i". A ranking loss function may also use a semantic text similarity or an external object hierarchy, such as ImageNet, to formulate the loss to differentiate different misalignments.
Andere Verlust-Funktionen und Architekturen sind möglich, beispielsweise mit weniger oder mit mehr Anpassschichten zwischen der semantischen Textrepräsentation „t = [vec(S), vec(P), vec(O)]” und dem einbettenden Raum t' oder mit Verbindungen zwischen Text- und Bildschichten vor dem gemeinsamen einbettenden Raum. In einem Beispiel ist auch ein Platzhalter-Verlust möglich, der den Objektteil von Einbettungsvektoren für Fakten zweiter Ordnung <S, P> und den Prädikatteil und den Objektteil von Einbettungsvektoren für Fakten erster Ordnung <S> ignoriert.Other loss functions and architectures are possible, for example, with fewer or more matching layers between the semantic text representation "t = [vec (S), vec (P), vec (O)]" and the embedding space t 'or with connections between Text and image layers in front of the common embedding room. In one example, a wildcard loss is also possible that ignores the object part of second-order facts <S, P>, and the predicate part and the object part of first-order facts <S> of depository factors.
Zurück zu
Der Wissensextraktionstask kann gelöst werden durch Anwenden des obigen Modells mit Bildpixeldaten aus Bereichen, die durch einen Objektvorschlagsalgorithmus identifiziert werden, oder Objektbereichen, die von dem R-CNN Algorithmus identifiziert werden, oder sogar in einem Ansatz eines gleitenden Fensters, der Bildbereiche dichter abtastet. Um Objektinteraktionen zu erfassen, werden begrenzende Rechtecke aus Paaren von Objektvorschlägen oder Paaren von R-CNN Objektbereichen gebildet, Ein Ansatz ist es, alle Paare von Objektbereichen zu probieren, um auf mögliche Interaktionen zu testen. Ein anderer Ansatz ist es, einige Heuristiken anzuwenden, um selektiver zu sein, wie etwa, keine Paare zu untersuchen, die im Bild fern sind. Da das Modell angewandt werden kann, um kein, ein oder mehrere hochwahrscheinliche Konzepte über einen Bildbereich zu extrahieren, können die extrahierten <S, P, O> Konzepte zu Bildbereichen lokalisiert werden, welche die entsprechenden visuellen Daten bereitstellen.The knowledge extraction task can be solved by applying the above model to image pixel data from areas identified by an object suggestion algorithm, or object areas identified by the R-CNN algorithm, or even in a sliding window approach that more densely scans image areas. To capture object interactions, bounding rectangles are formed from pairs of object suggestions or pairs of R-CNN object areas. One approach is to sample all pairs of object areas to test for possible interactions. Another approach is to use some heuristics to be more selective, such as not examining couples that are distant in the picture. Since the model can be applied to not extract one, or more highly probable concepts over an image area, the extracted <S, P, O> concepts can be located to image areas providing the corresponding visual data.
Beispielhafte ProzedurenExample procedures
Die folgende Diskussion beschreibt Wissensextraktionstechniken, die implementiert werden können unter Verwendung der zuvor beschriebenen Systeme und Vorrichtungen. Aspekte von jeder der Prozeduren können in Hardware, Firmware oder Software, oder einer Kombination davon, implementiert werden. Die Prozeduren sind als eine Menge von Blöcken gezeigt, die Operationen spezifizieren, die von einer oder von mehreren Vorrichtungen ausgeführt werden, und die nicht notwendiger Weise auf die dargestellten Reihenfolgen beschränkt sind, um die Operationen durch die jeweiligen Blöcke auszuführen. In Teilen der folgenden Diskussion wird sich auf
Strukturiertes semantisches Wissen wird aus dem assoziierten Text unter Verwendung einer Verarbeitung natürlicher Sprache durch die zumindest eine Rechnervorrichtung extrahiert, wobei das strukturierte semantische Wissen Textmerkmale beschreibt (Block
Ein Modell wird unter Verwendung des strukturierten semantischen Wissens und der Bilder als Teil von maschinellem Lernen trainiert (Block
Das Modell wird verwendet, um eine strukturierte Bildrepräsentation des eingegebenen Bildes zu bilden, die explizit zumindest einen Teil der Textmerkmale mit Bildmerkmalen des eingegebenen Bildes korreliert, als die beschreibende Zusammenfassung des eingegebenen Bildes (Block
Ein Modell wird trainiert unter Verwendung der lokalisierten Bild- und Textmerkmale als Teil von maschinellem Lernen (Block
Implementierungsbeispielimplementation example
Das System ist konfiguriert, eine Repräsentation zu lernen, welche Fakten erster Ordnung <S> (Objekte), Fakten zweiter Ordnung <S, P> (Aktionen und Attribute) und Fakten dritter Ordnung <S, P, O> (Interaktion und positionelle Fakten) abdeckt. Diese Arten von Fakten werden repräsentiert als ein Einbettungsproblem in einen „strukturierten Faktenraum”. Das strukturierte Faktum ist als eine lernende Repräsentation von drei Hyperdimensionen konfiguriert, die wie folgt bezeichnet sind: The system is configured to learn a representation of which first order facts <S> (objects), second order facts <S, P> (actions and attributes) and third order facts <S, P, O> (interaction and positional facts ) covers. These types of facts are represented as an embedding problem in a "structured fact space". The structured fact is configured as a learning representation of three hyperdimensions, denoted as follows:
Die Einbettungsfunktion von einer visuellen Ansicht eines Faktums „fv” sind jeweils wie folgt bezeichnet:
Ähnlich ist die Einbettungsfunktion von einer Sprachenansicht eines Faktums „fl”:
Die Verkettung der Hyperdimensionen der visuellen Ansicht wird bezeichnet als:
Die Verkettung der Einbettung der Hyperdimensionen der Sprachansicht wird bezeichnet als:
Wie aus dem obigen ersichtlich ist, können somit die Fakten dritter Ordnung <S, P, O> direkt in den strukturierten Faktenraum eingebettet werden durch:
Fakten erster Ordnung sind Fakten, die ein Objekt anzeigen, wie <S: Person>. Fakten zweiter Ordnung sind spezifischer über das Subjekt, zum Beispiel <S: Person, P: spielt>. Fakten dritter Ordnung sind nochmals spezifischer, zum Beispiel <S: Person, P: spielt, O: Klavier). Im Folgenden werden Fakten höherer Ordnung als Fakten niedrigerer Ordnung definiert, auf die ein zusätzlicher Modifikator angewandt ist. Zum Beispiel konstruiert das Hinzufügen des Modifikators „P: isst” zu dem Faktum <S: Kind> das Faktum <S: Kind, P: isst>. Weiter konstruiert das Hinzufügen des Modifikators „O: Eiscreme” zu dem Faktum <S: Kind, P: isst> das Faktum <S: Kind, P: isst O: Eiscreme>. Ähnlich können Attribute adressiert werden als Modifikatoren für ein Subjekt, zum Beispiel konstruiert das Anwenden von „P: lächelt” auf das Faktum <S: Baby> das Faktum <S: Baby, P: lächelt>.First order facts are facts that indicate an object, such as <S: Person>. Second order facts are more specific about the subject, for example <S: Person, P: plays>. Facts of the third order are even more specific, for example <S: Person, P: plays, O: piano). In the following, higher order facts are defined as lower order facts to which an additional modifier is applied. For example, adding the modifier "P: eats" to the fact <S: child> constructs the fact <S: child, P: eats>. Further, adding the modifier "O: ice cream" to the fact <S: child, P: eats> constructs the fact <S: child, P: eats O: ice cream>. Similarly, attributes can be addressed as modifiers for a subject, for example, applying "P: smiles" to the fact <S: Baby> constructs the fact <S: baby, P: smiles>.
Basierend auf der oben beobachteten Faktenmodifikation, können sowohl Fakten erster Ordnung als auch Fakten zweiter Ordnung als Platzhalter repräsentiert werden, wie in den folgenden Gleichungen für Fakten erster Ordnung und Fakten zweiter Ordnung jeweils illustriert.
Das Setzen von „ΦP” und „ΦO” auf „*” für Fakten erster Ordnung wird interpretiert als zu bedeuten, dass die Modifikatoren „P” und „O” für Fakten erster Ordnung nicht von Interesse sind. Ähnlich zeigt das Setzen von „ΦO” auf „*” für Fakten zweiter Ordnung an, dass der Modifikator „O” nicht von Interesse ist für Einzelbildaktionen und Attribute.The setting of "Φ P " and "Φ O " to "*" for first order facts is interpreted as meaning that the modifiers "P" and "O" are not of interest for first order facts. Similarly, setting "Φ O " to "*" for second order facts indicates that the modifier "O" is not of interest for frame actions and attributes.
Fakten erster und zweiter Ordnung werden Platzhalterfakten genannt. Da das Modellieren von strukturierten Fakten in visuellen Daten potentiell ein logisches Schließen über Fakten aus Bildern ermöglicht, wird das beschriebene Problem im Folgenden auch als ein „Sherlock” Problem bezeichnet.First and second order facts are called placeholder facts. Since modeling structured facts in visual data potentially allows logical reasoning about facts from images, the problem described below is also referred to as a "Sherlock" problem.
Um ein maschinelles Lernmodell zu trainieren, welches die strukturierte Fakten-Sprachenansicht in L mit deren visueller Ansicht in V verbindet, werden Daten in der Form von Paaren (fv, fl) gesammelt. Die Sammlung von Daten für Probleme in großem Maßstab wird zu einer zunehmenden Herausforderung, insbesondere in den nachfolgenden Beispielen, da das Modell auf einer lokalisierten Assoziation eines strukturierten Sprachfaktums „fl” mit einem Bild „fv” basiert, wenn solche Fakten auftreten. Insbesondere ist es eine komplexe Aufgabe, Annotationen insbesondere für Fakten zweiter Ordnung <S, P> und Fakten dritter Ordnung <S, P, O> zu sammeln. Auch können mehrere strukturierte Sprachfakten demselben Bild zugewiesen werden, zum Beispiel <S: Mann, P; lächelnd> und <S: Mann, P: trägt, O: Glas>. Wenn sich diese Fakten auf denselben Mann beziehen, könnte dasselbe Bildbeispiel verwendet werden, um beide Fakten zu lernen.To train a machine learning model that links the structured factual language view in L to its visual view in V, data is collected in the form of pairs (f v , f l ). The collection of data for large scale problems is becoming increasingly challenging, especially in the examples below, since the model is based on a localized association of a structured linguistic feature "f l " with an image "f v " when such facts occur. In particular, it is a complex task to collect annotations especially for second-order facts <S, P> and third-order facts <S, P, O>. Also, multiple structured linguistic facts may be assigned to the same image, for example, <S: man, P; smiling> and <S: man, P: wears, O: glass>. If these facts refer to the same man, the same picture example could be used to learn both facts.
Wie zuvor beschrieben werden Techniken diskutiert, in denen Faktenannotationen automatisch aus Datenmengen gesammelt werden, welche in der Form von Paaren Bild/Bildbeschriftung vorliegen. Zum Beispiel kann eine große Menge von hochqualitativen Fakten erhalten werden aus Bildbeschriftungsdatenbanken unter Verwendung einer Verarbeitung natürlicher Sprache. Da das Schreiben von Bildbeschriftungen in freiform ist, sind diese typischer Weise leicht verfügbar, zum Beispiel von Sozialen Netzen, vorkonfigurierten Datenbanken und so weiter.As discussed above, techniques are discussed in which factual annotations are automatically collected from datasets that are in the form of image / caption pairs. For example, a large amount of high quality facts can be obtained from image caption databases using natural language processing. Since the writing of image captions is freeform, these are typically readily available, for example, from social networks, preconfigured databases, and so forth.
In dem folgenden Beispiel wird ein zweistufiger automatischer Annotationsprozess beschrieben (i) Faktenextraktion aus Bildbeschriftungen, welche beliebigen Text umfassen, der mit einem Bild assoziiert ist, der das Bild beschreibt; und (ii) Faktenlokalisierung in Bildern. Zuerst werden die mit dem gegebenen Bild assoziierten Bildbeschriftungen analysiert, um Mengen von Satzteilen bzw. Klauseln zu extrahieren, die als Kandidaten von Fakten <S, P> und <S, P, O> in dem Bild betrachtet werden. Klauseln bilden Fakten, sind aber nicht notwendiger Weise selbst Fakten.In the following example, a two-step automatic annotation process is described (i) fact extraction from image captions comprising any text associated with an image describing the image; and (ii) Fact location in pictures. First, the image labels associated with the given image are analyzed to extract sets of clauses considered to be candidates of facts <S, P> and <S, P, O> in the image. Clauses are facts, but are not necessarily facts themselves.
Bildbeschriftungen können große Mengen an Information für Bildverständnissysteme bieten. Allerdings ist das Entwickeln von Systemen zur Verarbeitung natürlicher Sprache, um akkurat und vollständig strukturiertes Wissen aus Freiformtext zu extrahieren herausfordernd wegen (1) Fehlern in Rechtschreibung und Zeichensetzung; (2) Wortsinnzweideutigkeit innerhalb von Klauseln; und (3) Lexikon räumlicher Präpositionen, das hunderte von Begriffen enthalten mag, wie „daneben”, „auf”, sowie Sammelphrasenadjektive wie etwa „Gruppe von”, „Bündel von” und so weiter.Image captions can provide large amounts of information for image comprehension systems. However, developing natural language processing systems to extract accurate and fully structured knowledge from freeform text is challenging because of (1) spelling and punctuation errors; (2) word sense ambiguity within clauses; and (3) a dictionary of spatial prepositions that may contain hundreds of terms, such as "off," "on," and aggregate phrase adjectives, such as "group of," "bundles of," and so on.
Der Prozess des Lokalisierens von Fakten in einem Bild ist beschränkt durch Information in der Datenmenge. Zum Beispiel mag eine Datenbank Objektannotationen für unterschiedliche Objekte enthalten durch Trainings- und Validierungsmengen. Dies ermöglicht, dass Fakten erster Ordnung lokalisiert werden für Objekte unter Verwendung von begrenzender Rechtecksinformation. Um Fakten höherer Ordnung in Bildern zu lokalisieren werden visuelle Entitäten definiert als jedes Nomen, das entweder ein Datenmengenobjekt oder ein Nomen in einer vordefinierten Ontologie ist, die ein unmittelbarer oder indirekter Oberbegriff eines der Objekte ist. Es wird erwartet, dass visuelle Entitäten entweder in dem S oder dem O Teil auftauchen, falls existent, für ein Kandidatenfaktum „fl”, was die Lokalisierung von Fakten für Bilder ermöglicht. Für ein gegebenes Faktum dritter Ordnung wird zuerst versucht, jedes „S” und „O” einer der visuellen Entitäten zuzuweisen. Wenn „S” und „O” keine visuellen Entitäten sind, dann wird die Klausel ignoriert. Andernfalls werden die Klauseln durch verschiedene Heuristiken verarbeitet. Die Heuristiken können zum Beispiel berücksichtigen, ob das Subjekt oder das Objekt im Singular oder Plural ist oder eine Szene. Zum Beispiel können die hierin beschriebenen Techniken in dem Faktum <S: Männer, P: jagen, O: Fußball> identifizieren, dass „Männer” eine Vereinigung von mehreren begrenzenden Kandidatenrechtecken involvieren kann, während es für „Fußball” erwartet ist, dass es nur ein einzelnes begrenzendes Rechteck gibt.The process of locating facts in an image is limited by information in the dataset. For example, a database may contain object annotations for different objects through training and validation sets. This allows first-order facts to be located for objects using bounding rectangle information. To locate facts of higher order in images, visual entities are defined as any noun that is either a dataset object or a noun in a predefined ontology that is a direct or indirect generic term of one of the objects. It is expected that visual entities will appear in either the S or the O part, if any, for a candidate factor "f l ", allowing the location of facts for images. For a given fact of third order, first try each "S" and "O" assign one of the visual entities. If "S" and "O" are not visual entities, then the clause is ignored. Otherwise, the clauses are processed by different heuristics. For example, the heuristics may consider whether the subject or object is singular or plural or a scene. For example, in the fact that the techniques described herein may identify <S: Men, P: Hunt, O: Football>, "Men" may involve an association of multiple limiting candidate rectangles, while "Football" is expected to only gives a single bounding rectangle.
Ein direkter Ansatz zum Modellieren von Fakten in Bildern ist es, für jedes separate Faktum einen Klassifikator zu lernen. Bei dieser Technik gibt es jedoch eine klare Begrenzung in der Skalierbarkeit, da die Anzahl von Fakten signifikant ist, zum Beispiel |S| × |P| × |O|, wobei |S|, |P| und |O| die Anzahl der Subjekte, Prädikate bzw. Objekte sind. Daher könnte diese Zahl Millionen für mögliche Fakten in der realen Welt erreichen. Zusätzlich zu diesen Skalierbarkeitsproblemen ignoriert diese Technik semantische Beziehungen zwischen Fakten, welche eine signifikante Eigenschaft sind, die eine Verallgemeinerung auf nicht gesehene Fakten oder Fakten mit wenigen Beispielen erlaubt. Beispielsweise mag es während des Trainings ein Faktum zweiter Ordnung wir <S: Junge, P: spielt> und ein Faktum erster Ordnung wie <S: Mädchen>, <S: Junge> geben. Zur Laufzeit versteht das unter Verwendung der hierin beschriebenen Techniken trainierte Modell ein Bild mit dem Faktum <Mädchen, spielt>, selbst wenn dieses Faktum während des Trainierens nicht gesehen wurde, was eindeutig nicht erfasst wird durch Lernen eines Modells für jedes Faktum in dem Trainieren.A direct approach to modeling facts in images is to learn a classifier for each separate fact. However, there is a clear limitation in scalability in this technique because the number of facts is significant, for example | S | × | P | × | O |, where | S |, | P | and | O | the number of subjects, predicates or objects are. Therefore, this number could reach millions for possible facts in the real world. In addition to these scalability issues, this technique ignores semantic relationships between facts, which are a significant feature that allows a generalization to unseen facts or figures with few examples. For example, during training, a second order fact may be <S: boy, P: plays> and a fact of first order like <S: girl>, <S: boy>. At runtime, the model trained using the techniques described herein understands an image with the fact <girl, plays>, even if that fact was not seen during training, which is clearly not detected by learning a model for each fact in the training.
Dementsprechend wird in diesem Beispiel ein Einbettungsproblem mit zwei Ansichten beschrieben, das verwendet wird, um strukturierte Fakten zu modellieren. Zum Beispiel kann ein strukturiertes Fakteneinbettungsmodell umfassen (1) Zweiwegeabruf (das heißt, relevante Fakten in Sprachansicht abzurufen, wenn ein Bild gegeben ist, und relevante Bilder abzurufen, wenn ein Faktum in einer Sprachansicht gegeben ist; und (2) Platzhalterfakten werden unterstützt, das heißt Fakten erster und zweiter Ordnung.Accordingly, this example describes an embedding problem with two views that is used to model structured facts. For example, a structured fact embedding model may include (1) bidirectional retrieval (that is, retrieving relevant facts in a voice view when an image is given and retrieving relevant images when a fact is given in a voice view) and (2) supporting facts are supported means facts of first and second order.
Die erste Eigenschaft wird in diesem Beispiel erfüllt durch Verwendung eines generativen Modells p(fv, fl), das die visuelle Ansicht und die Sprachansicht von „f” verbindet. Diese Technik modelliert zuerst das Folgende:
Um „ΦV(fv)” zu modellieren und zu trainieren, wird ein CNN Encoder verwendet, und um „ΦL(fl)” zu modellieren und zu trainieren, wird ein RNN Encoder verwendet. In einer beispielhaften Implementierung
Dieser Prozess beginnt mit Definieren eines Aktivierungsoperators „ψ(θ, α)”, wobei „α” eine Eingabe und „θ” eine Reihe von einer oder mehreren neuronalen Netzwerkschichten ist, welche unterschiedliche Schichttypen beinhalten mögen, wie vier Faltungsschichten, eine Poolingschicht, und eine weitere Faltungs- und Poolingschicht. Der Operator „ψ(θ, α)” wendet Parameter „θ” Schicht für Schicht an, um die Aktive von Unternetzwerk „θ” für ein gegebenes „α” zu berechnen. Ein Operator „ψ(·, ·)” wird verwendet, um strukturierte Fakten-Bild-Encoder Modell 1 und Modell 2 zu definieren.This process begins by defining an activation operator "ψ (θ, α)", where "α" is an input and "θ" is a series of one or more neural network layers that may include different types of layers, such as four convolutional layers, a pooling layer, and another folding and pooling layer. The operator "ψ (θ, α)" applies parameter "θ" layer by layer to calculate the subnetwork "θ" active for a given "α". An operator "ψ (·, ·)" is used to define
In Modell 1 wird ein strukturiertes Faktum visuell codiert durch Teilen von Faltungsschichtparametern (bezeichnet durch
Im Kontrast zu Modell 1 werden im Modell 2 für „S” andere Faltungsschichten verwendet als für „P” und „O”, konsistent mit der obigen Diskussion, dass „P” und „O” Modifikatoren für „S” sind, wie zuvor beschrieben. Ausgehend von „fv” gibt es eine gemeinsame Menge von Faltungsschichten, bezeichnet durch
In beiden Modellen wird ein strukturiertes Sprachfaktum codiert unter Verwendung von RNN Spracheinbettungsvektoren für „S, P und O”. Daher, in dem Fall
Eine Weise, um „p(fv, fl)” für Modell 1 und Modell 2 zu trainieren, ist es anzunehmen, dass „p(fv, fl) ∞ = exp(–lossw(fv, fl))” und den Abstandsverlust „lossw(fv, fl)” zu minimieren, der wie folgt definiert ist:
Dementsprechend beschreibt dieses Beispiel ein Problem der Assoziation von visuellen und sprachlichen Fakten hoher Ordnung. Ein neuronaler Netzwerk Ansatz wird beschrieben, um visuelle Fakten und sprachliche Fakten in einen gemeinsamen, kontinuierlichen Raum strukturierter Fakten, der es ermöglicht, dass Fakten natürlicher Sprache mit einem Bild assoziiert werden, und Bilder mit strukturierten Beschreibungen natürlicher Sprache assoziiert werden.Accordingly, this example describes a problem of association of high-order visual and linguistic facts. A neural network approach is described to associate visual facts and linguistic facts in a common, continuous space of structured facts that allow natural language facts to be associated with an image, and images associated with structured descriptions of natural language.
Beispielhaftes System und VorrichtungExemplary system and device
Die dargestellte Rechnervorrichtung
Das Verarbeitungssystem
Das computerlesbare Speichermedium
Eingabe-/Ausgabeschnittstelle(n) ist bzw. sind für eine Funktionalität repräsentativ, die es einem Benutzer erlaubt, der Rechnervorrichtung
Verschiedene Techniken mögen hierin im allgemeinen Kontext von Software, Hardwareelementen oder Programmodulen beschrieben sein. Im Allgemeinen beinhalten solche Module Routinen, Programme, Objekte, Elemente, Komponenten und so weiter, welche bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe ”Modul”, ”Funktionalität” und ”Komponente” wie hierin verwendet repräsentieren allgemein Software, Firmware, Hardware oder eine Kombination dieser. Die Merkmale der hierin beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielfalt von handelsüblichen Rechnerplattformen mit einer Vielfalt von Prozessoren implementiert werden können.Various techniques may be described herein in the general context of software, hardware elements or program modules. In general, such modules include routines, programs, objects, elements, components, and so forth that perform certain tasks or implement particular abstract data types. The terms "module", "functionality" and "component" as used herein generally represent software, firmware, hardware or a combination thereof. The features of the techniques described herein are platform independent, which means that the techniques can be implemented on a variety of commercial computing platforms with a variety of processors.
Eine Implementierung der beschriebenen Module und Techniken kann auf einer Form computerlesbarer Medien gespeichert oder übe diese übertragen werden. Die computerlesbaren Medien können eine Vielfalt von Medien umfassen, auf welche die Rechnervorrichtung
”Computerlesbare Speichermedien” können sich auf Medien und/oder Vorrichtungen beziehen, welche das persistente und/oder nicht vergängliche Speichern von Information ermöglichen, im Gegensatz zur reinen Signalübertragung, Trägerwellen oder Signalen als solchen. Computerlesbare Speichermedien beziehen sich daher auf Medien, die kein Signal tragen. Die computerlesbaren Speichermedien beinhalten Hardware, wie flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien und/oder Speichervorrichtungen, die mit einem Verfahren oder einer Technologie implementiert sind, das bzw. die für das Speichern von Information, wie computerlesbare Anweisungen, Datenstrukturen, Programmodulen, logischen Elementen/Schaltungen oder anderen Daten geeignet sind. Beispiele computerlesbarer Speichermedien können, ohne hierauf beschränkt zu sein, RAM, ROM, EEPROM, Flash Speicher oder eine andere Speichertechnologie, CD-ROM, DVD anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, magnetische Speicherplatten oder andere magnetische Speichervorrichtungen, oder eine andere Speichervorrichtung, greifbare Medien, oder einen anderen hergestellten Gegenstand, der geeignet ist, die gewünschte Inforation zu speichern und den Zugriff durch einen Computer zu erlauben, umfassen."Computer-readable storage media" may refer to media and / or devices that enable persistent and / or non-transitory storage of information, as opposed to mere signal transmission, carrier waves, or signals as such. Computer-readable storage media therefore refer to media that carry no signal. The computer-readable storage media include hardware such as volatile and nonvolatile, removable and non-removable media, and / or memory devices implemented with a method or technology that may be used to store information such as computer readable instructions, data structures, program modules, logical Elements / circuits or other data are suitable. Examples of computer-readable storage media may include, but are not limited to, RAM, ROM, EEPROM, flash memory or other storage technology, CD-ROM, DVD other optical storage, hard disks, magnetic cassettes, magnetic tapes, magnetic storage disks or other magnetic storage devices, or other storage device , tangible media, or other manufactured article capable of storing the desired information and allowing access by a computer.
”Computerlesbare Signalmedien” mag sich auf ein ein Signal tragendes Medium beziehen, das konfiguriert ist, Anweisungen an die Hardware der Rechnervorrichtung
Wie zuvor ausgeführt sind die Hardwareelemente
Es können auch Kombinationen der vorstehend genannten verwendet werden, um verschiedene hierin beschriebene Techniken zu implementieren. Dementsprechend können Software-, Hardware- oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die auf einer Form eines computerlesbaren Speichermediums und/oder durch ein oder mehrere Hardwareelemente
Die hierin beschriebenen Techniken können durch verschiedene Konfigurationen der Rechnervorrichtung
Die Cloud
Die Plattform
Schlussfolgerungconclusion
Obwohl die Erfindung in einer Sprache beschrieben wurde, die für strukturelle Merkmale und/oder Verfahrensaktionen spezifisch ist, sei verstanden, dass die in den beigefügten Ansprühen definierte Erfindung nicht notwendiger Weise auf die beschriebenen spezifischen Merkmale oder Aktionen beschränkt ist. Vielmehr sind die spezifischen Merkmale und Aktionen als beispielhafte Formen der Implementierung der beanspruchten Erfindung offenbart.Although the invention has been described in language specific to structural features and / or method actions, it should be understood that the invention defined in the appended claims is not necessarily limited to the specific features or acts described. Rather, the specific features and acts are disclosed as exemplary forms of implementing the claimed invention.
Claims (20)
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562254147P | 2015-11-11 | 2015-11-11 | |
US62/254,147 | 2015-11-11 | ||
US14/978,421 US10460033B2 (en) | 2015-11-11 | 2015-12-22 | Structured knowledge modeling, extraction and localization from images |
US14/978,421 | 2015-12-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102016010909A1 true DE102016010909A1 (en) | 2017-05-11 |
Family
ID=57234418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102016010909.2A Pending DE102016010909A1 (en) | 2015-11-11 | 2016-09-08 | Structured modeling, extraction and localization of knowledge from images |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN106682060B (en) |
DE (1) | DE102016010909A1 (en) |
GB (1) | GB2544379B (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507706A (en) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | Training method and device of knowledge pre-training model and electronic equipment |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11094058B2 (en) | 2015-08-14 | 2021-08-17 | Elucid Bioimaging Inc. | Systems and method for computer-aided phenotyping (CAP) using radiologic images |
US10535138B2 (en) * | 2017-11-21 | 2020-01-14 | Zoox, Inc. | Sensor data segmentation |
CN108363879A (en) * | 2018-02-27 | 2018-08-03 | 杭州深绘智能科技有限公司 | Data processing method suitable for image of clothing |
US10915577B2 (en) * | 2018-03-22 | 2021-02-09 | Adobe Inc. | Constructing enterprise-specific knowledge graphs |
JP7095377B2 (en) * | 2018-04-17 | 2022-07-05 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and information processing programs |
CN112567378A (en) * | 2018-05-27 | 2021-03-26 | 易鲁希德生物成像公司 | Method and system for utilizing quantitative imaging |
CN109102024B (en) * | 2018-08-14 | 2021-08-31 | 中山大学 | Hierarchical semantic embedded model for fine object recognition and implementation method thereof |
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
WO2021042763A1 (en) | 2019-09-03 | 2021-03-11 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image searches based on word vectors and image vectors |
CN111104973B (en) * | 2019-12-06 | 2022-02-15 | 天津大学 | Knowledge attention-based fine-grained image classification method |
CN113407708B (en) * | 2020-03-17 | 2024-09-03 | 阿里巴巴集团控股有限公司 | Feed generation method, information recommendation method, device and equipment |
CN111950293B (en) * | 2020-06-24 | 2023-06-23 | 北京百度网讯科技有限公司 | Semantic representation model generation method and device, electronic equipment and storage medium |
CN112417287B (en) * | 2020-11-24 | 2024-07-16 | 乐聚(深圳)机器人技术有限公司 | Building block searching method, model training method, device, equipment and storage medium |
CN113128231B (en) * | 2021-04-25 | 2024-09-24 | 深圳市慧择时代科技有限公司 | Data quality inspection method and device, storage medium and electronic equipment |
CN113609335B (en) * | 2021-08-12 | 2023-02-03 | 北京滴普科技有限公司 | Target object searching method, system, electronic equipment and storage medium |
CN114022735B (en) * | 2021-11-09 | 2023-06-23 | 北京有竹居网络技术有限公司 | Training method, device, equipment and medium for visual language pre-training model |
CN116188618B (en) * | 2023-04-24 | 2023-08-15 | 清华大学 | Image generation method and device based on structured semantic graph |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004036497A1 (en) * | 2002-10-18 | 2004-04-29 | Japan Science And Technology Agency | Learning/thinking machine and learning/thinking method based on structured knowledge, computer system, and information generation method |
JP2004152063A (en) * | 2002-10-31 | 2004-05-27 | Nec Corp | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof |
CN100437582C (en) * | 2006-10-17 | 2008-11-26 | 浙江大学 | Image content semanteme marking method |
CN102542067A (en) * | 2012-01-06 | 2012-07-04 | 上海交通大学 | Automatic image semantic annotation method based on scale learning and correlated label dissemination |
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
US9105068B2 (en) * | 2012-11-12 | 2015-08-11 | Facebook, Inc. | Grammar model for structured search queries |
US20150178786A1 (en) * | 2012-12-25 | 2015-06-25 | Catharina A.J. Claessens | Pictollage: Image-Based Contextual Advertising Through Programmatically Composed Collages |
US9330296B2 (en) * | 2013-03-15 | 2016-05-03 | Sri International | Recognizing entity interactions in visual media |
CN103632147A (en) * | 2013-12-10 | 2014-03-12 | 公安部第三研究所 | System and method for implementing standardized semantic description of facial features |
CN103699663B (en) * | 2013-12-27 | 2017-02-08 | 中国科学院自动化研究所 | Hot event mining method based on large-scale knowledge base |
CN104933029A (en) * | 2015-06-23 | 2015-09-23 | 天津大学 | Text image joint semantics analysis method based on probability theme model |
-
2016
- 2016-09-08 DE DE102016010909.2A patent/DE102016010909A1/en active Pending
- 2016-09-09 GB GB1615373.6A patent/GB2544379B/en active Active
- 2016-09-09 CN CN201610816024.3A patent/CN106682060B/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507706A (en) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | Training method and device of knowledge pre-training model and electronic equipment |
CN112507706B (en) * | 2020-12-21 | 2023-01-31 | 北京百度网讯科技有限公司 | Training method and device for knowledge pre-training model and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
GB201615373D0 (en) | 2016-10-26 |
GB2544379A (en) | 2017-05-17 |
GB2544379B (en) | 2019-09-11 |
CN106682060B (en) | 2022-03-15 |
CN106682060A (en) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102016010909A1 (en) | Structured modeling, extraction and localization of knowledge from images | |
DE102016010910A1 (en) | Structured modeling and extraction of knowledge from images | |
CN106682059B (en) | Modeling and extraction from structured knowledge of images | |
US10460033B2 (en) | Structured knowledge modeling, extraction and localization from images | |
DE112015002286T9 (en) | VISUAL INTERACTIVE SEARCH | |
DE102016013372A1 (en) | Image labeling with weak monitoring | |
DE102020007571A1 (en) | Use natural language processing and multiple object detection models to automatically select objects in images | |
CN111858954A (en) | Task-oriented text-generated image network model | |
DE102020001790A1 (en) | Text-in-picture embedding techniques based on machine learning | |
CN109783657A (en) | Multistep based on limited text space is from attention cross-media retrieval method and system | |
DE102019001663A1 (en) | Compilation-sensitive digital image search | |
DE102019001267A1 (en) | Dialog-like system for answering inquiries | |
CN108268600B (en) | AI-based unstructured data management method and device | |
DE102019000294A1 (en) | Create company-specific knowledge graphs | |
US20240330361A1 (en) | Training Image and Text Embedding Models | |
DE102017011262A1 (en) | Theme linking and marking for dense images | |
DE102016014798A1 (en) | Precise prediction of label relevance in a picture query | |
DE112018006345T5 (en) | GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS | |
CN102955848A (en) | Semantic-based three-dimensional model retrieval system and method | |
Malinowski et al. | A pooling approach to modelling spatial relations for image retrieval and annotation | |
CN112948575B (en) | Text data processing method, apparatus and computer readable storage medium | |
DE102021004562A1 (en) | Modification of scene graphs based on natural language commands | |
DE102018008268A1 (en) | Automatically generate instructions from tutorials for search and user navigation | |
DE102018007024A1 (en) | DOCUMENT BROKEN BY GRAMMATIC UNITS | |
AU2016225820B2 (en) | Structured knowledge modeling, extraction and localization from images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R083 | Amendment of/additions to inventor(s) | ||
R081 | Change of applicant/patentee |
Owner name: ADOBE INC., SAN JOSE, US Free format text: FORMER OWNER: ADOBE SYSTEMS INCORPORATED, SAN JOSE, CALIF., US |
|
R082 | Change of representative |
Representative=s name: MUELLER-BORE & PARTNER PATENTANWAELTE PARTG MB, DE |
|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009640000 Ipc: G06V0030192000 |
|
R016 | Response to examination communication |