DE212011100024U1 - Search with common image audio queries - Google Patents
Search with common image audio queries Download PDFInfo
- Publication number
- DE212011100024U1 DE212011100024U1 DE212011100024U DE212011100024U DE212011100024U1 DE 212011100024 U1 DE212011100024 U1 DE 212011100024U1 DE 212011100024 U DE212011100024 U DE 212011100024U DE 212011100024 U DE212011100024 U DE 212011100024U DE 212011100024 U1 DE212011100024 U1 DE 212011100024U1
- Authority
- DE
- Germany
- Prior art keywords
- image
- query
- audio
- data
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
Abstract
System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist;...A system, comprising: a data processing device and a computer storage medium encoded with a computer program, the program comprising instructions that, when executed by the computing device, cause the computing device to perform operations, comprising: receiving a common image audio query from a client device, the common image audio query containing query image data defining a query image and query audio data defining a query audio; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; containing a resource text for the resource, and where each relevance score is a measure of the relevance of the corresponding image audio query resource;
Description
ALLGEMEINER STAND DER TECHNIKGENERAL PRIOR ART
Die vorliegende Patentschrift betrifft das Verarbeiten von Abfragen, insbesondere von Abfragen, die sowohl ein Bild als auch ein assoziiertes Audio enthalten.The present specification relates to the processing of queries, in particular queries containing both an image and an associated audio.
Das Internet liefert Zugang zu einer großen Vielzahl an Ressourcen, beispielsweise Videodateien, Bilddateien, Audiodateien oder Webseiten mit Inhalt für bestimmte Themen, Buchartikel oder Verbraucherprodukte. Ein Suchsystem kann als Reaktion auf das Empfangen einer Suchabfrage eine oder mehrere Ressourcen wählen. Bei einer Suchabfrage handelt es sich um Daten, die ein Benutzer einer Suchmaschine unterbreitet, um die Informationsbedürfnisse des Benutzers zufriedenzustellen. Das Suchsystem wählt und beurteilt Ressourcen auf der Basis ihrer Relevanz für die Suchabfrage. Die Suchergebnisse werden in der Regel gemäß den Punktwerten geordnet und in einer Suchergebnisseite bereitgestellt.The Internet provides access to a wide variety of resources, such as video files, image files, audio files, or content-targeted web pages, book articles, or consumer products. A search system may choose one or more resources in response to receiving a search query. A search query is data that a user submits to a search engine to satisfy the user's information needs. The search system selects and evaluates resources based on their relevance to the search query. Search results are typically ordered by scores and posted on a search results page.
Zum Suchen von Bildressourcen kann ein Suchsystem die Relevanz eines Bildes für eine Textabfrage auf der Basis des Textinhalts der Ressource bestimmen, in der sich das Bild befindet, und auch auf der Basis von mit dem Bild assoziierten Relevanzfeedback. Einige Suchsysteme suchen Bildressourcen unter Verwendung von Abfragebildern als Eingabe. Ein Abfragebild ist ein Bild wie etwa eine jpeg-Datei, die von einer Suchmaschine als Eingabe für eine Suchverarbeitungsoperation verwendet wird. Verwandte Bilder können gefunden werden, indem andere Bilder verarbeitet und Bilder identifiziert werden, die vom visuellen Erscheinungsbild her dem Abfragebild ähnlich sind. Die Verwendung von Abfragebildern wird mit dem Aufkommen von Smartphones, die Kameras enthalten, viel vorherrschender. Beispielsweise kann ein Benutzer mit einem Smartphone nun ein Bild von einem interessierenden Gegenstand aufnehmen und das Bild einer Suchmaschine unterbreiten. Die Suchmaschine sucht dann Bildressourcen unter Verwendung des Bildes als Abfragebild.For searching image resources, a search system may determine the relevance of an image for a text query based on the textual content of the resource in which the image resides, and also based on relevance feedback associated with the image. Some search systems seek image resources as input using query images. A query image is an image, such as a jpeg file, that is used by a search engine as input to a search processing operation. Related images can be found by processing other images and identifying images that are similar in visual appearance to the query image. The use of query images becomes more prevalent with the advent of smartphones incorporating cameras. For example, a user with a smartphone can now take a picture of an object of interest and submit the picture to a search engine. The search engine then searches for image resources using the image as a query image.
Betrachter interpretieren jedoch Bilder auf viel subjektivere Weise als Text. Während die Bilder, die identifiziert werden, möglicherweise von der Erscheinung her dem Abfragebild ähneln, sind somit möglicherweise viele der Bilder für den Betrachter nicht von Interesse. Beispielsweise kann ein Benutzer eine Suche über ein Bild eines Wagens durchführen. Der Benutzer ist vielleicht an anderen Wagen dieser Marke interessiert, doch könnte eine Bildsuche nur auf der Basis der visuellen Ähnlichkeit möglicherweise mit Bildern von Wagen von unterschiedlichen Marken antworten.However, viewers interpret images in a much more subjective way than text. While the images that are identified may be similar in appearance to the query image, many of the images may not be of interest to the viewer. For example, a user may perform a search over an image of a car. The user may be interested in other cars of this brand, but an image search could possibly only respond to images of cars from different brands based on visual similarity.
KURZE DARSTELLUNG DER ERFINDUNGBRIEF SUMMARY OF THE INVENTION
Allgemein kann ein innovativer Aspekt des in dieser Patentschrift beschriebenen Gegenstands in Systemen verkörpert werden zum Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert; und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.In general, an innovative aspect of the subject matter described in this specification may be embodied in systems for receiving a common image audio query from a client device, the common image audio query containing query image data defining a query image and query audio data representing a query audio define; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; which defines a resource text for the resource, and wherein each relevance score is a measure of the relevance of the corresponding image audio interrogation resource; Ordering the resources according to the corresponding relevance score; and providing data defining search results indicating the order of the resources to the client device. Other embodiments of this aspect include corresponding systems, devices, and computer programs that are configured to perform acts encoded on computer storage devices.
Ein weiterer Aspekt des in dieser Patentschrift beschriebenen Gegenstands kann in Systemen implementiert werden zum Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.Another aspect of the subject matter described in this patent may be implemented in systems for accessing image annotation data describing a plurality of annotation pairs, each annotation pair including image data defining an image and textual data associated with the image; Accessing resources, each resource defining a resource image for the resource and text data defining resource text for the resource; and training a common image-audio relevance model on the image annotation data and the resources to generate relevance score values for a plurality of resources, and wherein each relevance score is a measure of the relevance of a corresponding image-audio resource, the query image data defining a query image. and query audio data defining query audio contains. Other embodiments of this aspect include corresponding systems, devices, and computer programs that are configured to perform acts encoded on computer storage devices.
Bestimmte Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands können so implementiert werden, dass ein oder mehrere der folgenden Vorteile realisiert werden. Das Hinzufügen von Audiodaten zu einer Bildabfrage kann die Relevanz von Suchergebnissen für die Abfrage verbessern. Die Relevanz kann verbessert werden, indem sowohl Informationen geliefert werden, die dem System beim Extrahieren des interessierenden Objekts in einem Bild helfen können, und auch indem Informationen geliefert werden, die die Suche des Benutzers über das hinaus ergänzt, was in dem Bild gefunden werden kann. Diese Informationen können auch auf unterschiedliche andere Weisen hinzugefügt werden. Bei einigen Ausführungsformen kann ein Abschnitt des Bildes von dem Benutzer, der unter Verwendung eines Touchscreens auf dem Bild einen Kreis zeichnet, so gewählt werden, dass er das interessierende Objekt enthält. Der Benutzer kann auch das interessierende Objekt enger als mit einem Kreis oder einer anderen Gestalt umreißen und kann auch den Umriss unter Verwendung anderer Eingabeverfahren zeichnen. Bei einigen Ausführungsformen kann der Benutzer zusätzliche Informationen hinsichtlich des Bildes unter Verwendung eines Dropdown-Menükastens hinzufügen. Der Menükasten kann verschiedene Kategorien von Elementen aufweisen, wie etwa Einkaufskategorien einschließlich Schuhe, Hemden, Hosen und andere ähnliche Kategorien. Certain embodiments of the subject matter described in this specification may be implemented to realize one or more of the following advantages. Adding audio to an image query can improve the relevance of search results for the query. The relevance can be improved by providing both information that can assist the system in extracting the object of interest in an image and also by providing information that complements the user's search beyond what can be found in the image , This information can also be added in a variety of other ways. In some embodiments, a portion of the image of the user who circles a circle on the image using a touchscreen may be selected to include the object of interest. The user may also outline the object of interest more closely than with a circle or other shape, and may also draw the outline using other input methods. In some embodiments, the user may add additional information regarding the image using a drop-down menu box. The menu box may have various categories of items, such as shopping categories including shoes, shirts, pants, and other similar categories.
Die Einzelheiten von einer oder mehreren Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands sind in den beiliegenden Zeichnungen und der folgenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstands ergeben sich aus der Beschreibung, den Zeichnungen und den Ansprüchen.The details of one or more embodiments of the subject matter described in this specification are set forth in the accompanying drawings and the description below. Other features, aspects and advantages of the subject matter will be apparent from the description, drawings and claims.
KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION
§ 1.0 Übersicht § 1.0 Overview
Eine auf einem Mobiltelefon laufende Applikation gestattet einem Benutzer, ein Bild eines Objekts aufzunehmen und in das Telefon zu sprechen, um die Sprache des Benutzers aufzuzeichnen. Die Audioaufzeichnung wird mit dem Bild gepaart, um eine gemeinsame Bildaudioabfrage auszubilden. Die mobile Einrichtung unterbreitet dann die gemeinsame Bildaudioabfrage einem Suchsystem.An application running on a mobile phone allows a user to take a picture of an object and speak into the phone to record the user's speech. The audio recording is paired with the image to form a common image audio query. The mobile device then submits the common image audio query to a search system.
Das Suchsystem empfängt die gemeinsame Bildaudioabfrage und bestimmt Textdaten anhand der Sprache und generiert Bildmerkmalsdaten anhand des Bildes. Das Suchsystem verwendet die Textdaten und die Bildmerkmalsdaten als Eingaben in ein gemeinsames Bild-Audio-Relevanzmodell, das Ressourcen mit den eingegebenen Daten vergleicht. Bei den Ressourcen kann es sich um beliebige der im Internet gefundenen Ressourcen handeln, einschließlich Webseiten, Dokumenten, Bildern und Video. Als ein Beispiel kann jede Ressource ein Dokument für ein Produkt sein, das ein Bild des Produkts und assoziierte Textdaten des Produkts enthält. Das gemeinsame Bild-Audio-Relevanzmodell vergleicht die Abfragebildmerkmalsdaten mit den Bildmerkmalsdaten jeder Ressource und die Abfragetextdaten mit den entsprechenden Ressourcentextdaten und berechnet einen Relevanzpunktwert für jede Ressource. Das System ordnet die Ressourcen gemäß den Relevanzpunktwerten und legt dem Benutzer Suchergebnisse vor. Die Suchergebnisse enthalten Links zu den geordneten Ressourcen und können auch zusätzliche Informationen über jede Ressource enthalten, beispielsweise Vorschaubilder des Ressourcenbilds oder Teilmengen des Ressourcentexts.The search system receives the common image audio query and determines text data based on the language and generates image feature data based on the image. The search system uses the text data and the image feature data as inputs to a common image audio relevance model that compares resources with the input data. The resources can be any of the resources found on the Internet, including web pages, documents, images, and video. As an example, each resource may be a document for a product containing an image of the product and associated text data of the product. The common image audio relevancy model compares the query image feature data with the image feature data of each resource and the query text data with the corresponding resource text data, and calculates a relevance score value for each resource. The system organizes the resources according to the relevance score values and presents search results to the user. The search results contain links to the ordered resources and may also contain additional information about each resource, such as thumbnails of the resource image or subsets of the resource text.
Damit das gemeinsame Bild-Audio-Relevanzmodell die Relevanz einer gemeinsamen Bildaudioabfrage für die Ressourcen bestimmen kann, wird das Modell zuerst trainiert. Das Trainieren des Modells beinhaltet das Verwenden von Bildanmerkungsdaten, die Anmerkungspaare sind. Jedes Anmerkungspaar ist ein Bild, das mit mit dem Bild assoziierten Textdaten gepaart ist. Diese Anmerkungspaare werden als Trainingseingaben für das gemeinsame Bild-Audio-Relevanzmodell zusammen mit Trainings- und Testressourcen für die Anmerkungspaare verwendet. Das gemeinsame Bild-Audio-Relevanzmodell wird trainiert, bis die Testressourcen auf eine Weise eingestuft sind, die als annehmbar erachtet wird, wie durch ein oder mehrere Kriterien definiert.In order for the common image audio relevancy model to determine the relevance of a common image audio query for the resources, the model is first trained. Training the model involves using image annotation data, which are annotation pairs. Each annotation pair is an image paired with text data associated with the image. These annotation pairs are used as training inputs for the common image audio relevance model along with training and test resources for the annotation pairs. The common image audio relevance model is trained until the test resources are ranked in a way that is deemed acceptable, as defined by one or more criteria.
Die Benutzereinrichtung
Es sei beispielsweise angenommen, dass ein Benutzer nach einer Wasserflasche sucht und das Abfragebild
Selbst bei nur einem Objekt in dem Bild können Audioinformationen die Ergebnisse einer Suche verbessern. Beispielsweise enthält
Weiterhin kann der Benutzer auch Parameter durch die Verwendung von Audio liefern, um die Suchergebnisse zu beschränken. Beispielsweise sucht der Benutzer möglicherweise in einer Produktdatenbank, um eine Wasserflasche zum Kauf zu finden. Der Benutzer kann dem Suchsystem das Bild
Wieder unter Bezugnahme auf
Das Suchsystem
Bei einigen Implementierungen berechnet das Suchsystem unter Verwendung des gemeinsamen Bild-Audio-Relevanzmodells
- RELi
- ein Relevanzpunktwert für eine Ressource Ri;
- S
- die
Audiodaten 124 ; - I
- die
Bilddaten 122 ; und - Ri
- eine gegebene Ressource in einer Ressourcendatenbank oder einem Ressourcenzwischenspeicher sind. Die Funktion f(S, I, R) wird unter Bezugnahme auf
3B unten ausführlicher beschrieben.
- REL i
- a relevance score for a resource R i ;
- S
- the
audio data 124 ; - I
- the
image data 122 ; and - R i
- are a given resource in a resource database or a resource cache. The function f (S, I, R) will be described with reference to
3B described in more detail below.
Bei einer Ressource
Für jede i-te Ressource bestimmt das Suchsystem
§ 2.0 Verarbeiten einer gemeinsamen Bild-Audio-Abfrage§ 2.0 Processing a common image-audio query
Die Audiodatei
Unter Verwendung der Verarbeitung von natürlicher Sprache kann das Suchsystem
Unter Verwendung einer Verarbeitung von natürlicher Sprache kann das Suchsystem
Aus den Bilddaten
Das gemeinsame Bild-Audio-Relevanzmodell
Bei einigen Implementierungen kann dieser Prozess einmal oder mehrmals iterativ wiederholt werden. Beispielsweise kann das System
§ 3.0 Trainieren des gemeinsamen Bild-Audio-Relevanzmodells§ 3.0 Training the common image-audio relevance model
Damit das gemeinsame Bild-Audio-Relevanzmodell
Indem Anmerkungspaare aus der Trainingsmenge genommen werden, werden Bildmerkmalsdaten
Mit der Testmenge von Anmerkungsdaten kann dann das trainierte Modell verifiziert werden. Das trainierte Modell kann als Eingabe Anmerkungspaare von der Testmenge zusammen mit Ressourcen, die eine vorbestimmte Relevanz für jedes der Testpaare aufweisen, empfangen. Die Testpaare und Ressourcen würden verarbeitet werden, um Merkmalsdaten zu generieren, wie dies mit den Trainingspaaren geschieht. Das Modell würde dann Relevanzpunktwerte für jede dieser Mengen von Eingaben generieren. Falls die Rekvanzpunktwerte. innerhalb eines Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell adäquat trainiert. Falls jedoch das Modell Relevanzpunktwerte generiert, die nicht innerhalb des Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell nicht adäquat trainiert und der Trainingsprozess kann mit der Trainingsmenge von Anmerkungsdaten wiederholt werden und die zugewiesenen Gewichte können erneut evaluiert und verstellt werden.With the test set of annotation data, the trained model can then be verified. The trained model may receive as input annotation pairs from the test set along with resources having a predetermined relevance for each of the test pairs. The test pairs and resources would be processed to generate feature data, as happens with the training pairs. The model would then generate relevance score values for each of these sets of inputs. If the recovation point values. within a threshold range of acceptability, then the model is adequately trained. However, if the model generates relevance point values that are not within the threshold range of acceptability, then the model is not adequately trained and the training process can be repeated with the training set of annotation data and the assigned weights can be re-evaluated and adjusted.
Dieser Schwellwertbereich kann auf viele verschiedene Arten festgelegt werden. Beispielsweise können jedem der qualitativen Skalenwerte in der vorbestimmten Relevanzskala Relevanzpunktwertbereiche zugewiesen werden. Falls beispielsweise die von dem Modell generierten Relevanzpunktwerte von 1 bis 100 gehen, kann der Schwellwert bei einer binären vorbestimmten Relevanzskala auf größer oder gleich 50 für relevant und weniger als 50 für nichtrelevant eingestellt werden. Alternativ kann der Schwellwert strenger gemacht werden, indem beispielsweise über 75 für relevant und unter 25 für nichtrelevant zugewiesen wird. Dies kann für ein effektiveres Bild-Audio-Relevanzmodell sorgen, kann aber auch mehr Iterationen des Trainings zum Herstellen erfordern. Alternativ kann der Schwellwert der Akzeptabilität qualitativer werden. Beispielsweise kann es für ein gegebenes Anmerkungspaar eine Menge von Ressourcen mit einer vorbestimmten Einstufung von relevanter bis weniger relevant geben. Die Akzeptabilität des Trainings des Modells kann evaluiert werden, indem geprüft wird, wie nahe das trainierte Modell dem kommt, die korrekte Einstufung der Ressourcen für das Anmerkungspaar zu liefern.This threshold range can be set in many different ways. For example, each of the qualitative scale values in the predetermined relevance scale may be assigned relevance score ranges. For example, if the relevance point values generated by the model range from 1 to 100, the threshold may be set to greater than or equal to 50 for a binary predetermined relevance scale and less than 50 for non-relevant. Alternatively, the threshold can be made stricter by, for example, assigning over 75 to be relevant and less than 25 to irrelevant. This can provide a more effective image-audio-relevance model, but may also require more iterations of training to manufacture. Alternatively, the threshold of acceptability may become more qualitative. For example, for a given annotation pair, there may be a set of resources with a predetermined ranking of more relevant to less relevant. The acceptability of training the model can be evaluated by examining how closely the trained model comes to provide the correct rating of the resources for the annotation pair.
§ 3.1 Auswahl von Anmerkungspaardaten§ 3.1 Selection of Note Pairing Data
Die Anmerkungsdaten können auf eine Vielzahl von Wegen erhalten werden. Bei einer Implementierung werden die Anmerkungsdaten aus einer Produktdatenbank abgeleitet, wobei die Produktdatenbank eine Sammlung von Produktdokumenten aufweist. Jedes Produktdokument hat ein Bild eines Produkts und assoziierten Text mit Informationen über das Produkt, wie etwa eine Beschreibung, Preise, Verkäufer des Produkts und Besprechungen und Einstufungen sowohl des Produkts als auch der Verkäufer des Produkts. Das Anmerkungspaar
Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus Bildsuchergebnisdaten abgeleitet. Der von Benutzern in ein Bildsuchsystem eingegebene Abfrageeingabetext kann als die Anmerkungstextdaten
Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus allgemeinen Websuchergebnisdaten abgeleitet. Von Benutzern in einem Websuchsystem eingegebener Abfrageeingabetext kann als die Anmerkungstextdaten
Bei einer weiteren Implementierung können menschliche Kommentatoren verwendet werden, um Trainingsdaten zu liefern. Die Kommentatoren können anhand einer Fotografie das Anmerkungsbild
§ 3.2 Beispielhafte Bewertungsmodelle§ 3.2 Exemplary evaluation models
Es kann eine Vielzahl von Modellen verwendet werden, um die Relevanzfunktion f(S, I, R) zu realisieren, und Beispiele sind unten beschrieben. Ein beispielhaftes Modell implementiert eine Relevanzfunktion, die eine lineare Kombination aus einzelnen Modellen ist, die auf Bildmerkmalsdaten und Audio- und Textdaten trainiert sind, d. h.
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), die die Menge von in Betracht gezogenen Ressourcenelementen auf nur jene mit die Wörter in S enthaltenden Textbeschreibungen beschränkt. Mit dieser eingeschränkten Menge bewertet das Modell dann die Relevanz der Bildmerkmalsdaten. Somit würde die Relevanzfunktion
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), wobei eine Bildmerkmalsrelevanzfunktion für jede mögliche Wahl von S gelernt wird, d. h.
Noch ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion unter Verwendung einer linearen Einstufungsfunktion, d. h.
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die eine Erweiterung des Ansatzes ist, die sich in dem hier durch Bezugnahme aufgenommenen Aufsatz „Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings” von Jason Weston, Samy Bengio und Nicolas Usunier („Weston-Aufsatz”) befindet. Der Ansatz in dem Weston-Aufsatz beinhaltet das Training an einer „Einbettungsraum”-Darstellung von willkürlicher Dimension, wo der Abstand zwischen zwei Elementen in dem Raum ihre Ähnlichkeit bezeichnet. Dieses Modell beinhaltet die Funktion
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die den Ansatz des Weston-Aufsatzes weiter erweitert. Die Relevanzfunktion wird definiert durch
§ 4.0 Beispielhafte Prozesse§ 4.0 Exemplary processes
Der Prozess
Der Prozess
Der Prozess
Der Prozess
Der Prozess
Der Prozess
Der Prozess
Der Prozess
Der Prozess
§ 5.0 Zusätzliche Implementierungsdetails§ 5.0 Additional Implementation Details
Implementierungen des Gegenstands und der Operationen, die in dieser Patentschrift beschrieben werden, können in digitaler elektronischer Schaltungsanordnung oder in Computersoftware, -firmware oder -hardware implementiert werden, einschließlich der in dieser Patentschrift offenbarten Strukturen und ihren strukturellen Äquivalenten oder in Kombinationen aus einer oder mehreren von ihnen. Implementierungen des in dieser Patentschrift beschriebenen Gegenstands können als ein oder mehrere Computerprogramme implementiert werden, d. h. ein oder mehrere Module von Computerprogrammanweisungen, auf einem Computerspeichermedium codiert zur Ausführung durch die oder zur Steuerung der Operation der Datenverarbeitungsvorrichtung. Alternativ oder zusätzlich können die Programmanweisungen auf einem künstlich generierten verbreiteten Signal codiert werden, beispielsweise einem maschinengenerierten elektrischen, optischen oder elektromagnetischen Signal, das generiert wird, um Informationen zur Übertragung zu einer geeigneten Empfängervorrichtung zur Ausführung durch eine Datenverarbeitungsvorrichtung zu codieren. Ein Computerspeichermedium kann eine computerlesbare Speichereinrichtung, ein computerlesbares Speichersubstrat, ein Zufalls- oder Reihenzugangsspeicherarray oder eine Zufalls- oder Reihenzugangseinrichtung oder eine Kombination aus einer oder mehreren von ihnen sein oder darin enthalten sein. Wenngleich ein Computerspeichermedium kein verbreitetes Signal ist, kann zudem ein Computerspeichermedium eine Quelle oder ein Ziel von Computerprogrammanweisungen sein, die in einem künstlich generierten verbreiteten Signal codiert sind. Das Computerspeichermedium kann auch ein oder mehrere getrennte physische Komponenten oder Medien (beispielsweise mehrere CDs, Disketten oder andere Speichereinrichtungen) sein oder darin enthalten sein.Implementations of the subject matter and operations described in this specification may be implemented in digital electronic circuitry or in computer software, firmware, or hardware, including the structures disclosed in this patent and their structural equivalents, or combinations of one or more of them. Implementations of the subject matter described in this specification may be implemented as one or more computer programs, i. H. one or more modules of computer program instructions encoded on a computer storage medium for execution by or for controlling the operation of the computing device. Alternatively or additionally, the program instructions may be encoded on an artificially generated broadcast signal, such as a machine-generated electrical, optical or electromagnetic signal generated to encode information for transmission to a suitable receiver device for execution by a data processing device. A computer storage medium may be or may be included in a computer readable storage device, a computer readable storage substrate, a random or serial access storage array, or a random or serial access device, or a combination of one or more of them. In addition, although a computer storage medium is not a broadcast signal, a computer storage medium may be a source or destination of computer program instructions encoded in an artificially generated broadcast signal. The computer storage medium may also be one or more separate physical components or media (eg, multiple CDs, floppy disks, or other storage devices) or included therein.
Die in dieser Patentschrift beschriebenen Operationen können als Operationen implementiert werden, die von einer Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einer oder mehreren computerlesbaren Speichereinrichtungen gespeichert sind oder von anderen Quellen empfangen werden.The operations described in this patent may be implemented as operations performed by a data processing device on data stored on or received from other sources by one or more computer readable storage devices.
Der Ausdruck „Datenverarbeitungsvorrichtung” umfasst alle Arten von Vorrichtungen, Einrichtungen und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise einem programmierbaren Prozessor, einem Computer, einem System auf einem Chip, oder mehrere einzelne oder Kombinationen der obigen. Die Vorrichtung kann eine Speziallogikschaltungsanordnung enthalten, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit). Die Vorrichtung kann zusätzlich zu Hardware einen Code enthalten, der eine Ausführungsumgebung für das fragliche Computerprogramm erzeugt, beispielsweise einen Code, der Prozessorfirmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, eine virtuelle Maschine oder eine Kombination aus einem oder mehreren von ihnen bildet. Die Vorrichtung und die Ausführungsumgebung können verschiedene Rechenmodellinfrastrukturen wie etwa Webdienste, verteilte Rechen- und Netzrecheninfrastrukturen realisieren.The term "data processing device" includes all types of devices, devices, and machines for processing data, including, for example, one programmable processor, a computer, a system on a chip, or several individual or combinations of the above. The device may include special logic circuitry, such as an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit). The apparatus may include, in addition to hardware, code that generates an execution environment for the computer program in question, such as code, the processor firmware, a protocol stack, a database management system, an operating system, a cross-platform runtime environment, a virtual machine, or a combination of one or more of forms them. The device and execution environment may implement various computing model infrastructures, such as web services, distributed computing and network computing infrastructures.
Ein Computerprogramm (auch als ein Programm, Software, Softwareanwendung, Script oder Code bekannt) kann in einer beliebigen Form von Programmiersprache geschrieben sein, einschließlich kompilierter oder interpretierter Sprachen, deklarativer oder prozeduraler Sprachen, und es kann in beliebiger Form eingesetzt werden, einschließlich als ein unabhängiges Programm oder als ein Modul, eine Komponente, eine Teilroutine, ein Objekt oder irgendeine andere Einheit, die sich zur Verwendung in einer Rechenumgebung eignet. Ein Computerprogramm kann, aber muss nicht, einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Abschnitt einer Datei gespeichert sein, die andere Programme oder Daten hält (beispielsweise ein oder mehrere, in einem Markup-Language-Dokument gespeicherte Scripts), in einer dem fraglichen Programm gewidmeten einzelnen Datei oder in mehreren koordinierten Dateien (beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Abschnitte von Code speichern) gespeichert sein. Ein Computerprogramm kann eingesetzt werden, um auf einem Computer oder auf mehreren Computern ausgeführt zu werden, die sich an einem Ort befinden oder über mehrere Orte verteilt und durch ein Kommunikationsnetz verbunden sind.A computer program (also known as a program, software, software application, script or code) may be written in any form of programming language, including compiled or interpreted languages, declarative or procedural languages, and may be used in any form, including as a independent program or as a module, component, subroutine, object or any other entity suitable for use in a computing environment. A computer program may or may not be equivalent to a file in a file system. A program may be stored in a portion of a file that holds other programs or data (for example, one or more scripts stored in a markup language document), a single file dedicated to the program in question, or multiple coordinated files (eg, files that store one or more modules, partial programs or sections of code). A computer program may be used to run on a computer or on multiple computers that are in one place or distributed over multiple locations and connected through a communication network.
Die in dieser Patentschrift beschriebenen Prozesse und Logikflüsse können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Aktionen durchzuführen, indem an Eingangsdaten gearbeitet und eine Ausgabe generiert wird. Die Prozesse und Logikflüsse können auch durch eine Speziallogikschaltungsanordnung, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit) durchgeführt werden und die Vorrichtung kann auch als diese implementiert werden.The processes and logic flows described in this patent may be performed by one or more programmable processors that execute one or more computer programs to perform actions by working on input data and generating an output. The processes and logic flows may also be performed by special logic circuitry, such as a Field Programmable Gate Array (FPGA) or Application Specific Integrated Circuit (ASIC), and the device may also be implemented as such.
Prozessoren, die sich für die Ausführung eines Computerprogramms eignen, enthalten beispielsweise sowohl Allzweck- als auch Spezialmikroprozessoren und einen oder mehrere beliebige Prozessoren einer beliebigen Art von Digitalcomputer. Allgemein wird ein Prozessor Anweisungen und Daten von einem Festwertspeicher oder einem Direktzugriffspeicher oder beiden empfangen. Die essenziellen Elemente eines Computers sind ein Prozessor zum Durchführen von Aktionen gemäß Anweisungen und ein oder mehrere Speichereinrichtungen zum Speichern von Anweisungen und Daten. Allgemein enthält ein Computer auch eine oder mehrere Massenspeichereinrichtungen zum Speichern von Daten, beispielsweise magnetische, magnetooptische Platten oder optische Platten oder wird operativ gekoppelt sein, um Daten von diesen zu empfangen oder Daten zu ihnen zu transferieren oder beides. Jedoch braucht ein Computer keine derartigen Einrichtungen aufzuweisen. Zudem kann ein Computer in eine andere Einrichtung eingebettet sein, beispielsweise ein Mobiltelefon, einen PDA (Personal Digital Assistant), einen mobilen Audio- oder Videoplayer, eine Spielekonsole, einen GPS-Empfänger (Global Positioning System) oder eine tragbare Speichereinrichtung (beispielsweise ein USB-Flash-Laufwerk (Universal Serial Bus), um nur einige zu nennen. Einrichtungen, die sich zum Speichern von Computerprogrammanweisungen und Daten eignen, beinhalten alle Formen eines nichtflüchtigen Speichers, von Medien und Speichereinrichtungen, einschließlich beispielsweise Halbleiterspeichereinrichtungen, beispielsweise EPROM, EEPROM und Flash-Speichereinrichtungen; magnetische Platten, beispielsweise interne Festplatten oder entfernbare Platten; magnetooptische Platten und CD-ROM- und DVD-ROM-Platten. Der Prozessor und der Speicher können durch eine Speziallogikschaltungsanordnung ergänzt werden oder in diese integriert sein.For example, processors suitable for executing a computer program include both general purpose and specialty microprocessors and one or more arbitrary processors of any type of digital computer. Generally, a processor will receive instructions and data from a read only memory or random access memory or both. The essential elements of a computer are a processor for performing actions in accordance with instructions and one or more memory devices for storing instructions and data. Generally, a computer also includes one or more mass storage devices for storing data, such as magnetic, magneto-optical disks, or optical disks, or will be operably coupled to receive data from or transfer data to them, or both. However, a computer need not have such facilities. In addition, a computer may be embedded in another device, such as a mobile phone, a personal digital assistant (PDA), a mobile audio or video player, a game console, a Global Positioning System (GPS) receiver, or a portable storage device (such as a USB Universal serial bus, just to name a few, means suitable for storing computer program instructions and data include all forms of nonvolatile memory, media, and memory devices including, for example, semiconductor memory devices such as EPROM, EEPROM, and Flash Magnetic disks, such as internal hard disks or removable disks, magneto-optical disks, and CD-ROM and DVD-ROM disks The processor and memory may be supplemented or integrated with special logic circuitry.
Um eine Interaktion mit einem Benutzer bereitzustellen, können Implementierungen des in dieser Spezifikation beschriebenen Gegenstands auf einem Computer mit einer Displayeinrichtung implementiert werden, beispielsweise einem Kathodenstrahlröhren- oder LCD-(Liquid Crystal Display – Flüssigkristallanzeige)Monitor, um dem Benutzer Informationen anzuzeigen, und eine Tastatur und eine Zeigeeinrichtung, beispielsweise eine Maus oder einen Trackball, durch die der Benutzer Eingabe in den Computer bereitstellen kann. Andere Arten von Einrichtungen können verwendet werden, um auch für eine Interaktion mit einem Benutzer zu sorgen; beispielsweise kann ein dem Benutzer geliefertes Feedback jede Form an sensorischem Feedback sein, beispielsweise visuelles Feedback, auditorisches Feedback oder taktiles Feedback; und Eingabe von dem Benutzer kann in einer beliebigen Form empfangen werden, einschließlich akustischer, Sprach- oder taktiler Eingabe. Außerdem kann ein Computer mit einem Benutzer interagieren durch Senden von Dokumenten an und Empfangen von Dokumenten von einer Einrichtung, die von dem Benutzer verwendet wird; beispielsweise durch Senden von Webseiten an einen Webbrowser auf einer Clienteinrichtung des Benutzers als Reaktion auf von dem Webbrowser empfangenen Anforderungen.To provide for interaction with a user, implementations of the subject matter described in this specification may be implemented on a computer having a display device, such as a CRT or LCD (Liquid Crystal Display) monitor to display information to the user, and a keyboard and a pointing device, such as a mouse or a trackball, through which the user can provide input to the computer. Other types of devices may be used to also provide interaction with a user; for example, feedback provided to the user may be any form of sensory feedback, such as visual feedback, auditory feedback, or tactile feedback; and input from the user may be received in any form, including acoustic, voice or tactile input. Additionally, a computer may interact with a user by sending documents to and receiving documents from a device used by the user; for example, by sending web pages to a web browser on a client device of the user in response to requests received from the web browser.
Wenngleich diese Patentschrift viele spezifische Implementierungsdetails enthält, sollten diese nicht als Beschränkungen des Schutzbereichs etwaiger Offenbarungen oder dessen, was beansprucht werden kann, ausgelegt werden, sondern vielmehr als Beschreibungen von Merkmalen, die bestimmten Implementierungen von bestimmten Offenbarungen zu eigen sind. Bestimmte Merkmale, die in dieser Patentschrift in dem Kontext separater Implementierungen beschrieben sind, können auch in Kombination in einer einzelnen Implementierung implementiert werden. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzelnen Implementierung beschrieben werden, auch in mehreren Implementierungen separat oder in einer beliebigen geeigneten Teilkombination implementiert werden. Wenngleich Merkmale oben so beschrieben worden sein können, dass sie in bestimmten Kombinationen wirken und sogar anfänglich als solche beansprucht sind, können zudem ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination entfernt werden, und die beanspruchte Kombination kann eine Teilkombination oder eine Variation einer Teilkombination betreffen.While this specification contains many specific implementation details, these should not be construed as limitations on the scope of any disclosures or claims that may be claimed, but rather as descriptions of features that are inherent in particular implementations of particular disclosures. Certain features described in this patent in the context of separate implementations may also be implemented in combination in a single implementation. Conversely, various features described in the context of a single implementation may also be implemented in multiple implementations separately or in any suitable subcombination. Moreover, although features above may be described as acting and even initially claimed as such in certain combinations, in some instances, one or more features of a claimed combination may be removed from the combination in some instances, and the claimed combination may be a partial combination or combination relate to a variation of a sub-combination.
Wenngleich Operationen in den Zeichnungen in einer bestimmten Reihenfolge gezeigt sind, sollte dies analog nicht so verstanden werden, als wenn es erfordert, dass solche Operationen in der gezeigten bestimmten Reihenfolge oder in einer sequenziellen Reihenfolge ausgeführt werden oder dass alle dargestellten Operationen ausgeführt werden, um erwünschte Ergebnisse zu erzielen. In gewissen Umständen können Multitasking und parallele Verarbeitung vorteilhaft sein. Zudem sollte die Trennung von verschiedenen Systemkomponenten in den oben beschriebenen Implementierungen nicht so verstanden werden, als wenn dies eine Trennung in allen Implementierungen erfordert, und es ist zu verstehen, dass die beschriebenen Programmkomponenten und Systeme allgemein zusammen in einem einzelnen Softwareprodukt integriert sein können oder zu mehreren Softwareprodukten verpackt sein können.Similarly, while operations in the drawings are shown in a particular order, this should not be construed analogously as requiring that such operations be performed in the particular order shown, or in a sequential order, or that all operations illustrated are performed as desired To achieve results. In some circumstances, multitasking and parallel processing may be beneficial. In addition, the separation of various system components in the above-described implementations should not be construed as requiring separation in all implementations, and it should be understood that the described program components and systems may generally be integrated together into a single software product several software products.
Somit wurden bestimmte Implementierungen des Gegenstands beschrieben. Andere Implementierungen liegen innerhalb des Schutzbereichs der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen angeführten Aktionen in einer anderen Reihenfolge ausgeführt werden und immer noch erwünschte Ergebnisse erzielen. Außerdem erfordern die in den beiliegenden Figuren gezeigten Prozesse nicht notwendigerweise die gezeigte bestimmte Reihenfolge oder sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein.Thus, certain implementations of the subject have been described. Other implementations are within the scope of the following claims. In some cases, the actions recited in the claims may be performed in a different order and still achieve desirable results. In addition, the processes shown in the accompanying figures do not necessarily require the particular order or sequential order shown to achieve desired results. In certain implementations, multitasking and parallel processing may be beneficial.
Claims (13)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/914,653 | 2010-10-28 | ||
US12/914,653 US8788434B2 (en) | 2010-10-28 | 2010-10-28 | Search with joint image-audio queries |
PCT/US2011/058362 WO2012058577A1 (en) | 2010-10-28 | 2011-10-28 | Search with joint image-audio queries |
Publications (1)
Publication Number | Publication Date |
---|---|
DE212011100024U1 true DE212011100024U1 (en) | 2012-07-10 |
Family
ID=44993181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE212011100024U Expired - Lifetime DE212011100024U1 (en) | 2010-10-28 | 2011-10-28 | Search with common image audio queries |
Country Status (6)
Country | Link |
---|---|
US (2) | US8788434B2 (en) |
EP (1) | EP2633439A1 (en) |
CN (1) | CN103329126B (en) |
AU (1) | AU2011320530B2 (en) |
DE (1) | DE212011100024U1 (en) |
WO (1) | WO2012058577A1 (en) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8798363B2 (en) | 2011-09-30 | 2014-08-05 | Ebay Inc. | Extraction of image feature data from images |
US9009149B2 (en) * | 2011-12-06 | 2015-04-14 | The Trustees Of Columbia University In The City Of New York | Systems and methods for mobile search using Bag of Hash Bits and boundary reranking |
US8799257B1 (en) * | 2012-03-19 | 2014-08-05 | Google Inc. | Searching based on audio and/or visual features of documents |
US9223776B2 (en) * | 2012-03-27 | 2015-12-29 | The Intellectual Group, Inc. | Multimodal natural language query system for processing and analyzing voice and proximity-based queries |
US8897484B1 (en) | 2012-05-18 | 2014-11-25 | Google Inc. | Image theft detector |
US9098584B1 (en) | 2012-07-19 | 2015-08-04 | Google Inc. | Image search privacy protection techniques |
KR101917695B1 (en) * | 2012-08-09 | 2018-11-13 | 엘지전자 주식회사 | Mobile terminal and control method for the mobile terminal |
KR20140127975A (en) * | 2013-04-26 | 2014-11-05 | 삼성전자주식회사 | Information processing apparatus and control method thereof |
CN104346792B (en) * | 2013-07-24 | 2018-07-27 | 腾讯科技(深圳)有限公司 | Image processing method, Photo Viewer and terminal |
US9384213B2 (en) | 2013-08-14 | 2016-07-05 | Google Inc. | Searching and annotating within images |
US20150228002A1 (en) * | 2014-02-10 | 2015-08-13 | Kelly Berger | Apparatus and method for online search, imaging, modeling, and fulfillment for interior design applications |
WO2015172359A1 (en) * | 2014-05-15 | 2015-11-19 | 华为技术有限公司 | Object search method and apparatus |
CN111046197A (en) * | 2014-05-23 | 2020-04-21 | 三星电子株式会社 | Searching method and device |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9990433B2 (en) | 2014-05-23 | 2018-06-05 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9830391B1 (en) | 2014-06-24 | 2017-11-28 | Google Inc. | Query modification based on non-textual resource context |
US9811592B1 (en) | 2014-06-24 | 2017-11-07 | Google Inc. | Query modification based on textual resource context |
CN107111601B (en) * | 2014-12-18 | 2021-01-01 | 惠普发展公司,有限责任合伙企业 | Identifying resources based on handwritten annotations |
US9904450B2 (en) | 2014-12-19 | 2018-02-27 | At&T Intellectual Property I, L.P. | System and method for creating and sharing plans through multimodal dialog |
US9633019B2 (en) * | 2015-01-05 | 2017-04-25 | International Business Machines Corporation | Augmenting an information request |
CN104598585A (en) * | 2015-01-15 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | Information search method and information search device |
US10963795B2 (en) * | 2015-04-28 | 2021-03-30 | International Business Machines Corporation | Determining a risk score using a predictive model and medical model data |
US11003667B1 (en) | 2016-05-27 | 2021-05-11 | Google Llc | Contextual information for a displayed resource |
US10152521B2 (en) | 2016-06-22 | 2018-12-11 | Google Llc | Resource recommendations for a displayed resource |
US10802671B2 (en) | 2016-07-11 | 2020-10-13 | Google Llc | Contextual information for a displayed resource that includes an image |
US11055335B2 (en) * | 2016-07-15 | 2021-07-06 | Google Llc | Contextual based image search results |
US10051108B2 (en) | 2016-07-21 | 2018-08-14 | Google Llc | Contextual information for a notification |
US10467300B1 (en) | 2016-07-21 | 2019-11-05 | Google Llc | Topical resource recommendations for a displayed resource |
US10489459B1 (en) | 2016-07-21 | 2019-11-26 | Google Llc | Query recommendations for a displayed resource |
US10212113B2 (en) | 2016-09-19 | 2019-02-19 | Google Llc | Uniform resource identifier and image sharing for contextual information display |
US10579688B2 (en) * | 2016-10-05 | 2020-03-03 | Facebook, Inc. | Search ranking and recommendations for online social networks based on reconstructed embeddings |
US10452688B2 (en) * | 2016-11-08 | 2019-10-22 | Ebay Inc. | Crowd assisted query system |
US10623569B2 (en) * | 2017-06-08 | 2020-04-14 | Avaya Inc. | Document detection and analysis-based routing |
US10679068B2 (en) | 2017-06-13 | 2020-06-09 | Google Llc | Media contextual information from buffered media data |
US10977303B2 (en) * | 2018-03-21 | 2021-04-13 | International Business Machines Corporation | Image retrieval using interactive natural language dialog |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US10978056B1 (en) * | 2018-04-20 | 2021-04-13 | Facebook, Inc. | Grammaticality classification for natural language generation in assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US20190327330A1 (en) | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Building Customized User Profiles Based on Conversational Data |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11169668B2 (en) * | 2018-05-16 | 2021-11-09 | Google Llc | Selecting an input mode for a virtual assistant |
US11586927B2 (en) * | 2019-02-01 | 2023-02-21 | Google Llc | Training image and text embedding models |
JP2021068064A (en) * | 2019-10-18 | 2021-04-30 | 富士ゼロックス株式会社 | Query correction system, search system, and program |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69942901D1 (en) * | 1998-04-02 | 2010-12-16 | Canon Kk | Device and method for searching images |
US6243713B1 (en) | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
GB0023930D0 (en) * | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
US6925475B2 (en) * | 2001-10-12 | 2005-08-02 | Commissariat A L'energie Atomique | Process and apparatus for management of multimedia databases |
GB2399983A (en) * | 2003-03-24 | 2004-09-29 | Canon Kk | Picture storage and retrieval system for telecommunication system |
US20050038814A1 (en) | 2003-08-13 | 2005-02-17 | International Business Machines Corporation | Method, apparatus, and program for cross-linking information sources using multiple modalities |
US7702681B2 (en) | 2005-06-29 | 2010-04-20 | Microsoft Corporation | Query-by-image search and retrieval system |
US7684651B2 (en) * | 2006-08-23 | 2010-03-23 | Microsoft Corporation | Image-based face search |
US8392411B2 (en) * | 2010-05-20 | 2013-03-05 | Google Inc. | Automatic routing of search results |
EP2588972A4 (en) * | 2010-07-01 | 2014-06-11 | Method and apparatus for adapting a context model |
-
2010
- 2010-10-28 US US12/914,653 patent/US8788434B2/en active Active
-
2011
- 2011-10-28 EP EP11784547.9A patent/EP2633439A1/en not_active Ceased
- 2011-10-28 WO PCT/US2011/058362 patent/WO2012058577A1/en active Application Filing
- 2011-10-28 CN CN201180061276.5A patent/CN103329126B/en active Active
- 2011-10-28 AU AU2011320530A patent/AU2011320530B2/en not_active Ceased
- 2011-10-28 DE DE212011100024U patent/DE212011100024U1/en not_active Expired - Lifetime
-
2014
- 2014-07-21 US US14/336,464 patent/US20140330822A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20140330822A1 (en) | 2014-11-06 |
CN103329126A (en) | 2013-09-25 |
AU2011320530B2 (en) | 2016-06-16 |
EP2633439A1 (en) | 2013-09-04 |
WO2012058577A1 (en) | 2012-05-03 |
US20120109858A1 (en) | 2012-05-03 |
US8788434B2 (en) | 2014-07-22 |
CN103329126B (en) | 2018-04-24 |
AU2011320530A1 (en) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE212011100024U1 (en) | Search with common image audio queries | |
US10521469B2 (en) | Image Re-ranking method and apparatus | |
JP6543986B2 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM | |
CN108416028B (en) | Method, device and server for searching content resources | |
WO2018157746A1 (en) | Recommendation method and apparatus for video data | |
DE102018004974A1 (en) | Global vector recommendations based on implicit interaction and profile data | |
DE102017011262A1 (en) | Theme linking and marking for dense images | |
DE112017006517T5 (en) | VISUAL CATEGORY DISPLAY WITH DIVERSE CLASSIFICATION | |
DE102017005963A1 (en) | Providing relevant video scenes in response to a video search query | |
DE112016005006T5 (en) | AUTOMATIC VIDEO EXECUTIVE SUMMARY | |
US20180357258A1 (en) | Personalized search device and method based on product image features | |
US20110191336A1 (en) | Contextual image search | |
DE112019005489T5 (en) | DETERMINATION OF VISUAL ATTRIBUTES FOR CONTENT SELECTION | |
DE102016010744A1 (en) | Modifying at least one attribute of an image with at least one attribute extracted from another image | |
US9218546B2 (en) | Choosing image labels | |
DE102016011173A1 (en) | Create summaries of multimedia documents | |
DE112015002286T5 (en) | VISUAL INTERACTIVE SEARCH | |
Kalpathy-Cramer et al. | Overview of the CLEF 2011 Medical Image Classification and Retrieval Tasks. | |
DE102016003850A1 (en) | Recommend form fragments | |
CN112074828A (en) | Training image embedding model and text embedding model | |
DE212011100098U1 (en) | Present search results for gallery web pages | |
DE102016010910A1 (en) | Structured modeling and extraction of knowledge from images | |
US9053363B1 (en) | Object identification in visual media | |
Rosello et al. | Kurcuma: a kitchen utensil recognition collection for unsupervised domain adaptation | |
US20130332440A1 (en) | Refinements in Document Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification |
Effective date: 20120913 |
|
R150 | Utility model maintained after payment of first maintenance fee after three years | ||
R150 | Utility model maintained after payment of first maintenance fee after three years |
Effective date: 20141118 |
|
R082 | Change of representative |
Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB |
|
R151 | Utility model maintained after payment of second maintenance fee after six years | ||
R081 | Change of applicant/patentee |
Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US Free format text: FORMER OWNER: GOOGLE, INC., MOUNTAIN VIEW, CALIF., US |
|
R082 | Change of representative |
Representative=s name: PROCK, THOMAS, DR., GB Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB |
|
R081 | Change of applicant/patentee |
Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US Free format text: FORMER OWNER: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUNTAIN VIEW, CALIF., US |
|
R082 | Change of representative |
Representative=s name: PROCK, THOMAS, DR., GB Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0016000000 |
|
R152 | Utility model maintained after payment of third maintenance fee after eight years | ||
R071 | Expiry of right |