DE212011100024U1

DE212011100024U1 - Search with common image audio queries

Info

Publication number: DE212011100024U1
Application number: DE212011100024U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-10-28
Filing date: 2011-10-28
Publication date: 2012-07-10
Anticipated expiration: 2021-10-29
Also published as: US20140330822A1; CN103329126A; AU2011320530B2; EP2633439A1; WO2012058577A1; US20120109858A1; US8788434B2; CN103329126B; AU2011320530A1

Abstract

System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist;...A system, comprising: a data processing device and a computer storage medium encoded with a computer program, the program comprising instructions that, when executed by the computing device, cause the computing device to perform operations, comprising: receiving a common image audio query from a client device, the common image audio query containing query image data defining a query image and query audio data defining a query audio; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; containing a resource text for the resource, and where each relevance score is a measure of the relevance of the corresponding image audio query resource;

Description

ALLGEMEINER STAND DER TECHNIKGENERAL PRIOR ART

Die vorliegende Patentschrift betrifft das Verarbeiten von Abfragen, insbesondere von Abfragen, die sowohl ein Bild als auch ein assoziiertes Audio enthalten.The present specification relates to the processing of queries, in particular queries containing both an image and an associated audio.

Das Internet liefert Zugang zu einer großen Vielzahl an Ressourcen, beispielsweise Videodateien, Bilddateien, Audiodateien oder Webseiten mit Inhalt für bestimmte Themen, Buchartikel oder Verbraucherprodukte. Ein Suchsystem kann als Reaktion auf das Empfangen einer Suchabfrage eine oder mehrere Ressourcen wählen. Bei einer Suchabfrage handelt es sich um Daten, die ein Benutzer einer Suchmaschine unterbreitet, um die Informationsbedürfnisse des Benutzers zufriedenzustellen. Das Suchsystem wählt und beurteilt Ressourcen auf der Basis ihrer Relevanz für die Suchabfrage. Die Suchergebnisse werden in der Regel gemäß den Punktwerten geordnet und in einer Suchergebnisseite bereitgestellt.The Internet provides access to a wide variety of resources, such as video files, image files, audio files, or content-targeted web pages, book articles, or consumer products. A search system may choose one or more resources in response to receiving a search query. A search query is data that a user submits to a search engine to satisfy the user's information needs. The search system selects and evaluates resources based on their relevance to the search query. Search results are typically ordered by scores and posted on a search results page.

Zum Suchen von Bildressourcen kann ein Suchsystem die Relevanz eines Bildes für eine Textabfrage auf der Basis des Textinhalts der Ressource bestimmen, in der sich das Bild befindet, und auch auf der Basis von mit dem Bild assoziierten Relevanzfeedback. Einige Suchsysteme suchen Bildressourcen unter Verwendung von Abfragebildern als Eingabe. Ein Abfragebild ist ein Bild wie etwa eine jpeg-Datei, die von einer Suchmaschine als Eingabe für eine Suchverarbeitungsoperation verwendet wird. Verwandte Bilder können gefunden werden, indem andere Bilder verarbeitet und Bilder identifiziert werden, die vom visuellen Erscheinungsbild her dem Abfragebild ähnlich sind. Die Verwendung von Abfragebildern wird mit dem Aufkommen von Smartphones, die Kameras enthalten, viel vorherrschender. Beispielsweise kann ein Benutzer mit einem Smartphone nun ein Bild von einem interessierenden Gegenstand aufnehmen und das Bild einer Suchmaschine unterbreiten. Die Suchmaschine sucht dann Bildressourcen unter Verwendung des Bildes als Abfragebild.For searching image resources, a search system may determine the relevance of an image for a text query based on the textual content of the resource in which the image resides, and also based on relevance feedback associated with the image. Some search systems seek image resources as input using query images. A query image is an image, such as a jpeg file, that is used by a search engine as input to a search processing operation. Related images can be found by processing other images and identifying images that are similar in visual appearance to the query image. The use of query images becomes more prevalent with the advent of smartphones incorporating cameras. For example, a user with a smartphone can now take a picture of an object of interest and submit the picture to a search engine. The search engine then searches for image resources using the image as a query image.

Betrachter interpretieren jedoch Bilder auf viel subjektivere Weise als Text. Während die Bilder, die identifiziert werden, möglicherweise von der Erscheinung her dem Abfragebild ähneln, sind somit möglicherweise viele der Bilder für den Betrachter nicht von Interesse. Beispielsweise kann ein Benutzer eine Suche über ein Bild eines Wagens durchführen. Der Benutzer ist vielleicht an anderen Wagen dieser Marke interessiert, doch könnte eine Bildsuche nur auf der Basis der visuellen Ähnlichkeit möglicherweise mit Bildern von Wagen von unterschiedlichen Marken antworten.However, viewers interpret images in a much more subjective way than text. While the images that are identified may be similar in appearance to the query image, many of the images may not be of interest to the viewer. For example, a user may perform a search over an image of a car. The user may be interested in other cars of this brand, but an image search could possibly only respond to images of cars from different brands based on visual similarity.

KURZE DARSTELLUNG DER ERFINDUNGBRIEF SUMMARY OF THE INVENTION

Allgemein kann ein innovativer Aspekt des in dieser Patentschrift beschriebenen Gegenstands in Systemen verkörpert werden zum Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert; und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.In general, an innovative aspect of the subject matter described in this specification may be embodied in systems for receiving a common image audio query from a client device, the common image audio query containing query image data defining a query image and query audio data representing a query audio define; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; which defines a resource text for the resource, and wherein each relevance score is a measure of the relevance of the corresponding image audio interrogation resource; Ordering the resources according to the corresponding relevance score; and providing data defining search results indicating the order of the resources to the client device. Other embodiments of this aspect include corresponding systems, devices, and computer programs that are configured to perform acts encoded on computer storage devices.

Ein weiterer Aspekt des in dieser Patentschrift beschriebenen Gegenstands kann in Systemen implementiert werden zum Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.Another aspect of the subject matter described in this patent may be implemented in systems for accessing image annotation data describing a plurality of annotation pairs, each annotation pair including image data defining an image and textual data associated with the image; Accessing resources, each resource defining a resource image for the resource and text data defining resource text for the resource; and training a common image-audio relevance model on the image annotation data and the resources to generate relevance score values for a plurality of resources, and wherein each relevance score is a measure of the relevance of a corresponding image-audio resource, the query image data defining a query image. and query audio data defining query audio contains. Other embodiments of this aspect include corresponding systems, devices, and computer programs that are configured to perform acts encoded on computer storage devices.

Bestimmte Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands können so implementiert werden, dass ein oder mehrere der folgenden Vorteile realisiert werden. Das Hinzufügen von Audiodaten zu einer Bildabfrage kann die Relevanz von Suchergebnissen für die Abfrage verbessern. Die Relevanz kann verbessert werden, indem sowohl Informationen geliefert werden, die dem System beim Extrahieren des interessierenden Objekts in einem Bild helfen können, und auch indem Informationen geliefert werden, die die Suche des Benutzers über das hinaus ergänzt, was in dem Bild gefunden werden kann. Diese Informationen können auch auf unterschiedliche andere Weisen hinzugefügt werden. Bei einigen Ausführungsformen kann ein Abschnitt des Bildes von dem Benutzer, der unter Verwendung eines Touchscreens auf dem Bild einen Kreis zeichnet, so gewählt werden, dass er das interessierende Objekt enthält. Der Benutzer kann auch das interessierende Objekt enger als mit einem Kreis oder einer anderen Gestalt umreißen und kann auch den Umriss unter Verwendung anderer Eingabeverfahren zeichnen. Bei einigen Ausführungsformen kann der Benutzer zusätzliche Informationen hinsichtlich des Bildes unter Verwendung eines Dropdown-Menükastens hinzufügen. Der Menükasten kann verschiedene Kategorien von Elementen aufweisen, wie etwa Einkaufskategorien einschließlich Schuhe, Hemden, Hosen und andere ähnliche Kategorien. Certain embodiments of the subject matter described in this specification may be implemented to realize one or more of the following advantages. Adding audio to an image query can improve the relevance of search results for the query. The relevance can be improved by providing both information that can assist the system in extracting the object of interest in an image and also by providing information that complements the user's search beyond what can be found in the image , This information can also be added in a variety of other ways. In some embodiments, a portion of the image of the user who circles a circle on the image using a touchscreen may be selected to include the object of interest. The user may also outline the object of interest more closely than with a circle or other shape, and may also draw the outline using other input methods. In some embodiments, the user may add additional information regarding the image using a drop-down menu box. The menu box may have various categories of items, such as shopping categories including shoes, shirts, pants, and other similar categories.

Die Einzelheiten von einer oder mehreren Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands sind in den beiliegenden Zeichnungen und der folgenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstands ergeben sich aus der Beschreibung, den Zeichnungen und den Ansprüchen.The details of one or more embodiments of the subject matter described in this specification are set forth in the accompanying drawings and the description below. Other features, aspects and advantages of the subject matter will be apparent from the description, drawings and claims.

KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

1 ist ein Blockdiagramm einer beispielhaften Umgebung, in der ein gemeinsames Bildaudiosuchsystem Suchdienste liefert. 1 Figure 10 is a block diagram of an example environment in which a common image audio search system provides search services.

2A und 2B sind beispielhafte Bilder für eine gemeinsame Bildaudioabfrage. 2A and 2 B are exemplary images for a common image audio query.

3A ist ein Blockdiagramm eines beispielhaften Prozesses für das Abfragen eines gemeinsamen Bildaudiosuchsystems. 3A FIG. 10 is a block diagram of an exemplary process for querying a common image audio search system.

3B ist ein Blockdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells. 3B FIG. 10 is a block diagram of an exemplary process for training a common image audio relevance model.

4 ist ein Flussdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells. 4 FIG. 10 is a flowchart of an example process for training a common image audio relevance model.

5 ist ein Flussdiagramm eines beispielhaften Prozesses zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage. 5 FIG. 10 is a flowchart of an exemplary process for ranking resources for a common image audio query.

AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION

§ 1.0 Übersicht § 1.0 Overview

Eine auf einem Mobiltelefon laufende Applikation gestattet einem Benutzer, ein Bild eines Objekts aufzunehmen und in das Telefon zu sprechen, um die Sprache des Benutzers aufzuzeichnen. Die Audioaufzeichnung wird mit dem Bild gepaart, um eine gemeinsame Bildaudioabfrage auszubilden. Die mobile Einrichtung unterbreitet dann die gemeinsame Bildaudioabfrage einem Suchsystem.An application running on a mobile phone allows a user to take a picture of an object and speak into the phone to record the user's speech. The audio recording is paired with the image to form a common image audio query. The mobile device then submits the common image audio query to a search system.

Das Suchsystem empfängt die gemeinsame Bildaudioabfrage und bestimmt Textdaten anhand der Sprache und generiert Bildmerkmalsdaten anhand des Bildes. Das Suchsystem verwendet die Textdaten und die Bildmerkmalsdaten als Eingaben in ein gemeinsames Bild-Audio-Relevanzmodell, das Ressourcen mit den eingegebenen Daten vergleicht. Bei den Ressourcen kann es sich um beliebige der im Internet gefundenen Ressourcen handeln, einschließlich Webseiten, Dokumenten, Bildern und Video. Als ein Beispiel kann jede Ressource ein Dokument für ein Produkt sein, das ein Bild des Produkts und assoziierte Textdaten des Produkts enthält. Das gemeinsame Bild-Audio-Relevanzmodell vergleicht die Abfragebildmerkmalsdaten mit den Bildmerkmalsdaten jeder Ressource und die Abfragetextdaten mit den entsprechenden Ressourcentextdaten und berechnet einen Relevanzpunktwert für jede Ressource. Das System ordnet die Ressourcen gemäß den Relevanzpunktwerten und legt dem Benutzer Suchergebnisse vor. Die Suchergebnisse enthalten Links zu den geordneten Ressourcen und können auch zusätzliche Informationen über jede Ressource enthalten, beispielsweise Vorschaubilder des Ressourcenbilds oder Teilmengen des Ressourcentexts.The search system receives the common image audio query and determines text data based on the language and generates image feature data based on the image. The search system uses the text data and the image feature data as inputs to a common image audio relevance model that compares resources with the input data. The resources can be any of the resources found on the Internet, including web pages, documents, images, and video. As an example, each resource may be a document for a product containing an image of the product and associated text data of the product. The common image audio relevancy model compares the query image feature data with the image feature data of each resource and the query text data with the corresponding resource text data, and calculates a relevance score value for each resource. The system organizes the resources according to the relevance score values and presents search results to the user. The search results contain links to the ordered resources and may also contain additional information about each resource, such as thumbnails of the resource image or subsets of the resource text.

Damit das gemeinsame Bild-Audio-Relevanzmodell die Relevanz einer gemeinsamen Bildaudioabfrage für die Ressourcen bestimmen kann, wird das Modell zuerst trainiert. Das Trainieren des Modells beinhaltet das Verwenden von Bildanmerkungsdaten, die Anmerkungspaare sind. Jedes Anmerkungspaar ist ein Bild, das mit mit dem Bild assoziierten Textdaten gepaart ist. Diese Anmerkungspaare werden als Trainingseingaben für das gemeinsame Bild-Audio-Relevanzmodell zusammen mit Trainings- und Testressourcen für die Anmerkungspaare verwendet. Das gemeinsame Bild-Audio-Relevanzmodell wird trainiert, bis die Testressourcen auf eine Weise eingestuft sind, die als annehmbar erachtet wird, wie durch ein oder mehrere Kriterien definiert.In order for the common image audio relevancy model to determine the relevance of a common image audio query for the resources, the model is first trained. Training the model involves using image annotation data, which are annotation pairs. Each annotation pair is an image paired with text data associated with the image. These annotation pairs are used as training inputs for the common image audio relevance model along with training and test resources for the annotation pairs. The common image audio relevance model is trained until the test resources are ranked in a way that is deemed acceptable, as defined by one or more criteria.

1 ist ein Blockdiagramm einer beispielhaften Umgebung 100, in der ein gemeinsames Bildaudiosuchsystem 106 Suchdienste liefert. Die beispielhafte Umgebung 100 enthält ein Netzwerk 104 wie etwa das Internet, das eine Benutzereinrichtung 102 mit einem Suchsystem 106 verbindet. Die Benutzereinrichtung 102 überträgt eine gemeinsame Bildaudioabfrage 120, die eine Paarung aus Bilddaten 122 und Audiodaten 124 enthält, über das Netzwerk 104 zu dem Suchsystem 106. Beispielhaftes Audio 124 ist eine Sprachaufzeichnung. Das System 106 verarbeitet die Bilddaten 122 und Audiodaten 124 und vergleicht sie mit einer Sammlung von Ressourcen 116, wobei ein Relevanzpunktwert für jede Ressource 116 berechnet wird. Das System 106 stuft diese Ressourcen 116 nach ihren Relevanzpunktwerten ein und sendet eine Liste von Suchergebnissen, von denen jedes einen Ressourcenlink 130 zu einer entsprechenden Ressource enthält, an die Benutzereinrichtung 102. 1 is a block diagram of an example environment 100 in which a common image audio search system 106 Provides search services. The exemplary environment 100 contains a network 104 such as the Internet, which is a user device 102 with a search system 106 combines. The user device 102 transmits a common image audio query 120 that is a pairing of image data 122 and audio data 124 contains, over the network 104 to the search system 106 , Exemplary audio 124 is a voice recording. The system 106 processes the image data 122 and audio data 124 and compare them to a collection of resources 116 , where is a relevance score for each resource 116 is calculated. The system 106 classifies these resources 116 according to their relevance scores and sends a list of search results, each of which is a resource link 130 to a corresponding resource to the user device 102 ,

Die Benutzereinrichtung 102 ist eine Elektronikeinrichtung, die unter der Kontrolle eines Benutzers steht und über das Netzwerk 104 Ressourcen 116 anfordern und empfangen kann. Zu beispielhaften Benutzereinrichtungen 102 zählen PCs, mobile Kommunikationseinrichtungen und andere Einrichtungen, die Daten über das Netzwerk senden und empfangen können. Eine Benutzereinrichtung 102 enthält in der Regel eine Benutzerapplikation, z. B. einen Webbrowser, um das Senden und Empfangen von Daten über das Netzwerk 104 zu ermöglichen. Die Benutzereinrichtung 102 kann auch eine Kamera und ein Mikrofon zum Erfassen eines Bildes 122 und von Audio 124 enthalten. Die Benutzereinrichtung enthält außerdem eine Anwendung, die das Audio 124 mit dem Bild 122 paart, um eine gemeinsame Bildaudioabfrage auszubilden. Das Abfrageaudio 124 enthält in der Regel Sprachdaten, die mehr Informationen über das Bild 122 oder über die Suchparameter des Benutzers liefern.The user device 102 is an electronic device that is under the control of a user and over the network 104 resources 116 request and receive. To exemplary user facilities 102 include personal computers, mobile communication devices, and other devices that can send and receive data over the network. A user device 102 usually contains a user application, eg. For example, use a web browser to send and receive data over the network 104 to enable. The user device 102 can also have a camera and a microphone to capture an image 122 and audio 124 contain. The user equipment also includes an application that stores the audio 124 with the picture 122 paired to form a common image audio query. The query audio 124 usually contains voice data, which gives more information about the picture 122 or via the search parameters of the user.

Es sei beispielsweise angenommen, dass ein Benutzer nach einer Wasserflasche sucht und das Abfragebild 122 ein von der Benutzereinrichtung 102 aufgenommenes Bild einer Wasserflasche ist. Siehe beispielsweise 2A. In 2A kann das Bild mehr als eine Wasserflasche enthalten. Nach dem Aufnehmen des Bildes spezifiziert der Benutzer, dass die Wasserflasche in dem Bild das interessierende Objekt ist, indem das Abfragebild 122 mit dem Abfrageaudio 124 „Wasserflasche” erweitert wird. Alternativ kann der Benutzer spezifischere Informationen liefern, indem er beispielsweise „rote Wasserflasche” als das Abfrageaudio 124 aufnimmt. Das Abfrageaudio 124 kann auch Positionsinformationen enthalten, falls sich beispielsweise in dem Abfragebild 122 mehr als ein Objekt befindet, kann der Benutzer durch Unterbreiten des Abfrageaudios 124 „rote Wasserflasche auf der rechten Seite” spezifizieren.For example, assume that a user searches for a water bottle and the query image 122 one from the user device 102 taken picture of a water bottle is. See for example 2A , In 2A The picture may contain more than one water bottle. After taking the image, the user specifies that the water bottle in the image is the object of interest by displaying the query image 122 with the query audio 124 "Water bottle" is extended. Alternatively, the user may provide more specific information by, for example, "red water bottle" than the query audio 124 receives. The query audio 124 may also include position information, for example, in the query image 122 If there is more than one object, the user can do so by submitting the query studio 124 Specify "red water bottle on the right side".

Selbst bei nur einem Objekt in dem Bild können Audioinformationen die Ergebnisse einer Suche verbessern. Beispielsweise enthält 2B in dem Bild nur die Wasserflasche. Falls jedoch eine Suche durchgeführt würde, um nur auf der Basis der visuellen Merkmale ähnliche Bilder zu finden, enthalten die Ergebnisse möglicherweise nur Flaschen, die eine ähnliche Gestalt und Farbe aufweisen, und enthalten möglicherweise keine andere Arten von Wasserflaschen. Durch Erweitern des Bildes mit dem Audio, z. B. „Wasserflasche” oder „Wasserflasche für Fahrradfahrten” liefert das System zusätzliche Informationen an das Suchsystem, und das Suchsystem liefert anhand dieser zusätzlichen Informationen Suchergebnisse, die die Informationsbedürfnisse des Benutzers wahrscheinlich zufrieden stellen.Even with only one object in the image, audio information can enhance the results of a search. For example, contains 2 B in the picture only the water bottle. However, if a search were performed to find similar images based only on the visual features, the results may only include bottles that are similar in shape and color, and may not contain other types of water bottles. By expanding the image with the audio, e.g. For example, "water bottle" or "bicycle water bottle", the system provides additional information to the search system, and the search system uses this additional information to provide search results that are likely to satisfy the user's information needs.

Weiterhin kann der Benutzer auch Parameter durch die Verwendung von Audio liefern, um die Suchergebnisse zu beschränken. Beispielsweise sucht der Benutzer möglicherweise in einer Produktdatenbank, um eine Wasserflasche zum Kauf zu finden. Der Benutzer kann dem Suchsystem das Bild 122 der Wasserflasche und das Abfrageaudio 124 „Wasserflasche unter 10 Dollar, Marke X” oder als ein weiteres Beispiel „diese Wasserflasche in blau” liefern.Furthermore, the user can also provide parameters through the use of audio to limit the search results. For example, the user may be looking in a product database to find a water bottle for sale. The user can give the image to the search system 122 the water bottle and the query audio 124 "Water bottle under $ 10, brand X" or as another example "this water bottle in blue" deliver.

Wieder unter Bezugnahme auf 1 empfängt das Suchsystem 106 die gemeinsame Bildaudioabfrage, die die Bilddaten 122 und die Audiodaten 124 enthält, durch das Netzwerk 104 von der Benutzereinrichtung 102. Bei einigen Implementierungen enthält das Suchsystem 106 eine Bildverarbeitungsvorrichtung 110 zum Generieren von Bildmerkmalsdaten aus den Bilddaten 122. Alternativ schickt das Suchsystem bei anderen Implementierungen die Bilddaten 122 an eine separate Bildverarbeitungsvorrichtung 110 und empfängt die Bildmerkmalsdaten von der separaten Bildverarbeitungsvorrichtung 110. Analog kann das Suchsystem 106 auch eine Sprachverarbeitungsvorrichtung 112 zum Extrahieren von Textdaten aus den Audiodaten 124 enthalten, oder es kann die Audiodaten 124 an eine separate Sprachverarbeitungsvorrichtung 112 liefern und die Textdaten empfangen.Referring again to 1 receives the search system 106 the common image audio query that the image data 122 and the audio data 124 contains, through the network 104 from the user device 102 , In some implementations, the search system includes 106 an image processing device 110 for generating image feature data from the image data 122 , Alternatively, the search system sends the image data to other implementations 122 to a separate image processing device 110 and receives the image feature data from the separate image processing device 110 , Analogously, the search system 106 also a voice processing device 112 for extracting text data from the audio data 124 included, or it may be the audio data 124 to a separate language processing device 112 deliver and receive the text data.

Das Suchsystem 106 verwendet die Bildmerkmalsdaten und die Textdaten, die aus der gemeinsamen Bildaudioabfrage abgeleitet wurden, als Eingabe zu einem gemeinsamen Bild-Audio-Relevanzmodell 108. Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt diese beiden Eingaben und empfängt auch Ressourcen 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 beurteilt jede Ressource 116 unter Angabe eines Relevanzmaßes der Ressource 116 für die gemeinsame Bild-Audio-Abfrage.The search system 106 uses the image feature data and the text data derived from the common image audio query as input to a common image audio relevance model 108 , The common image-audio relevance model 108 receives these two inputs and also receives resources 116 , The common image-audio relevance model 108 judges every resource 116 indicating a relevance measure of the resource 116 for the common image audio query.

Bei einigen Implementierungen berechnet das Suchsystem unter Verwendung des gemeinsamen Bild-Audio-Relevanzmodells 108 einen Punktwert für jede Ressource gemäß der folgenden Einstufungsfunktion: REL_i = f(S, I, R_i) wobei

REL_i: ein Relevanzpunktwert für eine Ressource R_i;
S: die Audiodaten 124;
I: die Bilddaten 122; und
R_i: eine gegebene Ressource in einer Ressourcendatenbank oder einem Ressourcenzwischenspeicher sind. Die Funktion f(S, I, R) wird unter Bezugnahme auf 3B unten ausführlicher beschrieben.

In some implementations, the search system computes using the common image audio relevance model 108 a score for each resource according to the following rating function:

REL _i = f (S, I, R _i )

in which

REL _i: a relevance score for a resource R _i ;
S: the audio data 124 ;
I: the image data 122 ; and
R _i: are a given resource in a resource database or a resource cache. The function f (S, I, R) will be described with reference to 3B described in more detail below.

Bei einer Ressource 116 handelt es sich um beliebige Daten, die über ein Netzwerk 104 bereitgestellt werden können und mit einer Ressourcenadresse assoziiert oder in einer Datenbank indexiert sind. Bei einigen Implementierungen umfasst eine Ressourcendatenbank 114 eine Sammlung von Ressourcen 116, wobei jede Ressource 116 ein Ressourcenbild und einen Ressourcentext enthält. Ein Beispiel für eine Ressourcendatenbank 114 ist eine Produktdatenbank, die Produktdokumente enthält, die ein Bild eines Produkts und das Produkt beschreibende Daten wie etwa Markenname, Preis und eine Textbeschreibung umfassen.For a resource 116 is any data over a network 104 can be provided and associated with a resource address or indexed in a database. In some implementations, a resource database includes 114 a collection of resources 116 where each resource 116 contains a resource image and a resource text. An example of a resource database 114 is a product database that contains product documents that include an image of a product and descriptive data such as brand name, price, and a text description.

Für jede i-te Ressource bestimmt das Suchsystem 106 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich der, wie es Abfragebildmerkmalsdaten aus dem Abfragebild bestimmt. Das Suchsystem 106 bestimmt auch Ressourcentextdaten aus der Ressource 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 vergleicht dann die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten einer Ressource 116 und berechnet einen Relevanzpunktwert REL_i für die Ressource 116. Das Modell 108 liefert die Relevanzpunktwerte an das Suchsystem 106. Das Suchsystem 106 ordnet dann die Ressourcen gemäß den Relevanzpunktwerten und liefert Suchergebnisse 130, eingestuft nach den Relevanzpunktwerten der Ressourcen, an die Benutzereinrichtung 102.For every ith resource, the search system determines 106 Resource image feature data from the resource image in a manner similar to how it determines query image feature data from the query image. The search system 106 also determines resource text data from the resource 116 , The common image-audio relevance model 108 then compares the query image feature data with the resource image feature data and the query text data with the resource text data of a resource 116 and computes a relevance point value REL _i for the resource 116 , The model 108 Returns the relevance score values to the search system 106 , The search system 106 then allocates the resources according to the relevance score and returns search results 130 , classified according to the relevance score values of the resources, to the user equipment 102 ,

§ 2.0 Verarbeiten einer gemeinsamen Bild-Audio-Abfrage§ 2.0 Processing a common image-audio query

3A ist ein Blockdiagramm eines beispielhaften Prozesses 300 zum Abfragen eines gemeinsamen Bildaudiosuchsystems. Das Suchsystem 106 empfängt die gemeinsame Bildaudioabfrage, die Bilddaten 302 und Audiodaten 304 umfasst. Diese Daten werden durch das Netzwerk empfangen, und bei einigen Implementierungen sind die Bilddaten 302 ein von einem Benutzer von einem Abfrageobjekt aufgenommenes Bild. Die Audiodaten 304 enthalten von dem Benutzer aufgezeichnete Sprache, die Informationen über das Abfrageobjekt oder über die gewünschten Abfrageergebnisse enthält. Diese werden als die gemeinsame Bild-Audio-Abfrage miteinander gepaart. 3A is a block diagram of an example process 300 to query a common image audio search system. The search system 106 receives the common image audio query, the image data 302 and audio data 304 includes. This data is received by the network, and in some implementations, the image data is 302 a picture taken by a user from a query object. The audio data 304 Contain language recorded by the user, which contains information about the query object or about the desired query results. These are paired together as the common image audio query.

Die Audiodatei 304 enthält die Sprache betreffendes Audio. Die Sprachdaten 304 werden unter Verwendung eines Spracherkennungsalgorithmus in Textdaten 308 umgewandelt. Der Text 308 wird unter Verwendung von Verarbeitungstechniken für natürliche Sprache weiter analysiert, um den Inhalt der Textdaten 308 zu parsen. Beispielsweise kann das Bild 302 in der gemeinsamen Bild-Audio-Abfrage eine Wasserflasche enthalten, wie in 2A. Die dieses Bild begleitenden Audiodaten 304 können einfach „Wasserflasche” sein. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und verwendet den Text 308 als einen Suchparameter beim Vergleichen mit Ressourcentextdaten.The audio file 304 contains the language related audio. The voice data 304 are converted into textual data using a speech recognition algorithm 308 transformed. The text 308 is further analyzed using natural language processing techniques to determine the content of the textual data 308 to parse. For example, the picture 302 in the common image audio query contain a water bottle, as in 2A , The audio accompanying this image 304 can simply be "water bottle". The search system 106 converts this language 304 in text data 308 and uses the text 308 as a search parameter when comparing with resource text data.

Unter Verwendung der Verarbeitung von natürlicher Sprache kann das Suchsystem 106 räumliche Bereiche des Bildes bestimmen, um sie einzuschließen oder auszuschließen. Beispielsweise kann das Audio 304 die Sprache „Wasserflasche auf der rechten Seite des Bildes” enthalten. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage. Das System 106 bestimmt aus dem Ausdruck „auf der rechten Seite des Bildes”, dass die rechte Seite des Bildes ein Bereich von Interesse ist und ignoriert somit auf der linken Seite des Bildes 302 erkannte Merkmale und Objekte und konzentriert sich nur auf jene, die es auf der rechten Seite findet.Using natural language processing, the search system can 106 determine spatial areas of the image to include or exclude them. For example, the audio 304 the language "water bottle on the right side of the picture" included. The search system 106 converts this language 304 in text data 308 and parse the statement. The system 106 determines from the phrase "on the right side of the image" that the right side of the image is an area of interest and thus ignores on the left side of the image 302 recognized features and objects and focuses only on those who find it on the right.

Unter Verwendung einer Verarbeitung von natürlicher Sprache kann das Suchsystem 106 Empfindungen für bestimmte Merkmale oder Charakteristika detektieren. Beispielsweise kann das Bild 302 in der gemeinsamen Bildaudioabfrage eine rote Wasserflasche enthalten, wie in 2B. Das Audio 304 enthält jedoch möglicherweise die Sprache „nur blaue Wasserflaschen, keine roten”. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage, um zu interpretieren, dass der Benutzer in den Suchergebnissen nur blaue Wasserflaschen wünscht, im Gegensatz zu der roten Wasserflasche in dem Bild 302.Using natural language processing, the search system can 106 Detect sensations for particular features or characteristics. For example, the picture 302 in the common image audio query contain a red water bottle, as in 2 B , The audio 304 however, may contain the language "blue water bottles only, not red". The search system 106 converts this language 304 in text data 308 and parse the statement to interpret that the user only wants blue water bottles in the search results, as opposed to the red water bottle in the picture 302 ,

Aus den Bilddaten 302 der Bildaudioabfrage generiert das Suchsystem 106 Bildmerkmalswertdaten 306. Bildmerkmalswertdaten 306 sind Wert-Punktwerte, die visuelle Charakteristika eines Abschnitts eines Bilds 302 darstellen. Der Abschnitt des Bilds kann die Ganzheit des Bildes 302 oder einen Teilabschnitt des Bilds enthalten. Bei einigen Implementierungen können die Bildmerkmale 306 Farbe, Textur, Kanten, Sättigung und andere Charakteristika beinhalten. Zu beispielhaften Prozessen zum Extrahieren von Werten von Bildmerkmalen 306, aus denen ein Merkmalspunktwert berechnet werden kann, zählen Prozesse zum Generieren von Farbhistogrammen, Texturdetektionsprozesse (z. B. auf der Basis einer räumlichen Variation bei Pixelintensitäten), eine skaleninvariante Merkmalstransformation, Kantendetektion, Eckendetektion und geometrische Unschärfe.From the image data 302 The image audio query generates the search system 106 Image feature value data 306 , Image feature value data 306 are value scores, the visual characteristics of a section of an image 302 represent. The section of the picture can be the wholeness of the picture 302 or Contain a section of the image. In some implementations, the image features 306 Include color, texture, edges, saturation and other characteristics. Exemplary processes for extracting values of image features 306 from which a feature point value can be calculated include processes for generating color histograms, texture detection processes (eg, based on spatial variation in pixel intensities), scale invariant feature transformation, edge detection, corner detection, and geometric blur.

Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt die Bildmerkmalsdaten 306 und Textdaten 308. Das Modell 108 greift auch auf Ressourcen 314 in einer Sammlung von Ressourcen zu. Nachdem auf jede Ressource 314 zugegriffen worden ist, generiert das Modell 108 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich dem Abfragebild 302. Das Modell 108 bestimmt auch Textdaten anhand der Ressource 314, wie etwa Text auf einer Webseite, die das Bild enthält, oder Text, der mit dem Bild gemäß einem Datenbankschema assoziiert ist (z. B. eine Datenbank kommerzieller Produkte). Das Modell 108 vergleicht die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten und berechnet einen Relevanzpunktwert für diese Ressource 314. Das Modell 108 berechnet Relevanzpunktwerte für jede Ressource in der Sammlung von Ressourcen, stuft die Ressourcen gemäß den Punktwerten ein und antwortet mit einer eingestuften Liste der Ressourcen 312. Das Suchsystem 106 generiert dann Suchergebnisse, die die Bilder und Ressourcen referenzieren, und liefert die Suchergebnisse an den Benutzer.The common image-audio relevance model 108 receives the image feature data 306 and text data 308 , The model 108 also uses resources 314 in a collection of resources too. After every resource 314 has been accessed, generates the model 108 Resource image feature data from the resource image in a manner similar to the query image 302 , The model 108 also determines text data based on the resource 314 such as text on a web page containing the image, or text associated with the image according to a database schema (eg, a database of commercial products). The model 108 compares the query image feature data with the resource image feature data and the query text data with the resource text data, and calculates a relevance score for that resource 314 , The model 108 calculates relevance score values for each resource in the collection of resources, classifies the resources according to scores, and responds with a ranked list of resources 312 , The search system 106 then generates search results that reference the images and resources, and delivers the search results to the user.

Bei einigen Implementierungen kann dieser Prozess einmal oder mehrmals iterativ wiederholt werden. Beispielsweise kann das System 106 nach dem Erzeugen einer Liste von Ressourcen, die nach Relevanz 312 für die Bild-Audio-Abfrage 302, 304 eingestuft wurden, ein oder mehrere der am höchsten eingestuften Ressourcenbilder verwenden, um eine weitere Abfrage durchzuführen. Dies kann eine verbesserte Liste von Relevanzressourcen erzeugen. Alternativ oder in Kombination kann das System Ressourcentextdaten von einer oder mehreren am höchsten eingestuften Ressourcen zusätzlich zu oder anstelle der ursprünglichen Abfragetextdaten 308 verwenden.In some implementations, this process may be iterated one or more times. For example, the system can 106 after generating a list of resources by relevance 312 for the picture audio query 302 . 304 use one or more of the highest rated resource images to perform another query. This can produce an improved list of relevance resources. Alternatively, or in combination, the system may include resource text data from one or more highest ranked resources in addition to or instead of the original query text data 308 use.

§ 3.0 Trainieren des gemeinsamen Bild-Audio-Relevanzmodells§ 3.0 Training the common image-audio relevance model

Damit das gemeinsame Bild-Audio-Relevanzmodell 310 Relevanzpunktwerte korrekt berechnen kann, wird es zuerst trainiert. 3B ist ein Blockdiagramm eines beispielhaften Prozesses 350 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108. Das Modell wird mit Anmerkungspaaren trainiert. Analog zu einer gemeinsamen Bild-Audio-Abfrage weist ein Anmerkungspaar Bilddaten 352 und assoziierte Audiodaten 354 auf. Die Menge von Anmerkungspaaren kann in eine Trainingsmenge und eine Testmenge unterteilt werden.Thus the common picture audio relevance model 310 Calculate relevance point values correctly, it will be trained first. 3B is a block diagram of an example process 350 to train a common image-audio relevance model 108 , The model is trained with pairs of notes. Analogously to a common image-audio query, a comment pair has image data 352 and associated audio data 354 on. The set of annotation pairs can be divided into a training amount and a test amount.

Indem Anmerkungspaare aus der Trainingsmenge genommen werden, werden Bildmerkmalsdaten 358 unter Verwendung ähnlicher Bildverarbeitungsalgorithmen wie den an dem Abfragebild verwendeten aus den Anmerkungsbilddaten 352 generiert. Textdaten 360 werden unter Verwendung ähnlicher Spracherkennungstechniken und Techniken zur Verarbeitung natürlicher Sprache wie jenen, die an dem Abfrageaudio verwendet werden, aus den Anmerkungsaudiodaten 354 bestimmt. Ein Trainingsmodell 362 empfängt als Eingabe die Bildmerkmalsdaten 358 und die Textdaten 360. Das Trainingsmodell 362 empfängt auch als Eingabe eine Ressource 356 mit einer vorbestimmten Relevanz für das Anmerkungspaar 352, 354. Diese vorbestimmte Relevanz kann binär sein (z. B. relevant/nicht relevant) oder sich auf einer relativen Skala (z. B. hochrelevant, etwas relevant, nicht relevant) oder auf einer Skala mit verfeinerteren Werten befinden. Das Modell 362 generiert Ressourcenbildmerkmalsdaten aus dem Ressourcenbild und bestimmt Ressourcentextdaten aus dem Ressourcentext. Durch Vergleichen der Anmerkungsbildmerkmalsdaten 352 mit den Ressourcenbildmerkmalsdaten und der Anmerkungstextdaten 354 mit den Ressourcentextdaten berechnet das Trainingsmodell 362 einen Relevanzpunktwert. Gewichte, die den Bildmerkmalen und Textmerkmalen entsprechen, werden eingestellt, um einen Punktwert in dem korrekten Bereich der vorbestimmten Relevanz zu erzeugen. Dieser Prozess wird für verschiedene Ressourcen und mit unterschiedlichen Trainingsanmerkungspaaren, alle mit vorbestimmten Relevanzen, wiederholt.By taking note pairs from the training set, image feature data becomes 358 using similar image processing algorithms as those used in the query image from the annotation image data 352 generated. text data 360 are extracted from the annotated audio data using similar speech recognition techniques and natural language processing techniques as those used in the query audio 354 certainly. A training model 362 receives as input the image feature data 358 and the text data 360 , The training model 362 also receives as input a resource 356 with a predetermined relevance to the annotation pair 352 . 354 , This predetermined relevance may be binary (eg, relevant / not relevant) or located on a relative scale (eg, highly relevant, somewhat relevant, not relevant) or on a scale of more refined values. The model 362 generates resource image feature data from the resource image and determines resource text data from the resource text. By comparing the annotated image feature data 352 with the resource image feature data and the annotation text data 354 with the resource text data calculates the training model 362 a relevance score. Weights, which correspond to the image features and text features, are adjusted to produce a score in the correct range of the predetermined relevance. This process is repeated for different resources and with different training comment pairs, all with predetermined relevances.

Mit der Testmenge von Anmerkungsdaten kann dann das trainierte Modell verifiziert werden. Das trainierte Modell kann als Eingabe Anmerkungspaare von der Testmenge zusammen mit Ressourcen, die eine vorbestimmte Relevanz für jedes der Testpaare aufweisen, empfangen. Die Testpaare und Ressourcen würden verarbeitet werden, um Merkmalsdaten zu generieren, wie dies mit den Trainingspaaren geschieht. Das Modell würde dann Relevanzpunktwerte für jede dieser Mengen von Eingaben generieren. Falls die Rekvanzpunktwerte. innerhalb eines Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell adäquat trainiert. Falls jedoch das Modell Relevanzpunktwerte generiert, die nicht innerhalb des Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell nicht adäquat trainiert und der Trainingsprozess kann mit der Trainingsmenge von Anmerkungsdaten wiederholt werden und die zugewiesenen Gewichte können erneut evaluiert und verstellt werden.With the test set of annotation data, the trained model can then be verified. The trained model may receive as input annotation pairs from the test set along with resources having a predetermined relevance for each of the test pairs. The test pairs and resources would be processed to generate feature data, as happens with the training pairs. The model would then generate relevance score values for each of these sets of inputs. If the recovation point values. within a threshold range of acceptability, then the model is adequately trained. However, if the model generates relevance point values that are not within the threshold range of acceptability, then the model is not adequately trained and the training process can be repeated with the training set of annotation data and the assigned weights can be re-evaluated and adjusted.

Dieser Schwellwertbereich kann auf viele verschiedene Arten festgelegt werden. Beispielsweise können jedem der qualitativen Skalenwerte in der vorbestimmten Relevanzskala Relevanzpunktwertbereiche zugewiesen werden. Falls beispielsweise die von dem Modell generierten Relevanzpunktwerte von 1 bis 100 gehen, kann der Schwellwert bei einer binären vorbestimmten Relevanzskala auf größer oder gleich 50 für relevant und weniger als 50 für nichtrelevant eingestellt werden. Alternativ kann der Schwellwert strenger gemacht werden, indem beispielsweise über 75 für relevant und unter 25 für nichtrelevant zugewiesen wird. Dies kann für ein effektiveres Bild-Audio-Relevanzmodell sorgen, kann aber auch mehr Iterationen des Trainings zum Herstellen erfordern. Alternativ kann der Schwellwert der Akzeptabilität qualitativer werden. Beispielsweise kann es für ein gegebenes Anmerkungspaar eine Menge von Ressourcen mit einer vorbestimmten Einstufung von relevanter bis weniger relevant geben. Die Akzeptabilität des Trainings des Modells kann evaluiert werden, indem geprüft wird, wie nahe das trainierte Modell dem kommt, die korrekte Einstufung der Ressourcen für das Anmerkungspaar zu liefern.This threshold range can be set in many different ways. For example, each of the qualitative scale values in the predetermined relevance scale may be assigned relevance score ranges. For example, if the relevance point values generated by the model range from 1 to 100, the threshold may be set to greater than or equal to 50 for a binary predetermined relevance scale and less than 50 for non-relevant. Alternatively, the threshold can be made stricter by, for example, assigning over 75 to be relevant and less than 25 to irrelevant. This can provide a more effective image-audio-relevance model, but may also require more iterations of training to manufacture. Alternatively, the threshold of acceptability may become more qualitative. For example, for a given annotation pair, there may be a set of resources with a predetermined ranking of more relevant to less relevant. The acceptability of training the model can be evaluated by examining how closely the trained model comes to provide the correct rating of the resources for the annotation pair.

§ 3.1 Auswahl von Anmerkungspaardaten§ 3.1 Selection of Note Pairing Data

Die Anmerkungsdaten können auf eine Vielzahl von Wegen erhalten werden. Bei einer Implementierung werden die Anmerkungsdaten aus einer Produktdatenbank abgeleitet, wobei die Produktdatenbank eine Sammlung von Produktdokumenten aufweist. Jedes Produktdokument hat ein Bild eines Produkts und assoziierten Text mit Informationen über das Produkt, wie etwa eine Beschreibung, Preise, Verkäufer des Produkts und Besprechungen und Einstufungen sowohl des Produkts als auch der Verkäufer des Produkts. Das Anmerkungspaar 352, 354 enthält das Bild von einem Produktdokument und einer Teilmenge des Textes von dem gleichen Dokument. Dies würde auch eine vorbestimmte Relevanz zwischen dem Produktdokument und dem aus diesem Produkt hergestellten Anmerkungspaar 352, 354 gestatten. Da das Anmerkungspaar 352, 354 aus diesem Produktdokument angelegt wurde, muss das Anmerkungspaar für das Produktdokument hochrelevant sein.The annotation data can be obtained in a variety of ways. In one implementation, the annotation data is derived from a product database, the product database having a collection of product documents. Each product document has an image of a product and associated text with information about the product, such as a description, prices, sellers of the product, and reviews and ratings of both the product and the seller of the product. The note pair 352 . 354 Contains the image of a product document and a subset of the text from the same document. This would also have a predetermined relevance between the product document and the pair of comments made from this product 352 . 354 allow. Because the note pair 352 . 354 created from this product document, the comment pair for the product document must be highly relevant.

Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus Bildsuchergebnisdaten abgeleitet. Der von Benutzern in ein Bildsuchsystem eingegebene Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Die Anmerkungsbilddaten 352 für das Paar können aus Bildern gewählt werden, die die populärsten Ergebnisse aus der Bildsuche entsprechend der Abfrageeingabe sind. Die Popularität von Ergebnissen kann durch statistische Maßnahmen wie etwa die Klickrate bestimmt werden. Alternativ können die Anmerkungsdaten aus Auswahldaten von Produktsuchergebnisdaten sein. Die Abfrageeingabe kann wieder als die Anmerkungstextdaten 354 für ein Anmerkungspaar verwendet werden. Das Anmerkungsbild 352 kann aus dem Produktbild der von Benutzern für diese Abfrageeingabe gewählten populärsten Produktdokumente erhalten werden. Dies würde auch Produktdokumente zur Verwendung als Ressourcen mit hoher vorbestimmter Relevanz bereitstellen.In another implementation, the annotation data is derived from selection data from image search result data. The query input text input by users to an image search system may be as the annotation text data 354 of a pair of comments. The note image data 352 for the pair can be selected from images that are the most popular image search results according to the query input. The popularity of results can be determined by statistical measures such as CTR. Alternatively, the annotation data may be from product search result data selection data. The query input may be again as the annotation text data 354 be used for a comment pair. The note picture 352 can be obtained from the product image of the most popular product documents selected by users for this query input. This would also provide product documents for use as resources of high predetermined relevance.

Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus allgemeinen Websuchergebnisdaten abgeleitet. Von Benutzern in einem Websuchsystem eingegebener Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Das Websuchsystem kann mit allgemeinen Webressourcen, einschließlich Websites, Bildern und Produktdokumenten antworten. Falls der Benutzer als Ergebnis der Websuche ein Produktdokument wählt, kann das Produktbild als die Anmerkungsbilddaten 352 für das Anmerkungspaar verwendet werden. Das Produktdokument wird dann als die Ressource mit bekannter hoher Relevanz verwendet.In another implementation, the annotation data is derived from selection data from general web search result data. Query input text entered by users in a Web search system may be considered the annotation text data 354 of a pair of comments. The web search system can respond to general web resources, including web sites, images, and product documents. If the user selects a product document as a result of the web search, the product image may be designated as the annotated image data 352 used for the comment pair. The product document is then used as the resource of known high relevance.

Bei einer weiteren Implementierung können menschliche Kommentatoren verwendet werden, um Trainingsdaten zu liefern. Die Kommentatoren können anhand einer Fotografie das Anmerkungsbild 352 bereitstellen, und Sprach- oder Textdaten für die Anmerkungstextdaten 354 von Ressourcen liefern, nach denen sie suchen möchten. Die Kommentatoren können dann ein Produktdokument oder eine andere Ressourcendatenbank durchsuchen und Ressourcen finden, die mit der Fotografie und den Sprachdaten, die sie lieferten, sowohl in Beziehung stehen als auch nicht in Beziehung stehen. Jede Ressource, die die Kommentatoren finden, können sie dann als eine Übereinstimmung guter Qualität oder eine Übereinstimmung schlechter Qualität markieren. Bei einer weiteren Implementierung können die Kommentatoren dazu verwendet werden, die Qualität von Übereinstimmungen, die durch eine automatisierte Prozedur bestimmt wurden, einzustufen. Beispielsweise können beliebige der zuvor erörterten Prozeduren verwendet werden, um Anmerkungsdaten von einer Produktdatenbank, Produktsuchauswahldaten, Bildsuchauswahldaten oder Websuchauswahldaten zu erhalten, und menschliche Kommentatoren können die Relevanz jedes Anmerkungspaars für die durch den automatisierten Prozess gewählte Ressource einstufen.In another implementation, human commentators can be used to provide training data. The commentators can use a photograph to add the annotation picture 352 and voice or text data for the annotation text data 354 supply resources they want to search for. The commentators can then search a product document or other resource database and find resources that are both related and unrelated to the photography and speech data they provided. Any resource found by the commenters can then flag it as a good quality match or a poor quality match. In another implementation, the commenters can be used to rank the quality of matches determined by an automated procedure. For example, any of the previously discussed procedures may be used to obtain annotation data from a product database, product search selection data, image search selection data, or web search selection data, and human commentators may classify the relevance of each annotation pair for the resource selected by the automated process.

§ 3.2 Beispielhafte Bewertungsmodelle§ 3.2 Exemplary evaluation models

Es kann eine Vielzahl von Modellen verwendet werden, um die Relevanzfunktion f(S, I, R) zu realisieren, und Beispiele sind unten beschrieben. Ein beispielhaftes Modell implementiert eine Relevanzfunktion, die eine lineare Kombination aus einzelnen Modellen ist, die auf Bildmerkmalsdaten und Audio- und Textdaten trainiert sind, d. h. f(S, I, R) = cf_S(S, R) + (I – c)f_I(I, R) wobei f_S eine Bewertungsfunktion ist, die auf die Sprach- und Textdaten trainiert ist, und f_I eine Bewertungsfunktion ist, die auf die Bildmerkmalsdaten trainiert ist. Der Mischparameter c ist ein Wert, der zwischen 0 und 1 verstellt wird.A variety of models can be used to add the relevance function f (S, I, R) too and examples are described below. An example model implements a relevance function that is a linear combination of individual models trained on image feature data and audio and text data, ie f (S, I, R) = cf _S (S, R) + (I-c) f _I (I, R) where f _{S is} a weighting function trained on the voice and text data, and f _{I is} a weighting function trained on the image feature data. The mixing parameter c is a value that is adjusted between 0 and 1.

Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), die die Menge von in Betracht gezogenen Ressourcenelementen auf nur jene mit die Wörter in S enthaltenden Textbeschreibungen beschränkt. Mit dieser eingeschränkten Menge bewertet das Modell dann die Relevanz der Bildmerkmalsdaten. Somit würde die Relevanzfunktion (S, I, R) = f_I(I, R)f(S, R) sein, wobei f(S, R) = 1, falls Text S in der Ressource R ist und ansonsten f(S, R) = 0.Another exemplary model implements a relevance function f (S, I, R) that limits the set of resource elements considered to only those text descriptions containing the words in S. With this limited set, the model then evaluates the relevance of the image feature data. Thus, the relevance function would be (S, I, R) = f _I (I, R) f (S, R) where f (S, R) = 1 if text S is in resource R and otherwise f (S, R) = 0.

Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), wobei eine Bildmerkmalsrelevanzfunktion für jede mögliche Wahl von S gelernt wird, d. h. f(S, I, R) = W_S·Φ(I, R) wobei Φ(I, R) die Merkmalsdarstellung des Bildes und der Ressource ist und W_S eine gelernte Merkmalsgewichtsmatrix von Bilder und Ressourcen darstellenden Merkmalen ist. W_S ist eine 1 × |Φ(I, R)|-Matrix oder ein Vektor der Dimension |Φ(I, R)|, das heißt, die Anzahl von Merkmalen, die zum Darstellen des Bildes und der Ressource verwendet werden.Another exemplary model implements a relevance function f (S, I, R), where an image feature relevance function is learned for each possible choice of S, ie f (S, I, R) = W _S · Φ (I, R) where Φ (I, R) is the feature representation of the image and the resource and W _{S is} a learned feature weight matrix of images and resources representing features. W _S is a 1 × | Φ (I, R) | matrix or a vector of dimension | Φ (I, R) |, that is, the number of features used to represent the image and the resource.

Noch ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion unter Verwendung einer linearen Einstufungsfunktion, d. h. f(S, I, R) = W·Φ(S, I, R). Yet another exemplary model implements a relevance function using a linear ranking function, ie f (S, I, R) = W · Φ (S, I, R).

Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die eine Erweiterung des Ansatzes ist, die sich in dem hier durch Bezugnahme aufgenommenen Aufsatz „Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings” von Jason Weston, Samy Bengio und Nicolas Usunier („Weston-Aufsatz”) befindet. Der Ansatz in dem Weston-Aufsatz beinhaltet das Training an einer „Einbettungsraum”-Darstellung von willkürlicher Dimension, wo der Abstand zwischen zwei Elementen in dem Raum ihre Ähnlichkeit bezeichnet. Dieses Modell beinhaltet die Funktion f(S, I, R) = (W_SI·Φ_SI(S, I))·(W_R·Φ_R(R)) wobei W_SI und W_R Matrizen sind, und das Verfahren lernt sowohl Matrizen als auch einen Einbettungsraum der Dimension R, der in der Regel von niedriger Dimension ist. W_SI ist eine R × |Φ_SI(S, I)|-Matrix, wobei R die Abmessungen des Einbettungsraums sind und |Φ_SI(S, I)| die Anzahl von Merkmalen ist, die zum gemeinsamen Darstellen von Text und Bild verwendet werden. W_R ist eine R × |Φ_R(R)|-Matrix, wobei |Φ_R(R)| die Anzahl von Merkmalen ist, die zum Darstellen der Ressource verwendet werden. Der Einbettungsraum in dem Weston-Aufsatz verwendete nur Bilder und Markierungen. Der Ansatz wird hier durch Verketten der Sprach- und Bildmerkmale zu einem einzelnen Merkmalsraum Φ_SI(S, I) erweitert.Another exemplary model implements a relevance function, which is an extension of the approach described in the incorporated by reference herein "Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings" by Jason Weston, Samy Bengio and Nicolas Usunier ( "Weston Tower") is located. The approach in the Weston essay involves training on an "embedding-space" representation of arbitrary dimension, where the distance between two elements in the space denotes their similarity. This model includes the function f (S, I, R) = (W _SI · Φ _SI (S, I)) · (W _R · Φ _R (R)) where W _SI and W _{R are} matrices, and the method learns both matrices and an embedment space of dimension R, which is typically of a low dimension. W _SI is an R × | Φ _SI (S, I) | matrix, where R is the size of the embedment space and | Φ _SI (S, I) | is the number of features used to represent text and image together. W _R is an R × | Φ _R (R) | matrix, where | Φ _R (R) | is the number of features used to represent the resource. The embedding room in the Weston Tower used only pictures and markings. The approach is extended here by concatenating the speech and image features into a single feature space Φ _SI (S, I).

Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die den Ansatz des Weston-Aufsatzes weiter erweitert. Die Relevanzfunktion wird definiert durch f(S, I, R) = Σ(W_S·Φ_S(S))*(W_I·Φ_I(I))*(W_R·Φ_R(R)) wobei die *-Operation die komponentenmäßige Multiplikation von Vektoren ist. Diese Funktion gestattet komplexere nichtlineare Interaktionen zwischen den Merkmalen des Bildes, der Sprache und der Ressource.Another exemplary model implements a relevance function that further expands the approach of the Weston essay. The relevance function is defined by f (S, I, R) = Σ (W _S * Φ _S (S)) * (W _I * Φ _I (I)) * (W _R _R (R)) where the * operation is the component multiplication of vectors. This feature allows for more complex nonlinear interactions between the features of the image, the language, and the resource.

§ 4.0 Beispielhafte Prozesse§ 4.0 Exemplary processes

4 ist ein Flussdiagramm eines beispielhaften Prozesses 400 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 105. Der Prozess 400 kann in dem Suchsystem 106 implementiert werden und wird zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108 verwendet. 4 is a flowchart of an example process 400 to train a common image-audio relevance model 105 , The process 400 can in the search system 106 be implemented and is to train a common image-audio relevance model 108 used.

Der Prozess 400 greift auf Bildanmerkungsdaten zurück (402). Das Suchsystem 106 greift beispielsweise auf Bildanmerkungsdaten von einer Produktdatenbank zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten aus Produktsuchauswahldaten zugreifen. Bei einem weiteren Beispiel greift das Suchsystem 106 auf Bildanmerkungsdaten von Bildsuchauswahldaten zu. Bei einer weiteren Implementierung greift das Suchsystem 106 auf Bildanmerkungsdaten von Websuchauswahldaten zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten von von menschlichen Kommentatoren kommentierten Daten zugreifen. Die menschlichen Kommentatoren können ihre eigenen Bild- und Sprachdaten zum Kommentieren erzeugen oder können von einer Produktdatenbank oder einem anderen automatisierten Prozess auf zu kommentierende Daten zugreifen.The process 400 uses image annotation data ( 402 ). The search system 106 For example, accesses image annotation data from a product database. The search system 106 can also access image annotation data from product search selection data. In another example, the search system takes effect 106 on image annotation data of image search selection data. In another implementation, the search system takes effect 106 on image annotation data of web search selection data. The search system 106 can also access image annotation data from data annotated by human commentators. Human commentators can generate their own image and voice data for commenting, or access data to be commented from a product database or other automated process.

Der Prozess 400 greift auf Ressourcen zu (404). Beispielsweise greift das Suchsystem 106 auf Ressourcen zu, die Produktdokumente von einer Produktdatenbank umfassen. The process 400 accesses resources ( 404 ). For example, the search system takes effect 106 resources that include product documents from a product database.

Der Prozess 400 trainiert ein gemeinsames Bild-Audio-Relevanzmodell an den Bildanmerkungsdaten und Ressourcen (406). Beispielsweise trainiert das Suchsystem 106 ein gemeinsames Bild-Audio-Relevanzmodell unter Verwendung der Bildanmerkungsdaten aus der Produktdatenbank und der Ressourcen aus der Produktdatenbank. Das gemeinsame Bild-Audio-Relevanzmodell kann beispielsweise gemäß einem der in Abschnitt 3.2 oben beschriebenen Trainingsalgorithmen trainiert werden, oder es können andere Trainingsalgorithmen verwendet werden.The process 400 trains a common image-audio relevance model on the image annotation data and resources ( 406 ). For example, the search system trains 106 a common image audio relevancy model using the image annotation data from the product database and the resources from the product database. For example, the common image audio relevance model may be determined according to one of the techniques described in section 3.2 training algorithms described above, or other training algorithms may be used.

5 zeigt ein Flussdiagramm eines beispielhaften Prozesses 500 zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage. Der Prozess 500 kann in dem Suchsystem 106 implementiert werden und wird zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage verwendet. 5 shows a flowchart of an example process 500 to classify resources for a common image audio query. The process 500 can in the search system 106 and is used to classify resources for a common image audio query.

Der Prozess 500 empfängt eine gemeinsame Bildaudioabfrage (502). Das Suchsystem 106 empfängt beispielsweise eine gemeinsame Bildaudioabfrage von einer Benutzereinrichtung durch das Netzwerk.The process 500 receives a common image audio query ( 502 ). The search system 106 For example, it receives a common image audio request from a user device through the network.

Der Prozess 500 bestimmt Abfragebildmerkmalsdaten (504). Beispielsweise generiert das Suchsystem 106 Bildmerkmalswertdaten aus dem von der Benutzereinrichtung empfangenen Abfragebild.The process 500 determines query image feature data ( 504 ). For example, the search engine generates 106 Image feature value data from the query image received from the user device.

Der Prozess 500 bestimmt Abfrageaudiomerkmalsdaten (506). Beispielsweise verarbeitet das Suchsystem 106 die Audiodaten, um aus Audiodaten, die Sprachdaten umfassen, Textdaten zu generieren.The process 500 determines query audio feature data ( 506 ). For example, the search system processes 106 the audio data to generate text data from audio data including voice data.

Der Prozess 500 liefert Abfragebildmerkmalsdaten und Abfrageaudiomerkmalsdaten an das gemeinsame Bild-Audio-Relevanzmodell (508). Beispielsweise liefert das Suchsystem 106 Abfragebildmerkmalsdaten und Textdaten an das gemeinsame Bild-Audio-Relevanzmodell. Das gemeinsame Bild-Audio-Relevanzmodell ist darauf trainiert, Relevanzpunktwerte für eine Sammlung von Ressourcen zu generieren.The process 500 provides query image feature data and query audio feature data to the common image audio relevance model ( 508 ). For example, the search system provides 106 Query image feature data and text data to the common image audio relevance model. The common image-audio relevance model is trained to generate relevance score values for a collection of resources.

Der Prozess 500 ordnet Ressourcen gemäß ihrer Relevanzpunktwerte (510). Beispielsweise ordnet das Suchsystem 106 die Ressourcen von der relevantesten bis zu der am wenigsten relevanten für die Bild-Audio-Abfrage.The process 500 allocates resources according to their relevance scores ( 510 ). For example, the search system orders 106 the resources from the most relevant to the least relevant for the image-audio query.

Der Prozess 500 liefert Suchergebnisse, die die Reihenfolge der Ressourcen angeben (512). Beispielsweise liefert das Suchsystem 106 Suchergebnisse, die eine Liste von Ressourcenadressen umfassen, eingestuft von der relevantesten bis zu der am wenigsten relevanten für die Benutzereinrichtung.The process 500 returns search results indicating the order of resources ( 512 ). For example, the search system provides 106 Search results comprising a list of resource addresses classified from the most relevant to the least relevant to the user equipment.

§ 5.0 Zusätzliche Implementierungsdetails§ 5.0 Additional Implementation Details

Implementierungen des Gegenstands und der Operationen, die in dieser Patentschrift beschrieben werden, können in digitaler elektronischer Schaltungsanordnung oder in Computersoftware, -firmware oder -hardware implementiert werden, einschließlich der in dieser Patentschrift offenbarten Strukturen und ihren strukturellen Äquivalenten oder in Kombinationen aus einer oder mehreren von ihnen. Implementierungen des in dieser Patentschrift beschriebenen Gegenstands können als ein oder mehrere Computerprogramme implementiert werden, d. h. ein oder mehrere Module von Computerprogrammanweisungen, auf einem Computerspeichermedium codiert zur Ausführung durch die oder zur Steuerung der Operation der Datenverarbeitungsvorrichtung. Alternativ oder zusätzlich können die Programmanweisungen auf einem künstlich generierten verbreiteten Signal codiert werden, beispielsweise einem maschinengenerierten elektrischen, optischen oder elektromagnetischen Signal, das generiert wird, um Informationen zur Übertragung zu einer geeigneten Empfängervorrichtung zur Ausführung durch eine Datenverarbeitungsvorrichtung zu codieren. Ein Computerspeichermedium kann eine computerlesbare Speichereinrichtung, ein computerlesbares Speichersubstrat, ein Zufalls- oder Reihenzugangsspeicherarray oder eine Zufalls- oder Reihenzugangseinrichtung oder eine Kombination aus einer oder mehreren von ihnen sein oder darin enthalten sein. Wenngleich ein Computerspeichermedium kein verbreitetes Signal ist, kann zudem ein Computerspeichermedium eine Quelle oder ein Ziel von Computerprogrammanweisungen sein, die in einem künstlich generierten verbreiteten Signal codiert sind. Das Computerspeichermedium kann auch ein oder mehrere getrennte physische Komponenten oder Medien (beispielsweise mehrere CDs, Disketten oder andere Speichereinrichtungen) sein oder darin enthalten sein.Implementations of the subject matter and operations described in this specification may be implemented in digital electronic circuitry or in computer software, firmware, or hardware, including the structures disclosed in this patent and their structural equivalents, or combinations of one or more of them. Implementations of the subject matter described in this specification may be implemented as one or more computer programs, i. H. one or more modules of computer program instructions encoded on a computer storage medium for execution by or for controlling the operation of the computing device. Alternatively or additionally, the program instructions may be encoded on an artificially generated broadcast signal, such as a machine-generated electrical, optical or electromagnetic signal generated to encode information for transmission to a suitable receiver device for execution by a data processing device. A computer storage medium may be or may be included in a computer readable storage device, a computer readable storage substrate, a random or serial access storage array, or a random or serial access device, or a combination of one or more of them. In addition, although a computer storage medium is not a broadcast signal, a computer storage medium may be a source or destination of computer program instructions encoded in an artificially generated broadcast signal. The computer storage medium may also be one or more separate physical components or media (eg, multiple CDs, floppy disks, or other storage devices) or included therein.

Die in dieser Patentschrift beschriebenen Operationen können als Operationen implementiert werden, die von einer Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einer oder mehreren computerlesbaren Speichereinrichtungen gespeichert sind oder von anderen Quellen empfangen werden.The operations described in this patent may be implemented as operations performed by a data processing device on data stored on or received from other sources by one or more computer readable storage devices.

Der Ausdruck „Datenverarbeitungsvorrichtung” umfasst alle Arten von Vorrichtungen, Einrichtungen und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise einem programmierbaren Prozessor, einem Computer, einem System auf einem Chip, oder mehrere einzelne oder Kombinationen der obigen. Die Vorrichtung kann eine Speziallogikschaltungsanordnung enthalten, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit). Die Vorrichtung kann zusätzlich zu Hardware einen Code enthalten, der eine Ausführungsumgebung für das fragliche Computerprogramm erzeugt, beispielsweise einen Code, der Prozessorfirmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, eine virtuelle Maschine oder eine Kombination aus einem oder mehreren von ihnen bildet. Die Vorrichtung und die Ausführungsumgebung können verschiedene Rechenmodellinfrastrukturen wie etwa Webdienste, verteilte Rechen- und Netzrecheninfrastrukturen realisieren.The term "data processing device" includes all types of devices, devices, and machines for processing data, including, for example, one programmable processor, a computer, a system on a chip, or several individual or combinations of the above. The device may include special logic circuitry, such as an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit). The apparatus may include, in addition to hardware, code that generates an execution environment for the computer program in question, such as code, the processor firmware, a protocol stack, a database management system, an operating system, a cross-platform runtime environment, a virtual machine, or a combination of one or more of forms them. The device and execution environment may implement various computing model infrastructures, such as web services, distributed computing and network computing infrastructures.

Ein Computerprogramm (auch als ein Programm, Software, Softwareanwendung, Script oder Code bekannt) kann in einer beliebigen Form von Programmiersprache geschrieben sein, einschließlich kompilierter oder interpretierter Sprachen, deklarativer oder prozeduraler Sprachen, und es kann in beliebiger Form eingesetzt werden, einschließlich als ein unabhängiges Programm oder als ein Modul, eine Komponente, eine Teilroutine, ein Objekt oder irgendeine andere Einheit, die sich zur Verwendung in einer Rechenumgebung eignet. Ein Computerprogramm kann, aber muss nicht, einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Abschnitt einer Datei gespeichert sein, die andere Programme oder Daten hält (beispielsweise ein oder mehrere, in einem Markup-Language-Dokument gespeicherte Scripts), in einer dem fraglichen Programm gewidmeten einzelnen Datei oder in mehreren koordinierten Dateien (beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Abschnitte von Code speichern) gespeichert sein. Ein Computerprogramm kann eingesetzt werden, um auf einem Computer oder auf mehreren Computern ausgeführt zu werden, die sich an einem Ort befinden oder über mehrere Orte verteilt und durch ein Kommunikationsnetz verbunden sind.A computer program (also known as a program, software, software application, script or code) may be written in any form of programming language, including compiled or interpreted languages, declarative or procedural languages, and may be used in any form, including as a independent program or as a module, component, subroutine, object or any other entity suitable for use in a computing environment. A computer program may or may not be equivalent to a file in a file system. A program may be stored in a portion of a file that holds other programs or data (for example, one or more scripts stored in a markup language document), a single file dedicated to the program in question, or multiple coordinated files (eg, files that store one or more modules, partial programs or sections of code). A computer program may be used to run on a computer or on multiple computers that are in one place or distributed over multiple locations and connected through a communication network.

Die in dieser Patentschrift beschriebenen Prozesse und Logikflüsse können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Aktionen durchzuführen, indem an Eingangsdaten gearbeitet und eine Ausgabe generiert wird. Die Prozesse und Logikflüsse können auch durch eine Speziallogikschaltungsanordnung, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit) durchgeführt werden und die Vorrichtung kann auch als diese implementiert werden.The processes and logic flows described in this patent may be performed by one or more programmable processors that execute one or more computer programs to perform actions by working on input data and generating an output. The processes and logic flows may also be performed by special logic circuitry, such as a Field Programmable Gate Array (FPGA) or Application Specific Integrated Circuit (ASIC), and the device may also be implemented as such.

Prozessoren, die sich für die Ausführung eines Computerprogramms eignen, enthalten beispielsweise sowohl Allzweck- als auch Spezialmikroprozessoren und einen oder mehrere beliebige Prozessoren einer beliebigen Art von Digitalcomputer. Allgemein wird ein Prozessor Anweisungen und Daten von einem Festwertspeicher oder einem Direktzugriffspeicher oder beiden empfangen. Die essenziellen Elemente eines Computers sind ein Prozessor zum Durchführen von Aktionen gemäß Anweisungen und ein oder mehrere Speichereinrichtungen zum Speichern von Anweisungen und Daten. Allgemein enthält ein Computer auch eine oder mehrere Massenspeichereinrichtungen zum Speichern von Daten, beispielsweise magnetische, magnetooptische Platten oder optische Platten oder wird operativ gekoppelt sein, um Daten von diesen zu empfangen oder Daten zu ihnen zu transferieren oder beides. Jedoch braucht ein Computer keine derartigen Einrichtungen aufzuweisen. Zudem kann ein Computer in eine andere Einrichtung eingebettet sein, beispielsweise ein Mobiltelefon, einen PDA (Personal Digital Assistant), einen mobilen Audio- oder Videoplayer, eine Spielekonsole, einen GPS-Empfänger (Global Positioning System) oder eine tragbare Speichereinrichtung (beispielsweise ein USB-Flash-Laufwerk (Universal Serial Bus), um nur einige zu nennen. Einrichtungen, die sich zum Speichern von Computerprogrammanweisungen und Daten eignen, beinhalten alle Formen eines nichtflüchtigen Speichers, von Medien und Speichereinrichtungen, einschließlich beispielsweise Halbleiterspeichereinrichtungen, beispielsweise EPROM, EEPROM und Flash-Speichereinrichtungen; magnetische Platten, beispielsweise interne Festplatten oder entfernbare Platten; magnetooptische Platten und CD-ROM- und DVD-ROM-Platten. Der Prozessor und der Speicher können durch eine Speziallogikschaltungsanordnung ergänzt werden oder in diese integriert sein.For example, processors suitable for executing a computer program include both general purpose and specialty microprocessors and one or more arbitrary processors of any type of digital computer. Generally, a processor will receive instructions and data from a read only memory or random access memory or both. The essential elements of a computer are a processor for performing actions in accordance with instructions and one or more memory devices for storing instructions and data. Generally, a computer also includes one or more mass storage devices for storing data, such as magnetic, magneto-optical disks, or optical disks, or will be operably coupled to receive data from or transfer data to them, or both. However, a computer need not have such facilities. In addition, a computer may be embedded in another device, such as a mobile phone, a personal digital assistant (PDA), a mobile audio or video player, a game console, a Global Positioning System (GPS) receiver, or a portable storage device (such as a USB Universal serial bus, just to name a few, means suitable for storing computer program instructions and data include all forms of nonvolatile memory, media, and memory devices including, for example, semiconductor memory devices such as EPROM, EEPROM, and Flash Magnetic disks, such as internal hard disks or removable disks, magneto-optical disks, and CD-ROM and DVD-ROM disks The processor and memory may be supplemented or integrated with special logic circuitry.

Um eine Interaktion mit einem Benutzer bereitzustellen, können Implementierungen des in dieser Spezifikation beschriebenen Gegenstands auf einem Computer mit einer Displayeinrichtung implementiert werden, beispielsweise einem Kathodenstrahlröhren- oder LCD-(Liquid Crystal Display – Flüssigkristallanzeige)Monitor, um dem Benutzer Informationen anzuzeigen, und eine Tastatur und eine Zeigeeinrichtung, beispielsweise eine Maus oder einen Trackball, durch die der Benutzer Eingabe in den Computer bereitstellen kann. Andere Arten von Einrichtungen können verwendet werden, um auch für eine Interaktion mit einem Benutzer zu sorgen; beispielsweise kann ein dem Benutzer geliefertes Feedback jede Form an sensorischem Feedback sein, beispielsweise visuelles Feedback, auditorisches Feedback oder taktiles Feedback; und Eingabe von dem Benutzer kann in einer beliebigen Form empfangen werden, einschließlich akustischer, Sprach- oder taktiler Eingabe. Außerdem kann ein Computer mit einem Benutzer interagieren durch Senden von Dokumenten an und Empfangen von Dokumenten von einer Einrichtung, die von dem Benutzer verwendet wird; beispielsweise durch Senden von Webseiten an einen Webbrowser auf einer Clienteinrichtung des Benutzers als Reaktion auf von dem Webbrowser empfangenen Anforderungen.To provide for interaction with a user, implementations of the subject matter described in this specification may be implemented on a computer having a display device, such as a CRT or LCD (Liquid Crystal Display) monitor to display information to the user, and a keyboard and a pointing device, such as a mouse or a trackball, through which the user can provide input to the computer. Other types of devices may be used to also provide interaction with a user; for example, feedback provided to the user may be any form of sensory feedback, such as visual feedback, auditory feedback, or tactile feedback; and input from the user may be received in any form, including acoustic, voice or tactile input. Additionally, a computer may interact with a user by sending documents to and receiving documents from a device used by the user; for example, by sending web pages to a web browser on a client device of the user in response to requests received from the web browser.

Wenngleich diese Patentschrift viele spezifische Implementierungsdetails enthält, sollten diese nicht als Beschränkungen des Schutzbereichs etwaiger Offenbarungen oder dessen, was beansprucht werden kann, ausgelegt werden, sondern vielmehr als Beschreibungen von Merkmalen, die bestimmten Implementierungen von bestimmten Offenbarungen zu eigen sind. Bestimmte Merkmale, die in dieser Patentschrift in dem Kontext separater Implementierungen beschrieben sind, können auch in Kombination in einer einzelnen Implementierung implementiert werden. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzelnen Implementierung beschrieben werden, auch in mehreren Implementierungen separat oder in einer beliebigen geeigneten Teilkombination implementiert werden. Wenngleich Merkmale oben so beschrieben worden sein können, dass sie in bestimmten Kombinationen wirken und sogar anfänglich als solche beansprucht sind, können zudem ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination entfernt werden, und die beanspruchte Kombination kann eine Teilkombination oder eine Variation einer Teilkombination betreffen.While this specification contains many specific implementation details, these should not be construed as limitations on the scope of any disclosures or claims that may be claimed, but rather as descriptions of features that are inherent in particular implementations of particular disclosures. Certain features described in this patent in the context of separate implementations may also be implemented in combination in a single implementation. Conversely, various features described in the context of a single implementation may also be implemented in multiple implementations separately or in any suitable subcombination. Moreover, although features above may be described as acting and even initially claimed as such in certain combinations, in some instances, one or more features of a claimed combination may be removed from the combination in some instances, and the claimed combination may be a partial combination or combination relate to a variation of a sub-combination.

Wenngleich Operationen in den Zeichnungen in einer bestimmten Reihenfolge gezeigt sind, sollte dies analog nicht so verstanden werden, als wenn es erfordert, dass solche Operationen in der gezeigten bestimmten Reihenfolge oder in einer sequenziellen Reihenfolge ausgeführt werden oder dass alle dargestellten Operationen ausgeführt werden, um erwünschte Ergebnisse zu erzielen. In gewissen Umständen können Multitasking und parallele Verarbeitung vorteilhaft sein. Zudem sollte die Trennung von verschiedenen Systemkomponenten in den oben beschriebenen Implementierungen nicht so verstanden werden, als wenn dies eine Trennung in allen Implementierungen erfordert, und es ist zu verstehen, dass die beschriebenen Programmkomponenten und Systeme allgemein zusammen in einem einzelnen Softwareprodukt integriert sein können oder zu mehreren Softwareprodukten verpackt sein können.Similarly, while operations in the drawings are shown in a particular order, this should not be construed analogously as requiring that such operations be performed in the particular order shown, or in a sequential order, or that all operations illustrated are performed as desired To achieve results. In some circumstances, multitasking and parallel processing may be beneficial. In addition, the separation of various system components in the above-described implementations should not be construed as requiring separation in all implementations, and it should be understood that the described program components and systems may generally be integrated together into a single software product several software products.

Somit wurden bestimmte Implementierungen des Gegenstands beschrieben. Andere Implementierungen liegen innerhalb des Schutzbereichs der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen angeführten Aktionen in einer anderen Reihenfolge ausgeführt werden und immer noch erwünschte Ergebnisse erzielen. Außerdem erfordern die in den beiliegenden Figuren gezeigten Prozesse nicht notwendigerweise die gezeigte bestimmte Reihenfolge oder sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein.Thus, certain implementations of the subject have been described. Other implementations are within the scope of the following claims. In some cases, the actions recited in the claims may be performed in a different order and still achieve desirable results. In addition, the processes shown in the accompanying figures do not necessarily require the particular order or sequential order shown to achieve desired results. In certain implementations, multitasking and parallel processing may be beneficial.

Claims

A system comprising: a data processing device and a computer storage medium encoded with a computer program, the program comprising instructions that, when executed by the computing device, cause the computing device to perform operations comprising: Receiving a common image audio query from a client device, the shared image audio query including query image data defining a query image and query audio data defining a query audio; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; which defines a resource text for the resource, and wherein each relevance score is a measure of the relevance of the corresponding image audio interrogation resource; Ordering the resources according to the corresponding relevance score and Deliver data defining search results indicating the order of resources to the client device.

The system of claim 1, wherein the query audio feature data includes data pertaining to a query object in the query image data by further describing the query object, wherein the query object is a subset of the query image that contains image data representing an object of interest.

The system of claim 1 or 2, wherein the data further describing the query object includes information indicating a position of the query object.

The system of any of claims 1 to 3, wherein the query audio feature data includes data defining one or more restrictions on the search results.

A system according to any one of claims 1 to 4, wherein one or more resource images are used to refine the search results.

The system of any one of claims 1 to 5, wherein one or more resource text data is used to refine the search results.

A system comprising: a data processing device and a computer storage medium encoded with a computer program, the program comprising instructions that, when executed by the computing device, cause the computing device to perform operations comprising: Accessing image annotation data describing a plurality of annotation pairs, each annotation pair including image data defining an image and text data associated with the image; Accessing resources, each resource defining a resource image for the resource and text data defining resource text for the resource; and Training a common image-audio relevance model on the image annotation data and the resources to generate relevance score values for a plurality of resources, and wherein each relevance score is a measure of the relevance of a corresponding image-audio resource, the query image data defining a query image, and Contains query data defining query audio.

The system of claim 7, wherein the annotation pair text data is converted from a speech-defining audio file.

The system of claim 7 or 8, wherein the image retention data includes annotation pairs obtained from selection data for search results in response to a user search query, wherein the selection data identifies a selection of a reference to the annotated image from search results in response to the user query and the annotation text data includes the user query text ,

The system of any one of claims 7 to 9, wherein the image annotation data includes annotation pairs obtained from a product database, the product database including product resources defining a product resource image and product product data for multiple products, the annotation image comprising a product resource image and the annotation text data comprising a subset the corresponding product text data.

The system of any one of claims 7 to 10, wherein a portion of the image annotation data and resources of known relevance are divided into a training amount and a test amount, wherein the training amount is used to train the common image audio relevance model and the test set is used to test the common image audio relevance model.

A computer storage medium encoded with a computer program, the program comprising instructions that, when executed by a client device, cause the client device to perform operations comprising: Receiving a common image audio query from a client device, the shared image audio query including query image data defining a query image and query audio data defining a query audio; Determining image query feature data based on the query image data, the query image feature data describing image features of the query image; Determining polling audio feature data based on the audio data, the polling audio feature data describing audio characteristics of the polling audio; Providing the query image feature data and the query audio feature data to a common image audio relevance model, wherein the common image audio relevance model is adapted to generate relevance score values for a plurality of resources, each resource including resource image data defining a resource image for the resource and textual data; which defines a resource text for the resource, and wherein each relevance score is a measure of the relevance of the corresponding image audio interrogation resource; Ordering the resources according to the corresponding relevance score and Deliver data defining search results indicating the order of resources to the client device.

A computer storage medium encoded with a computer program, the program comprising instructions that, when executed by a client device, cause the client device to perform operations, comprising: accessing image annotation data describing a plurality of annotation pairs, each annotation pair including image data defining an image and text data that are associated with the image contains; Accessing resources, each resource defining a resource image for the resource and text data defining resource text for the resource; and training a common image-audio relevance model on the image annotation data and the resources to generate relevance score values for a plurality of resources, and wherein each relevance score is a measure of the relevance of a corresponding image-audio resource, the query image data defining a query image. and query audio data defining query audio contains.