DE212011100024U1

DE212011100024U1 - Suche mit gemeinsamen Bild-Audio-Abfragen

Info

Publication number: DE212011100024U1
Application number: DE212011100024U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-10-28
Filing date: 2011-10-28
Publication date: 2012-07-10
Anticipated expiration: 2021-10-29
Also published as: US20140330822A1; CN103329126A; AU2011320530B2; WO2012058577A1; AU2011320530A1; US20120109858A1; US8788434B2; CN103329126B; EP2633439A1

Abstract

System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist;...

Description

ALLGEMEINER STAND DER TECHNIK
Die vorliegende Patentschrift betrifft das Verarbeiten von Abfragen, insbesondere von Abfragen, die sowohl ein Bild als auch ein assoziiertes Audio enthalten.
Das Internet liefert Zugang zu einer großen Vielzahl an Ressourcen, beispielsweise Videodateien, Bilddateien, Audiodateien oder Webseiten mit Inhalt für bestimmte Themen, Buchartikel oder Verbraucherprodukte. Ein Suchsystem kann als Reaktion auf das Empfangen einer Suchabfrage eine oder mehrere Ressourcen wählen. Bei einer Suchabfrage handelt es sich um Daten, die ein Benutzer einer Suchmaschine unterbreitet, um die Informationsbedürfnisse des Benutzers zufriedenzustellen. Das Suchsystem wählt und beurteilt Ressourcen auf der Basis ihrer Relevanz für die Suchabfrage. Die Suchergebnisse werden in der Regel gemäß den Punktwerten geordnet und in einer Suchergebnisseite bereitgestellt.
Zum Suchen von Bildressourcen kann ein Suchsystem die Relevanz eines Bildes für eine Textabfrage auf der Basis des Textinhalts der Ressource bestimmen, in der sich das Bild befindet, und auch auf der Basis von mit dem Bild assoziierten Relevanzfeedback. Einige Suchsysteme suchen Bildressourcen unter Verwendung von Abfragebildern als Eingabe. Ein Abfragebild ist ein Bild wie etwa eine jpeg-Datei, die von einer Suchmaschine als Eingabe für eine Suchverarbeitungsoperation verwendet wird. Verwandte Bilder können gefunden werden, indem andere Bilder verarbeitet und Bilder identifiziert werden, die vom visuellen Erscheinungsbild her dem Abfragebild ähnlich sind. Die Verwendung von Abfragebildern wird mit dem Aufkommen von Smartphones, die Kameras enthalten, viel vorherrschender. Beispielsweise kann ein Benutzer mit einem Smartphone nun ein Bild von einem interessierenden Gegenstand aufnehmen und das Bild einer Suchmaschine unterbreiten. Die Suchmaschine sucht dann Bildressourcen unter Verwendung des Bildes als Abfragebild.
Betrachter interpretieren jedoch Bilder auf viel subjektivere Weise als Text. Während die Bilder, die identifiziert werden, möglicherweise von der Erscheinung her dem Abfragebild ähneln, sind somit möglicherweise viele der Bilder für den Betrachter nicht von Interesse. Beispielsweise kann ein Benutzer eine Suche über ein Bild eines Wagens durchführen. Der Benutzer ist vielleicht an anderen Wagen dieser Marke interessiert, doch könnte eine Bildsuche nur auf der Basis der visuellen Ähnlichkeit möglicherweise mit Bildern von Wagen von unterschiedlichen Marken antworten.
KURZE DARSTELLUNG DER ERFINDUNG
Allgemein kann ein innovativer Aspekt des in dieser Patentschrift beschriebenen Gegenstands in Systemen verkörpert werden zum Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert; und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.
Ein weiterer Aspekt des in dieser Patentschrift beschriebenen Gegenstands kann in Systemen implementiert werden zum Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.
Bestimmte Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands können so implementiert werden, dass ein oder mehrere der folgenden Vorteile realisiert werden. Das Hinzufügen von Audiodaten zu einer Bildabfrage kann die Relevanz von Suchergebnissen für die Abfrage verbessern. Die Relevanz kann verbessert werden, indem sowohl Informationen geliefert werden, die dem System beim Extrahieren des interessierenden Objekts in einem Bild helfen können, und auch indem Informationen geliefert werden, die die Suche des Benutzers über das hinaus ergänzt, was in dem Bild gefunden werden kann. Diese Informationen können auch auf unterschiedliche andere Weisen hinzugefügt werden. Bei einigen Ausführungsformen kann ein Abschnitt des Bildes von dem Benutzer, der unter Verwendung eines Touchscreens auf dem Bild einen Kreis zeichnet, so gewählt werden, dass er das interessierende Objekt enthält. Der Benutzer kann auch das interessierende Objekt enger als mit einem Kreis oder einer anderen Gestalt umreißen und kann auch den Umriss unter Verwendung anderer Eingabeverfahren zeichnen. Bei einigen Ausführungsformen kann der Benutzer zusätzliche Informationen hinsichtlich des Bildes unter Verwendung eines Dropdown-Menükastens hinzufügen. Der Menükasten kann verschiedene Kategorien von Elementen aufweisen, wie etwa Einkaufskategorien einschließlich Schuhe, Hemden, Hosen und andere ähnliche Kategorien.
Die Einzelheiten von einer oder mehreren Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands sind in den beiliegenden Zeichnungen und der folgenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstands ergeben sich aus der Beschreibung, den Zeichnungen und den Ansprüchen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm einer beispielhaften Umgebung, in der ein gemeinsames Bildaudiosuchsystem Suchdienste liefert.
2A und 2B sind beispielhafte Bilder für eine gemeinsame Bildaudioabfrage.
3A ist ein Blockdiagramm eines beispielhaften Prozesses für das Abfragen eines gemeinsamen Bildaudiosuchsystems.
3B ist ein Blockdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells.
4 ist ein Flussdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells.
5 ist ein Flussdiagramm eines beispielhaften Prozesses zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage.
AUSFÜHRLICHE BESCHREIBUNG
§ 1.0 Übersicht
Eine auf einem Mobiltelefon laufende Applikation gestattet einem Benutzer, ein Bild eines Objekts aufzunehmen und in das Telefon zu sprechen, um die Sprache des Benutzers aufzuzeichnen. Die Audioaufzeichnung wird mit dem Bild gepaart, um eine gemeinsame Bildaudioabfrage auszubilden. Die mobile Einrichtung unterbreitet dann die gemeinsame Bildaudioabfrage einem Suchsystem.
Das Suchsystem empfängt die gemeinsame Bildaudioabfrage und bestimmt Textdaten anhand der Sprache und generiert Bildmerkmalsdaten anhand des Bildes. Das Suchsystem verwendet die Textdaten und die Bildmerkmalsdaten als Eingaben in ein gemeinsames Bild-Audio-Relevanzmodell, das Ressourcen mit den eingegebenen Daten vergleicht. Bei den Ressourcen kann es sich um beliebige der im Internet gefundenen Ressourcen handeln, einschließlich Webseiten, Dokumenten, Bildern und Video. Als ein Beispiel kann jede Ressource ein Dokument für ein Produkt sein, das ein Bild des Produkts und assoziierte Textdaten des Produkts enthält. Das gemeinsame Bild-Audio-Relevanzmodell vergleicht die Abfragebildmerkmalsdaten mit den Bildmerkmalsdaten jeder Ressource und die Abfragetextdaten mit den entsprechenden Ressourcentextdaten und berechnet einen Relevanzpunktwert für jede Ressource. Das System ordnet die Ressourcen gemäß den Relevanzpunktwerten und legt dem Benutzer Suchergebnisse vor. Die Suchergebnisse enthalten Links zu den geordneten Ressourcen und können auch zusätzliche Informationen über jede Ressource enthalten, beispielsweise Vorschaubilder des Ressourcenbilds oder Teilmengen des Ressourcentexts.
Damit das gemeinsame Bild-Audio-Relevanzmodell die Relevanz einer gemeinsamen Bildaudioabfrage für die Ressourcen bestimmen kann, wird das Modell zuerst trainiert. Das Trainieren des Modells beinhaltet das Verwenden von Bildanmerkungsdaten, die Anmerkungspaare sind. Jedes Anmerkungspaar ist ein Bild, das mit mit dem Bild assoziierten Textdaten gepaart ist. Diese Anmerkungspaare werden als Trainingseingaben für das gemeinsame Bild-Audio-Relevanzmodell zusammen mit Trainings- und Testressourcen für die Anmerkungspaare verwendet. Das gemeinsame Bild-Audio-Relevanzmodell wird trainiert, bis die Testressourcen auf eine Weise eingestuft sind, die als annehmbar erachtet wird, wie durch ein oder mehrere Kriterien definiert.
1 ist ein Blockdiagramm einer beispielhaften Umgebung 100, in der ein gemeinsames Bildaudiosuchsystem 106 Suchdienste liefert. Die beispielhafte Umgebung 100 enthält ein Netzwerk 104 wie etwa das Internet, das eine Benutzereinrichtung 102 mit einem Suchsystem 106 verbindet. Die Benutzereinrichtung 102 überträgt eine gemeinsame Bildaudioabfrage 120, die eine Paarung aus Bilddaten 122 und Audiodaten 124 enthält, über das Netzwerk 104 zu dem Suchsystem 106. Beispielhaftes Audio 124 ist eine Sprachaufzeichnung. Das System 106 verarbeitet die Bilddaten 122 und Audiodaten 124 und vergleicht sie mit einer Sammlung von Ressourcen 116, wobei ein Relevanzpunktwert für jede Ressource 116 berechnet wird. Das System 106 stuft diese Ressourcen 116 nach ihren Relevanzpunktwerten ein und sendet eine Liste von Suchergebnissen, von denen jedes einen Ressourcenlink 130 zu einer entsprechenden Ressource enthält, an die Benutzereinrichtung 102.
Die Benutzereinrichtung 102 ist eine Elektronikeinrichtung, die unter der Kontrolle eines Benutzers steht und über das Netzwerk 104 Ressourcen 116 anfordern und empfangen kann. Zu beispielhaften Benutzereinrichtungen 102 zählen PCs, mobile Kommunikationseinrichtungen und andere Einrichtungen, die Daten über das Netzwerk senden und empfangen können. Eine Benutzereinrichtung 102 enthält in der Regel eine Benutzerapplikation, z. B. einen Webbrowser, um das Senden und Empfangen von Daten über das Netzwerk 104 zu ermöglichen. Die Benutzereinrichtung 102 kann auch eine Kamera und ein Mikrofon zum Erfassen eines Bildes 122 und von Audio 124 enthalten. Die Benutzereinrichtung enthält außerdem eine Anwendung, die das Audio 124 mit dem Bild 122 paart, um eine gemeinsame Bildaudioabfrage auszubilden. Das Abfrageaudio 124 enthält in der Regel Sprachdaten, die mehr Informationen über das Bild 122 oder über die Suchparameter des Benutzers liefern.
Es sei beispielsweise angenommen, dass ein Benutzer nach einer Wasserflasche sucht und das Abfragebild 122 ein von der Benutzereinrichtung 102 aufgenommenes Bild einer Wasserflasche ist. Siehe beispielsweise 2A. In 2A kann das Bild mehr als eine Wasserflasche enthalten. Nach dem Aufnehmen des Bildes spezifiziert der Benutzer, dass die Wasserflasche in dem Bild das interessierende Objekt ist, indem das Abfragebild 122 mit dem Abfrageaudio 124 „Wasserflasche” erweitert wird. Alternativ kann der Benutzer spezifischere Informationen liefern, indem er beispielsweise „rote Wasserflasche” als das Abfrageaudio 124 aufnimmt. Das Abfrageaudio 124 kann auch Positionsinformationen enthalten, falls sich beispielsweise in dem Abfragebild 122 mehr als ein Objekt befindet, kann der Benutzer durch Unterbreiten des Abfrageaudios 124 „rote Wasserflasche auf der rechten Seite” spezifizieren.
Selbst bei nur einem Objekt in dem Bild können Audioinformationen die Ergebnisse einer Suche verbessern. Beispielsweise enthält 2B in dem Bild nur die Wasserflasche. Falls jedoch eine Suche durchgeführt würde, um nur auf der Basis der visuellen Merkmale ähnliche Bilder zu finden, enthalten die Ergebnisse möglicherweise nur Flaschen, die eine ähnliche Gestalt und Farbe aufweisen, und enthalten möglicherweise keine andere Arten von Wasserflaschen. Durch Erweitern des Bildes mit dem Audio, z. B. „Wasserflasche” oder „Wasserflasche für Fahrradfahrten” liefert das System zusätzliche Informationen an das Suchsystem, und das Suchsystem liefert anhand dieser zusätzlichen Informationen Suchergebnisse, die die Informationsbedürfnisse des Benutzers wahrscheinlich zufrieden stellen.
Weiterhin kann der Benutzer auch Parameter durch die Verwendung von Audio liefern, um die Suchergebnisse zu beschränken. Beispielsweise sucht der Benutzer möglicherweise in einer Produktdatenbank, um eine Wasserflasche zum Kauf zu finden. Der Benutzer kann dem Suchsystem das Bild 122 der Wasserflasche und das Abfrageaudio 124 „Wasserflasche unter 10 Dollar, Marke X” oder als ein weiteres Beispiel „diese Wasserflasche in blau” liefern.
Wieder unter Bezugnahme auf 1 empfängt das Suchsystem 106 die gemeinsame Bildaudioabfrage, die die Bilddaten 122 und die Audiodaten 124 enthält, durch das Netzwerk 104 von der Benutzereinrichtung 102. Bei einigen Implementierungen enthält das Suchsystem 106 eine Bildverarbeitungsvorrichtung 110 zum Generieren von Bildmerkmalsdaten aus den Bilddaten 122. Alternativ schickt das Suchsystem bei anderen Implementierungen die Bilddaten 122 an eine separate Bildverarbeitungsvorrichtung 110 und empfängt die Bildmerkmalsdaten von der separaten Bildverarbeitungsvorrichtung 110. Analog kann das Suchsystem 106 auch eine Sprachverarbeitungsvorrichtung 112 zum Extrahieren von Textdaten aus den Audiodaten 124 enthalten, oder es kann die Audiodaten 124 an eine separate Sprachverarbeitungsvorrichtung 112 liefern und die Textdaten empfangen.
Das Suchsystem 106 verwendet die Bildmerkmalsdaten und die Textdaten, die aus der gemeinsamen Bildaudioabfrage abgeleitet wurden, als Eingabe zu einem gemeinsamen Bild-Audio-Relevanzmodell 108. Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt diese beiden Eingaben und empfängt auch Ressourcen 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 beurteilt jede Ressource 116 unter Angabe eines Relevanzmaßes der Ressource 116 für die gemeinsame Bild-Audio-Abfrage.
Bei einigen Implementierungen berechnet das Suchsystem unter Verwendung des gemeinsamen Bild-Audio-Relevanzmodells 108 einen Punktwert für jede Ressource gemäß der folgenden Einstufungsfunktion: REL_i = f(S, I, R_i) wobei

REL_i: ein Relevanzpunktwert für eine Ressource R_i;
S: die Audiodaten 124;
I: die Bilddaten 122; und
R_i: eine gegebene Ressource in einer Ressourcendatenbank oder einem Ressourcenzwischenspeicher sind. Die Funktion f(S, I, R) wird unter Bezugnahme auf 3B unten ausführlicher beschrieben.

Bei einer Ressource 116 handelt es sich um beliebige Daten, die über ein Netzwerk 104 bereitgestellt werden können und mit einer Ressourcenadresse assoziiert oder in einer Datenbank indexiert sind. Bei einigen Implementierungen umfasst eine Ressourcendatenbank 114 eine Sammlung von Ressourcen 116, wobei jede Ressource 116 ein Ressourcenbild und einen Ressourcentext enthält. Ein Beispiel für eine Ressourcendatenbank 114 ist eine Produktdatenbank, die Produktdokumente enthält, die ein Bild eines Produkts und das Produkt beschreibende Daten wie etwa Markenname, Preis und eine Textbeschreibung umfassen.
Für jede i-te Ressource bestimmt das Suchsystem 106 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich der, wie es Abfragebildmerkmalsdaten aus dem Abfragebild bestimmt. Das Suchsystem 106 bestimmt auch Ressourcentextdaten aus der Ressource 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 vergleicht dann die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten einer Ressource 116 und berechnet einen Relevanzpunktwert REL_i für die Ressource 116. Das Modell 108 liefert die Relevanzpunktwerte an das Suchsystem 106. Das Suchsystem 106 ordnet dann die Ressourcen gemäß den Relevanzpunktwerten und liefert Suchergebnisse 130, eingestuft nach den Relevanzpunktwerten der Ressourcen, an die Benutzereinrichtung 102.
§ 2.0 Verarbeiten einer gemeinsamen Bild-Audio-Abfrage
3A ist ein Blockdiagramm eines beispielhaften Prozesses 300 zum Abfragen eines gemeinsamen Bildaudiosuchsystems. Das Suchsystem 106 empfängt die gemeinsame Bildaudioabfrage, die Bilddaten 302 und Audiodaten 304 umfasst. Diese Daten werden durch das Netzwerk empfangen, und bei einigen Implementierungen sind die Bilddaten 302 ein von einem Benutzer von einem Abfrageobjekt aufgenommenes Bild. Die Audiodaten 304 enthalten von dem Benutzer aufgezeichnete Sprache, die Informationen über das Abfrageobjekt oder über die gewünschten Abfrageergebnisse enthält. Diese werden als die gemeinsame Bild-Audio-Abfrage miteinander gepaart.
Die Audiodatei 304 enthält die Sprache betreffendes Audio. Die Sprachdaten 304 werden unter Verwendung eines Spracherkennungsalgorithmus in Textdaten 308 umgewandelt. Der Text 308 wird unter Verwendung von Verarbeitungstechniken für natürliche Sprache weiter analysiert, um den Inhalt der Textdaten 308 zu parsen. Beispielsweise kann das Bild 302 in der gemeinsamen Bild-Audio-Abfrage eine Wasserflasche enthalten, wie in 2A. Die dieses Bild begleitenden Audiodaten 304 können einfach „Wasserflasche” sein. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und verwendet den Text 308 als einen Suchparameter beim Vergleichen mit Ressourcentextdaten.
Unter Verwendung der Verarbeitung von natürlicher Sprache kann das Suchsystem 106 räumliche Bereiche des Bildes bestimmen, um sie einzuschließen oder auszuschließen. Beispielsweise kann das Audio 304 die Sprache „Wasserflasche auf der rechten Seite des Bildes” enthalten. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage. Das System 106 bestimmt aus dem Ausdruck „auf der rechten Seite des Bildes”, dass die rechte Seite des Bildes ein Bereich von Interesse ist und ignoriert somit auf der linken Seite des Bildes 302 erkannte Merkmale und Objekte und konzentriert sich nur auf jene, die es auf der rechten Seite findet.
Unter Verwendung einer Verarbeitung von natürlicher Sprache kann das Suchsystem 106 Empfindungen für bestimmte Merkmale oder Charakteristika detektieren. Beispielsweise kann das Bild 302 in der gemeinsamen Bildaudioabfrage eine rote Wasserflasche enthalten, wie in 2B. Das Audio 304 enthält jedoch möglicherweise die Sprache „nur blaue Wasserflaschen, keine roten”. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage, um zu interpretieren, dass der Benutzer in den Suchergebnissen nur blaue Wasserflaschen wünscht, im Gegensatz zu der roten Wasserflasche in dem Bild 302.
Aus den Bilddaten 302 der Bildaudioabfrage generiert das Suchsystem 106 Bildmerkmalswertdaten 306. Bildmerkmalswertdaten 306 sind Wert-Punktwerte, die visuelle Charakteristika eines Abschnitts eines Bilds 302 darstellen. Der Abschnitt des Bilds kann die Ganzheit des Bildes 302 oder einen Teilabschnitt des Bilds enthalten. Bei einigen Implementierungen können die Bildmerkmale 306 Farbe, Textur, Kanten, Sättigung und andere Charakteristika beinhalten. Zu beispielhaften Prozessen zum Extrahieren von Werten von Bildmerkmalen 306, aus denen ein Merkmalspunktwert berechnet werden kann, zählen Prozesse zum Generieren von Farbhistogrammen, Texturdetektionsprozesse (z. B. auf der Basis einer räumlichen Variation bei Pixelintensitäten), eine skaleninvariante Merkmalstransformation, Kantendetektion, Eckendetektion und geometrische Unschärfe.
Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt die Bildmerkmalsdaten 306 und Textdaten 308. Das Modell 108 greift auch auf Ressourcen 314 in einer Sammlung von Ressourcen zu. Nachdem auf jede Ressource 314 zugegriffen worden ist, generiert das Modell 108 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich dem Abfragebild 302. Das Modell 108 bestimmt auch Textdaten anhand der Ressource 314, wie etwa Text auf einer Webseite, die das Bild enthält, oder Text, der mit dem Bild gemäß einem Datenbankschema assoziiert ist (z. B. eine Datenbank kommerzieller Produkte). Das Modell 108 vergleicht die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten und berechnet einen Relevanzpunktwert für diese Ressource 314. Das Modell 108 berechnet Relevanzpunktwerte für jede Ressource in der Sammlung von Ressourcen, stuft die Ressourcen gemäß den Punktwerten ein und antwortet mit einer eingestuften Liste der Ressourcen 312. Das Suchsystem 106 generiert dann Suchergebnisse, die die Bilder und Ressourcen referenzieren, und liefert die Suchergebnisse an den Benutzer.
Bei einigen Implementierungen kann dieser Prozess einmal oder mehrmals iterativ wiederholt werden. Beispielsweise kann das System 106 nach dem Erzeugen einer Liste von Ressourcen, die nach Relevanz 312 für die Bild-Audio-Abfrage 302, 304 eingestuft wurden, ein oder mehrere der am höchsten eingestuften Ressourcenbilder verwenden, um eine weitere Abfrage durchzuführen. Dies kann eine verbesserte Liste von Relevanzressourcen erzeugen. Alternativ oder in Kombination kann das System Ressourcentextdaten von einer oder mehreren am höchsten eingestuften Ressourcen zusätzlich zu oder anstelle der ursprünglichen Abfragetextdaten 308 verwenden.
§ 3.0 Trainieren des gemeinsamen Bild-Audio-Relevanzmodells
Damit das gemeinsame Bild-Audio-Relevanzmodell 310 Relevanzpunktwerte korrekt berechnen kann, wird es zuerst trainiert. 3B ist ein Blockdiagramm eines beispielhaften Prozesses 350 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108. Das Modell wird mit Anmerkungspaaren trainiert. Analog zu einer gemeinsamen Bild-Audio-Abfrage weist ein Anmerkungspaar Bilddaten 352 und assoziierte Audiodaten 354 auf. Die Menge von Anmerkungspaaren kann in eine Trainingsmenge und eine Testmenge unterteilt werden.
Indem Anmerkungspaare aus der Trainingsmenge genommen werden, werden Bildmerkmalsdaten 358 unter Verwendung ähnlicher Bildverarbeitungsalgorithmen wie den an dem Abfragebild verwendeten aus den Anmerkungsbilddaten 352 generiert. Textdaten 360 werden unter Verwendung ähnlicher Spracherkennungstechniken und Techniken zur Verarbeitung natürlicher Sprache wie jenen, die an dem Abfrageaudio verwendet werden, aus den Anmerkungsaudiodaten 354 bestimmt. Ein Trainingsmodell 362 empfängt als Eingabe die Bildmerkmalsdaten 358 und die Textdaten 360. Das Trainingsmodell 362 empfängt auch als Eingabe eine Ressource 356 mit einer vorbestimmten Relevanz für das Anmerkungspaar 352, 354. Diese vorbestimmte Relevanz kann binär sein (z. B. relevant/nicht relevant) oder sich auf einer relativen Skala (z. B. hochrelevant, etwas relevant, nicht relevant) oder auf einer Skala mit verfeinerteren Werten befinden. Das Modell 362 generiert Ressourcenbildmerkmalsdaten aus dem Ressourcenbild und bestimmt Ressourcentextdaten aus dem Ressourcentext. Durch Vergleichen der Anmerkungsbildmerkmalsdaten 352 mit den Ressourcenbildmerkmalsdaten und der Anmerkungstextdaten 354 mit den Ressourcentextdaten berechnet das Trainingsmodell 362 einen Relevanzpunktwert. Gewichte, die den Bildmerkmalen und Textmerkmalen entsprechen, werden eingestellt, um einen Punktwert in dem korrekten Bereich der vorbestimmten Relevanz zu erzeugen. Dieser Prozess wird für verschiedene Ressourcen und mit unterschiedlichen Trainingsanmerkungspaaren, alle mit vorbestimmten Relevanzen, wiederholt.
Mit der Testmenge von Anmerkungsdaten kann dann das trainierte Modell verifiziert werden. Das trainierte Modell kann als Eingabe Anmerkungspaare von der Testmenge zusammen mit Ressourcen, die eine vorbestimmte Relevanz für jedes der Testpaare aufweisen, empfangen. Die Testpaare und Ressourcen würden verarbeitet werden, um Merkmalsdaten zu generieren, wie dies mit den Trainingspaaren geschieht. Das Modell würde dann Relevanzpunktwerte für jede dieser Mengen von Eingaben generieren. Falls die Rekvanzpunktwerte. innerhalb eines Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell adäquat trainiert. Falls jedoch das Modell Relevanzpunktwerte generiert, die nicht innerhalb des Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell nicht adäquat trainiert und der Trainingsprozess kann mit der Trainingsmenge von Anmerkungsdaten wiederholt werden und die zugewiesenen Gewichte können erneut evaluiert und verstellt werden.
Dieser Schwellwertbereich kann auf viele verschiedene Arten festgelegt werden. Beispielsweise können jedem der qualitativen Skalenwerte in der vorbestimmten Relevanzskala Relevanzpunktwertbereiche zugewiesen werden. Falls beispielsweise die von dem Modell generierten Relevanzpunktwerte von 1 bis 100 gehen, kann der Schwellwert bei einer binären vorbestimmten Relevanzskala auf größer oder gleich 50 für relevant und weniger als 50 für nichtrelevant eingestellt werden. Alternativ kann der Schwellwert strenger gemacht werden, indem beispielsweise über 75 für relevant und unter 25 für nichtrelevant zugewiesen wird. Dies kann für ein effektiveres Bild-Audio-Relevanzmodell sorgen, kann aber auch mehr Iterationen des Trainings zum Herstellen erfordern. Alternativ kann der Schwellwert der Akzeptabilität qualitativer werden. Beispielsweise kann es für ein gegebenes Anmerkungspaar eine Menge von Ressourcen mit einer vorbestimmten Einstufung von relevanter bis weniger relevant geben. Die Akzeptabilität des Trainings des Modells kann evaluiert werden, indem geprüft wird, wie nahe das trainierte Modell dem kommt, die korrekte Einstufung der Ressourcen für das Anmerkungspaar zu liefern.
§ 3.1 Auswahl von Anmerkungspaardaten
Die Anmerkungsdaten können auf eine Vielzahl von Wegen erhalten werden. Bei einer Implementierung werden die Anmerkungsdaten aus einer Produktdatenbank abgeleitet, wobei die Produktdatenbank eine Sammlung von Produktdokumenten aufweist. Jedes Produktdokument hat ein Bild eines Produkts und assoziierten Text mit Informationen über das Produkt, wie etwa eine Beschreibung, Preise, Verkäufer des Produkts und Besprechungen und Einstufungen sowohl des Produkts als auch der Verkäufer des Produkts. Das Anmerkungspaar 352, 354 enthält das Bild von einem Produktdokument und einer Teilmenge des Textes von dem gleichen Dokument. Dies würde auch eine vorbestimmte Relevanz zwischen dem Produktdokument und dem aus diesem Produkt hergestellten Anmerkungspaar 352, 354 gestatten. Da das Anmerkungspaar 352, 354 aus diesem Produktdokument angelegt wurde, muss das Anmerkungspaar für das Produktdokument hochrelevant sein.
Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus Bildsuchergebnisdaten abgeleitet. Der von Benutzern in ein Bildsuchsystem eingegebene Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Die Anmerkungsbilddaten 352 für das Paar können aus Bildern gewählt werden, die die populärsten Ergebnisse aus der Bildsuche entsprechend der Abfrageeingabe sind. Die Popularität von Ergebnissen kann durch statistische Maßnahmen wie etwa die Klickrate bestimmt werden. Alternativ können die Anmerkungsdaten aus Auswahldaten von Produktsuchergebnisdaten sein. Die Abfrageeingabe kann wieder als die Anmerkungstextdaten 354 für ein Anmerkungspaar verwendet werden. Das Anmerkungsbild 352 kann aus dem Produktbild der von Benutzern für diese Abfrageeingabe gewählten populärsten Produktdokumente erhalten werden. Dies würde auch Produktdokumente zur Verwendung als Ressourcen mit hoher vorbestimmter Relevanz bereitstellen.
Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus allgemeinen Websuchergebnisdaten abgeleitet. Von Benutzern in einem Websuchsystem eingegebener Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Das Websuchsystem kann mit allgemeinen Webressourcen, einschließlich Websites, Bildern und Produktdokumenten antworten. Falls der Benutzer als Ergebnis der Websuche ein Produktdokument wählt, kann das Produktbild als die Anmerkungsbilddaten 352 für das Anmerkungspaar verwendet werden. Das Produktdokument wird dann als die Ressource mit bekannter hoher Relevanz verwendet.
Bei einer weiteren Implementierung können menschliche Kommentatoren verwendet werden, um Trainingsdaten zu liefern. Die Kommentatoren können anhand einer Fotografie das Anmerkungsbild 352 bereitstellen, und Sprach- oder Textdaten für die Anmerkungstextdaten 354 von Ressourcen liefern, nach denen sie suchen möchten. Die Kommentatoren können dann ein Produktdokument oder eine andere Ressourcendatenbank durchsuchen und Ressourcen finden, die mit der Fotografie und den Sprachdaten, die sie lieferten, sowohl in Beziehung stehen als auch nicht in Beziehung stehen. Jede Ressource, die die Kommentatoren finden, können sie dann als eine Übereinstimmung guter Qualität oder eine Übereinstimmung schlechter Qualität markieren. Bei einer weiteren Implementierung können die Kommentatoren dazu verwendet werden, die Qualität von Übereinstimmungen, die durch eine automatisierte Prozedur bestimmt wurden, einzustufen. Beispielsweise können beliebige der zuvor erörterten Prozeduren verwendet werden, um Anmerkungsdaten von einer Produktdatenbank, Produktsuchauswahldaten, Bildsuchauswahldaten oder Websuchauswahldaten zu erhalten, und menschliche Kommentatoren können die Relevanz jedes Anmerkungspaars für die durch den automatisierten Prozess gewählte Ressource einstufen.
§ 3.2 Beispielhafte Bewertungsmodelle
Es kann eine Vielzahl von Modellen verwendet werden, um die Relevanzfunktion f(S, I, R) zu realisieren, und Beispiele sind unten beschrieben. Ein beispielhaftes Modell implementiert eine Relevanzfunktion, die eine lineare Kombination aus einzelnen Modellen ist, die auf Bildmerkmalsdaten und Audio- und Textdaten trainiert sind, d. h. f(S, I, R) = cf_S(S, R) + (I – c)f_I(I, R) wobei f_S eine Bewertungsfunktion ist, die auf die Sprach- und Textdaten trainiert ist, und f_I eine Bewertungsfunktion ist, die auf die Bildmerkmalsdaten trainiert ist. Der Mischparameter c ist ein Wert, der zwischen 0 und 1 verstellt wird.
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), die die Menge von in Betracht gezogenen Ressourcenelementen auf nur jene mit die Wörter in S enthaltenden Textbeschreibungen beschränkt. Mit dieser eingeschränkten Menge bewertet das Modell dann die Relevanz der Bildmerkmalsdaten. Somit würde die Relevanzfunktion (S, I, R) = f_I(I, R)f(S, R) sein, wobei f(S, R) = 1, falls Text S in der Ressource R ist und ansonsten f(S, R) = 0.
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), wobei eine Bildmerkmalsrelevanzfunktion für jede mögliche Wahl von S gelernt wird, d. h. f(S, I, R) = W_S·Φ(I, R) wobei Φ(I, R) die Merkmalsdarstellung des Bildes und der Ressource ist und W_S eine gelernte Merkmalsgewichtsmatrix von Bilder und Ressourcen darstellenden Merkmalen ist. W_S ist eine 1 × |Φ(I, R)|-Matrix oder ein Vektor der Dimension |Φ(I, R)|, das heißt, die Anzahl von Merkmalen, die zum Darstellen des Bildes und der Ressource verwendet werden.
Noch ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion unter Verwendung einer linearen Einstufungsfunktion, d. h. f(S, I, R) = W·Φ(S, I, R).
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die eine Erweiterung des Ansatzes ist, die sich in dem hier durch Bezugnahme aufgenommenen Aufsatz „Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings” von Jason Weston, Samy Bengio und Nicolas Usunier („Weston-Aufsatz”) befindet. Der Ansatz in dem Weston-Aufsatz beinhaltet das Training an einer „Einbettungsraum”-Darstellung von willkürlicher Dimension, wo der Abstand zwischen zwei Elementen in dem Raum ihre Ähnlichkeit bezeichnet. Dieses Modell beinhaltet die Funktion f(S, I, R) = (W_SI·Φ_SI(S, I))·(W_R·Φ_R(R)) wobei W_SI und W_R Matrizen sind, und das Verfahren lernt sowohl Matrizen als auch einen Einbettungsraum der Dimension R, der in der Regel von niedriger Dimension ist. W_SI ist eine R × |Φ_SI(S, I)|-Matrix, wobei R die Abmessungen des Einbettungsraums sind und |Φ_SI(S, I)| die Anzahl von Merkmalen ist, die zum gemeinsamen Darstellen von Text und Bild verwendet werden. W_R ist eine R × |Φ_R(R)|-Matrix, wobei |Φ_R(R)| die Anzahl von Merkmalen ist, die zum Darstellen der Ressource verwendet werden. Der Einbettungsraum in dem Weston-Aufsatz verwendete nur Bilder und Markierungen. Der Ansatz wird hier durch Verketten der Sprach- und Bildmerkmale zu einem einzelnen Merkmalsraum Φ_SI(S, I) erweitert.
Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die den Ansatz des Weston-Aufsatzes weiter erweitert. Die Relevanzfunktion wird definiert durch f(S, I, R) = Σ(W_S·Φ_S(S))*(W_I·Φ_I(I))*(W_R·Φ_R(R)) wobei die *-Operation die komponentenmäßige Multiplikation von Vektoren ist. Diese Funktion gestattet komplexere nichtlineare Interaktionen zwischen den Merkmalen des Bildes, der Sprache und der Ressource.
§ 4.0 Beispielhafte Prozesse
4 ist ein Flussdiagramm eines beispielhaften Prozesses 400 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 105. Der Prozess 400 kann in dem Suchsystem 106 implementiert werden und wird zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108 verwendet.
Der Prozess 400 greift auf Bildanmerkungsdaten zurück (402). Das Suchsystem 106 greift beispielsweise auf Bildanmerkungsdaten von einer Produktdatenbank zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten aus Produktsuchauswahldaten zugreifen. Bei einem weiteren Beispiel greift das Suchsystem 106 auf Bildanmerkungsdaten von Bildsuchauswahldaten zu. Bei einer weiteren Implementierung greift das Suchsystem 106 auf Bildanmerkungsdaten von Websuchauswahldaten zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten von von menschlichen Kommentatoren kommentierten Daten zugreifen. Die menschlichen Kommentatoren können ihre eigenen Bild- und Sprachdaten zum Kommentieren erzeugen oder können von einer Produktdatenbank oder einem anderen automatisierten Prozess auf zu kommentierende Daten zugreifen.
Der Prozess 400 greift auf Ressourcen zu (404). Beispielsweise greift das Suchsystem 106 auf Ressourcen zu, die Produktdokumente von einer Produktdatenbank umfassen.
Der Prozess 400 trainiert ein gemeinsames Bild-Audio-Relevanzmodell an den Bildanmerkungsdaten und Ressourcen (406). Beispielsweise trainiert das Suchsystem 106 ein gemeinsames Bild-Audio-Relevanzmodell unter Verwendung der Bildanmerkungsdaten aus der Produktdatenbank und der Ressourcen aus der Produktdatenbank. Das gemeinsame Bild-Audio-Relevanzmodell kann beispielsweise gemäß einem der in Abschnitt 3.2 oben beschriebenen Trainingsalgorithmen trainiert werden, oder es können andere Trainingsalgorithmen verwendet werden.
5 zeigt ein Flussdiagramm eines beispielhaften Prozesses 500 zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage. Der Prozess 500 kann in dem Suchsystem 106 implementiert werden und wird zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage verwendet.
Der Prozess 500 empfängt eine gemeinsame Bildaudioabfrage (502). Das Suchsystem 106 empfängt beispielsweise eine gemeinsame Bildaudioabfrage von einer Benutzereinrichtung durch das Netzwerk.
Der Prozess 500 bestimmt Abfragebildmerkmalsdaten (504). Beispielsweise generiert das Suchsystem 106 Bildmerkmalswertdaten aus dem von der Benutzereinrichtung empfangenen Abfragebild.
Der Prozess 500 bestimmt Abfrageaudiomerkmalsdaten (506). Beispielsweise verarbeitet das Suchsystem 106 die Audiodaten, um aus Audiodaten, die Sprachdaten umfassen, Textdaten zu generieren.
Der Prozess 500 liefert Abfragebildmerkmalsdaten und Abfrageaudiomerkmalsdaten an das gemeinsame Bild-Audio-Relevanzmodell (508). Beispielsweise liefert das Suchsystem 106 Abfragebildmerkmalsdaten und Textdaten an das gemeinsame Bild-Audio-Relevanzmodell. Das gemeinsame Bild-Audio-Relevanzmodell ist darauf trainiert, Relevanzpunktwerte für eine Sammlung von Ressourcen zu generieren.
Der Prozess 500 ordnet Ressourcen gemäß ihrer Relevanzpunktwerte (510). Beispielsweise ordnet das Suchsystem 106 die Ressourcen von der relevantesten bis zu der am wenigsten relevanten für die Bild-Audio-Abfrage.
Der Prozess 500 liefert Suchergebnisse, die die Reihenfolge der Ressourcen angeben (512). Beispielsweise liefert das Suchsystem 106 Suchergebnisse, die eine Liste von Ressourcenadressen umfassen, eingestuft von der relevantesten bis zu der am wenigsten relevanten für die Benutzereinrichtung.
§ 5.0 Zusätzliche Implementierungsdetails
Implementierungen des Gegenstands und der Operationen, die in dieser Patentschrift beschrieben werden, können in digitaler elektronischer Schaltungsanordnung oder in Computersoftware, -firmware oder -hardware implementiert werden, einschließlich der in dieser Patentschrift offenbarten Strukturen und ihren strukturellen Äquivalenten oder in Kombinationen aus einer oder mehreren von ihnen. Implementierungen des in dieser Patentschrift beschriebenen Gegenstands können als ein oder mehrere Computerprogramme implementiert werden, d. h. ein oder mehrere Module von Computerprogrammanweisungen, auf einem Computerspeichermedium codiert zur Ausführung durch die oder zur Steuerung der Operation der Datenverarbeitungsvorrichtung. Alternativ oder zusätzlich können die Programmanweisungen auf einem künstlich generierten verbreiteten Signal codiert werden, beispielsweise einem maschinengenerierten elektrischen, optischen oder elektromagnetischen Signal, das generiert wird, um Informationen zur Übertragung zu einer geeigneten Empfängervorrichtung zur Ausführung durch eine Datenverarbeitungsvorrichtung zu codieren. Ein Computerspeichermedium kann eine computerlesbare Speichereinrichtung, ein computerlesbares Speichersubstrat, ein Zufalls- oder Reihenzugangsspeicherarray oder eine Zufalls- oder Reihenzugangseinrichtung oder eine Kombination aus einer oder mehreren von ihnen sein oder darin enthalten sein. Wenngleich ein Computerspeichermedium kein verbreitetes Signal ist, kann zudem ein Computerspeichermedium eine Quelle oder ein Ziel von Computerprogrammanweisungen sein, die in einem künstlich generierten verbreiteten Signal codiert sind. Das Computerspeichermedium kann auch ein oder mehrere getrennte physische Komponenten oder Medien (beispielsweise mehrere CDs, Disketten oder andere Speichereinrichtungen) sein oder darin enthalten sein.
Die in dieser Patentschrift beschriebenen Operationen können als Operationen implementiert werden, die von einer Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einer oder mehreren computerlesbaren Speichereinrichtungen gespeichert sind oder von anderen Quellen empfangen werden.
Der Ausdruck „Datenverarbeitungsvorrichtung” umfasst alle Arten von Vorrichtungen, Einrichtungen und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise einem programmierbaren Prozessor, einem Computer, einem System auf einem Chip, oder mehrere einzelne oder Kombinationen der obigen. Die Vorrichtung kann eine Speziallogikschaltungsanordnung enthalten, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit). Die Vorrichtung kann zusätzlich zu Hardware einen Code enthalten, der eine Ausführungsumgebung für das fragliche Computerprogramm erzeugt, beispielsweise einen Code, der Prozessorfirmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, eine virtuelle Maschine oder eine Kombination aus einem oder mehreren von ihnen bildet. Die Vorrichtung und die Ausführungsumgebung können verschiedene Rechenmodellinfrastrukturen wie etwa Webdienste, verteilte Rechen- und Netzrecheninfrastrukturen realisieren.
Ein Computerprogramm (auch als ein Programm, Software, Softwareanwendung, Script oder Code bekannt) kann in einer beliebigen Form von Programmiersprache geschrieben sein, einschließlich kompilierter oder interpretierter Sprachen, deklarativer oder prozeduraler Sprachen, und es kann in beliebiger Form eingesetzt werden, einschließlich als ein unabhängiges Programm oder als ein Modul, eine Komponente, eine Teilroutine, ein Objekt oder irgendeine andere Einheit, die sich zur Verwendung in einer Rechenumgebung eignet. Ein Computerprogramm kann, aber muss nicht, einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Abschnitt einer Datei gespeichert sein, die andere Programme oder Daten hält (beispielsweise ein oder mehrere, in einem Markup-Language-Dokument gespeicherte Scripts), in einer dem fraglichen Programm gewidmeten einzelnen Datei oder in mehreren koordinierten Dateien (beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Abschnitte von Code speichern) gespeichert sein. Ein Computerprogramm kann eingesetzt werden, um auf einem Computer oder auf mehreren Computern ausgeführt zu werden, die sich an einem Ort befinden oder über mehrere Orte verteilt und durch ein Kommunikationsnetz verbunden sind.
Die in dieser Patentschrift beschriebenen Prozesse und Logikflüsse können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Aktionen durchzuführen, indem an Eingangsdaten gearbeitet und eine Ausgabe generiert wird. Die Prozesse und Logikflüsse können auch durch eine Speziallogikschaltungsanordnung, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit) durchgeführt werden und die Vorrichtung kann auch als diese implementiert werden.
Prozessoren, die sich für die Ausführung eines Computerprogramms eignen, enthalten beispielsweise sowohl Allzweck- als auch Spezialmikroprozessoren und einen oder mehrere beliebige Prozessoren einer beliebigen Art von Digitalcomputer. Allgemein wird ein Prozessor Anweisungen und Daten von einem Festwertspeicher oder einem Direktzugriffspeicher oder beiden empfangen. Die essenziellen Elemente eines Computers sind ein Prozessor zum Durchführen von Aktionen gemäß Anweisungen und ein oder mehrere Speichereinrichtungen zum Speichern von Anweisungen und Daten. Allgemein enthält ein Computer auch eine oder mehrere Massenspeichereinrichtungen zum Speichern von Daten, beispielsweise magnetische, magnetooptische Platten oder optische Platten oder wird operativ gekoppelt sein, um Daten von diesen zu empfangen oder Daten zu ihnen zu transferieren oder beides. Jedoch braucht ein Computer keine derartigen Einrichtungen aufzuweisen. Zudem kann ein Computer in eine andere Einrichtung eingebettet sein, beispielsweise ein Mobiltelefon, einen PDA (Personal Digital Assistant), einen mobilen Audio- oder Videoplayer, eine Spielekonsole, einen GPS-Empfänger (Global Positioning System) oder eine tragbare Speichereinrichtung (beispielsweise ein USB-Flash-Laufwerk (Universal Serial Bus), um nur einige zu nennen. Einrichtungen, die sich zum Speichern von Computerprogrammanweisungen und Daten eignen, beinhalten alle Formen eines nichtflüchtigen Speichers, von Medien und Speichereinrichtungen, einschließlich beispielsweise Halbleiterspeichereinrichtungen, beispielsweise EPROM, EEPROM und Flash-Speichereinrichtungen; magnetische Platten, beispielsweise interne Festplatten oder entfernbare Platten; magnetooptische Platten und CD-ROM- und DVD-ROM-Platten. Der Prozessor und der Speicher können durch eine Speziallogikschaltungsanordnung ergänzt werden oder in diese integriert sein.
Um eine Interaktion mit einem Benutzer bereitzustellen, können Implementierungen des in dieser Spezifikation beschriebenen Gegenstands auf einem Computer mit einer Displayeinrichtung implementiert werden, beispielsweise einem Kathodenstrahlröhren- oder LCD-(Liquid Crystal Display – Flüssigkristallanzeige)Monitor, um dem Benutzer Informationen anzuzeigen, und eine Tastatur und eine Zeigeeinrichtung, beispielsweise eine Maus oder einen Trackball, durch die der Benutzer Eingabe in den Computer bereitstellen kann. Andere Arten von Einrichtungen können verwendet werden, um auch für eine Interaktion mit einem Benutzer zu sorgen; beispielsweise kann ein dem Benutzer geliefertes Feedback jede Form an sensorischem Feedback sein, beispielsweise visuelles Feedback, auditorisches Feedback oder taktiles Feedback; und Eingabe von dem Benutzer kann in einer beliebigen Form empfangen werden, einschließlich akustischer, Sprach- oder taktiler Eingabe. Außerdem kann ein Computer mit einem Benutzer interagieren durch Senden von Dokumenten an und Empfangen von Dokumenten von einer Einrichtung, die von dem Benutzer verwendet wird; beispielsweise durch Senden von Webseiten an einen Webbrowser auf einer Clienteinrichtung des Benutzers als Reaktion auf von dem Webbrowser empfangenen Anforderungen.
Wenngleich diese Patentschrift viele spezifische Implementierungsdetails enthält, sollten diese nicht als Beschränkungen des Schutzbereichs etwaiger Offenbarungen oder dessen, was beansprucht werden kann, ausgelegt werden, sondern vielmehr als Beschreibungen von Merkmalen, die bestimmten Implementierungen von bestimmten Offenbarungen zu eigen sind. Bestimmte Merkmale, die in dieser Patentschrift in dem Kontext separater Implementierungen beschrieben sind, können auch in Kombination in einer einzelnen Implementierung implementiert werden. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzelnen Implementierung beschrieben werden, auch in mehreren Implementierungen separat oder in einer beliebigen geeigneten Teilkombination implementiert werden. Wenngleich Merkmale oben so beschrieben worden sein können, dass sie in bestimmten Kombinationen wirken und sogar anfänglich als solche beansprucht sind, können zudem ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination entfernt werden, und die beanspruchte Kombination kann eine Teilkombination oder eine Variation einer Teilkombination betreffen.
Wenngleich Operationen in den Zeichnungen in einer bestimmten Reihenfolge gezeigt sind, sollte dies analog nicht so verstanden werden, als wenn es erfordert, dass solche Operationen in der gezeigten bestimmten Reihenfolge oder in einer sequenziellen Reihenfolge ausgeführt werden oder dass alle dargestellten Operationen ausgeführt werden, um erwünschte Ergebnisse zu erzielen. In gewissen Umständen können Multitasking und parallele Verarbeitung vorteilhaft sein. Zudem sollte die Trennung von verschiedenen Systemkomponenten in den oben beschriebenen Implementierungen nicht so verstanden werden, als wenn dies eine Trennung in allen Implementierungen erfordert, und es ist zu verstehen, dass die beschriebenen Programmkomponenten und Systeme allgemein zusammen in einem einzelnen Softwareprodukt integriert sein können oder zu mehreren Softwareprodukten verpackt sein können.
Somit wurden bestimmte Implementierungen des Gegenstands beschrieben. Andere Implementierungen liegen innerhalb des Schutzbereichs der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen angeführten Aktionen in einer anderen Reihenfolge ausgeführt werden und immer noch erwünschte Ergebnisse erzielen. Außerdem erfordern die in den beiliegenden Figuren gezeigten Prozesse nicht notwendigerweise die gezeigte bestimmte Reihenfolge oder sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein.

Claims

System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung.
System nach Anspruch 1, wobei die Abfrageaudiomerkmalsdaten Daten enthalten, die ein Abfrageobjekt in den Abfragebilddaten betreffen, durch weiteres Beschreiben des Abfrageobjekts, wobei das Abfrageobjekt eine Teilmenge des Abfragebildes ist, das Bilddaten enthält, die ein interessierendes Objekt darstellen.
System nach Anspruch 1 oder 2, wobei die das Abfrageobjekt weiter beschreibenden Daten Informationen beinhalten, die eine Position des Abfrageobjekts angeben.
System nach einem der Ansprüche 1 bis 3, wobei die Abfrageaudiomerkmalsdaten Daten enthalten, die eine oder mehrere Beschränkungen für die Suchergebnisse definieren.
System nach einem der Ansprüche 1 bis 4, wobei ein oder mehrere Ressourcenbilder zum Verfeinern der Suchergebnisse verwendet werden.
System nach einem der Ansprüche 1 bis 5, wobei ein oder mehrere Ressourcentextdaten zum Verfeinern der Suchergebnisse verwendet werden.
System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält.
System nach Anspruch 7, wobei die Anmerkungspaartextdaten aus einer Sprache definierenden Audiodatei umgewandelt werden.
System nach Anspruch 7 oder 8, wobei die Bildanrnerkungsdaten Anmerkungspaare enthalten, die aus Auswahldaten für Suchergebnisse als Reaktion auf eine Benutzersuchabfrage erhalten werden, wobei die Auswahldaten eine Auswahl einer Referenz auf das Anmerkungsbild aus Suchergebnissen als Reaktion auf die Benutzerabfrage identifizieren und die Anmerkungstextdaten den Benutzerabfragetext umfassen.
System nach einem der Ansprüche 7 bis 9, wobei die Bildanmerkungsdaten Anmerkungspaare enthalten, die aus einer Produktdatenbank erhalten werden, wobei die Produktdatenbank Produktressourcen, die ein Produktressourcenbild definieren, und Produkttextdaten für mehrere Produkte enthalten, wobei das Anmerkungsbild ein Produktressourcenbild umfasst und die Anmerkungstextdaten eine Teilmenge der entsprechenden Produkttextdaten umfassen.
System nach einem der Ansprüche 7 bis 10, wobei ein Abschnitt der Bildanmerkungsdaten und Ressourcen mit bekannter Relevanz in einer Trainingsmenge und einer Testmenge unterteilt wird, wobei die Trainingsmenge zum Trainieren des gemeinsamen Bild-Audio-Relevanzmodells verwendet wird und die Testmenge zum Testen des gemeinsamen Bild-Audio-Relevanzmodells verwendet wird.
Computerspeichermedium, mit einem Computerprogramm codiert, wobei das Programm Anweisungen umfasst, die bei Ausführung durch eine Clienteinrichtung bewirken, dass die Clienteinrichtung Operationen ausführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung.
Computerspeichermedium, mit einem Computerprogramm codiert, wobei das Programm Anweisungen umfasst, die bei Ausführung durch eine Clienteinrichtung bewirken, dass die Clienteinrichtung Operationen ausführt, umfassend: Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält.