DE212011100024U1 - Suche mit gemeinsamen Bild-Audio-Abfragen - Google Patents

Suche mit gemeinsamen Bild-Audio-Abfragen Download PDF

Info

Publication number
DE212011100024U1
DE212011100024U1 DE212011100024U DE212011100024U DE212011100024U1 DE 212011100024 U1 DE212011100024 U1 DE 212011100024U1 DE 212011100024 U DE212011100024 U DE 212011100024U DE 212011100024 U DE212011100024 U DE 212011100024U DE 212011100024 U1 DE212011100024 U1 DE 212011100024U1
Authority
DE
Germany
Prior art keywords
image
query
audio
data
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE212011100024U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE212011100024U1 publication Critical patent/DE212011100024U1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist;...

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Die vorliegende Patentschrift betrifft das Verarbeiten von Abfragen, insbesondere von Abfragen, die sowohl ein Bild als auch ein assoziiertes Audio enthalten.
  • Das Internet liefert Zugang zu einer großen Vielzahl an Ressourcen, beispielsweise Videodateien, Bilddateien, Audiodateien oder Webseiten mit Inhalt für bestimmte Themen, Buchartikel oder Verbraucherprodukte. Ein Suchsystem kann als Reaktion auf das Empfangen einer Suchabfrage eine oder mehrere Ressourcen wählen. Bei einer Suchabfrage handelt es sich um Daten, die ein Benutzer einer Suchmaschine unterbreitet, um die Informationsbedürfnisse des Benutzers zufriedenzustellen. Das Suchsystem wählt und beurteilt Ressourcen auf der Basis ihrer Relevanz für die Suchabfrage. Die Suchergebnisse werden in der Regel gemäß den Punktwerten geordnet und in einer Suchergebnisseite bereitgestellt.
  • Zum Suchen von Bildressourcen kann ein Suchsystem die Relevanz eines Bildes für eine Textabfrage auf der Basis des Textinhalts der Ressource bestimmen, in der sich das Bild befindet, und auch auf der Basis von mit dem Bild assoziierten Relevanzfeedback. Einige Suchsysteme suchen Bildressourcen unter Verwendung von Abfragebildern als Eingabe. Ein Abfragebild ist ein Bild wie etwa eine jpeg-Datei, die von einer Suchmaschine als Eingabe für eine Suchverarbeitungsoperation verwendet wird. Verwandte Bilder können gefunden werden, indem andere Bilder verarbeitet und Bilder identifiziert werden, die vom visuellen Erscheinungsbild her dem Abfragebild ähnlich sind. Die Verwendung von Abfragebildern wird mit dem Aufkommen von Smartphones, die Kameras enthalten, viel vorherrschender. Beispielsweise kann ein Benutzer mit einem Smartphone nun ein Bild von einem interessierenden Gegenstand aufnehmen und das Bild einer Suchmaschine unterbreiten. Die Suchmaschine sucht dann Bildressourcen unter Verwendung des Bildes als Abfragebild.
  • Betrachter interpretieren jedoch Bilder auf viel subjektivere Weise als Text. Während die Bilder, die identifiziert werden, möglicherweise von der Erscheinung her dem Abfragebild ähneln, sind somit möglicherweise viele der Bilder für den Betrachter nicht von Interesse. Beispielsweise kann ein Benutzer eine Suche über ein Bild eines Wagens durchführen. Der Benutzer ist vielleicht an anderen Wagen dieser Marke interessiert, doch könnte eine Bildsuche nur auf der Basis der visuellen Ähnlichkeit möglicherweise mit Bildern von Wagen von unterschiedlichen Marken antworten.
  • KURZE DARSTELLUNG DER ERFINDUNG
  • Allgemein kann ein innovativer Aspekt des in dieser Patentschrift beschriebenen Gegenstands in Systemen verkörpert werden zum Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert; und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.
  • Ein weiterer Aspekt des in dieser Patentschrift beschriebenen Gegenstands kann in Systemen implementiert werden zum Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, Handlungen durchzuführen, auf Computerspeichereinrichtungen codiert.
  • Bestimmte Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands können so implementiert werden, dass ein oder mehrere der folgenden Vorteile realisiert werden. Das Hinzufügen von Audiodaten zu einer Bildabfrage kann die Relevanz von Suchergebnissen für die Abfrage verbessern. Die Relevanz kann verbessert werden, indem sowohl Informationen geliefert werden, die dem System beim Extrahieren des interessierenden Objekts in einem Bild helfen können, und auch indem Informationen geliefert werden, die die Suche des Benutzers über das hinaus ergänzt, was in dem Bild gefunden werden kann. Diese Informationen können auch auf unterschiedliche andere Weisen hinzugefügt werden. Bei einigen Ausführungsformen kann ein Abschnitt des Bildes von dem Benutzer, der unter Verwendung eines Touchscreens auf dem Bild einen Kreis zeichnet, so gewählt werden, dass er das interessierende Objekt enthält. Der Benutzer kann auch das interessierende Objekt enger als mit einem Kreis oder einer anderen Gestalt umreißen und kann auch den Umriss unter Verwendung anderer Eingabeverfahren zeichnen. Bei einigen Ausführungsformen kann der Benutzer zusätzliche Informationen hinsichtlich des Bildes unter Verwendung eines Dropdown-Menükastens hinzufügen. Der Menükasten kann verschiedene Kategorien von Elementen aufweisen, wie etwa Einkaufskategorien einschließlich Schuhe, Hemden, Hosen und andere ähnliche Kategorien.
  • Die Einzelheiten von einer oder mehreren Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands sind in den beiliegenden Zeichnungen und der folgenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstands ergeben sich aus der Beschreibung, den Zeichnungen und den Ansprüchen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm einer beispielhaften Umgebung, in der ein gemeinsames Bildaudiosuchsystem Suchdienste liefert.
  • 2A und 2B sind beispielhafte Bilder für eine gemeinsame Bildaudioabfrage.
  • 3A ist ein Blockdiagramm eines beispielhaften Prozesses für das Abfragen eines gemeinsamen Bildaudiosuchsystems.
  • 3B ist ein Blockdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells.
  • 4 ist ein Flussdiagramm eines beispielhaften Prozesses zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells.
  • 5 ist ein Flussdiagramm eines beispielhaften Prozesses zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage.
  • AUSFÜHRLICHE BESCHREIBUNG
  • § 1.0 Übersicht
  • Eine auf einem Mobiltelefon laufende Applikation gestattet einem Benutzer, ein Bild eines Objekts aufzunehmen und in das Telefon zu sprechen, um die Sprache des Benutzers aufzuzeichnen. Die Audioaufzeichnung wird mit dem Bild gepaart, um eine gemeinsame Bildaudioabfrage auszubilden. Die mobile Einrichtung unterbreitet dann die gemeinsame Bildaudioabfrage einem Suchsystem.
  • Das Suchsystem empfängt die gemeinsame Bildaudioabfrage und bestimmt Textdaten anhand der Sprache und generiert Bildmerkmalsdaten anhand des Bildes. Das Suchsystem verwendet die Textdaten und die Bildmerkmalsdaten als Eingaben in ein gemeinsames Bild-Audio-Relevanzmodell, das Ressourcen mit den eingegebenen Daten vergleicht. Bei den Ressourcen kann es sich um beliebige der im Internet gefundenen Ressourcen handeln, einschließlich Webseiten, Dokumenten, Bildern und Video. Als ein Beispiel kann jede Ressource ein Dokument für ein Produkt sein, das ein Bild des Produkts und assoziierte Textdaten des Produkts enthält. Das gemeinsame Bild-Audio-Relevanzmodell vergleicht die Abfragebildmerkmalsdaten mit den Bildmerkmalsdaten jeder Ressource und die Abfragetextdaten mit den entsprechenden Ressourcentextdaten und berechnet einen Relevanzpunktwert für jede Ressource. Das System ordnet die Ressourcen gemäß den Relevanzpunktwerten und legt dem Benutzer Suchergebnisse vor. Die Suchergebnisse enthalten Links zu den geordneten Ressourcen und können auch zusätzliche Informationen über jede Ressource enthalten, beispielsweise Vorschaubilder des Ressourcenbilds oder Teilmengen des Ressourcentexts.
  • Damit das gemeinsame Bild-Audio-Relevanzmodell die Relevanz einer gemeinsamen Bildaudioabfrage für die Ressourcen bestimmen kann, wird das Modell zuerst trainiert. Das Trainieren des Modells beinhaltet das Verwenden von Bildanmerkungsdaten, die Anmerkungspaare sind. Jedes Anmerkungspaar ist ein Bild, das mit mit dem Bild assoziierten Textdaten gepaart ist. Diese Anmerkungspaare werden als Trainingseingaben für das gemeinsame Bild-Audio-Relevanzmodell zusammen mit Trainings- und Testressourcen für die Anmerkungspaare verwendet. Das gemeinsame Bild-Audio-Relevanzmodell wird trainiert, bis die Testressourcen auf eine Weise eingestuft sind, die als annehmbar erachtet wird, wie durch ein oder mehrere Kriterien definiert.
  • 1 ist ein Blockdiagramm einer beispielhaften Umgebung 100, in der ein gemeinsames Bildaudiosuchsystem 106 Suchdienste liefert. Die beispielhafte Umgebung 100 enthält ein Netzwerk 104 wie etwa das Internet, das eine Benutzereinrichtung 102 mit einem Suchsystem 106 verbindet. Die Benutzereinrichtung 102 überträgt eine gemeinsame Bildaudioabfrage 120, die eine Paarung aus Bilddaten 122 und Audiodaten 124 enthält, über das Netzwerk 104 zu dem Suchsystem 106. Beispielhaftes Audio 124 ist eine Sprachaufzeichnung. Das System 106 verarbeitet die Bilddaten 122 und Audiodaten 124 und vergleicht sie mit einer Sammlung von Ressourcen 116, wobei ein Relevanzpunktwert für jede Ressource 116 berechnet wird. Das System 106 stuft diese Ressourcen 116 nach ihren Relevanzpunktwerten ein und sendet eine Liste von Suchergebnissen, von denen jedes einen Ressourcenlink 130 zu einer entsprechenden Ressource enthält, an die Benutzereinrichtung 102.
  • Die Benutzereinrichtung 102 ist eine Elektronikeinrichtung, die unter der Kontrolle eines Benutzers steht und über das Netzwerk 104 Ressourcen 116 anfordern und empfangen kann. Zu beispielhaften Benutzereinrichtungen 102 zählen PCs, mobile Kommunikationseinrichtungen und andere Einrichtungen, die Daten über das Netzwerk senden und empfangen können. Eine Benutzereinrichtung 102 enthält in der Regel eine Benutzerapplikation, z. B. einen Webbrowser, um das Senden und Empfangen von Daten über das Netzwerk 104 zu ermöglichen. Die Benutzereinrichtung 102 kann auch eine Kamera und ein Mikrofon zum Erfassen eines Bildes 122 und von Audio 124 enthalten. Die Benutzereinrichtung enthält außerdem eine Anwendung, die das Audio 124 mit dem Bild 122 paart, um eine gemeinsame Bildaudioabfrage auszubilden. Das Abfrageaudio 124 enthält in der Regel Sprachdaten, die mehr Informationen über das Bild 122 oder über die Suchparameter des Benutzers liefern.
  • Es sei beispielsweise angenommen, dass ein Benutzer nach einer Wasserflasche sucht und das Abfragebild 122 ein von der Benutzereinrichtung 102 aufgenommenes Bild einer Wasserflasche ist. Siehe beispielsweise 2A. In 2A kann das Bild mehr als eine Wasserflasche enthalten. Nach dem Aufnehmen des Bildes spezifiziert der Benutzer, dass die Wasserflasche in dem Bild das interessierende Objekt ist, indem das Abfragebild 122 mit dem Abfrageaudio 124 „Wasserflasche” erweitert wird. Alternativ kann der Benutzer spezifischere Informationen liefern, indem er beispielsweise „rote Wasserflasche” als das Abfrageaudio 124 aufnimmt. Das Abfrageaudio 124 kann auch Positionsinformationen enthalten, falls sich beispielsweise in dem Abfragebild 122 mehr als ein Objekt befindet, kann der Benutzer durch Unterbreiten des Abfrageaudios 124 „rote Wasserflasche auf der rechten Seite” spezifizieren.
  • Selbst bei nur einem Objekt in dem Bild können Audioinformationen die Ergebnisse einer Suche verbessern. Beispielsweise enthält 2B in dem Bild nur die Wasserflasche. Falls jedoch eine Suche durchgeführt würde, um nur auf der Basis der visuellen Merkmale ähnliche Bilder zu finden, enthalten die Ergebnisse möglicherweise nur Flaschen, die eine ähnliche Gestalt und Farbe aufweisen, und enthalten möglicherweise keine andere Arten von Wasserflaschen. Durch Erweitern des Bildes mit dem Audio, z. B. „Wasserflasche” oder „Wasserflasche für Fahrradfahrten” liefert das System zusätzliche Informationen an das Suchsystem, und das Suchsystem liefert anhand dieser zusätzlichen Informationen Suchergebnisse, die die Informationsbedürfnisse des Benutzers wahrscheinlich zufrieden stellen.
  • Weiterhin kann der Benutzer auch Parameter durch die Verwendung von Audio liefern, um die Suchergebnisse zu beschränken. Beispielsweise sucht der Benutzer möglicherweise in einer Produktdatenbank, um eine Wasserflasche zum Kauf zu finden. Der Benutzer kann dem Suchsystem das Bild 122 der Wasserflasche und das Abfrageaudio 124 „Wasserflasche unter 10 Dollar, Marke X” oder als ein weiteres Beispiel „diese Wasserflasche in blau” liefern.
  • Wieder unter Bezugnahme auf 1 empfängt das Suchsystem 106 die gemeinsame Bildaudioabfrage, die die Bilddaten 122 und die Audiodaten 124 enthält, durch das Netzwerk 104 von der Benutzereinrichtung 102. Bei einigen Implementierungen enthält das Suchsystem 106 eine Bildverarbeitungsvorrichtung 110 zum Generieren von Bildmerkmalsdaten aus den Bilddaten 122. Alternativ schickt das Suchsystem bei anderen Implementierungen die Bilddaten 122 an eine separate Bildverarbeitungsvorrichtung 110 und empfängt die Bildmerkmalsdaten von der separaten Bildverarbeitungsvorrichtung 110. Analog kann das Suchsystem 106 auch eine Sprachverarbeitungsvorrichtung 112 zum Extrahieren von Textdaten aus den Audiodaten 124 enthalten, oder es kann die Audiodaten 124 an eine separate Sprachverarbeitungsvorrichtung 112 liefern und die Textdaten empfangen.
  • Das Suchsystem 106 verwendet die Bildmerkmalsdaten und die Textdaten, die aus der gemeinsamen Bildaudioabfrage abgeleitet wurden, als Eingabe zu einem gemeinsamen Bild-Audio-Relevanzmodell 108. Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt diese beiden Eingaben und empfängt auch Ressourcen 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 beurteilt jede Ressource 116 unter Angabe eines Relevanzmaßes der Ressource 116 für die gemeinsame Bild-Audio-Abfrage.
  • Bei einigen Implementierungen berechnet das Suchsystem unter Verwendung des gemeinsamen Bild-Audio-Relevanzmodells 108 einen Punktwert für jede Ressource gemäß der folgenden Einstufungsfunktion: RELi = f(S, I, Ri) wobei
  • RELi
    ein Relevanzpunktwert für eine Ressource Ri;
    S
    die Audiodaten 124;
    I
    die Bilddaten 122; und
    Ri
    eine gegebene Ressource in einer Ressourcendatenbank oder einem Ressourcenzwischenspeicher sind. Die Funktion f(S, I, R) wird unter Bezugnahme auf 3B unten ausführlicher beschrieben.
  • Bei einer Ressource 116 handelt es sich um beliebige Daten, die über ein Netzwerk 104 bereitgestellt werden können und mit einer Ressourcenadresse assoziiert oder in einer Datenbank indexiert sind. Bei einigen Implementierungen umfasst eine Ressourcendatenbank 114 eine Sammlung von Ressourcen 116, wobei jede Ressource 116 ein Ressourcenbild und einen Ressourcentext enthält. Ein Beispiel für eine Ressourcendatenbank 114 ist eine Produktdatenbank, die Produktdokumente enthält, die ein Bild eines Produkts und das Produkt beschreibende Daten wie etwa Markenname, Preis und eine Textbeschreibung umfassen.
  • Für jede i-te Ressource bestimmt das Suchsystem 106 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich der, wie es Abfragebildmerkmalsdaten aus dem Abfragebild bestimmt. Das Suchsystem 106 bestimmt auch Ressourcentextdaten aus der Ressource 116. Das gemeinsame Bild-Audio-Relevanzmodell 108 vergleicht dann die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten einer Ressource 116 und berechnet einen Relevanzpunktwert RELi für die Ressource 116. Das Modell 108 liefert die Relevanzpunktwerte an das Suchsystem 106. Das Suchsystem 106 ordnet dann die Ressourcen gemäß den Relevanzpunktwerten und liefert Suchergebnisse 130, eingestuft nach den Relevanzpunktwerten der Ressourcen, an die Benutzereinrichtung 102.
  • § 2.0 Verarbeiten einer gemeinsamen Bild-Audio-Abfrage
  • 3A ist ein Blockdiagramm eines beispielhaften Prozesses 300 zum Abfragen eines gemeinsamen Bildaudiosuchsystems. Das Suchsystem 106 empfängt die gemeinsame Bildaudioabfrage, die Bilddaten 302 und Audiodaten 304 umfasst. Diese Daten werden durch das Netzwerk empfangen, und bei einigen Implementierungen sind die Bilddaten 302 ein von einem Benutzer von einem Abfrageobjekt aufgenommenes Bild. Die Audiodaten 304 enthalten von dem Benutzer aufgezeichnete Sprache, die Informationen über das Abfrageobjekt oder über die gewünschten Abfrageergebnisse enthält. Diese werden als die gemeinsame Bild-Audio-Abfrage miteinander gepaart.
  • Die Audiodatei 304 enthält die Sprache betreffendes Audio. Die Sprachdaten 304 werden unter Verwendung eines Spracherkennungsalgorithmus in Textdaten 308 umgewandelt. Der Text 308 wird unter Verwendung von Verarbeitungstechniken für natürliche Sprache weiter analysiert, um den Inhalt der Textdaten 308 zu parsen. Beispielsweise kann das Bild 302 in der gemeinsamen Bild-Audio-Abfrage eine Wasserflasche enthalten, wie in 2A. Die dieses Bild begleitenden Audiodaten 304 können einfach „Wasserflasche” sein. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und verwendet den Text 308 als einen Suchparameter beim Vergleichen mit Ressourcentextdaten.
  • Unter Verwendung der Verarbeitung von natürlicher Sprache kann das Suchsystem 106 räumliche Bereiche des Bildes bestimmen, um sie einzuschließen oder auszuschließen. Beispielsweise kann das Audio 304 die Sprache „Wasserflasche auf der rechten Seite des Bildes” enthalten. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage. Das System 106 bestimmt aus dem Ausdruck „auf der rechten Seite des Bildes”, dass die rechte Seite des Bildes ein Bereich von Interesse ist und ignoriert somit auf der linken Seite des Bildes 302 erkannte Merkmale und Objekte und konzentriert sich nur auf jene, die es auf der rechten Seite findet.
  • Unter Verwendung einer Verarbeitung von natürlicher Sprache kann das Suchsystem 106 Empfindungen für bestimmte Merkmale oder Charakteristika detektieren. Beispielsweise kann das Bild 302 in der gemeinsamen Bildaudioabfrage eine rote Wasserflasche enthalten, wie in 2B. Das Audio 304 enthält jedoch möglicherweise die Sprache „nur blaue Wasserflaschen, keine roten”. Das Suchsystem 106 wandelt diese Sprache 304 in Textdaten 308 um und parst die Aussage, um zu interpretieren, dass der Benutzer in den Suchergebnissen nur blaue Wasserflaschen wünscht, im Gegensatz zu der roten Wasserflasche in dem Bild 302.
  • Aus den Bilddaten 302 der Bildaudioabfrage generiert das Suchsystem 106 Bildmerkmalswertdaten 306. Bildmerkmalswertdaten 306 sind Wert-Punktwerte, die visuelle Charakteristika eines Abschnitts eines Bilds 302 darstellen. Der Abschnitt des Bilds kann die Ganzheit des Bildes 302 oder einen Teilabschnitt des Bilds enthalten. Bei einigen Implementierungen können die Bildmerkmale 306 Farbe, Textur, Kanten, Sättigung und andere Charakteristika beinhalten. Zu beispielhaften Prozessen zum Extrahieren von Werten von Bildmerkmalen 306, aus denen ein Merkmalspunktwert berechnet werden kann, zählen Prozesse zum Generieren von Farbhistogrammen, Texturdetektionsprozesse (z. B. auf der Basis einer räumlichen Variation bei Pixelintensitäten), eine skaleninvariante Merkmalstransformation, Kantendetektion, Eckendetektion und geometrische Unschärfe.
  • Das gemeinsame Bild-Audio-Relevanzmodell 108 empfängt die Bildmerkmalsdaten 306 und Textdaten 308. Das Modell 108 greift auch auf Ressourcen 314 in einer Sammlung von Ressourcen zu. Nachdem auf jede Ressource 314 zugegriffen worden ist, generiert das Modell 108 Ressourcenbildmerkmalsdaten aus dem Ressourcenbild auf eine Weise ähnlich dem Abfragebild 302. Das Modell 108 bestimmt auch Textdaten anhand der Ressource 314, wie etwa Text auf einer Webseite, die das Bild enthält, oder Text, der mit dem Bild gemäß einem Datenbankschema assoziiert ist (z. B. eine Datenbank kommerzieller Produkte). Das Modell 108 vergleicht die Abfragebildmerkmalsdaten mit den Ressourcenbildmerkmalsdaten und die Abfragetextdaten mit den Ressourcentextdaten und berechnet einen Relevanzpunktwert für diese Ressource 314. Das Modell 108 berechnet Relevanzpunktwerte für jede Ressource in der Sammlung von Ressourcen, stuft die Ressourcen gemäß den Punktwerten ein und antwortet mit einer eingestuften Liste der Ressourcen 312. Das Suchsystem 106 generiert dann Suchergebnisse, die die Bilder und Ressourcen referenzieren, und liefert die Suchergebnisse an den Benutzer.
  • Bei einigen Implementierungen kann dieser Prozess einmal oder mehrmals iterativ wiederholt werden. Beispielsweise kann das System 106 nach dem Erzeugen einer Liste von Ressourcen, die nach Relevanz 312 für die Bild-Audio-Abfrage 302, 304 eingestuft wurden, ein oder mehrere der am höchsten eingestuften Ressourcenbilder verwenden, um eine weitere Abfrage durchzuführen. Dies kann eine verbesserte Liste von Relevanzressourcen erzeugen. Alternativ oder in Kombination kann das System Ressourcentextdaten von einer oder mehreren am höchsten eingestuften Ressourcen zusätzlich zu oder anstelle der ursprünglichen Abfragetextdaten 308 verwenden.
  • § 3.0 Trainieren des gemeinsamen Bild-Audio-Relevanzmodells
  • Damit das gemeinsame Bild-Audio-Relevanzmodell 310 Relevanzpunktwerte korrekt berechnen kann, wird es zuerst trainiert. 3B ist ein Blockdiagramm eines beispielhaften Prozesses 350 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108. Das Modell wird mit Anmerkungspaaren trainiert. Analog zu einer gemeinsamen Bild-Audio-Abfrage weist ein Anmerkungspaar Bilddaten 352 und assoziierte Audiodaten 354 auf. Die Menge von Anmerkungspaaren kann in eine Trainingsmenge und eine Testmenge unterteilt werden.
  • Indem Anmerkungspaare aus der Trainingsmenge genommen werden, werden Bildmerkmalsdaten 358 unter Verwendung ähnlicher Bildverarbeitungsalgorithmen wie den an dem Abfragebild verwendeten aus den Anmerkungsbilddaten 352 generiert. Textdaten 360 werden unter Verwendung ähnlicher Spracherkennungstechniken und Techniken zur Verarbeitung natürlicher Sprache wie jenen, die an dem Abfrageaudio verwendet werden, aus den Anmerkungsaudiodaten 354 bestimmt. Ein Trainingsmodell 362 empfängt als Eingabe die Bildmerkmalsdaten 358 und die Textdaten 360. Das Trainingsmodell 362 empfängt auch als Eingabe eine Ressource 356 mit einer vorbestimmten Relevanz für das Anmerkungspaar 352, 354. Diese vorbestimmte Relevanz kann binär sein (z. B. relevant/nicht relevant) oder sich auf einer relativen Skala (z. B. hochrelevant, etwas relevant, nicht relevant) oder auf einer Skala mit verfeinerteren Werten befinden. Das Modell 362 generiert Ressourcenbildmerkmalsdaten aus dem Ressourcenbild und bestimmt Ressourcentextdaten aus dem Ressourcentext. Durch Vergleichen der Anmerkungsbildmerkmalsdaten 352 mit den Ressourcenbildmerkmalsdaten und der Anmerkungstextdaten 354 mit den Ressourcentextdaten berechnet das Trainingsmodell 362 einen Relevanzpunktwert. Gewichte, die den Bildmerkmalen und Textmerkmalen entsprechen, werden eingestellt, um einen Punktwert in dem korrekten Bereich der vorbestimmten Relevanz zu erzeugen. Dieser Prozess wird für verschiedene Ressourcen und mit unterschiedlichen Trainingsanmerkungspaaren, alle mit vorbestimmten Relevanzen, wiederholt.
  • Mit der Testmenge von Anmerkungsdaten kann dann das trainierte Modell verifiziert werden. Das trainierte Modell kann als Eingabe Anmerkungspaare von der Testmenge zusammen mit Ressourcen, die eine vorbestimmte Relevanz für jedes der Testpaare aufweisen, empfangen. Die Testpaare und Ressourcen würden verarbeitet werden, um Merkmalsdaten zu generieren, wie dies mit den Trainingspaaren geschieht. Das Modell würde dann Relevanzpunktwerte für jede dieser Mengen von Eingaben generieren. Falls die Rekvanzpunktwerte. innerhalb eines Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell adäquat trainiert. Falls jedoch das Modell Relevanzpunktwerte generiert, die nicht innerhalb des Schwellwertbereichs von Akzeptabilität liegen, dann ist das Modell nicht adäquat trainiert und der Trainingsprozess kann mit der Trainingsmenge von Anmerkungsdaten wiederholt werden und die zugewiesenen Gewichte können erneut evaluiert und verstellt werden.
  • Dieser Schwellwertbereich kann auf viele verschiedene Arten festgelegt werden. Beispielsweise können jedem der qualitativen Skalenwerte in der vorbestimmten Relevanzskala Relevanzpunktwertbereiche zugewiesen werden. Falls beispielsweise die von dem Modell generierten Relevanzpunktwerte von 1 bis 100 gehen, kann der Schwellwert bei einer binären vorbestimmten Relevanzskala auf größer oder gleich 50 für relevant und weniger als 50 für nichtrelevant eingestellt werden. Alternativ kann der Schwellwert strenger gemacht werden, indem beispielsweise über 75 für relevant und unter 25 für nichtrelevant zugewiesen wird. Dies kann für ein effektiveres Bild-Audio-Relevanzmodell sorgen, kann aber auch mehr Iterationen des Trainings zum Herstellen erfordern. Alternativ kann der Schwellwert der Akzeptabilität qualitativer werden. Beispielsweise kann es für ein gegebenes Anmerkungspaar eine Menge von Ressourcen mit einer vorbestimmten Einstufung von relevanter bis weniger relevant geben. Die Akzeptabilität des Trainings des Modells kann evaluiert werden, indem geprüft wird, wie nahe das trainierte Modell dem kommt, die korrekte Einstufung der Ressourcen für das Anmerkungspaar zu liefern.
  • § 3.1 Auswahl von Anmerkungspaardaten
  • Die Anmerkungsdaten können auf eine Vielzahl von Wegen erhalten werden. Bei einer Implementierung werden die Anmerkungsdaten aus einer Produktdatenbank abgeleitet, wobei die Produktdatenbank eine Sammlung von Produktdokumenten aufweist. Jedes Produktdokument hat ein Bild eines Produkts und assoziierten Text mit Informationen über das Produkt, wie etwa eine Beschreibung, Preise, Verkäufer des Produkts und Besprechungen und Einstufungen sowohl des Produkts als auch der Verkäufer des Produkts. Das Anmerkungspaar 352, 354 enthält das Bild von einem Produktdokument und einer Teilmenge des Textes von dem gleichen Dokument. Dies würde auch eine vorbestimmte Relevanz zwischen dem Produktdokument und dem aus diesem Produkt hergestellten Anmerkungspaar 352, 354 gestatten. Da das Anmerkungspaar 352, 354 aus diesem Produktdokument angelegt wurde, muss das Anmerkungspaar für das Produktdokument hochrelevant sein.
  • Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus Bildsuchergebnisdaten abgeleitet. Der von Benutzern in ein Bildsuchsystem eingegebene Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Die Anmerkungsbilddaten 352 für das Paar können aus Bildern gewählt werden, die die populärsten Ergebnisse aus der Bildsuche entsprechend der Abfrageeingabe sind. Die Popularität von Ergebnissen kann durch statistische Maßnahmen wie etwa die Klickrate bestimmt werden. Alternativ können die Anmerkungsdaten aus Auswahldaten von Produktsuchergebnisdaten sein. Die Abfrageeingabe kann wieder als die Anmerkungstextdaten 354 für ein Anmerkungspaar verwendet werden. Das Anmerkungsbild 352 kann aus dem Produktbild der von Benutzern für diese Abfrageeingabe gewählten populärsten Produktdokumente erhalten werden. Dies würde auch Produktdokumente zur Verwendung als Ressourcen mit hoher vorbestimmter Relevanz bereitstellen.
  • Bei einer weiteren Implementierung werden die Anmerkungsdaten aus Auswahldaten aus allgemeinen Websuchergebnisdaten abgeleitet. Von Benutzern in einem Websuchsystem eingegebener Abfrageeingabetext kann als die Anmerkungstextdaten 354 eines Anmerkungspaars verwendet werden. Das Websuchsystem kann mit allgemeinen Webressourcen, einschließlich Websites, Bildern und Produktdokumenten antworten. Falls der Benutzer als Ergebnis der Websuche ein Produktdokument wählt, kann das Produktbild als die Anmerkungsbilddaten 352 für das Anmerkungspaar verwendet werden. Das Produktdokument wird dann als die Ressource mit bekannter hoher Relevanz verwendet.
  • Bei einer weiteren Implementierung können menschliche Kommentatoren verwendet werden, um Trainingsdaten zu liefern. Die Kommentatoren können anhand einer Fotografie das Anmerkungsbild 352 bereitstellen, und Sprach- oder Textdaten für die Anmerkungstextdaten 354 von Ressourcen liefern, nach denen sie suchen möchten. Die Kommentatoren können dann ein Produktdokument oder eine andere Ressourcendatenbank durchsuchen und Ressourcen finden, die mit der Fotografie und den Sprachdaten, die sie lieferten, sowohl in Beziehung stehen als auch nicht in Beziehung stehen. Jede Ressource, die die Kommentatoren finden, können sie dann als eine Übereinstimmung guter Qualität oder eine Übereinstimmung schlechter Qualität markieren. Bei einer weiteren Implementierung können die Kommentatoren dazu verwendet werden, die Qualität von Übereinstimmungen, die durch eine automatisierte Prozedur bestimmt wurden, einzustufen. Beispielsweise können beliebige der zuvor erörterten Prozeduren verwendet werden, um Anmerkungsdaten von einer Produktdatenbank, Produktsuchauswahldaten, Bildsuchauswahldaten oder Websuchauswahldaten zu erhalten, und menschliche Kommentatoren können die Relevanz jedes Anmerkungspaars für die durch den automatisierten Prozess gewählte Ressource einstufen.
  • § 3.2 Beispielhafte Bewertungsmodelle
  • Es kann eine Vielzahl von Modellen verwendet werden, um die Relevanzfunktion f(S, I, R) zu realisieren, und Beispiele sind unten beschrieben. Ein beispielhaftes Modell implementiert eine Relevanzfunktion, die eine lineare Kombination aus einzelnen Modellen ist, die auf Bildmerkmalsdaten und Audio- und Textdaten trainiert sind, d. h. f(S, I, R) = cfS(S, R) + (I – c)fI(I, R) wobei fS eine Bewertungsfunktion ist, die auf die Sprach- und Textdaten trainiert ist, und fI eine Bewertungsfunktion ist, die auf die Bildmerkmalsdaten trainiert ist. Der Mischparameter c ist ein Wert, der zwischen 0 und 1 verstellt wird.
  • Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), die die Menge von in Betracht gezogenen Ressourcenelementen auf nur jene mit die Wörter in S enthaltenden Textbeschreibungen beschränkt. Mit dieser eingeschränkten Menge bewertet das Modell dann die Relevanz der Bildmerkmalsdaten. Somit würde die Relevanzfunktion (S, I, R) = fI(I, R)f(S, R) sein, wobei f(S, R) = 1, falls Text S in der Ressource R ist und ansonsten f(S, R) = 0.
  • Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion f(S, I, R), wobei eine Bildmerkmalsrelevanzfunktion für jede mögliche Wahl von S gelernt wird, d. h. f(S, I, R) = WS·Φ(I, R) wobei Φ(I, R) die Merkmalsdarstellung des Bildes und der Ressource ist und WS eine gelernte Merkmalsgewichtsmatrix von Bilder und Ressourcen darstellenden Merkmalen ist. WS ist eine 1 × |Φ(I, R)|-Matrix oder ein Vektor der Dimension |Φ(I, R)|, das heißt, die Anzahl von Merkmalen, die zum Darstellen des Bildes und der Ressource verwendet werden.
  • Noch ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion unter Verwendung einer linearen Einstufungsfunktion, d. h. f(S, I, R) = W·Φ(S, I, R).
  • Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die eine Erweiterung des Ansatzes ist, die sich in dem hier durch Bezugnahme aufgenommenen Aufsatz „Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings” von Jason Weston, Samy Bengio und Nicolas Usunier („Weston-Aufsatz”) befindet. Der Ansatz in dem Weston-Aufsatz beinhaltet das Training an einer „Einbettungsraum”-Darstellung von willkürlicher Dimension, wo der Abstand zwischen zwei Elementen in dem Raum ihre Ähnlichkeit bezeichnet. Dieses Modell beinhaltet die Funktion f(S, I, R) = (WSI·ΦSI(S, I))·(WR·ΦR(R)) wobei WSI und WR Matrizen sind, und das Verfahren lernt sowohl Matrizen als auch einen Einbettungsraum der Dimension R, der in der Regel von niedriger Dimension ist. WSI ist eine R × |ΦSI(S, I)|-Matrix, wobei R die Abmessungen des Einbettungsraums sind und |ΦSI(S, I)| die Anzahl von Merkmalen ist, die zum gemeinsamen Darstellen von Text und Bild verwendet werden. WR ist eine R × |ΦR(R)|-Matrix, wobei |ΦR(R)| die Anzahl von Merkmalen ist, die zum Darstellen der Ressource verwendet werden. Der Einbettungsraum in dem Weston-Aufsatz verwendete nur Bilder und Markierungen. Der Ansatz wird hier durch Verketten der Sprach- und Bildmerkmale zu einem einzelnen Merkmalsraum ΦSI(S, I) erweitert.
  • Ein weiteres beispielhaftes Modell implementiert eine Relevanzfunktion, die den Ansatz des Weston-Aufsatzes weiter erweitert. Die Relevanzfunktion wird definiert durch f(S, I, R) = Σ(WS·ΦS(S))*(WI·ΦI(I))*(WR·ΦR(R)) wobei die *-Operation die komponentenmäßige Multiplikation von Vektoren ist. Diese Funktion gestattet komplexere nichtlineare Interaktionen zwischen den Merkmalen des Bildes, der Sprache und der Ressource.
  • § 4.0 Beispielhafte Prozesse
  • 4 ist ein Flussdiagramm eines beispielhaften Prozesses 400 zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 105. Der Prozess 400 kann in dem Suchsystem 106 implementiert werden und wird zum Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells 108 verwendet.
  • Der Prozess 400 greift auf Bildanmerkungsdaten zurück (402). Das Suchsystem 106 greift beispielsweise auf Bildanmerkungsdaten von einer Produktdatenbank zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten aus Produktsuchauswahldaten zugreifen. Bei einem weiteren Beispiel greift das Suchsystem 106 auf Bildanmerkungsdaten von Bildsuchauswahldaten zu. Bei einer weiteren Implementierung greift das Suchsystem 106 auf Bildanmerkungsdaten von Websuchauswahldaten zu. Das Suchsystem 106 kann auch auf Bildanmerkungsdaten von von menschlichen Kommentatoren kommentierten Daten zugreifen. Die menschlichen Kommentatoren können ihre eigenen Bild- und Sprachdaten zum Kommentieren erzeugen oder können von einer Produktdatenbank oder einem anderen automatisierten Prozess auf zu kommentierende Daten zugreifen.
  • Der Prozess 400 greift auf Ressourcen zu (404). Beispielsweise greift das Suchsystem 106 auf Ressourcen zu, die Produktdokumente von einer Produktdatenbank umfassen.
  • Der Prozess 400 trainiert ein gemeinsames Bild-Audio-Relevanzmodell an den Bildanmerkungsdaten und Ressourcen (406). Beispielsweise trainiert das Suchsystem 106 ein gemeinsames Bild-Audio-Relevanzmodell unter Verwendung der Bildanmerkungsdaten aus der Produktdatenbank und der Ressourcen aus der Produktdatenbank. Das gemeinsame Bild-Audio-Relevanzmodell kann beispielsweise gemäß einem der in Abschnitt 3.2 oben beschriebenen Trainingsalgorithmen trainiert werden, oder es können andere Trainingsalgorithmen verwendet werden.
  • 5 zeigt ein Flussdiagramm eines beispielhaften Prozesses 500 zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage. Der Prozess 500 kann in dem Suchsystem 106 implementiert werden und wird zum Einstufen von Ressourcen für eine gemeinsame Bildaudioabfrage verwendet.
  • Der Prozess 500 empfängt eine gemeinsame Bildaudioabfrage (502). Das Suchsystem 106 empfängt beispielsweise eine gemeinsame Bildaudioabfrage von einer Benutzereinrichtung durch das Netzwerk.
  • Der Prozess 500 bestimmt Abfragebildmerkmalsdaten (504). Beispielsweise generiert das Suchsystem 106 Bildmerkmalswertdaten aus dem von der Benutzereinrichtung empfangenen Abfragebild.
  • Der Prozess 500 bestimmt Abfrageaudiomerkmalsdaten (506). Beispielsweise verarbeitet das Suchsystem 106 die Audiodaten, um aus Audiodaten, die Sprachdaten umfassen, Textdaten zu generieren.
  • Der Prozess 500 liefert Abfragebildmerkmalsdaten und Abfrageaudiomerkmalsdaten an das gemeinsame Bild-Audio-Relevanzmodell (508). Beispielsweise liefert das Suchsystem 106 Abfragebildmerkmalsdaten und Textdaten an das gemeinsame Bild-Audio-Relevanzmodell. Das gemeinsame Bild-Audio-Relevanzmodell ist darauf trainiert, Relevanzpunktwerte für eine Sammlung von Ressourcen zu generieren.
  • Der Prozess 500 ordnet Ressourcen gemäß ihrer Relevanzpunktwerte (510). Beispielsweise ordnet das Suchsystem 106 die Ressourcen von der relevantesten bis zu der am wenigsten relevanten für die Bild-Audio-Abfrage.
  • Der Prozess 500 liefert Suchergebnisse, die die Reihenfolge der Ressourcen angeben (512). Beispielsweise liefert das Suchsystem 106 Suchergebnisse, die eine Liste von Ressourcenadressen umfassen, eingestuft von der relevantesten bis zu der am wenigsten relevanten für die Benutzereinrichtung.
  • § 5.0 Zusätzliche Implementierungsdetails
  • Implementierungen des Gegenstands und der Operationen, die in dieser Patentschrift beschrieben werden, können in digitaler elektronischer Schaltungsanordnung oder in Computersoftware, -firmware oder -hardware implementiert werden, einschließlich der in dieser Patentschrift offenbarten Strukturen und ihren strukturellen Äquivalenten oder in Kombinationen aus einer oder mehreren von ihnen. Implementierungen des in dieser Patentschrift beschriebenen Gegenstands können als ein oder mehrere Computerprogramme implementiert werden, d. h. ein oder mehrere Module von Computerprogrammanweisungen, auf einem Computerspeichermedium codiert zur Ausführung durch die oder zur Steuerung der Operation der Datenverarbeitungsvorrichtung. Alternativ oder zusätzlich können die Programmanweisungen auf einem künstlich generierten verbreiteten Signal codiert werden, beispielsweise einem maschinengenerierten elektrischen, optischen oder elektromagnetischen Signal, das generiert wird, um Informationen zur Übertragung zu einer geeigneten Empfängervorrichtung zur Ausführung durch eine Datenverarbeitungsvorrichtung zu codieren. Ein Computerspeichermedium kann eine computerlesbare Speichereinrichtung, ein computerlesbares Speichersubstrat, ein Zufalls- oder Reihenzugangsspeicherarray oder eine Zufalls- oder Reihenzugangseinrichtung oder eine Kombination aus einer oder mehreren von ihnen sein oder darin enthalten sein. Wenngleich ein Computerspeichermedium kein verbreitetes Signal ist, kann zudem ein Computerspeichermedium eine Quelle oder ein Ziel von Computerprogrammanweisungen sein, die in einem künstlich generierten verbreiteten Signal codiert sind. Das Computerspeichermedium kann auch ein oder mehrere getrennte physische Komponenten oder Medien (beispielsweise mehrere CDs, Disketten oder andere Speichereinrichtungen) sein oder darin enthalten sein.
  • Die in dieser Patentschrift beschriebenen Operationen können als Operationen implementiert werden, die von einer Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einer oder mehreren computerlesbaren Speichereinrichtungen gespeichert sind oder von anderen Quellen empfangen werden.
  • Der Ausdruck „Datenverarbeitungsvorrichtung” umfasst alle Arten von Vorrichtungen, Einrichtungen und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise einem programmierbaren Prozessor, einem Computer, einem System auf einem Chip, oder mehrere einzelne oder Kombinationen der obigen. Die Vorrichtung kann eine Speziallogikschaltungsanordnung enthalten, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit). Die Vorrichtung kann zusätzlich zu Hardware einen Code enthalten, der eine Ausführungsumgebung für das fragliche Computerprogramm erzeugt, beispielsweise einen Code, der Prozessorfirmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, eine virtuelle Maschine oder eine Kombination aus einem oder mehreren von ihnen bildet. Die Vorrichtung und die Ausführungsumgebung können verschiedene Rechenmodellinfrastrukturen wie etwa Webdienste, verteilte Rechen- und Netzrecheninfrastrukturen realisieren.
  • Ein Computerprogramm (auch als ein Programm, Software, Softwareanwendung, Script oder Code bekannt) kann in einer beliebigen Form von Programmiersprache geschrieben sein, einschließlich kompilierter oder interpretierter Sprachen, deklarativer oder prozeduraler Sprachen, und es kann in beliebiger Form eingesetzt werden, einschließlich als ein unabhängiges Programm oder als ein Modul, eine Komponente, eine Teilroutine, ein Objekt oder irgendeine andere Einheit, die sich zur Verwendung in einer Rechenumgebung eignet. Ein Computerprogramm kann, aber muss nicht, einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Abschnitt einer Datei gespeichert sein, die andere Programme oder Daten hält (beispielsweise ein oder mehrere, in einem Markup-Language-Dokument gespeicherte Scripts), in einer dem fraglichen Programm gewidmeten einzelnen Datei oder in mehreren koordinierten Dateien (beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Abschnitte von Code speichern) gespeichert sein. Ein Computerprogramm kann eingesetzt werden, um auf einem Computer oder auf mehreren Computern ausgeführt zu werden, die sich an einem Ort befinden oder über mehrere Orte verteilt und durch ein Kommunikationsnetz verbunden sind.
  • Die in dieser Patentschrift beschriebenen Prozesse und Logikflüsse können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Aktionen durchzuführen, indem an Eingangsdaten gearbeitet und eine Ausgabe generiert wird. Die Prozesse und Logikflüsse können auch durch eine Speziallogikschaltungsanordnung, beispielsweise ein FPGA (Field Programmable Gate Array) oder einen ASIC (Application Specific Integrated Circuit) durchgeführt werden und die Vorrichtung kann auch als diese implementiert werden.
  • Prozessoren, die sich für die Ausführung eines Computerprogramms eignen, enthalten beispielsweise sowohl Allzweck- als auch Spezialmikroprozessoren und einen oder mehrere beliebige Prozessoren einer beliebigen Art von Digitalcomputer. Allgemein wird ein Prozessor Anweisungen und Daten von einem Festwertspeicher oder einem Direktzugriffspeicher oder beiden empfangen. Die essenziellen Elemente eines Computers sind ein Prozessor zum Durchführen von Aktionen gemäß Anweisungen und ein oder mehrere Speichereinrichtungen zum Speichern von Anweisungen und Daten. Allgemein enthält ein Computer auch eine oder mehrere Massenspeichereinrichtungen zum Speichern von Daten, beispielsweise magnetische, magnetooptische Platten oder optische Platten oder wird operativ gekoppelt sein, um Daten von diesen zu empfangen oder Daten zu ihnen zu transferieren oder beides. Jedoch braucht ein Computer keine derartigen Einrichtungen aufzuweisen. Zudem kann ein Computer in eine andere Einrichtung eingebettet sein, beispielsweise ein Mobiltelefon, einen PDA (Personal Digital Assistant), einen mobilen Audio- oder Videoplayer, eine Spielekonsole, einen GPS-Empfänger (Global Positioning System) oder eine tragbare Speichereinrichtung (beispielsweise ein USB-Flash-Laufwerk (Universal Serial Bus), um nur einige zu nennen. Einrichtungen, die sich zum Speichern von Computerprogrammanweisungen und Daten eignen, beinhalten alle Formen eines nichtflüchtigen Speichers, von Medien und Speichereinrichtungen, einschließlich beispielsweise Halbleiterspeichereinrichtungen, beispielsweise EPROM, EEPROM und Flash-Speichereinrichtungen; magnetische Platten, beispielsweise interne Festplatten oder entfernbare Platten; magnetooptische Platten und CD-ROM- und DVD-ROM-Platten. Der Prozessor und der Speicher können durch eine Speziallogikschaltungsanordnung ergänzt werden oder in diese integriert sein.
  • Um eine Interaktion mit einem Benutzer bereitzustellen, können Implementierungen des in dieser Spezifikation beschriebenen Gegenstands auf einem Computer mit einer Displayeinrichtung implementiert werden, beispielsweise einem Kathodenstrahlröhren- oder LCD-(Liquid Crystal Display – Flüssigkristallanzeige)Monitor, um dem Benutzer Informationen anzuzeigen, und eine Tastatur und eine Zeigeeinrichtung, beispielsweise eine Maus oder einen Trackball, durch die der Benutzer Eingabe in den Computer bereitstellen kann. Andere Arten von Einrichtungen können verwendet werden, um auch für eine Interaktion mit einem Benutzer zu sorgen; beispielsweise kann ein dem Benutzer geliefertes Feedback jede Form an sensorischem Feedback sein, beispielsweise visuelles Feedback, auditorisches Feedback oder taktiles Feedback; und Eingabe von dem Benutzer kann in einer beliebigen Form empfangen werden, einschließlich akustischer, Sprach- oder taktiler Eingabe. Außerdem kann ein Computer mit einem Benutzer interagieren durch Senden von Dokumenten an und Empfangen von Dokumenten von einer Einrichtung, die von dem Benutzer verwendet wird; beispielsweise durch Senden von Webseiten an einen Webbrowser auf einer Clienteinrichtung des Benutzers als Reaktion auf von dem Webbrowser empfangenen Anforderungen.
  • Wenngleich diese Patentschrift viele spezifische Implementierungsdetails enthält, sollten diese nicht als Beschränkungen des Schutzbereichs etwaiger Offenbarungen oder dessen, was beansprucht werden kann, ausgelegt werden, sondern vielmehr als Beschreibungen von Merkmalen, die bestimmten Implementierungen von bestimmten Offenbarungen zu eigen sind. Bestimmte Merkmale, die in dieser Patentschrift in dem Kontext separater Implementierungen beschrieben sind, können auch in Kombination in einer einzelnen Implementierung implementiert werden. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzelnen Implementierung beschrieben werden, auch in mehreren Implementierungen separat oder in einer beliebigen geeigneten Teilkombination implementiert werden. Wenngleich Merkmale oben so beschrieben worden sein können, dass sie in bestimmten Kombinationen wirken und sogar anfänglich als solche beansprucht sind, können zudem ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination entfernt werden, und die beanspruchte Kombination kann eine Teilkombination oder eine Variation einer Teilkombination betreffen.
  • Wenngleich Operationen in den Zeichnungen in einer bestimmten Reihenfolge gezeigt sind, sollte dies analog nicht so verstanden werden, als wenn es erfordert, dass solche Operationen in der gezeigten bestimmten Reihenfolge oder in einer sequenziellen Reihenfolge ausgeführt werden oder dass alle dargestellten Operationen ausgeführt werden, um erwünschte Ergebnisse zu erzielen. In gewissen Umständen können Multitasking und parallele Verarbeitung vorteilhaft sein. Zudem sollte die Trennung von verschiedenen Systemkomponenten in den oben beschriebenen Implementierungen nicht so verstanden werden, als wenn dies eine Trennung in allen Implementierungen erfordert, und es ist zu verstehen, dass die beschriebenen Programmkomponenten und Systeme allgemein zusammen in einem einzelnen Softwareprodukt integriert sein können oder zu mehreren Softwareprodukten verpackt sein können.
  • Somit wurden bestimmte Implementierungen des Gegenstands beschrieben. Andere Implementierungen liegen innerhalb des Schutzbereichs der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen angeführten Aktionen in einer anderen Reihenfolge ausgeführt werden und immer noch erwünschte Ergebnisse erzielen. Außerdem erfordern die in den beiliegenden Figuren gezeigten Prozesse nicht notwendigerweise die gezeigte bestimmte Reihenfolge oder sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein.

Claims (13)

  1. System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung.
  2. System nach Anspruch 1, wobei die Abfrageaudiomerkmalsdaten Daten enthalten, die ein Abfrageobjekt in den Abfragebilddaten betreffen, durch weiteres Beschreiben des Abfrageobjekts, wobei das Abfrageobjekt eine Teilmenge des Abfragebildes ist, das Bilddaten enthält, die ein interessierendes Objekt darstellen.
  3. System nach Anspruch 1 oder 2, wobei die das Abfrageobjekt weiter beschreibenden Daten Informationen beinhalten, die eine Position des Abfrageobjekts angeben.
  4. System nach einem der Ansprüche 1 bis 3, wobei die Abfrageaudiomerkmalsdaten Daten enthalten, die eine oder mehrere Beschränkungen für die Suchergebnisse definieren.
  5. System nach einem der Ansprüche 1 bis 4, wobei ein oder mehrere Ressourcenbilder zum Verfeinern der Suchergebnisse verwendet werden.
  6. System nach einem der Ansprüche 1 bis 5, wobei ein oder mehrere Ressourcentextdaten zum Verfeinern der Suchergebnisse verwendet werden.
  7. System, das Folgendes umfasst: eine Datenverarbeitungsvorrichtung und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, umfassend: Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält.
  8. System nach Anspruch 7, wobei die Anmerkungspaartextdaten aus einer Sprache definierenden Audiodatei umgewandelt werden.
  9. System nach Anspruch 7 oder 8, wobei die Bildanrnerkungsdaten Anmerkungspaare enthalten, die aus Auswahldaten für Suchergebnisse als Reaktion auf eine Benutzersuchabfrage erhalten werden, wobei die Auswahldaten eine Auswahl einer Referenz auf das Anmerkungsbild aus Suchergebnissen als Reaktion auf die Benutzerabfrage identifizieren und die Anmerkungstextdaten den Benutzerabfragetext umfassen.
  10. System nach einem der Ansprüche 7 bis 9, wobei die Bildanmerkungsdaten Anmerkungspaare enthalten, die aus einer Produktdatenbank erhalten werden, wobei die Produktdatenbank Produktressourcen, die ein Produktressourcenbild definieren, und Produkttextdaten für mehrere Produkte enthalten, wobei das Anmerkungsbild ein Produktressourcenbild umfasst und die Anmerkungstextdaten eine Teilmenge der entsprechenden Produkttextdaten umfassen.
  11. System nach einem der Ansprüche 7 bis 10, wobei ein Abschnitt der Bildanmerkungsdaten und Ressourcen mit bekannter Relevanz in einer Trainingsmenge und einer Testmenge unterteilt wird, wobei die Trainingsmenge zum Trainieren des gemeinsamen Bild-Audio-Relevanzmodells verwendet wird und die Testmenge zum Testen des gemeinsamen Bild-Audio-Relevanzmodells verwendet wird.
  12. Computerspeichermedium, mit einem Computerprogramm codiert, wobei das Programm Anweisungen umfasst, die bei Ausführung durch eine Clienteinrichtung bewirken, dass die Clienteinrichtung Operationen ausführt, umfassend: Empfangen einer gemeinsamen Bild-Audio-Abfrage von einer Clienteinrichtung, wobei die gemeinsame Bild-Audio-Abfrage Abfragebilddaten enthält, die ein Abfragebild definieren, und Abfrageaudiodaten, die ein Abfrageaudio definieren; Bestimmen von Bildabfragemerkmalsdaten anhand der Abfragebilddaten, wobei die Abfragebildmerkmalsdaten Bildmerkmale des Abfragebilds beschreiben; Bestimmen von Abfrageaudiomerkmalsdaten anhand der Audiodaten, wobei die Abfrageaudiomerkmalsdaten Audiomerkmale des Abfrageaudio beschreiben; Liefern der Abfragebildmerkmalsdaten und der Abfrageaudiomerkmalsdaten an ein gemeinsames Bild-Audio-Relevanzmodell, wobei das gemeinsame Bild-Audio-Relevanzmodell darauf trainiert ist, Relevanzpunktwerte für mehrere Ressourcen zu generieren, wobei jede Ressource Ressourcenbilddaten, die ein Ressourcenbild für die Ressource definieren, und Textdaten, die einen Ressourcentext für die Ressource definieren, enthält, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz der entsprechenden Ressource für die gemeinsame Bild-Audio-Abfrage ist; Ordnen der Ressourcen gemäß dem entsprechenden Relevanzpunktwert und Liefern von Daten, die Suchergebnisse definieren, die die Reihenfolge der Ressourcen anzeigen, an die Clienteinrichtung.
  13. Computerspeichermedium, mit einem Computerprogramm codiert, wobei das Programm Anweisungen umfasst, die bei Ausführung durch eine Clienteinrichtung bewirken, dass die Clienteinrichtung Operationen ausführt, umfassend: Zugreifen auf Bildanmerkungsdaten, die mehrere Anmerkungspaare beschreiben, wobei jedes Anmerkungspaar Bilddaten, die ein Bild definieren, und Textdaten, die mit dem Bild assoziiert sind, enthält; Zugreifen auf Ressourcen, wobei jede Ressource ein Ressourcenbild für die Ressource definiert und Textdaten Ressourcentext für die Ressource definieren; und Trainieren eines gemeinsamen Bild-Audio-Relevanzmodells an den Bildanmerkungsdaten und den Ressourcen, um Relevanzpunktwerte für mehrere Ressourcen zu generieren, und wobei jeder Relevanzpunktwert ein Maß für die Relevanz einer entsprechenden Ressource für eine gemeinsame Bildaudioabfrage ist, die Abfragebilddaten, die ein Abfragebild definieren, und Abfrageaudiodaten, die Abfrageaudio definieren, enthält.
DE212011100024U 2010-10-28 2011-10-28 Suche mit gemeinsamen Bild-Audio-Abfragen Expired - Lifetime DE212011100024U1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/914,653 2010-10-28
US12/914,653 US8788434B2 (en) 2010-10-28 2010-10-28 Search with joint image-audio queries
PCT/US2011/058362 WO2012058577A1 (en) 2010-10-28 2011-10-28 Search with joint image-audio queries

Publications (1)

Publication Number Publication Date
DE212011100024U1 true DE212011100024U1 (de) 2012-07-10

Family

ID=44993181

Family Applications (1)

Application Number Title Priority Date Filing Date
DE212011100024U Expired - Lifetime DE212011100024U1 (de) 2010-10-28 2011-10-28 Suche mit gemeinsamen Bild-Audio-Abfragen

Country Status (6)

Country Link
US (2) US8788434B2 (de)
EP (1) EP2633439A1 (de)
CN (1) CN103329126B (de)
AU (1) AU2011320530B2 (de)
DE (1) DE212011100024U1 (de)
WO (1) WO2012058577A1 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8737728B2 (en) 2011-09-30 2014-05-27 Ebay Inc. Complementary item recommendations using image feature data
US9009149B2 (en) * 2011-12-06 2015-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using Bag of Hash Bits and boundary reranking
US8799257B1 (en) * 2012-03-19 2014-08-05 Google Inc. Searching based on audio and/or visual features of documents
US9223776B2 (en) * 2012-03-27 2015-12-29 The Intellectual Group, Inc. Multimodal natural language query system for processing and analyzing voice and proximity-based queries
US8897484B1 (en) 2012-05-18 2014-11-25 Google Inc. Image theft detector
US9098584B1 (en) 2012-07-19 2015-08-04 Google Inc. Image search privacy protection techniques
KR101917695B1 (ko) * 2012-08-09 2018-11-13 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
KR20140127975A (ko) * 2013-04-26 2014-11-05 삼성전자주식회사 정보처리장치 및 그 제어방법
CN104346792B (zh) * 2013-07-24 2018-07-27 腾讯科技(深圳)有限公司 图片处理方法、图片查看器及终端
US9384213B2 (en) 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
US20150228002A1 (en) * 2014-02-10 2015-08-13 Kelly Berger Apparatus and method for online search, imaging, modeling, and fulfillment for interior design applications
JP6316447B2 (ja) * 2014-05-15 2018-04-25 華為技術有限公司Huawei Technologies Co.,Ltd. オブジェクト検索方法および装置
CN111046197A (zh) * 2014-05-23 2020-04-21 三星电子株式会社 搜索方法和设备
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
EP3234800A4 (de) * 2014-12-18 2018-08-15 Hewlett-Packard Development Company, L.P. Identifizierung einer ressource auf der basis einer handgeschriebenen anmerkung
US9904450B2 (en) 2014-12-19 2018-02-27 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
US9633019B2 (en) * 2015-01-05 2017-04-25 International Business Machines Corporation Augmenting an information request
CN104598585A (zh) * 2015-01-15 2015-05-06 百度在线网络技术(北京)有限公司 信息搜索方法及装置
US10963795B2 (en) * 2015-04-28 2021-03-30 International Business Machines Corporation Determining a risk score using a predictive model and medical model data
US11003667B1 (en) 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US11055335B2 (en) * 2016-07-15 2021-07-06 Google Llc Contextual based image search results
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
US10579688B2 (en) * 2016-10-05 2020-03-03 Facebook, Inc. Search ranking and recommendations for online social networks based on reconstructed embeddings
US10452688B2 (en) 2016-11-08 2019-10-22 Ebay Inc. Crowd assisted query system
US10623569B2 (en) * 2017-06-08 2020-04-14 Avaya Inc. Document detection and analysis-based routing
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
US10977303B2 (en) * 2018-03-21 2021-04-13 International Business Machines Corporation Image retrieval using interactive natural language dialog
US10782986B2 (en) 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US10978056B1 (en) * 2018-04-20 2021-04-13 Facebook, Inc. Grammaticality classification for natural language generation in assistant systems
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
US11586927B2 (en) * 2019-02-01 2023-02-21 Google Llc Training image and text embedding models
JP2021068064A (ja) * 2019-10-18 2021-04-30 富士ゼロックス株式会社 クエリ修正システム、検索システム及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0947937B1 (de) * 1998-04-02 2010-11-03 Canon Kabushiki Kaisha Einrichtung und Verfahren zum Suchen von Bildern
US6243713B1 (en) 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6925475B2 (en) * 2001-10-12 2005-08-02 Commissariat A L'energie Atomique Process and apparatus for management of multimedia databases
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
US20050038814A1 (en) 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities
US7702681B2 (en) 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
US7684651B2 (en) * 2006-08-23 2010-03-23 Microsoft Corporation Image-based face search
US8392411B2 (en) * 2010-05-20 2013-03-05 Google Inc. Automatic routing of search results
CN103038765B (zh) * 2010-07-01 2017-09-15 诺基亚技术有限公司 用于适配情境模型的方法和装置

Also Published As

Publication number Publication date
US20140330822A1 (en) 2014-11-06
CN103329126A (zh) 2013-09-25
AU2011320530B2 (en) 2016-06-16
WO2012058577A1 (en) 2012-05-03
AU2011320530A1 (en) 2013-05-23
US20120109858A1 (en) 2012-05-03
US8788434B2 (en) 2014-07-22
CN103329126B (zh) 2018-04-24
EP2633439A1 (de) 2013-09-04

Similar Documents

Publication Publication Date Title
DE212011100024U1 (de) Suche mit gemeinsamen Bild-Audio-Abfragen
US10521469B2 (en) Image Re-ranking method and apparatus
JP6543986B2 (ja) 情報処理装置、情報処理方法およびプログラム
DE102018004974A1 (de) Globale Vektorempfehlungen auf der Basis von impliziten Interaktions- und Profildaten
DE102017011262A1 (de) Themenverknüpfung und Markierung für dichte Bilder
DE112017006517T5 (de) Visuelle kategoriedarstellung mit vielfältiger einstufung
DE102017005963A1 (de) Bereitstellen von relevanten Videoszenen in Reaktion auf eine Videosuchabfrage
DE112019005489T5 (de) Bestimmung visueller attribute zur inhaltsauswahl
DE112016005006T5 (de) Automatische videozusammenfassung
US20180357258A1 (en) Personalized search device and method based on product image features
US20110191336A1 (en) Contextual image search
DE112016005555T5 (de) CAPTCHA-Aufgaben auf Bildbasis
DE102016010744A1 (de) Modifizieren von zumindest einem Attribut von einem Bild mit zumindest einem Attribut, das von einem anderen Bild extrahiert wurde
US9218546B2 (en) Choosing image labels
DE102016011173A1 (de) Erstellen von Zusammenfassungen von Multimediadokumenten
DE112015002286T5 (de) Visuelle interaktive suche
CN108416028A (zh) 一种搜索内容资源的方法、装置及服务器
DE102017009505A1 (de) Erzeugen einer kompakten Videomerkmaldarstellung in einer digitalen Medienumgebung
US9619705B1 (en) Object identification in visual media
DE102016003850A1 (de) Empfehlen von Formularfragmenten
CN112074828A (zh) 训练图像嵌入模型和文本嵌入模型
DE102016010910A1 (de) Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern
DE212011100098U1 (de) Präsentieren von Suchergebnissen für Galerie-Webseiten
DE112017000039T5 (de) Erzeugen von Deeplinks für Anwendungen auf Basis von mehrstufigen Verweisdaten
Zhang et al. CorrFormer: Context-aware tracking with cross-correlation and transformer

Legal Events

Date Code Title Description
R207 Utility model specification

Effective date: 20120913

R150 Utility model maintained after payment of first maintenance fee after three years
R150 Utility model maintained after payment of first maintenance fee after three years

Effective date: 20141118

R082 Change of representative

Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB

R151 Utility model maintained after payment of second maintenance fee after six years
R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE, INC., MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB

R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

Representative=s name: PROCK, THOMAS, DIPL.-ING. (FH) DR., GB

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R152 Utility model maintained after payment of third maintenance fee after eight years
R071 Expiry of right