DE102011003201A1

DE102011003201A1 - System für kreative Bildnavigation und Untersuchung

Info

Publication number: DE102011003201A1
Application number: DE102011003201A
Authority: DE
Inventors: Sandra SKAFF; Luca Marchesotti; Tommaso Colombino; Ana Fucs; Gabriela Csurka; Yanal Wazaefi; Marco Bressan
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2010-01-26
Filing date: 2011-01-26
Publication date: 2011-12-15
Also published as: JP2011154687A; US8775424B2; FR2955681A1; US20110184950A1

Abstract

Es werden ein System und ein Verfahren zum Unterstützen eines Nutzers bei der Navigation durch einen Bilddatensatz offenbart. Das Verfahren umfasst das Empfangen einer Textanfrage des Nutzers, das Abrufen von Bildern in Reaktion auf die Anfrage aus einem Bilddatensatz, das Sorgetragen dafür, dass die Auswahl des Nutzers für ein erstes Merkmal, das aus einer Gruppe aus verfügbaren ersten Merkmalen ausgewählt wird, empfangen wird über eine graphische Anwenderschnittstelle, das Sorgetragen dafür, dass die Auswahl des Nutzers für ein zweites Merkmal, das aus einer Gruppe verfügbarer zweiter Merkmale ausgewählt ist, die sich von den ersten Merkmalen unterscheiden, über die graphische Anwenderschnittstelle ausgewählt wird, und Darstellen mindestens einiger der abgerufenen Bilder auf der graphischen Anwenderschnittstelle. Die dargestellten Bilder sind angeordnet, beispielsweise gruppiert, gemäß Ebenen und/oder Kombinationen des vom Nutzer ausgewählten ersten und zweiten Merkmals.

Description

Hintergrund
Die anschauliche Ausführungsform betrifft das Gebiet der Bildgewinnung und Auswahl. Es findet insbesondere Anwendung im Zusammenhang mit einem Navigationssystem und einem Verfahren zum Durchsuchen einer Datenbank aus Bildern.
Digitale Bilder werden aufgenommen und in großer Menge für die spätere Verwendung in Verbindung mit einer Reihe von Anwendungen gespeichert, etwa für die kommerzielle Gestaltung, redaktionelle Arbeiten, für die professionelle Digitalphotographie und für die Bestandsverwaltung. Das Abrufen bzw. Gewinnen von Bildern mittels konventioneller Suchverfahren ist häufig zeitaufwendig. Wenn beispielsweise eine Gruppe in geeigneter Weise markiert wurde, kann ein Nutzer eine Textanfrage eingeben, etwa „Blume” und kann eine große Anzahl an Bildern in Reaktion auf die Abfrage abrufen, beispielsweise jene, die manuell als solche markiert wurden, die Blumen enthalten. Andere Verfahren zum Abrufen bzw. Gewinnen von Bildern beruhen auf Merkmalsextraktionstechniken. Beispielsweise kann ein automatisiertes System Markierungen manuell gekennzeichneter Bilder auf ungekennzeichnete Bilder auf der Grundlage einer Ähnlichkeit von extrahierten Merkmalen übertragen. Oder der Nutzer kann ein Bild einer Blume eingeben und es werden ähnliche Bilder automatisch abgerufen, indem die Merkmale des eingespeisten Bildes mit jenen der gespeicherten Bilder verglichen werden.
Das Auffinden von Bildern beinhaltet allgemein einen Kompromiss zwischen einer engen Definition und Abgrenzung des Suchraumes durch die Verwendung expliziter Kriterien, und der Durchsuchung einer ausreichend großen Ansammlung an verfügbaren Bildern, um damit sicherzustellen, dass die best passendsten oder ästhetisch am ansprechendsten nicht übersehen werden. Dies führt für den Nutzer zu einer relativ grollen Teilmenge an Bildern. Somit bleibt das Durchsuchen das wesentliche Verfahren für die Auswahl von Bildern.
Aktuelle Systeme, etwa Google Images und FLICKR-Bildsysteme führen Bildsuchvorgänge auch auf der Grundlage des Inhalts aus und bieten sehr grundlegende Optionen für ästhetische Verfeinerungen. Jedoch bieten diese keine Werkzeuge für Merkmalskombinationssuchvorgänge. Diese ermöglichen es höchstens den Nutzern, eine Sequenz aus Verfeinerungskriterien auszuwählen und miteinander zu verketten. Beispielsweise kann in Google Images ein Nutzer eine inhaltsbezogene Suche ausführen, etwa durch die Abfrage „Himmel” und kann dann auf das „blaue” Feld klicken, um Bilder mit blauem Himmel zu erhalten. Diese Art der Durchsuchung macht das Vorwärts- und Rückwärtsbewegen zwischen ausgewählten Merkmalsverfeinerungen und der Untersuchung unterschiedlicher Kombinationen aus Merkmalen unpraktisch.
Kurze Beschreibung
Gemäß einem Aspekt der anschaulichen Ausführungsform wird ein Verfahren zum Assistieren eines Nutzers bei der Navigation in Bilddatensatz bereitgestellt. Das Verfahren umfasst das Erhalten einer Textanfrage des Nutzers, das Abrufen von Bildern in Reaktion auf die Textanfrage aus einem Bilddatensatz, das Vorsehen, dass die Auswahl des Nutzers eines ersten Merkmals, das aus einer Gruppe aus verfügbaren Merkmalen ausgewählt wird, empfangen wird, das Vorsehen, dass die Auswahl des Nutzers eines zweiten Merkmals empfangen wird, das aus der Gruppe aus verfügbaren Merkmalen ausgewählt ist. Das Verfahren umfasst ferner das Anzeigen mindestens einiger der abgerufenen Bilder auf der graphischen Anwenderschnittstelle gleichzeitig in einer Anordnung. Die Anordnung aus Bildern gibt unterschiedliche Ebenen des ersten Merkmals wieder, wenn nur ein erstes Merkmal ausgewählt ist. Die Anordnung gibt unterschiedliche Kombinationen aus Ebenen des vom Nutzer ausgewählten ersten und zweiten Merkmals wieder, wenn ein erstes und ein zweites Merkmal ausgewählt sind.
In einer Ausführungsform des Verfahrens aus Anspruch 6 umfasst das Anzeigen von Gruppen aus Bildern in einem zweidimensionalen Array, wobei das erste Merkmal in einer ersten Dimension in der Ebene aufsteigend und wobei das zweite Merkmal in einer zweiten Dimension in seiner Ebene aufsteigend angeordnet ist.
In einer Ausführungsform des Verfahrens aus Anspruch 2 unterscheidet sich jede Gruppe aus Bildern in der Anzeige in einer Kombination aus quantitizierten Werten des ersten und des zweiten Merkmals von jeder der anderen Gruppen.
In einer weiteren Ausführungsform wird für jedes Merkmal in der Gruppe aus Merkmalen eine Mehrzahl aus Quantisierungsebenen für die unterschiedlichen Werten des Merkmales bereitgestellt und jedes der Bilder in der Datenmenge aus Bildern wird einer entsprechenden Quantisierungsebene für jedes der Merkmale zugeordnet.
In einer weiteren Ausführungsform gibt es für jedes Merkmal in der Gruppe aus Merkmalen mindestens drei Quatisierungsebenen.
In einer weiteren Ausführungsform umfasst das Vorsehen, dass die Auswahl des Nutzers für das erste und das zweite Merkmal empfangen wird, das Vorsehen, dass die Auswahl des Nutzers über die graphische Anwenderschnittstelle empfangen wird.
In einer weiteren Ausführungsform umfasst das Verfahren ferner das Abrufen mindestens eines nächsten Nachbarn und/oder nahezu identischer Bilder für ein vom Nutzer ausgewähltes Bild und/oder eine nutzerausgewählte Gruppe aus Bildern und das Darstellen des mindestens einen nächsten Nachbarn und/oder der nahezu identischen Bilder auf der graphischen Anwenderschnittstelle.
In einer weiteren Ausführungsform umfassen die Bilder Photographien.
In einer weiteren Ausführungsform umfasst das Verfahren das automatische Klassifizieren zumindest eines Teils der Bilder in der Datenmenge gemäß dem Inhalt, und wobei das Abrufen von Bildern in Reaktion auf eine Textabfrage auf der Inhaltsklassifizierung der Bilder basiert.
In einer weiteren Ausführungsform umfasst das Verfahren ferner das Anzeigen eines Dokuments mit einem Platzhalter zum Aufnehmen eines Bildes gleichzeitig mit einer nutzerausgewählten Gruppe der Bilder, wodurch ein Anwender ein Bild aus der dargestellten Gruppe auswählen kann, das in dem Platzhalter eingefügt wird.
In einer weiteren Ausführungsform sind die dargestellten Bilder Miniaturbilder, die aus den entsprechenden Bildern in der gespeicherten Datenmenge abgeleitet sind.
In einer weiteren Ausführungsform umfasst das Anzeigen das Anzeigen eines Arrays der abgerufenen Bilder, wobei die Position von Bildern in dem Array der Kombination aus Merkmalsebenen entspricht.
In einem weiteren Aspekt umfasst eine Vorrichtung zur Navigation in einer Bilddatenmenge ein Navigationssystem, das Befehle umfasst, die in einem Speicher gespeichert sind, und dazu dienen: eine Textfrage eines Nutzers zu empfangen, Bilder in Reaktion auf die Textanfrage aus einer zugeordneten Bilddatenmenge abzurufen, die Auswahl des Nutzers eines ersten Merkmals, das aus einer Gruppe verfügbarer Merkmale ausgewählt ist, zu empfangen, die Auswahl des Nutzers eines zweiten Merkmals, das aus der Gruppe verfügbarer Merkmale ausgewählt ist, zu empfangen, die abgerufenen Bilder in Gruppen einzuteilen auf der Grundlage von Ebenen der ausgewählten Merkmale und zumindest einige der Gruppen aus abgerufenen Bildern auf einer zugehörigen graphischen Anwenderschnittstelle darzustellen. Ein Prozessor, der mit dem Speicher in Verbindung steht, führt die Befehle aus.
In einer weiteren Ausführungsform umfassen die Befehle Befehle zum Anzeigen einer Auswahleinrichtung zum Auswählen des ersten Merkmals aus einer ersten Gruppe aus Merkmalen und eine zweite Auswahleinheit zum Auswählen des zweiten Merkmals aus einer zweiten Gruppe aus Merkmalen.
In einer weiteren Ausführungsform enthalten die Befehle zum Darstellen Befehle zum Darstellen von Gruppen von Bildern in einer zweidimensionalen Anordnung, wobei das erste Merkmal in seinem Wert in einer ersten Dimension und das zweite Merkmal in seinem Wert in einer zweiten Dimension zunimmt, wobei jede Gruppe in der Anzeige sich in einer Kombination der ersten und zweiten Merkmalswerte von jeder anderen Gruppe unterscheidet.
In einer weiteren Ausführungsform werden für jedes Merkmal in der ersten und der zweiten Gruppe aus Merkmalen mehrere Quantisierungsebenen entsprechend den unterschiedlichen Werten des Merkmals bereitgestellt, wobei jedes der Bilder in der Datenmenge aus Bildern einer entsprechenden Quatisierungsebene für jedes der Merkmale zugeordnet ist.
In einem weiteren Aspekt umfasst ein Verfahren zum Hinzufügen von Bildern zum Dokument das Speichern eines Dokuments mit mindestens einem Platzhalter zur Aufnahme eines Bildes, das Empfangen einer Textanfrage eines Nutzers, das Abrufen von Bildern in Reaktion auf die Textanfrage aus einer Bilddatenmenge, wobei jedes der Bilder in der Datenmenge gemäß dem Inhalt klassifiziert ist und Merkmalswerten für jedes aus einer Gruppe von Merkmalen zugeordnet ist. Das Verfahren umfasst ferner das Empfangen der Auswahl des Nutzers eines ersten und eines zweiten Merkmals aus der Gruppe aus Merkmalen, das Darstellen mindestens eines der abgerufenen Bilder auf der graphischen Anwenderschnittstelle, wodurch die dargestellten Bilder gemäß dem ersten und zweiten Merkmal, die vom Nutzer ausgewählt sind, gruppiert werden, und das Bereitstellen einer Auswahlmöglichkeit für einen Nutzer für ein Bild aus der dargerstellten Gruppe aus Bildern, so dass ein Einfügen in einem der Platzhalter möglich ist.
Kurze Beschreibung der Zeichnungen
Die Patentanmeldung enthält mindestens eine Zeichnung, die in Farbe ausgeführt ist. Kopien dieser Patentschrift oder der Patentanmeldung für eine Offenlegung mit Farbzeichnungen werden durch das Amt auf Anforderung und Bezahlung der notwendigen Gebühren bereitgestellt.
1 ist eine Blockansicht einer Übersichtsdarstellung eines anschaulichen Systems und Verfahrens für die Bildnavigation;
2 ist eine funktionale Blockansicht einer Bildnavigationsvorrichtung;
3 ist ein Flussdiagramm, das ein Verfahren darstellt, um einen Nutzer bei der Bildnavigation zu unterstützen;
4 ist eine Bildschirmaufnahme einer anschaulichen graphischen Anwenderschnittstelle der Vorrichtung aus 2, wobei Bilder in Reaktion auf eine inhaltsbasierte Abfrage dargestellt wenden;
5 ist eine Bildschirmaufnahme der graphischen Anwenderschnittstelle der Vorrichtung aus 2, wobei Bilder in einem zweidimensionalen Array angezeigt werden, wobei sich die Anzeige aus einer Auswahl zweier Merkmale F1, F2 ergibt, mit denen die Bilder partizioniert werden; und
6 ist eine Bildschirmaufnahme der graphischen Anwenderschnittstelle der Vorrichtung aus 2, wobei eine Gruppe aus Bildern von einer der Partionen des Arrays aus 5 gezeigt ist, wobei diese benachbart zu einer Schablone dargestellt sind, die mit den ausgewählten Bildern zu füllen ist.
Detaillierte Beschreibung
Die anschauliche Ausführungsform betrifft ein System, eine Vorrichtung und ein Verfahren zum Navigieren und Durchsuchen einer Datenbank aus Bildern. Das System, die Vorrichtung und das Verfahren ermöglichen eine Kombination aus inhaltsbasierten Suchtechniken mit einer merkmalsbasierten Durchsuchung. Die ausgewählten Merkmale können ästhetische und/oder emotionale Merkmale sein. Beim Navigieren in einer Datenmenge aus Bildern ermöglicht das System das Erzeugen eines Suchraumes dadurch, dass einem Nutzer ermöglicht wird, eine spezielle semantische Kategorie (beispielsweise Blumen) mit einer Textanfrage auszuwählen und anschließend zumindest eine Teilmenge der Bilder in der ausgewählten Kategorie iterativ zu untersuchen, wobei unterschiedliche Kombinationen aus Merkmalen verwendet werden. In der anschaulichen Ausführungsform wird der Nutzer in die Lage versetzt, aus einer Gruppe von Merkmalen auszuwählen, die ästhetische Merkmale (Licht, Kontrast, Verschmierung, Farbe, etc.) und emotionale Merkmale (beispielsweise Einschätzung, Aktivität) beinhalten.
Es können diverse Visualisierungsstrategien (Clusterbildung bzw. Ansammlung, Mosaik, etc.) für die Nutzer bereitgestellt werden, um durch die Bilddatenbank mit unterschiedlichen Auflösungsraden zu navigieren (Cluster, Untersuchung von nächerungsweise Duplikate, etc.) und um interativ Dokumententwürfe mit geeigneten Bildern zu erzeugen.
Gemäß 1 ist ein Überblick über das anschauliche System und Verfahren gezeigt. Das System und das Verfahren beruhen auf einer Datenbank 10 aus Einträgen, etwa einer großen Ansammlung (beispielsweise Hunderte, Tausende oder Millionen) an Bildern, etwa Photographien und/oder graphischen Bildern. Eine Merkmalsextraktion 12 ermöglicht die Auswahl von Bildern aus der Datenbank 10 auf der Grundlage eines oder mehrerer inhaltsbasierter Merkmale 14, auf der Grundlage emotionaler Merkmale 16 und auf der Grundlage ästhetischer Merkmale 18. Die Suchraumerzeugung 20 nimmt eine Teilgruppe aus Bildern aus der Datenbank und unterteilt diese in einer Weise, die es ermöglicht, die Bilder auf der Grundlage von Kombinationen aus Merkmalen unter Anwendung von Verfahren/Komponenten für die Kategorisierung 22, die Clusterbildung 24 und das Abrufen 26 in Cluster anzuordnen bzw. als Ansammlung anzuordnen und darzustellen. Die Visualisierung 28 erzeugt eine Darstellung zumindest eines Teils der Bilderteilgruppe für die Betrachtung durch einen Nutzer 30.
In 2 ist eine spezielle Ausführungsform einer Vorrichtung 40 zur Unterstützung eines Nutzers bei der Navigation durch eine Datenmenge aus Bildern gezeigt, wobei diese in Form einer digitalen Verarbeitungseinrichtung, etwa als ein Computer, vorgesehen ist. Der Computer 40 umfasst einen digitalen Prozessor 42, etwa die CPU des Computers, und einen zugehörigen Speicher, der hier als Hauptspeicher 44 und Datenspeicher 46 gezeigt ist.
Der dargestellte Computer 40 umfasst eine Eingabeschnittstelle 50 und eine Ausgabeschnittstelle 52, die kombiniert oder separat vorgesehen sein können. Die Schnittstelle 50 empfängt eine Datenmenge aus elektronischen Datenobjekten 54 (Bildern), die in dem Datenspeicher 46 gespeichert sind, der als die Datenbank 10 dient. Es sollte beachtet werden, dass die Datenbank 10 entfernt zu dem Computer 10 angeordnet sein kann und über geeignete Kommunikationsverbindungen abgefragt werden kann. Alle oder ein Teil 56 der Bilder 54 in der Datenmenge 10 sind mit Inhaltsmarkierungen versehen. Die Inhaltsmarkierungen können die Beschreibung eines Nutzers des Bildinhalts und/oder einige Kommentare über das Bild mit einschließen. Beispielsweise kann ein Bild 54 mit der Beschreibung „Frühlingsblumen” und einem Kommentar, etwa „mein stimmungsvoller Garten im März” markiert sein. In Fallen, in denen das Bild von dem Text umgeben ist, können die Inhaltsmarken aus dem umgebenden Text abgeleitet werden. Es können automatische Markierungsverfahren angewendet werden, um nicht bezeichnete Bilder mit Markierungen zu versehen.
Die Bilder 54 in der Datenbank 10 können ein beliebiges geeignetes Dateienformat besitzen, etwa JPEG, TIFF, und dergleichen. Die Bilder können individuelle Bilder oder Videobilder sein. Im Allgemeinen enthält jedes digitale Bild Bilddaten für ein Array aus Pixel, die das Bild darstellen. Die Bilddaten können Farbwerte, etwa Graustufenwerte, für jede aus einer Gruppe aus Farbseparationen, etwa RGB, enthalten, oder die Bilddaten können in einem weiteren Farbraum ausgedrückt sein, in welchem unterschiedliche Farben dargestellt werden können. Im Allgemeinen betrifft der Begriff „Graustufe” den optischen Mittelwert des beliebigen einzelnen Farbkanals, wie auch immer dieser ausgedrückt ist (RGB, YCbCr, etc.).
Die Schnittstelle 50 oder eine separate Schnittstelle kann ferner so ausgebildet sein, dass ein Dokument 58, etwa eine anschauliche Schablone, mit einem Platzhalter (Raum) 60 empfangen wird, um damit ein oder mehrere Bilder aus der Datenbank aufzunehmen.
Die Schnittstelle 52 gibt ein modifiziertes Dokument 62 aus, welchem ein oder mehrere ausgewählte Bilder 54 hinzugefügt sind.
Beispielhafte Eingabe- und Ausgabe-Schnittstellen 50, 52 enthalten verdrahtete und drahtlose Netzwerkschnittstellen, etwa Modems, oder lokale Schnittstellen, etwa USB-Anschlüsse, Laufwerke und dergleichen. Die Komponenten 42, 44, 46, 50, 52 des Computers sind miteinander kommunikativ mittels eines Daten/Steuerbusses 64 verbunden.
Eine graphische Anwenderschnittstelle (GUI) 70 umfasst einen Anzeigebildschirm 72, etwa einen Farbmonitor oder einen LCD-Bildschirm und eine Nutzereingabevorrichtung, etwa eine Tastatur 74, eine Eingabefläche, einen berührungsempfindlichen Bildschirm, eine Zeigersteuerungsvorrichtung 76, Mikrophon mit zugehörigem Sprach-zu-Text-Umwandler, oder eine Kombination davon, um eine Textanfrage einzugeben. Die GUI 70 ist kommunikativ mit dem Computer 40 über eine oder mehrere verdrahtete oder drahtlose Verbindungen 78 verbunden. In der anschaulichen Ausführungsform ist die GUI 70 lokal zu dem Computer 40 angeordnet, obwohl in anderen Ausführungsformen die GUI 70 über einen Klientenrechner (nicht gezeigt) angeschlossen ist, der wiederum mit dem Computer 40 über einen Netzwerk-Browser, ein verdrahtetes oder drahtloses Netzwerk oder eine andere Kommunikationsverbindung verbunden ist.
Der digitale Prozessor 42 kann auf diverse Arten eingerichtet sein, etwa in Form eines Einzelkernprozessors, eines Doppelkernprozessors (oder allgemeiner als Mehrfachkernprozessor), als ein digitaler Prozessor, der mit einem Mathematikcoprozessor in Verbindung steht, in Form einer digitalen Steuerung, und dergleichen. Der Computer 40 kann ein oder mehrere spezielle Recheneinrichtungen oder Recheneinrichtungen für Allgemeinzwecke, etwa einen Server-Computer, einen Tischrechner oder einen tragbaren Computer, einen Handcomputer, einen tragbaren digitalen Assistenten (PDA), eine Kamera, oder eine andere Recheneinrichtung umfassen, die in der Lage ist, Befehle für das Ausführen des anschaulichen Verfahrens auszuführen.
Die Speicher 44, 46 können separat sein oder können kombiniert sein und repräsentieren eine beliebige Art an computerlesbarem Medium, etwa einen Speicher mit wahlfreiem Zugriff (RAM), einen Nur-Lese-Speicher (ROM), eine Magnetplatte oder ein Magnetband, eine optische Diskette, einen Flash-Speicher oder einen holographischen Speicher. In einer Ausführungsform umfasst der Speicher 44, 46 eine Kombination aus einem Speicher mit wahlfreiem Zugriff und einen Nur-Lese-Speicher.
Der Begriff „Software”, wie er hierin verwendet ist, soll jegliche Ansammlungen oder eine Gruppe aus Befehlen umfassen, die von einem Computer oder einem anderen digitalen System ausführbar ist, so dass der Computer oder ein anderes digitales System so konfiguriert werden, dass die Aufgabe ausgeführt wird, die durch die Software beabsichtigt ist. Der Begriff „Software”, wie er hierin verwendet ist, soll derartige Befehle umfassen, die in einem Speicher mit wahlfreiem Zugriff, etwa einem RAM, einer Festplatte, einer optischen Diskette, oder dergleichen, gespeichert sind, und der Begriff soll auch eine sogenannte „Firmware” umfassen, die eine Software ist, die in einem ROM oder desgleichen gespeichert ist. Eine derartige Software kann auf diverse Weisen organisiert sein und kann Softwarekomponenten enthalten, die als Bibliotheken, als internetbasierte Programme, die auf einem entfernten Server oder dergleichen gespeichert sind, als Quellencodierung, als übersetzende Codierung, als Objektcodierung, als direkt ausführbare Codierung usw. organisiert sind. Zu beachten ist, dass die Software eine Codierung auf Systemebene aufrufen kann oder Aufrufe zu einer anderen Software tätigen kann, die auf einem Server abgelegt ist oder an einer anderen Stelle abgelegt ist, um gewisse Funktionen auszuführen.
Der Computer 40 ist durch eine geeignete Programmierung und/oder durch eine fest verdrahtete Firmware konfiguriert, um Bildnavigationssystem 80 zu bilden. Das anschauliche Navigationssystem 80 liegt in Form von Softwarebefehlen vor, um das anschauliche Verfahren auszuführen, das in dem Speicher 44 gespeichert ist und von dem Prozessor 42 ausgeführt wird.
Das Navigationssystem 80 umfasst eine Merkmalsextraktionskomponente 12, eine Suchraumerzeugungskomponente 20 und eine Visualisierungskomponente 28, wobei jede Komponente ein oder mehrere separate Softwaremittel (wie sie in 1 gezeigt sind) enthalten kann oder wobei diese Mittel als ein einzelnes Werkzeug kombiniert sind.
Die Merkmalsextraktionskomponente 12 kann die gespeicherten Bilder 54 vor der Eingabe einer Suchanfrage durch einen Nutzer verarbeiten. In der anschaulichen Ausführungsform umfasst ein Inhaltsmerkmalsextraktor 14 (1) der Merkmalsextraktionskomponente 12 einen Klassifizierer (oder eine Gruppe aus binären Klassifizierern), die ausgebildet sind, inhaltsbasierte Marken (semantische Markierungen) unmarkierten Bildern 54 zuzuordnen. Die Ausbildung kann auf einer Übungsgruppe beruhen, die bezeichnete Bilder (etwa die markierten Bilder 56 in der Datenmenge) umfasst. Die Bezeichnungen repräsentieren eine a priori-Information über die Klassifikationen der Bilder, etwa manuell vorgesehene Klassenbezeichnungen. Für eine rein binäre Klassifikation können die Bezeichnungen beispielsweise „+1” sein, wenn das Objekt einer speziellen Klasse zugeordnet ist, und können ansonsten „–1” sein. Für eine weiche binäre Klassifizierung können die Bezeichnungen beispielsweise Werte im Bereich von [0,1] sein, die die Wahrscheinlichkeit der Mitgliedschaft in der Klasse angeben. In anderen Ausführungsformen kann die gesamte Datenmenge 10 mit Inhaltsmerkmalen markiert sein, wodurch der Bedarf für eine Klassifizierung entfällt. Inhaltsmarkierungen können zusätzlich oder alternativ aus einem Textinhalt, der dem Bild zugeordnet ist, extrahiert werden.
Der bzw. die emotionalen Merkmalsextraktoren 16 extrahierten Merkmale, die mit Emotionen aus den Bildern in Verbindung stehen und ordnet Bezeichnungen den Bildern zu, die den Merkmalswerten für jedes aus einer Gruppe aus verfügbaren Emotionsmerkmalen entsprechen.
Der bzw. die ästhetischen Merkmalsextraktoren 18 extrahieren Merkmale, die mit ästhetischen Eigenschaften aus den Bildern verknüpft sind und ordnen Bezeichnungen den Bildern entsprechend ihren Merkmalswerten für jedes aus einer Gruppe aus verfügbaren ästhetischen Merkmalen zu.
3 zeigt ein computerimplementiertes Verfahren, das mit der Vorrichtung aus 2 ausgeführt werden. Das Verfahren, dessen Details nachfolgend genauer beschrieben sind, beginnt mit S100.
Bei S102 wird eine Datenmenge 10 aus Bildern 54 eingespeist und wird in dem Computerspeicher 46 durch Verarbeitung gespeichert.
Bei S104 (Merkmalsextraktion) werden Merkmale, etwa Inhaltsmerkmale, ästhetische Merkmale und emotionale Merkmale, für jedes Bild in der Datenbank extrahiert und gespeichert, beispielsweise als zugehörige Meterdaten oder andere Markierungen.
Bei S106 wird eine Textanfrage eines Nutzers über die GUI 70 empfangen und es wird eine Teilgruppe aus Datensatzbildern in Reaktion auf die Anfrage, beispielsweise jene, die mit einer „Inhalts”-Bezeichnung entsprechend dem Abfragebegriff markiert sind, abgerufen.
Bei S108 (Suchraumerzeugung) wird auf der Grundlage der Inhaltsauswahl des Nutzers ein Suchraum erzeugt und wird dargestellt, wie dies in der Bildschirmdarstellung 84 in 4 gezeigt ist. Dabei können in dieser Phase alle abgerufenen Bilder dargestellt werden.
Bei S110 wird dafür gesorgt, dass der Nutzer 30 gewisse auswählbare ästhetische/emotionale Merkmale auswählen kann und die Auswahl des Nutzers für ästhetische und/oder emotionale Merkmale werden über die GUI 70 empfangen. Es sollte beachtet werden, dass die Auswahl von Inhaltsmerkmalen, ästhetischen und/oder emotionalen Merkmalen in einer beliebigen Reihenfolge stattfinden kann.
Bei S112 wird auf der Grundlage der Auswahl durch den Nutzer über Inhaltsmerkmale, ästhetische oder emotionale Merkmale der Suchraum unterteilt, wodurch die Bilder gruppiert werden. Die Bilder können verarbeitet und gruppiert werden unter Anwendung eines Satzes aus Software-Mitteln, etwa K-Mitteln und dergleichen, um visuell kohärente Suchräume zu erzeugen. Das Gruppieren kann ausgeführt werden unter Anwendung einer K-Mittel-Cluster-Bildung oder durch Partitionierung des Raumes gemäß den Merkmalen, die durch den Anwender ausgewählt sind, wie dies auch nachfolgend beschrieben ist.
Bei S114 (Visualisierung) wird der durch den Anwender durch die Merkmalsauswahl erzeugte Suchraum visualisiert. Es können unterschiedliche Modalitäten (beispielsweise Cluster, Mosaike oder andere Arten von Gruppen) verfügbar sein, um den Suchraum zu visualisieren. In der anschaulichen Ausführungsform wird in der Visualisierungsphase ein zweidimensionales Array aus n = 9 Bildgruppen 92, 94, 96 (eine leere Gruppe), 98, 100, 102, 104, 106 und 108 für zwei ausgewählte Merkmale erzeugt, wie dies in der Bildschirmaufnahme 86 in 5 dargestellt ist. Es sollte beachtet werden, dass die Anzahl n an Gruppen, in die die abgerufenen Bilder partitioniert und entsprechend angezeigt werden, eine beliebig geeignete Anzahl sein kann, etwa 4, 6, 8, 9, 10, 12 oder mehr. Für eine größere Anzahl an Gruppen können die Gruppen kaskadiert werden, wobei der Nutzer auf eine ausgewählte Menge an Gruppen für die Betrachtung klickt oder diese anderweitig auswählt. Jede Gruppe kann visuell von den anderen Gruppen unterschieden sein, beispielsweise durch die Platzierung der Gruppen in unterschiedlichen Bereichen des Bildschirms und/oder durch Bereitstellen visueller Grenzen 87 zwischen den Gruppen. In einer Ausführungsform werden die Gruppen einfach in einem Array als Cluster bzw. Ansammlung angeordnet, ohne dass Grenzen zwischen den Gruppen ersichtlich werden, wobei jedoch generell die Reihenfolge jeweils der Merkmalsebenen in zueinander senkrechten Richtungen beibehalten wird. Wenn mehr als zwei Merkmale ausgewählt sind, können andere Verfahren geeigneter sein, um es dem Nutzer zu ermöglichen, die Gruppen zu betrachten, etwa in Form einer hierarchischen Anzeige.
Bei S116 wählt ein Nutzer einen der Cluster aus, der ein oder mehrere interessierende Bilder aufweist, die dann auf der GUI angezeigt werden. Ein Anwender kann eine der Gruppen für eine nähere Untersuchung auswählen, beispielsweise durch Anklicken der Gruppe aus Bildern oder eines Bereichs, in welchem die Bildergruppe angeordnet ist. Daraufhin wird die Gruppe aus ausgewählten Bildern auf einem Teil des Bildschirms dargestellt. Die verbleibenden Gruppen werden aus der Anzeige entfernt.
Es kann ein gleichzeitiges Betrachten der Dokumentenschablone bzw. Dokumentenvorlage 58, beispielsweise benachbart zu der dargestellten Gruppe aus Bildern vorgesehen werden durch Auswahl durch einen Gestaltungsentwurfsknopf 142. Der Nutzer kann eines der ausgewählten Bilder in einen geeigneten Platzhalter 60 auf der Vorlage bzw. Schablone hineinziehen und dort ablegen, wie dies auf der Bildschirmdarstellung 88 in 6 gezeigt ist. Alternativ oder zusätzlich können ausgewählte Bilder zunächst in ein Lichtfeld 110 gezogen werden und werden darin dargerstellt, bis der Nutzer entscheidet, eines oder mehrere Bilder in das Lichtfeld auf der Vorlage bzw. Schablone 58 zu ziehen und dort abzulegen. Das Lichtfeld 110 kann ebenfalls zuvor ausgewählte Bilder enthalten, die während früherer Phasen gespeichert wurden.
Durch die Auswahl des Nutzers kann das Verfahren zum Schritt S100 zurückkehren, in welchem der Nutzer unterschiedliche Kombinationen an ästhetischen/emotionalen Merkmalen auswählen kann, oder er kann zum Schritt 106 zurückkehren, in welchem eine neue Inhaltssuche eingegeben wird.
Bei S118 kann der Nutzer ggf. wünschen, Bilder anzuschauen, die ähnlich sind zu einem oder mehreren jener dargestellten Bilder in der ausgewählten Gruppe. In einer Ausführungsform ist der Anwender in der Lage, eine Anzahl k an nächsten Nachbarn auszuwählen, die aus der Datenbank abgerufen werden, oder er kann anfordern, dass näherungsweise Duplikate ermittelt werden. Diese Nachbar-Duplikate werden aus der Datenbank auf der Grundlage von Kriterien ausgewählt, die unterschiedlich sind zu jenen in der dargestellten Gruppe. Auf diese Weise können Bilder, die nicht mit der gleichen inhaltsbasierten Markierung versehen sind, abgerufen und dargestellt werden. Beispielsweise können die nächsten Nachbarn auf der Grundlage der Ähnlichkeit ihrer Farbhistogramme abgerufen werden. Es können folglich Bilder mit ähnlichen Farben dargestellt werden, selbst wenn ihr Inhalt ganz unterschiedlich ist. Nahezu gleiche Bilder bzw. Duplikate können auf der Grundlage der Gleichheit von Merkmalen auf niedriger oder hoher Ebene im Vergleich zu jenen von einen oder allen Bilder in der Gruppe ermittelt werden.
Es gibt diverse Verfahren zum Erkennen der K-nächsten Nachbarn (KNN). Beispielsweise können Farbhistogramme verwendet werden. Beispielsweise wird der Bereich von jeweils rot, grün und blau in 16 Unterstufen quantisiert. Das Histogramm des Bildes wird in diesem quantisierten Raum ermittelt. Die K-nächsten Nachbarn werden auf der Grundlage von Ähnlichkeiten ihrer Histogramme ermittelt. Verfahren zum Erkennen der nächsten Nachbarn sind beispielsweise in Matthieu Guillaumin, Thomas Mensik, Jakob Verbeek und Cordelia Schmid, TagProp: diskriminatives Erlernen von Maßen in Modellen mit nächsten Nachbarn für die Bildautoerkennung, ICCV 2009.
Bei S120 wird, wenn der Nutzer mit der Dokumentenvorlage zufrieden ist, die gefüllte Vorlage bzw. Schablone 62 ausgegeben, d. h. beispielsweise zu einem Drucker, zu einer Anzeige 72 oder zu einem anderen Ausgabegerät, oder die Dokumentenvorlage wird im Speicher für eine spätere Abfrage gespeichert. Im Falle, dass ein Nutzer einfach ein Bild oder eine Bildergruppe auswählt, können das bzw. die Bilder mit einer speziellen Markierung für ein späteres Abrufen markiert werden, oder die Bilder können aus dem System herausgenommen werden.
Das Verfahren endet bei S122.
Das anschauliche Verfahren kann auf einem oder mehreren Computer für Allgemeinzwecke, auf speziellen Computern bzw. einem speziellen Computer, einem programmierten Mikroprozessor oder einer Mikrosteuerung oder peripheren integrierten Schaltungselementen, einem ASIC oder einer anderen integrierten Schaltung, einem digitalen Signalprozessor, einer fest verdrahteten Elektronik oder einer logischen Schaltung, etwa einer Schaltung mit diskreten Elementen, einem programmierbaren Logikbauelement, etwa einem PLD, einem PLA, einem FPGA, einer graphischen Karte CPU (GPU) oder einem PAL oder dergleichen eingerichtet werden. Im Allgemeinen kann ein beliebiges Gerät, das in der Lage ist, einen finiten Zustandsautomaten bzw. eine finite Zustandsmaschine einzurichten, die wiederum in der Lage ist, das in 3 gezeigte Flussdiagramm einzurichten, verwendet werden, um das Verfahren einzurichten, so dass ein Nutzer beim Navigieren bzw. Bearbeiten eines Bilddatensatzes unterstützt wird.
Das in 3 gezeigte Verfahren kann in einem materiellen Computerprogrammprodukt oder Produkten eingerichtet werden, das auf einem Computer ausführbar ist. Das Computerprogrammprodukt kann ein materielles computerlesbares Speichermedium sein, auf welchem ein Steuerprogramm aufgezeichnet ist, etwa eine Diskette, eine Festplatte oder dergleichen, die ausgebildet sind, das Verfahren auszuführen. Übliche Formen von computerlesbaren Medien enthalten beispielsweise Disketten, flexible Disketten, Festplatten, Magnetbänder oder andere magnetische Speichermedien, CD-ROM, DVD oder andere optische Medien, ein RAM, einen PROM, einen EPROM, einen FLASH-EPROM oder andere Speicherchips oder Speicherkarten, oder ein anderes materielles Medium, aus welchem ein Computer auslesen und Daten verwenden kann. Das Computerprogrammprodukt kann in dem Computer 40 integriert sein (beispielsweise eine interne Festplatte oder ein RAM), oder kann separat dazu vorgesehen sein (beispielsweise als eine externe Festplatte, die funktional mit dem Computer 40 verbunden ist), oder das Produkt kann separat sein und kann über ein digitales Datennetzwerk angesprochen werden, etwa ein Nahbereichsnetzwerk (LAN) oder das Internet (beispielsweise als ein redundantes Array aus preisgünstigen oder unabhängigen Disketten (RAID) oder einem anderen Netzwerkserverspeicher, der indirekt von dem Computer 40 über ein digitales Netzwerk angesprochen werden kann). Alternativ kann das Verfahren in einer übertragbaren Trägerwelle implementiert sein, in der das Steuerprogramm als ein Datensignal unter Anwendung von Übertragungsmedien eingebettet ist, etwa als akustische Wellen oder Lichtwellen, etwa jene, wie sie während der Nutzung von Funkwellenkommunikationen oder Infrarotdatenkommunikationsereignissen und dergleichen erzeugt werden.
Diverse Aspekte des Verfahrens und der Vorrichtung werden nunmehr detaillierter beschrieben.
Wie zuvor beschrieben ist, ermöglichen das anschauliche System 18, das Verfahren und die graphische Anwenderschnittstelle 70 das Navigieren und Durchsuchen einer Datenbank 10 aus kreativen Bestandteilen 54. Ein Vorteil des Systems 80 gegenüber bestehenden Systemen besteht darin, dass es eine Kombination aus bestehenden inhaltsbasierten Suchtechniken mit ästhetischen/emotionalen Merkmalen ermöglicht. Anwender bzw. Nutzer können Suchräume erzeugen, indem eine spezielle semantische Kategorie (beispielsweise Blumen) ausgewählt wird und indem Bilder in der Kategorie interativ unter Anwendung unterschiedlicher Kombinationen ästhetischer und/oder emotionaler Merkmale (beispielsweise Licht, Kontrast, Verschmieren, Farbe, Bewertung, Aktivität) untersucht werden.
In der anschaulichen Ausführungsform des Systems 80 werden die Merkmale im Voraus berechnet (d. h. vor dem Absenden einer Anfrage durch den Nutzer). Als Beispiel seien die folgenden Merkmale verwendet.
1. Inhaltsbasierte Merkmale
In der anschaulichen Ausführungsform ist der Nutzer in der Lage, zunächst eine Suche auf der Grundlage eines semantischen Inhalts auszuführen und nachfolgend die abgerufenen Bilder mittels unterschiedlicher Merkmale, etwa ästhetischer Eigenschaften oder Emotionen der Bilder zu durchsuchen. Die Klassenbezeichnungen für die inhaltsbasierten Merkmale können gemeinsame visuelle Objektkategorien, etwa Blumen, Landschaften, Meereslandschaften, Himmel, Fahrzeuge, Leute, Gebäude, Tiere, etc. und/oder spezielle Themen, etwa Party, Hochzeit, Sportereignisse (Sommer, Winter und dergleichen) enthalten. In einer Ausführungsform können die Klassen speziell so zugeschnitten werden, dass diese speziellen interessierenden Gebiete des graphischen Gestalters entsprechen. Die Anzahl der inhaltsbasierten Klassen ist nicht beschränkt, beträgt jedoch mindestens zwei und kann beispielsweise ungefähr 5 bis 50 oder mehr betragen.
Allgemein können Kategorisierungstechniken auf der Grundlage eines Bildinhalts auch eine Gruppe aus Operationen mit einschließen, die Bildeingabewerte in üblicherweise verständliche Beschreibungen umwandeln. Automatisierte Techniken wurden entwickelt, die Schlüsselwörter einem Bild auf der Grundlage seines Inhalts auf höherer Ebene zuordnen. Diese Techniken können die gesamte Darstellung oder einen Schwerpunkt von Objekten innerhalb des Bildes analysieren. Die Schlüsselwortzuordnung kann mit einem Konfidenzwert verknüpft sein. Das Bild wird dann mit Schlüsselwerten bezeichnet, für die der Konfidenzwert einen Schwellwertkonfidenzwert überschreitet.
Als ein Beispiel für das Markieren von Bildern, die für eine textbasierte Suche geeignet sind, können Bilddarstellungen, etwa Fisher-Darstellungen, mittels eines generischen visuellen Klassifizierers (GVC) verwendet werden, der automatisch die Bilder mit vordefinierten und vortrainierten Kategorien bezeichnet.
In dieser Vorgehensweise werden für jeden Bereich einer Gruppe aus Bereichen des Bildes Bilddeskriptoren auf unterer Ebene extrahiert, beispielsweise als ein Merkmalsvektor. Für jeden Bereich wird eine Darstellung (beispielsweise ein Fisher-Vektor) auf der Grundlage der extrahierten Bilddeskriptoren auf unterer Ebene, beispielsweise durch Verkettung, erzeugt. Es wird eine Darstellung des Bildes auf höherer Ebene extrahiert auf Grundlage der Bereichsdarstellungen oder der Bilddeskriptoren unterer Ebene. In der beispielhaften Ausführungsform ist die Darstellung auf höherer Ebene ein Vektor (beispielsweise ein Fisher-Vektor).
In einer Ausführungsform wird ein visuelles Vokabular für jede Merkmalsart unter Anwendung Gaussischer Mischmodelle aufgebaut. Die Modellierung des visuellen Vokabulars in den Merkmalsraum mit einem GMM kann gemäß dem Verfahren ausgeführt werden, das in F. Perronnin, C. Dance, G. Csurka und M. Bressan, beschrieben ist, „angepasste Vokabularien für generische visuelle Kategorisierung", ECCV (2006). Während einige Vorgehensweisen ein einzelnes visuelles Vokabular, das allgemein auf der gesamten Übungsmenge aufgebaut ist, verwenden, wird in anderen Ausführungsformen das Leistungsvermögen verbessert, indem das visuelle Vokabular (universell), das auf die gesamte Übungsmenge trainiert wurde, auf jede Kategorie unter Anwendung kategoriespezifischer Bilder angepasst wird. Ein Bild ist dann durch eine Gruppe aus zweiteiligen Histogrammen, d. h. eine pro Kategorie, charakterisiert, wobei jedes Histogramm beschreibt, ob der Bildinhalt durch das universelle Vokabular am besten moduliert wird, oder durch das entsprechende Kategorienvokabular. Ein derartiges Verfahren ist in der US-Offenlegungsschrift 20070005356 beschrieben.
Es bestehen diverse Verfahren zum Erzeugen einer Darstellung auf höherer Ebene eines Bildes, die hierin verwendet werden können, wie dies beispielsweise in der US-Offenlegungsschrift 2007/0005356 ; 2007/0258648 ; 2008/0069456 ; und G. Csurka, C. Dance, L. Fan, J. Willamowski und C. Bray in „Visuelle Kategorisierung mit Taschen und Schlüsselpunkten", ECCV-Workshop für statistisches Lernen in der Computerdarstellung (2004); und F. Perronnin und C. Dance „Fisher-Kernel auf visuellen Vokabularien für die Bildkategorisierung in Proc, IEEE-Konferenz für Computerdarstellung und Mustererkennung (CVPR), Minneapolis, MN, USA (Juni 2007) beschrieben ist. Diese letzte Referenz und die US-Offenlegungsschrift 2007/0258648 beschreiben eine Fisher-Kernel-(FK)Darstellung auf der Grundlage von Fischer-Vektoren.
Fisher-Vektoren und Fischer-Kernel-Darstellungen sind Beispiele von Arten für Darstellungen auf höherer Ebene, die hierin verwendet werden können. In einer weiteren Ausführungsform wird eine „Ansammlung aus visuellen Wörtern” (BOV) Darstellung verwendet, wie dies in der zuvor genannten US-Offenlegungsschrift 2008/0069456 und in der Schrift 2007/0005356 beschrieben ist. In der Vorgehensweise auf der Grundlage von BOV wird das Bild zunächst mittels eines Histogramms aus visuellen Wortanzahlen charakterisiert. Das visuelle Vokabular wird automatisch aus einer Übungsmenge an Bildern erzeugt.
Die Bilddeskriptoren auf niedriger Ebene, die aus den Bereichen in all diesen Modellen extrahiert werden, sind typischerweise quantitative Werte, die Aspekte des entsprechenden Bereichs zusammenfassen oder charakterisieren, etwa ein räumlicher Frequenzinhalt, eine mittlere Intensität, Farbeigenschaften (im Falle von Farbbildern), Gradientenwerte und/oder andere charakteristische Werte. Die Bilddeskriptoren auf niedriger Ebene werden lokal aus interessierenden Gebieten (ROI) herausgelöst. Das ROI kann ermittelt werden durch Bildsegmentierung, durch Anwenden spezifischer interessierende Punktdetektoren, durch Betrachten eines regulären Gitters oder einfach durch zufällige Auswahl von Bildbereichen. In einigen Ausführungsformen werden mindestens ungefähr 50 Bilddeskriptoren auf niedriger Ebene aus jedem Bereich bzw. Bildfleck herausgelöst; jedoch ist die Anzahl der Bilddeskriptoren, die herauslösbar ist, nicht auf eine spezielle Anzahl oder eine spezielle Art von Bilddeskriptoren beschränkt, beispielsweise können Tausend oder eine Million Bilddeskriptoren niedriger Ebene abhängig von den Rechnerressourcen herausgelöst werden. In der anschaulichen Ausführungsform umfassen die Bilddeskriptoren niedriger Ebene lokale (beispielsweise Pixel) Farbstatistiken und/oder die Textur. Für Farbstatistiken können lokale RGB-Statistikwerte (beispielsweise Mittelwert und Standardwertabweichung) berechnet werden. Für die Textur können Gradientenorientierungen (die eine Änderung in der Farbe repräsentieren) für jeden Bereich als ein Histogramm (SIFT-artige Merkmale) berechnet werden. In der anschaulichen Ausführungsform werden zwei (oder mehr) Arten an Bilddeskriptoren niedriger Ebene, etwa Farbe und Textur, separat herausgelöst und die Darstellung auf höherer Ebene beruht auf einer Kombination zweier Fischer-Vektoren, wobei einer für jede Merkmalsart vorgesehen ist. In anderen Ausführungsformen werden skalare invariante Merkmalstransformastions-(SIFT)Deskriptoren für jeden Bereich berechnet (wie dies durch Lowe in „Objekterkennung aus lokalen skaleninvarianten Merkmalen", ICCV (internationale Konferenz für Computerdarstellungen), 1999 beschrieben ist. SIFT-Deskriptoren sind Mehrfachbilddarstellungen einer Bildnachbarschaft, etwa Gauss-Ableitungen, die beispielsweise an acht Orientierungsebenen über ein 4 × 4 Gitter aus räumlichen Positionen berechnet sind, woraus sich ein 128-dimensionaler Vektor ergibt (d. h., 128-Bilddeskriptoren pro Merkmalsvektor in diesen Ausführungsformen). Andere Deskriptoren oder Merkmalsextraktionsalgorithmen können ebenfalls eingesetzt werden, um Bilddeskriptoren niedriger Ebene aus den Bildbereichen herauszulösen. Beispiele derartiger anderer geeigneter Bilddeskriptoren sind dargestellt in K. Mikolajczyk und C. Schmid „Leistungsbewertung lokaler Deskriptoren" Proceedings der Konferenz für Computerdarstellung und Mustererkennung (CVPR), Madison Wisconsin, USA, Juni 2003, wobei diese Schrift vollständig durch Bezugnahme mit eingeschlossen ist.
Ein Klassifizierer (der eine Gruppe aus beliebigen Klassifizierern umfassen kann) wird auf den Bilddarstellungen, beispielsweise Fischer-Vektoren und den Bezeichnungen bzw. Markierungen der Übungsbilder 56 eingeübt. In einer Ausführungsform wird ein maschinenlernendes Klassifizierungsverfahren angewendet, etwa ein unterstützender Vektormaschinenklassifizierer(SVM)-Support Vektor-Maschine. In anderen Ausführungsformen ist der eingeübte Klassifizierer ein beliebiger unterschiedlicher Klassifizierer (d. h. ein Klassifizierer, der Klassengrenzen modelliert) etwa Fischer-Kernel (FK) oder neurale Netzwerke. Der eingeübte Klassifizierer wird dann verwendet, den noch nicht bezeichneten Bildern Bezeichnungen bzw. Markierungen zuzuordnen, die die Wahrscheinlichkeit eines Bildes darstellen, dass dieses in einer Klasse ist. Oder der Klassifizierer ordnet eine binäre Ja/Nein-Markierung zu, die durch die Schwellwertbildung des Wahrscheinlichkeitswertes erzeugt wird.
Die inhaltsbasierte Markierung von Bildern ist nicht auf diese Verfahren beschränkt. Andere Verfahren für inhaltsbasierte Markierungen sind beschrieben, beispielsweise in Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek und Coderila Schmid, TagProp: Unterscheidungsmetrikerlernung in nächsten Nachbarmodellen für die Bildautokennzeichnung, ICCV 2009; Ondrej Chum, Michal Perdoch und Jiri Matas, geometrische Minimum-Zellen bzw. Hashing: Finden einer dicken Nadel in einem Heuhaufen, CVPR 2009; Herve Jegou und Matthijs Douze und Cordelia Schmid, Hamming-Einbettung und schwache geometrische Konsistenz für Bildsuche auf großem Maßstab, ECCV 2008; und Jorma Laaksonen, Markus Koskela und Erkki Oja, PicSOM selbsorganisierende Bildermittlung mit MPEG-7 Inhaltsbeschreibungen, IEEE-Transaktionen auf neuralen Netzwerken, Band 13, Nr. 4, 2002.
Obwohl in der beispielhaften Ausführungsform die inhaltsbasierte Markierung angewendet wird, bevor der Nutzer eine Anfrage eingibt, ist es auch möglich, dass der Nutzer eine Gruppe aus Bildern auswählt, beispielsweise aus einer interaktiv verfügbaren Datenbank, um die Datenmenge nach dem Eingeben der Textanfrage zu erstellen. In diesem Falle kann die inhaltsbasierte Markierung von Bildern gemäß einer Kategorie ausgeführt werden, nachdem die Textanfrage eingespeist ist.
2. Emotionale und ästhetische Merkmale
Für jedes der anderen Merkmale kann die Datenmenge 10 aus Bildern quantisiert werden, d. h. einer Gruppe aus Partitionen zugeordnet werden, wobei die Partitionen den Wertebereich für dieses Merkmal abdecken. Die Partitionen für ein gegebenes Merkmal enthalten jeweils eine gleiche Anzahl an Bildern oder der Merkmalsraum kann anderweitig gemäß den Merkmalswerten unterteilt werden. Beispielsweise werden für ein Farbmerkmal „rot” alle Bilder in der Sammlung mit einem Wert für die Rotton versehen auf der Grundlage von beispielsweise dem gemittelten Pixelrotfarbton (in einem RGB-Farbraum). Die Bilder mit dem höchsten Rottonwert werden einer ersten Ebene zugeordnet, die nächste Gruppe einer zweiten Ebene usw., wobei dies von der Anzahl der Quantisierungsebenen abhängt, in die die Bilder unterteilt sind. Die Anzahl der Quantisierungsebene kann von einem Merkmal zu einem anderen variieren oder kann für alle Merkmale gleich sein. Die Quantisierungsebenen von ungefähr 2 bis 10 pro Merkmal, beispielsweise mindestens 3, können effizient angewendet werden, wobei dies von der Anzahl der Bilder in der Datenmenge und der Anzahl der auswählbaren Merkmale abhängt. Beispielsweise kann ein zweidimensionales Feld mit drei Quantisierungsebenen in jeder Dimension erzeugt werden, wodurch das Erzeugen eines 3 × 3-Feldes (9 Gruppen) möglich ist, wenn zwei Merkmale ausgewählt sind.
In der anschaulichen Ausführungsform werden emotionale und ästhetische Merkmale direkt auf Bilddaten bestimmt, ohne dass es notwendig ist, emotionale oder ästhetische Konzeptklassifizierer einzuüben. Die Konzepte können äußerst subjektiv und schwer zu lernen sein. Das Fällen einer starken Entscheidung bei der Markierung eines Bildes mit derartigen Konzepten besitzt Grenzen. Daher werden anstelle des Markierens in der beispielhaften Ausführungsform die emotionalen oder ästhetischen Konzepte als Merkmale auf höherer Ebene betrachtet (d. h. diese beruhen auf Merkmale niedriger Ebene, die aus den Bildern selbst herausgelöst wurden). Es werden Werte den Bildern auf der Grundlage dieser Merkmale höherer Ebene zugeordnet, die quantisiert werden können.
Das anschauliche Verfahren bietet die Flexibilität, mittels unterschiedlicher Aktionen dieser Merkmale zu durchsuchen, ohne dass die Notwendigkeit für eine hohe Genauigkeit bei der ästhetischen oder emotionalen Kategorisierung besteht oder dass die Notwendigkeit besteht, unterschiedliche Aspekte in einem einzelnen Bildwert zu kombinieren.
2a. Ästhetische Merkmale
Beispiele ästhetischer Merkmale, die verwendet werden können, beinhalten die Helligkeit, den Kontrast, die Verschmierung, die Farbtönung, die Bildabmessungen und dergleichen. Eine Gruppe aus Merkmalen wird zunächst über die Merkmalsart ausgewählt. Beispielsweise können für die gesamte Merkmalsart „Farbe” ausgewählte Merkmale rot, blau, grün, etc. enthalten. Es gibt diverse Verfahren zum Quantisieren von Merkmalswerten von Bildern, die zunächst auf einer Analyse aus Pixelfarbwerten beruhen können. Siehe beispielsweise die US-Offenlegungsschrift 2006/0164664 mit dem Titel „Farbquantisierung und Verfahren dazu und Durchsuchungsverfahren unter Anwendung dieser Verfahren”, von Lee, et. al, wobei diese Offenbarung hierin in ihrer Gesamtheit mit aufgenommen ist.
Techniken zum Bestimmen ästhetischer Merkmale sind beispielsweise in den US-Patenten 5,357,352 , 5,363,209 , 5,371,615 , 5,414,538 , 5,40,217 ; 5,450,502 , 5,802,214 , 5,347,374 und 7,031,534 beschrieben und diese können generierende Statistikwerte, etwa Maßzahlen für das Rauschen oder die Luminanz und die Farbintensitätsverteilungen in Bezug auf eine Version mit geringer Auflösung des Bildes enthalten. Das US-Patent 5,414,538 offenbart beispielsweise das Empfangen des eingespeisten Bildes, das im Hinblick auf rot-grün-blau (RGB) Signale definiert ist, das Konvertieren der RGB-Signale in entsprechende Luminanz-Farbintensitätsignale mit mindestens einem Signal, das die gesamte Bildintensität repräsentiert, und das Vergleichen des Intensitätssignals mit einem oberen und unteren Intensitätsschwellwertsignal, die die akzeptablen Niveaus an Helligkeit und Dunkelheit in dem Bild festlegen.
Die Helligkeit bezeichnet die Luminanz eines Bildes. Die Helligkeit ist der Durchschnitt der Helligkeitswerte in einem Pixel. Jeder Helligkeitswert kann berechnet werden, indem der Grauwert aus dem RGB eines Pixels berechnet wird, oder indem der RGB-Wert eines Pixels in einem Luminanzfarbraum, etwa HSV, umgewandelt wird, wobei der V-Wert die Helligkeit ist.
Der Kontrast bezeichnet die effiziente Verwendung des dynamischen Bereichs. (siehe beispielsweise das US-Patent 5,363,209 von Eschbach et al. für eine Diskussion von Verfahren zum Bestimmen des lokalen Kontrastes aus Luminanzfarbintensitätswerten, die in eine Anzahl L aus Quantisierungsebenen quantisiert werden). Der Kontrast kann bestimmt werden, indem ein kombiniertes Histogramm des roten, grünen und blauen Kanals des Bildes berechnet wird, indem die einzelnen Histogramme aufsummiert werden. Der Kontrast ist als die Breite der mittleren 98% des Inhalts des Histogramms zu verstehen. Siehe beispielsweise Van Ke, Xiaoou Tang und Feng Jing. Die Gestaltung von Merkmalen höherer Ebene für Photoqualitätsbewertungen, CVPR06 (Ke, et al.).
Die Sättigung bezeichnet die Klarheit farbiger Objekte in einem Bild. Eine Farbe mit mehr grau wird als geringer gesättigt erachtet, während eine helle Farbe, als eine mit wenig grau, als stark gesättigt erachtet wird. Die Sättigung einer Farbe kann die emotionale Reaktion auf einem Bild beeinflussen. Das System kann Farbsättigungswerte im HSV-Raum erkennen, wie dies beispielsweise in dem US-Patent 5,450,217 beschrieben ist, und kann einen quantisierten mittleren Sättigungswert für jedes Bild bereitstellen.
Die Bildverschmierung ist eine Form einer Bandbreitenverringerung, die typischerweise durch die relative Bewegung zwischen der Kamera und dem Original-Schauplatz hervorgerufen wird oder durch ein optisches System, das nicht fokusiert ist. Dieser Wert kann berechnet werden, indem ein Bild mittels eines Gauss-Filters geglättet wird, um das verschmierte Bild zu erhalten. Die Verschmierung ist proportional zur maximalen Frequenz eines Bildes, die ermittelt wird, indem die zweidimensionale Fourier-Transformation des verschmierten Bildes mit Schwellwerten ausgewertet wird. Siehe beispielsweise Ke, et al.
Der Farbton bezeichnet die erste Eigenschaft einer Farbe, die das Auge erkennt. Diese ist als der H-Wert in der HSF-Farbraumrepräsentation eines Pixels nach dem Umwandeln des RGB-Wertes eines Pixels in den HSV zu betrachten.
Die Bildabmessung bezeichnet die Anzahl an Pixeln in einem Bild. Diese ist zu berechnen, indem die Breite in Pixel mit der Höhe im Pixel eines Bildes multipliziert wird.
Andere Verfahren zum Zuordnen ästhetischer Werte zu Bildern können auf Klassifizierererlernungstechniken beruhen, beispielsweise durch Einüben eines Klassifizierers auf Bildern, die von Menschen als attraktiv oder nicht-attraktiv eingestuft wurden, so dass dies als ästhetische Werte für Bilder verwendet werden kann. Siehe beispielsweise Elena Fedorovskaya, Carman Neustaedter und Wei Hao, Bildharmonie für Verbraucherbilder, ICEP 2008; B. C. Davis und S. Lazebnik, Analyse menschlicher Attraktivität und Anwendung einer Kernel-Regressionsmanigfaltigkeit, ICIP 2008; Ritendra Datta, Dhiraj Joshi, Jia Li und James Z. Wang, Studieren der Ästhetik in Photographiebilder unter Anwendung eines Computeransatzes, ECCV 2006. Im Allgemeinen sind jedoch derartige Verfahren nicht notwendig, da relativ einfache statistisch basierte Merkmale zum Erzeugen eines gut nutzbaren Merkmalsrahmens adäquat sind.
Belichtung bezeichnet den Anteil an Licht, der auf den Kamerasensor einfällt, wenn das Photo aufgenommen wird. Dieser Wert ist gleich der Helligkeit.
Andere Merkmale, etwa Bilddynamik, Perspektive und Zusammensetzung werden ebenfalls hierin mit eingeschlossen.
2b. Emotionsmerkmale
Beispiele von Emotionsmerkmalen sind die Bewertung und die Aktivität (siehe beispielsweise Omnia Report L4.2, Kiryl Bletsko, Amel Ezzaich, Emmanuel Dellandrea, Alexandre Saidi, Liming Chen, Klassifizierung von Multimediadokumenten, Livable Omnia 4.2, beispielsweise Anhänge beginnend auf Seite 21).
In einer Ausführungsform wird die Abhängigkeit zwischen Farbe und Emotion ausgenutzt, wobei es möglich ist, Bilder gemäß diversen Emotionsmerkmalen zu quantisieren auf der Grundlage ihrer vorherrschenden Farben (siehe beispielsweise L. C. Ou, M. R. Luo, A. Woodcock und A. Wright, eine Studie der Farbemotion und Farbpreferenz, in Color-Forschung und Anwendung, 29 (2004) Seiten 232–240; M. Solli und R. Lenz, emotionale Befriedigung in der Farbbilderzeugung, in Proc. schwedisches Symposium für Bildanalyse 2008; und M. Solli und R. Lenz, Farbemotionen für Bildklassifizierung und Abrufung in CGIV 2008).
In einer weiteren Ausführungsform werden Gesichtsausdrücke von Personen der Bilder erkannt und gemäß diversen Emotionsmerkmalen quantisiert, etwa als glücklich/unglücklich, ärgerlich/ruhig, etc. (siehe beispielsweise B. Fasel, J. Luettin, automatische Gesichtsausdrucksanalyse: ein Überblick, Mustererkennung, Volumen 36, Seiten 259–275, 2003; M. Pantic, L. J. M Rothkrantz, Expertensystem für automatisierte Analyse von Gesichtsausdrücken, ELSEVIER-Bild- und Visionsberechnung, Vol. 18, Seiten 881–905, 2000).
In einer weiteren Ausführungsform (beispielsweise unter Anwendung des Tellegen-Watson-Clark-Modells) wird ein separates Klassifizierermodell für jedes für mehreren von Emotionsmerkmalen eingeübt, wobei jedes Merkmal ein Paar aus entgegengesetzten Emotionen darstellt (angenehm/unangenehm, beteiligt/unbeteiligt, etc.), wobei Markierungen der bezeichneten Datenmengen und Deskriptoren, die aus den Bildern herausgelöst wurden, verwendet werden. Die eingeübten Klassifizierer können eine Maßzahl für jedes Bild für jedes Merkmal ausgeben, die dann verwendet wird, die Bilder einzustufen, beispielsweise Zuordnen von quanitisierten Werten oder einer Hierarchie zu den Bildern in der Datenmenge für jedes der Merkmale.
In anderen Verfahren können klassische Merkmale niedriger Ebene (Farbe, Gabor-Merkmale, SIFT-Merkmale) verwendet werden, um Emotionen aus manuell bewerteten Daten vorherzusagen.
Visualisierung
Auf Grundlage der zugeordneten Inhaltsmerkmale, ästhetischen Merkmale und emotionalen Merkmale kann der Anwender Räume erzeugen, indem einzelne Merkmale oder Kombinationen aus Merkmalen ausgewählt werden. Die Anzahl an Gruppen von angezeigten Bildern hängt von den Quantisierungsebenen für jedes ausgewählte Merkmal und der Anzahl an ausgewählten Merkmalen ab.
Ein typischer Suchablauf kann beinhalten:

1. Das Erzeugen eines Suchraumes unter Anwendung eines oder mehrerer Merkmale (beispielsweise Inhalt, Inhalt + ästhetische Merkmale, etc.) (S108)
2. Grobe Reorganisierung des Suchraumes auf der Grundlage anderer Merkmale, um eine bessere visuelle Kohärenz zu erreichen. (S112)
3. Gezielte Durchsuchung des Suchraumes durch nahezu gleiche Bilder bzw. Duplikate oder durch die Visualisierung nächster Nachbarn (S118).

Um den Durchsuchungsprozess zu ermöglichen, gestattet das anschauliche System 80 eine Verfeinerung der Merkmalskombination des Suchraumes (beispielsweise der Ergebnisse einer Textsuchanfrage) in unterschiedlichen Kombinationen und unterschiedlichen Anzahlen. Wenn beispielsweise ein Anwender nach einem Bild mit blauem Himmel sucht, das in dem Betrachter ein positives Gefühl hervorruft, würde das Auswählen der Textanfrage „Himmel” zusammen mit den beiden Merkmalen „blau” und „Anerkennung” Bilder mit Himmel abrufen und diese in einer visuell kohärenten Weise anzeigen. Des weiteren ermöglicht die anschauliche Anwenderschnittstelle nicht nur eine Navigation durch kreative Inhalte, sondern unterstützt auch die Erzeugung eines visuellen Inhaltes, indem eine „kombinierte” Visualisierung des aktuellen Entwurfsdokuments (das eventuell Bildplatzhalter enthält) mit alternativ ausgewählten Bildern.
Ohne den Schutzbereich der anschaulichen Ausführungsform einschränken zu wollen, wird in dem folgenden Beispiel eine Verwendung des Systems 80 zum Erzeugen eines Dokuments beschrieben.
Beispiel
Mit Bezug zu 4 werden die Bilder in der Datenmenge 10 in einer kompakten Visualisierung hergestellt, wobei bis zu 350 kleine Bildchen (die in der Pixelauflösung reduziert und/oder als zugeschnittene Bilder vorhanden sind, die aus den gespeicherten Bilder in der Datenbank erzeugt werden) auf der gleichen Seite dargestellt werden können. Der Nutzer kann zunächst eine Textanfrage eingeben, indem ein Schlüsselwort in das Suchfeld 120 eingegeben wird oder indem eines aus dem Menü ausgewählt wird, etwa einem Auswahlmenü, das auf der GUI dargestellt ist. Es wird dann ein Inhaltssuchraum erzeugt. Wie beispielsweise in 4 gezeigt ist, kann der Nutzer eine Suchanfrage (beispielsweise „Blumen” in das Texteingabefeld 120 eingeben und kann auswählen, wie viele Bilder abzurufen sind (beispielsweise 150 Bilder), wobei eine Auswahleinrichtung bzw. ein Selektor 122 verwendet wird. Wenn die Klassifizierer probabilistisch sind, ruft das System 80 die 150 Bilder mit den höchsten zugeordneten Wahrscheinlichkeiten ab, dass diese Bilder von Blumen sind, und diese werden auf GUI-Anzeige 72 dargestellt. Beispielsweise zeigt 4 einen Teil der Untermenge der Bilder, die mittels der Textabfrage „Blume” erhalten werden.
Der Nutzer kann einen Rollbalken 124 zum Herunterrollen der gesamten Menge an abgerufenen Bildern verwenden, beispielsweise wenn die Anzahl der abgerufenen Bilder größer ist als die Anzahl der tatsächlich gleichzeitig anzeigbaren Bilder auf der Anzeige.
Um die Anfrage zu verfeinern, kann der Nutzer unter den ästhetischen und emotionalen Merkmalen auswählen, indem ein oder mehrere aus mehreren Merkmalsselektoren 126, 128, 130 betätigt werden. Der Nutzer kann dann entscheiden, beispielsweise Bilder zu gruppieren, indem ein rotes Farbmerkmal verwendet wird, und das rote Farbmerkmal kann ausgewählt werden unter Anwendung des Selektors für das Farbmerkmal 126. Bildergruppen, die in einer Dimension durch das rote Farbmerkmal in absteigender Reihenfolge von stärkeren Rot bis weniger roten Bildern sortiert sind, während gleichzeitig auf der GUI angezeigt, beispielsweise von links nach rechts und/oder von oben nach unten. In der anschaulichen Ausführungsform werden sechs Gruppen gleichzeitig in einem Array dargestellt.
Der Nutzer kann dann entscheiden, ein zweites Merkmal hinzuzufügen, etwa ein weiteres ästhetisches Merkmal, und er wählt beispielsweise ein Helligkeitsmerkmal unter Anwendung des Selektos für ästhetische Merkmale 128 aus. Es werden Gruppen aus Bildern in zwei Dimensionen sortiert: horizontal durch das ästhetische Helligkeitsmerkmal F1 und vertikal durch das rote Farbmerkmal F2, und die Bilder werden gleichzeitig auf der GUI-Anzeige 72 dargestellt, wie dies auf der Bildschirmdarstellung 86 in 5 gezeigt ist. Die Quanitisierungsebene des Merkmals F1 kann automatisch reduziert werden, um eine geeignete Anzahl an dargestellten Gruppen zu erhalten, wenn das Merkmal F2 ebenfalls ausgewählt ist. Wenn beispielsweise sechs Quantisierungsebenen für das erste Merkmal vorhanden sind, mit welchem Bilder in der Datenbank bezeichnet sind, können Paare benachbarter Quantisierungsebenen kombiniert werden, um damit drei Quantisierungsebenen zu erzeugen.
Wie aus 5 hervorgeht, zeigt jeder Bereich der Anzeige eine andere Gruppe aus Bildern, wobei jede Gruppe einer unterschiedlichen Kombination aus Quantisierungsebenen des ersten und zweiten ausgewählten Merkmals entspricht. Bilder, die in den Quantisierungsebenen der ausgewählten Merkmale liegen, werden somit in dem geeigneten Bereich der Anzeige dargestellt. In dem anschaulichen Array verringert sich die Anordnung gemäß den Merkmalswerten von links nach rechts und von oben nach unten, d. h. das Bild milder stärksten Rot und mit der höchsten Helligkeit liegt in der oberen linken Gruppe 92 und Bild mit dem geringsten Rotton und mit der geringsten Helligkeit liegt in der unteren rechten Gruppe 108. Beispielsweise enthält der Bereich 132 an der oberen linken Stelle der Anzeige jene Bilder in der Quantisierungsebene 1 für rot und 1 für die Helligkeit (d. h. starkes rot und große Helligkeit). Es sind nicht in allen Bereichen Bilder vorhanden. Beispielsweise ist der Bereich 134 leer, da keine Bilder in der Kategorie „Blume” in der Datenbank 10 vorhanden sind, die in der Quantisierungsebene 3 für das Merkmal „Helligkeit” und in der Quantisierungsebene 1 für das Merkmal „rot” liegen. Wie für die Bilder, die in 4 dargestellt sind, können die Gruppen aus Bildern separat gerollt werden, wenn es zu viele in einer Gruppe gibt, die gleichzeitig dargestellt werden können.
In der anschaulichen Ausführungsform kann ein Maximum eines Farbmerkmals gleichzeitig ausgewählt werden (etwa eines für rot, grün und für blau). Für das zweite Merkmal kann entweder ein weiteres ästhetisches Merkmal oder ein Emotionsmerkmal ausgewählt werden.
Ein drittes Merkmal kann ausgewählt werden, beispielsweise unter Anwendung des Emotionsmerkmalsselektors 130, wodurch ein dreidimensionales Array oder eine geeignete zweidimensionale Darstellung davon erzeugt wird. Alternativ kann der Nutzer entscheiden, eines oder beide, d. h. das erste und/oder das zweite Merkmal zu ändern, um die zweidimensionale Anzeige zu ändern.
Anstelle von Bildergruppen, die separat gezeigt sind, kann der Nutzer anfordern, dass die Gruppen einfach in einer Weise angeordnet werden, die ausgewählte Merkmale wiedergibt (beispielsweise können die Bilder mit dem stärksten Rotton in einer Gruppe an der oberen linken Stelle eines Arrays gesammelt angeordnet werden und die am wenigsten hellen Bilder werden in einer Gruppe an der unteren rechten Ecke gesammelt angeordnet, und die Grenzen zwischen den Gruppen werden nicht dargestellt). Der Nutzer kann dann auf den Ordnungsselektor 136 klicken, so dass die Bilder auf diese Weise dargestellt werden. Es sollte beachtet werden, dass die Bilder effizient durch diverse Kombinationen an Merkmalen (beispielsweise „Rotintensität” und „Kontrast”) gruppiert und angeordnet werden können.
Der Nutzer kann dann entscheiden, dass Bilder in einer der angezeigten Gruppen 92 die geeignete Farbe und Helligkeit für ein spezielles Dokument besitzen und kann dann auf diese Gruppe klicken, die dann auf der Anzeige dargestellt wird. Der Anwender kann auf das Lichtfeldsymbol 138 klicken, um ein Lichtfeld 110 hervorzubringen, in das eines der ausgewählten Bilder als Kandidat im Bild für die endgültige Auswahl gezogen werden kann. Der Nutzer kann dann einen Gestaltungsentwurfauswahlknopf 142 anklicken, der Zugang zu dem Dokument 58 bietet, das auf der Anzeige (6) darzustellen ist. Wie in der Bildschirmdarstellung 88 gezeigt ist, werden die ausgewählte Gruppen aus Bildern, das Lichtfeld 110 und die Dokumentenvorlage bzw. Schablone 58 gleichzeitig angezeigt. Der Nutzer kann auswählen, so dass er Nachbarn oder nahezu duplizierte Bilder angezeigt bekommt, indem auf die Auswahl an nächsten Nachbarn/Duplikaten (nicht gezeigt) geklickt wird. Alternativ können die nächsten Nachbarn/nahezu Duplikate abgerufen werden, indem auf ein ausgewähltes Bild geklickt wird.
Der Nutzer kann ein ausgewähltes Bild auf das Dokument 58 ziehen und dort ablegen (beispielsweise aus dem Lichtfeld 110), um zu sehen, ob das Bild die Entwurfserfordernisse erfüllt. Das ausgewählte Bild 54 wird der Dokumentenvorlage 58 hinzugefügt, die zuvor ausgewählte Bilder enthält, die in früheren Phasen gespeichert wurden. Nach dem Wiederholen des Vorganges ein oder mehrere Male zum Auffinden von mehr Bildern kann der Anwender auf den Gestaltungsentwurfsknopf 142 klicken, um die Vollständigkeit des gefüllten Dokuments 62 zu bestätigen, wie dies in den 2 und 6 gezeigt ist.
Das System bietet Graphikdesignern eine Schnittstelle zur Navigation durch eine sehr große Bilddatenbank, wobei dies unter früheren ausgewählten ästhetischer Merkmale, Farbmerkmale und/oder Emotionsmerkmale erfolgt. Bildverarbeitende Wissenschaftler können das System für einen schnellen visuellen oder qualitativen Test die Wirksamkeit ihrer gestalteten visuellen Merkmale durch vereinfachte Beobachtung einer großen Anzahl an abgerufenen Bildern verwenden.
Im Gegensatz zu bestehenden Suchverfahren, die auf Textsuchanfragen beruhen, erlaubt das vorliegende System eine Verfeinerung der Suche durch Parametrisierung der Anfrage. Beispielsweise kann der Nutzer den Grad der Helligkeit und/oder Rotintensität festlegen. Auch ist die visuelle Kohärenz der Ergebnisse hoch und die Suchraumdurchsuchung wird sehr einfach – der Nutzer kann einfach die Gruppe auswählen, die am Wahrscheinlichsten erscheint, dass sie interessierende Bilder enthält, und er kann durch kleine Bildchen die Bilder in der Gruppe rasch durchgehen oder er kann die Anzeige mit der ausgewählten Gruppe an Bildern füllen. Wenn der Anwender in einem speziellen kleinen Bild interessiert ist, wird das entsprechende Bild sowie seine nächsten benachbarten Bilder dargestellt.
Das anschauliche Navigationssystem besitzt diverse Anwendungszwecke. Beispielsweise stellt es für Graphikdesigner eine Schnittstelle zur Navigation durch eine sehr große Bilddatenbank bereit, wobei diese Navigation durch ausgewählte ästhetische Merkmale, Farbmerkmale und Emotionsmerkmale geleitet ist. Bildverarbeitungswissenschaftler können ebenfalls das System nutzen, beispielsweise ermöglicht es einen schnellen, visuellen, qualitativen Test der Wirksamkeit gestalteter visueller Merkmale durch Beobachtung einer großen Anzahl an abgerufenen Bildern.
Anwendungen des anschaulichen Systems und des Verfahrens beinhalten die 1 zu 1 Klassifizierung und die direkte Nachrichtenvermarktung. Die Erzeugung eines an Multimedien angereicherten Dokuments ergibt diverse Herausforderungen im Hinblick auf die Sicherstellung eines geeigneten ästhetischen Niveaus auf Grund des Anteils an Inhalt, den sie enthalten. Das anschauliche System genügt den Erfordernissen für die Auswahl geeigneter Einträge in einer Datenbank an kreativen Bildern. Das Ausdrucken bzw. Darstellen von Unternehmensmarktdaten ist nicht die einzige Anwendung des Systems und Verfahrens. Andere Anwendungen, etwa die Inhaltsverwaltung von Bildern und Dokumenten oder die Visualisierung von Dokumentenbildern/Photographiedatensätzen und dergleichen kann ebenfalls effizient unter Anwendung des Systems und Verfahrens erfolgen.
Es gilt zu beachten, dass diverse der zuvor offenbarten anderen Merkmale und Funktionen oder Alternativen davon wünschenswerter Weise in viele andere unterschiedliche Systeme oder Anwendungen hineinkombiniert werden können.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 20070005356 [0071]
US 2007/0005356 [0072, 0073]
US 2007/0258648 [0072, 0072]
US 2008/0069456 [0072, 0073]
US 2006/0164664 [0081]
US 5357352 [0082]
US 5363209 [0082, 0084]
US 5371615 [0082]
US 5414538 [0082, 0082]
US 540217 [0082]
US 5450502 [0082]
US 5802214 [0082]
US 5347374 [0082]
US 7031534 [0082]
US 5450217 [0085]

Zitierte Nicht-Patentliteratur

Matthieu Guillaumin, Thomas Mensik, Jakob Verbeek und Cordelia Schmid, TagProp: diskriminatives Erlernen von Maßen in Modellen mit nächsten Nachbarn für die Bildautoerkennung, ICCV 2009 [0059]
F. Perronnin, C. Dance, G. Csurka und M. Bressan, beschrieben ist, „angepasste Vokabularien für generische visuelle Kategorisierung”, ECCV (2006) [0071]
G. Csurka, C. Dance, L. Fan, J. Willamowski und C. Bray in „Visuelle Kategorisierung mit Taschen und Schlüsselpunkten”, ECCV-Workshop für statistisches Lernen in der Computerdarstellung (2004) [0072]
F. Perronnin und C. Dance „Fisher-Kernel auf visuellen Vokabularien für die Bildkategorisierung in Proc, IEEE-Konferenz für Computerdarstellung und Mustererkennung (CVPR), Minneapolis, MN, USA (Juni 2007) [0072]
Lowe in „Objekterkennung aus lokalen skaleninvarianten Merkmalen”, ICCV (internationale Konferenz für Computerdarstellungen), 1999 [0074]
K. Mikolajczyk und C. Schmid „Leistungsbewertung lokaler Deskriptoren” Proceedings der Konferenz für Computerdarstellung und Mustererkennung (CVPR), Madison Wisconsin, USA, Juni 2003 [0074]
Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek und Coderila Schmid, TagProp: Unterscheidungsmetrikerlernung in nächsten Nachbarmodellen für die Bildautokennzeichnung, ICCV 2009 [0076]
Ondrej Chum, Michal Perdoch und Jiri Matas, geometrische Minimum-Zellen bzw. Hashing: Finden einer dicken Nadel in einem Heuhaufen, CVPR 2009 [0076]
Herve Jegou und Matthijs Douze und Cordelia Schmid, Hamming-Einbettung und schwache geometrische Konsistenz für Bildsuche auf großem Maßstab, ECCV 2008 [0076]
Jorma Laaksonen, Markus Koskela und Erkki Oja, PicSOM selbsorganisierende Bildermittlung mit MPEG-7 Inhaltsbeschreibungen, IEEE-Transaktionen auf neuralen Netzwerken, Band 13, Nr. 4, 2002 [0076]
Van Ke, Xiaoou Tang und Feng Jing [0084]
Ke, et al [0086]
Elena Fedorovskaya, Carman Neustaedter und Wei Hao, Bildharmonie für Verbraucherbilder, ICEP 2008 [0089]
B. C. Davis und S. Lazebnik, Analyse menschlicher Attraktivität und Anwendung einer Kernel-Regressionsmanigfaltigkeit, ICIP 2008 [0089]
Ritendra Datta, Dhiraj Joshi, Jia Li und James Z. Wang, Studieren der Ästhetik in Photographiebilder unter Anwendung eines Computeransatzes, ECCV 2006 [0089]
Omnia Report L4.2, Kiryl Bletsko, Amel Ezzaich, Emmanuel Dellandrea, Alexandre Saidi, Liming Chen, Klassifizierung von Multimediadokumenten, Livable Omnia 4.2, beispielsweise Anhänge beginnend auf Seite 21 [0092]
L. C. Ou, M. R. Luo, A. Woodcock und A. Wright, eine Studie der Farbemotion und Farbpreferenz, in Color-Forschung und Anwendung, 29 (2004) Seiten 232–240 [0093]
M. Solli und R. Lenz, emotionale Befriedigung in der Farbbilderzeugung, in Proc. schwedisches Symposium für Bildanalyse 2008 [0093]
M. Solli und R. Lenz, Farbemotionen für Bildklassifizierung und Abrufung in CGIV 2008 [0093]
B. Fasel, J. Luettin, automatische Gesichtsausdrucksanalyse: ein Überblick, Mustererkennung, Volumen 36, Seiten 259–275, 2003 [0094]
M. Pantic, L. J. M Rothkrantz, Expertensystem für automatisierte Analyse von Gesichtsausdrücken, ELSEVIER-Bild- und Visionsberechnung, Vol. 18, Seiten 881–905, 2000 [0094]

Claims

Verfahren zum Unterstützen eines Nutzers bei der Navigation durch einen Bilddatensatz mit: Empfangen einer Textanfrage eines Nutzers; Abrufen von Bildern in Reaktion auf die Textanfrage aus einem Bilddatensatz; Ermöglichen des Empfangens der Auswahl des Nutzers eines ersten Merkmals, das aus einer Gruppe verfügbarer Merkmale ausgewählt ist; Ermöglichen des Empfangens der Auswahl des Nutzers eines zweiten Merkmals, das aus der Gruppe verfügbarer Merkmale ausgewählt ist; und Darstellen zumindest einiger der abgerufenen Bilder auf der graphischen Anwenderschnittstelle gleichzeitig in einer Anordnung, wodurch die Anordnung von Bildern unterschiedliche Ebenen des ersten Merkmals wiedergibt, wenn nur ein erstes Merkmal ausgewählt ist, und wobei die Anordnung aus Bildern unterschiedliche Kombinationen an Ebenen des Nutzer ausgewählten ersten und zweiten Merkmals wiedergibt, wenn ein erstes und ein zweites Merkmal ausgewählt sind.
Verfahren nach Anspruch 1, wobei das Darstellen umfasst: Darstellen mindestens einiger der abgerufenen Bilder auf der graphischen Anwenderschnittstelle gleichzeitig in Gruppen, wodurch jede dargestellte Gruppe aus Bildern einer unterschiedlichen Kombination an Ebenen von Nutzer ausgewählten ersten und zweiten Merkmalen entspricht.
Verfahren nach Anspruch 1, das ferner umfasst: Darstellen auf der graphischen Anwenderschnittstelle eines ersten Auswahlmittels zum Auswählen des ersten Merkmals aus einer ersten Gruppe aus Merkmalen und eines zweiten Auswahlmittels zum Auswählen des zweiten Merkmals aus einer zweiten Gruppe aus Merkmalen.
Verfahren nach Anspruch 3, wobei die ersten Merkmale ästhetische Merkmale und die zweiten Merkmale Emotionsmerkmale sind.
Verfahren nach Anspruch 3, das ferner umfasst: Ermöglichen, dass ein Nutzer ein drittes Merkmal aus einer dritten Gruppe aus Merkmalen auswählt, wodurch die dargestellten Bilder gemäß den ausgewählten mindestens zwei aus dem ersten, zweiten und dritten Merkmal gruppiert werden.
Verfahren nach Anspruch 3, wobei die dargestellten Gruppen aus Bildern entsprechend zu Werten der ausgewählten Merkmale angeordnet werden.
Computerprogrammprodukt mit einem materiellen Medium, das Befehle codiert, die beim Ausführen durch einen Computer das Verfahren nach Anspruch 1 ausführen.
Navigationssystem mit einem Speicher, der Befehle enthält, um das Verfahren nach Anspruch 1 auszuführen, und mit einem Prozessor in Verbindung mit dem Speicher, um die Befehle auszuführen.
Vorrichtung zur Navigation in einem Bilddatensatz, mit: einem Navigationssystem mit Befehlen, die in einem Speicher gespeichert sind, um: eine Textanfrage des Nutzers zu empfangen; Bilder in Reaktion auf die Anfrage aus einem zugehörigen Bilddatensatz abzurufen; die Auswahl des Nutzers eines ersten Merkmals, das aus einer Gruppe aus verfügbaren Merkmalen ausgewählt ist, zu empfangen; die Auswahl des Nutzers eines zweiten Merkmals, das aus der Gruppe aus verfügbaren Merkmalen ausgewählt ist, zu empfangen; und mindestens einige der abgerufenen Bilder auf einer zugehörigen graphischen Anwenderschnittstelle darzustellen, wodurch die dargestellten Bilder gemäß Ebenen des ausgewählten ersten und zweiten Merkmals gruppiert wenden; und einem Prozessor in Verbindung mit dem Speicher, um Befehle auszuführen.
Verfahren zum Hinzufügen von Bildern zu einem Dokument mit: Speichern eines Dokuments mit mindestens einem Platzhalter zum Aufnehmen eines Bildes; Empfangen einer Textanfrage eines Nutzers; Abrufen von Bildern in Reaktion auf die Anfrage aus einem Bilddatensatz, wobei jedes der Bilder in dem Datensatz gemäß dem Inhalt klassifiziert ist und mit Merkmalswerten für jedes einer Gruppe aus Merkmalen verknüpft ist; Empfangen der Auswahl des Nutzers des ersten und zweiten Merkmals aus der Gruppe aus Merkmalen; Unterteilen der abgerufenen Bilder in Gruppen auf der Grundlage von Ebenen der ausgewählten ersten und zweiten Merkmale; und Darstellen zumindest einiger der abgerufenen Bilder auf der graphischen Anwenderschnittstelle; und Ermöglichen einer Auswahl durch den Nutzer eines Bildes aus den dargestellten Gruppen aus Bildern für das Einfügen in einem der Platzhalter.