DE112008003972T5

DE112008003972T5 - Automatische Erzeugung einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung

Info

Publication number: DE112008003972T5
Application number: DE112008003972T
Authority: DE
Inventors: Pere Calif. Obrador
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2008-08-21
Filing date: 2008-08-21
Publication date: 2011-07-14
Also published as: GB2474787A; US20110038550A1; CN102132318A; GB201100477D0; CN102132318B; GB2474787B; US8594440B2; WO2010021625A1

Abstract

Ein Verfahren zum automatischen Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung, wobei das Verfahren Folgendes umfasst: Klassifizieren der Bilder in der Bildsammlung zu einer Mehrzahl von Cluster auf der Basis eines Merkmals der Bilder; Bestimmen jeweiliger Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder; Ordnen der Bilder in jedem der Mehrzahl von Cluster gemäß den Relevanzniveaus; und Anordnen der Bilder aus der geordneten Mehrzahl von Cluster gemäß einem vordefinierten Anordnungsprozess, um die skalierbare, nach Relevanz geordnete Darstellung der Bildsammlung zu erzeugen.

Description

VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung weist einen gemeinsamen Gegenstand mit der gleichzeitig anhängigen und gemeinsam zugewiesenen U.S.-Patentanmeldung Seriennr. 11/127,079 mit dem Titel „METHOD AND SYSTEM FOR AUTOMATICALLY SELECTING IMAGES FROM AMONG MULTIPLE IMAGES”, die am 12. Mai 2005 eingereicht wurde, und mit der gleichzeitig anhängigen provisorischen U.S.-Patentanmeldung Seriennr. 61/012,099 mit dem Titel „PROCESSING PIXEL VALUES OF A COLOR IMAGE”, die am 7. Dezember 2007 eingereicht wurde, deren Offenbarungen durch Bezugnahme in ihrer Gesamtheit hierin aufgenommen sind, auf.
HINTERGRUND
Mit dem Aufkommen und der Verbreitung von Digitalkameras und Videorekordern zusammen mit erhöhten Datenspeicherfähigkeiten bei immer niedrigeren Kosten ist es mittlerweile üblich, dass Nutzer immer mehr Bilder in einer Sammlung sammeln. Beispielsweise ist es nicht unüblich, dass Nutzer während eines einzigen Ereignisses, beispielsweise einer Hochzeit, eines Urlaubs und einer Party, Hunderte von digitalen Bildern machen. Wenn ein Nutzer ein Photoalbum, Photobuch oder eine Diaschau erstellen möchte, das bzw. die manche der Bilder enthält, arrangiert der Nutzer die Photographien üblicherweise in einer chronologischen Reihenfolge auf der Basis des Szeneninhalts oder der Person, die die Fotos machte. Aufgrund der relativ großen Anzahl von Bildern verwenden Nutzer jedoch oft sehr viel Zeit auf ein Durchsehen der Bildsammlung, um zu bestimmen, welche der Bilder eingefügt werden sollen.
Herkömmliche Systeme für eine automatische Bildklassifizierung werden bisher auf viele in einer Datenbank gespeicherte Bilder angewendet. Die Klassifizierung wird bisher dazu verwendet, Bilder zu indexieren, so dass die Bilder kategorisiert, durchgeblättert und wiedergewonnen werden können. Außerdem werden Bilder in der Datenbank bisher mit beschreibenden Informationen bezüglich der Bilddatei, beispielsweise mit Dateierstellungsdatum, Dateinamen und Dateierweiterung, gespeichert. Techniken, die zur Bildklassifizierung verwendet werden, ähneln meistens Klassifizierungstechniken, die auf jegliche Form von digitalen Informationen angewendet werden.
Eine exemplarische Bildklassifizierungstechnik sieht ein Navigieren durch eine Sammlung von Bildern vor, um eine Bildwiedergewinnung zu erleichtern. Das Aussehen eines Bildes wird anhand einer Verteilung von Farb- oder Texturmerkmalen zusammengefasst, und zwischen beliebigen zwei derartigen Verteilungen ist eine Metrik definiert. Ein Maß einer wahrgenommenen Unähnlichkeit wird geliefert, um die Bildwiedergewinnung zu unterstützen. Bisher wird zwei- oder dreidimensionaler euklidischer Raum verwendet, um Unterschiede bei Abständen zwischen Bildern auszuwerten, um Bildunähnlichkeiten hervorzuheben. Die Ergebnisse können dazu verwendet werden, bei einer Datenbankabfrage bezüglich eines Lokalisierens eines bestimmten Bildes Unterstützung zu bieten.
Obwohl herkömmliche Bildklassifizierungstechniken Nutzern die Fähigkeit verleihen, einfacher durch Bilder zu navigieren, erfordern diese Techniken trotzdem, dass Nutzer ein hohes Maß an manuellem Aufwand in ein Auswählen gewünschter Bilder investieren, beispielsweise Bilder, die für bestimmte Ereignisse repräsentativ sind, da die Nutzer die Bilder immer noch manuell durchstöbern müssen.
Ein verbesserter Lösungsansatz bezüglich eines Auswählens guter repräsentativer Bilder aus einer Bildsammlung zur Einfügung in ein Photoalbum, ein Photobuch, eine Diaschau usw., der relativ weniger Nutzereinsatz erfordert, wäre somit vorteilhaft.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Merkmale der vorliegenden Erfindung werden für Fachleute anhand der folgenden Beschreibung unter Bezugnahme auf die Figuren offensichtlich, bei denen:
1 ein vereinfachtes Blockdiagramm eines computerimplementierten Systems zum Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung gemäß einem Ausführungsbeispiel der Erfindung zeigt;
2 ein Flussdiagramm eines Verfahrens zum Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung gemäß einem Ausführungsbeispiel der Erfindung zeigt;
3A eine graphische Veranschaulichung der in dem in 2 gezeigten Flussdiagramm enthaltenen Schritte gemäß einem Ausführungsbeispiel der Erfindung zeigt;
3B eine graphische Relevanzdarstellung eines in dem in 2 gezeigten Flussdiagramm enthaltenen Schritts gemäß einem Ausführungsbeispiel der Erfindung zeigt; und
4 ein Diagramm einer musterhaften hierarchischen skalierbaren Bildsammlungsdarstellung 310 und skalierbarer, nach Relevanz geordneter Darstellungen gemäß einem Ausführungsbeispiel der Erfindung zeigt.
AUSFÜHRLICHE BESCHREIBUNG
Der Einfachheit halber und zu Veranschaulichungszwecken wird die vorliegende Erfindung durch Bezugnahme hauptsächlich auf ein exemplarisches Ausführungsbeispiel derselben beschrieben. In der folgenden Beschreibung sind zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der vorliegenden Erfindung zu vermitteln. Jedoch wird Fachleuten einleuchten, dass die vorliegende Erfindung ohne Beschränkung auf diese spezifischen Einzelheiten praktiziert werden kann. In anderen Fällen wurden hinreichend bekannte Verfahren und Strukturen nicht ausführlich beschrieben, um die vorliegende Erfindung nicht unnötig zu verschleiern.
Hierin sind Verfahren und Systeme zum automatischen Erzeugen einer skalierbaren Darstellung einer Bildsammlung beschrieben. Die skalierbare Darstellung ist aus einer Anordnung von Bildern zusammengesetzt, die aus einer Bildsammlung ausgewählt sind, die ein gewünschtes Ergebnis liefert. Beispielsweise ist die skalierbare Darstellung aus den relevantesten Bildern in der Bildsammlung zusammengesetzt, die eine gute Abdeckung bestimmter Ereignisse liefern. Die relevantesten Bilder können diejenigen Bilder umfassen, die bestimmte Menschen, Orte, Ereignisse usw. enthalten. Außerdem können die relevantesten Bilder die ansprechendsten Bilder umfassen. Als weiteres Beispiel ist die skalierbare Darstellung aus Bildern zusammengesetzt, die dahin gehend angeordnet und geordnet sind, auf der Basis der Reihenfolge, in der die verschiedenen Ereignisse auftraten, eine Geschichte zu erzählen. Als weiteres Beispiel ist die skalierbare Darstellung aus Bildern zusammengesetzt, die dahin gehend angeordnet und geordnet sind, eine Abdeckung von Bildern zu liefern, die bestimmte Menschen, Objekte, Orte usw. enthalten.
Durch eine Implementierung der hierin offenbarten Verfahren und Systeme kann eine skalierbare geordnete Darstellung einer Bildsammlung automatisch erzeugt werden, derart, dass die skalierbare Darstellung ohne weiteres dahin gehend skaliert werden kann, eine gewünschte Anzahl von Bildern in zumindest entweder ein Dokument und/oder ein Photobuch und/oder ein Photoalbum und/oder eine Diaschau und/oder einen Kalender usw. zu integrieren und dabei zumindest einen gewünschten Abdeckungsgrad zu liefern. Die Darstellung ist ohne weiteres skalierbar, da die Bilder nach Relevanz geordnet sind und die am wenigsten relevanten Bilder somit ohne weiteres beseitigt werden können, um zu ermöglichen, dass lediglich die relevantesten Bilder wunschgemäß in der Darstellung verbleiben.
Unter Bezugnahme auf 1 ist ein vereinfachtes Blockdiagramm eines computerimplementierten Systems 100 zum Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung gemäß einem Beispiel gezeigt. In einer Hinsicht können die verschiedenen hierin offenbarten Verfahren und Systeme bei dem in 1 gezeigten computerimplementierten System 100 implementiert sein, wie hierin nachfolgend ausführlicher erörtert wird. Es wird darauf hingewiesen, dass das System 100 zusätzliche Komponenten umfassen kann und dass manche der hierin beschriebenen Komponenten beseitigt und/oder modifiziert werden können, ohne von einem Schutzumfang des Systems 100 abzuweichen.
Wie in 1 gezeigt ist, umfasst das System 100 eine Rechenvorrichtung 110, eine Eingangsquelle 120 und einen Ausgang 130. Die Rechenvorrichtung 110 umfasst einen Prozessor 112 und einen Speicher 114, der eine Bildsammlung 116 speichert. Der Prozessor 112 ist dahin gehend konfiguriert, verschiedene Operationen, die in der Rechenvorrichtung 110 durchgeführt werden, zu steuern. Eine der Operationen umfasst die Erzeugung einer skalierbaren, nach Relevanz geordneten Darstellung 118 der Bildsammlung 116, die auch in dem Speicher 114 gespeichert werden kann. Alternativ dazu kann die Bildsammlung 116 jedoch auch in einer separaten Datenspeichervorrichtung, z. B. einer externen Datenspeichervorrichtung usw., gespeichert werden. In jeglicher Hinsicht kann die Bildsammlung 116 alle in einem einzigen Dateiordner enthaltenen Bilddateien, eine Teilmenge aller in dem einzigen Dateiordner enthaltenen Bilddateien, die in einer Mehrzahl von Dateiordnern enthaltenen Bilder usw. umfassen.
Ein „Bild” ist gemäß der Begriffsverwendung hierin ein beliebiges Bild oder eine beliebige elektronische Datendatei, das bzw. die in elektronischer Form in einer beliebigen Art von elektronischem Speichermedium oder Computerspeicher gespeichert ist. Ein Bild kann ein beliebiges digitales Bild sein, das von einer beliebigen Art von digitaler Erfassungsvorrichtung erfasst wird, beispielsweise, ohne hierauf beschränkt zu sein, von digitalen Videokameras, digitalen Stehbildkameras, Videoaufnahmekarten oder sonstigen Bilderfassungsvorrichtung. Ein Bild kann alternativ dazu ein analoges Bild sein, das beispielsweise von einer beliebigen Kamera, Videokamera oder einer analogen Bilderfassungsquelle oder -vorrichtung erfasst wird, die abgetastet oder auf andere Weise digitalisiert und als digitales Bild gespeichert werden. Ein Bild kann auch ein elektronisches Dokument wie beispielsweise ein Multimediadokument sein, das Bilder, Video, Ton usw. enthält. Fachleute werden erkennen, dass das Bild eine beliebige Art elektronischer Datei sein kann, auf die ein Nutzer von einer Sammlung einer elektronischen Datendatei zugreifen kann.
Allgemein gesagt umfasst die skalierbare, nach Relevanz geordnete Darstellung 118 der Bildsammlung 116 eine Anordnung der Bilder in der Bildsammlung 116, derart, dass, wenn die Darstellung 118 dahin gehend skaliert ist, weniger als alle Bilder zu umfassen, beispielsweise durch Beseitigen von Bildern, die als relativ weniger relevant identifiziert wurden, die übrigen Bilder eine relativ gute Abdeckung aller wichtigen Ereignisse (Gesichter, Tiere, Orte, Objekte usw.) in der Bildsammlung liefern. Verschiedene Arten und Weisen, auf die der Prozessor 112 die skalierbare, nach Relevanz geordnete Darstellung 118 erzeugen kann, werden hierin nachstehend ausführlicher beschrieben.
Gemäß einem Beispiel umfasst der Prozessor 112 eine Mikroprozessorschaltung, die dahin gehend programmiert ist, die skalierbare, nach Relevanz geordnete Darstellung 118 zu erzeugen. Gemäß einem anderen Beispiel ist ein Code zum Erzeugen der skalierbaren, nach Relevanz geordneten Darstellung 118 als Software auf dem Speicher 114 gespeichert, zu dessen Implementierung oder Ausführung der Prozessor 112 konfiguriert ist.
In jeglicher Hinsicht umfasst der Speicher 114 eine beliebige, einigermaßen geeignete Vorrichtung, die zur Speicherung von Informationen in der Lage ist, oder eine beliebige Kombination von Vorrichtungen, die zur Speicherung von Informationen in der Lage sind, beispielsweise ein Halbleiterbauelement, ein Magnetplattenspeicherbauelement, nichtflüchtige Speicherbauelemente wie z. B. EEPROM oder CD-ROM usw. Der Speicher 114 kann auch ein feststehendes oder eine entfernbare Datenspeichervorrichtung umfassen. Zusätzlich zu einem Speichern der Bildsammlung 116 und der skalierbaren Darstellung 118 der Bildsammlung 116 kann der Speicher 114 auch eine oder mehrere Programmanweisungen oder einen Code speichern, die bzw. den der Prozessor 112 beim Durchführen verschiedener Operationen der Rechenvorrichtung 110 ausführen kann.
Die skalierbare, nach Relevanz geordnete Darstellung 118 kann Kopien der in der Bildsammlung 116 enthaltenen Bilder umfassen. Alternativ dazu kann die Darstellung 118 Angaben der in der Bildsammlung 116 enthaltenen Bilder umfassen. Außerdem muss die Darstellung 118 nicht als Teil des Speichers 114 gespeichert werden, sondern kann an einer getrennten Örtlichkeit gespeichert werden und kann jegliche Informationen umfassen, die es dem Prozessor 112 ermöglichen, die ausgewählten Bilder zum Zweck einer sequentiellen Anzeige wiederzugewinnen. Beispielsweise können die ausgewählten Bilder (oder Angaben derselben) oder Teile derselben, die der Darstellung 118 zugeordnet sind, in einem lokalen Speicher des Prozessors 112 gespeichert sein.
Die Eingangsquelle 120 kann eine Nutzerschnittstelle wie z. B. eine Tastatur, eine Maus, eine Berührungsbildschirmanzeige, eine weitere Rechenvorrichtung usw. umfassen, die der Nutzer beim Eingeben von Daten in die Rechenvorrichtung 110 verwenden kann. Beispielsweise kann ein Nutzer die Eingangsquelle 120 verwenden, um Informationen einzugeben, die sich auf die Anzahl von Bildern, den Prozentsatz von Bildern aus der Bildsammlung, die in den Bildern enthaltenen Objekte usw. beziehen, die bei der Darstellung 118 der Bildsammlung 116 gewünscht sind. Der Nutzer kann die Eingangsquelle 120 auch dazu verwenden, Ausgewählte der Bilder als hoch relevant zu markieren, gewünschte Parameter bei der Darstellung 118 zu identifizieren.
Der Ausgang 130 kann eine beliebige, einigermaßen geeignete Vorrichtung umfassen, an die die skalierbare Darstellung 118 der Bildsammlung 116 ausgegeben werden kann. Der Ausgang 130 kann somit beispielsweise eine Anzeige, einen Drucker, eine andere Rechenvorrichtung, eine Datenspeichervorrichtung, einen mit der Rechenvorrichtung 110 über das Internet verbundenen Server usw. umfassen. Beispielsweise kann die skalierbare Darstellung 118 dazu verwendet werden, im Wesentlichen automatisch ein Photobuch, eine Diaschau, einen Kalender, ein Photoalbum usw. zu erstellen, das bzw. die bzw. der ausgewählte Bilder aus der Bildsammlung 116 enthält, die gespeichert, angezeigt und oder durch den Ausgang 130 gedruckt werden können.
Obwohl dies nicht gezeigt ist, kann die Rechenvorrichtung 110 zusätzliche Komponenten wie z. B. einen Kommunikationsbus und einen Sekundärspeicher umfassen. Die Rechenvorrichtung 110 kann auch eine Schnittstelle mit Nutzereingabe- und -ausgabevorrichtungen, z. B. einer Tastatur, einer Maus und einer Anzeige, bilden. Außerdem kann der Prozessor 112 durch einen Netzwerkadapter über ein Netzwerk, beispielsweise das Internet, LAN usw., kommunizieren.
Ein Beispiel eines Verfahrens, bei dem die Rechenvorrichtung 110 dazu verwendet werden kann, eine skalierbare, nach Relevanz geordnete Darstellung 118 einer Bildsammlung 116 zu erzeugen, wird nun unter Bezugnahme auf das folgende Flussdiagramm des in 2 gezeigten Verfahrens 200 beschrieben. Fachleuten sollte einleuchten, dass andere Schritte hinzugefügt oder dass vorhandene Schritte weggelassen, modifiziert oder anders angeordnet werden können, ohne von dem Schutzumfang des Verfahrens 200 abzuweichen.
Die Beschreibung des Verfahrens 200 erfolgt unter Bezugnahme auf die in 1 veranschaulichte Rechenvorrichtung 110 und bezieht sich somit auf die dort angeführten Elemente. Jedoch wird darauf hingewiesen, dass das Verfahren 200 nicht auf die bei dem System 100 dargelegten Elemente beschränkt ist. Stattdessen wird darauf hingewiesen, dass das Verfahren 200 seitens einer Rechenvorrichtung praktiziert werden kann, die eine andere Konfiguration als die in 1 dargelegte aufweist.
Manche oder alle der bei dem Verfahren 200 dargelegten Operationen können in einem beliebigen gewünschten computerzugänglichen Medium als Dienstprogramm, Programm oder Teilprogramm enthalten sein. Außerdem kann das Verfahren 200 durch Computerprogramme verkörpert werden, die in einer Vielzahl von sowohl aktiven als auch inaktiven Formen existieren können. Beispielsweise können sie als Softwareprogramm(e) existieren, die aus Programmanweisungen in Quellencode, Objektcode, ausführbarem Code oder sonstigen Formaten gebildet sind. Beliebige der Vorstehenden können in komprimierter oder unkomprimierter Form auf einem computerlesbaren Medium verkörpert sein, die Speichervorrichtungen und Signale umfassen.
Beispielhafte computerlesbare Speichervorrichtungen umfassen RAM, ROM, EPROM, EEPROM und magnetische oder optische Platten oder Bänder herkömmlicher Computersysteme. Beispielhafte computerlesbare Signale, ob sie nun unter Verwendung eines Trägers moduliert sind oder nicht, sind Signale, für deren Zugriff ein Computersystem, das das Computerprogramm beherbergt oder betreibt, konfiguriert sein kann, einschließlich Signalen, die durch das Internet oder sonstige Netzwerke heruntergeladen werden. Konkrete Beispiele der Vorstehenden umfassen eine Verteilung der Programme auf einer CD-ROM oder über einen Internet-Download. In gewisser Hinsicht ist das Internet als abstrakte Entität selbst ein computerlesbares Medium. Dies gilt auch für Computernetzwerke im Allgemeinen. Deshalb wird darauf hingewiesen, dass jegliche elektronische Vorrichtung, die in der Lage ist, die oben beschriebenen Funktionen auszuführen, diese oben aufgezählten Funktionen erfüllen kann.
Der Prozessor 112 kann das Verfahren 200 implementieren oder ausführen, um eine skalierbare, nach Relevanz geordnete Darstellung 118 der Bildsammlung 116 zu erzeugen. Wie aus der nachfolgenden Erörterung deutlicher wird, wird die Darstellung 118 als skalierbar angesehen, da der Prozessor 112 dahin gehend konfiguriert ist, die Bilder gemäß einer Relevanzmaßzahl zu ordnen. Als solches liegt dann, wenn die Darstellung 118 maßstäblich verkleinert wird, eine geringere Auswirkung auf die Gesamtdarstellung 118 vor, da zuerst weniger relevante Bilder aus der Darstellung 118 beseitigt werden.
Das Verfahren 200 wird unter Bezugnahme auf 3A und 3B beschrieben, die eine graphische Veranschaulichung 300 der in dem Verfahren 200 enthaltenen Schritte bzw. eine graphische Relevanzdarstellung 312 des Schritts 206 zeigen. Spezifische Bezugnahmen auf die in 3A und 3B gezeigten Elemente dienen Veranschaulichungszwecken und nicht der Einschränkung. Als solches sollte das Verfahren 200 nicht als auf die in 3A und 3B gezeigten Elemente beschränkt ausgelegt werden.
Bei Schritt 202 klassifiziert der Prozessor 112 die in der Bildsammlung 116 enthaltenen Bilder auf der Basis zumindest eines Merkmals der Bilder zu einer Mehrzahl von Cluster (Gruppierungen). Bei einem Beispiel umfasst jedes der Mehrzahl von Cluster einen anderen Zeitraum, beispielsweise auf der Basis einer zeitlichen Charakteristik. Bei einem anderen Beispiel umfasst jedes der Mehrzahl von Cluster einen anderen Akteur oder ein anderes Objekt. Bei einem wieder anderen Beispiel umfasst jedes der Mehrzahl von Cluster eine unterschiedliche geographische Örtlichkeit, entweder wie sie in dem Bild dargestellt ist oder auf der Basis von Identifizierungsdaten, beispielsweise einer Koordinate eines globalen Positionierungssystems, die den verschiedenen geographischen Örtlichkeiten zugeordnet ist. Gemäß einem weiteren Beispiel kann der Prozessor 112 die Bilder zu Cluster von mehr als einem Typ klassifizieren, beispielsweise sowohl zu Zeitclustern als auch zu Akteurclustern. Es wird darauf hingewiesen, dass die Cluster auf der Basis einer beliebigen, einigermaßen geeigneten Charakteristik bzw. beliebiger, einigermaßen geeigneter Charakteristika entweder des in den Bildern enthaltenen Themas und/oder der Identifizierungsdaten der Bilder unterteilt werden können.
In Fällen, in denen das Merkmal der Bilder Zeit umfasst, kann der Prozessor 112 die Zeitinformationen von einem automatisch erzeugten Zeitstempel, der jedem Bild zugeordnet ist, oder von seitens eines Nutzers eingegebenen Zeitinformationen erhalten. In Fällen, in denen das Merkmal der Bilder Akteure umfasst, kann der Prozessor 112 einen Gesichtserfassungsalgorithmus ausführen oder implementieren, der dazu entworfen ist, Gesichter in Bildern zu identifizieren und auch zwischen den erfassten Gesichtern zu unterscheiden. Ein Beispiel eines geeigneten Verfahrens zum Erfassen von und Unterscheiden zwischen Gesichtern ist bei Xiao, J. und Zhang. T., „Face Bubble: Photo Browsing with Faces", Proceedings of Advanced Visual Interfaces 2008, Neapel, Italien, 28.–30. Mai 2008, dessen Offenbarung in seiner Gesamtheit durch Bezugnahme hierin aufgenommen ist, beschrieben. Andere Arten von Objekten in den Bildern können anhand ähnlicher Verfahren identifiziert werden.
Wie in 3A gezeigt ist, kann der Prozessor 112 die Bilder der Bildsammlung 116 als hierarchische Bildsammlungsdarstellung 302 klassifizieren, die verschiedene Hierarchien von Cluster 304, 306a–306c aufweist. Jede Ebene der Hierarchie kann alle derselben Bilder umfassen, jedoch in verschiedene Anzahlen von Cluster 304, 306a–306c unterteilt. Insbesondere kann der Prozessor 112 die Bilder auf einer höheren Ebene der Hierarchie beispielsweise zu einer kleineren Anzahl von Cluster 304 klassifizieren und auf einer niedrigeren Ebene der Hierarchie zu einer größeren Anzahl von Cluster 306a–306c klassifizieren.
Gemäß einem Beispiel ordnet der Prozessor 112 die Cluster hierarchisch an, beispielsweise gemäß Zeitintervallen, in denen die in den Cluster enthaltenen Bilder erhalten wurden. Bei diesem Beispiel ist die oberste Hierarchie dahin gehend ausgelegt, die Darstellungen 118 der geringsten Größe zu beherbergen, um eine gute Abdeckung von Bildern über einen gewünschten Zeitraum zu ermöglichen, wie hierin nachstehend erörtert wird.
Die Cluster können in beliebige geeignete Zeiträume wie beispielsweise Jahre, Monate, Tage, Zeiträume innerhalb von Tagen usw. unterteilt werden. Unter erneuter Bezugnahme auf 3A kann das Cluster 304 der höheren Ebene einen Monat betragen, und die Cluster 306a–306c der niedrigeren Ebene können Tage oder Wochen im Monat betragen. Ein geeignetes Beispiel einer Art und Weise, auf die die Cluster auf der Basis zeitlicher Charakteristika unterteilt werden können, wird in der Patentanmeldung 11/127,079 erörtert.
Bei Schritt 204 bestimmt der Prozessor 112 bei jedem der Mehrzahl von Cluster jeweilige Relevanzmaßzahlen der Bilder. Die Relevanzmaßzahlen der Bilder können ein nutzerkonfigurierbares Ordnen nach Relevanz auf der Basis eines oder mehrerer Merkmale wie z. B. einer Bildwirkungsmetrik, eines Gesicht-Clusterns, einer Lächeln-Erfassung, eines Nutzerfavorit-Markierens und beträchtlicher Ähnlichkeiten umfassen. Die Arten von angewendeten Relevanzmaßzahlen und/oder einer Gewichtung, die auf verschiedene der Relevanzzahlen angewendet wird, kann nutzerauswählbar sein. Somit kann ein Nutzer beispielsweise angeben, dass Bildern, die während eines bestimmten Zeitrahmens oder an einem bestimmten Ort erfasst werden, eine höhere Relevanz gegenüber anderen Bildern gegeben werden soll. Zusätzlich oder alternativ dazu kann ein Nutzer angeben, dass Bildern, die bestimmte Gesichter oder Objekte umfassen, eine höhere Relevanz gegenüber anderen Bildern gegeben werden soll.
Somit kann der Prozessor 112 beispielsweise alle Bilder verarbeiten, um eine oder mehrere Charakteristika der Bilder zu ermitteln und um jeweilige Relevanzmaßzahlen der Bilder zu ermitteln. Die eine oder die mehreren Charakteristika können beispielsweise umfassen, ob die Bilder Gesichter enthalten, ob in diesen Bildern, die Gesichter enthalten, die Akteure lächeln, ob die Bilder bestimmte Objekte enthalten, usw. In Fällen, in denen der Prozessor 112 dahin gehend konfiguriert ist, zu erfassen, ob Bilder lächelnde Gesichter enthalten, kann der Prozessor 112 einen Gesichtsausdruckserkennungsalgorithmus verwenden. Ein Beispiel eines geeigneten Gesichtsausdruckserkennungsalgorithmus ist bei Chen, X., und Huang, T., „Facial Expression Recognition: a Clustering-Based Approach", Pattern Recognition Letters, v. 24, n. 9–10, S. 1.295–1.302, 1. Juni 2003, dessen Offenbarung in seiner Gesamtheit durch Bezugnahme hierin aufgenommen ist, beschrieben. Der Prozessor 112 kann auch einen geeigneten Objekterfassungsalgorithmus verwenden, um bestimmte Objekte in den Bildern zu erfassen.
Der Prozessor 112 kann ferner eine Bildwirkungsmetrik implementieren, um Bildwirkungswerte jedes der in der Bildsammlung 116 enthaltenen Bilder zu bestimmen. Außerdem ist der Prozessor 112 dahin gehend konfiguriert, die Bildwirkungswerte beim Bestimmen jeweiliger Relevanzniveaus zu verwenden. Beispielsweise ist der Prozessor 112 dahin gehend konfiguriert, Bildern, die höhere Bildwirkungswerte aufweisen, höhere Relevanzniveaus zuzuweisen.
Allgemein gesagt kann „Bildwirkung” als das Interesse definiert werden, das ein Bild erzeugt, wenn es von menschlichen Betrachtern besehen wird, einschließlich subjektiver Faktoren zusätzlich zu den traditionellen objektiven Qualitätsmaßgaben. Gemäß einem Beispiel bestimmt der Prozessor 112 automatisch Bildwirkungswerte für die Bilder durch Implementierung einer Bildwirkungsmetrik, wie hierin nachstehend beschrieben wird.
Bei diesem Beispiel weist der Prozessor 112 für jedes der Bilder jeder Region der Bilder einen repräsentativen Schärfe(S)-Wert zu. Im Einzelnen ist der Prozessor 112 dahin gehend konfiguriert, dort, wo das Mattierungsergebnis mit den Bildregionen geschnitten wird, einen herkömmlichen Bildmattierungsalgorithmus zu verwenden. Dies ermöglicht die Identifizierung der Regionen des Bildes mit einem bestimmten Textur/Rand-Inhalt, bezüglich dessen Schärfe zuverlässig gemessen werden kann. Der Prozessor 112 verwendet einen Laplaceschen Mehrauflösungs-Lösungsansatz, um den tatsächlichen Schärfewert zu ermitteln. Bei diesem Lösungsansatz werden alle 4 Ebenen der Laplaceschen Pyramide kombiniert, um in Bezug auf Bildrauschen flexibel zu sein. Außerdem wird die Laplacesche Pyramide anhand einer nicht-linearen Funktion gewichtet, um die gemessene Unschärfe für verschiedene Kontrastpegel zu korrigieren, da sich die Wahrnehmung von Unschärfe mit dem lokalen Kontrast verändert. Der auf Kontrast beruhende Korrekturfaktor wurde wie folgt implementiert: Gleichung (1):
Der Kontrast (CN – contrast) wird in jeder Region unter Verwendung des Effektivwerts des Kontrastes gemessen. Der Effektivwert des Kontrastes lautet: Gleichung (2):
wobei Gleichung (3):
Die Farbigkeit (CF – colorfulness) wird mit einem Lösungsansatz gemessen, der sowohl die Farbvarianz als auch den Chromabetrag in dem CIELab-Farbraum kombiniert: Gleichung (4):
In der Gleichung (4) ist σ_ab die trigonometrische Länge der Standardabweichung in dem CIELab-Raum, und μ_ab ist der Abstand des Gravitationszentrums in dem CIELab-Raum von der neutralen Farbachse.
Für jedes der Bilder kombiniert der Prozessor 112 die Schärfe-, Kontrast- und Farbigkeitsabbildungen, um eine Wirkungsabbildung (AMap – appeal map) für jedes der Bilder wiederzugeben. In Bereichen, in denen Textur/Rand-Inhalt vorliegt, ist der Prozessor 112 dahin gehend konfiguriert, die Schärfemetrik additiv mit einem Beitrag von sowohl dem Kontrast als auch der Farbigkeit zu ergänzen. In Bereichen, die hauptsächlich weich sind, beispielsweise keine hohen Frequenzen enthalten, ist der Beitrag von Kontrast und Farbigkeit viel größer, das heißt, dies erhöht die Bildwirkungsmaßzahl von stark hervorstechenden Regionen oder sehr farbigen Regionen mit geringem Textur/Rand-Inhalt. Somit gibt der Prozessor 112 die Wirkungsabbildungen (AMap) an jeder Pixel(i,j)-Stelle wie folgt wieder: AMap_i,j = S_i,j + α(S_i,j)·CN_i,j + β(S_i,j)·CN_i,j, Gleichung (5) was Folgendes ist: Gleichung (6):
und Gleichung (7):
In den obigen Gleichungen ist SD die „Schärfedichte (sharpness density)” der spezifischen Region, zu der jedes Pixel (i,j) gehört, als der Prozentsatz der Region, der durch die Ausgabe des oben beschriebenen Mattieren abgedeckt ist. Beispielsweise gilt dort, wo SDSchwelle = 0,33: A = 2, B = 57, C = 2, D = 21, E = 21 und F = 9. Diese Werte garantieren im Wesentlichen einen höheren Beitrag von sowohl Kontrast als auch Farbigkeit in Regionen geringer oder fehlender Schärfe.
Der Prozessor 112 ist auch dahin gehend konfiguriert, eine bildabhängige Schwelle für die abschließende Wirkungsmetrik zu berechnen, da verschiedene Bilder sehr verschiedene Wirkungsverteilungen aufweisen können. Die bildabhängige Schwelle ist auf die Hälfte des maximalen Werts bei der oben beschriebenen Wirkungsabbildung festgelegt, da in allen Bildern normalerweise immer ein Bereich relevanter ist als die anderen. Als solches wird die abschließende Wirkungsmetrik in dieser Region entsprechend gemessen. Genauer gesagt erzeugt der Prozessor 112 eine binäre Abbildung, bei der alle Regionen, bei denen der Wirkungsabbildungswert über der bildabhängigen Schwelle liegt, auf beispielsweise „ansprechend” eingestellt wird, und alle Regionen, bei denen der Brennstoffabbildungswert unter der bildabhängigen Schwelle liegt, auf beispielsweise „nicht ansprechend” eingestellt wird.
Der Prozessor 112 kann beim Bestimmen der abschließenden Wirkungsmetrik für jedes der Bilder auch eine Belichtungsmaßzahl betrachten. Allgemein gesagt kann der Prozessor 112 Strafpunkte auferlegen, falls sowohl an dem oberen als auch an dem unteren Ende keine Histogrammbeschneidung vorliegt und eine gute Abdeckung der meisten Luminanzwerte vorliegt. Gemäß einem Beispiel kann der Prozessor 112 ein Modell verwenden, das auf dem Durchschnittswert des Luminanzhistogramms und seiner Standardabweichung beruht, wie folgt: Gleichung (8):
Und Gleichung (9):
In den obigen Gleichungen gilt: B_lum = B_s-lum = 0,2 und A_lum = A_s-lum = 0,8.
Gemäß einem Beispiel gilt: LLSchwelle = 70, LHSchwelle = 160, sLLSchwelle = 35 und sLHSchwelle = 60.
Der Prozessor 112 kann auch bestimmen, dass der abschließende Belichtungsfaktor (E – exposure) das Produkt sowohl des Luminanzfaktors als auch des Standardabweichungsfaktors umfasst: E = lumFaktor·sigmaFaktor. Gleichung (10)
Der Prozessor 112 kann ferner eine Homogenitätsmaßzahl der ansprechenden Region in jedem der Bilder betrachten. Die Homogenitätsmaßzahl wird betrachtet, indem die Wirkungsabbildung zwei Mal einer Schwellwertbestimmung unterzogen wird, einmal mit der oben erörterten bildabhängigen Schwelle (1/2 des maximalen Wirkungswertes) und einmal mit der Hälfte der ersten Schwelle (1/4 des maximalen Wirkungswertes), wobei zwei ansprechende Regionen erzeugt werden. Bei einer unteren Schwelle dehnt sich die ansprechende Region auf andere Regionen eines mittleren Wirkungswerts aus. Je ähnlicher sich diese beiden binären Abbildungen sind (Position und Größe), desto höher die Homogenitätsmaßzahl. Das heißt, falls die mit der unteren Schwelle eingebrachten Ablenkungen vielfältig sind, ist dies ein Hinweis darauf, dass die ansprechende Region nicht so leicht aus dem Hintergrund heraus segmentiert werden kann und somit weniger homogen ist.
Der Prozessor 112 kann ferner die Größen (SZ – sizes) der ansprechenden Regionen in jedem der Bilder messen und kann die Größen beim Bestimmen der Bildwirkungswerte der Bilder berücksichtigen. Beispielsweise kann der Prozessor 112 denjenigen ansprechenden Regionen in Bildern, die Größen aufweisen, die größer als eine Schwelle sind, einen größeren Wert zuweisen. Beispielsweise kann die Schwelle um 1/3 der Bildfläche herum festgelegt sein. In einer Hinsicht kann der Prozessor 112 denjenigen Bildern, die größere homogene ansprechende Regionen enthalten, einen größeren Wert zuweisen.
Der Prozessor 112 ist dahin gehend konfiguriert, eine Bildwirkungsmetrik zu implementieren, die eine Kombination von zwei oder mehr der oben beschriebenen Maßzahlen beim Bestimmen eines Bildwirkungsniveaus für jedes der Bilder berücksichtigt. Eine Bildwirkungsmetrik, die zu günstigen Bildwirkungsbestimmungen führt, ist eine, die zu dem Produkt des Durchschnittswerts der Wirkungsabbildung über die gesamte ansprechende Region mal die anderen Faktoren führt. Das heißt, die ansprechendsten Bilder sind diejenigen Bilder, die für alle der oben beschriebenen Maßzahlen gute Werte aufweisen. Anhand eines bestimmten Beispiels kann der Prozessor 112 dahin gehend konfiguriert oder programmiert sein, die Wirkungsmaßzahl (AM – appeal measure) jedes Bildes (i) zu bestimmen, indem er den Durchschnittswert der Bildwirkungsabbildung (AMap) lediglich über die Bildwirkungsregion bestimmt, unter Verwendung einer beliebigen Kombination von Schärfe (S), Kontrast (CN) und/oder Farbigkeit (CF/OCF), um den Wirkungsdurchschnittswert mit dem Produkt einer beliebigen Kombination der anderen Merkmale zu multiplizieren: Belichtung (K), Größe der ansprechenden Region (SZ), Homogenität der ansprechend Region (H) und Farbigkeit auf dem gesamten Bild, wobei N die Größe der ansprechenden Region in Pixeln ist, wie in der folgenden Gleichung angegeben ist: Gleichung (11):
Der Prozessor 112 kann somit beim Bestimmen der jeweiligen Relevanzniveaus bei Schritt 204 die Bildwirkungswerte der Bilder bestimmen.
Bei Schritt 204 bestimmt der Prozessor 112 ferner jeweilige Relevanzniveaus, indem er die Bilder in jedem der Cluster 304, 306a–306c vergleicht, um zu bestimmen, ob es Bilder gibt, die sich im Wesentlichen ähneln. Der Prozessor 112 identifiziert die im Wesentlichen ähnlichen Bilder, um auch Relevanzmaßzahlen der Bilder zu bestimmen, wie nachfolgend erörtert wird.
Beim Bestimmen, ob Bilder in den Cluster 304, 306a–306c anderen Bildern in den jeweiligen Cluster 304, 306a–306c ähneln, kann der Prozessor 112 eine Ähnlichkeitsmetrik verwenden, die auf einem regionsbasierten lexikalischen Farbquantisierungsdeskriptor beruht, der beispielsweise in der provisorischen Patentanmeldung 61/012,099 beschrieben ist. Wie in jener Anmeldung beschrieben ist, wird ein lexikalischer Farbquantisierungsprozess bei den Bildern implementiert, um die Pixelwerte in den Bildern in eine zweite Darstellung umzuwandeln, wobei die zweite Darstellung eine gelb-blaue Achse, eine rot-grüne Achse und eine Luminanzachse aufweist.
Gemäß einem Beispiel vergleicht der Prozessor 112 die umgewandelten Pixelwerte der Bilder miteinander. Insbesondere kann der Prozessor 112 bestimmen, dass Bilder eine hohe Ähnlichkeitsmetrik aufweisen, wenn sich dieselben lexikalischen Farbregionen in verschiedenen Bildern in Bezug auf Größe und Position ähneln. Jedoch wird darauf hingewiesen, dass der Prozessor 112 andere Verfahren zum Bestimmen, ob Bilder ähnlich sind, verwenden kann, ohne von einem Schutzumfang des Verfahrens 200 abzuweichen.
Außerdem kann der Prozessor 112 eine Ähnlichkeitsschwelle anwenden, um zu unterscheiden, wann zwei Bilder ähnlich genug sind, um eine Markierung zu rechtfertigen, die besagt, dass sie im Wesentlichen ähnlich zueinander sind. Die Ähnlichkeitsschwelle kann für jede der Ebenen der Clusterhierarchie anders sein. Beispielsweise kann die Ähnlichkeitsschwelle näher an dem oberen Ende der Hierarchie gelockert werden, um näher am oberen Ende der Hierarchie im Wesentlichen immer größere Ähnlichkeitscluster zu gewährleisten.
Bei Schritt 206 ordnet der Prozessor 112 die Bilder in jedem Cluster 304, 306a–306c nach einer oder mehreren Relevanzmaßzahlen, wie in der hierarchischen skalierbaren Bildsammlungsdarstellung 310 in 3A gezeigt ist. Wie dort gezeigt ist, können die in jedem der Cluster 304, 306a–306c enthaltenen Bilder gemäß einer Relevanzdarstellung 312 in eine Rangfolge gebracht werden. Ein Beispiel einer Relevanzdarstellung 312 ist in 3B ausführlicher gezeigt.
Im Einzelnen zeigt 3B eine Art und Weise, auf die der Prozessor 112 die Bilder in jedem der Cluster 304, 306a–306c auf der Basis von Relevanz klassifiziert, wobei eines der Kriterien für Relevanz die Bildwirkung umfasst. Wie in 3B gezeigt ist, umfasst die Relevanzdarstellung 312 eine sich vertikal erstreckende Linie, die mit „Bildwirkung 350” markiert ist, und eine sich horizontal erstreckende Linie, die mit „geringere Relevanz 352” markiert ist. Außerdem stellt jede der sich vertikal erstreckenden Linien ein bestimmtes Bild dar, wobei die Höhen der sich vertikal erstreckenden Linien den Bildwirkungswert für dieses Bild darstellen. Es wird darauf hingewiesen, dass die Relevanzdarstellung 312 lediglich eine Art von Maßzahl (Bildwirkung) zeigt und dass andere Maßzahlen wie z. B. Bildgehalt, Bilderfassungszeiten, Brennweiten, mit denen die Bilder erfasst wurden, usw. ebenfalls zum Unterscheiden der Bilder voneinander verwendet werden können. Diesbezüglich kann die sich vertikal erstreckende Linie 350 eine andere Art von Maßzahl umfassen, ohne von einem Schutzumfang der Relevanzdarstellung 312 abzuweichen.
In jeglicher Hinsicht weisen diejenigen Bilder, die näher an der linken Seite der Relevanz352-Linie positioniert sind, die höchste Relevanz auf, und diejenigen Bilder, die näher am rechten Rand der Relevanz352-Linie positioniert sind, weisen die niedrigste Relevanz auf. Die Relevanz352-Linie ist auch als aus einer Mehrzahl von Kategorien gebildet dargestellt, wobei jede der Kategorien einen anderen Relevanzwert aufweist. Außerdem sind in jeder der Kategorien Bilder, die die höchste Bildwirkung aufweisen, im Vergleich zu Bildern, die die geringste Bildwirkung aufweisen, weiter links entlang der unteren Relevanz352-Linie positioniert. Somit werden die Bilder, die die höchste Bildwirkung aufweisen, als die höchste Relevanz in jeder der Kategorien aufweisend angesehen.
Die Kategorien wurden als wichtige Bilder 360, repräsentative Bilder 362, erster Duplikatsatz 364, zweiter Duplikatsatz 366 usw. gezeigt. Außerdem wurden die Bilder in jeder der Kategorien gemäß ihrer jeweiligen Bildwirkung angeordnet, wobei diejenigen Bilder, die eine höhere Bildwirkung aufweisen, weiter links entlang der Relevanz352-Linie positioniert sind.
Wie in 3B gezeigt ist, wird den Bildern, die als wichtige Bilder 360 identifiziert wurden, die höchste Relevanz verliehen. Diese Bilder können beispielsweise Bilder umfassen, die der Nutzer direkt oder indirekt als äußerst wünschenswert markiert hat (die relevantesten Bilder). Der Nutzer kann die Bilder direkt markieren, indem er ihre hohe Relevanz durch die Eingangsquelle 120 angibt. Zusätzlich oder alternativ dazu können die Bilder auf der Basis einer Nachverfolgung der Nutzung der Bilder seitens des Nutzers als wichtig markiert werden. Beispielsweise kann eine Bestimmung dessen, ob der Nutzer die Bilder bei anderen Anwendungen, beispielsweise E-Mails, Dokumenten, Postkarten, Kalendern usw., verwendet hat, getroffen werden, und die Nutzung kann nachverfolgt werden. Diejenigen Bilder, die die größte Nutzung aufweisen, können automatisch als wichtige Bilder markiert werden. Als weiteres Beispiel kann die Erwünschtheit (oder Relevanz) der Bilder auf einer Rückmeldung (beispielsweise einem Markieren der Bilder) von einer Anzahl von Nutzern beruhen, beispielsweise durch eine Anwendung eines sozialen Netzwerks oder eine andere Anwendung, die es mehreren Nutzern ermöglicht, auf die Sammlung von Bildern zuzugreifen.
Die wichtigen Bilder können auch andere Bilder umfassen, die im Vergleich zu anderen Bildern eine höhere Relevanz aufweisen. Beispielsweise können Bilder, die bestimmte lächelnde Akteure enthalten, als wichtige Bilder klassifiziert werden.
Die repräsentativen Bilder 362 können diejenigen Bilder umfassen, die entweder keine Duplikate (oder im Wesentlichen ähnliche Bilder) aufweisen, wie oben beschrieben wurde. Die repräsentativen Bilder 362 können auch Bilder umfassen, die von Duplikatbildern die höchste Bildwirkung aufweisen. Desgleichen können die Bilder in dem ersten Duplikatsatz 364 diejenigen Bilder umfassen, die als Duplikate (oder im Wesentlichen ähnliche Bilder) identifiziert wurden, jedoch die zweithöchste Bildwirkung der Duplikatbilder aufweisen. Überdies können die Bilder in dem zweiten Duplikatsatz 366 diejenigen Bilder umfassen, die als Duplikate (oder im Wesentlichen ähnliche Bilder) identifiziert wurden, jedoch die dritthöchste Bildwirkung der Duplikatbilder aufweisen. Zusätzliche Duplikatbilder können gemäß ihren jeweiligen Bildwirkungsniveaus zu weiteren Duplikatsätzen klassifiziert werden, bis alle Bilder in jedem der Cluster 304, 306a–306c zugewiesen wurden.
Bei Schritt 208 ordnet der Prozessor 112 die Bilder, die in den Clustern 304, 306a–306c einer hierarchischen Ebene enthalten sind, gemäß einem vordefinierten Anordnungsprozess, um eine skalierbare, nach Relevanz geordnete Darstellung 118 der Bildsammlung 116 zu erzeugen. Die Auswahl der hierarchischen Ebene, aus der die Bilder angeordnet werden sollen, kann durch einen Nutzer ausgewählt werden. Beispielsweise kann ein Nutzer auf der Basis des von der skalierbaren Darstellung 118 erwünschten Detaillierungsgrades eine bestimmte Hierarchieebene auswählen. Beispielsweise kann der Nutzer eine untere Ebene der Hierarchie (die mehr Cluster enthält) auswählen, falls der Nutzer eine größere Abdeckung verschiedener Ereignisse, Zeiträume, Akteure usw. wünscht. Alternativ dazu kann der Nutzer eine höhere Ebene der Hierarchie (die weniger Cluster enthält) auswählen, falls der Nutzer eine Auswahl einer größeren Bandbreite von Bildern wünscht.
Unter Bezugnahme auf 3A entspricht Schritt 208 der Erzeugung der skalierbaren, nach Relevanz geordneten Darstellung 320 der Bilder 322. Die Reihenfolge, in der die Bilder 322 aus den Cluster 304, 306a–306c ausgewählt werden, hängt sowohl von dem vordefinierten Anordnungsprozess als auch von der ausgewählten Ebene der Hierarchie, aus der die Bilder ausgewählt werden, ab, da die Bilder in den verschiedenen Ebenen der Hierarchie zu verschiedenen Cluster und somit verschiedenen Kategorien (3B) klassifiziert werden können. Beispielsweise kann ein Bild, das auf einer Clusterebene als repräsentatives Bild 362 klassifiziert wird, auf einer anderen Clusterebene als Duplikatbild 364 klassifiziert werden.
Gemäß einem ersten Beispiel kann der vordefinierte Anordnungsprozess einen nutzerkonfigurierbaren Anordnungsprozess umfassen. Bei diesem Beispiel kann der Nutzer sowohl die Ebene der Hierarchie, aus der die Bilder ausgewählt werden, auswählen. Außerdem kann der Nutzer auswählen, dass einer oder mehrere der Cluster eine größere Bedeutung aufweist bzw. aufweisen. Ferner kann der Nutzer die Bilder in einem oder mehreren der Cluster komplett beseitigen.
Gemäß einem zweiten Beispiel beruht die Anordnung der Bilder 322 bei der skalierbaren, nach Relevanz geordneten Darstellung 320 auf einer Zeithierarchieebenenauswahl. Bei diesem Beispiel besteht die erste Entscheidung darin, die richtige Ebene in einer Zeitclusterbildungshierarchie auszuwählen, auf der zu arbeiten ist, beispielsweise als Anweisung von einem Nutzer. Nachdem die Hierarchieebene ausgewählt wurde, erfolgt der Bildauswahlprozess auf dieser Ebene, und die Gesamtanzahl von auszuwählenden Bildern (NN) treibt den Auswahlprozess an. Beispielsweise kann die Auswahl der Bilder (NN) gemäß den folgenden Gleichungen basiert sein: falls NN < NC₁, dann NC_auswählen = NC₁, Gleichung (12) und falls NC_i-1 > NN > NC_i, dann NC_auswählen = NC_i. Gleichung (13)
Bei den obigen Gleichungen ist NC_i die Anzahl von Zeitclustern auf jeder Hierarchieebene i, wobei i größer oder gleich eins ist. Außerdem veranschaulichen die obigen Gleichungen eine Art und Weise, wie die beste Zeithierarchie für die beste Abdeckung einer Bildsammlung 116 ausgewählt werden kann.
In Fällen, in denen der Nutzer einem bestimmten Zeitcluster auf der ausgewählten Ebene mehr Bedeutung verleiht, wird die Auswahl für dieses Zeitcluster auf der unmittelbaren niedrigeren Hierarchieebene durchgeführt, um eine bessere Abdeckung dieses spezifischen Ereignisses zu ermöglichen.
Gemäß einem dritten Beispiel beruht die Anordnung der Bilder 322 in der skalierbaren, nach Relevanz geordneten Darstellung 320 auf einem auf der Clustergröße beruhenden Lösungsansatz. Bei diesem Lösungsansatz werden, nachdem die Clusterhierarchieebene ausgewählt wurde, Bilder aus jedem der Cluster auf dieser Ebene ausgewählt. Außerdem wechselt die Auswahl von Bildern zwischen verschiedenen Clustern auf der Basis spezifischer Regeln. Beispielsweise begünstigt dieser Lösungsansatz die Cluster mit mehr repräsentativen Bildern auf proportionale Weise.
Unter Bezugnahme auf 4 ist ein Diagramm 400 einer musterhaften hierarchischen skalierbaren Bildsammlungsdarstellung 310 und von skalierbaren, nach Relevanz geordneten Darstellungen 320 gemäß einem Beispiel gezeigt. In dem Diagramm 400 sind zwei Beispiele skalierbarer, nach Relevanz geordneter Darstellungen 320 gezeigt, die unter Verwendung verschiedener Auswahlansätze auf den in den Cluster 306a–306c enthaltenen Bildern angeordnet wurden. Die erste Darstellung 320(a) zeigt eine Anordnung, die auf dem oben erörterten clustergrößenbasierten Auswahlansatz beruht. Wie dort gezeigt ist, wird bei diesem Lösungsansatz das Bild, das in dem größten Cluster 306c die höchste Relevanz aufweist, was das mit „6” markierte Bild ist, zuerst ausgewählt, das Bild mit der höchsten Relevanz in dem nächstgrößten Cluster 306b, das das mit „a” markierte Bild ist, wird als Nächstes ausgewählt, und dann wird als Nächstes das mit „c” markierte Bild ausgewählt, und so weiter. Dieser Lösungsansatz führt zu einer skalierbaren, nach Relevanz geordneten Liste von Bildern, die eine gute Abdeckung von Ereignissen mit unähnlichen Bildern liefert, was eine bevorzugte Weise eines Geschichtenerzählens mit den Bildern sein kann.
Die zweite Darstellung 320(b) zeigt eine Anordnung, die auf einem Auswahlansatz beruht, der auf einer durchschnittlichen Bildrelevanz basiert. Bei diesem Lösungsansatz werden die Bilder, die die höchste durchschnittliche Relevanz in jedem der Cluster aufweisen, zuerst ausgewählt, ungeachtet der Clustergröße. Im Einzelnen, wie in 4 gezeigt ist, wird das mit „c” markierte Bild zuerst ausgewählt, das mit „a” markierte Bild wird als zweites ausgewählt, das mit „6” markierte Bild wird als drittes ausgewählt, und so weiter. Dieser Lösungsansatz begünstigt die Cluster, deren durchschnittliche Relevanz ihrer jeweiligen Bilder relativ höher ist. Außerdem führt dieser Lösungsansatz zu einer skalierbaren, nach Relevanz geordneten Liste der Bildsammlung 116 mit einer besseren Abdeckung von hoch relevanten Bildern, beispielsweise Bildern bestimmter Menschen, bestimmter Landschaften usw.
Allgemein gesagt ist die Darstellung 320 ohne weiteres skalierbar, da die weniger wünschenswerten Bilder ohne weiteres beseitigt werden können, indem die Bilder von der rechten Seite der Darstellung 320 beseitigt werden. Mit anderen Worten, wenn eine ausgewählte Anzahl von Bildern gewünscht ist, können die relevantesten Bilder, wie sie beispielsweise durch einen Nutzer identifiziert werden, beibehalten werden, indem als weniger relevant identifizierte Bilder einfach beseitigt werden. Diesbezüglich ähnelt die skalierbare, nach Relevanz geordnete Darstellung 320 einem skalierbaren Bitstrom (beispielsweise bei einer Bildkomprimierung unter JPEG2000).
Hierin wurde ein bevorzugtes Ausführungsbeispiel der Erfindung zusammen mit manchen seiner Variationen beschrieben und veranschaulicht. Die hierin verwendeten Begriffe, Beschreibungen und Figuren sind lediglich der Veranschaulichung halber dargelegt und nicht als Einschränkungen gedacht. Fachleuten wird einleuchten, dass viele Variationen innerhalb des Schutzumfangs der Erfindung möglich sind, der durch die folgenden Patentansprüche – und deren Äquivalente – definiert werden soll, bei denen alle Begriffe in ihrem breitest möglichen Sinn gemeint sind, wenn nichts anderes angegeben ist.
ZUSAMMENFASSUNG
Bei einem Verfahren zum automatischen Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung werden die Bilder in der Bildsammlung auf der Basis eines Merkmals der Bilder zu einer Mehrzahl von Cluster klassifiziert. Außerdem werden jeweilige Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder bestimmt, und die Bilder in jedem der Mehrzahl von Cluster werden gemäß den Relevanzniveaus geordnet. Überdies werden die Bilder aus der geordneten Mehrzahl von Cluster gemäß einem vordefinierten Anordnungsprozess angeordnet, um die skalierbare, nach Relevanz geordnete Darstellung der Bildsammlung zu erzeugen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Xiao, J. und Zhang. T., „Face Bubble: Photo Browsing with Faces”, Proceedings of Advanced Visual Interfaces 2008, Neapel, Italien, 28.–30. Mai 2008 [0033]
Chen, X., und Huang, T., „Facial Expression Recognition: a Clustering-Based Approach”, Pattern Recognition Letters, v. 24, n. 9–10, S. 1.295–1.302, 1. Juni 2003 [0038]

Claims

Ein Verfahren zum automatischen Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung, wobei das Verfahren Folgendes umfasst: Klassifizieren der Bilder in der Bildsammlung zu einer Mehrzahl von Cluster auf der Basis eines Merkmals der Bilder; Bestimmen jeweiliger Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder; Ordnen der Bilder in jedem der Mehrzahl von Cluster gemäß den Relevanzniveaus; und Anordnen der Bilder aus der geordneten Mehrzahl von Cluster gemäß einem vordefinierten Anordnungsprozess, um die skalierbare, nach Relevanz geordnete Darstellung der Bildsammlung zu erzeugen.
Das Verfahren gemäß Anspruch 1, bei dem das Merkmal zumindest entweder einen Zeitraum und/oder einen Inhalt und/oder eine auf einem Geographische-Position-System basierende Koordinate und/oder Metadaten der Bilder umfasst.
Das Verfahren gemäß Anspruch 1, das ferner Folgendes umfasst: Empfangen einer Eingabe von einem Nutzer, die identifiziert, wie die Relevanzniveaus der Bilder zu bestimmen sind, wobei die Relevanzniveaus auf der Basis der von dem Nutzer empfangenen Eingabe gemessen werden.
Das Verfahren gemäß Anspruch 1, bei dem das Bestimmen jeweiliger Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder ferner ein Bestimmen von zumindest entweder Lächeln und/oder Gesichtern und/oder Bildwirkungswerten der Bilder, um die Relevanzniveaus zu bestimmen, umfasst.
Das Verfahren gemäß Anspruch 1, bei dem das Relevanzniveau eine Maßzahl eines Ähnlichkeitsgrades zwischen zwei oder mehr Bildern in einem Cluster umfasst, wobei das Verfahren ferner Folgendes umfasst: Bestimmen, ob etwaige der Bilder in jedem der Cluster einander im Wesentlichen ähneln; ansprechend auf ein Bestimmen, dass zumindest zwei der Bilder einander im Wesentlichen ähneln, Kategorisieren eines der im Wesentlichen ähnlichen Bilder als repräsentatives Bild, und Kategorisieren eines anderen der im Wesentlichen ähnlichen Bilder als Duplikatbild; und wobei das Ordnen der Bilder ferner ein derartiges Ordnen der Bilder umfasst, dass die als repräsentative Bilder kategorisierten Bilder im Vergleich zu den als Duplikatbilder kategorisierten Bildern eine höhere Relevanz aufweisen.
Das Verfahren gemäß Anspruch 5, das ferner Folgendes umfasst: Bestimmen eines Bildwirkungswertes für jedes der Bilder, die als im Wesentlichen ähnlich zueinander bestimmt wurden; In-eine-Rangfolge-Bringen der Bilder, die als im Wesentlichen ähnlich zueinander bestimmt wurden, gemäß ihren jeweiligen Bildwirkungswerten, und wobei das Kategorisieren eines der im Wesentlichen ähnlichen Bilder als repräsentatives Bild ferner ein Kategorisieren des Bildes, das den höchsten Bildwirkungswert aufweist, als das repräsentative Bild umfasst; und wobei das Kategorisieren eines anderen der im Wesentlichen ähnlichen Bilder als Duplikatbild ferner ein Kategorisieren der Bilder, die weniger als die höchsten Bildwirkungswerte aufweisen, zu einem oder mehreren Duplikatsätzen, die gemäß ihren Bildwirkungswerten hierarchisch angeordnet sind, umfasst.
Das Verfahren gemäß Anspruch 6, das ferner Folgendes umfasst: In-eine-Rangordnung-Bringen von Bildern, die als wichtig bestimmt wurden, als Bilder, die die höchsten Relevanzniveaus aufweisen.
Das Verfahren gemäß Anspruch 5, bei dem das Bestimmen, ob jegliche der Bilder in jedem der Cluster einander im Wesentlichen ähneln, ferner ein Bestimmen, anhand eines lexikalischen Quantisierungsprozesses jedes der Bilder, ob jegliche der Bilder in jedem der Cluster einander im Wesentlichen ähneln, umfasst.
Das Verfahren gemäß Anspruch 1, bei dem das Bestimmen jeweiliger Relevanzniveaus der Bilder ferner ein Bestimmen von Bildwirkungswerten für jedes der Bilder auf der Basis einer Kombination von Schärfe, Kontrast, Farbigkeit und zumindest entweder Belichtung und/oder Größe der ansprechenden Region und/oder Homogenität der ansprechenden Region jedes der Bilder umfasst.
Eine Rechenvorrichtung zum Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung, wobei die Vorrichtung Folgendes umfasst: einen Speicher, der die Bildsammlung speichert; einen Prozessor, der dahin gehend konfiguriert ist, auf den Speicher zuzugreifen, wobei der Prozessor ferner dahin gehend konfiguriert ist, die Bilder in der Bildsammlung auf der Basis eines Merkmals der Bilder zu einer Mehrzahl von Cluster zu klassifizieren, jeweilige Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder zu bestimmen, die Bilder in jedem der Mehrzahl von Cluster gemäß den Relevanzniveaus zu ordnen, die Bilder aus der geordneten Mehrzahl von Cluster gemäß einem vordefinierten Anordnungsprozess anzuordnen, um die skalierbare, nach Relevanz geordnete Darstellung der Bildsammlung anhand der angeordneten Bilder zu erzeugen.
Die Rechenvorrichtung gemäß Anspruch 10, bei der der Prozessor ferner dahin gehend konfiguriert ist, zumindest entweder Lächeln und/oder Gesichter und/oder Bildwirkungswerte der Bilder zu bestimmen, um Relevanzniveaus der Bilder zu bestimmen.
Die Rechenvorrichtung gemäß Anspruch 10, bei der das Relevanzniveau eine Maßzahl eines Ähnlichkeitsgrades zwischen zwei oder mehr Bildern in einem Cluster umfasst, wobei der Prozessor ferner dahin gehend konfiguriert ist, zu bestimmen, ob jegliche der Bilder in jedem der Cluster einander im Wesentlichen ähneln, um eines der im Wesentlichen ähnlichen Bilder als repräsentatives Bild zu kategorisieren und um ein anderes der im Wesentlichen ähnlichen Bilder als Duplikatbild zu kategorisieren, und bei der der Prozessor ferner dahin gehend konfiguriert ist, die Bilder derart zu ordnen, dass die als repräsentative Bilder kategorisierten Bilder im Vergleich zu den als Duplikatbilder kategorisierten Bildern eine höhere Relevanz aufweisen.
Die Rechenvorrichtung gemäß Anspruch 12, bei der der Prozessor ferner dahin gehend konfiguriert ist, einen Bildwirkungswert für jedes der Bilder zu bestimmen, die als im Wesentlichen ähnlich zueinander bestimmt wurden, die Bilder, die als im Wesentlichen ähnlich zueinander bestimmt wurden, gemäß ihren jeweiligen Bildwirkungswerten in eine Rangfolge zu bringen, das Bild, das den höchsten Bildwirkungswert aufweist, als das repräsentative Bild zu kategorisieren, und die Bilder, die weniger als die höchsten Bildwirkungswerte aufweisen, zu einem oder mehreren Duplikatsätzen zu kategorisieren, die gemäß ihren Bildwirkungswerten hierarchisch angeordnet sind.
Ein greifbares computerlesbares Speichermedium, auf dem ein oder mehrere Computerprogramme eingebettet sind, wobei das eine oder die mehreren Computerprogramme ein Verfahren zum automatischen Erzeugen einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung implementiert beziehungsweise implementieren, wobei das eine oder die mehreren Computerprogramme einen computerlesbaren Code zum: Klassifizieren der Bilder in der Bildsammlung zu einer Mehrzahl von Cluster auf der Basis eines Merkmals der Bilder; Bestimmen jeweiliger Relevanzniveaus der in jedem der Mehrzahl von Cluster enthaltenen Bilder; Ordnen der Bilder in jedem der Mehrzahl von Cluster gemäß den Relevanzniveaus; und Anordnen der Bilder aus der geordneten Mehrzahl von Cluster gemäß einem vordefinierten Anordnungsprozess, um die skalierbare, nach Relevanz geordnete Darstellung der Bildsammlung zu erzeugen, umfasst beziehungsweise umfassen.
Das greifbare computerlesbare Speichermedium gemäß Anspruch 15, wobei das eine oder die mehreren Computerprogramme ferner einen computerlesbaren Code zum: Bestimmen von zumindest entweder Lächeln und/oder Gesichtern und/oder Bildwirkungswerten der Bilder, um die Relevanzniveaus zu bestimmen, umfasst beziehungsweise umfassen.