DE69820093T2

DE69820093T2 - Hierarchisches verfahren und system für objektbasierte audiovisuelle deskriptiveetikettierung von bildern für die informationswiedergewinnung, -editierung und -manipulation

Info

Publication number: DE69820093T2
Application number: DE69820093T
Authority: DE
Inventors: Richard Jungiang Qian; Ibrahim Muhammed SEZAN
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1997-09-29
Filing date: 1998-09-28
Publication date: 2004-08-05
Anticipated expiration: 2018-09-29
Also published as: WO1999017228A9; JP4159248B2; DE69820093D1; WO1999017228A1; US6070167A; JP2001518669A; EP1019852A1; EP1019852B1

Description

Gebiet der Erfindung
Diese Erfindung bezieht sich auf Systeme, die Bildern Informationen zuordnen und diese Informationen in Anwendungen für die inhaltsbasierte Informationswiedergewinnung und für die objektbasierte Editierung und Manipulation verwenden, und auf ein Verfahren zur Manipulation von Informationen in diesen Systemen.
Hintergrund der Erfindung
Das Zuordnen von Informationen zu Bildern ist nützlich, um eine erfolgreiche Identifizierung von Bildern und den Austausch von Bildern zwischen verschiedenen Anwendungen zu ermöglichen. Wenn außer den Bilddaten selbst zugeordnete Informationen audiovisuell gerendert werden, können die Bilder auf neue Weise verwendet und genutzt werden. In bekannten Verfahren und Systemen sind diese Informationen allgemein dem Wesen nach global, d. h., sie betreffen das gesamte Bild, ohne zwischen verschiedenen Objekten (z. B. eine Person gegenüber dem Hintergrund oder anderen Personen) in dem Bild zu unterscheiden. Ein Beispiel eines Dateiformats, das von Normungsgremien entwickelt worden ist und das das Anfügen globaler Informationen an Bilder ermöglicht, ist das Still-Picture-Interchange-File-Format (SPIFF), das als eine Erweiterung der JPEG-Norm, ISO/IEC IS 10918-3 (Anhang F), spezifiziert ist.
Das Dokument WO-A-9712342 (WISTENDAHL U. A.) offenbart ein System, das es ermöglicht, einen Medieninhalt in einem interaktiven Programm für digitale Medien (IDM) zu verwenden. Das IDM-Programm stellt Verknüpfungen her, die die Objekte verbinden, die durch N Daten auf andere Funktionen abgebildet sind, welche in Verbindung mit der Anzeige des Medieninhalts auszuführen sind. Die Auswahl eines Objekts, das in dem Medieninhalt erscheint, mit einem Zeiger führt zur Auslösung einer besonderen interaktiven Funktion.
In bekannten Systemen werden die Informationen einfach und ohne Vorsehen von Interaktivität zum Anwender "geschoben". Die bekannten Systeme behandeln überhaupt keine Audiovisualisierung der Inhaltsinformationen; sie sind alle auf klassische Bilddatenbank- oder Bilddateiaustausch-Anwendungen ausgerichtet. Es gibt keine Möglichkeit, dass der Anwender zusätzliche Informationen über den Gegenstand des angezeigten Bildes erfährt.
Zusammenfassung der Erfindung
Die Erfindung ist durch den beigefügten Satz von Ansprüchen definiert.
Eine Aufgabe der Erfindung besteht in der Entwicklung einer hierarchischen Datenstruktur und eines Verfahrens, das die Zuordnung deskriptiver Daten zu einem Bild ermöglicht.
Eine weitere Aufgabe der Erfindung ist die Schaffung eines Systems und eines Verfahrens, in denen die deskriptiven Daten spezifisch für Objekte in dem Bild sein können und Textinformationen, Verknüpfungen zu anderen Dateien, anderen Objekten in dem gleichen Bild oder in anderen Bildern oder Verknüpfungen zu Web-Seiten sowie Objektmerkmale wie etwa die Gestalt und Audioannotationen umfassen können.
Eine weitere Aufgabe der Erfindung ist die Schaffung eines Systems und eines Verfahrens, die ein Mittel zur Erzeugung bildinhaltsbezogener Informationen und zur Bildung der Datenstruktur, die diese Informationen enthält, und Mittel zum Erfahren dieser Informationen schaffen. Solche Systeme können eine Kamera oder eine Kamera, die mit einem Personal Computer verbunden ist, oder irgendeine Informationseinrichtung mit Bilderfassungs- oder Bilderzeugungs-, Bildbetrachtungs- und Bildbehandlungsfähigkeiten umfassen. Im Obigen bezieht sich der Begriff "Erfahren" auf die audiovisuelle Beobachtung bildinhaltsbezogener Informationen durch die Anzeige und Wiedergabe, während sich "Verwenden" auf die Editierung, Archivierung und Wiedergewinnung, Manipulation, Umnutzung und Kommunikation von Bildern bezieht.
Kurzbeschreibung der Zeichnung
1 ist ein Blockschaltplan der Hauptkomponenten des Systems der Erfindung.
2 ist ein Blockschaltplan eines Systems zur Wiedergewinnung inhaltsbasierter Informationen.
3 ist ein Blockschaltplan, der ein objektbasiertes Bildeditierverfahren zeigt.
4 zeigt die Dateistruktur der bevorzugten Ausführungsform.
5 zeigt die Integration der hierarchischen Datenstruktur mit Bilddaten unter Verwendung des JFIF-Dateiformats.
Ausführliche Beschreibung der bevorzugten Ausführungsform
Diese Erfindung schafft ein System und ein Verfahren zur (i) Definition objektbasierter Informationen über Bereiche in einem digitalen Bild, (ii) Strukturierung und Integration dieser Informationen in einem gemeinsamen Dateiformat, das die Bilddaten selbst enthält, und (iii) Verwendung dieser Informationen in Anwendungen für die inhaltsbasierte Informationswiedergewinnung und für die objektbasierte Editierung und Manipulation.
Das Verfahren der Erfindung ist so beschaffen, dass es mit irgendeinem Bildkomprimierungsstandard wie etwa mit dem momentanen JPEG-Standard sowie mit künftigen Versionen von JPEG wie etwa mit JPEG2000 funktioniert. Das Zuordnen von Informationen über Begrenzungsrechtecke verschiedener Bildobjekte sowie über genaue Umrissdaten gehört zu den einzigartigen Merkmalen dieser Erfindung. Ein wichtiges Merkmal der Erfindung ist, dass die hierarchische Datenstruktur und die inhaltsbezogenen Informationen einem Anwender nur dann heruntergeladen und präsentiert werden, wenn der Anwender dies anfordert. Es wird ein objektbasiertes Paradigma geschaffen. Das System und das Verfahren unterstützen neue Typen inhaltsbezogener Informationen wie etwa Web-Seiten und Objektrandinformationen. Es wird ein Verknüpfungsmechanismus geschaffen, der ein Bild oder einen Bereich/ein Objekt in einem Bild mit irgendeinem anderen lokalen oder fernen Multimedia-Inhalt verknüpfen kann. Das neu definierte Format ist rückwärts kompatibel zu vorhandenen Systemen.
Im Gegensatz zu den rahmenbasierten Paradigmen bekannter Systeme, bei de nen sich die Informationen auf das gesamte Bild beziehen, ohne die Möglichkeit einer Unterscheidung zwischen verschiedenen Bildobjekten zuzulassen, verwendet die Erfindung ein objektbasiertes Paradigma.
Die Hauptkomponenten einer Ausführungsform eines Systems der Erfindung sind in 1 allgemein bei 10 gezeigt. In dieser Ausführungsform wird ein Bild 12 erfasst und/oder erzeugt. Das Bild kann von einer Kamera erfasst, von einem Computer erzeugt oder ein vorhandenes Bild sein. Wenn das Bild erfasst worden ist, kann die Objektauswahl 14 interaktiv durch das Zeichnen von Rechtecken ausgeführt werden, die interessierende Objekte einschließen. Falls die Erfassung oder Erzeugung des Bildes 12 in einer Kamera bzw. in einem Computer stattfindet, können die Rechtecke durch Eingabe mit einem Eingabestift auf einen LCD-Bildschirm gezeichnet werden. Alternativ kann die Objektauswahl auf einer Computerplattform ausgeführt werden, auf die die digitalen Bilder heruntergeladen werden. Für Text- und Verknüpfungsinformationen kann eine objektbasierte Informationseingabe 14 mit einem Eingabestift ausgeführt werden. Audioannotationen können über ein Mikrofon eingegeben werden, das in die Kamera integriert sein kann, um Annotationen während des Erfassungsprozesses zu ermöglichen. Außerdem kann die Kamera ein Spracherkennungsmodul aufweisen, wobei Textinformationen unter Verwendung einer Sprache-Text-Umsetzung über Sprache eingegeben werden können. Ein Komprimierungsmodul 15 umfasst einen Audiokomprimierungsmechanismus 15a und einen Datenkomprimierungsmechanismus 15b. Die Komprimierung der Audioannotationen unter Verwendung eines Standard-Audiokomprimierungsverfahrens (z. B. der Delta-Pulscodemodulation (DPCM)) und die Komprimierung anderer zugeordneter Daten unter Verwendung eines Standard-Datenkomprimierungsverfahrens (z. B. Lempel-Zev-Welch (LZW)) sind optional.
Die Erzeugung einer hierarchischen Datenstruktur 16, die die Informationen in zwei Ebenen enthält, wobei die erste Schicht die "Basisschicht" genannt wird, wird hier später beschrieben. In der bevorzugten Ausführungsform kombiniert ein Integrationsmodul 17 inhaltsbezogene Daten und die Bilddaten selbst zu einer gemeinsamen Datei. Diese Kombination kann als ein ursprünglicher Teil eines zukünftigen Bilddateiformats wie etwa beispielsweise des Formats, das von JPEG2000 oder MPEG4 verwendet wird, unterstützt werden. Allerdings ist es ebenfalls möglich, momentan vorhandene Standard-Dateiformate zu verwenden, indem sie auf herstellerspezifische Weise erweitert werden. Letzteres schafft eine Rückwärtskompatibilität in dem Sinn, dass ein älterer Betrachter, der ein vorhandenes Dateiformat verwendet, das Bild wenigstens anzeigen kann, ohne zusammenzubrechen, wobei er die zusätzlichen Informationen ignoriert. Dies wird hier später beschrieben. Wie später in Verbindung mit 4 beschrieben wird, ist außerdem mit bestimmten Vor- und Nachteilen eine Implementierung mit getrennten Bild- und Informationsdateien möglich. Der integrierte Bildinhalt und die Bilddaten selbst werden daraufhin, Block 18, in einem Kanal, in einem Server oder über ein Netz übertragen oder gespeichert.
Die Ablage kann eine Speichereinheit, z. B. ein Speicher in einer elektronischen Kamera oder in einem Server, sein. Alternativ können die integrierten Daten über E-Mail oder als Anlage zu einer E-Mail gesendet werden. Das Bildkomprimierungsmodul 20 ist optional und kann vorgesehen sein, um den JPEG-Standardalgorithmus oder irgendeinen anderen Bildkomprimierungsalgorithmus zu implementieren. Falls Ton und/oder die anderen zugeordneten Daten komprimiert werden, wird vor der audiovisuellen Realisierung der Informationen im Modul 24 eine Dekomprimierung des Tons und/oder der Daten ausgeführt. Wenn die Bilder und die hierarchische Datenstruktur, die ihnen zugeordnet ist, für Anwender verfügbar sind, können sie interaktiv verwendet werden.
Interaktive Audiovisuelle Realisierung:
Ein interaktives System, das die Erfindung verwendet, kann die folgenden Schritte befolgen, um die Wiedergewinnung und die audiovisuelle Realisierung von dem Bild zugeordneten Objektinformationen, Block 24, zu implementieren.

(a) Wiedergewinnen und Anzeigen der Bilddaten;
(b) Lesen der Basisschichtinformationen;
(c) Verwenden der Basisschichtinformationen als einen Überlagerungserzeugungsmechanismus und Erzeugen einer Überlagerung zur visuellen Angabe derjenigen Bereiche, die Informationen enthalten, hinsichtlich "markanter Punkte" gemäß den in der Basisschicht enthaltenen Bereichsinformationen. Ein markanter Punkt kann nur dann hervorgehoben werden, wenn die Zeigevorrichtung des Anwenders auf eine Stelle in der Fläche dieses Bereiches zeigt;
(d) Anzeigen von Popup-Menüs durch die Objekte, während der Anwender auf die markanten Punkte zeigt und klickt, wobei die Typen der für dieses Objekt verfügbaren Informationen in den Menüs enthalten sind; und
(e) Rendern der durch den Anwender ausgewählten Informationen, wenn der Anwender auf den richtigen Eintrag in dem Menü klickt.

Es ist wichtig anzumerken, dass die markanten Punkte und Popups lediglich aufgerufen werden, wenn der Anwender dies anfordert. In diesem Sinn werden die durch diese Erfindung gelieferten zusätzlichen Informationen nie störend. Die Schritte a–e werden durch die audiovisuelle Realisierung des Objektinformationsmoduls 24 implementiert, das geeignete Computer-Software enthält.
In einer vollständigen Implementierung der Erfindung werden auch die inhaltsbasierte Bildwiedergewinnung und -editierung unterstützt. Es ist eine Suchmaschine 28 vorgesehen, die ermöglicht, dass der Anwender ein spezifisches Bild auffindet. Die Editierung wird von einem objektbasierten Bildmanipulationsund -editieruntersystem 26 geliefert. Die Bilder 12 können in einer Datenbank enthalten sein, die eine Sammlung digitaler Bilder enthält. Eine solche Bilddatenbank kann auch als Bibliothek oder als digitale Bibliothek bezeichnet werden.
Die inhaltsbasierte Informationswiedergewinnung schafft für die Anwender neue Dimensionen zur Verwendung und Wechselwirkung mit Bildern. Zunächst kann der Anwender auf einige interessierende Bereiche/Objekte in einem Bild klicken, um weitere Informationen über sie wiederzugewinnen. Solche Informationen können umfassen: Verknüpfungen zu den verwandten Web-Seiten oder zu weiterem Multimedia-Material, Textbeschreibungen, Sprachannotationen usw. Zweitens kann der Anwender über fortgeschrittene Suchmaschinen in einer Datenbank nach bestimmten Bildern suchen. In Datenbankanwendungen können die Bilder anhand der zugeordneten Informationen, die ihren Inhalt beschreiben, indiziert und wiedergewonnen werden. Solche inhaltsbezogenen Informationen können Bildern und Objekten in Bildern zugeordnet und nachfolgend unter Verwendung der Erfindung bei der Informationswiedergewinnung verwendet werden.
Die objektbasierte Bildeditierung ermöglicht, dass ein Anwender Bilder hinsichtlich der Objekte in den Bildern manipuliert. Beispielsweise kann der Anwender eine menschliche Person in einem Bild "ziehen", sie auf ein anderes Hintergrundbild "ablegen" und somit ein neues Bild mit bestimmten gewünschten Wirkungen zusammensetzen. Die Erfindung gestattet den Zugriff auf genaue Umrissinformationen (Konturinformationen) von Objekten, um zu ermöglichen, dass Objekte geschnitten und von einem Bild in ein anderes gezogen werden, wo sie nahtlos in andere Hintergründe integriert werden. Die inhaltsbasierte Informationswiedergewinnung und die objektbasierte Bildeditierung bieten einem Anwender gemeinsam eine neue erregende Erfahrung bei der Betrachtung und Manipulation von Bildern.
Im Folgenden wird ein integriertes Verfahren offenbart, das ermöglicht, dass eine Bilddatenstruktur die inhaltsbasierte Informationswiedergewinnung und die objektbasierte Bildeditierung unterstützt. Das Verfahren konstruiert eine hierarchische Datenstruktur, in der die "Basisschicht" lediglich Indikatoren für inhaltsbezogene Informationen übermittelt und außerordentlich leicht ist. Die tatsächlichen inhaltsbezogenen Informationen werden in der "zweiten Schicht" übermittelt. Die hierarchische Implementierung stellt sicher, dass die Effizienz des Herunterladens komprimierter Bilder nach Einführung der neuen Funktionalitäten praktisch ungestört ist, während diese Funktionalitäten vollständig realisiert werden können, wenn ein Anwender dies anweist.
Es gibt zwei Hauptziele bei der Entwicklung eines Verfahrens zur Unterstützung der inhaltsbasierten Informationswiedergewinnung und der objektbasierten Bildeditierung. Diese sind: 1) ein komprimiertes Bild, das diese Funktionalitäten unterstützt, sollte im Wesentlichen mit der gleichen Geschwindigkeit heruntergeladen und im Wesentlichen unter Verwendung des gleichen Plattenplatzes gespeichert werden können, wie wenn es diese Funktionalitäten nicht unterstützen würde; 2) diese Funktionalitäten können vollständig realisiert werden, wenn ein Anwender/eine Anwendung dies auswählt.
Zur Lösung der obigen Aufgaben wird eine hierarchische Datenstruktur verwendet, die zwei Schichten besitzt. Die erste Schicht, die hier als die "Basisschicht" bezeichnet wird, enthält bis zu einer festen Anzahl von Bytes. Diese Bytes werden verwendet, um eine Anzahl interessierender Bereiche anzugeben und eine Anzahl von Merkern zu speichern, die angeben, ob für einen Bereich bestimmte zusätzliche inhaltsbezogene Informationen verfügbar sind. Die zweite Schicht übermittelt die tatsächlichen inhaltsbezogenen Informationen. In einer Netzanwendung werden anfangs lediglich das komprimierte Bild und die Basisschicht ihrer zugeordneten inhaltsbezogenen Informationen übertragen. Da die Basisschicht lediglich bis zu einer festen kleinen Anzahl von Bytes übermittelt, kann ihre Auswirkung auf die Übertragungsgeschwindigkeit des Bildes in der Praxis vernachlässigbar sein.
Wie nun in 2 gezeigt ist, kann ein Anwender das Bild 40, nachdem er es zunächst heruntergeladen hat, betrachten, wobei er sich außerdem dazu entscheiden kann, mit dem Inhalt des Bildes in Wechselwirkung zu treten. Dies kann die Wechselwirkung mit einem interessierenden Objekt wie etwa mit der Person 1 (42), mit der Person 2 (44) oder mit einem anderen Element wie etwa mit dem Element 46 umfassen. Alternativ kann ein Bereich des Bildes als interessierendes Objekt betrachtet werden. Auch das gesamte Bild kann als interessierendes Objekt behandelt werden. Der Anwender kann dies dadurch tun, dass er auf Bereiche oder Objekte, an denen er interessiert sein kann, "klickt". Daraufhin zeigt das System ein Popup-Menü 48, 50 an, das anhand der in der Basisschicht gespeicherten Merker die verfügbaren Informationen in Bezug auf den gewählten Bereich oder in Bezug auf das gewählte Objekt auflistet. Falls der Anwender einen Eintrag in dem Menü auswählt, beginnt das System daraufhin, die in der zweiten Schicht gespeicherten diesbezüglichen Informationen von der Originalquelle herunterzuladen und dem Anwender anzuzeigen. Außerdem kann sich der Anwender dafür entscheiden, ein komprimiertes Bild mit oder ohne seine inhaltsbezogenen Informationen zu sichern. Wenn sich der Anwender dafür entscheidet, das Bild mit seinen inhaltsbezogenen Informationen zu sichern, werden die Merker in der Basisschicht, die den verfügbaren Informationen entsprechen, auf wahr gesetzt und umgekehrt.
Eine Anfangsmenge inhaltsbezogener Informationen, die von allgemeinem Interesse sein können, umfasst: 1) Verknüpfungen; 2) Metatextinformationen; 3) Sprachannotationen; und 4) Objektränder. Außerdem können 5) Sicherheits-Copyright-Informationen; und 6) Bezugnahmen auf (nicht gezeigt) MPEG-7-Deskriptoren, wie sie in "MPEG-7: Context and Objectives (Version 4)" ISO/IEC JTC1/SC29/WG11, Coding of Moving Pictures and Audio, N1733, Juli 1997, beschrieben sind, angezeigt werden. Um die Erfassung inhaltsbezogener Informationen zu unterstützen, kann die Syntax aus Tabelle 1 verwendet werden. Es wird angemerkt, dass bei Bedarf weitere Typen inhaltsbezogener Informationen zu dieser Anfangsmenge hinzugefügt werden können, um verschiedene Anwendungen zu befriedigen. Beispielsweise kann zu der Liste zugeordneter Informationen ein Computer-Code hinzugefügt werden, der beispielsweise in der Sprache Java^® geschrieben ist. In einigen Fällen öffnet das System eine bereits laufende Anwendung wie etwa einen Web-Browser oder eine Medienwiedergabe, während es erforderlich sein kann, dass das System eine Anwendung startet, wenn die Anwendung noch nicht läuft. Diese Anwendungen können irgendeine Form wie etwa eine Textverarbeitungsanwendung, ein Java^®-Applet oder irgendeine andere geforderte Anwendung annehmen. SYNTAX DER BASISSCHICHT
Tabelle 1 wobei N = Geil (log₂(max(image_width, image_height))) ist.

Semantik

num of regions	die Anzahl der Bereiche in einem Bild, die zusätzliche inhaltsbezogene Informationen besitzen können.
region_start_x	die x-Koordinate der linken oberen Ecke eines Bereiches.

region_start_y	die y-Koordinate der linken oberen Ecke eines Bereiches.
region_width	die Breite eines Bereiches.
region_height	die Höhe eines Bereiches.
link_flag	ein 1-Bit-Merker, der das Vorhandensein eines Links für einen Bereich angibt. '1' gibt an, dass an diesem Bereich Verknüpfungen angebracht sind, während '0' angibt, dass keine angebracht sind.
meta_flag	ein 1-Bit-Merker, der das Vorhandensein von Metainformationen für einen Bereich angibt. '1' gibt an, dass es Metainformationen gibt, während '0' angibt, dass es keine gibt.
voice_flag	ein 1-Bit-Merker, der das Vorhandensein von Sprachannotationen für einen Bereich angibt. '1' gibt an, dass es Sprachannotationen gibt, während '0' angibt, dass es keine gibt.
boundary_flag	ein 1-Bit-Merker, der das Vorhandensein genauer Randnformationen für einen Bereich angibt. '1' gibt an, dass es Randinformationen gibt, während '0' angibt, dass es keine gibt.
security_flag	ein 1-Bit-Merker, der das Vorhandensein von Sicherheits-Copyright-Informationen für einen Bereich angibt. '1' gibt an, dass es diese Informationen gibt, während '0' angibt, dass es keine gibt.
mpeg7_flag	ein 1-Bit-Merker, der das Vorhandensein einer Bezugnahme auf MPEG-7-Deskriptoren für einen Bereich angibt. '1' gibt an, dass es MPEG-7-Referenzinformationen gibt, während '0' angibt, dass es keine gibt.

Die obige Syntax legt nahe, dass die Basisschicht leicht ist. Beispielsweise kann 30 die Basisschicht mit 256 Bytes wenigstens 26 Bereiche irgendwo in einem Bild definieren, das so groß wie 65.536 × 65.536 Pixel sein kann. Um 4 Bereiche in einem Bild zu definieren, verbraucht die Basisschicht lediglich 38 Bytes.
SYNTAX DER ZWEITEN SCHICHT
Die zweite Schicht übermittelt tatsächliche inhaltsbezogene Informationen, die für jeden Bereich Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen und MPEG-7-Referenzinformationen umfassen können. Um die obigen Informationen in der zweiten Schicht zu speichern, kann die höhere Syntax aus Tabelle 2 verwendet werden.
Tabelle 2
Die Verknüpfungen und die Metainformationen sind Textdaten und erfordern eine verlustlose Codierung. Die Sprachinformationen können unter Verwendung eines vorhandenen Klangkomprimierungsformats wie etwa der Delta-Pulscodemodulation (DPCM) codiert werden. Die Randinformationen können die in MPEG-4 "Description of Core Experiments on Shape Coding in MPEG4 Video", ISO/IEC JTC1/SC29/WG11, Coding of Moving Pictures and Audio, N 1584, März 1997, entwickelten Gestaltscodierungstechniken verwenden. Die Sicherheits-Copyright-Informationen können bestimmte Verschlüsselungstechniken verwenden. Die früher angeführten MPEG-7-Referenzinformationen enthalten bestimmte Typen von Verknüpfungen mit den zukünftigen in MPEG-7 entwickelten Beschreibungsströmen.
Die genaue Syntax und das Format für jeden Typ der oben identifizierten inhaltsbezogenen Informationen können während der Dateiformatentwicklung für zukünftige Standards bestimmt werden und werden hier lediglich als Beispiele für das System und für das Verfahren der Erfindung dargestellt. Im Allgemeinen kann aber die Syntaxstruktur aus Tabelle 3 verwendet werden.
Tabelle 3

Semantik

links ()	die Untersyntax für die Codierung von Verknüpfungen.
meta ()	die Untersyntax für die Codierung von Metainformationen.
voice ()	die Untersyntax für die Codierung von Sprachannotationen.
boundary ()	die Untersyntax für die Codierung von Randinformationen.
security ()	die Untersyntax für die Codierung von Sicherheits-Copyright-Informationen.
mpeg7 ()	die Untersyntax für die Codierung von MPEG-7-Referenzinformationen.
end_of_region	ein 16-Bit-Identifizierungskennzeichen, das das Ende der inhaltsbezogenen Informationen für einen Bereich signalisiert.
type_of_info	ein 8-Bit-Identifizierungskennzeichen, das eindeutig den Typ der inhaltsbezogenen Informationen definiert. Der Wert dieses Parameters kann einer aus einer Menge von Zahlen sein, die in einer Tabelle definiert sind, welche alle Typen inhaltsbezogener Informationen wie etwa Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen und MPEG-7-Referenzinformationen auflistet.
length_of_data	die Anzahl der Bytes, die zum Speichern der inhaltsbezogenen Informationen verwendet werden.
data ()	die tatsächliche Syntax zum Codieren der inhaltsbezogenen Informationen. Diese kann auf der Basis von Anwendungsanforderungen oder in Übereinstimmung mit den Spezifikationen eines zukünftigen Dateiformats, das die hierarchische Datenstruktur als eines seiner ursprünglichen Merkmale unterstützen kann, bestimmt werden.

Es werden nun einige wenige Beispiele dargestellt, die eine typische Anwendung der Funktionalitäten veranschaulichen.
Wiedergewinnung inhaltsbezogener Informationen
Das Anfügen zusätzlicher Informationen wie etwa von Sprachannotationen und URL-Verknüpfungen an Bereiche/Objekte in einem Bild ermöglicht, dass ein Anwender auf interessantere Verweise mit dem Bild in Wechselwirkung tritt. Es fügt eine neue Dimension zu der Art und Weise hinzu, in der Standbilder betrachtet und verwendet werden. 2 zeigt ein Szenarium, in dem ein Bild mit diesen Funktionalitäten, d. h. ein informationserweitertes Bild, angezeigt wird. Die Anwendung liest die Bilddaten sowie die Basisschichtinformationen. Daraufhin zeigt sie das Bild an, wobei sie gemäß den Bereichsinformationen in der Basisschicht visuell die "markanten Punkte" über eine Überlagerung in dem Bild angibt. Ein Anwender klickt auf einen Bereich/ein Objekt, an dem er interessiert sein kann. Es erscheint ein Popup-Menü, das die Einträge auflistet, die für den ausgewählten Bereich/für das ausgewählte Objekt verfügbar sind. Wenn der Anwender den Sprachannotationseintrag auswählt, lokalisiert die Anwendung beispielsweise die Klanginformationen in der zweiten Schicht und gibt sie unter Verwendung einer Standard-Klangwiedergabeanwendung wieder. Wenn der Anwender eine Verknüpfung auswählt, die eine URL-Verknüpfung auf eine Web-Seite 52 ist, lokalisiert das System daraufhin die Adresse und zeigt die entsprechende Web-Seite in einem Standard-Web-Browser an. Außerdem kann eine Verknüpfung zu einer weiteren Bilddatei oder sogar zu einem weiteren Bereich/Objekt in einem Bild zeigen. Ähnlich können auch zusätzliche Metainformationen (in einer Vielzahl verschiedener Formen) durch den Anwender wiedergewonnen und betrachtet werden, indem einfach der entsprechende Eintrag wie etwa eine Medienwiedergabe 54 aus dem Menü ausgewählt wird.
Unter Verwendung des obenbeschriebenen Verfahrens können an verschiedenen Bereichen/Objekten in dem gleichen Bild verschiedene Zusatzinformationen angebracht sein. Beispielsweise kann ein Anwender verschiedene Stimmen hören, die verschiedenen Personen in dem Bild entsprechen. Außerdem können an relevanteren Komponenten in der Szene direkt einzelne Web-Seiten angebracht sein.
Objektbasierte Bildeditierung
Wenn Bilder editiert werden, ist es wünschenswert, Objekte mit beliebigen Gestalten auszuschneiden/zu kopieren/einzufügen. Das vorgeschlagene Verfahren unterstützt diese Funktionalität, wenn zusätzliche Gestaltsinformationen codiert sind. 3 zeigt ein Beispiel, durch das ein Anwender unter Verwendung der Randinformationen 60, die einem Baby-Objekt 62 zugeordnet sind, das Baby-Objekt 62 kopieren und in einen anderen Hintergrund 64 einsetzen und somit ein computergeneriertes Bild in ein weiteres computergeneriertes Bild verschieben kann. Die Folge der Aktionen kann folgendermaßen ablaufen. Zunächst klickt der Anwender auf das Baby-Objekt 62, wobei das System ein Menü 66 erscheinen lässt. Daraufhin wählt der Anwender das Randelement 68 aus, das in dem System durch einen Randerzeugungsmechanismus erzeugt wird. Daraufhin lädt das System die Randinformationen, wobei es das Baby-Objekt, wie durch die helle Linie um das Objekt gezeigt ist, hervorhebt. Daraufhin kann der Anwender das Baby-Objekt kopieren und einfügen 70, indem er entweder eine Zieh- und Ablegeaktion 72 ausführt oder indem er aus dem Editiermenü 70 die Kopier- und Einfügefunktionen auswählt.
Inhaltsbezogene Wiedergewinnung von Bildern
Durch das Zuordnen von MPEG-7-Deskriptoren zu Bildern können die Bilder durch fortgeschrittene Suchmaschinen anhand ihres Graphikinhalts wiedergewonnen werden. Die Deskriptoren können Farbe, Textur, Gestalt sowie Schlüsselwörter, wie sie in MPEG-7 bestimmt sind, umfassen. Im Allgemeinen braucht ein Bild lediglich leichte Referenzinformationen zu übermitteln, die auf den MPEG-7-Beschreibungsstrom zeigen.
Es ist ein integriertes Verfahren zur Unterstützung der fortgeschrittenen Funktionalitäten der inhaltsbasierten Informationswiedergewinnung und der objektbasierten Bildeditierung offenbart worden. Das Verfahren verwendet eine hierarchische Zweischicht-Datenstruktur zum Speichern der inhaltsbezogenen Informationen. Die erste Schicht übermittelt Koordinaten, die interessierende Regionen in Rechteckgestalt angeben, und Merker, die angeben, ob bestimmte zusätzliche inhaltsbezogene Informationen für die angegebenen Bereiche verfügbar sind. Die tatsächlichen inhaltsbezogenen Informationen sind in der zweiten Schicht gespeichert, in der sich Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen und MPEG-7-Referenzinformationen für jeden angegebenen Bereich finden können.
Die erste Schicht ist in der Weise konstruiert, dass sie leicht ist, d. h. höchstens 256 Bytes umfasst. Dies stellt sicher, dass die Effizienz des Herunterladens und Speicherns eines komprimierten Bildes im Wesentlichen ungestört sein kann, es sei denn, dass ein Anwender explizit zusätzliche inhaltsbezogene Informationen anfordert. Andererseits stellt das vorgeschlagene Verfahren sicher, dass diese Informationen vollständig geliefert werden, falls sie der Anwender anfordern sollte.
Die vorhandenen JPEG-komprimierten Bilddateiformate wie etwa das Standbild-Austausch-Dateiformat (SPIFF) oder das JPEG-Dateiaustausch-Format (JFIF) unterstützen inhärent keine objektbasierte Informationseinbettung und interaktive Wiedergewinnung dieser Informationen. Obgleich die Erzeugung, das Erlebnis und die Verwendung von informationserweiterten Bildern unter Verwendung des Verfahrens und des Systems der Erfindung ausgeführt werden kann, kann es wünschenswert sein, dass die von der Erfindung erzeugten informationserweiterten Bilder von älteren Betrachtern, die JFIF oder SPIFF verwenden, wenigstens decodiert und angezeigt werden. Tatsächlich können die älteren Systeme die zugeordneten Informationen nicht wie das erfindungsgemäße System erkennen und verwenden. Das Ziel besteht somit in der Sicherstellung einer erfolgreichen Bilddecodierung und -anzeige durch ein älteres System, ohne dass das ältere System zusammenbricht.
Falls die Abwärtskompatibilität mit älteren Betrachtern wie etwa jenen, die das JFIF- und das SPIFF-Dateiformat verwenden, erforderlich ist, kann die offenbarte hierarchische Datenstruktur in einem JIFF- oder SPIFF-Dateiformat gekapselt werden. Beispiele dieser Kapselungen, die von dem Modul 17 in 1 implementiert werden können, werden unten gegeben.
Im Fall des JIFF-Dateiformats (Graphics File Formats: Second Edition, von J. D. Murray und W. Van Ryper, O'Reilly & Associates Inc., 1996, S. 510–515) wird nun auf 5 verwiesen, in der allgemein bei 90 eine JFIF-Dateistruktur gezeigt ist. Das JFIF-Dateiformat enthält JPEG-Daten 92 und ein Bildende-Kennzeichen (EOI-Kennzeichen) 94. Ein JFIF-Betrachter ignoriert einfach ir gendwelche Daten, die auf das EOI-Kennzeichen folgen. Somit können ältere Betrachter, wenn an eine JFIF-Datei unmittelbar nach dem EOI 94 die hier offenbarte hierarchische 2-Schicht-Datenstruktur 96 angehängt wird, das Bild decodieren und anzeigen, wobei sie die zusätzliche Datenstruktur ignorieren. Ein System, das gemäß der momentanen Erfindung konstruiert ist, kann die zusätzlichen Daten geeignet interpretieren und die interaktiven Funktionalitäten der Erfindung implementieren.
Bei Verwendung von SPIFF kann die hierarchische Datenstruktur unter Verwendung eines privaten Identifizierungskennzeichens, das dem System der Erfindung bekannt ist, gekapselt werden. Da ein älterer Betrachter Nicht-Standard-Identifizierungskennzeichen und die zugeordneten Informationsfelder gemäß der SPIFF-Spezifikation ignoriert, können die Bilder von SPIFF-kompatiblen älteren Systemen erfolgreich decodiert und angezeigt werden. Das System der Erfindung erkennt dann die angefügten Daten und verwendet sie geeignet, um ihre interaktiven Funktionalitäten zu ermöglichen. (Ein weiterer, besserer zugänglicher Literaturhinweis für SPIFF ist: Graphics File Formats: Second Edition, von J. D. Murray und W. Van Ryper, O'Reilly & Associates Inc., 1996, S. 822–837.)
Das Verfahren kann auf irgendeine vorhandene Computerumgebung angewendet werden. Falls eine Bilddatei auf einer lokalen Platte gespeichert wird, können die vorgeschlagenen Funktionalitäten ohne irgendwelche zusätzliche Systemänderungen durch einen selbstständigen Bildbetrachter oder durch irgendeine Anwendung, die diese Funktionalitäten unterstützt, realisiert werden. Falls die Bilddatei fern auf einem Server gespeichert ist, können die vorgeschlagenen Funktionalitäten immer noch durch irgendeine Anwendung, die diese Funktionalitäten auf der Client-Seite unterstützt, zuzüglich eines Bildanalysealgorithmusmoduls auf dem Server realisiert werden. Der Grund dafür, dass der Server einen Bildanalysealgorithmus enthalten muss, besteht darin, dass die zusätzlichen inhaltsbezogenen Informationen in der gleichen Datei wie das Bild selbst liegen. Wenn ein Anwender bestimmte inhaltsbezogene Informationen hinsichtlich eines ausgewählten Bereiches/Objekts in einem Bild, z. B. seine Metainformationen, anfordert, ist es wichtig, dass das System so schnell wie möglich lediglich dieses Informationsstück holt und an den Anwender übergibt. Um diese Aufgabe zu lösen, muss der Server eine Bilddatei analysieren und irgendein Stück inhaltsbezogener Informationen, das durch den Client angegeben worden ist, auffinden und übertragen können.
Um das Obige ohne irgendeine Verbesserung in einem momentan vorhandenen Netz-Server zu implementieren, müssen alle inhaltsbezogenen Informationen jeweils in einer getrennten Datei gespeichert werden, wie sie in 4 allgemein bei 80 gezeigt ist. Somit gibt es für jeden definierten Bereich so viel wie sechs Dateien, die jeweils Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen und MPEG-7-Referenzinformationen enthalten. Für ein gegebenes Bild, z. B. my_image.jpg wird ein Verzeichnis erzeugt, das my_image.info genannt wird und das die inhaltsbezogenen Informationen für N definierte Bereiche enthält, wobei darin Folgendes gespeichert wird:
region01.links
region01.meta
region01.voice
region01.boundary
region01.security
region01.mpeg7
*****
region0N.links
region0N.meta
region0N.voice
region0N.boundary
region0N.security
region0N.mpeg7
Natürlich ist die Lösung, zum Speichern der Zusatzinformationen getrennte Dateien zu verwenden, in der Praxis anfällig und unschön. Eine einfache Fehlanpassung zwischen den Dateinamen wegen einer Namensänderung führt zum vollständigen Verlust der inhaltsbezogenen Informationen.
Die "Bilder" können in dieser Erfindung Vollbildern von digitalen Videosequenzen, beispielsweise einer Menge von Vollbildern, die den Video-Inhalt am besten darstellen, entsprechen. Außerdem wird angemerkt, dass die Bildinhaltsinformationen komprimiert werden können, um den Speicher effizient zu nutzen und die Geschwindigkeit des Herunterladens zu erhöhen. Dies kann mit Komprimierungsverfahren des Standes der Technik ausgeführt werden. Die Gestalts- Informationen können beispielsweise unter Verwendung des in dem MPEG-4-Standard enthaltenen Verfahrens komprimiert werden. In diesem Fall sollte die Betrachtungsanwendung mit den richtigen Dekomprimierungshilfsmitteln ausgestattet sein.
Gegenüber dem bekannten Stand der Technik besitzt die Erfindung die folgenden Vorteile: (1) Sie ist objektbasiert und somit flexibel; (2) sie ermöglicht den Einschluss von Objektmerkmalsinformationen wie etwa des Randes einer Objektgestalt; (3) sie besitzt eine hierarchische Datenstruktur und belastet somit auf keine Weise jene Anwendungen, die sich dafür entscheiden, bildinhaltsbezogene Informationen nicht herunterzuladen und zu speichern; (4) sie ermöglicht die audiovisuelle Realisierung objektbasierter Informationen, wenn der Anwender dies anfordert; (5) sie ermöglicht den Einschluss von URL-Verknüpfungen und schafft somit eine zusätzliche Dimension des Genusses und der Nutzung digitaler Bilder (die URL-Verknüpfungen können auf Web-Seiten, die sich auf den Bildinhalt beziehen, wie etwa auf persönliche Web-Seiten, auf Produkt-Web-Seiten und auf Web-Seiten für bestimmte Städte, Orte usw. zeigen); und (6) sie ist allgemein und anwendbar auf irgendeine Bildkomprimierungstechnik sowie auf unkomprimierte Bilder. Sie kann mit dem gleichen Token objektbasierte Funktionalitäten für irgendwelche in Kürze erscheinenden Komprimierungsnormen wie etwa JPEG 2000 schaffen. Obgleich keines der momentanen Dateiformate das Verfahren und das System, die hier offenbart sind, von Natur aus unterstützt, sind Verfahren offenbart worden, um das System auf rückwärtskompatible Weise zu implementieren, wobei ältere Systeme wenigstens die Bilddaten decodieren und die Zusatzinformationen ignorieren können.
Um Anwendungen, die lediglich an den Bilddaten, aber nicht an den Inhaltsinformationen interessiert sind, nicht zu belasten, können die Datenstrukturen, die auf die in der Erfindung beschriebene Weise konfiguriert sind, auf selektive Weise über ein Netz heruntergeladen werden. Die herunterladende Anwendung prüft interaktiv mit dem Anwender, ob der Anwender die Inhaltsinformationen herunterzuladen und zu speichern wünscht. Falls der Anwender "nein" sagt, gewinnt die Anwendung lediglich die Bilddaten und die Basisschicht wieder, wobei sie die Merker in der Basisschicht zur Angabe, dass es bei dem Bild keine Inhaltsinformationen gibt, auf null setzt.
Außerdem unterstützen das Verfahren und das System skalierbare Bild-Komprimierungs-/Dekomprimierungs-Algorithmen. Bei der qualitätsskalierbaren Komprimierung kann ein Bild in mehreren verschiedenen Qualitätsstufen decodiert werden. Bei der räumlich skalierbaren Komprimierung kann das Bild in verschiedenen räumlichen Auflösungen decodiert werden. Im Fall eines Komprimierungsalgorithmus, der die Skalierbarkeit unterstützt, brauchen lediglich die Bereichsinformationen und der Objektumriss skaliert zu werden, um die räumliche Skalierbarkeit zu unterstützen. Alle weiteren Datentypen bleiben ungestört.
Obgleich eine bevorzugte Ausführungsform des Systems und des Verfahrens der Erfindung offenbart worden sind, ist für den Fachmann auf dem Gebiet klar, dass weitere Änderungen und Abwandlungen daran vorgenommen werden können, ohne von dem Umfang der Erfindung, wie er in den beigefügten Ansprüchen definiert ist, abzuweichen.

Claims

Hierarchisches System für objektbasiertes deskriptives Etikettieren von Bildern für die Informationsrückgewinnung, -editierung und -manipulation, mit: – Mitteln für die Erzeugung einer hierarchischen Datenstruktur, die eine hierarchische Datenstruktur für das Bild erzeugen und dem Bild Hilfsinformationen zuordnen, wobei die hierarchische Datenstruktur eine Basisschicht, die Indikatoren für inhaltsbezogene Informationen enthält, und eine zweite Schicht, die inhaltsbezogene Informationen enthält, umfasst, wobei die Indikatoren für inhaltsbezogene Informationen angeben, ob bestimmte inhaltsbezogene Informationen in der zweiten Schicht verfügbar sind; – einem Übertragungs-/Speichermechanismus, der das Bild und die hierarchische Datenstruktur speichert; – einem objektbasierten Auswahlmechanismus, der ein interessierendes Objekt in einem Bild auswählt; – Mitteln, die die verfügbaren inhaltsbezogenen Informationen, die auf einen gewählten Bereich oder ein gewähltes Objekt bezogen sind, anhand der Indikatoren für inhaltsbezogene Informationen auflisten; und – Mitteln, die die in der zweiten Schicht gespeicherten verwandten Informationen bei Auswahl eines Elements durch den Anwender herunterladen.
System nach Anspruch 1, das einen Bilderfassungsmechanismus enthält, der ein Bild erfasst.
System nach einem der vorhergehenden Ansprüche, das einen Anzeigemechanismus enthält, der das Bild für einen Anwender anzeigt.
System nach Anspruch 3, bei dem der Anzeigemechanismus so konstruiert und beschaffen ist, dass er die hierarchische Datenstruktur für einen Anwender anzeigt.
System nach einem der vorhergehenden Ansprüche, das einen Speichermechanismus zum Speichern eines Bildes enthält.
System nach einem der vorhergehenden Ansprüche, das eine Datenbank enthält, die eine Sammlung digitaler Bilder enthält.
System nach einem der vorhergehenden Ansprüche, das einen Wiedergewinnungs- und Manipulationsmechanismus enthält, der einem Anwender ermöglicht, das Bild und die ihm zugeordneten Hilfsinformationen wahlweise wiederzugewinnen und zu manipulieren.
System nach Anspruch 7, das einen Erzeugungsmechanismus für die Erzeugung einer Überlagerung, die dem Bild zugeordnet ist, enthält und bei dem die Überlagerung wenigstens einen markanten Punkt enthält, der vom Rest des Bildes visuell unterscheidbar ist, wenn er durch den Anwender hervorgehoben wird.
System nach Anspruch 7 oder Anspruch 8, der einen Erzeugungsmechanismus zum Erzeugen von Randinformationen enthält, der einen Rand um ein interessierendes Objekt identifiziert, und bei dem der Rand sämtliche Informationen innerhalb des Randes für eine Manipulation durch den Anwender gruppiert.
System nach einem der vorhergehenden Ansprüche, das einen Mechanismus zur audiovisuellen Darstellung enthält, wobei die Hilfsinformationen dem Anwender visuell angezeigt werden und dem Anwender hörbar vorgespielt werden, wenn der Anwender dies anfordert.
System nach einem der vorherhergehenden Ansprüche, das einen Mechanismus zur audiovisuellen Darstellung enthält, bei dem die Hilfsinformationen für die objektbasierte Bildeditierung verwendet werden.
System nach einem der vorhergehenden Ansprüche, das einen Erzeugungsmechanismus zum Erzeugen eines Popup-Menüs enthält, das die Typen verfügbarer inhaltsbezogener Informationen auf der Grundlage der Indikatoren für inhaltsbezogene Informationen, die in der Basisschicht gespeichert sind, auflistet.
System nach Anspruch 12, das Mittel enthält, die die von dem Anwender ausgewählten Informationen wiedergewinnen und rendern, wenn der Anwender auf den entsprechenden Eintrag im Menü klickt.
System nach einem der vorhergehenden Ansprüche, bei dem die Indikatoren für inhaltsbezogene Informationen als Merker implementiert sind.
System nach einem der vorhergehenden Ansprüche, bei dem jeder Typ der inhaltsbezogenen Informationen, die in der zweiten Schicht enthalten sind, in einer getrennten Datei gespeichert ist.
System nach einem der vorhergehenden Ansprüche, bei dem die in der zweiten Schicht enthaltenen inhaltsbezogenen Informationen wenigstens einen der folgenden Typen aufweisen: Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen, MPEG-7-Referenzinformationen.
Hierarchisches Verfahren für die objektbasierte, audiovisuelle deskriptive Editierung von Bildern für die Informationswiedergewinnung, -editierung und -manipulation, mit den folgenden Schritten: – Erzeugen einer hierarchischen Datenstruktur für das Bild und Zuordnen von Hilfsinformationen zu dem Bild durch Erzeugen einer Basisschicht, die Indikatoren für inhaltsbezogene Informationen enthält, und durch Erzeugen einer zweiten Schicht, die inhaltsbezogene Informationen enthält, wobei die Indikatoren für inhaltsbezogene Informationen angeben, ob bestimmte inhaltsbezogene Informationen in der zweiten Schicht verfügbar sind; – Auswählen eines interessierenden Objekts in dem Bild mittels eines objektbasierten Auswahlmechanismus; – Auflisten der verfügbaren inhaltsbezogenen Informationen, die mit einem ausgewählten Bereich oder Objekt in Beziehung stehen, anhand der Indikatoren für inhaltsbezogene Informationen; – Herunterladen der in der zweiten Schicht gespeicherten verwandten Informationen bei Auswahl eines Elements durch den Anwender.
Verfahren nach Anspruch 17, das das Erfassen eines Bildes mit einem Bilderfassungsmechanismus enthält.
Verfahren nach Anspruch 17 oder Anspruch 18, das das Anzeigen des übertragenen/gespeicherten Bildes für einen Anwender enthält.
Verfahren nach einem der Ansprüche 17 bis 19, das das wahlweise Wiedergewinnen und Manipulieren des Bildes und der ihm zugeordneten Hilfsinformationen enthält.
Verfahren nach einem der Ansprüche 17 bis 20, das ferner das visuelle Anzeigen von Hilfsinformationen und das hörbare Abspielen von Hilfsinformationen für den Anwender auf Anforderung des Anwenders enthält.
Verfahren nach einem der Ansprüche 17 bis 21, das das Verwenden von Hilfsinformationen für die objektbasierte Bildeditierung enthält.
Verfahren nach einem der Ansprüche 17 bis 22, bei dem die inhaltsbezogenen Informationen, die in der zweiten Schicht enthalten sind, wenigstens einen der folgenden Typen aufweisen: Verknüpfungen, Metainformationen, Sprachannotationen, Randinformationen, Sicherheits-Copyright-Informationen, MPEG-7-Referenzinformationen.
Verfahren nach einem der Ansprüche 17 bis 23, bei dem das wahlweise Wiedergewinnen und Manipulieren enthält: (a) Wiedergewinnen der Bilddaten; (b) Lesen der Basisschicht-Informationen; (c) Anzeigen des Bildes; (d) Erzeugen einer Überlagerung, um entsprechend den Bereichsinformationen, die in der Basisschicht enthalten sind, jene Bereiche, die Informationen über "markante Punkte" enthalten, visuell anzugeben; (e) Anzeigen von Popup-Menüs, wenn der Anwender auf die markanten Punkte zeigt und klickt, wobei die Typen verfügbarer Informationen in den Menüs aufgeführt sind; und (f) Wiedergewinnen und Rendern der durch den Anwender ausgewählten Informationen, wenn der Anwender auf den entsprechenden Eintrag in dem Menü klickt.
Verfahren nach Anspruch 24, bei dem die Popup-Menüs auf der Grundlage der Indikatoren für inhaltsbezogene Informationen, die in der Basisschicht enthalten sind, erzeugt werden.
Verfahren nach Anspruch 24 oder Anspruch 25, bei dem das Erzeugen einer Überlagerung das Hervorheben eines markanten Punkts enthält, wenn die Zeigervorrichtung des Anwenders auf eine Stelle innerhalb der Fläche dieses Bereichs zeigt.
Verfahren nach einem der Ansprüche 24 bis 26, bei dem das Erzeugen einer Überlagerung das Identifizieren eines Randes um ein interessierendes Objekt enthält.