-
Die
Erfindung betrifft ein Verfahren zur Extraktion von Metadaten aus
einem aus Pixeln aufgebauten Bild eines Dokuments, wobei die Pixel
einen Wert haben, der die Intensität und/oder Farbe eines Bildelements
repräsentiert,
und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte
eine Vordergrundeigenschaft haben, welches Verfahren die Anzeige
wenigstens eines Teils des Bildes auf einem Anzeigeschirm für einen
Benutzer, den Empfang eines von einem Benutzer gegebenen Auswahlbefehls
für eine
Metadaten enthaltendes Gebiet des Bildes, die Bestimmung eines Extraktionsbereiches innerhalb
des Bildes auf der Grundlage des Auswahlbefehls des Benutzers, und
die Extraktion der Metadaten durch Verarbeitung der Pixel in dem
Extraktionsbereich umfaßt.
-
Die
Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt
und eine Vorrichtung, in denen das Verfahren implementiert ist.
-
In
Umgebungen, in denen große
Anzahlen von digitalen Dokumenten verarbeitet werden, besteht häufig Bedarf,
beschreibende Daten zu erzeugen, die einem Dokument zugeordnet werden
können,
um dessen weitere Behandlung zu erleichtern. Solche beschreibenden
Daten, die im folgenden als "Metadaten" bezeichnet werden
sollen, können
irgendwelche Daten umfassen, die das Dokument beschreiben, z.B.
ein Titel, ein Autor, ein Dokumenttyp, ein Stichwort, eine Inhaltszusammenfassung
usw..
-
Die
Metadaten können
z.B. als Eingabedaten zum Aufrufen von Dokumenten verwendet werden,
die in einer Datenbank gespeichert sind. Sie können auch in Scanner-Anwendungen
zur Erzeugung von Dateinamen sowie in vielen anderen Situationen
verwendet werden. Metadaten können
von menschlichen Bearbeitern erstellt werden, die das Dokument lesen
und es mit wenigen bedeutungshaltigen Wörtern beschreiben. Dies ist
ein anspruchsvoller, jedoch extrem zeitraubender Weg, Metadaten zu
erzeugen. In vielen Fällen
sind jedoch Metadaten, die sich verwenden lassen, bereits in dem
Dokument selbst enthalten, z.B. der Titel, der Autor, etc., und
es wäre
oftmals völlig
akzeptabel, eines von ihnen als beschreibendes Kennzeichnen zu verwenden.
-
Wenn
Dokumente in digital codierter Form vorliegen, etwa als MS WORDTM Dokumente, können sie durch spezialisierte
Programme, die das Dokument durchsuchen und vorprogrammierte Stichwörter extrahieren,
automatisch indiziert werden. Dokumente, die jedoch als Bilder vorliegen,
d.h., als Zusammenstellungen von schwarzen (farbigen) und weißen Pixeln,
müssen
zunächst
durch OCR in die digital codierte Form umgewandelt werden, ein Prozeß der viel
Rechenleistung benötigt
und dennoch nicht immer einwandfrei arbeitet. Auch das Indizierprogramm
benötigt
eine beträchtliche
Zeit zur Verarbeitung eines Dokuments.
-
Die
automatische Interpretation von Dokumentbildern ist für stark
strukturierte Dokumente wie etwa Patentdokumente bekannt. Solche
Dokumente haben eine streng vorgeschriebene Form, und ein Computer
kann dazu programmiert werden, spezielle vorbestimmte Informationselemente
in dem Dokumentbild zu finden und zu verarbeiten. Dokumente mit
frei gewähltem
Format können
jedoch nicht auf diese Weise verarbeitet werden.
-
Menschliche
Bearbeiter haben den Vorteil, daß sie ein Dokumentbild leicht überblicken
und relevante Elemente darin finden können. Es wäre deshalb vorteilhaft, einen
Bearbeiter Metadaten in dem Dokumentbild auswählen zu lassen, die dann durch ein
Computersystem automatisch extrahiert und dem Dokument zugeordnet
werden.
-
Ein
Verfahren und eine Vorrichtung zur Extraktion von Metadaten aus
einem Dokument sind aus
EP 1
136 938 bekannt. Dokumente werden zunächst mit Hilfe eines an einen
Computer angeschlossenen Scanners abgetastet, um ein Bild aus Pixeln
zu erzeugen. In der genannten Veröffentlichung zum Stand der
Technik haben die abgetasteten Dokumente ein strukturiertes Layout,
in dem Textzeichenketten, die Metadaten repräsentieren, in Kästen positioniert
sind, die die Textzeichenketten mit gezeichneten Linien umschließen. Insbesondere
technische Zeichnungen haben solche Kästen, die Metadaten, wie etwa
Titel, Kalenderdaten, Versionen usw. enthalten. Der Benutzer bedient
ein Zeigeinstrument des Computers, um einen beliebigen Punkt in
wenigstens einem Kasten der Dokumente zu bezeichnen. Nachdem der
Punkt durch den Benutzer bezeichnet worden ist, wird der diesen
Punkt enthaltende Kasten identifiziert, indem die umgebenden Linien detektiert
werden. Anschließend
werden die Zeichnen in diesem Kasten durch optische Schriftzeichenerken nung
(OCR) erkannt, um die Metadaten zu gewinnen und in einer Datenbank
zu speichern, die mit dem Computer verbunden ist, damit die in dieser Weise
abgetasteten Dokumente indiziert werden können. Somit wird die Kastenstruktur
der Metadaten für
die Identifizierung der Metadaten vorausgesetzt. Das Problem des
bekannten Verfahrens besteht darin, daß das Verfahren nur Metadaten
aus Dokumenten extrahieren kann, die strukturierte Kästen aufweisen,
die die Metadaten als Textzeichenketten enthalten.
-
Ein
Verfahren und eine Vorrichtung zur Extraktion von Metadaten aus
einem Dokument gemäß dem Oberbegriff
wird in
EP 1 256 900 beschrieben. Bei
diesem bekannten System, das für
die Eingabe von digitalen Dokumenten in eine Datenbank und zur Extraktion
von Metadaten für
die Zwecke des Wiederaufrufs vorgesehen ist, muß ein Bearbeiter mit einer
Maus oder dergleichen eine "Hülle" um das Metadatenobjekt
in dem Bild zeichnen. Dann konvertiert das System die in der Hülle enthaltene
Bitmap-Bildinformation durch OCR in das Textformat. In dieser Veröffentlichung
bezeichnet der Bearbeiter den Extraktionsbereich, was eine sorgfältige Arbeitsweise erfordert,
und selbst dann können
durch ungenaue Mausbewegungen leicht Fehler entstehen.
-
US 6 323 876 beschreibt
ein System zum Analysieren eines Dokumentbildes, zum Erkennen unterschiedlicher
Gebiete (etwa Gebiete mit Schriftzeichen, Gebiete mit Fotografien
und leere Gebiete) in dem Bild und um es einem Bearbeiter zu erlauben, ein
Gebiet leicht zu bezeichnen, indem er darauf zeigt. Das bezeichnete
Gebiet kann dann bearbeitet werden.
-
Das
in diesem bekannten System angewandte Verfahren beruht auf einer
recht komplizierten mehrstufigen Prozedur, die die Erstellung und Analyse
von Projektions-Pixelhistogrammen, das Analysieren von Bitmaps nach
8-benachbart zusammenhängenden
Komponenten von Vordergrundpixeln, das Etikettieren von Komponenten
und das Vereinigen von Komponenten zur Identifizierung von Schriftzeichen
einschließt,
gefolgt von Bildbereichsunterscheidung einschließlich Bestimmung von Attributen
und Layoutanalyse.
-
Es
ist eine Aufgabe der Erfindung, ein relativ einfaches Verfahren
und eine relativ einfache Vorrichtung zur Extraktion von Metadaten
aus Dokumenten zu schaffen, bei denen die Metadaten nicht in strukturierten
Kästen
oder extern definierten Bereichsbegrenzungen enthalten zu sein brauchen.
-
Gemäß einem
ersten Aspekt der Erfindung wird diese Aufgabe gelöst durch
ein Verfahren, wie es im einleitenden Absatz beschrieben wurde,
das dadurch gekennzeichnet ist, daß der Schritt der Bestimmung
eines Extraktionsbereiches innerhalb des Bildes den Aufbau des Extraktionsbereiches
als ein zusammenhängendes
Gebiet aus Vordergrundpixeln umfaßt, wobei in einer einstufigen
Prozedur, beginnend mit einem Auswahlpunkt, der als Teil des Auswahlbefehls
des Benutzers in dem angezeigten Teil des Bildes angegeben wird,
fortschreitend alle Vordergrundpixel einbezogen werden, die innerhalb
eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen
in das verbundene Gebiet einbezogenen Vordergrundpixel liegen.
-
Gemäß einem
zweiten Aspekt der Erfindung wird die Aufgabe durch eine Vorrichtung
zur Extraktion von Metadaten aus einem aus Pixeln aufgebauten Dokumentbild
gelöst,
bei dem die Pixel einen Wert haben, der die Intensität und/oder
Farbe eines Bildelements repräsentiert,
und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte
eine Vordergrundeigenschaft haben, welche Vorrichtung eine Eingabeeinrichtung
zum Empfang des Bildes, eine Anzeigeeinrichtung zur Anzeige wenigstens
eines Teils des Bildes für
einen Benutzer, eine Benutzerschnittstelle zum Empfang eines von
einem Benutzer gegebenen Auswahlbefehls für ein Metadaten enthaltendes
Gebiet des Bildes, und eine Verarbeitungseinheit zur Bestimmung
eines Extraktionsbereiches innerhalb des Bildes auf der Grundlage
des Auswahlbefehls des Benutzers und zur Extraktion der Metadaten
durch Verarbeitung von Pixeln in dem Extraktionsbereich umfaßt, welche
Vorrichtung dadurch gekennzeichnet ist, daß die Verarbeitungseinheit
dazu ausgebildet ist, den Extraktionsbereich als ein verbundenes
Gebiet aus Vordergrundpixeln aufzubauen, in einer einstufigen Prozedur,
bei der, beginnend mit einem Auswahlpunkt, der als Teil des Auswahlbefehls
des Benutzers in dem angezeigten Teil des Bildes angegeben wird,
fortschreitend alle Vordergrundpixel einbezogen werden, die innerhalb
eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen
in das verbundene Gebiet einbezogenen Vordergrundpixel liegen.
-
Gemäß einem
dritten Aspekt der Erfindung wird die Aufgabe mit einem Computerprogrammprodukt
zur Ausführung
des Verfahrens gelöst.
-
Über eine
Benutzerschnittstelle, etwa einen berührungsempfindlichen Bildschirm
(Touch Screen) oder eine Maus, gibt der Benutzer einen Auswahlpunkt
in dem Metadatenelement an, das er extrahiert haben möchte. Ein
erstes Vordergrundpixel wird dadurch gefunden, daß es durch
den Auswahlpunkt angegeben wird, d.h., das Vordergrundpixel, das
dem Ort des Auswahlpunktes entspricht oder nahe bei dem Auswahlpunkt
liegt, wenn der Auswahlpunkt sich auf einem Hintergrundpixel in
dem Metadatenelement befindet. Ein dem Metadatenelement entsprechender
Extraktionsbereich wird dann konstruiert, indem, beginnend mit dem
angegebenen ersten Vordergrundpixel, Vordergrundpixel mit diesem
ersten Vordergrundpixel verbunden werden. Es wird ein Verbindungsabstand
eingeführt,
um nicht signifikante Hintergrundpixel zu ignorieren und so sicherzustellen,
daß sich
ein Extraktionsbereich ungeachtet der Zwischenräume zwischen den Schriftzeichen über ein
ganzes Wort erstrecken kann.
-
Dann
wird der Extraktionsbereich auf der Grundlage des verbundenen Gebietes
bestimmt. Der Vorteil des Extraktionsbereiches besteht darin, daß er nur
auf dem Metadatenelement selbst basiert, gewöhnlich einem Textelement. Zum
Lenken des Extraktionsprozesses für die Metadaten wird keine
vordefinierte Struktur in dem Bild, wie etwa ein Kasten um den Text
herum, benötigt,
-
Das
Verfahren gemäß der Erfindung
hat den Vorteil, daß das
Wachsen des verbundenen Gebietes auf der Grundlage des Verbindungsabstands
ein robuster und einfacher Weg zur Berechnung eines Schätzwertes
für das
Extraktionsgebiet ist. Es ist zu bemerken, daß der Extraktionsbereich gewöhnlich parallele
Seiten haben wird, aber nicht rechteckig zu sein braucht. In Textdokumenten
wird eine rechteckige Form am praktischsten sein, doch kann in größeren Textfragmenten
die Form des Extraktionsbereiches angepaßt werden. Für Symbole
oder graphische Elemente kann eine andere Form des Extraktionsbereiches
verwendet werden.
-
In
einer Ausführungsform
der Erfindung umfaßt
die Erzeugung des verbundenes Gebietes das Einstellen des Verbindungsabstands
in Abhängigkeit von
einer Verbindungsrichtung, wobei die Verbindungsrichtung insbesondere
horizontal, vertikal oder eine angenommene Leserichtung ist. Durch
Einstellen des Verbindungsabstands auf einen Wert, der die Distanz
zwischen erwarte ten Metadatenelementen, etwa Schriftzeichen in einem
Wort oder Wörtern
in einem Satz, überbrückt, wird
der Extraktionsbereich sich über
Metadatenelemente erstrecken, für
die es wahrscheinlich ist, daß der
Benutzer sie angeben will. Durch Annahme oder Ableitung einer Leserichtung
erlaubt es das Verfahren dem Benutzer, den Beginn eines Textfragments
in einem größeren Textabschnitt
einfach anzugeben, weil das Wachstum die Textelemente in dieser
Leserichtung verbinden wird.
-
In
einer weiteren Ausführungsform
des Verfahrens wird das eingegebene Dokumentbild zunächst auf
eine niedrigere Auflösung
konvertiert, und die Schritte der Klassifizierung von Pixeln und
der Bestimmung eines Extraktionsbereiches werden an dem Bild mit
geringerer Auflösung
ausgeführt.
Dies hat den Vorteil, daß weniger
Rechenleistung benötigt wird,
während
eine moderate Absenkung der Auflösung
normalerweise die Genauigkeit des Verfahrens nicht beeinträchtigt.
-
In
einer Ausführungsform
des Verfahrens umfaßt
die Bestimmung des Extraktionsbereiches die Anzeige eines vorgeschlagenen
Extraktionsbereiches. Das hat den Vorteil, daß der Benutzer eine visuelle
Rückkopplung
für den
berechneten Extraktionsbereich hat.
-
In
einer weiteren Ausführungsform
umfaßt das
Verfahren außerdem
den Empfang einer Ergänzung
zu dem Auswahlbefehl, zur Anpassung des Verbindungsabstands. Das
hat den Vorteil, daß der
Benutzer den vorgeschlagenen Extraktionsbereich leicht bestätigen, verwerfen
oder verändern
kann.
-
In
einer weiteren Ausführungsform
umfaßt das
Verfahren außerdem
die automatische Anpassung des Verbindungsabstands als Reaktion
auf die Ergänzung
des Auswahlbefehls, wobei die Ergänzung des Auswahlbefehls umfaßt, daß der Benutzer einen
weiteren Auswahlpunkt angibt. Der Benutzer kontrolliert den Verbindungsabstand
durch Angabe des zu verbindenden weiteren Punktes. Das hat den Vorteil,
daß der
Benutzer den Extraktionsbereich intuitiv auf die gewünschte Größe erweitern
kann.
-
In
noch einer weiteren Ausführungsform
umfaßt
das Verfahren außerdem
die automatische Anpassung des Verbindungsabstands in Abhängigkeit von
einer Auswahlrichtung, die über
eine Ergänzung des
Auswahlbefehls empfangen wird, wobei diese Auswahlrichtung dadurch
definiert wird, daß der
Benutzer ein Auswahlmittel über
den Anzeigeschirm zieht. Der Benutzer kontrolliert den Verbindungsabstand
durch Ziehen eines Zeigers wie etwa eines mausgesteuerten Cursors.
Das hat den Vorteil, daß der
Benutzer den Extraktionsbereich intuitiv auf die gewünschte Größe erweitern
kann.
-
In
noch einer weiteren Ausführungsform
des Verfahrens umfaßt
die Bestimmung des Extraktionsbereiches außerdem die Anpassung des vorgeschlagenen
Extraktionsbereiches an einen Benutzerbefehl. Das hat den Vorteil,
daß der
Benutzer die Metadatenelemente einfach auswählen kann. Zum Beispiel umfaßt die Anpassung
der Form des Extraktionsbereiches das Bereitstellen von steuerbaren
Elementen für
den vorgeschlagenen Extraktionsbereich, insbesondere Seiten und/oder
Ränder,
und den Empfang eines Zugbefehls in der Form einer Befehlserweiterung
von der Angabeeinrichtung zum Bewegen eines der steuerbaren Elemente.
Durch Bewegen der steuerbaren Elemente kann der Benutzer die Form
des Extraktionsbereiches leicht anpassen. Alternativ umfaßt die Anpassung
der Form des Extraktionsbereiches das Vergrößern oder Verkleinern des Extraktionsbereiches über ein
ergänzendes
Benutzer-Steuerereignis wie etwa das Anklicken einer Maustaste oder
die Betätigung
eines Mausrades. Durch Klicken kann die Größe um einen bestimmten Betrag
vergrößert werden,
z.B. durch Vergrößerung des
Verbindungsabstands, so daß ein
größerer Extraktionsbereich
angezeigt wird. Ein Mausrad oder ein ähnlicher stetiger Steuerungsmechanismus
kann die Größe graduell
verändern.
Durch Anpassung des Verbindungsabstands in einem Textdokument kann die
Größe des Extraktionsbereiches
sichtbar von der Größe eines
Wortes auf einen Satz oder Absatz zunehmen.
-
In
einer Ausführungsform
des Verfahrens umfaßt
der Auswahlbefehl eine Ergänzung
zum Zuweisen eines Metadaten-Typs zu den extrahierten Metadaten.
-
Dies
hat den Vorteil, daß der
Benutzer direkt den Typ der Metadaten steuern kann, der zugewiesen
werden soll. Eine gute Möglichkeit,
dem Benutzer die Eingabe einer solchen Befehlserweiterung zu ermöglichen,
besteht darin, daß dem
Benutzer wenigstens ein Steuerelement, insbesondere ein Knopf oder
ein Aufklappmenü für die Auswahl
eines Metadatentyps angezeigt wird.
-
Alternativ
kann das System eine vorbestimmte Reihenfolge der Eingabe unterschiedlicher Typen
von Metadaten annehmen oder erzwingen, was die Bedienungsgeschwindigkeit
erhöht.
Das System kann die Eingabereihenfolge anhand der Präferenzen
des Benutzers lernen.
-
In
einer Ausführungsform
des Verfahrens werden die extrahierten Metadaten und zugewiesenen
Typen als Indexdaten für
ein Dokument in eine Datenbank eingegeben. Das hat den Vorteil,
daß Dokumente
auf der Grundlage der extahierten Metadaten aus der Datenbank aufgerufen
werden können.
-
In
einer Ausführungsform
umfaßt
das Verfahren, daß als
Metadaten eine Textzeichenkette extrahiert wird und die Textzeichenkette
zugewiesen wird, um einen Namen für eine das Bild enthaltende Datei
oder Nachricht zu bilden. Traditionell werden beim Abtasten automatisch
Dateinamen zugewiesen, z.B. eine Folge von Zahlen, oder es wird
eine manuelle Eingabe verlangt. Durch Verwendung der Metadaten wird
ein mit dem Dokument selbst im Zusammenhang stehender Name erzeugt.
Ein auf Metadaten basierender Dateiname macht den Aufruf einer Datei
leichter. Ebenso kann eine eingescannte Datei als e-Mail, z.B. als
Anhang, versandt werden. Der erfindungsgemäße Prozeß zur Extraktion von Metadaten
kann auch dazu benutzt werden, einen "Betreff" für
die e-Mail-Nachricht zu erzeugen, so daß der Inhalt leicht erkannt
werden kann.
-
In
dieser Beschreibung kann der Begriff "Dokumentbild" auch so verstanden werden, daß er einen
Satz von Bildern einzelner physikalischer Dokumentseiten umfaßt. Im allgemeinen
ist der auf dem Display gezeigte Teil des Dokuments die erste Seite, da
es normalerweise diese Seite ist, die die wichtigste Information
für die
Extraktion von Metadaten enthält.
Die Erfinder haben jedoch auch daran gedacht, das Gerät mit einer
Browserfunktion zum Navigieren durch das gesamte Dokumentbild, d.h.,
durch den Satz von Bildern physikalischer Dokumentseiten, auszustatten.
-
Weitere
bevorzugte Ausführungsformen
der Vorrichtung gemäß der Erfindung
sind in den weiteren Ansprüchen
angegeben.
-
Diese
und weitere Aspekte der Erfindung werden in der nachstehenden Beschreibung
verdeutlicht und weiter ausgeführt
unter Bezugnahme auf die als Beispiel beschriebenen Ausführungsformen
und mit Bezug auf die beigefügten
Zeichnungen, in denen zeigen:
-
1 ein
eingescanntes Dokumentbild und einen Extraktionsbereich für Metadaten;
-
2 eine
Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion
von Metadaten;
-
3 ein
Verfahren zur Extraktion von Metadaten;
-
4 das Wachstum eines Gebiets von einem
Auswahlpunkt aus;
-
4A ein
Gebiet, das mit einem Verbindungsabstand von einem Pixel wächst;
-
4B ein
Gebiet, das mit einem Verbindungsabstand von zwei Pixeln wächst;
-
4C ein
Gebiet, das mit einem Verbindungsabstand von drei Pixeln wächst;
-
5 die
Anpassung eines Extraktionsbereiches für Metadaten;
-
6 die
Anpassung der Form eines nicht-rechteckigen Extraktionsbereiches;
und
-
7 eine
Anzeige eines Bildes, eines Extraktionsbereiches und eines Menüs.
-
Die
Figuren sind schematisch und nicht maßstäblich. In den Figuren haben
Elemente, die bereits beschriebenen Elementen entsprechen, die gleichen Bezugszeichen.
-
1 zeigt
ein eingescanntes Dokumentbild und einen Extraktionsbereich für Metadaten.
Ein Dokument 13 ist eingescannt worden, um ein aus Pixeln bestehendes
Bild zu generieren. Die Pixel (Kurzform für Picture Elements) sind eine
numerische Repräsentation
des Dokuments und haben Werte, die die Intensität und/oder Farbe der Bildelemente
repräsentieren.
Ein Teil des Bildes wird auf einem Display 12 (schematisch
eingezeichnet) einem Benutzer gezeigt, damit er Metadaten interaktiv
bestimmen kann. Eine Bilddatei für
ein Dokument kann getrennte Bilder für jede Seite des Dokuments
umfassen. Eine Titelseite, gewöhnlich
die erste Seite, enthält
relevante Information über
den Inhalt des Dokuments, beispielsweise den Titel, den Typ des
Dokuments, den Autor, das Publikationsdatum und dergleichen. Diese Information
wird in dieser Beschreibung als Metadaten bezeichnet. Der Benutzer
kann die Option haben, das Display zu steuern, um, z. B. durch Rollen,
den relevanten Teil der Bilddatei zu zeigen. Alternativ kann das
Display eine vollständige
Seite eines einseitigen Dokuments zeigen.
-
Ein
Beispiel für
ein Metadatendokument ist eine Dokumentnummer 11, die Teil
des Dokumenttyps ist. Das Metadatenelement kann ein einzelnes Wort
sein, wie etwa die Dokumentnummer 11, oder kann aus einer
oder mehreren Textzeilen bestehen. Zum Beispiel enthält die in
der Figur dargestellte Zusammenfassung (Abstract) etwa sechs Zeilen
Text.
-
Auf
dem Display ist um den Dokumenttyp einschließlich der Dokumentnummer 11 herum
ein Extraktionsbereich 14 gezeigt. Dieser Extraktionsbereich
ist ein Bereich des Bildes, der von einer Verarbeitungseinheit dazu
benutzt werden soll, die Metadaten zu finden und zu erkennen. Gewöhnlich handelt
es sich bei den Metadaten um Text, und der Extraktionsbereich wird
analysiert, um die Schriftzeichen und Wörter zu erkennen, was gemeinhin
als optische Zeichenerkennung (OCR) bekannt ist. Bei den Metadaten
kann es sich auch um bestimmte Bildelemente handeln, etwa Symbole
oder Logos, die für
die Verwendung als Metadaten kategorisiert werden können.
-
Um
den Extraktionsbereich zu konstruieren, gibt der Benutzer zunächst einen
Auswahlpunkt in dem Metadatenelement an, das er als relevant ansieht,
z. B. in der Dokumentnummer 11. Die Angabe des Auswahlpunktes
ist der erste Schritt in einem Auswahlbefehl. Zur Angabe des Auswahlpunktes kann
das Display auf einem berührungsempfindlichen
Schirm, etwa einem Touch Screen, ausgebildet sein. Der Benutzer
kann den Auswahlpunkt mit einem Finger oder durch Verwendung eines
geeigneten Zeigestocks angeben. Alternativ kann das Display einen
Cursor zeigen, der durch den Benutzer z. B. mit Hilfe einer Maus,
eines Trackballs oder dergleichen gesteuert wird. Der Auswahlpunkt
kann dann durch Positionieren des Cursors und Aktivieren einer Taste,
etwa durch einen Mausklick, angegeben werden.
-
Die
Verarbeitungseinheit wird dann Pixel in der Nähe des Auswahlpunktes analysieren,
um Pixel zu finden, die Teil des Metadatenelements sind, wie nachstehend
näher beschrieben
werden wird. Pixel werden auf der Grundlage der Werte, die eine
Vordergrundeigenschaft haben, auf einem Dokument mit weißem Hintergrund
ist dies gewöhnlich
der Wert, der Schwarz repräsentiert,
als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft
der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe,
die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch
den Auswahlpunkt angegeben wird, oder eine von der Hintergrundfarbe
verschiedene Farbe. Verfahren zur Unterscheidung zwischen Vordergrund-
und Hintergrundpixeln sind im Stand der Technik hinreichend bekannt,
Z. B.
EP 1 182 605 A .
-
Als
erstes Vordergrundpixel wird ein Pixel gefunden, das durch den Auswahlpunkt
angegeben wird, d. h. das Vordergrundpixel, das dem Ort des Auswahlpunktes
entspricht oder in der Nähe
des Auswahlpunktes liegt, wenn der Auswahlpunkt auf einem Hintergrundpixel
in dem Metadatenelement liegt. Wenn der Auswahlpunkt auf einem Hintergrundpixel
innerhalb eines vorbestimmten Abstands zu Vordergrundpunkten liegt,
kann das System das angegebene Pixel zum Zweck der Auffindung von
Pixeln, die das gewünschte
Metadatenelement konstituieren, als ein Vordergrundpixel betrachten,
d. h., den Auswahlpunkt aufgrund der Tatsache, daß er durch
den Benutzer angegeben worden ist, als ein Vordergrundpixel (um)klassifizieren.
Alternativ kann das System das nächstgelegene
Vordergrundpixel als Auswahlpunkt auswählen. Wenn der Auswahlpunkt
auf einem weit von Vordergrundpunkten entfernten Hintergrundpixel
liegt, kann das System diese Auswahl als einen Befehl auffassen,
einen aktuell ausgewählten
Auswahlbereich für
Metadaten zu löschen.
-
Auf
der Grundlage des ersten Vordergrundpixels wird ein Bereich von
Pixeln detektiert und als Teil der Metadaten aufgefaßt, und
ein Extraktionsbereich wird um diesen Bereich herum gezeichnet und dem
Benutzer angezeigt. Meta daten werden extrahiert, indem Pixel in
dem Extraktionsbereich verarbeitet werden.
-
In
einer Ausführungsform
wird ein einziger Typ von Metadaten detektiert, z. B. Text, der
für die Erzeugung
eines Dateinamens für
das eingescannte Dokument verwendet werden soll. Der Dateiname kann
automatisch erzeugt werden, nachdem der Benutzer den Auswahlpunkt
angegeben hat. Alternativ können
die erkannten Metadaten und/oder der vorgeschlagene Dateiname dem
Benutzer angezeigt werden, und es kann ein Bestätigungsbefehl verlangt werden,
um die Metadaten endgültig
zu akzeptieren.
-
2 zeigt
eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion
von Metadaten. Die Vorrichtung umfaßt eine Eingabeeinheit 21 zur
Eingabe eines digitalen Bildes. Die Eingabeeinheit kann eine Abtasteinheit
zum Abtasten eines Bildes von physikalischen Dokumenten einschließen, etwa
einen elektro-optischen Scanner, und/oder eine digitale Kommunikationseinheit
zum Empfang des Bildes von einem Netzwerk wie etwa einem lokalen Netzwerk
(LAN) oder dem Internet, und/oder eine Wiedergabeeinheit zur Wiedergabe
von digitaler Information von einem Aufzeichnungsträger wie
etwa einem optischen Plattenlaufwerk. Die Eingabeeinheit 21 ist
mit einer Verarbeitungseinheit 24 verbunden, die mit einer
Speichereinheit 22 zusammenwirkt. Die Speichereinheit kann
eine Aufzeichnungseinheit beinhalten, zur Speicherung des Bildes
und/oder der Metadaten auf einem Aufzeichnungsträger wie einem Magnetband oder
einer optischen Platte. Die Verarbeitungseinheit kann eine zentrale
Verarbeitungseinheit (CPU) eines Vielzweckrechners und unterstützende Schaltungen
umfassen, die mit Software zur Ausführung der oben beschriebenen
Metadatenextraktion arbeitet. Die Verarbeitungseinheit ist mit einer
Benutzerschnittstelle 25 verbunden, die wenigstens eine
Zeigeeinheit zur Angabe eines Auswahlpunktes in dem Bild aufweist.
Die Benutzerschnittstelle kann Bedienungseinrichtungen wie etwa eine
Tastatur, eine Maus oder Bedienungstasten umfassen. Die Verarbeitungseinheit
ist mit einer Anzeigeeinheit 23 verbunden. Die Anzeigeeinheit
umfaßt einen
Anzeigeschirm zur Anzeige des Bildes und des Extraktionsbereiches,
wie oben im Zusammenhang mit 1 erläutert wurde.
Insbesondere können
die Anzeigeeinheit und die Zeigeeinheit durch einen Touch Screen
gebildet werden, der darauf reagiert, daß der Benutzer mit einem Finger
auf das Metadatenelement in dem angezeigten Bild zeigt, um den Auswahlpunkt
anzuge ben. Die Verarbeitungseinheit kann mit einer Druckereinheit
zur Ausgabe eines verarbeiteten Bildes oder der Metadaten auf Papier
verbunden sein. Die extrahierten Metadaten können mit dem Bild in einer
Datenbank gespeichert werden, z. B. in der Speichereinheit 22 oder
in einem gesonderten Computersystem.
-
Es
ist zu bemerken, daß die
Vorrichtung mit Hilfe von standardmäßigen Hardwarekomponenten für einen
Computer und einem Computerprogramm aufgebaut sein kann, um den
den Prozeß der
Metadatenextraktion auszuführen,
wie nachstehend beschrieben wird. Alternativ kann die Vorrichtung
eine spezialisierte Hardwareeinrichtung sein, die eine Abtasteinheit,
eine Verarbeitungseinheit und ein Display zur Ausführung der
Metadatenextraktion enthält. Weiterhin
kann der Abtastprozeß von
dem interaktiven Prozeß der
Metadatenextraktion getrennt sein, z. B. kann eine Abtasteinheit
in einem Posteingangsraum über
ein LAN mit einer Indizierstelle verbunden sein, die das Display
und das Bedienungssystem enthält.
-
3 zeigt
ein Verfahren zur Extraktion von Metadaten. In einem ersten Schritt
EINGABEBILD VORBEREITEN S31 wird das Bild als eine digitale Datei
von Pixelwerten von z. B. einer Abtasteinrichtung empfangen. Der
Schritt kann eine weitere Bildverarbeitung auf der Grundlage vorbestimmter Kenntnisse
oder detektierter Eigenschaften des Bildes einschließen, etwa
Verstärkung
des Kontrasts, Bestimmung von Vordergrund- oder Hintergrundeigenschaften
anhand einer globalen Statistik des Bildes, Drehen des Bildes und
dergleichen. Dieser Schritt kann auch die Vorbereitung eines zusätzlichen
Eingabebildes, das eine geringere Auflösung hat, für den Gebrauch bei der Bildanalyse
in Schritt 34 einschließen (wird später beschrieben).
Da das eingescannte Bild eine relativ hohe Auflösung hat, wird eine moderate
Verringerung der Auflösung,
Z. B. um einen Faktor von 2 bis 4, die Analyse normalerweise nicht
verschlechtern, während
sie die benötigte
Verarbeitungsleistung reduziert. Das ursprüngliche hochaufgelöste Eingabebild
wird immer noch für
die Anzeige und die Zwecke der Datenextraktion verwendet.
-
In
einem nächsten
Schritt BILD ANZEIGEN S32 wird das Bild einem Benutzer auf einem
Display gezeigt. Der Schritt kann das Auffinden eines relevanten
Teils des Bildes für
die Anzeige einschließen, z.
B. den Teil des Bildes, der die ersten Textzeilen auf einer Seite
enthält,
die mit einem großen
weißen
Gebiet beginnt. In einem nächsten
Schritt AUSWAHLPUNKT S33 wird eine Benutzeraktion erwartet, um einen
Auswahlpunkt in dem Bild anzugeben, insbesondere in einem Metadatenelement.
Eine symbolische Warteschleife L33 in der Zeichnung gibt an, daß das System
auf eine Benutzeraktion wartet.
-
In
einem nächsten
Schritt VERBUNDENES GEBIET FINDEN S34 werden die Pixel um den Auswahlpunkt
herum analysiert, um die Vordergrundpixel zu finden, die innerhalb
eines Verbindungsbereiches liegen, wie nachstehend in Verbindung
mit 4 erläutert werden wird. In einem
nächsten
Schritt EXTRAKTIONSBEREICH ANZEIGEN S35 wird ein Extraktionsbereich
angezeigt, der das verbundene Gebiet abdeckt. Der Extraktionsbereich
kann als eine rechteckige Fläche
dargestellt werden, die gerade das verbundene Gebiet enthält, eine
hervorgehobene Fläche,
oder irgendein anderes geeignetes Anzeigemerkmal. Der Extraktionsbereich
kann auch an den Typ der Metadaten angepaßt sein, etwa als eine Grenze
auf Wörtern
in einem größeren Textfragment, wie
mit Bezug auf 6 beschrieben werden wird.
-
Es
ist zu bemerken, daß der
Benutzer einen Auswahlpunkt aktiv eingeben kann, z. B. durch Klicken
einer Maustaste, wenn sich der Cursor auf dem gewünschten
Metadatenelement befindet, oder durch Tippen mit einem Finger auf
einen Touch Screen. Das System kann jedoch auch automatisch einen
vorgeschlagenen Extraktionsbereich anzeigen, sobald der Benutzer
ein Zeigeelement (etwa einen Cursor) in der Nähe eines Vordergrundobjekts
positioniert, oder nach einer bestimmten (kurzen) Wartezeit. In
dem automatischen Modus sind die Schritte AUSWAHLPUNKT S33, VERBUNDENES
GEBIET FINDEN S34 und EXTRAKTIONSBEREICH ANZEIGEN S35 kombiniert.
Der Cursor kann als ein spezielles Symbol dargestellt werden, das
den automatischen Modus anzeigt, z. B. durch Hinzufügen eines kleinen
Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt
auf der Grundlage der visuellen Rückkopplung durch den vorgeschlagenen Extraktionsbereich
bestimmen.
-
Auf
der Grundlage des angezeigten Extraktionsbereiches kann der Benutzer
verifizieren, daß der Extraktionsbereich
die gewünschten
Metadatenelemente abdeckt. In einem nächsten Schritt ENDGÜLTIGER BEREICH
S36 bestätigt
der Benutzer den angezeigten Extraktionsbereich, z. B. durch einen Mausbefehl
oder implizit durch Eingabe eines nächsten Dokuments.
-
Wie
durch eine symbolische Schleife L36 angedeutet wird, kann der Benutzer
den vorgeschlagenen Extraktionsbereich auch anpassen, wie in Verbindung
mit 5 oder 6 erläutert wird. Zum Beispiel kann
der Benutzer einen zweiten Punkt angeben, der ebenfalls in dem Extraktionsbereich
enthalten sein muß,
oder der Benutzer gibt eine Erweiterung des vorgeschlagenen Extraktionsbereiches an,
indem er mit dem Zeigeelement von dem Auswahlpunkt in eine Richtung
zieht, in der er den Extraktionsbereich erweitern möchte. Als
Reaktion auf die Anpassung kann das Display den endgültigen Bereich
zeigen.
-
In
einem nächsten
Schritt METADATEN EXTRAHIEREN S37 wird der endgültig bestätigte Extraktionsbereich verarbeitet,
um die Metadatenelemente zu detektieren und zu erkennen, z. B. Wörter durch
OCR. Das Resultat kann auf dem Display in einem Textfeld angezeigt
werden. Der Schritt S37 METADATEN EXTRAHIEREN kann einschließen, daß eine Ergänzung des
Auswahlbefehls empfangen wird, mit welcher der Benutzer angibt,
daß ein
bestimmter Metadatentyp zugewiesen werden soll, wie z. B. "Titel", "Autor", "Zusammenfassung", etc. Zum Beispiel
kann der Benutzer einen bestimmten Knopf aktivieren, um Metadaten
in dem Extraktionsbereich als den Titel des Dokuments einzugeben.
-
4A,
B und C zeigen das Wachstum eines Gebietes von dem Auswahlpunkt
aus. Der Benutzer gibt den Auswahlpunkt in dem Bild an, und dann
wird ein Gebiet wie folgt gebildet. Ein Anfangs-Vordergrundpixel
wird am Auswahlpunkt ausgewählt.
Wenn der Auswahlpunkt auf einem Hintergrundpixel, jedoch innerhalb
eines vorbestimmten Abstands zu einem Vordergrundpixel liegt, so
kann dieses Vordergrundpixel als ein Anfangspixel verwendet werden.
-
4A zeigt
ein Gebiet, das mit einem Verbindungsabstand von einem Pixel wächst. Ein
detaillierter Teil eines Bildes 41 ist in vier Wachstumsphasen
des Gebietes dargestellt, wobei einzelne Pixel als weiß (Hintergrund)
oder grau (Vordergrund) erscheinen. Der Benutzer hat einen Auswahlpunkt 40 angegeben,
der durch einen schwarzen Punkt dargestellt ist. Das Gebietswachstum
beginnt an dem Pixel, das dem Auswahlpunkt 40 entspricht,
und zunächst
ist ein Anfangsgebiet 42 mit nur einem Pixel gezeigt. Es
wird angenommen, daß der
Verbindungsabstand für
das Wachstum ein Pixel beträgt,
d. h. es werden keine zwischenliegenden Hintergrundpixel zugelassen.
In der zweiten Wachstumsphase ist ein zweites Gebiet 43 gezeigt,
das nach unten erweitert ist, um direkt verbundene Pixel einzuschließen. In
einer dritten Wachstumsphase ist ein drittes Gebiet 44 gezeigt,
das nach rechts erweitert ist, um direkt verbundene Pixel einzuschließen. In
einer vierten Wachstumsphase ist ein viertes Gebiet 45 gezeigt, das
wiederum nach rechts erweitert ist, um direkt verbundene Pixel einzuschließen. Da
keine weiteren Vordergrundpixel innerhalb des Verbindungsabstands
(= 1) liegen, hält
das Gebietswachstum an. Es ist zu bemerken, daß ein rechteckiger Bereich
als eine gestrichelte Linie um die Wachstumsgebiete 42, 43, 44 und 45 herum
gezeichnet ist. Dieser Bereich enthält auch Hintergrundpixel. Nach
Abschluß des Gebietswachstumsprozesses
kann der gezeichnete Bereich der vorgeschlagene Extraktionsbereich
sein.
-
4B zeigt
ein Gebietswachstum mit einem Verbindungsabstand von zwei Pixeln.
Es ist das gleiche Detail eines Bildes wie in 4A gezeigt.
Der Verbindungsabstand ist auf zwei Pixel erhöht, und deshalb werden einzelne
zwischenliegende Hintergrundpixel überbrückt. Der resultierende rechteckige Bereich 46 enthält die Vordergrundpixel,
die einen Verbindungsabstand von zwei haben. Der Benutzer kann den
resultierenden Bereich bestätigen
oder entscheiden, daß der
rechteckige Bereich zu klein ist. In dem Fall ergänzt der
Benutzer seinen Auswahlbefehl. Dazu kann der Benutzer einen zweiten
Auswahlpunkt 47 in einem weiteren Vordergrundteil des Bildes
angeben, z. B. indem er auf die neue Stelle zeigt oder von dem Auswahlpunkt 46 zu
dem zweiten Auswahlpunkt 47 zieht. Die Ergänzung des
Auswahlbefehls wird von der Verarbeitungseinheit 24 in
einen größeren Verbindungsabstand übersetzt,
der gerade genügt,
den zweiten Auswahlpunkt 47 zu dem Auswahlbereich hinzuzufügen. Das
kann dazu führen, daß der Auswahlbereich
auch in anderen Richtungen erweitert wird.
-
In
einer Ausführungsform
kann der Benutzer wiederholt auf dieselbe Stelle klicken oder zeigen, um
den Verbindungsabstand zu vergrößern.
-
4C zeigt
ein Gebietswachstum mit einem Verbindungsabstand von drei Pixeln.
Es ist das gleiche Detail eines Bildes wie in 4B gezeigt.
Der Verbindungsabstand ist auf drei Pixel erhöht, und deshalb werden bis
zu zwei zwischenliegende Hintergrundpixel überbrückt. Der resultierende rechteckige
Bereich 48 enthält
den zweiten Auswahlpunkt 47. Es ist zu bemerken, daß der Gebietswachstumsprozeß auch an
die erhaltenen Resultate angepaßt werden
kann oder Lernoptionen enthalten kann, z. B., daß ein größerer Verbindungsabstand benutzt wird,
wenn der Benutzer in den meisten Fällen den Bereich vergrößern muß. Ebenso
kann der Prozeß einschließen, daß, wenn
ein verbundenes Gebiet unterhalb einer vorbestimmten Größe gefunden
wird, der Verbindungsabstand automatisch vergrößert wird, um mindestens die
vorbestimmte Größe zu erreichen.
-
In
einer weiteren Ausführungsform
des Gebietswachstumsprozesses ist der Verbindungsabstand für unterschiedliche
Richtungen verschieden. Zum Beispiel kann der Verbindungsabstand
in horizontaler Richtung größer sein
als der Verbindungsabstand in vertikaler Richtung. Für gewöhnliche
Textdokumente führt
dies dazu, daß Wörter in
einer Textzeile robuster verbunden werden, ohne daß die Textzeile
mit der nächsten
oder vorherigen Zeile verbunden wird. In einem Verarbeitungsschritt
kann eine Leserichtung bestimmt werden, z. B. durch Analyse des Layouts
von Hintergrundpixeln. Der Verbindungsabstand kann von der Leserichtung,
z. B. von links nach rechts, abhängig
sein, und vom Auswahlpunkt aus nach rechts kann der Verbindungsabstand
größer sein.
-
In
einer Ausführungsform
des Gebietswachstumsprozesses wird der Verbindungsabstand in Abhängigkeit
von einer Auswahlrichtung angepaßt, die über die Ergänzung des Auswahlbefehls eingegeben
wird. Der vorgeschlagene Extraktionsbereich wird dem Benutzer angezeigt,
und der Benutzer wird leicht erkennen, daß der Extraktionsbereich in einer
bestimmten Richtung erweitert werden muß. Der Benutzer kann die Auswahlrichtung
angeben, indem er ein Auswahlmittel (Cursor oder einen Finger auf
einem Touch Screen) von dem Auswahlpunkt aus in der Auswahlrichtung
zieht. Es ist zu bemerken, daß die
Zunahme des Verbindungsabstands aus der Weite des Zuges vom ersten
Auswahlpunkt aus abgeleitet werden kann.
-
Zusätzlich zur
Steuerung des Extraktionsbereiches auf der Grundlage des Gebietswachstums kann
die Vorrichtung weitere Optionen zur Anpassung des Extraktionsbereiches
bieten. Die Auswahl des Extraktionsbereiches kann eine Anpassung
der Form des Extraktionsbereiches über die Ergänzung des Auswahlbefehls einschließen, wie
im folgenden beschrieben wird.
-
5 zeigt
die Anpassung eines Extraktionsbereiches für Metadaten. Anfangs wird dem
Benutzer ein rechteckiger Extraktionsbereich 50 gezeigt.
Die Form des Extraktionsbereiches kann durch steuerbare Elemente 52, 53 des
vorgeschlagenen Extraktionsbereiches verändert werden. Der Benutzer
gibt eine Ergänzung
des Auswahlbefehls ein, indem er eines der steuerbaren Elemente
bewegt. Die steuerbaren Elemente werden dem Benutzer durch zusätzliche
Symbole angezeigt, z. B. kleine Quadrate, die zu den Seiten und
Ecken des Extraktionsbereiches 50 hinzugefügt werden.
Der Benutzer kann z. B. die obere Seite des Extraktionsbereiches 50 ziehen. Das
Resultat kann darin bestehen, daß der Extraktionsbereich nur
nach oben erweitert wird. Durch Manipulation der steuerbaren Ecke 53 werden
die entsprechenden linken und unteren Seiten bewegt. Mögliche neue
Positionen der Seiten und Ecken können während der Manipulation als
gestrichelte Linien 51 angezeigt werden. Nach der endgültigen Auswahl des
Bereiches wird die neue Position der Seiten und Ecken in durchgezogenen
Linien dargestellt. Es ist zu bemerken, daß andere visuelle Elemente
dazu eingesetzt werden können,
die Steueroptionen darzustellen, z. B. Farben, Blinken und dergleichen.
-
In
einer Ausführungsform
können
alle vier Seiten simultan erweitert oder geschrumpft werden, Z.
B. durch Manipulation eines dafür
vorgesehenen Symbols. Die Form des Extraktionsbereiches kann angepaßt werden,
indem die Größe des Extraktionsbereiches über ein
ergänzendes
Benutzer-Steuerereignis wie etwa das Klicken einer Maustaste vergrößert oder
verkleinert wird.
-
6 zeigt
die Anpassung der Form eines nicht rechteckigen Extraktionsbereiches.
Es ist ein Extraktionsbereich 60 gezeigt, der für die Auswahl
eines Teils eines Textfragments konstruiert ist. Diese Auswahl beginnt
an einem Wort in der Mitte einer Zeile und endet auch in der Mitte
einer Zeile. Es wird ein Spaltenlayout des Texts angenommen. Vertikale
Seiten können
leicht detektiert werden und mögen
nicht einmal durch den Benutzer steuerbar sein. Die untere Seite 61 hat
zwei horizontale Teile und einen mittleren vertikalen Teil. Insbesondere
kann der mittlere vertikale Teil zu einer Stelle in den Textzeilen
hinter dem letzten Wort gezogen werden, das in die Metadaten einbezogen
werden soll.
-
Nachdem
der Extraktionsbereich endgültig festgelegt
worden ist, können
die Metadaten durch OCR (Optical Character Recognition) extrahiert
und verar beitet werden. Der Benutzer kann einen Typ von Metadaten
zuweisen, z.B. durch Betätigen
einer Taste oder durch Auswahl einer Menüoption, wie in 7 gezeigt
ist und weiter unten erläutert
wird. Die extrahierten Metadaten und zugewiesenen Typen werden in
eine Datenbank eingegeben und können zum
Indizieren und/oder zum Erkennen der Dokumente in der Datenbank
benutzt werden.
-
In
einer Ausführungsform
dient die Festlegung des Extraktionsbereiches und die Extraktion der
Metadaten dazu, einen Dateinamen zu bestimmen, der an ein gescanntes
Dokument angehängt werden
soll. Der Extraktionsbereich kann unter Berücksichtigung der Anforderungen
an einen Dateinamen vorgeschlagen werden, z. B. daß er eine
minimale und eine maximale Länge
haben muß.
Der Extraktionsprozeß kann
einschließen,
daß die
Textzeichenkette so angepaßt
wird, daß sie
mit Regeln für Dateinamen
in Übereinstimmung
gebracht wird, z.B. Beseitigung von verbotenen Zeichen und Verhindern, daß derselbe
Dateiname erneut verwendet wird. Weitere Identifizierungsdaten wie
ein Kalenderdatum oder eine Zeit können hinzugefügt werden.
Ein eingescanntes Dokument kann unter Verwendung des gebildeten
Dateinamens automatisch gespeichert werden.
-
7 zeigt
ein Display eines Bildes, eines Extraktionsbereiches und eines Menüs. Ein Bild 70 eines
eingescannten Dokuments wird einem Benutzer angezeigt. Es ist ein
Extraktionsbereich 71 ausgewählt worden, insbesondere ist
ein Textfragment, das eine Zusammenfassung ("Abstract") zu sein scheint, in dem Extraktionsbereich 71 eingeschlossen.
Der Benutzer hat den Extraktionsbereich bestätigt, und nun wird ein neues
Steuerelement angezeigt, z. B. ein Aufklappmenü 72, das durch einen Klick
auf die rechte Maustaste aktiviert wird. Das Menü bietet zusätzlich zu weiteren Befehlen
wie etwa "Löschen der
Auswahl" (Unselect)
verschiedene Typen von Metadaten an, die zugewiesen werden können. Durch
Verwendung der <Control> Taste auf einer Tastatur
können
auch Kurzbefehle bereitgestellt werden.
-
Die
Auswahl des Typs der Metadaten beendet den interaktiven Prozeß der Metadatenextraktion. Die
Metadaten können
nun für
die weitere Verarbeitung verfügbar
gemacht werden, z. B. zum Speichern in einer Datenbank.
-
Obgleich
die Erfindung in der Hauptsache durch Ausführungsformen erläutert wurde,
bei denen Textelemente verwendet werden, die die Metadaten in dem
digitalen Bild repräsentieren,
ist die Erfindung auch für
irgendeine Wiedergabe von Metadateninformation geeignet, etwa durch
Symbole, Logos oder andere Bildelemente, die sich kategorisieren
lassen, wie z. B. Portraits.