DE602004006682T2

DE602004006682T2 - Extraktion von Metadaten aus gekennzeichneten Bereichen eines Dokuments

Info

Publication number: DE602004006682T2
Application number: DE602004006682T
Authority: DE
Inventors: Jodocus F. Jager
Original assignee: Oce Technologies BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2003-08-20
Filing date: 2004-08-13
Publication date: 2008-01-31
Anticipated expiration: 2024-08-14
Also published as: JP4970714B2; CN100382096C; JP2005071349A; DE602004006682D1; US7756332B2; EP1510962A1; CN1839396A; US20050041860A1; EP1510962B1; ATE363700T1; CN1604120A; CN100476859C; JP2012053911A

Description

Die Erfindung betrifft ein Verfahren zur Extraktion von Metadaten aus einem aus Pixeln aufgebauten Bild eines Dokuments, wobei die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte eine Vordergrundeigenschaft haben, welches Verfahren die Anzeige wenigstens eines Teils des Bildes auf einem Anzeigeschirm für einen Benutzer, den Empfang eines von einem Benutzer gegebenen Auswahlbefehls für eine Metadaten enthaltendes Gebiet des Bildes, die Bestimmung eines Extraktionsbereiches innerhalb des Bildes auf der Grundlage des Auswahlbefehls des Benutzers, und die Extraktion der Metadaten durch Verarbeitung der Pixel in dem Extraktionsbereich umfaßt.
Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt und eine Vorrichtung, in denen das Verfahren implementiert ist.
In Umgebungen, in denen große Anzahlen von digitalen Dokumenten verarbeitet werden, besteht häufig Bedarf, beschreibende Daten zu erzeugen, die einem Dokument zugeordnet werden können, um dessen weitere Behandlung zu erleichtern. Solche beschreibenden Daten, die im folgenden als "Metadaten" bezeichnet werden sollen, können irgendwelche Daten umfassen, die das Dokument beschreiben, z.B. ein Titel, ein Autor, ein Dokumenttyp, ein Stichwort, eine Inhaltszusammenfassung usw..
Die Metadaten können z.B. als Eingabedaten zum Aufrufen von Dokumenten verwendet werden, die in einer Datenbank gespeichert sind. Sie können auch in Scanner-Anwendungen zur Erzeugung von Dateinamen sowie in vielen anderen Situationen verwendet werden. Metadaten können von menschlichen Bearbeitern erstellt werden, die das Dokument lesen und es mit wenigen bedeutungshaltigen Wörtern beschreiben. Dies ist ein anspruchsvoller, jedoch extrem zeitraubender Weg, Metadaten zu erzeugen. In vielen Fällen sind jedoch Metadaten, die sich verwenden lassen, bereits in dem Dokument selbst enthalten, z.B. der Titel, der Autor, etc., und es wäre oftmals völlig akzeptabel, eines von ihnen als beschreibendes Kennzeichnen zu verwenden.
Wenn Dokumente in digital codierter Form vorliegen, etwa als MS WORD^TM Dokumente, können sie durch spezialisierte Programme, die das Dokument durchsuchen und vorprogrammierte Stichwörter extrahieren, automatisch indiziert werden. Dokumente, die jedoch als Bilder vorliegen, d.h., als Zusammenstellungen von schwarzen (farbigen) und weißen Pixeln, müssen zunächst durch OCR in die digital codierte Form umgewandelt werden, ein Prozeß der viel Rechenleistung benötigt und dennoch nicht immer einwandfrei arbeitet. Auch das Indizierprogramm benötigt eine beträchtliche Zeit zur Verarbeitung eines Dokuments.
Die automatische Interpretation von Dokumentbildern ist für stark strukturierte Dokumente wie etwa Patentdokumente bekannt. Solche Dokumente haben eine streng vorgeschriebene Form, und ein Computer kann dazu programmiert werden, spezielle vorbestimmte Informationselemente in dem Dokumentbild zu finden und zu verarbeiten. Dokumente mit frei gewähltem Format können jedoch nicht auf diese Weise verarbeitet werden.
Menschliche Bearbeiter haben den Vorteil, daß sie ein Dokumentbild leicht überblicken und relevante Elemente darin finden können. Es wäre deshalb vorteilhaft, einen Bearbeiter Metadaten in dem Dokumentbild auswählen zu lassen, die dann durch ein Computersystem automatisch extrahiert und dem Dokument zugeordnet werden.
Ein Verfahren und eine Vorrichtung zur Extraktion von Metadaten aus einem Dokument sind aus EP 1 136 938 bekannt. Dokumente werden zunächst mit Hilfe eines an einen Computer angeschlossenen Scanners abgetastet, um ein Bild aus Pixeln zu erzeugen. In der genannten Veröffentlichung zum Stand der Technik haben die abgetasteten Dokumente ein strukturiertes Layout, in dem Textzeichenketten, die Metadaten repräsentieren, in Kästen positioniert sind, die die Textzeichenketten mit gezeichneten Linien umschließen. Insbesondere technische Zeichnungen haben solche Kästen, die Metadaten, wie etwa Titel, Kalenderdaten, Versionen usw. enthalten. Der Benutzer bedient ein Zeigeinstrument des Computers, um einen beliebigen Punkt in wenigstens einem Kasten der Dokumente zu bezeichnen. Nachdem der Punkt durch den Benutzer bezeichnet worden ist, wird der diesen Punkt enthaltende Kasten identifiziert, indem die umgebenden Linien detektiert werden. Anschließend werden die Zeichnen in diesem Kasten durch optische Schriftzeichenerken nung (OCR) erkannt, um die Metadaten zu gewinnen und in einer Datenbank zu speichern, die mit dem Computer verbunden ist, damit die in dieser Weise abgetasteten Dokumente indiziert werden können. Somit wird die Kastenstruktur der Metadaten für die Identifizierung der Metadaten vorausgesetzt. Das Problem des bekannten Verfahrens besteht darin, daß das Verfahren nur Metadaten aus Dokumenten extrahieren kann, die strukturierte Kästen aufweisen, die die Metadaten als Textzeichenketten enthalten.
Ein Verfahren und eine Vorrichtung zur Extraktion von Metadaten aus einem Dokument gemäß dem Oberbegriff wird in EP 1 256 900 beschrieben. Bei diesem bekannten System, das für die Eingabe von digitalen Dokumenten in eine Datenbank und zur Extraktion von Metadaten für die Zwecke des Wiederaufrufs vorgesehen ist, muß ein Bearbeiter mit einer Maus oder dergleichen eine "Hülle" um das Metadatenobjekt in dem Bild zeichnen. Dann konvertiert das System die in der Hülle enthaltene Bitmap-Bildinformation durch OCR in das Textformat. In dieser Veröffentlichung bezeichnet der Bearbeiter den Extraktionsbereich, was eine sorgfältige Arbeitsweise erfordert, und selbst dann können durch ungenaue Mausbewegungen leicht Fehler entstehen.
US 6 323 876 beschreibt ein System zum Analysieren eines Dokumentbildes, zum Erkennen unterschiedlicher Gebiete (etwa Gebiete mit Schriftzeichen, Gebiete mit Fotografien und leere Gebiete) in dem Bild und um es einem Bearbeiter zu erlauben, ein Gebiet leicht zu bezeichnen, indem er darauf zeigt. Das bezeichnete Gebiet kann dann bearbeitet werden.
Das in diesem bekannten System angewandte Verfahren beruht auf einer recht komplizierten mehrstufigen Prozedur, die die Erstellung und Analyse von Projektions-Pixelhistogrammen, das Analysieren von Bitmaps nach 8-benachbart zusammenhängenden Komponenten von Vordergrundpixeln, das Etikettieren von Komponenten und das Vereinigen von Komponenten zur Identifizierung von Schriftzeichen einschließt, gefolgt von Bildbereichsunterscheidung einschließlich Bestimmung von Attributen und Layoutanalyse.
Es ist eine Aufgabe der Erfindung, ein relativ einfaches Verfahren und eine relativ einfache Vorrichtung zur Extraktion von Metadaten aus Dokumenten zu schaffen, bei denen die Metadaten nicht in strukturierten Kästen oder extern definierten Bereichsbegrenzungen enthalten zu sein brauchen.
Gemäß einem ersten Aspekt der Erfindung wird diese Aufgabe gelöst durch ein Verfahren, wie es im einleitenden Absatz beschrieben wurde, das dadurch gekennzeichnet ist, daß der Schritt der Bestimmung eines Extraktionsbereiches innerhalb des Bildes den Aufbau des Extraktionsbereiches als ein zusammenhängendes Gebiet aus Vordergrundpixeln umfaßt, wobei in einer einstufigen Prozedur, beginnend mit einem Auswahlpunkt, der als Teil des Auswahlbefehls des Benutzers in dem angezeigten Teil des Bildes angegeben wird, fortschreitend alle Vordergrundpixel einbezogen werden, die innerhalb eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen in das verbundene Gebiet einbezogenen Vordergrundpixel liegen.
Gemäß einem zweiten Aspekt der Erfindung wird die Aufgabe durch eine Vorrichtung zur Extraktion von Metadaten aus einem aus Pixeln aufgebauten Dokumentbild gelöst, bei dem die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte eine Vordergrundeigenschaft haben, welche Vorrichtung eine Eingabeeinrichtung zum Empfang des Bildes, eine Anzeigeeinrichtung zur Anzeige wenigstens eines Teils des Bildes für einen Benutzer, eine Benutzerschnittstelle zum Empfang eines von einem Benutzer gegebenen Auswahlbefehls für ein Metadaten enthaltendes Gebiet des Bildes, und eine Verarbeitungseinheit zur Bestimmung eines Extraktionsbereiches innerhalb des Bildes auf der Grundlage des Auswahlbefehls des Benutzers und zur Extraktion der Metadaten durch Verarbeitung von Pixeln in dem Extraktionsbereich umfaßt, welche Vorrichtung dadurch gekennzeichnet ist, daß die Verarbeitungseinheit dazu ausgebildet ist, den Extraktionsbereich als ein verbundenes Gebiet aus Vordergrundpixeln aufzubauen, in einer einstufigen Prozedur, bei der, beginnend mit einem Auswahlpunkt, der als Teil des Auswahlbefehls des Benutzers in dem angezeigten Teil des Bildes angegeben wird, fortschreitend alle Vordergrundpixel einbezogen werden, die innerhalb eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen in das verbundene Gebiet einbezogenen Vordergrundpixel liegen.
Gemäß einem dritten Aspekt der Erfindung wird die Aufgabe mit einem Computerprogrammprodukt zur Ausführung des Verfahrens gelöst.
Über eine Benutzerschnittstelle, etwa einen berührungsempfindlichen Bildschirm (Touch Screen) oder eine Maus, gibt der Benutzer einen Auswahlpunkt in dem Metadatenelement an, das er extrahiert haben möchte. Ein erstes Vordergrundpixel wird dadurch gefunden, daß es durch den Auswahlpunkt angegeben wird, d.h., das Vordergrundpixel, das dem Ort des Auswahlpunktes entspricht oder nahe bei dem Auswahlpunkt liegt, wenn der Auswahlpunkt sich auf einem Hintergrundpixel in dem Metadatenelement befindet. Ein dem Metadatenelement entsprechender Extraktionsbereich wird dann konstruiert, indem, beginnend mit dem angegebenen ersten Vordergrundpixel, Vordergrundpixel mit diesem ersten Vordergrundpixel verbunden werden. Es wird ein Verbindungsabstand eingeführt, um nicht signifikante Hintergrundpixel zu ignorieren und so sicherzustellen, daß sich ein Extraktionsbereich ungeachtet der Zwischenräume zwischen den Schriftzeichen über ein ganzes Wort erstrecken kann.
Dann wird der Extraktionsbereich auf der Grundlage des verbundenen Gebietes bestimmt. Der Vorteil des Extraktionsbereiches besteht darin, daß er nur auf dem Metadatenelement selbst basiert, gewöhnlich einem Textelement. Zum Lenken des Extraktionsprozesses für die Metadaten wird keine vordefinierte Struktur in dem Bild, wie etwa ein Kasten um den Text herum, benötigt,
Das Verfahren gemäß der Erfindung hat den Vorteil, daß das Wachsen des verbundenen Gebietes auf der Grundlage des Verbindungsabstands ein robuster und einfacher Weg zur Berechnung eines Schätzwertes für das Extraktionsgebiet ist. Es ist zu bemerken, daß der Extraktionsbereich gewöhnlich parallele Seiten haben wird, aber nicht rechteckig zu sein braucht. In Textdokumenten wird eine rechteckige Form am praktischsten sein, doch kann in größeren Textfragmenten die Form des Extraktionsbereiches angepaßt werden. Für Symbole oder graphische Elemente kann eine andere Form des Extraktionsbereiches verwendet werden.
In einer Ausführungsform der Erfindung umfaßt die Erzeugung des verbundenes Gebietes das Einstellen des Verbindungsabstands in Abhängigkeit von einer Verbindungsrichtung, wobei die Verbindungsrichtung insbesondere horizontal, vertikal oder eine angenommene Leserichtung ist. Durch Einstellen des Verbindungsabstands auf einen Wert, der die Distanz zwischen erwarte ten Metadatenelementen, etwa Schriftzeichen in einem Wort oder Wörtern in einem Satz, überbrückt, wird der Extraktionsbereich sich über Metadatenelemente erstrecken, für die es wahrscheinlich ist, daß der Benutzer sie angeben will. Durch Annahme oder Ableitung einer Leserichtung erlaubt es das Verfahren dem Benutzer, den Beginn eines Textfragments in einem größeren Textabschnitt einfach anzugeben, weil das Wachstum die Textelemente in dieser Leserichtung verbinden wird.
In einer weiteren Ausführungsform des Verfahrens wird das eingegebene Dokumentbild zunächst auf eine niedrigere Auflösung konvertiert, und die Schritte der Klassifizierung von Pixeln und der Bestimmung eines Extraktionsbereiches werden an dem Bild mit geringerer Auflösung ausgeführt. Dies hat den Vorteil, daß weniger Rechenleistung benötigt wird, während eine moderate Absenkung der Auflösung normalerweise die Genauigkeit des Verfahrens nicht beeinträchtigt.
In einer Ausführungsform des Verfahrens umfaßt die Bestimmung des Extraktionsbereiches die Anzeige eines vorgeschlagenen Extraktionsbereiches. Das hat den Vorteil, daß der Benutzer eine visuelle Rückkopplung für den berechneten Extraktionsbereich hat.
In einer weiteren Ausführungsform umfaßt das Verfahren außerdem den Empfang einer Ergänzung zu dem Auswahlbefehl, zur Anpassung des Verbindungsabstands. Das hat den Vorteil, daß der Benutzer den vorgeschlagenen Extraktionsbereich leicht bestätigen, verwerfen oder verändern kann.
In einer weiteren Ausführungsform umfaßt das Verfahren außerdem die automatische Anpassung des Verbindungsabstands als Reaktion auf die Ergänzung des Auswahlbefehls, wobei die Ergänzung des Auswahlbefehls umfaßt, daß der Benutzer einen weiteren Auswahlpunkt angibt. Der Benutzer kontrolliert den Verbindungsabstand durch Angabe des zu verbindenden weiteren Punktes. Das hat den Vorteil, daß der Benutzer den Extraktionsbereich intuitiv auf die gewünschte Größe erweitern kann.
In noch einer weiteren Ausführungsform umfaßt das Verfahren außerdem die automatische Anpassung des Verbindungsabstands in Abhängigkeit von einer Auswahlrichtung, die über eine Ergänzung des Auswahlbefehls empfangen wird, wobei diese Auswahlrichtung dadurch definiert wird, daß der Benutzer ein Auswahlmittel über den Anzeigeschirm zieht. Der Benutzer kontrolliert den Verbindungsabstand durch Ziehen eines Zeigers wie etwa eines mausgesteuerten Cursors. Das hat den Vorteil, daß der Benutzer den Extraktionsbereich intuitiv auf die gewünschte Größe erweitern kann.
In noch einer weiteren Ausführungsform des Verfahrens umfaßt die Bestimmung des Extraktionsbereiches außerdem die Anpassung des vorgeschlagenen Extraktionsbereiches an einen Benutzerbefehl. Das hat den Vorteil, daß der Benutzer die Metadatenelemente einfach auswählen kann. Zum Beispiel umfaßt die Anpassung der Form des Extraktionsbereiches das Bereitstellen von steuerbaren Elementen für den vorgeschlagenen Extraktionsbereich, insbesondere Seiten und/oder Ränder, und den Empfang eines Zugbefehls in der Form einer Befehlserweiterung von der Angabeeinrichtung zum Bewegen eines der steuerbaren Elemente. Durch Bewegen der steuerbaren Elemente kann der Benutzer die Form des Extraktionsbereiches leicht anpassen. Alternativ umfaßt die Anpassung der Form des Extraktionsbereiches das Vergrößern oder Verkleinern des Extraktionsbereiches über ein ergänzendes Benutzer-Steuerereignis wie etwa das Anklicken einer Maustaste oder die Betätigung eines Mausrades. Durch Klicken kann die Größe um einen bestimmten Betrag vergrößert werden, z.B. durch Vergrößerung des Verbindungsabstands, so daß ein größerer Extraktionsbereich angezeigt wird. Ein Mausrad oder ein ähnlicher stetiger Steuerungsmechanismus kann die Größe graduell verändern. Durch Anpassung des Verbindungsabstands in einem Textdokument kann die Größe des Extraktionsbereiches sichtbar von der Größe eines Wortes auf einen Satz oder Absatz zunehmen.
In einer Ausführungsform des Verfahrens umfaßt der Auswahlbefehl eine Ergänzung zum Zuweisen eines Metadaten-Typs zu den extrahierten Metadaten.
Dies hat den Vorteil, daß der Benutzer direkt den Typ der Metadaten steuern kann, der zugewiesen werden soll. Eine gute Möglichkeit, dem Benutzer die Eingabe einer solchen Befehlserweiterung zu ermöglichen, besteht darin, daß dem Benutzer wenigstens ein Steuerelement, insbesondere ein Knopf oder ein Aufklappmenü für die Auswahl eines Metadatentyps angezeigt wird.
Alternativ kann das System eine vorbestimmte Reihenfolge der Eingabe unterschiedlicher Typen von Metadaten annehmen oder erzwingen, was die Bedienungsgeschwindigkeit erhöht. Das System kann die Eingabereihenfolge anhand der Präferenzen des Benutzers lernen.
In einer Ausführungsform des Verfahrens werden die extrahierten Metadaten und zugewiesenen Typen als Indexdaten für ein Dokument in eine Datenbank eingegeben. Das hat den Vorteil, daß Dokumente auf der Grundlage der extahierten Metadaten aus der Datenbank aufgerufen werden können.
In einer Ausführungsform umfaßt das Verfahren, daß als Metadaten eine Textzeichenkette extrahiert wird und die Textzeichenkette zugewiesen wird, um einen Namen für eine das Bild enthaltende Datei oder Nachricht zu bilden. Traditionell werden beim Abtasten automatisch Dateinamen zugewiesen, z.B. eine Folge von Zahlen, oder es wird eine manuelle Eingabe verlangt. Durch Verwendung der Metadaten wird ein mit dem Dokument selbst im Zusammenhang stehender Name erzeugt. Ein auf Metadaten basierender Dateiname macht den Aufruf einer Datei leichter. Ebenso kann eine eingescannte Datei als e-Mail, z.B. als Anhang, versandt werden. Der erfindungsgemäße Prozeß zur Extraktion von Metadaten kann auch dazu benutzt werden, einen "Betreff" für die e-Mail-Nachricht zu erzeugen, so daß der Inhalt leicht erkannt werden kann.
In dieser Beschreibung kann der Begriff "Dokumentbild" auch so verstanden werden, daß er einen Satz von Bildern einzelner physikalischer Dokumentseiten umfaßt. Im allgemeinen ist der auf dem Display gezeigte Teil des Dokuments die erste Seite, da es normalerweise diese Seite ist, die die wichtigste Information für die Extraktion von Metadaten enthält. Die Erfinder haben jedoch auch daran gedacht, das Gerät mit einer Browserfunktion zum Navigieren durch das gesamte Dokumentbild, d.h., durch den Satz von Bildern physikalischer Dokumentseiten, auszustatten.
Weitere bevorzugte Ausführungsformen der Vorrichtung gemäß der Erfindung sind in den weiteren Ansprüchen angegeben.
Diese und weitere Aspekte der Erfindung werden in der nachstehenden Beschreibung verdeutlicht und weiter ausgeführt unter Bezugnahme auf die als Beispiel beschriebenen Ausführungsformen und mit Bezug auf die beigefügten Zeichnungen, in denen zeigen:
1 ein eingescanntes Dokumentbild und einen Extraktionsbereich für Metadaten;
2 eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion von Metadaten;
3 ein Verfahren zur Extraktion von Metadaten;
4 das Wachstum eines Gebiets von einem Auswahlpunkt aus;
4A ein Gebiet, das mit einem Verbindungsabstand von einem Pixel wächst;
4B ein Gebiet, das mit einem Verbindungsabstand von zwei Pixeln wächst;
4C ein Gebiet, das mit einem Verbindungsabstand von drei Pixeln wächst;
5 die Anpassung eines Extraktionsbereiches für Metadaten;
6 die Anpassung der Form eines nicht-rechteckigen Extraktionsbereiches; und
7 eine Anzeige eines Bildes, eines Extraktionsbereiches und eines Menüs.
Die Figuren sind schematisch und nicht maßstäblich. In den Figuren haben Elemente, die bereits beschriebenen Elementen entsprechen, die gleichen Bezugszeichen.
1 zeigt ein eingescanntes Dokumentbild und einen Extraktionsbereich für Metadaten. Ein Dokument 13 ist eingescannt worden, um ein aus Pixeln bestehendes Bild zu generieren. Die Pixel (Kurzform für Picture Elements) sind eine numerische Repräsentation des Dokuments und haben Werte, die die Intensität und/oder Farbe der Bildelemente repräsentieren. Ein Teil des Bildes wird auf einem Display 12 (schematisch eingezeichnet) einem Benutzer gezeigt, damit er Metadaten interaktiv bestimmen kann. Eine Bilddatei für ein Dokument kann getrennte Bilder für jede Seite des Dokuments umfassen. Eine Titelseite, gewöhnlich die erste Seite, enthält relevante Information über den Inhalt des Dokuments, beispielsweise den Titel, den Typ des Dokuments, den Autor, das Publikationsdatum und dergleichen. Diese Information wird in dieser Beschreibung als Metadaten bezeichnet. Der Benutzer kann die Option haben, das Display zu steuern, um, z. B. durch Rollen, den relevanten Teil der Bilddatei zu zeigen. Alternativ kann das Display eine vollständige Seite eines einseitigen Dokuments zeigen.
Ein Beispiel für ein Metadatendokument ist eine Dokumentnummer 11, die Teil des Dokumenttyps ist. Das Metadatenelement kann ein einzelnes Wort sein, wie etwa die Dokumentnummer 11, oder kann aus einer oder mehreren Textzeilen bestehen. Zum Beispiel enthält die in der Figur dargestellte Zusammenfassung (Abstract) etwa sechs Zeilen Text.
Auf dem Display ist um den Dokumenttyp einschließlich der Dokumentnummer 11 herum ein Extraktionsbereich 14 gezeigt. Dieser Extraktionsbereich ist ein Bereich des Bildes, der von einer Verarbeitungseinheit dazu benutzt werden soll, die Metadaten zu finden und zu erkennen. Gewöhnlich handelt es sich bei den Metadaten um Text, und der Extraktionsbereich wird analysiert, um die Schriftzeichen und Wörter zu erkennen, was gemeinhin als optische Zeichenerkennung (OCR) bekannt ist. Bei den Metadaten kann es sich auch um bestimmte Bildelemente handeln, etwa Symbole oder Logos, die für die Verwendung als Metadaten kategorisiert werden können.
Um den Extraktionsbereich zu konstruieren, gibt der Benutzer zunächst einen Auswahlpunkt in dem Metadatenelement an, das er als relevant ansieht, z. B. in der Dokumentnummer 11. Die Angabe des Auswahlpunktes ist der erste Schritt in einem Auswahlbefehl. Zur Angabe des Auswahlpunktes kann das Display auf einem berührungsempfindlichen Schirm, etwa einem Touch Screen, ausgebildet sein. Der Benutzer kann den Auswahlpunkt mit einem Finger oder durch Verwendung eines geeigneten Zeigestocks angeben. Alternativ kann das Display einen Cursor zeigen, der durch den Benutzer z. B. mit Hilfe einer Maus, eines Trackballs oder dergleichen gesteuert wird. Der Auswahlpunkt kann dann durch Positionieren des Cursors und Aktivieren einer Taste, etwa durch einen Mausklick, angegeben werden.
Die Verarbeitungseinheit wird dann Pixel in der Nähe des Auswahlpunktes analysieren, um Pixel zu finden, die Teil des Metadatenelements sind, wie nachstehend näher beschrieben werden wird. Pixel werden auf der Grundlage der Werte, die eine Vordergrundeigenschaft haben, auf einem Dokument mit weißem Hintergrund ist dies gewöhnlich der Wert, der Schwarz repräsentiert, als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe, die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch den Auswahlpunkt angegeben wird, oder eine von der Hintergrundfarbe verschiedene Farbe. Verfahren zur Unterscheidung zwischen Vordergrund- und Hintergrundpixeln sind im Stand der Technik hinreichend bekannt, Z. B. EP 1 182 605 A .
Als erstes Vordergrundpixel wird ein Pixel gefunden, das durch den Auswahlpunkt angegeben wird, d. h. das Vordergrundpixel, das dem Ort des Auswahlpunktes entspricht oder in der Nähe des Auswahlpunktes liegt, wenn der Auswahlpunkt auf einem Hintergrundpixel in dem Metadatenelement liegt. Wenn der Auswahlpunkt auf einem Hintergrundpixel innerhalb eines vorbestimmten Abstands zu Vordergrundpunkten liegt, kann das System das angegebene Pixel zum Zweck der Auffindung von Pixeln, die das gewünschte Metadatenelement konstituieren, als ein Vordergrundpixel betrachten, d. h., den Auswahlpunkt aufgrund der Tatsache, daß er durch den Benutzer angegeben worden ist, als ein Vordergrundpixel (um)klassifizieren. Alternativ kann das System das nächstgelegene Vordergrundpixel als Auswahlpunkt auswählen. Wenn der Auswahlpunkt auf einem weit von Vordergrundpunkten entfernten Hintergrundpixel liegt, kann das System diese Auswahl als einen Befehl auffassen, einen aktuell ausgewählten Auswahlbereich für Metadaten zu löschen.
Auf der Grundlage des ersten Vordergrundpixels wird ein Bereich von Pixeln detektiert und als Teil der Metadaten aufgefaßt, und ein Extraktionsbereich wird um diesen Bereich herum gezeichnet und dem Benutzer angezeigt. Meta daten werden extrahiert, indem Pixel in dem Extraktionsbereich verarbeitet werden.
In einer Ausführungsform wird ein einziger Typ von Metadaten detektiert, z. B. Text, der für die Erzeugung eines Dateinamens für das eingescannte Dokument verwendet werden soll. Der Dateiname kann automatisch erzeugt werden, nachdem der Benutzer den Auswahlpunkt angegeben hat. Alternativ können die erkannten Metadaten und/oder der vorgeschlagene Dateiname dem Benutzer angezeigt werden, und es kann ein Bestätigungsbefehl verlangt werden, um die Metadaten endgültig zu akzeptieren.
2 zeigt eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion von Metadaten. Die Vorrichtung umfaßt eine Eingabeeinheit 21 zur Eingabe eines digitalen Bildes. Die Eingabeeinheit kann eine Abtasteinheit zum Abtasten eines Bildes von physikalischen Dokumenten einschließen, etwa einen elektro-optischen Scanner, und/oder eine digitale Kommunikationseinheit zum Empfang des Bildes von einem Netzwerk wie etwa einem lokalen Netzwerk (LAN) oder dem Internet, und/oder eine Wiedergabeeinheit zur Wiedergabe von digitaler Information von einem Aufzeichnungsträger wie etwa einem optischen Plattenlaufwerk. Die Eingabeeinheit 21 ist mit einer Verarbeitungseinheit 24 verbunden, die mit einer Speichereinheit 22 zusammenwirkt. Die Speichereinheit kann eine Aufzeichnungseinheit beinhalten, zur Speicherung des Bildes und/oder der Metadaten auf einem Aufzeichnungsträger wie einem Magnetband oder einer optischen Platte. Die Verarbeitungseinheit kann eine zentrale Verarbeitungseinheit (CPU) eines Vielzweckrechners und unterstützende Schaltungen umfassen, die mit Software zur Ausführung der oben beschriebenen Metadatenextraktion arbeitet. Die Verarbeitungseinheit ist mit einer Benutzerschnittstelle 25 verbunden, die wenigstens eine Zeigeeinheit zur Angabe eines Auswahlpunktes in dem Bild aufweist. Die Benutzerschnittstelle kann Bedienungseinrichtungen wie etwa eine Tastatur, eine Maus oder Bedienungstasten umfassen. Die Verarbeitungseinheit ist mit einer Anzeigeeinheit 23 verbunden. Die Anzeigeeinheit umfaßt einen Anzeigeschirm zur Anzeige des Bildes und des Extraktionsbereiches, wie oben im Zusammenhang mit 1 erläutert wurde. Insbesondere können die Anzeigeeinheit und die Zeigeeinheit durch einen Touch Screen gebildet werden, der darauf reagiert, daß der Benutzer mit einem Finger auf das Metadatenelement in dem angezeigten Bild zeigt, um den Auswahlpunkt anzuge ben. Die Verarbeitungseinheit kann mit einer Druckereinheit zur Ausgabe eines verarbeiteten Bildes oder der Metadaten auf Papier verbunden sein. Die extrahierten Metadaten können mit dem Bild in einer Datenbank gespeichert werden, z. B. in der Speichereinheit 22 oder in einem gesonderten Computersystem.
Es ist zu bemerken, daß die Vorrichtung mit Hilfe von standardmäßigen Hardwarekomponenten für einen Computer und einem Computerprogramm aufgebaut sein kann, um den den Prozeß der Metadatenextraktion auszuführen, wie nachstehend beschrieben wird. Alternativ kann die Vorrichtung eine spezialisierte Hardwareeinrichtung sein, die eine Abtasteinheit, eine Verarbeitungseinheit und ein Display zur Ausführung der Metadatenextraktion enthält. Weiterhin kann der Abtastprozeß von dem interaktiven Prozeß der Metadatenextraktion getrennt sein, z. B. kann eine Abtasteinheit in einem Posteingangsraum über ein LAN mit einer Indizierstelle verbunden sein, die das Display und das Bedienungssystem enthält.
3 zeigt ein Verfahren zur Extraktion von Metadaten. In einem ersten Schritt EINGABEBILD VORBEREITEN S31 wird das Bild als eine digitale Datei von Pixelwerten von z. B. einer Abtasteinrichtung empfangen. Der Schritt kann eine weitere Bildverarbeitung auf der Grundlage vorbestimmter Kenntnisse oder detektierter Eigenschaften des Bildes einschließen, etwa Verstärkung des Kontrasts, Bestimmung von Vordergrund- oder Hintergrundeigenschaften anhand einer globalen Statistik des Bildes, Drehen des Bildes und dergleichen. Dieser Schritt kann auch die Vorbereitung eines zusätzlichen Eingabebildes, das eine geringere Auflösung hat, für den Gebrauch bei der Bildanalyse in Schritt 34 einschließen (wird später beschrieben). Da das eingescannte Bild eine relativ hohe Auflösung hat, wird eine moderate Verringerung der Auflösung, Z. B. um einen Faktor von 2 bis 4, die Analyse normalerweise nicht verschlechtern, während sie die benötigte Verarbeitungsleistung reduziert. Das ursprüngliche hochaufgelöste Eingabebild wird immer noch für die Anzeige und die Zwecke der Datenextraktion verwendet.
In einem nächsten Schritt BILD ANZEIGEN S32 wird das Bild einem Benutzer auf einem Display gezeigt. Der Schritt kann das Auffinden eines relevanten Teils des Bildes für die Anzeige einschließen, z. B. den Teil des Bildes, der die ersten Textzeilen auf einer Seite enthält, die mit einem großen weißen Gebiet beginnt. In einem nächsten Schritt AUSWAHLPUNKT S33 wird eine Benutzeraktion erwartet, um einen Auswahlpunkt in dem Bild anzugeben, insbesondere in einem Metadatenelement. Eine symbolische Warteschleife L33 in der Zeichnung gibt an, daß das System auf eine Benutzeraktion wartet.
In einem nächsten Schritt VERBUNDENES GEBIET FINDEN S34 werden die Pixel um den Auswahlpunkt herum analysiert, um die Vordergrundpixel zu finden, die innerhalb eines Verbindungsbereiches liegen, wie nachstehend in Verbindung mit 4 erläutert werden wird. In einem nächsten Schritt EXTRAKTIONSBEREICH ANZEIGEN S35 wird ein Extraktionsbereich angezeigt, der das verbundene Gebiet abdeckt. Der Extraktionsbereich kann als eine rechteckige Fläche dargestellt werden, die gerade das verbundene Gebiet enthält, eine hervorgehobene Fläche, oder irgendein anderes geeignetes Anzeigemerkmal. Der Extraktionsbereich kann auch an den Typ der Metadaten angepaßt sein, etwa als eine Grenze auf Wörtern in einem größeren Textfragment, wie mit Bezug auf 6 beschrieben werden wird.
Es ist zu bemerken, daß der Benutzer einen Auswahlpunkt aktiv eingeben kann, z. B. durch Klicken einer Maustaste, wenn sich der Cursor auf dem gewünschten Metadatenelement befindet, oder durch Tippen mit einem Finger auf einen Touch Screen. Das System kann jedoch auch automatisch einen vorgeschlagenen Extraktionsbereich anzeigen, sobald der Benutzer ein Zeigeelement (etwa einen Cursor) in der Nähe eines Vordergrundobjekts positioniert, oder nach einer bestimmten (kurzen) Wartezeit. In dem automatischen Modus sind die Schritte AUSWAHLPUNKT S33, VERBUNDENES GEBIET FINDEN S34 und EXTRAKTIONSBEREICH ANZEIGEN S35 kombiniert. Der Cursor kann als ein spezielles Symbol dargestellt werden, das den automatischen Modus anzeigt, z. B. durch Hinzufügen eines kleinen Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt auf der Grundlage der visuellen Rückkopplung durch den vorgeschlagenen Extraktionsbereich bestimmen.
Auf der Grundlage des angezeigten Extraktionsbereiches kann der Benutzer verifizieren, daß der Extraktionsbereich die gewünschten Metadatenelemente abdeckt. In einem nächsten Schritt ENDGÜLTIGER BEREICH S36 bestätigt der Benutzer den angezeigten Extraktionsbereich, z. B. durch einen Mausbefehl oder implizit durch Eingabe eines nächsten Dokuments.
Wie durch eine symbolische Schleife L36 angedeutet wird, kann der Benutzer den vorgeschlagenen Extraktionsbereich auch anpassen, wie in Verbindung mit 5 oder 6 erläutert wird. Zum Beispiel kann der Benutzer einen zweiten Punkt angeben, der ebenfalls in dem Extraktionsbereich enthalten sein muß, oder der Benutzer gibt eine Erweiterung des vorgeschlagenen Extraktionsbereiches an, indem er mit dem Zeigeelement von dem Auswahlpunkt in eine Richtung zieht, in der er den Extraktionsbereich erweitern möchte. Als Reaktion auf die Anpassung kann das Display den endgültigen Bereich zeigen.
In einem nächsten Schritt METADATEN EXTRAHIEREN S37 wird der endgültig bestätigte Extraktionsbereich verarbeitet, um die Metadatenelemente zu detektieren und zu erkennen, z. B. Wörter durch OCR. Das Resultat kann auf dem Display in einem Textfeld angezeigt werden. Der Schritt S37 METADATEN EXTRAHIEREN kann einschließen, daß eine Ergänzung des Auswahlbefehls empfangen wird, mit welcher der Benutzer angibt, daß ein bestimmter Metadatentyp zugewiesen werden soll, wie z. B. "Titel", "Autor", "Zusammenfassung", etc. Zum Beispiel kann der Benutzer einen bestimmten Knopf aktivieren, um Metadaten in dem Extraktionsbereich als den Titel des Dokuments einzugeben.
4A, B und C zeigen das Wachstum eines Gebietes von dem Auswahlpunkt aus. Der Benutzer gibt den Auswahlpunkt in dem Bild an, und dann wird ein Gebiet wie folgt gebildet. Ein Anfangs-Vordergrundpixel wird am Auswahlpunkt ausgewählt. Wenn der Auswahlpunkt auf einem Hintergrundpixel, jedoch innerhalb eines vorbestimmten Abstands zu einem Vordergrundpixel liegt, so kann dieses Vordergrundpixel als ein Anfangspixel verwendet werden.
4A zeigt ein Gebiet, das mit einem Verbindungsabstand von einem Pixel wächst. Ein detaillierter Teil eines Bildes 41 ist in vier Wachstumsphasen des Gebietes dargestellt, wobei einzelne Pixel als weiß (Hintergrund) oder grau (Vordergrund) erscheinen. Der Benutzer hat einen Auswahlpunkt 40 angegeben, der durch einen schwarzen Punkt dargestellt ist. Das Gebietswachstum beginnt an dem Pixel, das dem Auswahlpunkt 40 entspricht, und zunächst ist ein Anfangsgebiet 42 mit nur einem Pixel gezeigt. Es wird angenommen, daß der Verbindungsabstand für das Wachstum ein Pixel beträgt, d. h. es werden keine zwischenliegenden Hintergrundpixel zugelassen. In der zweiten Wachstumsphase ist ein zweites Gebiet 43 gezeigt, das nach unten erweitert ist, um direkt verbundene Pixel einzuschließen. In einer dritten Wachstumsphase ist ein drittes Gebiet 44 gezeigt, das nach rechts erweitert ist, um direkt verbundene Pixel einzuschließen. In einer vierten Wachstumsphase ist ein viertes Gebiet 45 gezeigt, das wiederum nach rechts erweitert ist, um direkt verbundene Pixel einzuschließen. Da keine weiteren Vordergrundpixel innerhalb des Verbindungsabstands (= 1) liegen, hält das Gebietswachstum an. Es ist zu bemerken, daß ein rechteckiger Bereich als eine gestrichelte Linie um die Wachstumsgebiete 42, 43, 44 und 45 herum gezeichnet ist. Dieser Bereich enthält auch Hintergrundpixel. Nach Abschluß des Gebietswachstumsprozesses kann der gezeichnete Bereich der vorgeschlagene Extraktionsbereich sein.
4B zeigt ein Gebietswachstum mit einem Verbindungsabstand von zwei Pixeln. Es ist das gleiche Detail eines Bildes wie in 4A gezeigt. Der Verbindungsabstand ist auf zwei Pixel erhöht, und deshalb werden einzelne zwischenliegende Hintergrundpixel überbrückt. Der resultierende rechteckige Bereich 46 enthält die Vordergrundpixel, die einen Verbindungsabstand von zwei haben. Der Benutzer kann den resultierenden Bereich bestätigen oder entscheiden, daß der rechteckige Bereich zu klein ist. In dem Fall ergänzt der Benutzer seinen Auswahlbefehl. Dazu kann der Benutzer einen zweiten Auswahlpunkt 47 in einem weiteren Vordergrundteil des Bildes angeben, z. B. indem er auf die neue Stelle zeigt oder von dem Auswahlpunkt 46 zu dem zweiten Auswahlpunkt 47 zieht. Die Ergänzung des Auswahlbefehls wird von der Verarbeitungseinheit 24 in einen größeren Verbindungsabstand übersetzt, der gerade genügt, den zweiten Auswahlpunkt 47 zu dem Auswahlbereich hinzuzufügen. Das kann dazu führen, daß der Auswahlbereich auch in anderen Richtungen erweitert wird.
In einer Ausführungsform kann der Benutzer wiederholt auf dieselbe Stelle klicken oder zeigen, um den Verbindungsabstand zu vergrößern.
4C zeigt ein Gebietswachstum mit einem Verbindungsabstand von drei Pixeln. Es ist das gleiche Detail eines Bildes wie in 4B gezeigt. Der Verbindungsabstand ist auf drei Pixel erhöht, und deshalb werden bis zu zwei zwischenliegende Hintergrundpixel überbrückt. Der resultierende rechteckige Bereich 48 enthält den zweiten Auswahlpunkt 47. Es ist zu bemerken, daß der Gebietswachstumsprozeß auch an die erhaltenen Resultate angepaßt werden kann oder Lernoptionen enthalten kann, z. B., daß ein größerer Verbindungsabstand benutzt wird, wenn der Benutzer in den meisten Fällen den Bereich vergrößern muß. Ebenso kann der Prozeß einschließen, daß, wenn ein verbundenes Gebiet unterhalb einer vorbestimmten Größe gefunden wird, der Verbindungsabstand automatisch vergrößert wird, um mindestens die vorbestimmte Größe zu erreichen.
In einer weiteren Ausführungsform des Gebietswachstumsprozesses ist der Verbindungsabstand für unterschiedliche Richtungen verschieden. Zum Beispiel kann der Verbindungsabstand in horizontaler Richtung größer sein als der Verbindungsabstand in vertikaler Richtung. Für gewöhnliche Textdokumente führt dies dazu, daß Wörter in einer Textzeile robuster verbunden werden, ohne daß die Textzeile mit der nächsten oder vorherigen Zeile verbunden wird. In einem Verarbeitungsschritt kann eine Leserichtung bestimmt werden, z. B. durch Analyse des Layouts von Hintergrundpixeln. Der Verbindungsabstand kann von der Leserichtung, z. B. von links nach rechts, abhängig sein, und vom Auswahlpunkt aus nach rechts kann der Verbindungsabstand größer sein.
In einer Ausführungsform des Gebietswachstumsprozesses wird der Verbindungsabstand in Abhängigkeit von einer Auswahlrichtung angepaßt, die über die Ergänzung des Auswahlbefehls eingegeben wird. Der vorgeschlagene Extraktionsbereich wird dem Benutzer angezeigt, und der Benutzer wird leicht erkennen, daß der Extraktionsbereich in einer bestimmten Richtung erweitert werden muß. Der Benutzer kann die Auswahlrichtung angeben, indem er ein Auswahlmittel (Cursor oder einen Finger auf einem Touch Screen) von dem Auswahlpunkt aus in der Auswahlrichtung zieht. Es ist zu bemerken, daß die Zunahme des Verbindungsabstands aus der Weite des Zuges vom ersten Auswahlpunkt aus abgeleitet werden kann.
Zusätzlich zur Steuerung des Extraktionsbereiches auf der Grundlage des Gebietswachstums kann die Vorrichtung weitere Optionen zur Anpassung des Extraktionsbereiches bieten. Die Auswahl des Extraktionsbereiches kann eine Anpassung der Form des Extraktionsbereiches über die Ergänzung des Auswahlbefehls einschließen, wie im folgenden beschrieben wird.
5 zeigt die Anpassung eines Extraktionsbereiches für Metadaten. Anfangs wird dem Benutzer ein rechteckiger Extraktionsbereich 50 gezeigt. Die Form des Extraktionsbereiches kann durch steuerbare Elemente 52, 53 des vorgeschlagenen Extraktionsbereiches verändert werden. Der Benutzer gibt eine Ergänzung des Auswahlbefehls ein, indem er eines der steuerbaren Elemente bewegt. Die steuerbaren Elemente werden dem Benutzer durch zusätzliche Symbole angezeigt, z. B. kleine Quadrate, die zu den Seiten und Ecken des Extraktionsbereiches 50 hinzugefügt werden. Der Benutzer kann z. B. die obere Seite des Extraktionsbereiches 50 ziehen. Das Resultat kann darin bestehen, daß der Extraktionsbereich nur nach oben erweitert wird. Durch Manipulation der steuerbaren Ecke 53 werden die entsprechenden linken und unteren Seiten bewegt. Mögliche neue Positionen der Seiten und Ecken können während der Manipulation als gestrichelte Linien 51 angezeigt werden. Nach der endgültigen Auswahl des Bereiches wird die neue Position der Seiten und Ecken in durchgezogenen Linien dargestellt. Es ist zu bemerken, daß andere visuelle Elemente dazu eingesetzt werden können, die Steueroptionen darzustellen, z. B. Farben, Blinken und dergleichen.
In einer Ausführungsform können alle vier Seiten simultan erweitert oder geschrumpft werden, Z. B. durch Manipulation eines dafür vorgesehenen Symbols. Die Form des Extraktionsbereiches kann angepaßt werden, indem die Größe des Extraktionsbereiches über ein ergänzendes Benutzer-Steuerereignis wie etwa das Klicken einer Maustaste vergrößert oder verkleinert wird.
6 zeigt die Anpassung der Form eines nicht rechteckigen Extraktionsbereiches. Es ist ein Extraktionsbereich 60 gezeigt, der für die Auswahl eines Teils eines Textfragments konstruiert ist. Diese Auswahl beginnt an einem Wort in der Mitte einer Zeile und endet auch in der Mitte einer Zeile. Es wird ein Spaltenlayout des Texts angenommen. Vertikale Seiten können leicht detektiert werden und mögen nicht einmal durch den Benutzer steuerbar sein. Die untere Seite 61 hat zwei horizontale Teile und einen mittleren vertikalen Teil. Insbesondere kann der mittlere vertikale Teil zu einer Stelle in den Textzeilen hinter dem letzten Wort gezogen werden, das in die Metadaten einbezogen werden soll.
Nachdem der Extraktionsbereich endgültig festgelegt worden ist, können die Metadaten durch OCR (Optical Character Recognition) extrahiert und verar beitet werden. Der Benutzer kann einen Typ von Metadaten zuweisen, z.B. durch Betätigen einer Taste oder durch Auswahl einer Menüoption, wie in 7 gezeigt ist und weiter unten erläutert wird. Die extrahierten Metadaten und zugewiesenen Typen werden in eine Datenbank eingegeben und können zum Indizieren und/oder zum Erkennen der Dokumente in der Datenbank benutzt werden.
In einer Ausführungsform dient die Festlegung des Extraktionsbereiches und die Extraktion der Metadaten dazu, einen Dateinamen zu bestimmen, der an ein gescanntes Dokument angehängt werden soll. Der Extraktionsbereich kann unter Berücksichtigung der Anforderungen an einen Dateinamen vorgeschlagen werden, z. B. daß er eine minimale und eine maximale Länge haben muß. Der Extraktionsprozeß kann einschließen, daß die Textzeichenkette so angepaßt wird, daß sie mit Regeln für Dateinamen in Übereinstimmung gebracht wird, z.B. Beseitigung von verbotenen Zeichen und Verhindern, daß derselbe Dateiname erneut verwendet wird. Weitere Identifizierungsdaten wie ein Kalenderdatum oder eine Zeit können hinzugefügt werden. Ein eingescanntes Dokument kann unter Verwendung des gebildeten Dateinamens automatisch gespeichert werden.
7 zeigt ein Display eines Bildes, eines Extraktionsbereiches und eines Menüs. Ein Bild 70 eines eingescannten Dokuments wird einem Benutzer angezeigt. Es ist ein Extraktionsbereich 71 ausgewählt worden, insbesondere ist ein Textfragment, das eine Zusammenfassung ("Abstract") zu sein scheint, in dem Extraktionsbereich 71 eingeschlossen. Der Benutzer hat den Extraktionsbereich bestätigt, und nun wird ein neues Steuerelement angezeigt, z. B. ein Aufklappmenü 72, das durch einen Klick auf die rechte Maustaste aktiviert wird. Das Menü bietet zusätzlich zu weiteren Befehlen wie etwa "Löschen der Auswahl" (Unselect) verschiedene Typen von Metadaten an, die zugewiesen werden können. Durch Verwendung der <Control> Taste auf einer Tastatur können auch Kurzbefehle bereitgestellt werden.
Die Auswahl des Typs der Metadaten beendet den interaktiven Prozeß der Metadatenextraktion. Die Metadaten können nun für die weitere Verarbeitung verfügbar gemacht werden, z. B. zum Speichern in einer Datenbank.
Obgleich die Erfindung in der Hauptsache durch Ausführungsformen erläutert wurde, bei denen Textelemente verwendet werden, die die Metadaten in dem digitalen Bild repräsentieren, ist die Erfindung auch für irgendeine Wiedergabe von Metadateninformation geeignet, etwa durch Symbole, Logos oder andere Bildelemente, die sich kategorisieren lassen, wie z. B. Portraits.

Claims

Verfahren zur Extraktion von Metadaten aus einem Dokumentbild aus Pixeln, bei dem die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte eine Vordergrundeigenschaft haben, welches Verfahren umfaßt: – Anzeigen wenigstens eines Teils des Bildes auf einem Anzeigeschirm für einen Benutzer, – Empfangen eines Auswahlbefehls für einen Bereich des Bildes von einem Benutzer, wobei dieser Bereich Metadaten enthält, – Bestimmen eines Extraktionsbereiches innerhalb des Bildes auf der Grundlage des Auswahlbefehls des Benutzers und – Extrahieren der Metadaten durch Verarbeitung von Pixeln in dem Extraktionsbereich, dadurch gekennzeichnet, daß der Schritt der Bestimmung eines Extraktionsbereiches innerhalb des Bildes umfaßt, daß der Extraktionsbereich als ein verbundenes Gebiet aus Vordergrundpixeln in einer einstufigen Prozedur aufgebaut wird, mit, beginnend an einem Auswahlpunkt, der als Teil des Auswahlbefehls des Benutzers in dem angezeigten Teil des Bildes angegeben wird, fortschreitendem Einbeziehen aller Vordergrundpixel, die innerhalb eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen Vordergrundpixel liegen, das in das verbundene Gebiet einbezogen ist.
Verfahren nach Anspruch 1, bei dem der Verbindungsabstand in Abhängigkeit von einer Verbindungsrichtung eingestellt wird, wobei die Verbindungsrichtung insbesondere horizontal, vertikal oder eine angenommene Leserichtung ist.
Verfahren nach Anspruch 1 oder 2, bei dem das eingegebene Dokumentbild auf eine geringere Auflösung konvertiert wird und die Schritte der Klassifikation der Pixel und der Bestimmung eines Extraktionsbereiches an dem Bild mit geringerer Auflösung vorgenommen werden.
Verfahren nach Anspruch 1, 2 oder 3, bei dem die Bestimmung des Extraktionsbereiches die Anzeige eines vorgeschlagenen Extraktionsbereiches einschließt.
Verfahren nach Anspruch 1, mit Empfang einer Ergänzung zu dem Auswahlbefehl, zur Anpassung des Verbindungsabstands.
Verfahren nach Anspruch 5, mit automatischer Anpassung des Verbindungsabstands in Abhängigkeit von der Ergänzung des Auswahlbefehls, wobei die Ergänzung des Auswahlbefehls einschließt, daß der Benutzer einen weiteren Auswahlpunkt angibt.
Verfahren nach Anspruch 6, mit automatischer Anpassung des Verbindungsabstands in Abhängigkeit von einer Auswahlrichtung, die als Ergänzung des Auswahlbefehls empfangen wird, wobei die Auswahlrichtung dadurch definiert wird, daß der Benutzer ein Auswahlmittel über dem Anzeigeschirm zieht.
Verfahren nach Anspruch 4, bei dem die Bestimmung eines Extraktionsbereiches die Anpassung des vorgeschlagenen Extraktionsbereiches auf einen Benutzerbefehl hin einschließt.
Verfahren nach Anspruch 8, mit Bereitstellen von steuerbaren Elementen des vorgeschlagenen Extraktionsbereiches, insbesondere Seiten und/oder Ecken, wobei der Benutzerbefehl das Bewegen der steuerbaren Elemente einschließt.
Verfahren nach Anspruch 8, bei dem die Einstellung des vorgeschlagenen Extraktionsbereiches das Vergrößern oder Verringern der Größe des Extraktionsbereiches durch ein ergänzendes Benutzer-Steuerereignis wie etwa das Klicken einer Maustaste oder die Betätigung eines Mausrades einschließt.
Verfahren nach Anspruch 1, bei dem der Auswahlbefehl eine Ergänzung des Auswahlbefehls zum Zuweisen eines Metadatentyps zu den extrahierten Metadaten einschließt.
Verfahren nach Anspruch 11, bei dem die extrahierten Metadaten und die zugewiesenen Typen als Indexdaten für ein Dokument in eine Datenbank eingegeben werden.
Verfahren nach Anspruch 1, mit: – Extrahieren von Metadaten als eine Textzeichenkette und – Zuweisen der Textzeichenkette zur Bildung eines Dateinamens für eine Datei oder eines Betreff-Namens für eine das Bild enthaltende e-Mail-Nachricht.
Computerprogrammprodukt zur Extraktion von Metadaten aus einem aus Pixeln bestehenden Dokumentbild, welches Programm einen Prozessor dazu veranlaßt, das Verfahren nach einem der Ansprüche 1 bis 13 auszuführen.
Vorrichtung zur Extraktion von Metadaten aus einem Dokumentbild aus Pixeln, bei dem die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, und Vordergrundpixel umfassen, die auf der Grundlage ihrer Werte eine Vordergrundeigenschaft haben, welches Vorrichtung umfaßt: – eine Eingabeeinrichtung (21) zum Empfang des Bildes, – ein Display (23) zur Anzeige wenigstens eines Teils des Bildes für einen Benutzer, – eine Benutzerschnittstelle zum Empfang eines Auswahlbefehls für einen Bereich (14) des Bildes von einem Benutzer, wobei dieser Bereich (14) Metadaten (11) enthält, und – eine Verarbeitungseinheit (24) zum – Bestimmen eines Extraktionsbereiches innerhalb des Bildes auf der Grundlage des Auswahlbefehls des Benutzers und – Extrahieren der Metadaten durch Verarbeitung von Pixeln in dem Extraktionsbereich, dadurch gekennzeichnet, daß die Verarbeitungseinheit (24) dazu ausgebildet ist, den Extraktionsbereich als ein verbundenes Gebiet aus Vordergrundpixeln in einer einstufigen Prozedur aufzubauen, wobei beginnend an einem Auswahlpunkt, der als Teil des Auswahlbefehls des Benutzers in dem angezeigten Teil des Bildes angegeben wird, fortschreitend aller Vordergrundpixel einbezogen werden, die innerhalb eines vorbestimmten Verbindungsabstands zu wenigstens einem anderen Vordergrundpixel liegen, das in das verbundene Gebiet einbezogen ist.
Vorrichtung nach Anspruch 15, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, den Verbindungsabstand in Abhängigkeit von einer Verbindungsrichtung einzustellen, wobei die Verbindungsrichtung insbesondere horizontal, vertikal oder eine angenommene Leserichtung ist.
Vorrichtung nach Anspruch 15 oder 16, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, das eingegebene Dokumentbild auf eine geringere Auflösung zu konvertieren und die Klassifikation der Pixel und die Bestimmung eines Extraktionsbereiches an dem Bild mit geringerer Auflösung vorzunehmen.
Vorrichtung nach einem der Ansprüche 15 bis 17, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, den Extraktionsbereich durch Anzeige eines vorgeschlagenen Extraktionsbereiches auf dem Display (23) zu bestimmen.
Vorrichtung nach Anspruch 15, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, eine Ergänzung zu dem Auswahlbefehl zur Anpassung des Verbindungsabstands zu empfangen.
Vorrichtung nach Anspruch 19, bei der die Verarbeitungseinheit (24) den Verbindungsabstand in Abhängigkeit von der Ergänzung des Auswahlbefehls, insbesondere einem von dem Benutzer angegebenen weiteren Auswahlpunkt, anpaßt.
Vorrichtung nach Anspruch 20, bei der die Verarbeitungseinheit (24) den Verbindungsabstand in Abhängigkeit von einer Auswahlrichtung anpaßt, die als Ergänzung des Auswahlbefehls empfangen wird, wobei die Auswahlrichtung dadurch definiert wird, daß der Benutzer ein Auswahlmittel über dem Anzeigeschirm zieht.
Vorrichtung nach Anspruch 18, bei der die Verarbeitungseinheit (24) die Form des vorgeschlagenen Extraktionsbereiches auf einen Benutzerbefehl hin anpaßt.
Vorrichtung nach Anspruch 22, bei der die Verarbeitungseinheit (24) den vorgeschlagenen Extraktionsbereich auf dem Display (23) mit steuerbaren Elementen bereitstellt, insbesondere Seiten und/oder Ecken, um es dem Benutzer zu ermöglichen, die Form des vorgeschlagenen Extraktionsbereiches anzupassen.
Vorrichtung nach Anspruch 22, bei der die Verarbeitungseinheit (24) die Größe des vorgeschlagenen Extraktionsbereiches als Reaktion auf ein ergänzendes Benutzer-Steuerereignis wie etwa das Klicken einer Maustaste vergrößert oder verringert.
Vorrichtung nach Anspruch 15, bei der die Benutzerschnittstelle (25) dazu ausgebildet ist, eine Ergänzung des Auswahlbefehls zum Zuweisen eines Metadatentyps zu den extrahierten Metadaten zu empfangen.
Vorrichtung nach Anspruch 25, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, die extrahierten Metadaten und die zugewiesenen Typen als Indexdaten für ein Dokument in eine Datenbank einzugeben.
Vorrichtung nach Anspruch 15, bei der die Verarbeitungseinheit (24) dazu ausgebildet ist, – Metadaten als eine Textzeichenkette zu extrahieren und – die Textzeichenkette zur Bildung eines Dateinamens für eine Datei zuzuweisen.
Vorrichtung nach Anspruch 15, bei der die Eingabeeinrichtung (21) eine elektro-optische Abtasteinrichtung einschließt.