DE602004005216T2

DE602004005216T2 - Dokumentenscanner

Info

Publication number: DE602004005216T2
Application number: DE602004005216T
Authority: DE
Inventors: Jodocus Franciscus Jager
Original assignee: Oce Technologies BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2003-08-20
Filing date: 2004-04-26
Publication date: 2007-12-20
Anticipated expiration: 2024-04-27
Also published as: WO2005020131A1; JP2007503032A; US20060143154A1; EP1661064A1; EP1661064B1; ATE356389T1; DE602004005216D1

Description

Die Erfindung bezieht sich allgemein auf das Scannen von Dokumenten, spezieller auf ein Verfahren zum Umwandeln eines Vorlagenbildes in Bilddaten, die Pixel enthalten, die jeweils einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, wobei dieses Vorlagenbild Textlayout-Elemente wie etwa Wörter oder Wortgruppen enthält. Die Erfindung bezieht sich auch auf einen Scanner, der zur Ausführung des Verfahrens ausgebildet ist, sowie auf ein Computerprogrammprodukt zur Ausführung des Verfahrens, wenn es auf einem Rechner läuft.
Wenn von einem Scanner eine Scandatei von Bilddaten erzeugt wird, muß ein Dateiname definiert werden, damit es möglich ist, die Datei wieder aufzurufen. In großen Systemen, in denen Scanner autonome, an ein Netzwerk angeschlossene Geräte sind, erzeugt ein Scanner normalerweise automatisch einen Dateinamen für eine Scandatei. Der Dateiname wird aus für das Gerät verfügbaren Variablen synthetisiert, etwa einer Scanner-ID, einem Datum und einer Zeit, doch kann das System keinen Dateinamen erzeugen, der sich gegenständlich auf das gescannte Dokument bezieht. Autonome Scanner haben oftmals auch keine vollständige Tastatur, so daß es einem Operator auch nicht möglich ist, während eines Scanprozesses am Ort des Scanners einen bedeutungshaltigen Dateinamen einzugeben. Deshalb kann es später schwierig sein, die Scandatei zu erkennen, insbesondere in dem Fall, daß eine große Anzahl von Dokumenten gescannt worden ist.
Es ist eine Aufgabe der vorliegenden Erfindung, eine einfache Möglichkeit zum Definieren eines bedeutungshaltigen Dateinamens für eine Scandatei zu schaffen. Im Hinblick auf fortgeschrittene Scanner, die in der Lage sind, eine E-mail Nachricht zu erzeugen, die die Scandatei (z. B. als Anlage) enthält, besteht eine Aufgabe der Erfindung auch darin, einen ebenso einfachen Weg zu schaffen, einen Dateibezeichner in dem "Betreff"-Feld der E-mail Nachricht zu definieren, so daß die Nachricht bei ihrem Eintreffen leicht als eine Nachricht erkannt werden kann, mit der die Scandatei übermittelt wird.
Diese Aufgabe wird durch ein Verfahren gelöst, wie es in Anspruch 1 angegeben ist. Gemäß der Erfindung wird das eingescannte Bild dem Operator auf einem Anzeigeschirm angezeigt, und der Operator erhält die Möglichkeit, auf ein Wort oder eine Wortkombination (allgemein: Textlayout-Elemente) zu zeigen, die nach Wunsch des Operators aussagekräftiger über den Inhalt des Do kuments sein mögen, z. B. einen Titel, einen Autor, einen Dokumententyp, ein Stichwort, eine (kurze) Inhaltszusammenfassung und dergleichen.
Als Reaktion auf die Auswahl durch den Operator extrahiert das System die ausgewählte Bildinformation aus dem gescannten Bild und konvertiert sie durch OCR in codierten Text. Der extrahierte Text wird dann durch das System automatisch in einen Dateibezeichner umgewandelt, etwa in einen Dateinamen oder einen Betreff-Text für eine E-mail Nachricht, die die Scandatei enthält.
Das als Dateibezeichner zu verwendende Layoutelement, das aus dem Vorlagenbild extrahiert worden ist, wird im folgenden auch als "Metadaten" bezeichnet, da es aus den Bilddaten der Vorlage stammt und speziell als Information über das Dokument benutzt wird, z. B. als bedeutungshaltiger Dateiname.
Wenn Dokumente in digital kodierter Form vorliegen, etwa MS WORD^TM Dokumente, können Metadaten automatisch durch spezialisierte Programme identifiziert werden, die das Dokument durchsuchen und vorprogrammierte Stichwörter extrahieren. Dokumente, die als Bilder vorliegen, d. h. als Zusammensetzungen aus schwarzen (farbigen) und weißen Pixeln, müssen jedoch zunächst durch OCR in eine digital codierte Form umgewandelt werden, ein Prozeß, der hohe Rechenleistung erfordert und trotzdem nicht immer einwandfrei arbeitet. Auch das Indizierprogramm benötigt eine gewisse Zeit zur Verarbeitung eines Dokuments.
Die automatische Interpretation von Vorlagenbildern ist für streng strukturierte Dokumente wie etwa Patentdokumente bekannt. Solche Dokumente haben eine streng vorgeschriebene Form, und ein Computer kann darauf programmiert werden, spezielle vorbestimmte Informationselemente in dem Vorlagenbild zu finden und zu verarbeiten. Dokumente mit frei gewühltem Format können jedoch nicht auf diese Weise verarbeitet werden.
Menschliche Operatoren haben den Vorteil, daß sie ein Vorlagenbild leicht überblicken und relevante Elemente darin finden können. Es wäre deshalb vorteilhaft, einen Operator Metadaten in dem Vorlagenbild auswählen zu las sen, die dann durch ein Computersystem automatisch extrahiert und der Scandatei als ein Bezeichner zugeordnet werden.
Verfahren zur Extraktion von Metadaten sind als solche (d. h. nicht für die Erzeugung eines Dateinamens für die zugehörige Scandatei, sondern zu Editionszwecken) im Stand der Technik bekannt.
EP 1 256 900 beschreibt ein System zur schnellen Eingabe von eingescannten digitalen Vorlagenbildern in eine Datenbank, einschließlich der Bestimmung von Metadaten für die Zwecke des Dateiaufrufs in dem angezeigten Bild durch einen Operator. Der Operator muß mit einer Maus oder dergleichen einen "Rahmen" um das Metadatenelement in dem Bild zeichnen. Dann konvertiert das System die als Bitmap in dem Rahmen enthaltene Bildinformation durch OCR in das Textformat.
US 6 323 876 beschreibt ein System zum Scannen von Dokumenten, das automatisch Bildbereiche wie Textblöcke in dem eingescannten Vorlagenbild erkennt. Das eingescannte Bild wird dann auf einem Display angezeigt, und irgendein Bildbereich kann durch einen Operator ausgewählt werden, indem er in das angezeigte Bild zeigt.
Ein weiteres Verfahren zum Extrahieren von Metadaten aus einem Dokument ist aus EP 1 136 938 bekannt. Dokumente werden zunächst mit Hilfe eines an einen Rechner angeschlossenen Scanners gescannt, um ein aus Pixeln bestehendes Bild zu erzeugen. Die eingescannten Dokumente haben ein strukturiertes Layout, bei dem Textzeichenketten, die Metadaten repräsentieren, in Blöcken positioniert sind, die die Textzeichenketten mit gezeichneten Linien umschließen. Insbesondere technische Zeichnungen haben solche Blöcke, die Metadaten enthalten, wie etwa Titel, Daten, Versionen und dergleichen. Der Benutzer bedient ein Zeigeinstrument des Rechners, um einen beliebigen Punkt in wenigstens einem Block der Dokumente zu bezeichnen. Nachdem der Punkt durch den Benutzer bezeichnet worden ist, wird der diesen Punkt enthaltende Block identifiziert, indem die umschließenden Linien detektiert werden. Anschließend werden die Schriftzeichen in diesem Block durch optische Schriftzeichenerkennung (OCR) erkannt, um so die Metadaten zu gewinnen und sie in einer an den Rechner angeschlossenen Datenbank abzulegen, damit die in dieser Weise eingescannten Dokumente indiziert werden können. Somit wird für die Identifizierung der Metadaten von einer Blockstruktur der Metadaten ausgegangen.
Andere Verfahren zur Extraktion von Text auf eingescannten Vorlagenbildern, zum Zweck des Edierens oder Indizierens, werden beschrieben in EP 1 256 900 und in NEWMAN W et al.: "Camworks: a video-based tool for efficient capture from paper source documents", Multimedia Computing and Systems, 1999, IEEE International Conference an Florence, Italy, 7. bis 11. Juni 1999, Los Alamitos, CA, USA, IEEE Corp. Soc., Seiten 647–653.
Die automatische Bestimmung und Extraktion eines Bereiches als Reaktion darauf, daß ein Operator einen Auswahlpunkt innerhalb des eingescannten Bildes angibt, kann auf verschieden Weisen erfolgen.
Ein erstes Beispiel eines solchen Prozesses basiert auf den Ergebnissen einer vorläufigen automatischen Segmentierung des Bildes (oder zumindest eines Teils desselben) in Layoutelemente wie etwa Wörter oder Zeilen. Verfahren zur Segmentierung von Vorlagenbildern in Layoutelemente sind als solche bekannt, z. B. ein Verfahren, das im US-Patent 5 856 877 der Anmelderin beschrieben wird, oder das Verfahren, das in der oben erwähnten Veröffentlichung von Newman et al. beschrieben wird. Die Ergebnisse der Segmentierung werden im Speicher des Gerätes gespeichert, aber dem Operator nicht gezeigt, damit dieser nicht verwirrt wird.
Über eine Benutzerschnittstelle wie etwa einen berührungsempfindlichen Bildschirm (Touch-Screen) oder eine Maus gibt der Benutzer in dem angezeigten Teil des Vorlagenbildes das Wort an, das er als Dateibezeichner verwenden will. Als Reaktion darauf wird das angegebene Layoutelement automatisch ausgewählt, und ein entsprechender Vorschlag für ein Extraktionsgebiet, das das Layoutelement vollständig abdeckt, wird bestimmt und angezeigt.
Das ursprüngliche automatisch bestimmte Extraktionsgebiet kann von dem Operator angepaßt werden, z. B. indem er wenigstens einen weiteren Auswahlpunkt in einem weiteren Metadaten-Element angibt, das in das Extraktionsgebiet einbezogen werden soll, in welchem Fall das System automatisch das Extraktionsgebiet vergrößert, um das weitere Metadaten-Element und etwa dazwischenliegende Elemente zusätzlich aufzunehmen.
Ein zweites Beispiel eines Prozesses zur Bestimmung eines Extraktionsgebietes beginnt mit der automatischen Klassifizierung von Pixeln als Vordergrundpixel aufgrund der Tatsache, daß ihre Werte eine Vordergrundeigenschaft haben, mit anschließender Bestimmung des Extraktionsgebietes auf der Grundlage von Vordergrundpixeln, die unter Berücksichtigung einer vorgegebenen Verbindungsdistanz mit einem durch den Auswahlpunkt angegebenen Vordergrundpixel verbunden sind. Insbesondere umfaßt dieses Verfahren:

– Aufnehmen des Vordergrundpixels, das durch den Auswahlpunkt angegeben wird,
– fortschreitendes Aufnehmen weiterer Vordergrundpixel, die innerhalb der Verbindungsdistanz von anderen Vordergrundpixeln liegen, die in dem verbundenen Bereich enthalten sind, und
– Festlegen des Extraktionsgebietes als ein Gebiet, das den verbundenen Bereich vollständig einschließt.

Das automatisch bestimmte Extraktionsgebiet kann wieder durch den Operator angepaßt werden, z. B. durch Angabe eines weiteren Auswahlpunktes oder durch Ausführung ergänzender Steueroperationen durch den Benutzer, wie etwa Anklicken einer Maustaste oder Betätigen eines Mausrades. Im letzteren Fall kann bei jedem Klick die Verbindungsdistanz um z. B. ein Pixel vergrößert werden.
Obgleich oben zwei Extraktionsverfahren im einzelnen beschrieben wurden, ist die Erfindung nicht auf den Einsatz dieser Verfahren beschränkt. Andere Verfahren, die ähnliche Resultate ergeben, können ebenfalls in der vorliegenden Erfindung verwendet werden und können zufriedenstellende Ergebnisse liefern.
In dieser Beschreibung kann ein Vorlagenbild eine Vielzahl von physikalischen Dokumentseiten umfassen. Im allgemeinen ist der auf dem Display gezeigte Teil des Dokuments das Bild der ersten Seite, da es normalerweise diese Seite ist, die die meiste Information enthält, die für die Extraktion von Metadaten relevant ist. Die Erfinder haben jedoch auch daran gedacht, das Gerät mit einer Browserfunktion auszustatten, mit der man durch das gesamte Dokument, d. h., durch die Vielzahl der physikalischen Dokumentseiten, blättern kann.
Weitere bevorzugte Ausführungsformen der Vorrichtung gemäß der Erfindung sind in den weiteren Ansprüchen angegeben.
Diese und weitere Aspekte der Erfindung werden in der nachstehenden Beschreibung anhand der als Beispiel beschriebenen Ausführungsformen verdeutlicht und näher erläutert, unter Bezugnahme auf die beigefügten Zeichnung, in denen zeigen:
1 ein eingescanntes Dokument mit einem Metadaten-Extraktionsgebiet;
2 eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion von Metadaten;
3 ein Flußdiagramm eines Prozesses zur Extraktion von Metadaten gemäß einem ersten beispielhaften Verfahren;
4a ein Resultat einer Segmentierung;
4b ein Detail eines Resultats einer Segmentierung;
5 ein Flußdiagramm eines Prozesses zur Extraktion von Metadaten gemäß einem zweiten beispielhaften Verfahren;
6a, 6b und 6c das Wachstum eines Gebietes vom Auswahlpunkt aus;
7 die Anpassung eines Metadaten-Extraktionsgebietes; und
8 die Anpassung der Form eines nicht rechteckigen Extraktionsgebietes.
Die Figuren sind schematisch und nicht maßstabsgerecht. In den Figuren haben Elemente, die bereits beschriebenen Elementen entsprechen, die gleichen Bezugszeichen.
1 zeigt ein eingescanntes Dokument und ein Metadaten-Extraktionsgebiet. Ein Dokument 13 ist eingescannt worden, um ein Bild aus Pixeln zu erzeugen. Die Pixel (Kurzform für "Bildelemente" (Picture Elements)) sind eine numerische Repräsentation des Dokuments und haben Werte, die die Intensität und/oder Farbe der Bildelemente repräsentieren. Ein Teil des Bildes wird auf einem (schematisch gezeigten) Display 12 einem Benutzer angezeigt, damit er interaktiv Metadaten bestimmen kann, die zur Erzeugung eines Dateibezeichners, z. B. eines Dateinamens verwendet werden sollen. Eine Bilddatei eines Dokuments kann getrennte Bilder für jede Seite des Dokuments enthalten. Eine Titelseite, gewöhnlich die erste Seite, enthält relevante Information über den Inhalt des Dokuments, etwa den Titel, den Dokumenttyp, den Autor, das Publikationsdatum und dergleichen. Solche Information wird in dieser Beschreibung als Metadaten bezeichnet. Der Benutzer kann die Option haben, das Display zu manipulieren, z. B. durch Rollen, um den relevanten Teil des Bildes oder der Bilddatei zu zeigen. Alternativ kann das Display eine vollständige Seite eines einseitigen Dokuments zeigen.
Ein Beispiel für ein Metadaten-Element ist eine Dokumentnummer 11, die Teil des Dokumenttyps ist. Das Metadaten-Element kann ein einzelnes Wort umfassen, etwa die Dokumentnmummer 11, oder innerhalb der Beschränkungen der Anwendung auch eine oder mehrere Textzeilen. Zum Beispiel enthält die in 1 gezeigte Zusammenfassung etwa sechs Textzeilen. Auf dem Display 12 ist ein Extraktionsgebiet 14 um den Dokumenttyp herum gezeigt, der die Dokumentnunmmer 11 enthält. Ein Extraktionsgebiet ist ein Gebiet des Bildes, der durch eine Verarbeitungseinheit zum Auffinden von Metadaten und zum Erkennen der Metadaten benutzt werden soll. im Kontext der vorliegenden Erfindung handelt es sich bei den Metadaten um Text, und das Extraktionsgebiet wird analysiert, um Schriftzeichen und Wörter zu erkennen, was allgemein als optische Schriftzeichenerkennung (OCR) bekannt ist.
Zur Konstruktion des Extraktionsgebietes gibt der Benutzer in dem Metadaten-Element, das er als relevant ansieht, z. B. in der Dokumentnummer 11, einen Auswahlpunkt an. Die Angabe des Auswahlpunktes ist der erste Schritt in einem Auswahlbefehl. Zur Angabe des Auswahlpunktes kann das Display durch einen sensitiven Bildschirm, etwa einem berührungsempfindlichen Bildschirm gebildet werden. Der Benutzer kann den Auswahlpunkt mit Hilfe eines Fingers oder mit Hilfe eines besonderen Zeigestockes angeben. Alternativ kann in dem Display ein Cursor angezeigt werden, der durch den Benutzer mit Hilfe einer Maus, eines Trackballs oder dergleichen gesteuert wird. Der Auswahlpunkt kann dann angegeben werden, indem der Cursor positioniert und eine Taste betätigt wird, etwa ein Mausklick.
Nachdem der Auswahlpunkt durch den Benutzer angegeben worden ist, wird das Extraktionsgebiet durch das Layoutelement (Wort), das den Auswahlpunkt enthält, oder das dem Auswahlpunkt am nächsten gelegene Layoutelement bestimmt. Es gibt zahlreiche Möglichkeiten, wie das Layoutelement gefunden werden kann, und zwei von ihnen werden nachstehend im einzelnen beschrieben. Die vorliegende Erfindung ist jedoch nicht auf die hier beschriebenen Methoden zur Bestimmung der durch den Operator angegebenen Layoutelemente begrenzt.
Wenn der Ort des Auswahlpunktes in einem Hintergrundgebiet liegt, kann das System entscheiden, daß der Benutzer kein Layoutelement auswählen will. In einer Ausführungsform kann das System entscheiden, daß der Benutzer beabsichtigt, das nächstgelegene Layoutelement auszuwählen, wenn der Abstand zu dem nächstgelegenen Layoutelement innerhalb einer vorbestimmten Grenze liegt. Wenn der Auswahlpunkt auf einem Hintergrundpixel weit entfernt von Vordergrundpunkten liegt, kann das System diese Auswahl als einen Befehl auffassen, ein aktuell ausgewähltes Metadaten-Extraktionsgebiet zu löschen.
Auf der Grundlage des Layoutelements (Wortes), das durch den Auswahlpunkt bestimmt wird, wird um das Layoutelement herum ein Extraktionsgebiet gezeichnet und dem Benutzer angezeigt, z. B. ein Rahmen oder ein farbiges Gebiet. Der Benutzer kann das vorgeschlagene Gebiet bestätigen oder das vorgeschlagene Extraktionsgebiet verändern, wie nachstehend beschrieben wird. Schließlich werden Metadaten extrahiert, indem die Pixel in dem Extraktionsgebiet verarbeitet werden. Ein Dateiname für die Scandatei kann dann automatisch erzeugt werden, etwa in der Form des extrahierten Wortes oder der extrahierten Wörter oder in der Form einer Kombination aus dem extrahierten Wort oder den extrahierten Wörtern und automatisch hinzugefügter Systeminformation wie etwa dem Datum und/oder der Zeit und dergleichen.
2 zeigt eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion von Metadaten gemäß der vorliegenden Erfindung. Die Vorrichtung hat eine Eingabeeinheit 21 zur Eingabe eines digitalen Bildes, mit einer Abtasteinheit, wie etwa einem elektro-optischen Scanner zum Einscannen eines Bildes von physikalischen Dokumenten. Die Eingabeeinheit 21 ist mit einer Prozessoreinheit 24 verbunden, die mit einer Speichereinheit 22 zusammenarbeitet. Die Speichereinheit kann eine Aufzeichnungseinheit enthalten, zur Aufzeichnung des Bildes und/oder der Metadaten auf einem Aufzeichnungsträger wie etwa einem Magnetband oder einer optischen Platte. Die Prozessoreinheit kann eine zentrale Prozessoreinheit (CPU) eines Vielzweckrechners und unterstützende Schaltungen enthalten, die mit Hilfe von Software arbeitet, um die oben beschriebene Extraktion von Metadaten auszuführen. Die Prozessoreinheit ist mit einer Benutzerschnittstelle 25 verbunden, die wenigstens eine Angabeeinheit zur Angabe eines Auswahlpunktes auf dem Bild aufweist. Die Benutzerschnittstelle kann Steuereinrichtungen wie etwa eine Tastatur, eine Maus oder Bedienungsknöpfe aufweisen. Die Prozessoreinheit ist mit einer Displayeinheit 23 verbunden. Die Displayeinheit umfaßt einen Anzeigeschirm zur Anzeige des Bildes und des Extraktionsgebietes, wie oben im Zusammenhang mit 1 erläutert wurde. Insbesondere können die Displayeinheit und die Angabeeinheit als ein berührungsempfindlicher Bildschirm realisiert sein, der darauf reagiert, daß der Benutzer mit einem Finger auf das Metadaten-Element in dem angezeigten Bild zeigt, um den Auswahlpunkt anzugeben. Die Prozessoreinheit kann mit einer Druckereinheit zur Ausgabe eines verarbeitenden Bildes oder von verarbeitenden Metadaten auf Papier verbunden sein. Die von der Eingabeeinheit 21 erzeugte Scandatei erhält einen Namen auf der Grundlage der extrahierten Metadaten und kann z. B. in einer Datenbank gespeichert werden, etwa in der Speichereinheit 22 oder in einem separaten Rechnersystem.
Es ist zu bemerken, daß die Vorrichtung aus standardmäßigen Komponenten einer Computerhardware und einem Computerprogramm aufgebaut sein kann, um den Prozeß der Extraktion der Metadaten auszuführen, wie weiter unten beschrieben werden wird. Alternativ kann die Vorrichtung eine spezialisierte Hardwarevorrichtung sein, die eine Scaneinheit, eine Prozessoreinheit und ein Display für die Extraktion der Metadaten aufweist. Weiterhin kann der Scanprozeß von dem interaktiven Prozeß der Extraktion der Metadaten lösgelöst sein, z. B. kann eine Scannereinheit in einem Postempfangsraum über ein LAN mit einer Indizierstelle verbunden sein, wo sich das Display und der Operator befinden.
3 zeigt ein Flußdiagramm eines Prozesses zur Extraktion von Metadaten nach einer ersten beispielhaften Methode. Diese Methode segmentiert das Bild zunächst auf der Grundlage der Pixelwerte in Layoutelemente wie etwa Wörter und Zeilen und behandelt die gesamte Bestimmung des Extraktionsgebietes auf der Ebene der Layoutelemente.
Nach dieser Methode werden Pixel auf der Grundlage der Werte, die eine Vordergrundeigenschaft haben, auf einem Dokument mit weißen Hintergrund, gewöhnlich der Wert, der Schwarz repräsentiert, als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe, die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch den Auswahlpunkt angegeben wird.
Das Segmentieren eines Bildes in Layoutelemente ist ein Schritt, der als solcher in der Bildverarbeitung bekannt ist. Zum Beispiel wird ein Verfahren zur Segmentierung eines Bildes in US 5 856 877 beschrieben. Die Segmentierung kann ausgeführt werden, bevor das Bild dem Benutzer angezeigt wird, oder kann gestartet werden, sobald Verarbeitungskapazität im System verfügbar ist, z. B. als ein Hintergrundprozeß, während das Dokument dem Benutzer angezeigt wird. Die Segmentierung kann auch als Reaktion auf die Angabe eines Auswahlpunktes durch den Benutzer ausgeführt werden und dann auf einen Bereich beschränkt sein, der dem angegebenen Punkt relativ nahe liegt. Es ist zu bemerken, daß das Resultat der Segmentierung dem Benutzer nicht gezeigt wird. Somit braucht die Segmentierung nicht abgeschlossen zu sein, und der Benutzer wird nach dem Einscannen eines Dokuments eine schnelle Anzeige des Dokuments durch das System erleben. Außerdem wird der Benutzer nicht durch Rahmen oder andere Begrenzungselemente gestört, die über das gesamte angezeigte Vorlagenbild verteilt sind.
In einer Ausführungsform konzentriert sich der Segmentierungsprozeß auf einen Bereich um den Auswahlpunkt, z. B. wird die Segmentierung nur auf dem Bereich des Bildes vorgenommen, der dem Benutzer tatsächlich angezeigt wird. Es ist zu bemerken, daß der Benutzer zunächst durch Rollen des Dokuments einen interessierenden Bereich auswählen kann. Alternativ kann die Segmentierung selektiv vorgenommen werden, nachdem der Benutzer den Auswahlpunkt angegeben hat.
In 3 wird in einem ersten Schritt S31 EINGEGEBENES BILD VORBEREITEN das Bild als digitale Datei von Pixelwerten von der Scannereinrichtung empfangen. Der Schritt kann weitere Bildverarbeitung einschließen, auf der Grundlage von vorbestimmtem Wissen über das Bild oder detektierten Eigenschaften des Bildes, beispielsweise Kontrastverstärkung, Bestimmung von Vordergrund- und/oder Hintergrundeigenschaften anhand einer globalen Statistik des Bildes, Drehen des Bildes und dergleichen. Außerdem kann der Schritt die Segmentierung des Bildes in Layoutelemente einschließen. Es ist jedoch zu bemerken, daß die Segmentierung nicht abgeschlossen zu sein braucht, bevor das Bild angezeigt wird, sondern im Hintergrund weiterlaufen kann, bis die Layoutelemente in einem Schritt S34 LAVOUTELEMENT FINDEN benötigt werden. Alternativ kann ein Segmentierungsresultat als ein vorbereitender Schritt in einem separaten Bildverarbeitungssystem erhalten werden.
In einem nächsten Schritt S32 BILD ANZEIGEN wird das Bild einem Benutzer auf einem Display gezeigt. Der Schritt kann das Auffinden eines relevanten Teils des Bildes einschließen, um z. B. von einer Seite, die mit einem großen weißen Bereich beginnt, den Teil anzuzeigen, der die ersten Textzeilen enthält. In einem nächsten Schritt S33 AUSWAHLPUNKT wird eine Aktion des Benutzers zur Angabe eines Auswahlpunktes in dem Bild erwartet, insbesondere in einem Metadaten-Element. Ein symbolische Warteschleife L33 in der Zeichnung gibt an, daß das System auf eine Aktion des Benutzers wartet.
In einem nächsten Schritt S34 LAYOUTELEMENT FINDEN wird das segmentierte Bild verarbeitet, um das Layoutelement zu finden, das der Benutzer für die Extraktion von Metadaten vorgesehen hat. Der Auswahlpunkt gibt an, welches Layoutelement ausgewählt worden ist, wie weiter unten im Zusammenhang mit 4 erläutert werden wird. In einem nächsten Schritt S35 EXTRAKTIONSGEBIET ANZEIGEN wird ein Extraktionsgebiet angezeigt, das das ausgewählte Layoutelement abdeckt. Das Extraktionsgebiet kann als ein Rechteck, ein hervorgehobenes Gebiet oder irgendein anderes geeignetes Anzeigemerkmal gezeigt werden, das nur das Layoutelement enthält.
Es ist zu bemerken, daß der Benutzer aktiv einen Auswahlpunkt angeben kann, z. B., durch Klicken einer Maustaste, wenn sich der Cursor auf dem gewünschten Metadatenelement befindet oder durch Tippen mit einem Finger auf einen berührungsempfindlichen Bildschirm. Das System kann jedoch auch automatisch ein vorgeschlagenes Extraktionsgebiet anzeigen, sobald der Benutzer ein Zeigeelement (etwa einen Cursor) in der Nähe eines Vordergrundobjektes platziert, oder eine vorbestimmte (kurze) Wartezeit danach. In dem automatischen Modus sind die Schritte S33 AUSWAHLPUNKT, S34 LAYOUTELEMENT FINDEN und S35 EXTRAKTIONSGEBIET ANZEIGEN miteinander kombiniert. Der Cursor kann als ein spezielles Symbol dargestellt werden, das den automatischen Modus angibt, z. B. durch Hinzufügen eines kleinen Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt auf der Grundlage der visuellen Rückmeldung des vorgeschlagenen Extraktionsgebietes bestimmen.
Anhand des angezeigten Extraktionsgebietes kann der Benutzer verifizieren, daß das Extraktionsgebiet die von ihm vorgesehenen Metadaten-Elemente abdeckt. In einem nächsten Schritt S36 ENDGÜLTIGES GEBIET bestätigt der Benutzer das angezeigte Extraktionsgebiet, z. B. durch einen Mausbefehl oder implizit durch Eingabe eines nächsten Dokuments.
Wie durch eine symbolische Schleife L36 angedeutet wird, kann der Benutzer auch das vorgeschlagene Extraktionsgebiet anpassen, wie mit Bezug auf 7 oder 8 erläutert werden wird. Zum Beispiel kann der Benutzer einen zweiten Punkt angeben, der ebenfalls in dem Extraktionsgebiet enthalten sein muß, oder der Benutzer gibt eine Erweiterung des vorgeschlagenen Extraktionsgebietes an, indem er das Zeigeelement vom Auswahlpunkt aus in eine Richtung zieht, in der er das Extraktionsgebiet erweitern möchte. Als Reaktion auf die Anpassung kann das Display das endgültige Gebiet zeigen.
In einem nächsten Schritt S37 METADATEN EXTRAHIEREN wird das endgültig bestätigte Extraktionsgebiet verarbeitet, um die Metadaten-Elemente wie z. B. Wörter mit Hilfe von OCR zu detektieren und zu erkennen. Das Resultat wird in einen Bezeichner für die Scandatei, etwa einen Dateinamen umgewandelt, der auf dem Display in einem Textfeld angezeigt werden kann. Die Scandatei kann dann mit Hilfe des Dateibezeichners in der Speichereinheit 22 abgelegt werden.
4a zeigt ein Resultat einer Segmentierung. Es ist jedoch zu bemerken, daß das Resultat der Segmentierung einem Benutzer nicht gezeigt wird, sondern nur intern in dem Prozessorsystem verfügbar ist. Das in 1 gezeigte Bild dient als Beispiel. Die Segmentierung hat zur Detektion zahlreicher Layoutelemente geführt. Der Prozeß detektiert zunächst einzelne Wörter, z. B. die durch Rechtecke 41 und 43 angegebenen Wörter, und weiterhin alle Gruppierungen von Wörtern wie etwa Zeilen, z. B. die durch das Rechteck 42 angegebene Zeile, und Textblöcke, z. B. den durch das Rechteck 44 angegebenen Textblock.
Zwischengebiete, die im wesentlichen nur Hintergrundpixel haben, werden als Hintergrund 45 klassifiziert. Vorbestimmte "Nicht-Text"-Elemente wie etwa die schwarze Linie 46 können ebenfalls als Hintergrund klassifiziert werden oder zumindest als nicht auswählbare Elemente. Der Benutzer gibt einen Auswahlpunkt an, indem er ein Zeigeelement, wie etwa einen Cursor, in der Nähe eines Metadaten-Elements, das er extrahiert haben möchte, oder auf diesem Element positioniert. Dann wird ein Extraktionsgebiet bestimmt, das das Layoutelement vollständig abdeckt. Das Extraktionsgebiet wird dem Benutzer angezeigt, der das vorgeschlagene Extraktionsgebiet bestätigen kann. Der Benutzer kann entscheiden, daß das Extraktionsgebiet zu klein ist, zu groß ist, etc. In dem Fall kann der Benutzer seinen Auswahlbefehl ergänzen, wie nachstehend beschrieben wird.
4b zeigt ein Detail eines Resultats einer Segmentierung. Es umfaßt ein erstes Layoutelement, entsprechend dem ersten Wort, das durch ein erstes Rechteck 47 angegeben wird; ein zweites Layoutelement entsprechend dem zweiten Wort, das durch ein zweites Rechteck 48 angegeben wird; und ein drittes Layoutelement ist segmentiert, d. h. entsprechend der Nummer in dem Dokumenttyp, wie durch ein drittes Rechteck 49 angegeben wird.
Der Segmentierungsprozeß hat auch die Kombination der drei Wortelemente detektiert, nämlich die durch das Rechteck 42 angegebene Zeile.
Nachdem der Benutzer einen Auswahlpunkt in dem dritten Rechteck 49 angegeben hat, wird das System ein kleines Extraktionsgebiet anzeigen, das nur die Dokumentnummer umgibt. Wenn der Benutzer nun auf das vorgeschlagene Extraktionsgebiet klickt (Maus) oder tippt (Touch-Screen), wählt der Prozessor automatisch das Layoutelement auf der nächsthöheren Ebene, in diesem Beispiel die "Zeile" im Rechteck 42. Eine noch höhere Ebene, obwohl in diesem speziellen Beispiel nicht vorhanden, wäre ein Textblock (Absatz). Alternativ kann das Klicken dazu führen, daß das Auswahlgebiet progressiv durch das Hinzufügen von Wörtern, z. B in der Leserichtung, erweitert wird. In dem Beispiel nach 4b würde der Benutzer damit beginnen, daß er auf das Wort im Rechteck 47 zeigt, und fortschreitendes Klicken (Tippen) würde nacheinander die Wörter in den Rechtecken 48 und 49 hinzufügen.
Ein anderer Mausklick (z. B. mit der rechten Maustaste anstelle der linken Maustaste) kann das ausgewählte Gebiet progressiv verkleinern, entweder in Ebenen oder in Wörtern.
Bei einer alternativen Art der Erweiterung des Auswahlgebietes kann der Benutzer einen zweiten Auswahlpunkt in einem weiteren Layoutelement in dem Bild angeben, z. B. indem er auf eine neue Stelle in dem Rechteck 48 zeigt. Das neue Layoutelement kann einfach zu dem ursprünglichen Layoutelement hinzugefügt werden. Wenn es dazwischenliegende Layoutelemente gibt, möchte der Benutzer höchstwahrscheinlich diese Zwischenelemente ebenfalls einbezogen haben. Wenn z. B. der zweite Auswahlpunkt in dem ersten Rechteck 47 liegt, werden alle drei Rechtecke 47, 48, 49 zu dem Extraktionsgebiet kombiniert.
Der Benutzer kann das Extraktionsgebiet auch verändern, indem er den Cursor in Richtung des ersten Rechtecks 47 zieht (zum linken Rand des Papiers). Das System leitet aus dieser Bewegung einen Befehl ab, zusätzliche Layoutelemente anzuschließen, und schließt das nächste Rechteck 48 an, um ein neues Extraktionsgebiet zu bilden, das die benachbarten Rechtecke 48, 49 umgibt. Das Anschließen kann für Layoutelemente gelten, die innerhalb einer Anschlußdistanz liegen. Die Anschlußdistanz wird dazu benutzt, Layoutelemente auszuwählen, die mit einem ausgewählten Layoutelement kombiniert werden sollen, d. h. der Hintergrund zwischen den Layoutelementen ist kleiner als die Anschlußdistanz. Die Anschlußdistanz kann als der kürzeste euklidische Abstand zwischen den Grenzen der Layoutelemente definiert werden oder als ein Abstand in horizontaler (x) oder vertikaler (y) Richtung zwischen Punkten der Layoutelemente, deren x – oder y-Koordinaten am engsten beieinanderliegen. Die Schwellendistanz für das Verbinden von Layoutelementen kann eine vordefinierte Distanz sein, z. B. etwas größer als ein Abstand, der beim Segmentieren dazu benutzt wird, Bildelemente zu vereinigen, zwischen denen Hintergrundpixel liegen. Die Ergänzung zu dem Auswahlbefehl kann auch in eine benutzerdefinierte Anschlußdistanz übersetzt werden, z. B. kann die Anschlußdistanz interaktiv aus der Strecke abgeleitet werden, über die der Benutzer den Cursor bewegt. In einer Ausführungsform kann der Benutzer wiederholt auf dieselbe Stelle klicken oder zeigen, um die Anschlußdistanz um vordefinierte Beträge zu vergrößern, oder er kann ein Mausrad betätigen, um die Anschlußdistanz allmählich zu vergrößern oder zu verkleinern.
Die Anschlußdistanz kann für unterschiedliche Richtungen verschieden sein. Zum Beispiel kann die Anschlußdistanz in horizontaler Richtung größer sein als die Anschlußdistanz in vertikaler Richtung. Für gewöhnliche Textdokumente führt dies dazu, daß Schriftzeichen robust zu Wörtern verbunden werden und Wörter zu einer Textzeile, ohne daß die Textzeile mit der nächsten oder vorherigen Zeile verbunden wird. In einem Vorverarbeitungsschritt kann eine Leserichtung bestimmt werden, z. B. durch Analyse des Layouts von Hintergrundpixeln. Die Anschlußdistanz kann auf der Leserichtung basieren, z. B. von links nach rechts, und vom Auswahlpunkt aus nach rechts kann die Anschlußdistanz größer sein.
In einer Ausführungsform des Anschlußprozesses wird die Anschlußdistanz in Abhängigkeit von einer Auswahlrichtung angepaßt, die über die Ergänzung zu dem Auswahlbefehl empfangen wird. Das vorgeschlagene Extraktionsgebiet wird dem Benutzer angezeigt, und der Benutzer wird leicht feststellen, daß das Extraktionsgebiet in einer bestimmten Richtung erweitert werden muß. Der Benutzer kann diese Richtung angeben, indem er ein Auswahlmittel (Cursor oder Finger auf einem Touch-Screen) von dem Auswahlpunkt aus in der Auswahlrichtung zieht.
5 zeigt ein Flußdiagramm eines Prozesses zur Extraktion von Metadaten nach einem zweiten beispielhaften Verfahren. Bei diesem Verfahren erfolgt die Bestimmung des vom Operator angegebenen Layoutelements und damit des Extraktionsgebietes vollständig auf Pixelebene.
Pixel werden auf der Grundlage der Werte, die eine Vordergrundeigenschaft haben, bei einem Dokument mit weißem Hintergrund gewöhnlich der Wert, der Schwarz repräsentiert, als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe, die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch den Auswahlpunkt angegeben wird, oder eine Farbe, die von der Hintergrundfarbe verschieden ist. Verfahren zur Unterscheidung zwischen Vordergrund- und Hintergrundpixeln sind im Stand der Technik bekannt.
Ein erstes Hintergrundpixel wird durch den Auswahlpunkt angegeben, d. h. das Vordergrundpixel, das dem Ort des Auswahlpunktes entspricht oder in der Nähe des Auswahlpunktes liegt, wenn der Auswahlpunkt sich auf einem Hintergrundpixel in dem Metadaten-Element befindet. Wenn der Auswahlpunkt auf einem Hintergrundpixel innerhalb eines bestimmten Abstands zu Vordergrundpixeln liegt, kann das System das angegebene Pixel für die Zwecke der Auffindung der Pixel, die das vorgesehene Metadaten-Element bilden, als ein Vordergrundpixel betrachten, d. h. den Auswahlpunkt aufgrund der Tatsache, daß er von dem Benutzer angegeben worden ist, als ein Vordergrundpixel (um-)klassifizieren. Alternativ kann das System das am nächsten liegende Vordergrundpixel als Auswahlpunkt auswählen. Wenn der Auswahlpunkt auf einem Hintergrundpixel liegt, das weit von Vordergrundpixeln entfernt ist, kann das System diese Auswahl als einen Befehl auffassen, ein aktuell ausgewähltes Metadaten-Extraktionsgebiet zu löschen.
Auf der Grundlage des ersten Vordergrundpixels wird ein Gebiet von Pixeln detektiert, und es wird angenommen, daß es Teil der Metadaten ist, und ein Extraktionsgebiet wird um das Gebiet herum gezeichnet und dem Benutzer angezeigt. Durch Verarbeitung von Pixeln in dem Extraktionsgebiet werden Metadaten extrahiert und in einen Bezeichner für die Scandatei umgewandelt.
In 5 wird in einem ersten Schritt S131 EINGEGEBENES BILD VORBEREITEN das Bild als eine digitale Datei von Pixelwerten von der Scannereinrichtung empfangen. Der Schritt kann weitere Bildverarbeitung auf der Grundlage vorbestimmter Kenntnisse oder detektierter Eigenschaften des Bildes umfassen, etwa Verstärkung des Kontrasts, Bestimmung von Vordergrund- und/oder Hintergrundeigenschaften anhand einer globalen Statistik des Bildes, Drehen des Bildes und dergleichen. Dieser Schritt kann auch die Bereitstellung eines zusätzlichen Eingabebildes mit kleinerer Auflösung zum Gebrauch bei der Bildanalyse in Schritt S134 (später erläutert) umfassen. Da das eingescannte Bild eine recht hohe Auflösung hat, wird eine moderate Verringerung der Auflösung, z. B. mit einem Faktor von zwei bis vier, normalerweise die Analyse nicht beeinträchtigen, jedoch die benötigte Verarbeitungskapazität reduzieren. Die ursprüngliche hohe Auflösung des eingegebenen Bildes wird nach wie vor für die Anzeige und die Datenextraktion benutzt.
In einem nächsten Schritt S132 BILD ANZEIGEN wird das Bild einem Benutzer auf einem Display gezeigt. Der Schritt kann das Auffinden eines relevanten Teils des Bildes einschließen, um z. B. von einer Seite, die mit einem großen weißen Gebiet beginnt, den Teil anzuzeigen, der die ersten Textzeilen enthält. In einem nächsten Schritt S133 AUSWAHLPUNKT wird eine Benutzeraktion zur Angabe eines Auswahlpunktes in dem Bild, insbesondere in einem Metadaten-Element, erwartet. Eine symbolische Warteschleife L133 in der Zeichnung gibt an, daß das System auf eine Aktion des Benutzers wartet.
In einem nächsten Schritt S134 VERBUNDENES GEBIET FINDEN werden die Pixel um den Auswahlpunkt herum analysiert, um die Vordergrundpixel zu finden, die innerhalb eines Verbindungsbereiches liegen, wie weiter unten mit Bezug 6 erläutert werden wird. In einem nächsten Schritt S135 EXTRAKTIONSGEBIET ANZEIGEN wird ein Extraktionsgebiet angezeigt, das das verbundene Gebiet abdeckt. Das Extraktionsgebiet kann als ein rechteckiges Gebiet, das nur das verbundene Gebiet enthält, ein hervorgehobenes Gebiet oder irgendein anderes geeignetes Anzeigemerkmal angezeigt werden.
Es ist zu bemerken, daß der Benutzer aktiv einen Auswahlpunkt angeben kann, z. B. durch Klicken einer Maustaste, wenn sich der Cursor auf dem gewünschten Metadaten-Element befindet, oder durch Tippen mit einem Finger auf einen Touch-Screen. Das System kann jedoch auch automatisch ein vorgeschlagenes Extraktionsgebiet anzeigen, sobald der Benutzer ein Zeigeelement (etwa einen Cursor) in der Nähe eines Vordergrundobjektes positioniert, oder eine vorbestimmte (kurze) Wartezeit später. In dem automatischen Mo dus sind die Schritte S133 AUSWAHLPUNKT, S134 VERBUNDENES GEBIET FINDEN und S135 EXTRAKTIONSGEBIET ANZEIGEN miteinander kombiniert. Der Cursor kann als ein spezifisches Symbol gezeigt werden, das den automatischen Modus angibt, z. B. durch Hinzufügen eines kleinen Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt auf der Grundlage der visuellen Rückmeldung des vorgeschlagenen Extraktionsgebietes bestimmen.
Auf der Grundlage des angezeigten Extraktionsgebietes kann der Benutzer verifizieren, daß das Extraktionsgebiet die von ihm gewünschten Metadaten-Elemente abdeckt. In einem nächsten Schritt S136 ENDGÜLTIGES GEBIET bestätigt der Benutzer das angezeigte Extraktionsgebiet, z. B. durch einen Mausbefehl oder implizit durch Eingabe eines nächsten Dokuments.
Wie durch eine symbolische Schleife L136 angedeutet wird, kann der Benutzer auch das vorgeschlagene Extraktionsgebiet anpassen, wie mit Bezug auf 7 oder 8 erläutert wird. Zum Beispiel kann der Benutzer einen zweiten Punkt angeben, der in dem Extraktionsgebiet enthalten sein muß, oder der Benutzer gibt eine Erweiterung des vorgeschlagenen Extraktionsgebietes an, indem er das Zeigeelement von dem Auswahlpunkt aus in eine Richtung zieht, in der er das Extraktionsgebiet erweitert haben möchte. Das Display kann als Reaktion auf die Anpassung das endgültige Gebiet zeigen.
In einem nächsten Schritt S137 METADATEN EXTRAHIEREN wird das endgültig bestätigte Extraktionsgebiet verarbeitet, um die Metadaten-Elemente, etwa Wörter, mit Hilfe von OCR zu detektieren und zu erkennen. Das Resultat kann in einem Textfeld auf dem Display angezeigt werden. Das Resultat wird in einen Bezeichner für die Scandatei umgewandelt, etwa einen Dateinamen, der in einem Textfeld auf dem Display gezeigt werden kann. Unter Verwendung des Dateibezeichners kann die Scandatei in der Speichereinheit 22 abgelegt werden.
6a zeigt ein Gebiet, das mit einer Verbindungsdistanz von einem Pixel wächst. Ein detaillierter Teil eines Bildes 81 ist in vier Wachstumsphasen des Gebietes gezeigt, wobei einzelne Pixel weiß (als Hintergrund) oder grau (als Vordergrund) dargestellt sind. Der Benutzer hat einen durch einen schwarzen Punkt bezeichneten Auswahlpunkt 80 angegeben. Das Wachstum des Gebiets beginnt an dem Pixel, das dem Auswahlpunkt 80 entspricht, und zunächst ist ein Anfangsgebiet 82 von nur einem Pixel gezeigt. Es wird angenommen, daß die Verbindungsdistanz für das Wachstum ein Pixel betragt, d. h., es werden keine dazwischenliegenden Hintergrundpixel zugelassen. In der zweiten Wachstumsphase ist ein zweites Gebiet 83 gezeigt, das sich nach unten erstreckt, um direkt verbundene Pixel einzuschließen. In einer dritten Wachstumsphase ist ein drittes Gebiet 84 gezeigt, das sich nach rechts erstreckt, um direkt verbundene Pixel einzuschließen. In einer vierten Wachstumsphase ist ein viertes Gebiet 85 gezeigt, das sich wiederum nach rechts erstreckt, um direkt verbundene Pixel einzuschließen. Da keine weiteren Vordergrundpixel innerhalb der Verbindungsdistanz (= 1) liegen, bricht das Wachstum des Gebietes ab. Das Gebiet enthält auch Hintergrundpixel. Nach Abschluß des Wachstumsprozesses kann das eingezeichnete Gebiet das vorgeschlagene Extraktionsgebiet sein.
6b zeigt das Gebietswachstum mit einer Verbindungsdistanz von zwei Pixeln. Es ist das gleiche Detail eines Bildes wie in 6a gezeigt. Die Verbindungsdistanz ist auf zwei Pixel erhöht, und deshalb werden einzelne zwischenliegende Hintergrundpixel überbrückt. Das resultierende rechteckige Gebiet 86 enthält die Vordergrundpixel, die mit einer Verbindungsdistanz von zwei verbunden sind. Der Benutzer kann das resultierende Gebiet bestätigen, oder er kann entscheiden, daß das rechteckige Gebiet zu klein ist. In dem Fall ergänzt der Benutzer seinen Auswahlbefehl. Dazu kann der Benutzer einen zweiten Auswahlpunkt 87 in einem weiteren Vordergrundbereich des Bildes angeben, z. B. indem er auf die neue Stelle zeigt oder von dem Auswahlpunkt 86 zu dem zweiten Auswahlpunkt 87 zieht. Die Ergänzung des Auswahlbefehls wird durch die Prozessoreinheit 84 in eine größere Verbindungsdistanz übersetzt, die gerade groß genug ist, den zweiten Auswahlpunkt 87 zu dem Auswahlgebiet hinzuzufügen. Dies kann dazu führen, daß das Auswahlgebiet auch in anderen Richtungen erweitert wird.
6c zeigt ein Gebietswachstum mit einer Verbindungsdistanz von drei Pixeln. Es ist das gleiche Detail eines Bildes wie in 6b gezeigt. Die Verbindungsdistanz ist auf drei Pixel erhöht, und deshalb werden bis zu zwei zwischenliegende Hintergrundpixel überbrückt. Das resultierende rechteckige Gebiet 88 enthält den zweiten Auswahlpunkt 87. Es ist zu bemerken, daß der Prozeß des Gebietswachstums auch an die erhaltenen Resultate angepaßt werden kann oder Lernoptionen einschließen kann, z. B. die Verwendung einer größeren Verbindungsdistanz, wenn der Benutzer das Gebiet in den meisten Fällen vergrößern muß. Wenn ein verbundenes Gebiet unterhalb einer vorbestimmten Größe gefunden wird, kann der Prozeß auch einschließen, daß die Verbindungsdistanz automatisch vergrößert wird, um wenigstens die vorbestimmte Größe zu erreichen.
In einer weiteren Ausführungsform des Prozesses des Gebietswachstums ist die Verbindungsdistanz für unterschiedliche Richtungen verschieden. Zum Beispiel kann die Verbindungsdistanz in horizontaler Richtung größer sein als die Verbindungsdistanz in vertikaler Richtung. Für gewöhnliche Textdokumente führt dies dazu, daß Wörter in einer Textzeile robust verbunden werden, ohne daß die Textzeile mit der nächsten oder vorherigen Zeile verbunden wird. In einem Vorverarbeitungsschritt kann eine Leserichtung bestimmt werden, z. B. durch Analyse des Layouts von Hintergrundpixeln. Die Verbindungsdistanz kann auf der Leserichtung basieren, z. B. von links nach rechts, und vom Auswahlpunkt aus nach rechts mag die Verbindungsdistanz größer sein.
In einer Ausführungsform des Prozesses des Gebietswachstums kann die Verbindungsdistanz in Abhängigkeit von einer Auswahlrichtung angepaßt werden, die über die Ergänzung des Auswahlbefehls empfangen wird. Das vorgeschlagene Extraktionsgebiet wird dem Benutzer angezeigt, und der Benutzer kann leicht feststellen, daß das Extraktionsgebiet in einer bestimmten Richtung erweitert werden muß. Der Benutzer kann die Auswahlrichtung angeben, indem er ein Auswahlelement (Cursor oder ein Finger auf einem Touch-Screen) von dem Auswahlpunkt aus in der Auswahlrichtung zieht. Es ist zu bemerken, daß die Zunahme der Verbindungsdistanz aus der Weite des Zuges von dem ersten Auswahlpunkt aus abgeleitet werden kann.
Die Vorrichtung kann weitere Optionen zur Anpassung der Form des Extraktionsgebietes bieten, das nach irgendeiner der oben als Beispiel beschriebenen Methoden bestimmt wurde.
7 zeigt die Anpassung eines Metadaten-Extraktiongebietes. Anfangs wird dem Benutzer ein rechteckiges Extraktionsgebiet 50 angezeigt. Die Form des Extraktionsgebietes kann mit Hilfe von steuerbaren Elementen 52, 53 des vorgeschlagenen Extraktionsgebietes verändert werden. Der Benutzer kann nun eines der steuerbaren Elemente bewegen. Die steuerbaren Elemente werden dem Benutzer durch zusätzliche Symbole angezeigt, d. h. durch kleine Rechtecke, die zu den Seiten und Ecken des Extraktionsgebietes 50 hinzugefügt sind. Der Benutzer kann z. B. die obere Seite des Extraktionsgebietes 50 ziehen. Das Resultat kann einfach in einer Erweiterung des Extraktionsgebietes nach oben bestehen. Durch Manipulation der steuerbaren Ecke 53 werden die entsprechenden linken und unteren Seiten bewegt. Mögliche neue Positionen für die Seiten und Ecken können während der Manipulation als gestrichelte Linien 51 angezeigt werden. Nach der endgültigen Auswahl des Gebietes werden die neuen Positionen der Seiten und Ecken in durchgezogenen Linien dargestellt. Es ist zu bemerken, daß für die Anzeige der Steueroptionen andere visuelle Elemente eingesetzt werden können, z. B. Farben, Blinken, etc.
8 zeigt die Anpassung der Form eines nicht rechteckigen Extraktionsgebietes. Es ist ein Extraktionsgebiet 60 gezeigt, das so konstruiert ist, daß ein Teil eines Textfragments ausgewählt wird. Die Auswahl beginnt mit einem Wort in der Mitte einer Zeile und endet auch in der Mitte einer Zeile. Für den Text wird ein Spaltenlayout angenommen. Vertikale Seiten können einfach detektiert werden und brauchen auch für den Benutzer nicht steuerbar zu sein. Die untere Seite 61 hat zwei horizontale Teile und einen dazwischenliegenden vertikalen Teil. Die untere Linie 61 kann zu einer neuen Position 62 gezogen werden, die durch eine gestrichelte Linie angegeben ist. Insbesondere kann der zwischenliegende vertikale Teil zu einer Stelle in den Textzeilen gezogen werden, die hinter dem letzten Wort liegt, das in die Metadaten einbezogen werden soll.
Nachdem das Extraktionsgebiet endgültig festgelegt ist, können die Metadaten extrahiert und durch optische Schriftzeichenerkennung (OCR) verarbeitet werden. Die extrahierten Metadaten werden dann zur Bestimmung eines Dateinamens benutzt, der einem eingescannten Dokument hinzugefügt wird. Das Extraktionsgebiet kann etwaigen Anforderungen an einen Dateinamen unterliegen, z. B. daß er eine minimale und eine maximale Länge hat. Der Extraktionsprozeß kann die Anpassung der Textzeichenkette einschließen, um sie mit Regeln für die Benennung von Dateien in Übereinstimmung zu bringen, etwa Beseitigung verbotener Zeichen und Verhinderung der Wiederverwendung des selben Dateinamens. Weitere identifizierende Daten wie ein Datum oder eine Zeit können hinzugefügt werden. Unter Verwendung des gebildeten Dateinamens kann ein eingescanntes Dokument automatisch gespeichert werden.
Obgleich die Erfindung in der Hauptsache anhand von Ausführungsformen erläutert worden ist, die Textelemente als Metadaten in dem digitalen Bild benutzen, ist die Erfindung auch für irgendeine Repräsentation von Metadaten-Information geeignet, etwa durch Symbole, Logos oder andere bildliche Elemente, die sich kategorisieren lassen, wie z. B. Portraits. Es ist zu bemerken, daß in diesem Dokument die Verwendung des Verbes "umfaßt" und seiner Konjugationen nicht das Vorhandensein von anderen Elementen oder Schritten als die angegebenen ausschließt und daß das Wort "ein" oder "eine" vor einem Element nicht das Vorhandensein mehrerer solcher Elemente ausschließt und daß etwaige Bezugszeichen nicht den Umfang der Ansprüche beschränken, daß die Erfindung um jede erwähnte Einheit oder Einrichtung durch geeignete Hardware und/oder Software implementiert werden kann und daß verschiedene "Einrichtungen" oder "Einheiten" durch dasselbe Objekt repräsentiert werden können.

Claims

Verfahren zum Umwandeln eines Vorlagenbildes in Bilddaten, die Pixel enthalten, die jeweils einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, wobei das Vorlagenbild Textlayout-Elemente wie etwa Wörter oder Gruppen von Wörtern enthält, welches Verfahren umfaßt: – Einscannen eines Dokuments mit einer Scanvorrichtung und dadurch Erzeugen einer Scandatei der Bilddaten, – Anzeigen wenigstens eines Teils des eingescannten Bildes für einen Benutzer, – Empfangen eines Auswahlbefehls für ein Extraktionsgebiet innerhalb des eingescannten Bildes von dem Benutzer, – Umwandeln etwaiger graphischer Elemente, die in dem Extraktionsgebiet enthalten sind, in Textlayout-Elemente durch Verarbeitung von Pixeln und – Extrahieren dieser Textlayout-Elemente, dadurch gekennzeichnet, daß der Auswahlbefehl die Angabe eines Auswahlpunktes in einem Textlayout-Element in dem Bild einschließt und daß auf ihn automatisch ein Schritt der automatischen Bestimmung eines Extraktionsgebietes innerhalb des eingescannten Bildes auf der Grundlage des angegebenen Auswahlpunktes erfolgt, und daß das Verfahren weiterhin umfaßt: – Einbeziehen des extrahierten Textlayout-Elements in einen Bezeichner für die Scandatei.
Verfahren nach Anspruch 1, bei dem der Bezeichner ein Dateiname ist.
Verfahren nach Anspruch 1, bei dem der Bezeichner eine Betreff-Bezeichnung für eine E-mail-Nachricht ist, die die Scandatei enthält.
Verfahren nach einem der Ansprüche 1 bis 3, mit einem Vorverarbeitungsschritt der automatischen Segmentierung wenigstens eines Teils des eingescannten Bildes in Layoutelemente auf der Grundlage der Werte von Pixeln, die eine Vordergrund- oder eine Hintergrundeigenschaft haben, ohne daß das Resultat der Segmentierung angezeigt wird, wobei der Schritt der automatischen Bestimmung eines Extraktionsgebietes innerhalb des eingescannten Bildes auf dem Resultat des Segmentierungsschrittes beruht.
Verfahren nach Anspruch 4, mit Empfang einer Ergänzung zu dem Auswahlbefehl, zur Anpassung des Extraktionsgebietes, insbesondere dadurch, daß der Benutzer wenigstens einen weiteren Auswahlpunkt in einem weiteren Metadaten-Element angibt, das in das Extraktionsgebiet einbezogen werden soll.
Verfahren nach Anspruch 4, mit Anpassung des Extraktionsgebietes durch automatische Vergrößerung oder Verkleinerung der Größe desselben auf eine ergänzende Benutzeraktion wie etwa einen Mausklick oder Betätigung eines Mausrades.
Verfahren nach einem der Ansprüche 1 bis 3, mit einem Schritt der automatischen Klassifizierung von Pixeln als Vordergrundpixel auf der Grundlage der Tatsache, daß ihre Werte eine Vordergrundeigenschaft haben, wobei der Schritt der automatischen Bestimmung eines Extraktionsgebietes innerhalb des Bildes auf Vordergrundpixeln basiert, die unter Berücksichtigung einer vorbestimmten Verbindungsdistanz mit einem Vordergrundpixel verbunden sind, das durch den Auswahlpunkt angegeben wird.
Verfahren nach Anspruch 7, bei dem die Bestimmung des Extraktionsgebietes die automatische Erzeugung eines verbundenen Gebietes umfaßt, durch: – Einbeziehen des durch den Auswahlpunkt angegebenen Vordergrundpixels, – progressives Einschließen weiterer Vordergrundpixel, die innerhalb der Verbindungsdistanz zu anderen Vordergrundpixeln liegen, die in das verbundene Gebiet einbezogen sind, und – Festlegen des Extraktionsgebietes auf ein Gebiet, das das verbundene Gebiet vollständig enthält.
Verfahren nach Anspruch 8, bei dem die Verbindungsdistanz in Abhängigkeit von einer Verbindungsrichtung festgelegt wird, wobei die Verbindungs richtung insbesondere horizontal, vertikal oder eine angenommene Leserichtung ist.
Verfahren nach Anspruch 7, 8 oder 9, bei dem das eingegebene Vorlagenbild auf eine geringere Auflösung konvertiert wird und die Schritte der Klassifizierung von Pixeln und der Bestimmung eines Extraktionsgebietes an dem Bild mit der geringeren Auflösung erfolgen.
Verfahren nach Anspruch 8, mit automatischer Anpassung der Verbindungsdistanz als Reaktion auf eine Ergänzung zu dem Auswahlbefehl, wobei die Ergänzung zu dem Auswahlbefehl umfaßt, daß der Benutzer einen weiteren Auswahlpunkt angibt.
Verfahren nach Anspruch 8, mit automatischer Vergrößerung oder Verkleinerung der Verbindungsdistanz als Reaktion auf eine ergänzende Aktion des Benutzers wie etwa einen Mausklick oder Betätigung eines Mausrades.
Scanvorrichtung zum Scannen eines Vorlagenbildes, das Textlayout-Elemente wie etwa Wörter oder Gruppen von Wörtern enthält, um so eine Scandatei von Bilddaten zu erzeugen, die Pixel enthält, die jeweils einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, mit: – einem Scanner (21) zum Einscannen des Vorlagenbildes und zum Erzeugen der Scandatei, – einem Display (23) zur Anzeige wenigstens eines Teils des Bildes für einen Benutzer, – einer Benutzerschnittstelle (25) zum Empfang eines Auswahlbefehls für ein Extraktionsgebiet innerhalb des eingescannten Vorlagenbildes von dem Benutzer, – einer Prozessoreinheit (24), die betreibbar ist, um – etwaige graphische Elemente, die in dem Extraktionsgebiet enthalten sind, durch Verarbeitung von Pixeln in Textlayout-Elemente umzuwandeln und – die Textlayout-Elemente durch Verarbeitung von Pixeln zu extrahieren, dadurch gekennzeichnet, daß die Prozessoreinheit (24) auch dazu ausgebildet ist, – auf der Grundlage eines Auswahlpunktes, den der Benutzer als Teil des Auswahlbefehls in einem Textlayout-Element in dem Bild angegeben hat, automatisch ein Extraktionsgebiet innerhalb des eingescannten Bildes zu bestimmten, und – das extrahierte Textlayout-Element in einen Bezeichner für die Scandatei einzubeziehen.
Vorrichtung nach Anspruch 13, bei der die Prozessoreinheit (24) automatisch einen Dateinamen für die Scandatei erzeugt, der das extrahierte Layoutelement enthält.
Vorrichtung nach Anspruch 13 oder 14, bei der die Prozessoreinheit (24) automatisch eine E-mail-Nachricht erzeugt, die die Scandatei enthält, und das extrahierte Layoutelement in das "Betreff"-Feld der Nachricht aufnimmt.
Vorrichtung nach Anspruch 13, bei der die Prozessoreinheit (24) ein Vorverarbeitungsmodul zum automatischen Segmentieren wenigstens eines Teils des eingescannten Bildes in Layoutelemente auf der Grundlage der Werte von Pixeln aufweist, die eine Vordergrund- oder Hintergrundeigenschaft haben, und wobei die Prozessoreinheit (24) das Extraktionsgebiet innerhalb des eingescannten Bildes auf der Grundlage der Resultate der Segmentierung durch das Vorverarbeitungsmodul bestimmt.
Vorrichtung nach Anspruch 13, bei der die Prozessoreinheit (24) Pixel anhand der Tatsache, daß ihre Werte eine Vordergrundeigenschaft haben, automatisch als Vordergrundpixel klassifiziert und das Extraktionsgebiet innerhalb des Bildes auf der Grundlage von Vordergrundpixeln bestimmt, die unter Berücksichtigung einer vorbestimmten Verbindungsdistanz mit einem durch den Auswahlpunkt angegebenen Vordergrundpixel verbunden sind.
Computerprogramm zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 12 in Verbindung mit einem Dokumentenscanner.
Computerprogramm zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 12 in Verbindung mit einem Dokumentenscanner, gespeichert auf einem Träger.