-
Die
Erfindung bezieht sich allgemein auf das Scannen von Dokumenten,
spezieller auf ein Verfahren zum Umwandeln eines Vorlagenbildes
in Bilddaten, die Pixel enthalten, die jeweils einen Wert haben, der
die Intensität
und/oder Farbe eines Bildelements repräsentiert, wobei dieses Vorlagenbild
Textlayout-Elemente
wie etwa Wörter
oder Wortgruppen enthält.
Die Erfindung bezieht sich auch auf einen Scanner, der zur Ausführung des
Verfahrens ausgebildet ist, sowie auf ein Computerprogrammprodukt zur
Ausführung
des Verfahrens, wenn es auf einem Rechner läuft.
-
Wenn
von einem Scanner eine Scandatei von Bilddaten erzeugt wird, muß ein Dateiname
definiert werden, damit es möglich
ist, die Datei wieder aufzurufen. In großen Systemen, in denen Scanner autonome,
an ein Netzwerk angeschlossene Geräte sind, erzeugt ein Scanner
normalerweise automatisch einen Dateinamen für eine Scandatei. Der Dateiname
wird aus für
das Gerät
verfügbaren
Variablen synthetisiert, etwa einer Scanner-ID, einem Datum und
einer Zeit, doch kann das System keinen Dateinamen erzeugen, der
sich gegenständlich
auf das gescannte Dokument bezieht. Autonome Scanner haben oftmals
auch keine vollständige
Tastatur, so daß es
einem Operator auch nicht möglich
ist, während
eines Scanprozesses am Ort des Scanners einen bedeutungshaltigen
Dateinamen einzugeben. Deshalb kann es später schwierig sein, die Scandatei zu
erkennen, insbesondere in dem Fall, daß eine große Anzahl von Dokumenten gescannt
worden ist.
-
Es
ist eine Aufgabe der vorliegenden Erfindung, eine einfache Möglichkeit
zum Definieren eines bedeutungshaltigen Dateinamens für eine Scandatei
zu schaffen. Im Hinblick auf fortgeschrittene Scanner, die in der
Lage sind, eine E-mail Nachricht zu erzeugen, die die Scandatei
(z. B. als Anlage) enthält,
besteht eine Aufgabe der Erfindung auch darin, einen ebenso einfachen
Weg zu schaffen, einen Dateibezeichner in dem "Betreff"-Feld der E-mail Nachricht zu definieren,
so daß die
Nachricht bei ihrem Eintreffen leicht als eine Nachricht erkannt
werden kann, mit der die Scandatei übermittelt wird.
-
Diese
Aufgabe wird durch ein Verfahren gelöst, wie es in Anspruch 1 angegeben
ist. Gemäß der Erfindung
wird das eingescannte Bild dem Operator auf einem Anzeigeschirm
angezeigt, und der Operator erhält
die Möglichkeit,
auf ein Wort oder eine Wortkombination (allgemein: Textlayout-Elemente) zu
zeigen, die nach Wunsch des Operators aussagekräftiger über den Inhalt des Do kuments
sein mögen, z.
B. einen Titel, einen Autor, einen Dokumententyp, ein Stichwort,
eine (kurze) Inhaltszusammenfassung und dergleichen.
-
Als
Reaktion auf die Auswahl durch den Operator extrahiert das System
die ausgewählte Bildinformation
aus dem gescannten Bild und konvertiert sie durch OCR in codierten
Text. Der extrahierte Text wird dann durch das System automatisch in
einen Dateibezeichner umgewandelt, etwa in einen Dateinamen oder
einen Betreff-Text für
eine E-mail Nachricht, die die Scandatei enthält.
-
Das
als Dateibezeichner zu verwendende Layoutelement, das aus dem Vorlagenbild
extrahiert worden ist, wird im folgenden auch als "Metadaten" bezeichnet, da es
aus den Bilddaten der Vorlage stammt und speziell als Information über das
Dokument benutzt wird, z. B. als bedeutungshaltiger Dateiname.
-
Wenn
Dokumente in digital kodierter Form vorliegen, etwa MS WORDTM Dokumente, können Metadaten automatisch
durch spezialisierte Programme identifiziert werden, die das Dokument durchsuchen
und vorprogrammierte Stichwörter
extrahieren. Dokumente, die als Bilder vorliegen, d. h. als Zusammensetzungen
aus schwarzen (farbigen) und weißen Pixeln, müssen jedoch
zunächst
durch OCR in eine digital codierte Form umgewandelt werden, ein
Prozeß,
der hohe Rechenleistung erfordert und trotzdem nicht immer einwandfrei
arbeitet. Auch das Indizierprogramm benötigt eine gewisse Zeit zur Verarbeitung
eines Dokuments.
-
Die
automatische Interpretation von Vorlagenbildern ist für streng
strukturierte Dokumente wie etwa Patentdokumente bekannt. Solche
Dokumente haben eine streng vorgeschriebene Form, und ein Computer
kann darauf programmiert werden, spezielle vorbestimmte Informationselemente
in dem Vorlagenbild zu finden und zu verarbeiten. Dokumente mit
frei gewühltem
Format können
jedoch nicht auf diese Weise verarbeitet werden.
-
Menschliche
Operatoren haben den Vorteil, daß sie ein Vorlagenbild leicht überblicken
und relevante Elemente darin finden können. Es wäre deshalb vorteilhaft, einen
Operator Metadaten in dem Vorlagenbild auswählen zu las sen, die dann durch ein
Computersystem automatisch extrahiert und der Scandatei als ein
Bezeichner zugeordnet werden.
-
Verfahren
zur Extraktion von Metadaten sind als solche (d. h. nicht für die Erzeugung
eines Dateinamens für
die zugehörige
Scandatei, sondern zu Editionszwecken) im Stand der Technik bekannt.
-
EP 1 256 900 beschreibt
ein System zur schnellen Eingabe von eingescannten digitalen Vorlagenbildern
in eine Datenbank, einschließlich
der Bestimmung von Metadaten für
die Zwecke des Dateiaufrufs in dem angezeigten Bild durch einen
Operator. Der Operator muß mit
einer Maus oder dergleichen einen "Rahmen" um das Metadatenelement in dem Bild
zeichnen. Dann konvertiert das System die als Bitmap in dem Rahmen
enthaltene Bildinformation durch OCR in das Textformat.
-
US 6 323 876 beschreibt
ein System zum Scannen von Dokumenten, das automatisch Bildbereiche
wie Textblöcke
in dem eingescannten Vorlagenbild erkennt. Das eingescannte Bild
wird dann auf einem Display angezeigt, und irgendein Bildbereich kann
durch einen Operator ausgewählt
werden, indem er in das angezeigte Bild zeigt.
-
Ein
weiteres Verfahren zum Extrahieren von Metadaten aus einem Dokument
ist aus
EP 1 136 938 bekannt.
Dokumente werden zunächst
mit Hilfe eines an einen Rechner angeschlossenen Scanners gescannt,
um ein aus Pixeln bestehendes Bild zu erzeugen. Die eingescannten
Dokumente haben ein strukturiertes Layout, bei dem Textzeichenketten,
die Metadaten repräsentieren,
in Blöcken
positioniert sind, die die Textzeichenketten mit gezeichneten Linien
umschließen.
Insbesondere technische Zeichnungen haben solche Blöcke, die
Metadaten enthalten, wie etwa Titel, Daten, Versionen und dergleichen. Der
Benutzer bedient ein Zeigeinstrument des Rechners, um einen beliebigen
Punkt in wenigstens einem Block der Dokumente zu bezeichnen. Nachdem
der Punkt durch den Benutzer bezeichnet worden ist, wird der diesen
Punkt enthaltende Block identifiziert, indem die umschließenden Linien
detektiert werden. Anschließend
werden die Schriftzeichen in diesem Block durch optische Schriftzeichenerkennung (OCR)
erkannt, um so die Metadaten zu gewinnen und sie in einer an den
Rechner angeschlossenen Datenbank abzulegen, damit die in dieser
Weise eingescannten Dokumente indiziert werden können. Somit wird für die Identifizierung
der Metadaten von einer Blockstruktur der Metadaten ausgegangen.
-
Andere
Verfahren zur Extraktion von Text auf eingescannten Vorlagenbildern,
zum Zweck des Edierens oder Indizierens, werden beschrieben in
EP 1 256 900 und in NEWMAN
W et al.: "Camworks:
a video-based tool for efficient capture from paper source documents", Multimedia Computing
and Systems, 1999, IEEE International Conference an Florence, Italy,
7. bis 11. Juni 1999, Los Alamitos, CA, USA, IEEE Corp. Soc., Seiten
647–653.
-
Die
automatische Bestimmung und Extraktion eines Bereiches als Reaktion
darauf, daß ein
Operator einen Auswahlpunkt innerhalb des eingescannten Bildes angibt,
kann auf verschieden Weisen erfolgen.
-
Ein
erstes Beispiel eines solchen Prozesses basiert auf den Ergebnissen
einer vorläufigen
automatischen Segmentierung des Bildes (oder zumindest eines Teils
desselben) in Layoutelemente wie etwa Wörter oder Zeilen. Verfahren
zur Segmentierung von Vorlagenbildern in Layoutelemente sind als solche
bekannt, z. B. ein Verfahren, das im
US-Patent
5 856 877 der Anmelderin beschrieben wird, oder das Verfahren,
das in der oben erwähnten
Veröffentlichung
von Newman et al. beschrieben wird. Die Ergebnisse der Segmentierung
werden im Speicher des Gerätes
gespeichert, aber dem Operator nicht gezeigt, damit dieser nicht
verwirrt wird.
-
Über eine
Benutzerschnittstelle wie etwa einen berührungsempfindlichen Bildschirm (Touch-Screen)
oder eine Maus gibt der Benutzer in dem angezeigten Teil des Vorlagenbildes
das Wort an, das er als Dateibezeichner verwenden will. Als Reaktion
darauf wird das angegebene Layoutelement automatisch ausgewählt, und
ein entsprechender Vorschlag für
ein Extraktionsgebiet, das das Layoutelement vollständig abdeckt,
wird bestimmt und angezeigt.
-
Das
ursprüngliche
automatisch bestimmte Extraktionsgebiet kann von dem Operator angepaßt werden,
z. B. indem er wenigstens einen weiteren Auswahlpunkt in einem weiteren
Metadaten-Element angibt, das in das Extraktionsgebiet einbezogen
werden soll, in welchem Fall das System automatisch das Extraktionsgebiet
vergrößert, um
das weitere Metadaten-Element und etwa dazwischenliegende Elemente
zusätzlich
aufzunehmen.
-
Ein
zweites Beispiel eines Prozesses zur Bestimmung eines Extraktionsgebietes
beginnt mit der automatischen Klassifizierung von Pixeln als Vordergrundpixel
aufgrund der Tatsache, daß ihre
Werte eine Vordergrundeigenschaft haben, mit anschließender Bestimmung
des Extraktionsgebietes auf der Grundlage von Vordergrundpixeln,
die unter Berücksichtigung
einer vorgegebenen Verbindungsdistanz mit einem durch den Auswahlpunkt
angegebenen Vordergrundpixel verbunden sind. Insbesondere umfaßt dieses
Verfahren:
- – Aufnehmen des Vordergrundpixels,
das durch den Auswahlpunkt angegeben wird,
- – fortschreitendes
Aufnehmen weiterer Vordergrundpixel, die innerhalb der Verbindungsdistanz von
anderen Vordergrundpixeln liegen, die in dem verbundenen Bereich
enthalten sind, und
- – Festlegen
des Extraktionsgebietes als ein Gebiet, das den verbundenen Bereich
vollständig einschließt.
-
Das
automatisch bestimmte Extraktionsgebiet kann wieder durch den Operator
angepaßt
werden, z. B. durch Angabe eines weiteren Auswahlpunktes oder durch
Ausführung
ergänzender
Steueroperationen durch den Benutzer, wie etwa Anklicken einer Maustaste
oder Betätigen
eines Mausrades. Im letzteren Fall kann bei jedem Klick die Verbindungsdistanz
um z. B. ein Pixel vergrößert werden.
-
Obgleich
oben zwei Extraktionsverfahren im einzelnen beschrieben wurden,
ist die Erfindung nicht auf den Einsatz dieser Verfahren beschränkt. Andere
Verfahren, die ähnliche
Resultate ergeben, können
ebenfalls in der vorliegenden Erfindung verwendet werden und können zufriedenstellende
Ergebnisse liefern.
-
In
dieser Beschreibung kann ein Vorlagenbild eine Vielzahl von physikalischen
Dokumentseiten umfassen. Im allgemeinen ist der auf dem Display gezeigte
Teil des Dokuments das Bild der ersten Seite, da es normalerweise
diese Seite ist, die die meiste Information enthält, die für die Extraktion von Metadaten
relevant ist. Die Erfinder haben jedoch auch daran gedacht, das
Gerät mit
einer Browserfunktion auszustatten, mit der man durch das gesamte
Dokument, d. h., durch die Vielzahl der physikalischen Dokumentseiten,
blättern
kann.
-
Weitere
bevorzugte Ausführungsformen
der Vorrichtung gemäß der Erfindung
sind in den weiteren Ansprüchen
angegeben.
-
Diese
und weitere Aspekte der Erfindung werden in der nachstehenden Beschreibung
anhand der als Beispiel beschriebenen Ausführungsformen verdeutlicht und
näher erläutert, unter
Bezugnahme auf die beigefügten
Zeichnung, in denen zeigen:
-
1 ein
eingescanntes Dokument mit einem Metadaten-Extraktionsgebiet;
-
2 eine
Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion
von Metadaten;
-
3 ein
Flußdiagramm
eines Prozesses zur Extraktion von Metadaten gemäß einem ersten beispielhaften
Verfahren;
-
4a ein
Resultat einer Segmentierung;
-
4b ein
Detail eines Resultats einer Segmentierung;
-
5 ein
Flußdiagramm
eines Prozesses zur Extraktion von Metadaten gemäß einem zweiten beispielhaften
Verfahren;
-
6a, 6b und 6c das
Wachstum eines Gebietes vom Auswahlpunkt aus;
-
7 die
Anpassung eines Metadaten-Extraktionsgebietes; und
-
8 die
Anpassung der Form eines nicht rechteckigen Extraktionsgebietes.
-
Die
Figuren sind schematisch und nicht maßstabsgerecht. In den Figuren
haben Elemente, die bereits beschriebenen Elementen entsprechen,
die gleichen Bezugszeichen.
-
1 zeigt
ein eingescanntes Dokument und ein Metadaten-Extraktionsgebiet.
Ein Dokument 13 ist eingescannt worden, um ein Bild aus
Pixeln zu erzeugen. Die Pixel (Kurzform für "Bildelemente" (Picture Elements)) sind eine numerische
Repräsentation
des Dokuments und haben Werte, die die Intensität und/oder Farbe der Bildelemente
repräsentieren.
Ein Teil des Bildes wird auf einem (schematisch gezeigten) Display 12 einem
Benutzer angezeigt, damit er interaktiv Metadaten bestimmen kann, die
zur Erzeugung eines Dateibezeichners, z. B. eines Dateinamens verwendet
werden sollen. Eine Bilddatei eines Dokuments kann getrennte Bilder
für jede
Seite des Dokuments enthalten. Eine Titelseite, gewöhnlich die
erste Seite, enthält
relevante Information über
den Inhalt des Dokuments, etwa den Titel, den Dokumenttyp, den Autor,
das Publikationsdatum und dergleichen. Solche Information wird in
dieser Beschreibung als Metadaten bezeichnet. Der Benutzer kann
die Option haben, das Display zu manipulieren, z. B. durch Rollen,
um den relevanten Teil des Bildes oder der Bilddatei zu zeigen.
Alternativ kann das Display eine vollständige Seite eines einseitigen Dokuments
zeigen.
-
Ein
Beispiel für
ein Metadaten-Element ist eine Dokumentnummer 11, die Teil
des Dokumenttyps ist. Das Metadaten-Element kann ein einzelnes Wort
umfassen, etwa die Dokumentnmummer 11, oder innerhalb der
Beschränkungen
der Anwendung auch eine oder mehrere Textzeilen. Zum Beispiel enthält die in 1 gezeigte
Zusammenfassung etwa sechs Textzeilen. Auf dem Display 12 ist
ein Extraktionsgebiet 14 um den Dokumenttyp herum gezeigt, der
die Dokumentnunmmer 11 enthält. Ein Extraktionsgebiet ist
ein Gebiet des Bildes, der durch eine Verarbeitungseinheit zum Auffinden
von Metadaten und zum Erkennen der Metadaten benutzt werden soll.
im Kontext der vorliegenden Erfindung handelt es sich bei den Metadaten
um Text, und das Extraktionsgebiet wird analysiert, um Schriftzeichen
und Wörter
zu erkennen, was allgemein als optische Schriftzeichenerkennung
(OCR) bekannt ist.
-
Zur
Konstruktion des Extraktionsgebietes gibt der Benutzer in dem Metadaten-Element,
das er als relevant ansieht, z. B. in der Dokumentnummer 11,
einen Auswahlpunkt an. Die Angabe des Auswahlpunktes ist der erste
Schritt in einem Auswahlbefehl. Zur Angabe des Auswahlpunktes kann
das Display durch einen sensitiven Bildschirm, etwa einem berührungsempfindlichen
Bildschirm gebildet werden. Der Benutzer kann den Auswahlpunkt mit
Hilfe eines Fingers oder mit Hilfe eines besonderen Zeigestockes
angeben. Alternativ kann in dem Display ein Cursor angezeigt werden,
der durch den Benutzer mit Hilfe einer Maus, eines Trackballs oder
dergleichen gesteuert wird. Der Auswahlpunkt kann dann angegeben
werden, indem der Cursor positioniert und eine Taste betätigt wird,
etwa ein Mausklick.
-
Nachdem
der Auswahlpunkt durch den Benutzer angegeben worden ist, wird das
Extraktionsgebiet durch das Layoutelement (Wort), das den Auswahlpunkt
enthält,
oder das dem Auswahlpunkt am nächsten
gelegene Layoutelement bestimmt. Es gibt zahlreiche Möglichkeiten,
wie das Layoutelement gefunden werden kann, und zwei von ihnen werden nachstehend
im einzelnen beschrieben. Die vorliegende Erfindung ist jedoch nicht
auf die hier beschriebenen Methoden zur Bestimmung der durch den
Operator angegebenen Layoutelemente begrenzt.
-
Wenn
der Ort des Auswahlpunktes in einem Hintergrundgebiet liegt, kann
das System entscheiden, daß der
Benutzer kein Layoutelement auswählen
will. In einer Ausführungsform
kann das System entscheiden, daß der
Benutzer beabsichtigt, das nächstgelegene
Layoutelement auszuwählen,
wenn der Abstand zu dem nächstgelegenen
Layoutelement innerhalb einer vorbestimmten Grenze liegt. Wenn der
Auswahlpunkt auf einem Hintergrundpixel weit entfernt von Vordergrundpunkten
liegt, kann das System diese Auswahl als einen Befehl auffassen, ein
aktuell ausgewähltes
Metadaten-Extraktionsgebiet zu löschen.
-
Auf
der Grundlage des Layoutelements (Wortes), das durch den Auswahlpunkt
bestimmt wird, wird um das Layoutelement herum ein Extraktionsgebiet
gezeichnet und dem Benutzer angezeigt, z. B. ein Rahmen oder ein
farbiges Gebiet. Der Benutzer kann das vorgeschlagene Gebiet bestätigen oder
das vorgeschlagene Extraktionsgebiet verändern, wie nachstehend beschrieben
wird. Schließlich werden
Metadaten extrahiert, indem die Pixel in dem Extraktionsgebiet verarbeitet
werden. Ein Dateiname für
die Scandatei kann dann automatisch erzeugt werden, etwa in der
Form des extrahierten Wortes oder der extrahierten Wörter oder
in der Form einer Kombination aus dem extrahierten Wort oder den
extrahierten Wörtern
und automatisch hinzugefügter Systeminformation
wie etwa dem Datum und/oder der Zeit und dergleichen.
-
2 zeigt
eine Vorrichtung zur Verarbeitung eines Dokuments und zur Extraktion
von Metadaten gemäß der vorliegenden
Erfindung. Die Vorrichtung hat eine Eingabeeinheit 21 zur
Eingabe eines digitalen Bildes, mit einer Abtasteinheit, wie etwa einem
elektro-optischen Scanner zum Einscannen eines Bildes von physikalischen
Dokumenten. Die Eingabeeinheit 21 ist mit einer Prozessoreinheit 24 verbunden,
die mit einer Speichereinheit 22 zusammenarbeitet. Die
Speichereinheit kann eine Aufzeichnungseinheit enthalten, zur Aufzeichnung
des Bildes und/oder der Metadaten auf einem Aufzeichnungsträger wie
etwa einem Magnetband oder einer optischen Platte. Die Prozessoreinheit
kann eine zentrale Prozessoreinheit (CPU) eines Vielzweckrechners und
unterstützende
Schaltungen enthalten, die mit Hilfe von Software arbeitet, um die
oben beschriebene Extraktion von Metadaten auszuführen. Die
Prozessoreinheit ist mit einer Benutzerschnittstelle 25 verbunden,
die wenigstens eine Angabeeinheit zur Angabe eines Auswahlpunktes
auf dem Bild aufweist. Die Benutzerschnittstelle kann Steuereinrichtungen
wie etwa eine Tastatur, eine Maus oder Bedienungsknöpfe aufweisen.
Die Prozessoreinheit ist mit einer Displayeinheit 23 verbunden.
Die Displayeinheit umfaßt
einen Anzeigeschirm zur Anzeige des Bildes und des Extraktionsgebietes,
wie oben im Zusammenhang mit 1 erläutert wurde.
Insbesondere können
die Displayeinheit und die Angabeeinheit als ein berührungsempfindlicher
Bildschirm realisiert sein, der darauf reagiert, daß der Benutzer
mit einem Finger auf das Metadaten-Element in dem angezeigten Bild
zeigt, um den Auswahlpunkt anzugeben. Die Prozessoreinheit kann
mit einer Druckereinheit zur Ausgabe eines verarbeitenden Bildes
oder von verarbeitenden Metadaten auf Papier verbunden sein. Die von
der Eingabeeinheit 21 erzeugte Scandatei erhält einen
Namen auf der Grundlage der extrahierten Metadaten und kann z. B.
in einer Datenbank gespeichert werden, etwa in der Speichereinheit 22 oder
in einem separaten Rechnersystem.
-
Es
ist zu bemerken, daß die
Vorrichtung aus standardmäßigen Komponenten
einer Computerhardware und einem Computerprogramm aufgebaut sein
kann, um den Prozeß der
Extraktion der Metadaten auszuführen,
wie weiter unten beschrieben werden wird. Alternativ kann die Vorrichtung
eine spezialisierte Hardwarevorrichtung sein, die eine Scaneinheit,
eine Prozessoreinheit und ein Display für die Extraktion der Metadaten
aufweist. Weiterhin kann der Scanprozeß von dem interaktiven Prozeß der Extraktion
der Metadaten lösgelöst sein,
z. B. kann eine Scannereinheit in einem Postempfangsraum über ein LAN
mit einer Indizierstelle verbunden sein, wo sich das Display und
der Operator befinden.
-
3 zeigt
ein Flußdiagramm
eines Prozesses zur Extraktion von Metadaten nach einer ersten beispielhaften
Methode. Diese Methode segmentiert das Bild zunächst auf der Grundlage der
Pixelwerte in Layoutelemente wie etwa Wörter und Zeilen und behandelt
die gesamte Bestimmung des Extraktionsgebietes auf der Ebene der
Layoutelemente.
-
Nach
dieser Methode werden Pixel auf der Grundlage der Werte, die eine
Vordergrundeigenschaft haben, auf einem Dokument mit weißen Hintergrund,
gewöhnlich
der Wert, der Schwarz repräsentiert,
als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft
der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe,
die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch
den Auswahlpunkt angegeben wird.
-
Das
Segmentieren eines Bildes in Layoutelemente ist ein Schritt, der
als solcher in der Bildverarbeitung bekannt ist. Zum Beispiel wird
ein Verfahren zur Segmentierung eines Bildes in
US 5 856 877 beschrieben. Die Segmentierung
kann ausgeführt
werden, bevor das Bild dem Benutzer angezeigt wird, oder kann gestartet
werden, sobald Verarbeitungskapazität im System verfügbar ist,
z. B. als ein Hintergrundprozeß,
während
das Dokument dem Benutzer angezeigt wird. Die Segmentierung kann
auch als Reaktion auf die Angabe eines Auswahlpunktes durch den
Benutzer ausgeführt
werden und dann auf einen Bereich beschränkt sein, der dem angegebenen
Punkt relativ nahe liegt. Es ist zu bemerken, daß das Resultat der Segmentierung
dem Benutzer nicht gezeigt wird. Somit braucht die Segmentierung
nicht abgeschlossen zu sein, und der Benutzer wird nach dem Einscannen
eines Dokuments eine schnelle Anzeige des Dokuments durch das System
erleben. Außerdem
wird der Benutzer nicht durch Rahmen oder andere Begrenzungselemente
gestört,
die über
das gesamte angezeigte Vorlagenbild verteilt sind.
-
In
einer Ausführungsform
konzentriert sich der Segmentierungsprozeß auf einen Bereich um den
Auswahlpunkt, z. B. wird die Segmentierung nur auf dem Bereich des
Bildes vorgenommen, der dem Benutzer tatsächlich angezeigt wird. Es ist
zu bemerken, daß der
Benutzer zunächst
durch Rollen des Dokuments einen interessierenden Bereich auswählen kann.
Alternativ kann die Segmentierung selektiv vorgenommen werden, nachdem
der Benutzer den Auswahlpunkt angegeben hat.
-
In 3 wird
in einem ersten Schritt S31 EINGEGEBENES BILD VORBEREITEN das Bild
als digitale Datei von Pixelwerten von der Scannereinrichtung empfangen.
Der Schritt kann weitere Bildverarbeitung einschließen, auf
der Grundlage von vorbestimmtem Wissen über das Bild oder detektierten
Eigenschaften des Bildes, beispielsweise Kontrastverstärkung, Bestimmung
von Vordergrund- und/oder Hintergrundeigenschaften anhand einer globalen
Statistik des Bildes, Drehen des Bildes und dergleichen. Außerdem kann
der Schritt die Segmentierung des Bildes in Layoutelemente einschließen. Es
ist jedoch zu bemerken, daß die
Segmentierung nicht abgeschlossen zu sein braucht, bevor das Bild angezeigt
wird, sondern im Hintergrund weiterlaufen kann, bis die Layoutelemente
in einem Schritt S34 LAVOUTELEMENT FINDEN benötigt werden. Alternativ kann
ein Segmentierungsresultat als ein vorbereitender Schritt in einem
separaten Bildverarbeitungssystem erhalten werden.
-
In
einem nächsten
Schritt S32 BILD ANZEIGEN wird das Bild einem Benutzer auf einem
Display gezeigt. Der Schritt kann das Auffinden eines relevanten
Teils des Bildes einschließen,
um z. B. von einer Seite, die mit einem großen weißen Bereich beginnt, den Teil
anzuzeigen, der die ersten Textzeilen enthält. In einem nächsten Schritt
S33 AUSWAHLPUNKT wird eine Aktion des Benutzers zur Angabe eines
Auswahlpunktes in dem Bild erwartet, insbesondere in einem Metadaten-Element.
Ein symbolische Warteschleife L33 in der Zeichnung gibt an, daß das System
auf eine Aktion des Benutzers wartet.
-
In
einem nächsten
Schritt S34 LAYOUTELEMENT FINDEN wird das segmentierte Bild verarbeitet,
um das Layoutelement zu finden, das der Benutzer für die Extraktion
von Metadaten vorgesehen hat. Der Auswahlpunkt gibt an, welches
Layoutelement ausgewählt
worden ist, wie weiter unten im Zusammenhang mit 4 erläutert werden
wird. In einem nächsten
Schritt S35 EXTRAKTIONSGEBIET ANZEIGEN wird ein Extraktionsgebiet
angezeigt, das das ausgewählte
Layoutelement abdeckt. Das Extraktionsgebiet kann als ein Rechteck,
ein hervorgehobenes Gebiet oder irgendein anderes geeignetes Anzeigemerkmal
gezeigt werden, das nur das Layoutelement enthält.
-
Es
ist zu bemerken, daß der
Benutzer aktiv einen Auswahlpunkt angeben kann, z. B., durch Klicken
einer Maustaste, wenn sich der Cursor auf dem gewünschten
Metadatenelement befindet oder durch Tippen mit einem Finger auf
einen berührungsempfindlichen
Bildschirm. Das System kann jedoch auch automatisch ein vorgeschlagenes
Extraktionsgebiet anzeigen, sobald der Benutzer ein Zeigeelement
(etwa einen Cursor) in der Nähe
eines Vordergrundobjektes platziert, oder eine vorbestimmte (kurze)
Wartezeit danach. In dem automatischen Modus sind die Schritte S33
AUSWAHLPUNKT, S34 LAYOUTELEMENT FINDEN und S35 EXTRAKTIONSGEBIET ANZEIGEN
miteinander kombiniert. Der Cursor kann als ein spezielles Symbol
dargestellt werden, das den automatischen Modus angibt, z. B. durch
Hinzufügen eines
kleinen Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt
auf der Grundlage der visuellen Rückmeldung des vorgeschlagenen
Extraktionsgebietes bestimmen.
-
Anhand
des angezeigten Extraktionsgebietes kann der Benutzer verifizieren,
daß das
Extraktionsgebiet die von ihm vorgesehenen Metadaten-Elemente abdeckt.
In einem nächsten
Schritt S36 ENDGÜLTIGES
GEBIET bestätigt
der Benutzer das angezeigte Extraktionsgebiet, z. B. durch einen
Mausbefehl oder implizit durch Eingabe eines nächsten Dokuments.
-
Wie
durch eine symbolische Schleife L36 angedeutet wird, kann der Benutzer
auch das vorgeschlagene Extraktionsgebiet anpassen, wie mit Bezug
auf 7 oder 8 erläutert werden wird. Zum Beispiel
kann der Benutzer einen zweiten Punkt angeben, der ebenfalls in
dem Extraktionsgebiet enthalten sein muß, oder der Benutzer gibt eine
Erweiterung des vorgeschlagenen Extraktionsgebietes an, indem er
das Zeigeelement vom Auswahlpunkt aus in eine Richtung zieht, in
der er das Extraktionsgebiet erweitern möchte. Als Reaktion auf die
Anpassung kann das Display das endgültige Gebiet zeigen.
-
In
einem nächsten
Schritt S37 METADATEN EXTRAHIEREN wird das endgültig bestätigte Extraktionsgebiet verarbeitet,
um die Metadaten-Elemente wie z. B. Wörter mit Hilfe von OCR zu detektieren
und zu erkennen. Das Resultat wird in einen Bezeichner für die Scandatei,
etwa einen Dateinamen umgewandelt, der auf dem Display in einem
Textfeld angezeigt werden kann. Die Scandatei kann dann mit Hilfe
des Dateibezeichners in der Speichereinheit 22 abgelegt werden.
-
4a zeigt
ein Resultat einer Segmentierung. Es ist jedoch zu bemerken, daß das Resultat der
Segmentierung einem Benutzer nicht gezeigt wird, sondern nur intern
in dem Prozessorsystem verfügbar
ist. Das in 1 gezeigte Bild dient als Beispiel.
Die Segmentierung hat zur Detektion zahlreicher Layoutelemente geführt. Der
Prozeß detektiert zunächst einzelne
Wörter,
z. B. die durch Rechtecke 41 und 43 angegebenen
Wörter,
und weiterhin alle Gruppierungen von Wörtern wie etwa Zeilen, z. B.
die durch das Rechteck 42 angegebene Zeile, und Textblöcke, z.
B. den durch das Rechteck 44 angegebenen Textblock.
-
Zwischengebiete,
die im wesentlichen nur Hintergrundpixel haben, werden als Hintergrund 45 klassifiziert.
Vorbestimmte "Nicht-Text"-Elemente wie etwa
die schwarze Linie 46 können
ebenfalls als Hintergrund klassifiziert werden oder zumindest als
nicht auswählbare
Elemente. Der Benutzer gibt einen Auswahlpunkt an, indem er ein
Zeigeelement, wie etwa einen Cursor, in der Nähe eines Metadaten-Elements,
das er extrahiert haben möchte,
oder auf diesem Element positioniert. Dann wird ein Extraktionsgebiet
bestimmt, das das Layoutelement vollständig abdeckt. Das Extraktionsgebiet
wird dem Benutzer angezeigt, der das vorgeschlagene Extraktionsgebiet bestätigen kann.
Der Benutzer kann entscheiden, daß das Extraktionsgebiet zu
klein ist, zu groß ist, etc.
In dem Fall kann der Benutzer seinen Auswahlbefehl ergänzen, wie
nachstehend beschrieben wird.
-
4b zeigt
ein Detail eines Resultats einer Segmentierung. Es umfaßt ein erstes
Layoutelement, entsprechend dem ersten Wort, das durch ein erstes
Rechteck 47 angegeben wird; ein zweites Layoutelement entsprechend
dem zweiten Wort, das durch ein zweites Rechteck 48 angegeben
wird; und ein drittes Layoutelement ist segmentiert, d. h. entsprechend
der Nummer in dem Dokumenttyp, wie durch ein drittes Rechteck 49 angegeben
wird.
-
Der
Segmentierungsprozeß hat
auch die Kombination der drei Wortelemente detektiert, nämlich die
durch das Rechteck 42 angegebene Zeile.
-
Nachdem
der Benutzer einen Auswahlpunkt in dem dritten Rechteck 49 angegeben
hat, wird das System ein kleines Extraktionsgebiet anzeigen, das nur
die Dokumentnummer umgibt. Wenn der Benutzer nun auf das vorgeschlagene
Extraktionsgebiet klickt (Maus) oder tippt (Touch-Screen), wählt der Prozessor
automatisch das Layoutelement auf der nächsthöheren Ebene, in diesem Beispiel
die "Zeile" im Rechteck 42.
Eine noch höhere
Ebene, obwohl in diesem speziellen Beispiel nicht vorhanden, wäre ein Textblock
(Absatz). Alternativ kann das Klicken dazu führen, daß das Auswahlgebiet progressiv
durch das Hinzufügen
von Wörtern,
z. B in der Leserichtung, erweitert wird. In dem Beispiel nach 4b würde der Benutzer
damit beginnen, daß er
auf das Wort im Rechteck 47 zeigt, und fortschreitendes
Klicken (Tippen) würde
nacheinander die Wörter
in den Rechtecken 48 und 49 hinzufügen.
-
Ein
anderer Mausklick (z. B. mit der rechten Maustaste anstelle der
linken Maustaste) kann das ausgewählte Gebiet progressiv verkleinern,
entweder in Ebenen oder in Wörtern.
-
Bei
einer alternativen Art der Erweiterung des Auswahlgebietes kann
der Benutzer einen zweiten Auswahlpunkt in einem weiteren Layoutelement in
dem Bild angeben, z. B. indem er auf eine neue Stelle in dem Rechteck 48 zeigt.
Das neue Layoutelement kann einfach zu dem ursprünglichen Layoutelement hinzugefügt werden.
Wenn es dazwischenliegende Layoutelemente gibt, möchte der
Benutzer höchstwahrscheinlich
diese Zwischenelemente ebenfalls einbezogen haben. Wenn z. B. der
zweite Auswahlpunkt in dem ersten Rechteck 47 liegt, werden
alle drei Rechtecke 47, 48, 49 zu dem
Extraktionsgebiet kombiniert.
-
Der
Benutzer kann das Extraktionsgebiet auch verändern, indem er den Cursor
in Richtung des ersten Rechtecks 47 zieht (zum linken Rand
des Papiers). Das System leitet aus dieser Bewegung einen Befehl
ab, zusätzliche
Layoutelemente anzuschließen,
und schließt
das nächste
Rechteck 48 an, um ein neues Extraktionsgebiet zu bilden,
das die benachbarten Rechtecke 48, 49 umgibt.
Das Anschließen
kann für
Layoutelemente gelten, die innerhalb einer Anschlußdistanz
liegen. Die Anschlußdistanz wird
dazu benutzt, Layoutelemente auszuwählen, die mit einem ausgewählten Layoutelement
kombiniert werden sollen, d. h. der Hintergrund zwischen den Layoutelementen
ist kleiner als die Anschlußdistanz. Die
Anschlußdistanz
kann als der kürzeste euklidische
Abstand zwischen den Grenzen der Layoutelemente definiert werden
oder als ein Abstand in horizontaler (x) oder vertikaler (y) Richtung
zwischen Punkten der Layoutelemente, deren x – oder y-Koordinaten am engsten
beieinanderliegen. Die Schwellendistanz für das Verbinden von Layoutelementen kann
eine vordefinierte Distanz sein, z. B. etwas größer als ein Abstand, der beim
Segmentieren dazu benutzt wird, Bildelemente zu vereinigen, zwischen
denen Hintergrundpixel liegen. Die Ergänzung zu dem Auswahlbefehl
kann auch in eine benutzerdefinierte Anschlußdistanz übersetzt werden, z. B. kann
die Anschlußdistanz
interaktiv aus der Strecke abgeleitet werden, über die der Benutzer den Cursor
bewegt. In einer Ausführungsform
kann der Benutzer wiederholt auf dieselbe Stelle klicken oder zeigen,
um die Anschlußdistanz
um vordefinierte Beträge
zu vergrößern, oder
er kann ein Mausrad betätigen,
um die Anschlußdistanz
allmählich
zu vergrößern oder
zu verkleinern.
-
Die
Anschlußdistanz
kann für
unterschiedliche Richtungen verschieden sein. Zum Beispiel kann die
Anschlußdistanz
in horizontaler Richtung größer sein
als die Anschlußdistanz
in vertikaler Richtung. Für
gewöhnliche
Textdokumente führt
dies dazu, daß Schriftzeichen
robust zu Wörtern
verbunden werden und Wörter
zu einer Textzeile, ohne daß die
Textzeile mit der nächsten
oder vorherigen Zeile verbunden wird. In einem Vorverarbeitungsschritt
kann eine Leserichtung bestimmt werden, z. B. durch Analyse des Layouts
von Hintergrundpixeln. Die Anschlußdistanz kann auf der Leserichtung
basieren, z. B. von links nach rechts, und vom Auswahlpunkt aus
nach rechts kann die Anschlußdistanz
größer sein.
-
In
einer Ausführungsform
des Anschlußprozesses
wird die Anschlußdistanz
in Abhängigkeit
von einer Auswahlrichtung angepaßt, die über die Ergänzung zu dem Auswahlbefehl
empfangen wird. Das vorgeschlagene Extraktionsgebiet wird dem Benutzer
angezeigt, und der Benutzer wird leicht feststellen, daß das Extraktionsgebiet
in einer bestimmten Richtung erweitert werden muß. Der Benutzer kann diese
Richtung angeben, indem er ein Auswahlmittel (Cursor oder Finger
auf einem Touch-Screen) von dem Auswahlpunkt aus in der Auswahlrichtung
zieht.
-
5 zeigt
ein Flußdiagramm
eines Prozesses zur Extraktion von Metadaten nach einem zweiten
beispielhaften Verfahren. Bei diesem Verfahren erfolgt die Bestimmung
des vom Operator angegebenen Layoutelements und damit des Extraktionsgebietes
vollständig
auf Pixelebene.
-
Pixel
werden auf der Grundlage der Werte, die eine Vordergrundeigenschaft
haben, bei einem Dokument mit weißem Hintergrund gewöhnlich der Wert,
der Schwarz repräsentiert,
als Vordergrundpixel klassifiziert. In einem Farbbild kann die Vordergrundeigenschaft
der Wert sein, der eine bestimmte Farbe repräsentiert, z. B. eine Farbe,
die interaktiv anhand der Farbe des Pixels bestimmt wird, das durch
den Auswahlpunkt angegeben wird, oder eine Farbe, die von der Hintergrundfarbe
verschieden ist. Verfahren zur Unterscheidung zwischen Vordergrund-
und Hintergrundpixeln sind im Stand der Technik bekannt.
-
Ein
erstes Hintergrundpixel wird durch den Auswahlpunkt angegeben, d.
h. das Vordergrundpixel, das dem Ort des Auswahlpunktes entspricht
oder in der Nähe
des Auswahlpunktes liegt, wenn der Auswahlpunkt sich auf einem Hintergrundpixel
in dem Metadaten-Element befindet. Wenn der Auswahlpunkt auf einem
Hintergrundpixel innerhalb eines bestimmten Abstands zu Vordergrundpixeln
liegt, kann das System das angegebene Pixel für die Zwecke der Auffindung
der Pixel, die das vorgesehene Metadaten-Element bilden, als ein
Vordergrundpixel betrachten, d. h. den Auswahlpunkt aufgrund der
Tatsache, daß er
von dem Benutzer angegeben worden ist, als ein Vordergrundpixel
(um-)klassifizieren. Alternativ kann das System das am nächsten liegende Vordergrundpixel
als Auswahlpunkt auswählen. Wenn
der Auswahlpunkt auf einem Hintergrundpixel liegt, das weit von
Vordergrundpixeln entfernt ist, kann das System diese Auswahl als
einen Befehl auffassen, ein aktuell ausgewähltes Metadaten-Extraktionsgebiet
zu löschen.
-
Auf
der Grundlage des ersten Vordergrundpixels wird ein Gebiet von Pixeln
detektiert, und es wird angenommen, daß es Teil der Metadaten ist, und
ein Extraktionsgebiet wird um das Gebiet herum gezeichnet und dem
Benutzer angezeigt. Durch Verarbeitung von Pixeln in dem Extraktionsgebiet
werden Metadaten extrahiert und in einen Bezeichner für die Scandatei
umgewandelt.
-
In 5 wird
in einem ersten Schritt S131 EINGEGEBENES BILD VORBEREITEN das Bild
als eine digitale Datei von Pixelwerten von der Scannereinrichtung
empfangen. Der Schritt kann weitere Bildverarbeitung auf der Grundlage
vorbestimmter Kenntnisse oder detektierter Eigenschaften des Bildes
umfassen, etwa Verstärkung
des Kontrasts, Bestimmung von Vordergrund- und/oder Hintergrundeigenschaften
anhand einer globalen Statistik des Bildes, Drehen des Bildes und
dergleichen. Dieser Schritt kann auch die Bereitstellung eines zusätzlichen
Eingabebildes mit kleinerer Auflösung
zum Gebrauch bei der Bildanalyse in Schritt S134 (später erläutert) umfassen.
Da das eingescannte Bild eine recht hohe Auflösung hat, wird eine moderate
Verringerung der Auflösung,
z. B. mit einem Faktor von zwei bis vier, normalerweise die Analyse
nicht beeinträchtigen,
jedoch die benötigte
Verarbeitungskapazität
reduzieren. Die ursprüngliche
hohe Auflösung des
eingegebenen Bildes wird nach wie vor für die Anzeige und die Datenextraktion
benutzt.
-
In
einem nächsten
Schritt S132 BILD ANZEIGEN wird das Bild einem Benutzer auf einem
Display gezeigt. Der Schritt kann das Auffinden eines relevanten
Teils des Bildes einschließen,
um z. B. von einer Seite, die mit einem großen weißen Gebiet beginnt, den Teil
anzuzeigen, der die ersten Textzeilen enthält. In einem nächsten Schritt
S133 AUSWAHLPUNKT wird eine Benutzeraktion zur Angabe eines Auswahlpunktes
in dem Bild, insbesondere in einem Metadaten-Element, erwartet.
Eine symbolische Warteschleife L133 in der Zeichnung gibt an, daß das System
auf eine Aktion des Benutzers wartet.
-
In
einem nächsten
Schritt S134 VERBUNDENES GEBIET FINDEN werden die Pixel um den Auswahlpunkt
herum analysiert, um die Vordergrundpixel zu finden, die innerhalb
eines Verbindungsbereiches liegen, wie weiter unten mit Bezug 6 erläutert
werden wird. In einem nächsten
Schritt S135 EXTRAKTIONSGEBIET ANZEIGEN wird ein Extraktionsgebiet
angezeigt, das das verbundene Gebiet abdeckt. Das Extraktionsgebiet
kann als ein rechteckiges Gebiet, das nur das verbundene Gebiet
enthält,
ein hervorgehobenes Gebiet oder irgendein anderes geeignetes Anzeigemerkmal
angezeigt werden.
-
Es
ist zu bemerken, daß der
Benutzer aktiv einen Auswahlpunkt angeben kann, z. B. durch Klicken
einer Maustaste, wenn sich der Cursor auf dem gewünschten
Metadaten-Element befindet, oder durch Tippen mit einem Finger auf
einen Touch-Screen. Das System kann jedoch auch automatisch ein
vorgeschlagenes Extraktionsgebiet anzeigen, sobald der Benutzer
ein Zeigeelement (etwa einen Cursor) in der Nähe eines Vordergrundobjektes
positioniert, oder eine vorbestimmte (kurze) Wartezeit später. In
dem automatischen Mo dus sind die Schritte S133 AUSWAHLPUNKT, S134
VERBUNDENES GEBIET FINDEN und S135 EXTRAKTIONSGEBIET ANZEIGEN miteinander
kombiniert. Der Cursor kann als ein spezifisches Symbol gezeigt
werden, das den automatischen Modus angibt, z. B. durch Hinzufügen eines
kleinen Rechtecks zu dem Cursorsymbol. Der Benutzer kann den Auswahlpunkt auf
der Grundlage der visuellen Rückmeldung
des vorgeschlagenen Extraktionsgebietes bestimmen.
-
Auf
der Grundlage des angezeigten Extraktionsgebietes kann der Benutzer
verifizieren, daß das Extraktionsgebiet
die von ihm gewünschten
Metadaten-Elemente abdeckt. In einem nächsten Schritt S136 ENDGÜLTIGES GEBIET
bestätigt
der Benutzer das angezeigte Extraktionsgebiet, z. B. durch einen
Mausbefehl oder implizit durch Eingabe eines nächsten Dokuments.
-
Wie
durch eine symbolische Schleife L136 angedeutet wird, kann der Benutzer
auch das vorgeschlagene Extraktionsgebiet anpassen, wie mit Bezug
auf 7 oder 8 erläutert wird. Zum Beispiel kann
der Benutzer einen zweiten Punkt angeben, der in dem Extraktionsgebiet
enthalten sein muß,
oder der Benutzer gibt eine Erweiterung des vorgeschlagenen Extraktionsgebietes
an, indem er das Zeigeelement von dem Auswahlpunkt aus in eine Richtung zieht,
in der er das Extraktionsgebiet erweitert haben möchte. Das
Display kann als Reaktion auf die Anpassung das endgültige Gebiet
zeigen.
-
In
einem nächsten
Schritt S137 METADATEN EXTRAHIEREN wird das endgültig bestätigte Extraktionsgebiet verarbeitet,
um die Metadaten-Elemente, etwa Wörter, mit Hilfe von OCR zu
detektieren und zu erkennen. Das Resultat kann in einem Textfeld
auf dem Display angezeigt werden. Das Resultat wird in einen Bezeichner
für die
Scandatei umgewandelt, etwa einen Dateinamen, der in einem Textfeld auf
dem Display gezeigt werden kann. Unter Verwendung des Dateibezeichners
kann die Scandatei in der Speichereinheit 22 abgelegt werden.
-
6a zeigt
ein Gebiet, das mit einer Verbindungsdistanz von einem Pixel wächst. Ein
detaillierter Teil eines Bildes 81 ist in vier Wachstumsphasen des
Gebietes gezeigt, wobei einzelne Pixel weiß (als Hintergrund) oder grau
(als Vordergrund) dargestellt sind. Der Benutzer hat einen durch
einen schwarzen Punkt bezeichneten Auswahlpunkt 80 angegeben. Das
Wachstum des Gebiets beginnt an dem Pixel, das dem Auswahlpunkt 80 entspricht,
und zunächst ist
ein Anfangsgebiet 82 von nur einem Pixel gezeigt. Es wird
angenommen, daß die
Verbindungsdistanz für
das Wachstum ein Pixel betragt, d. h., es werden keine dazwischenliegenden
Hintergrundpixel zugelassen. In der zweiten Wachstumsphase ist ein
zweites Gebiet 83 gezeigt, das sich nach unten erstreckt, um
direkt verbundene Pixel einzuschließen. In einer dritten Wachstumsphase
ist ein drittes Gebiet 84 gezeigt, das sich nach rechts
erstreckt, um direkt verbundene Pixel einzuschließen. In
einer vierten Wachstumsphase ist ein viertes Gebiet 85 gezeigt, das
sich wiederum nach rechts erstreckt, um direkt verbundene Pixel
einzuschließen.
Da keine weiteren Vordergrundpixel innerhalb der Verbindungsdistanz (=
1) liegen, bricht das Wachstum des Gebietes ab. Das Gebiet enthält auch
Hintergrundpixel. Nach Abschluß des
Wachstumsprozesses kann das eingezeichnete Gebiet das vorgeschlagene
Extraktionsgebiet sein.
-
6b zeigt
das Gebietswachstum mit einer Verbindungsdistanz von zwei Pixeln.
Es ist das gleiche Detail eines Bildes wie in 6a gezeigt.
Die Verbindungsdistanz ist auf zwei Pixel erhöht, und deshalb werden einzelne
zwischenliegende Hintergrundpixel überbrückt. Das resultierende rechteckige Gebiet 86 enthält die Vordergrundpixel,
die mit einer Verbindungsdistanz von zwei verbunden sind. Der Benutzer
kann das resultierende Gebiet bestätigen, oder er kann entscheiden,
daß das
rechteckige Gebiet zu klein ist. In dem Fall ergänzt der Benutzer seinen Auswahlbefehl.
Dazu kann der Benutzer einen zweiten Auswahlpunkt 87 in
einem weiteren Vordergrundbereich des Bildes angeben, z. B. indem
er auf die neue Stelle zeigt oder von dem Auswahlpunkt 86 zu
dem zweiten Auswahlpunkt 87 zieht. Die Ergänzung des
Auswahlbefehls wird durch die Prozessoreinheit 84 in eine
größere Verbindungsdistanz übersetzt,
die gerade groß genug
ist, den zweiten Auswahlpunkt 87 zu dem Auswahlgebiet hinzuzufügen. Dies
kann dazu führen,
daß das
Auswahlgebiet auch in anderen Richtungen erweitert wird.
-
6c zeigt
ein Gebietswachstum mit einer Verbindungsdistanz von drei Pixeln.
Es ist das gleiche Detail eines Bildes wie in 6b gezeigt.
Die Verbindungsdistanz ist auf drei Pixel erhöht, und deshalb werden bis
zu zwei zwischenliegende Hintergrundpixel überbrückt. Das resultierende rechteckige Gebiet 88 enthält den zweiten
Auswahlpunkt 87. Es ist zu bemerken, daß der Prozeß des Gebietswachstums auch
an die erhaltenen Resultate angepaßt werden kann oder Lernoptionen
einschließen
kann, z. B. die Verwendung einer größeren Verbindungsdistanz, wenn
der Benutzer das Gebiet in den meisten Fällen vergrößern muß. Wenn ein verbundenes Gebiet
unterhalb einer vorbestimmten Größe gefunden
wird, kann der Prozeß auch
einschließen,
daß die
Verbindungsdistanz automatisch vergrößert wird, um wenigstens die
vorbestimmte Größe zu erreichen.
-
In
einer weiteren Ausführungsform
des Prozesses des Gebietswachstums ist die Verbindungsdistanz für unterschiedliche
Richtungen verschieden. Zum Beispiel kann die Verbindungsdistanz
in horizontaler Richtung größer sein
als die Verbindungsdistanz in vertikaler Richtung. Für gewöhnliche
Textdokumente führt
dies dazu, daß Wörter in
einer Textzeile robust verbunden werden, ohne daß die Textzeile mit der nächsten oder
vorherigen Zeile verbunden wird. In einem Vorverarbeitungsschritt
kann eine Leserichtung bestimmt werden, z. B. durch Analyse des
Layouts von Hintergrundpixeln. Die Verbindungsdistanz kann auf der
Leserichtung basieren, z. B. von links nach rechts, und vom Auswahlpunkt
aus nach rechts mag die Verbindungsdistanz größer sein.
-
In
einer Ausführungsform
des Prozesses des Gebietswachstums kann die Verbindungsdistanz in Abhängigkeit
von einer Auswahlrichtung angepaßt werden, die über die
Ergänzung
des Auswahlbefehls empfangen wird. Das vorgeschlagene Extraktionsgebiet
wird dem Benutzer angezeigt, und der Benutzer kann leicht feststellen,
daß das
Extraktionsgebiet in einer bestimmten Richtung erweitert werden
muß. Der
Benutzer kann die Auswahlrichtung angeben, indem er ein Auswahlelement
(Cursor oder ein Finger auf einem Touch-Screen) von dem Auswahlpunkt aus
in der Auswahlrichtung zieht. Es ist zu bemerken, daß die Zunahme
der Verbindungsdistanz aus der Weite des Zuges von dem ersten Auswahlpunkt
aus abgeleitet werden kann.
-
Die
Vorrichtung kann weitere Optionen zur Anpassung der Form des Extraktionsgebietes
bieten, das nach irgendeiner der oben als Beispiel beschriebenen
Methoden bestimmt wurde.
-
7 zeigt
die Anpassung eines Metadaten-Extraktiongebietes. Anfangs wird dem
Benutzer ein rechteckiges Extraktionsgebiet 50 angezeigt.
Die Form des Extraktionsgebietes kann mit Hilfe von steuerbaren
Elementen 52, 53 des vorgeschlagenen Extraktionsgebietes
verändert
werden. Der Benutzer kann nun eines der steuerbaren Elemente bewegen. Die
steuerbaren Elemente werden dem Benutzer durch zusätzliche
Symbole angezeigt, d. h. durch kleine Rechtecke, die zu den Seiten
und Ecken des Extraktionsgebietes 50 hinzugefügt sind.
Der Benutzer kann z. B. die obere Seite des Extraktionsgebietes 50 ziehen.
Das Resultat kann einfach in einer Erweiterung des Extraktionsgebietes
nach oben bestehen. Durch Manipulation der steuerbaren Ecke 53 werden
die entsprechenden linken und unteren Seiten bewegt. Mögliche neue
Positionen für
die Seiten und Ecken können
während
der Manipulation als gestrichelte Linien 51 angezeigt werden.
Nach der endgültigen
Auswahl des Gebietes werden die neuen Positionen der Seiten und
Ecken in durchgezogenen Linien dargestellt. Es ist zu bemerken,
daß für die Anzeige
der Steueroptionen andere visuelle Elemente eingesetzt werden können, z.
B. Farben, Blinken, etc.
-
8 zeigt
die Anpassung der Form eines nicht rechteckigen Extraktionsgebietes.
Es ist ein Extraktionsgebiet 60 gezeigt, das so konstruiert
ist, daß ein
Teil eines Textfragments ausgewählt
wird. Die Auswahl beginnt mit einem Wort in der Mitte einer Zeile
und endet auch in der Mitte einer Zeile. Für den Text wird ein Spaltenlayout
angenommen. Vertikale Seiten können
einfach detektiert werden und brauchen auch für den Benutzer nicht steuerbar
zu sein. Die untere Seite 61 hat zwei horizontale Teile
und einen dazwischenliegenden vertikalen Teil. Die untere Linie 61 kann
zu einer neuen Position 62 gezogen werden, die durch eine
gestrichelte Linie angegeben ist. Insbesondere kann der zwischenliegende
vertikale Teil zu einer Stelle in den Textzeilen gezogen werden,
die hinter dem letzten Wort liegt, das in die Metadaten einbezogen
werden soll.
-
Nachdem
das Extraktionsgebiet endgültig festgelegt
ist, können
die Metadaten extrahiert und durch optische Schriftzeichenerkennung
(OCR) verarbeitet werden. Die extrahierten Metadaten werden dann
zur Bestimmung eines Dateinamens benutzt, der einem eingescannten
Dokument hinzugefügt wird.
Das Extraktionsgebiet kann etwaigen Anforderungen an einen Dateinamen
unterliegen, z. B. daß er
eine minimale und eine maximale Länge hat. Der Extraktionsprozeß kann die
Anpassung der Textzeichenkette einschließen, um sie mit Regeln für die Benennung
von Dateien in Übereinstimmung
zu bringen, etwa Beseitigung verbotener Zeichen und Verhinderung
der Wiederverwendung des selben Dateinamens. Weitere identifizierende
Daten wie ein Datum oder eine Zeit können hinzugefügt werden.
Unter Verwendung des gebildeten Dateinamens kann ein eingescanntes
Dokument automatisch gespeichert werden.
-
Obgleich
die Erfindung in der Hauptsache anhand von Ausführungsformen erläutert worden
ist, die Textelemente als Metadaten in dem digitalen Bild benutzen,
ist die Erfindung auch für
irgendeine Repräsentation
von Metadaten-Information
geeignet, etwa durch Symbole, Logos oder andere bildliche Elemente,
die sich kategorisieren lassen, wie z. B. Portraits. Es ist zu bemerken,
daß in
diesem Dokument die Verwendung des Verbes "umfaßt" und seiner Konjugationen nicht das
Vorhandensein von anderen Elementen oder Schritten als die angegebenen
ausschließt
und daß das
Wort "ein" oder "eine" vor einem Element
nicht das Vorhandensein mehrerer solcher Elemente ausschließt und daß etwaige Bezugszeichen
nicht den Umfang der Ansprüche
beschränken,
daß die
Erfindung um jede erwähnte
Einheit oder Einrichtung durch geeignete Hardware und/oder Software
implementiert werden kann und daß verschiedene "Einrichtungen" oder "Einheiten" durch dasselbe Objekt
repräsentiert
werden können.