-
Die
vorliegende Erfindung betrifft die Bildverarbeitung und ist von
besonderem Nutzen für
das Gruppieren von Daten in binären
Bildern.
-
In
einer Anzahl von Bildverarbeitungsanwendungen besteht ein Bedarf
an einem Zusammengruppieren von Objekten, d.h. Objekten, die aufgrund ihrer
engen Nähe
zueinander verwandt sind. Eine dieser Anwendungen ist in Whichello
et al. offengelegt: „Fast
location of address blocks and postcoder in mail-piece images", Pattern Recognition
Letters, Bd. 17, Nr. 11, 16. Sept. 1996, Seiten 1199–1214. In der
Dokumentbildverarbeitung können
Textobjekte, die nahe beieinander sind, zum Bilden von Absätzen miteinander
gruppiert werden. Bei binären
Bilddaten kann dieses Gruppieren durch Mischen (Mergen) durchgeführt werden,
d.h. durch Entfernen von Zwischenräumen zwischen Objekten, die
kleiner als ein vorgegebener Abstandsgrenzwert sind. Das Problem beim
Mischen binärer
Objekte in Cluster ist das Bestimmen des Abstandsgrenzwerts. Wenn
der Abstandsgrenzwert zu klein ist, dann bleiben einige verwandte
Objekte separat. Wenn der Abstandsgrenzwert zu groß ist, dann
werden Zwischenräume
zwischen Clustern eventuell falsch entfernt.
-
Wenn
die Trennung zwischen Clustern bedeutend größer ist als die Zwischenräume zwischen Objekten
in einem Cluster, dann ist das Einstellen der Abstandsgrenzwerte
leicht. In den Fällen,
in denen die Trennung zwischen Clustern den Zwischenräumen zwischen
Objekten in einem Cluster ähnlich
ist, ist das Festlegen der Abstandsgrenzwerte zum Mischen schwieriger.
Wenn die Trennung zwischen den Clustern kleiner ist als die Zwischenräume zwischen Objekten
in einem Cluster, dann kann es für
einen einzelnen Abstandsgrenzwerte unmöglich sein, Objekte in Cluster
zu kombinieren, ohne auch Cluster falsch miteinander zu verbinden.
Im Beispiel der Textverarbeitung von Dokumentbildern ist das Mischen von
Text in Absätze
einfach, wenn die Trennung der Absätze bedeutend größer als
der Zwischenraum zwischen Buchstaben ist. Wenn aber ##der Zwischenraum
zwischen Buchstaben kleiner als die Trennung zwischen Absätzen ist
(wie in einem Dokument mit vielen Schriftarten und Textgrößen oft
der Fall ist), dann kann es sein, dass es nicht möglich ist, den
ganzen Text mithilfe einer einfachen binären Mischoperation erfolgreich
in Absätze
zu gruppieren.
-
In
Bildverarbeitungsanwendungen, in denen das Gruppieren von binären Objekten
wegen der engen Nähe
der Cluster schwierig ist, ist es oft hilfreich, zusätzliche
Informationen zum Segmentieren des binären Bildes zu verwenden. Die
zum Segmentieren des binären
Bildes verwendeten Informationen sind allgemein nützlicher,
wenn sie aus einer separaten Quelle oder früheren Form des Bildes entnommen werden.
Im Beispiel der Textverarbeitung in Dokumentbildern kann das binäre Bild
der Textobjekte nach der Hintergrundfarbe segmentiert werden, die aus
dem ursprünglichen
Graustufenbild des Dokuments berechnet wird. Leider kann die Segmentierung
eines Bildes schwierig sein und viele Methoden berücksichtigen
langsam variierende Merkmale oder unvollständige Regionsgrenzen nicht
ausreichend.
-
Wir
haben erkannt, dass der Prozess des Segmentierens und des Mischens
zum Gruppieren von Objekten in einem binären Bild erfolgreicher und recheneffizienter
gemacht werden kann, wenn sie zu einem einzelnen Prozess zusammengelegt
werden, in dem die Segmentierungsinformationen als die Grenzen zwischen
Regionen repräsentiert
werden. Dementsprechend gruppiert eine bevorzugte Ausgestaltung
der vorliegenden Erfindung Objekte in einem binären Bild zusammen, indem sie
die Zwischenräume
zwischen Objekten in den Fällen
entfernt, in denen die Zwischenräume
kleiner als ein vorgegebener Abstandsgrenzwert sind und keine Regionsgrenze kreuzen.
-
Wir
haben beobachtet, dass für
das Mischen von Objekten in einem binären Bild in Cluster die Segmentierung
dieses Bilds von Nutzen sein kann. Wenn die Segmentierung Cluster
trennen kann, ohne sie zu zerlegen, dann verringert sie die Wahrscheinlichkeit,
das Cluster falsch zusammen gemischt werden. Dies kann die Erfordernisse
der Mischoperation vereinfachen, wodurch es leichter wird, erfolgreich
einen Abstandsgrenzwert für
das Mischen festzusetzen. Wir haben auch beobachtet, dass die Voraussetzung
des Mischens von Objekten in einem binären Bild in Cluster auch die
Aufgabe der Segmentierung vereinfacht. Als eine isolierte Aufgabe
müsste
die Segmentierung das ganze Bild in deutlich verschiedene Regionen
trennen können.
Die Mischoperation hat aber einen Abstandsgrenzwert, der gut getrennte Cluster
isoliert hält.
Die Anforderungen an die Segmentierung sind somit auf das Trennen
von Regionen reduziert, wo die Cluster ansonsten miteinander gemischt
würden.
Der Vorteil dessen, dass die Erfindung das Mischen und die Segmentierung
gleichzeitig durchführt,
liegt darin, die verringerten Erfordernisse der Segmentierungsinformationen
und der Vereinfachung der Einstellung des Abstandsgrenzwerts für das Mischen
zu nutzen.
-
Die
Erfindung ist in den angefügten
Ansprüchen
definiert. Im Folgenden wird eine bevorzugte Ausgestaltung der Erfindung
unter Bezugnahme auf die Begleitzeichnungen beispielhaft ausführlich beschrieben.
Dabei zeigt:
-
1 eine
schematische Darstellung einer Vorrichtung zum Identifizieren von
Adressen auf komplexen Umschlägen,
-
2 eine
schematische Darstellung eines konventionellen Verfahrens zum Anwenden
von Segmentieren und von Mischen auf ein binäres Bild,
-
3 eine
schematische Darstellung einer Ausgestaltung der Erfindung, die
zum Durchführen der
Aufgaben des Segmentierens und des Mischens an einem binären Bild
verwendet wird,
-
4 zeigt
den Vorteil der Verwendung von Regionsgrenzen für die Segmentierung im Fall
der Segmentierung von Text in einem Dokumentbild nach der Hintergrundfarbe
und
-
5 eine
schematische Darstellung einer Vorrichtung zum Identifizieren von
Adressen auf komplexen Umschlägen
unter Verwendung einer Ausgestaltung der Erfindung.
-
In
einem Beispiel für
das Identifizieren von Adressen auf komplexen Umschlägen in einem
Postverarbeitungssystem besteht ein Bedarf am Gruppieren von Textobjekten
in Absätze,
die Adressen sein können.
Wie bei vielen anderen Bildverarbeitungsanwendungen kann für das Mischen
von binären
Textobjekten in Absätze
die Verwendung zusätzlicher
Informationen zum Segmentieren des Bilds von Nutzen sein. Dementsprechend
haben wir im Fall der Verarbeitung von Dokumentbildern wie z.B.
Post in einer britischen Patentanmeldung, die am gleichen Tag wie die
vorliegende Anmeldung angemeldet wurde, ein Verfahren zum Gruppieren
verwandter Textobjekte in einem Bilddokument vorgeschlagen. Das
oben erwähnte
Patent verwendet zwei Segmentierungen, eine nach Textfarbe und eine
nach Hintergrundfarbe, um das binäre Bild der Textobjekte zu
segmentieren. In dem in 1 gezeigten Beispiel verwendet
die Vorrichtung zum Identifizieren von Adressen auf komplexen Umschlägen eine
vereinfachte Version, die eine Segmentierung nur anhand der Hintergrundinformationen
erzeugt.
-
In 1 erzeugt
ein Scanner 2 ein 256-stufiges Graustufenbild von dem eingegebenen
Dokument. Er könnte
selbstverständlich
auch andere Auflösungen
des Graustufenbilds oder auch eines Farbbilds erzeugen. Dieses Graustufenbild
wird dann zu einer Textobjektextraktionseinheit 4 geleitet,
die die Textobjekte im Bild identifiziert und ein binäres Bild von
diesen erzeugt.
-
Gleichzeitig
wird das Graustufenbild zu einer globalen Informationssegmentierungseinheit 6 geleitet,
die eine Segmentierung für
das Bild auf der Basis der Hintergrundgraustufe erstellt, indem
sie Regionen definiert, in denen der Grauwert der gleiche ist oder
in einem vorbestimmten Bereich liegt. Dies könnte auch Farbinformationen
verwenden. Diese sich auf den Hintergrundgrauwert beziehenden Segmentierungsdaten
werden dann zu einer Segmentierungseinheit 8 weitergeleitet,
die auch das binäre
Bild von der Textobjektextraktionseinheit 4 erhält. Diese segmentiert
dann das binäre
Textbild nach den ihr zugeführten
globalen Hintergrundinformationen.
-
Die
Ausgabedaten hierfür
werden dann an die Mischeinheit 10 geleitet, die für jede segmentierte Region
Textobjekte nach dem Abstand zwischen Buchstaben mischt. Buchstaben,
die durch weniger als einen vorbestimmten Abstand voneinander getrennt
sind, werden zusammen gemischt, und solche, die weiter auseinander
sind, nicht. Dies ergibt Textblöcke,
die zu einer Sortiereinheit 12 geleitet werden. Diese sortiert
die Textblöcke
nach denen, die am wahrscheinlichsten eine Adresse enthalten (im
Fall eines Postverarbeitungssystems), und leitet diese an eine optische
Zeichenerkennungs-(OCR-)Einheit 14 weiter.
-
Die
Schritte 8 und 10 in 1 sind ein
binäres
Segmentieren und Mischen. Ein konventioneller Ansatz für die Segmentierung
und das Mischen eines binären
Bilds wird in 2 gezeigt. Dieser erfordert, dass
die Segmentierung das Bild in vollständige Regionen trennt. Die
Mischoperation kann dann auf jede Region separat angewendet werden.
In 2 wird von einer Segmentierungs-Mapping-Einheit 16 ein Segmentierungs-Map
aus Segmentierungsinformationen erstellt. Dieses Map segmentierter
Regionen wird mit dem binären
Bild (von Text- oder
anderen Objekten) in einer Binärbildsegmentierungseinheit 18 kombiniert.
Diese gibt wiederum getrennte Regionen des binären Bilds an eine Mischeinheit 20 aus,
die Zwischenräume
zwischen Objekten unter einem vorgegebenen Abstandsgrenzwert mit
jeder Region entfernt. Die Ausgabe hiervon ist dann eine Sequenz von
gruppierten binären
Objekten, die keine Regionsgrenzen kreuzen. Die Cluster sind durch
die angewendeten Abstandsgrenzwerte des Mischens eingeschränkt. Die
Aufgabe der Verwendung der Segmentierungsinformationen zum Trennen
des Bilds in deutlich verschiedene Regionen ist schwierig genau durchzuführen und
dieses System hat daher Nachteile.
-
Eine
Ausgestaltung der Erfindung, wie sie in 3 gezeigt
wird, ist eine Alternative hierzu. Statt zu versuchen, die Segmentierungsinformationen zum
Trennen des Bilds in vollständige
Regionen zu verwenden, ist die Aufgabe auf die Extraktion der Regionsgrenzen
reduziert. Das Entfernen von Zwischenräumen zwischen Objekten im binären Bild führt dann
die Mischoperation durch. Die Zwischenräume werden aber nur entfernt,
wenn sie kleiner als der vorgeschriebene Abstandsgrenzwert sind
und keine Regionsgrenze kreuzen. Das Ergebnis ist effektiv eine
gleichzeitige Segmentierungs- und Mischoperation mit dem Vorteil,
dass das Bild an keinem Punkt vollständig segmentiert werden muss.
Da die Regionsgrenzen nicht vollständig sein müssen, ist der Prozess auch
wirklich bedeutend einfacher als das Bilden einer isolierten Segmentierung.
-
Das
System von 3 umfasst eine Grenzextraktionseinheit 22,
die aus von dem eingegebenen Graustufenbild oder einer anderen Quelle
abgeleiteten Segmentierungsinformationen Regionsgrenzen zieht. Diese
Segmentierungsinformationen können
Informationen sein, die Änderungen
der Hintergrundfarbe oder der Graustufe definieren, die einen vorbestimmten
Grenzwert überschreitet.
Dies ergibt ein binäres
Bild von Regionsgrenzen, das eine der Eingaben zur Misch- und Segmentierungseinheit 24 bildet.
Die andere Eingabe hierzu ist das binäre Bild, das im Fall der Postverarbeitung
aus der Textobjektextraktionseinheit 4 von 1 kommen
würde.
-
Die
Segmentierungs- und Mischeinheit mischt dann Objekte im binären Bild
zusammen, ohne irgendwelche Regionsgrenzen zu kreuzen. Das Mischen
wird durch Entfernen von Zwischenräumen zwischen Objekten durchgeführt, die
unter dem Mischabstandsgrenzwert sind und keine Regionsgrenze kreuzen.
Normalerweise wird ein derartiger Prozess mit konventioneller Hardware
durchgeführt, die
mit Software zum Durchführen
dieses Prozesses programmiert ist. Dedizierte Hardwareschaltungsanordnungen
könnten
aber bereitgestellt werden, um die Segmentierung und das Mischen
zu implementieren. Der Vorteil der Verwendung von Grenzen für die Segmentierung
wird in 4a)–e) illustriert. 4a) und b) zeigen
das Original und den Hintergrund eines Dokuments in einem Postverarbeitungssystem.
Zur Unterstützung
des Gruppierens von Textobjekten in den Absätzen wurde der Hintergrund
aus dem Originalbild extrahiert, um die binären Textobjekte zu segmentieren.
Diese vom Hintergrund bereitgestellte Segmentierung wird in 4b gezeigt.
Wie zu sehen ist, sind die Hintergrundbereiche offensichtlich deutlich
verschieden und es gibt keine Schwierigkeit dabei, das Bild in völlig verschiedene Regionen
nach Hintergrund zu trennen.
-
Die 4c) und d) zeigen
Original und Hintergrund eines anderen Umschlags. Die obere Hälfte des
Bilds ist eine Zahlentabelle und die untere Hälfte enthält etwas Text. Der Text auf
dem unteren Abschnitt ist auf einem Hintergrund gedruckt, der von rechts
nach links dunkler wird. Dieses Gefälle macht es schwierig, das
Bild in deutlich verschiedene Regionen zu segmentieren. Auf der
linken Seite ist es klar, dass das Bild einen oberen und einen unteren
Teil hat, die getrennt werden sollten. Auf der rechten Seite gibt
es keine offensichtliche Grenze. Eine vollständige Segmentierung wäre daher
sehr schwierig. Regionsgrenzen lassen sich aber leicht aus dem Hintergrund
extrahieren und ergeben eine gute genaue Darstellung davon, wo Mischen
stattfinden kann und wo nicht. Die Regionsgrenzen können daher
aus den Hintergrundinformationen extrahiert werden und diese werden
in 4e) illustriert. In dieser Figur
ist die den oberen und den unteren Teil voneinander trennende Linie
im linken Teil des Bilds deutlich, zum rechten Rand hin nimmt ihre
Deutlichkeit aber allmählich
ab. Unter Verwendung des Systems von 3 kann über diese
Grenze kein Mischen stattfinden.
-
Ein
weiterer Vorteil dieses gleichzeitigen Mischens und Segmentierens
ist, dass, während
die normalen Segmentierungsinformationen in der Lage sein müssen, das
ganze Bild zu segmentieren, sie bei diesem speziellen System nur
eine Regionsgrenze repräsentieren
müssen.
Diese kann lediglich eine Linie sein. Sie braucht nicht die deutlich
verschiedene Region einzuschließen.
Bei Verwendung mit der Dokumentbildverarbeitung können die
Textobjekte, die Hintergrundfarbe, die Textfarbe, die Textausrichtung
usw. alle zum Segmentieren des ganzen Bilds verwendet werden. Mit
der aktuellen Technik können aber
unvollständige
Grenzen wie Fettdruck, Linien, Lage von Bildern und Logos usw. alle
verwendet werden, um erfolgreich zum Gruppieren von Textobjekten
beizutragen. Außerdem
sind sich wiederholende Segmentierungen normalerweise rechenintensiv.
Die vorliegende Technik erfordert nur ein binäres Bild der Linien, die während des
Mischens gekreuzt werden dürfen.
Die mehrfachen Segmentierungen stellen somit einen Fall von ODER-Verknüpfung einer
Anzahl von binären
Bildern dar, um ein vollständiges
binäres Bild
der Regionsgrenzen zu erstellen. Dies ist weit weniger rechenintensiv.
-
Die
in 5 gezeigte Ausgestaltung zeigt das Misch- und
Segmentierungssystem von 3, das in der Vorrichtung von 1 verwendet
wird und die Segmentierungseinheit 8 und die Mischeinheit 10 ersetzt.
Die Segmentierungsinformationseingabe zu den Grenzextraktionseinheiten 22 kommt
von der globalen Segmentierungseinheit 6. Die binäre Bildeingabe
zur Misch- und Segmentierungseinheit kommt von der Textobjektextraktionseinheit 4.
Die Ausgabe der Segmentierungs- und Mischeinheit 24 ist
ein Satz von Textobjekten, die zu Textblöcken gruppiert sind. Diese
werden dann von der Sortiereinheit 12 für den Textblock, der am wahrscheinlichsten die
Adresse ist, sortiert, bevor sie an die OCR 14 weitergeleitet
werden. Das System kann leicht zum Verwenden von Textfarbensegmentierung
anstelle der Graustufensegmentierung implementiert werden.
-
Die
Erfindung führt
das Gruppieren von Objekten in einem binären Bild durch, bei dem die
Cluster von einem höchstzulässigen Abstand
zwischen Objekten und von einigen Informationen, die Segmentierung
zwischen Clustern implizieren, beschrieben werden. Die Segmentierungsinformationen
werden als ein binäres
Bild von Regionsgrenzlinien zugeführt, die während der Gruppierungsoperation nicht
gekreuzt werden. Die Regionsgrenzen müssen nicht vollständig sein.
Da die Erfindung eine allgemeine Bildverarbeitungsmethode zum Gruppieren
von binären
Objekten ist, gibt es zahlreiche Anwendungen. Das in dieser Beschreibung
verwendete Hauptbeispiel ist das Gruppieren von Textobjekten in
Absätze
in Dokumentbildern. Andere Anwendungen könnten sein: Biologische Bildverarbeitung
Zum Beispiel Gruppieren eines binären Bilds Fremdkörpern, die
Zellen infizieren, wobei die Zellwände die Segmentierungsregionsgrenzen
sind.
-
Geografische
Bildverarbeitung Zum Beispiel Gruppierung von Vieh in Bildern von
Weiden, wobei die Hecken die Regionsgrenzen sind.
-
Bildverarbeitung
in militärischen
Anwendungen Zum Beispiel Gruppieren von Personal in einem Gebäude, wobei
das binäre
Bild der Personalstandorte von einem thermografischen Bildverarbeitungssystem
stammen kann und die Segmentierungsregionsgrenzen als die Wände im Bauplan
verstanden werden.