DE60102928T2

DE60102928T2 - Verfahren und vorrichtung zur bildverarbeitung

Info

Publication number: DE60102928T2
Application number: DE60102928T
Authority: DE
Inventors: Robert Wei Liang Rooyston TAN; Robert Edward Meredith Swann
Original assignee: Royal Mail Group Ltd
Current assignee: Royal Mail Group Ltd
Priority date: 2000-06-30
Filing date: 2001-06-29
Publication date: 2005-07-21
Anticipated expiration: 2021-06-30
Also published as: GB2364417B; AU2001267714A1; WO2002003330A3; GB0016222D0; DE60102928D1; US6870549B1; WO2002003330A2; ES2219538T3; EP1299857B1; GB2364417A; EP1299857A2; ATE265072T1

Description

Die vorliegende Erfindung betrifft die Bildverarbeitung und ist von besonderem Nutzen für das Gruppieren von Daten in binären Bildern.
In einer Anzahl von Bildverarbeitungsanwendungen besteht ein Bedarf an einem Zusammengruppieren von Objekten, d.h. Objekten, die aufgrund ihrer engen Nähe zueinander verwandt sind. Eine dieser Anwendungen ist in Whichello et al. offengelegt: „Fast location of address blocks and postcoder in mail-piece images", Pattern Recognition Letters, Bd. 17, Nr. 11, 16. Sept. 1996, Seiten 1199–1214. In der Dokumentbildverarbeitung können Textobjekte, die nahe beieinander sind, zum Bilden von Absätzen miteinander gruppiert werden. Bei binären Bilddaten kann dieses Gruppieren durch Mischen (Mergen) durchgeführt werden, d.h. durch Entfernen von Zwischenräumen zwischen Objekten, die kleiner als ein vorgegebener Abstandsgrenzwert sind. Das Problem beim Mischen binärer Objekte in Cluster ist das Bestimmen des Abstandsgrenzwerts. Wenn der Abstandsgrenzwert zu klein ist, dann bleiben einige verwandte Objekte separat. Wenn der Abstandsgrenzwert zu groß ist, dann werden Zwischenräume zwischen Clustern eventuell falsch entfernt.
Wenn die Trennung zwischen Clustern bedeutend größer ist als die Zwischenräume zwischen Objekten in einem Cluster, dann ist das Einstellen der Abstandsgrenzwerte leicht. In den Fällen, in denen die Trennung zwischen Clustern den Zwischenräumen zwischen Objekten in einem Cluster ähnlich ist, ist das Festlegen der Abstandsgrenzwerte zum Mischen schwieriger. Wenn die Trennung zwischen den Clustern kleiner ist als die Zwischenräume zwischen Objekten in einem Cluster, dann kann es für einen einzelnen Abstandsgrenzwerte unmöglich sein, Objekte in Cluster zu kombinieren, ohne auch Cluster falsch miteinander zu verbinden. Im Beispiel der Textverarbeitung von Dokumentbildern ist das Mischen von Text in Absätze einfach, wenn die Trennung der Absätze bedeutend größer als der Zwischenraum zwischen Buchstaben ist. Wenn aber ##der Zwischenraum zwischen Buchstaben kleiner als die Trennung zwischen Absätzen ist (wie in einem Dokument mit vielen Schriftarten und Textgrößen oft der Fall ist), dann kann es sein, dass es nicht möglich ist, den ganzen Text mithilfe einer einfachen binären Mischoperation erfolgreich in Absätze zu gruppieren.
In Bildverarbeitungsanwendungen, in denen das Gruppieren von binären Objekten wegen der engen Nähe der Cluster schwierig ist, ist es oft hilfreich, zusätzliche Informationen zum Segmentieren des binären Bildes zu verwenden. Die zum Segmentieren des binären Bildes verwendeten Informationen sind allgemein nützlicher, wenn sie aus einer separaten Quelle oder früheren Form des Bildes entnommen werden. Im Beispiel der Textverarbeitung in Dokumentbildern kann das binäre Bild der Textobjekte nach der Hintergrundfarbe segmentiert werden, die aus dem ursprünglichen Graustufenbild des Dokuments berechnet wird. Leider kann die Segmentierung eines Bildes schwierig sein und viele Methoden berücksichtigen langsam variierende Merkmale oder unvollständige Regionsgrenzen nicht ausreichend.
Wir haben erkannt, dass der Prozess des Segmentierens und des Mischens zum Gruppieren von Objekten in einem binären Bild erfolgreicher und recheneffizienter gemacht werden kann, wenn sie zu einem einzelnen Prozess zusammengelegt werden, in dem die Segmentierungsinformationen als die Grenzen zwischen Regionen repräsentiert werden. Dementsprechend gruppiert eine bevorzugte Ausgestaltung der vorliegenden Erfindung Objekte in einem binären Bild zusammen, indem sie die Zwischenräume zwischen Objekten in den Fällen entfernt, in denen die Zwischenräume kleiner als ein vorgegebener Abstandsgrenzwert sind und keine Regionsgrenze kreuzen.
Wir haben beobachtet, dass für das Mischen von Objekten in einem binären Bild in Cluster die Segmentierung dieses Bilds von Nutzen sein kann. Wenn die Segmentierung Cluster trennen kann, ohne sie zu zerlegen, dann verringert sie die Wahrscheinlichkeit, das Cluster falsch zusammen gemischt werden. Dies kann die Erfordernisse der Mischoperation vereinfachen, wodurch es leichter wird, erfolgreich einen Abstandsgrenzwert für das Mischen festzusetzen. Wir haben auch beobachtet, dass die Voraussetzung des Mischens von Objekten in einem binären Bild in Cluster auch die Aufgabe der Segmentierung vereinfacht. Als eine isolierte Aufgabe müsste die Segmentierung das ganze Bild in deutlich verschiedene Regionen trennen können. Die Mischoperation hat aber einen Abstandsgrenzwert, der gut getrennte Cluster isoliert hält. Die Anforderungen an die Segmentierung sind somit auf das Trennen von Regionen reduziert, wo die Cluster ansonsten miteinander gemischt würden. Der Vorteil dessen, dass die Erfindung das Mischen und die Segmentierung gleichzeitig durchführt, liegt darin, die verringerten Erfordernisse der Segmentierungsinformationen und der Vereinfachung der Einstellung des Abstandsgrenzwerts für das Mischen zu nutzen.
Die Erfindung ist in den angefügten Ansprüchen definiert. Im Folgenden wird eine bevorzugte Ausgestaltung der Erfindung unter Bezugnahme auf die Begleitzeichnungen beispielhaft ausführlich beschrieben. Dabei zeigt:
1 eine schematische Darstellung einer Vorrichtung zum Identifizieren von Adressen auf komplexen Umschlägen,
2 eine schematische Darstellung eines konventionellen Verfahrens zum Anwenden von Segmentieren und von Mischen auf ein binäres Bild,
3 eine schematische Darstellung einer Ausgestaltung der Erfindung, die zum Durchführen der Aufgaben des Segmentierens und des Mischens an einem binären Bild verwendet wird,
4 zeigt den Vorteil der Verwendung von Regionsgrenzen für die Segmentierung im Fall der Segmentierung von Text in einem Dokumentbild nach der Hintergrundfarbe und
5 eine schematische Darstellung einer Vorrichtung zum Identifizieren von Adressen auf komplexen Umschlägen unter Verwendung einer Ausgestaltung der Erfindung.
In einem Beispiel für das Identifizieren von Adressen auf komplexen Umschlägen in einem Postverarbeitungssystem besteht ein Bedarf am Gruppieren von Textobjekten in Absätze, die Adressen sein können. Wie bei vielen anderen Bildverarbeitungsanwendungen kann für das Mischen von binären Textobjekten in Absätze die Verwendung zusätzlicher Informationen zum Segmentieren des Bilds von Nutzen sein. Dementsprechend haben wir im Fall der Verarbeitung von Dokumentbildern wie z.B. Post in einer britischen Patentanmeldung, die am gleichen Tag wie die vorliegende Anmeldung angemeldet wurde, ein Verfahren zum Gruppieren verwandter Textobjekte in einem Bilddokument vorgeschlagen. Das oben erwähnte Patent verwendet zwei Segmentierungen, eine nach Textfarbe und eine nach Hintergrundfarbe, um das binäre Bild der Textobjekte zu segmentieren. In dem in 1 gezeigten Beispiel verwendet die Vorrichtung zum Identifizieren von Adressen auf komplexen Umschlägen eine vereinfachte Version, die eine Segmentierung nur anhand der Hintergrundinformationen erzeugt.
In 1 erzeugt ein Scanner 2 ein 256-stufiges Graustufenbild von dem eingegebenen Dokument. Er könnte selbstverständlich auch andere Auflösungen des Graustufenbilds oder auch eines Farbbilds erzeugen. Dieses Graustufenbild wird dann zu einer Textobjektextraktionseinheit 4 geleitet, die die Textobjekte im Bild identifiziert und ein binäres Bild von diesen erzeugt.
Gleichzeitig wird das Graustufenbild zu einer globalen Informationssegmentierungseinheit 6 geleitet, die eine Segmentierung für das Bild auf der Basis der Hintergrundgraustufe erstellt, indem sie Regionen definiert, in denen der Grauwert der gleiche ist oder in einem vorbestimmten Bereich liegt. Dies könnte auch Farbinformationen verwenden. Diese sich auf den Hintergrundgrauwert beziehenden Segmentierungsdaten werden dann zu einer Segmentierungseinheit 8 weitergeleitet, die auch das binäre Bild von der Textobjektextraktionseinheit 4 erhält. Diese segmentiert dann das binäre Textbild nach den ihr zugeführten globalen Hintergrundinformationen.
Die Ausgabedaten hierfür werden dann an die Mischeinheit 10 geleitet, die für jede segmentierte Region Textobjekte nach dem Abstand zwischen Buchstaben mischt. Buchstaben, die durch weniger als einen vorbestimmten Abstand voneinander getrennt sind, werden zusammen gemischt, und solche, die weiter auseinander sind, nicht. Dies ergibt Textblöcke, die zu einer Sortiereinheit 12 geleitet werden. Diese sortiert die Textblöcke nach denen, die am wahrscheinlichsten eine Adresse enthalten (im Fall eines Postverarbeitungssystems), und leitet diese an eine optische Zeichenerkennungs-(OCR-)Einheit 14 weiter.
Die Schritte 8 und 10 in 1 sind ein binäres Segmentieren und Mischen. Ein konventioneller Ansatz für die Segmentierung und das Mischen eines binären Bilds wird in 2 gezeigt. Dieser erfordert, dass die Segmentierung das Bild in vollständige Regionen trennt. Die Mischoperation kann dann auf jede Region separat angewendet werden. In 2 wird von einer Segmentierungs-Mapping-Einheit 16 ein Segmentierungs-Map aus Segmentierungsinformationen erstellt. Dieses Map segmentierter Regionen wird mit dem binären Bild (von Text- oder anderen Objekten) in einer Binärbildsegmentierungseinheit 18 kombiniert. Diese gibt wiederum getrennte Regionen des binären Bilds an eine Mischeinheit 20 aus, die Zwischenräume zwischen Objekten unter einem vorgegebenen Abstandsgrenzwert mit jeder Region entfernt. Die Ausgabe hiervon ist dann eine Sequenz von gruppierten binären Objekten, die keine Regionsgrenzen kreuzen. Die Cluster sind durch die angewendeten Abstandsgrenzwerte des Mischens eingeschränkt. Die Aufgabe der Verwendung der Segmentierungsinformationen zum Trennen des Bilds in deutlich verschiedene Regionen ist schwierig genau durchzuführen und dieses System hat daher Nachteile.
Eine Ausgestaltung der Erfindung, wie sie in 3 gezeigt wird, ist eine Alternative hierzu. Statt zu versuchen, die Segmentierungsinformationen zum Trennen des Bilds in vollständige Regionen zu verwenden, ist die Aufgabe auf die Extraktion der Regionsgrenzen reduziert. Das Entfernen von Zwischenräumen zwischen Objekten im binären Bild führt dann die Mischoperation durch. Die Zwischenräume werden aber nur entfernt, wenn sie kleiner als der vorgeschriebene Abstandsgrenzwert sind und keine Regionsgrenze kreuzen. Das Ergebnis ist effektiv eine gleichzeitige Segmentierungs- und Mischoperation mit dem Vorteil, dass das Bild an keinem Punkt vollständig segmentiert werden muss. Da die Regionsgrenzen nicht vollständig sein müssen, ist der Prozess auch wirklich bedeutend einfacher als das Bilden einer isolierten Segmentierung.
Das System von 3 umfasst eine Grenzextraktionseinheit 22, die aus von dem eingegebenen Graustufenbild oder einer anderen Quelle abgeleiteten Segmentierungsinformationen Regionsgrenzen zieht. Diese Segmentierungsinformationen können Informationen sein, die Änderungen der Hintergrundfarbe oder der Graustufe definieren, die einen vorbestimmten Grenzwert überschreitet. Dies ergibt ein binäres Bild von Regionsgrenzen, das eine der Eingaben zur Misch- und Segmentierungseinheit 24 bildet. Die andere Eingabe hierzu ist das binäre Bild, das im Fall der Postverarbeitung aus der Textobjektextraktionseinheit 4 von 1 kommen würde.
Die Segmentierungs- und Mischeinheit mischt dann Objekte im binären Bild zusammen, ohne irgendwelche Regionsgrenzen zu kreuzen. Das Mischen wird durch Entfernen von Zwischenräumen zwischen Objekten durchgeführt, die unter dem Mischabstandsgrenzwert sind und keine Regionsgrenze kreuzen. Normalerweise wird ein derartiger Prozess mit konventioneller Hardware durchgeführt, die mit Software zum Durchführen dieses Prozesses programmiert ist. Dedizierte Hardwareschaltungsanordnungen könnten aber bereitgestellt werden, um die Segmentierung und das Mischen zu implementieren. Der Vorteil der Verwendung von Grenzen für die Segmentierung wird in 4a)–e) illustriert. 4a) und b) zeigen das Original und den Hintergrund eines Dokuments in einem Postverarbeitungssystem. Zur Unterstützung des Gruppierens von Textobjekten in den Absätzen wurde der Hintergrund aus dem Originalbild extrahiert, um die binären Textobjekte zu segmentieren. Diese vom Hintergrund bereitgestellte Segmentierung wird in 4b gezeigt. Wie zu sehen ist, sind die Hintergrundbereiche offensichtlich deutlich verschieden und es gibt keine Schwierigkeit dabei, das Bild in völlig verschiedene Regionen nach Hintergrund zu trennen.
Die 4c) und d) zeigen Original und Hintergrund eines anderen Umschlags. Die obere Hälfte des Bilds ist eine Zahlentabelle und die untere Hälfte enthält etwas Text. Der Text auf dem unteren Abschnitt ist auf einem Hintergrund gedruckt, der von rechts nach links dunkler wird. Dieses Gefälle macht es schwierig, das Bild in deutlich verschiedene Regionen zu segmentieren. Auf der linken Seite ist es klar, dass das Bild einen oberen und einen unteren Teil hat, die getrennt werden sollten. Auf der rechten Seite gibt es keine offensichtliche Grenze. Eine vollständige Segmentierung wäre daher sehr schwierig. Regionsgrenzen lassen sich aber leicht aus dem Hintergrund extrahieren und ergeben eine gute genaue Darstellung davon, wo Mischen stattfinden kann und wo nicht. Die Regionsgrenzen können daher aus den Hintergrundinformationen extrahiert werden und diese werden in 4e) illustriert. In dieser Figur ist die den oberen und den unteren Teil voneinander trennende Linie im linken Teil des Bilds deutlich, zum rechten Rand hin nimmt ihre Deutlichkeit aber allmählich ab. Unter Verwendung des Systems von 3 kann über diese Grenze kein Mischen stattfinden.
Ein weiterer Vorteil dieses gleichzeitigen Mischens und Segmentierens ist, dass, während die normalen Segmentierungsinformationen in der Lage sein müssen, das ganze Bild zu segmentieren, sie bei diesem speziellen System nur eine Regionsgrenze repräsentieren müssen. Diese kann lediglich eine Linie sein. Sie braucht nicht die deutlich verschiedene Region einzuschließen. Bei Verwendung mit der Dokumentbildverarbeitung können die Textobjekte, die Hintergrundfarbe, die Textfarbe, die Textausrichtung usw. alle zum Segmentieren des ganzen Bilds verwendet werden. Mit der aktuellen Technik können aber unvollständige Grenzen wie Fettdruck, Linien, Lage von Bildern und Logos usw. alle verwendet werden, um erfolgreich zum Gruppieren von Textobjekten beizutragen. Außerdem sind sich wiederholende Segmentierungen normalerweise rechenintensiv. Die vorliegende Technik erfordert nur ein binäres Bild der Linien, die während des Mischens gekreuzt werden dürfen. Die mehrfachen Segmentierungen stellen somit einen Fall von ODER-Verknüpfung einer Anzahl von binären Bildern dar, um ein vollständiges binäres Bild der Regionsgrenzen zu erstellen. Dies ist weit weniger rechenintensiv.
Die in 5 gezeigte Ausgestaltung zeigt das Misch- und Segmentierungssystem von 3, das in der Vorrichtung von 1 verwendet wird und die Segmentierungseinheit 8 und die Mischeinheit 10 ersetzt. Die Segmentierungsinformationseingabe zu den Grenzextraktionseinheiten 22 kommt von der globalen Segmentierungseinheit 6. Die binäre Bildeingabe zur Misch- und Segmentierungseinheit kommt von der Textobjektextraktionseinheit 4. Die Ausgabe der Segmentierungs- und Mischeinheit 24 ist ein Satz von Textobjekten, die zu Textblöcken gruppiert sind. Diese werden dann von der Sortiereinheit 12 für den Textblock, der am wahrscheinlichsten die Adresse ist, sortiert, bevor sie an die OCR 14 weitergeleitet werden. Das System kann leicht zum Verwenden von Textfarbensegmentierung anstelle der Graustufensegmentierung implementiert werden.
Die Erfindung führt das Gruppieren von Objekten in einem binären Bild durch, bei dem die Cluster von einem höchstzulässigen Abstand zwischen Objekten und von einigen Informationen, die Segmentierung zwischen Clustern implizieren, beschrieben werden. Die Segmentierungsinformationen werden als ein binäres Bild von Regionsgrenzlinien zugeführt, die während der Gruppierungsoperation nicht gekreuzt werden. Die Regionsgrenzen müssen nicht vollständig sein. Da die Erfindung eine allgemeine Bildverarbeitungsmethode zum Gruppieren von binären Objekten ist, gibt es zahlreiche Anwendungen. Das in dieser Beschreibung verwendete Hauptbeispiel ist das Gruppieren von Textobjekten in Absätze in Dokumentbildern. Andere Anwendungen könnten sein: Biologische Bildverarbeitung Zum Beispiel Gruppieren eines binären Bilds Fremdkörpern, die Zellen infizieren, wobei die Zellwände die Segmentierungsregionsgrenzen sind.
Geografische Bildverarbeitung Zum Beispiel Gruppierung von Vieh in Bildern von Weiden, wobei die Hecken die Regionsgrenzen sind.
Bildverarbeitung in militärischen Anwendungen Zum Beispiel Gruppieren von Personal in einem Gebäude, wobei das binäre Bild der Personalstandorte von einem thermografischen Bildverarbeitungssystem stammen kann und die Segmentierungsregionsgrenzen als die Wände im Bauplan verstanden werden.

Claims

Bildverarbeitungssystem zum Erzeugen von Clustern für verwandte Objekte zur anschließenden Analyse, umfassend Mittel zum Bereitstellen einer mehrschichtigen digitalen Darstellung des Bildes, Mittel zum Identifizieren vorbestimmter Objekte in dem Bild und zum Bereitstellen von ihre Lagen definierenden Daten, Mittel zum Ableiten von Eingrenzungsdaten aus der digitalen mehrschichtigen digitalen Darstellung, wobei die Eingrenzungsdaten Grenzen zwischen verschiedenen Regionen des Bildes darstellen, wobei sich die genannten Objekte von den genannten Grenzen und den genannten Regionen unterscheiden, Mittel zum Bündeln der identifizierten Objekte zu Gruppen in Abhängigkeit von ihrer Nähe zueinander und in Abhängigkeit von den Eingrenzungsdaten, und Mittel zum Liefern von auf die Gruppen bezogenen Daten zur anschließenden Analyse.
Bildverarbeitungssystem nach Anspruch 1, bei dem die Eingrenzungsdaten von einer anderen Darstellung des Bildes abgeleitet werden.
Bildverarbeitungssystem nach Anspruch 1, bei dem die Eingrenzungsdaten von einer separaten Quelle abgeleitet werden, die sich auf das Bild beziehende Daten enthält.
Bildverarbeitungssystem nach Anspruch 1, bei dem die Eingrenzungsdaten von Hintergrunddaten aus der mehrschichtigen digitalen Darstellung abgeleitet werden.
Bildverarbeitungssystem nach Anspruch 4, bei dem die Hintergrunddaten Farbdaten sind.
Bildverarbeitungssystem nach Anspruch 4, bei dem die Hintergrunddaten Graustufendaten sind.
Bildverarbeitungssystem nach einem der vorhergehenden Ansprüche, bei dem die Mittel zum Bündeln von Objekten Objekte bündeln, die durch weniger als eine vorbestimmte Grenze getrennt sind.
Bildverarbeitungssystem nach einem der vorhergehenden Ansprüche, bei dem die Mittel zum Bündeln von Objekten Objekte bündeln, die nicht durch eine von den Eingrenzungsdaten definierte Grenze getrennt sind.
Verfahren zum Verarbeiten von Bildern zum Erzeugen von Bündeln verwandter Objekte zur anschließenden Analyse, umfassend die folgenden Schritte: Bereitstellen einer mehrschichtigen digitalen Darstellung des Bildes, Identifizieren vorbestimmter Objekte im Bild und Bereitstellen von die Lagen der vorbestimmten Objekte definierenden Daten, Ableiten von Eingrenzungsdaten aus der mehrschichtigen digitalen Darstellung, wobei die Eingrenzungsdaten Grenzen zwischen Regionen des ursprünglichen Bildes darstellen, wobei sich die genannten Objekte von den genannten Grenzen und den genannten Regionen unterscheiden, und Bündeln der identifizierten Objekte zu Gruppen in Abhängigkeit von ihrer Nähe zueinander und in Abhängigkeit von den Eingrenzungsdaten.
Verfahren nach Anspruch 9, bei dem die Eingrenzungsdaten von einer anderen Darstellung des Bildes abgeleitet werden.
Verfahren nach Anspruch 9, bei dem die Eingrenzungsdaten von einer separaten Quelle abgeleitet werden, die sich auf das Bild beziehende Daten enthält.
Verfahren nach Anspruch 9, bei dem die Eingrenzungsdaten von Hintergrunddaten in der mehrschichtigen digitalen Darstellung abgeleitet werden.
Verfahren nach Anspruch 12, bei dem die Hintergrunddaten Farbdaten sind.
Verfahren nach Anspruch 12, bei dem die Hintergrunddaten Graustufendaten sind.
Verfahren nach einem der Ansprüche 10 bis 14, bei dem der Schritt des Bündelns von Objekten Objekte gruppiert, die durch weniger als eine vorbestimmte Grenze getrennt sind.
Verfahren nach einem der Ansprüche 10 bis 15, bei dem der Schritt des Bündelns von Objekten Objekte bündelt, die nicht durch eine von den Eingrenzungsdaten definierte Grenze getrennt sind.