DE10010621B4

DE10010621B4 - Schnelles Lokalisieren von Adressblöcken in Graustufenbildern

Info

Publication number: DE10010621B4
Application number: DE10010621A
Authority: DE
Inventors: Lev Finkelstein; Andre Heilper; Eugene Walach
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-03-12
Filing date: 2000-03-03
Publication date: 2006-08-24
Anticipated expiration: 2020-03-04
Also published as: IL134463A; IL134463A0; US6343139B1; DE10010621A1

Abstract

Verfahren zum Lokalisieren eines strukturierten Feldes (32) in einem Graustufenbild eines Objektes, mit den Schritten:
a) Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei die Ausgangspunkte eine Matrix (70) aus Bildelementen mit vordefinierten Abständen bilden, und wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird;
b) Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
gekennzeichnet durch:
c) Definieren (52) jener Ausgangspunkte (76, 78) als vertikal bzw. horizontal dominant, deren vertikale und horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen;
d) Kennzeichnen (54) eines oder mehrerer Kernel (72) im Bild, wobei jeder Kernel eine Gruppe von Ausgangspunkten (74) in festgelegter gegenseitiger Nähe umfasst, und wobei es...

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft im Allgemeinen automatisches Sortieren und insbesondere das automatische Lokalisieren von Text oder anderen wohldefinierten Merkmalen in sortiertem Material.
GRUNDLAGEN DER ERFINDUNG

Ein nach dem Stand der Technik wohlbekanntes, kritisches Problem in automatischen Sortiersystemen ist das Lokalisieren gewünschter Felder auf der Oberfläche eines Objektes, dessen Bild erfasst und analysiert wird. Normalerweise haben die Felder eine festgelegte visuelle Struktur mit einer geometrischen Komponente, beispielsweise ein Textfeld, das Sätze alphanumerischer Zeichen in einer im Wesentlichen linearen Anordnung umfasst. Im Kontext der vorliegenden Patentanmeldung und in den Ansprüchen wird ein solches Feld als strukturiertes Feld bezeichnet. In der Patentschrift DE 19536170 A1 wird ein Verfahren offenbart das anhand der Graustufenunterschiede von benachbarten Pixeln einer Zeile bzw. Spalte ein solches strukturiertes Feld lokalisiert. Jedoch handelt es sich dabei um ein langsames und rechenintensives Verfahren, denn es wird jeder einzelne Pixel des Bildes untersucht.

Weitere vorhandene Lösungen für dieses Problem sind in den Patentschriften US 5,103,489 A , US 5,181,255 A , WO 95/24278 A1 und WO 97/09691 A1 offenbart. Sie umfassen als einen ersten Schritt die Binarisierung (binarization) eines Bildes, wobei ein Graustufenbild zuerst in eine binäre Form umgesetzt wird und wobei im Falle einer Textsuche als zweiter Schritt eine anwendungsabhängige Heuristik (domain-oriented heuristics) verwendet wird. Ein Beispiel für diese Lösung wird in einem Artikel mit dem Titel "Postal Address Block Location in Real Time" von Palumbo et al., im Juli 1992, Ausgabe von Computer, beschrieben, der durch Bezugnahme hierin aufgenommen ist.

Obwohl die Binarisierung von Bildern eine schnelle Verarbeitung großer Mengen von Bilddaten ermöglicht, haben Binarisierung enthaltende Verfahren mehrere Nachteile, da keine perfekte Binarisierung bekannt ist.

Infolgedessen werden einige Bildfelder, nach denen gesucht wird, durchweg gelöscht, da die Binarisierung die verfügbaren Informationen über das Bild verringert. Außerdem wird für die Binarisierung großer Bilder, zum Beispiel für Bilder von Postpaketen, viel Zeit benötigt.

Bei der Suche nach einem Textfeld, beispielsweise einem Adressblock in einem automatischen Paketsortiersystem, muss das Textfeld stets gefunden werden, andernfalls schlägt der gesamte Sortiervorgang fehl. Außerdem muss die Anzahl falsch identifizierter Blöcke möglichst gering sein, um nicht zu viel Arbeit für die restlichen Module des Sortiersystems zu erzeugen.

ZUSAMMENFASSUNG DER ERFINDUNG

Eine Aufgabe einiger Aspekte der vorliegenden Erfindung ist die Bereitstellung eines differenzierten und schnellen Verfahrens und einer entsprechenden Vorrichtung zum Lokalisieren strukturierter Felder in einem Graustufenbild, ohne dass es einer Binarisierung des Bildes bedürfte.

Eine weitere Aufgabe einiger Aspekte der vorliegenden Erfindung ist die Bereitstellung eines differenzierten und schnellen Verfahrens und einer entsprechenden Vorrichtung zum Lokalisieren von Textfeldern in einem Graustufenbild, ohne dass es einer Binarisierung des Bildes bedürfte.

Eine Aufgabe einiger Aspekte der vorliegenden Erfindung ist die Bereitstellung eines verbesserten Verfahrens und einer Vorrichtung zum automatischen Sortieren von Post.

In bevorzugten Ausführungsformen der vorliegenden Erfindung wird ein Graustufenbild eines Objektes mit einem oder mehreren strukturierten Feldern, vorzugsweise Textfeldern, erzeugt. Vorzugsweise wird das Bild von einem System zur Zeilenbilderzeugung (line imaging system) erzeugt, und das erzeugte Bild wird binarisiert und in digitaler Form zu einer Zentraleinheit übertragen. Die Zentraleinheit umfasst vorzugsweise spezielle Hardware, die eine unten ausführlicher beschriebene erste und eine zweite Verarbeitungsstufe enthält, die das binarisierte Bild sequenziell in Echtzeit bearbeiten. Alternativ umfasst die Verarbeitungseinheit eine Mischung aus spezieller Hardware und allgemeinen, softwaregesteuerten Computerelementen. Nachdem das binarisierte Bild in den Stufen bearbeitet wurde, legt die Verarbeitungseinheit Bereiche im Bild fest, wo die Ergebnisse anzeigen, dass dort gemäß in den Verarbeitungsstufen enthaltenen, zuvor festgelegten Bedingungen Textfelder sind.

In einigen bevorzugten Ausführungsformen der vorliegenden Erfindung werden die binarisierten Bilddaten des Objektes von der ersten Verarbeitungsstufe verarbeitet, die Bereiche des Bildes erkennt, die mit hoher Wahrscheinlichkeit Text enthalten, der hierin als "Textkernel" (text kernel) bezeichnet wird. Vorzugsweise arbeitet der Algorithmus mit einer Matrix aus Bildelementen, die hierin als "Ausgangspunkte" (anchor points) bezeichnet werden, die durch festgelegte Abstände voneinander getrennt sind. Positionen von Textkerneln werden durch die hierin als "dominante Punkte" bezeichneten Lokalisierungspunkte (locating points) festgelegt, die sich um die Ausgangspunkte herum befinden, die im Vergleich zu horizontal oder vertikal angrenzenden Punkten erhebliche Grauwertunterschiede aufweisen. Bereiche um die Textkernel werden analysiert, und jene, bei denen die Verarbeitungsstufe feststellt, dass sie mit hoher Wahrscheinlichkeit Text enthalten, werden zusammen gruppiert.

Die erste Stufe endet durch das Erstellen einer ersten Abbildung von Textbereichen ausgehend von den Textkerneln.

Die Ausgabe der ersten Verarbeitungsstufe wird von der zweiten Verarbeitungsstufe verarbeitet, wobei die in der ersten Stufe gefundenen Textbereiche analysiert und weiter verbessert werden. Vorzugsweise werden jedem der Textbereiche seine Ausgangspunkte erneut zugeordnet, so dass die Ausgangspunkte durch Abstände getrennt sind, die im Wesentlichen geringer als in der ersten Stufe sind. Vorzugsweise ist die Trennung der Ausgangspunkte für die zweite Stufe halb so groß wie die Trennung der ersten Stufe. Wie für die erste Stufe beschrieben wurde, werden Bereiche gekennzeichnet, die mit hoher Wahrscheinlichkeit Text enthalten. Die zweite Stufe endet mit der Ausgabe von Positionen interessierender Bereiche (ROI), die wahrscheinlich Text enthalten, zusammen mit einer zugeordneten Rangordnung für jeden ROI, die gemäß geometrischen Eigenschaften des ROI erstellt wurde.

In einigen bevorzugten Ausführungsformen der vorliegenden Erfindung umfasst das Graustufenbild ein Bild eines Objektes, beispielsweise eines Paketes, das zur Postzustellung sortiert werden muss. Vorzugsweise läuft das Paket auf einem Förderbandsystem (conveyer belt system), das Mittel zum Sortieren von Paketen in geeignete Gruppen umfasst. Beispielsweise kann das Förderbandsystem Pakete in jene ohne identifizierte Textfelder, jene mit einem Textfeld und jene mit mehreren möglichen Textfeldern sortieren. Alternativ werden andere nach dem Stand der Technik bekannte Sortierverfahren verwendet. Nachdem auf dem Paket gemäß der obigen Beschreibung Bereiche festgestellt wurden, die Textfelder enthalten, wird das Paket von der mit dem Sortiersystem arbeitenden Verarbeitungseinheit in die entsprechende Gruppe einsortiert. Das Textfeld wird sodann gelesen und ausgewertet, vorzugsweise unter Verwendung eines nach dem Stand der Technik bekannten optischen Zeichenerkennungsalgorithmus, und das Paket wird zur Zustellung entsprechend weitergeleitet.

Die vorliegende Erfindung ermöglicht ein schnelles Erkennen von Feldern in einem Bild, die wohldefinierte Richtungseigenschaften haben, mit einer wesentlich höheren Genauigkeit und mit wesentlich weniger falsch identifizierten Blöcken im Vergleich zu nach dem gegenwärtigen Stand der Technik bekannten Verfahren.

Daher wird gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ein Verfahren zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes bereitgestellt, das Folgendes enthält:
Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird;
Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
Definieren jener Ausgangspunkte als vertikal bzw. horizontal dominant, deren vertikale und horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen;
Kennzeichnen eines oder mehrerer Kernel im Bild, wobei jeder Kernel eine Gruppe von Ausgangspunkten in festgelegter gegenseitiger Nähe umfasst und eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte in der Gruppe betrifft; und
Lokalisieren des strukturierten Feldes im Bild unter Verwendung des einen oder mehrerer Kernel.

Vorzugsweise enthält das strukturierte Feld ein alphanumerisches Textfeld.

Alternativ enthält das Textfeld ein Adressfeld in einem gesendeten Objekt.

Vorzugsweise enthält das Verfahren das Sortieren des Objektes auf das lokalisierte, strukturierte Feld hin.

Vorzugsweise enthält das Auswählen der Vielzahl von Ausgangspunkten das Auswählen der Ausgangspunkte, so dass sie sich an den Scheitelpunkten kongruenter benachbarter Rechtecke befinden.

Vorzugsweise enthält das Lokalisieren des strukturierten Feldes das Unterteilen des Bildes in eine Vielzahl von Bereichen und das Suchen eines oder mehrerer Bereiche, die in Bezug auf andere der Bereiche eine große Anzahl Kernel enthalten.

Alternativ enthält das Suchen des einen oder mehrerer Bereiche die Zuweisung eines Rangordnungsgrades zu jedem der Bereiche, der eine Wahrscheinlichkeit anzeigt, dass der Bereich eine gewünschte Eigenschaft hat.

Alternativ enthält die Zuweisung des Rangordnungsgrades außerdem die Auswertung von Kerneln in Randbereichen, die an einen oder mehrere Bereiche angrenzen.

Alternativ enthält die Zuweisung des Rangordnungsgrades die Zuweisung einer Rangordnung auf die jeweilige Anzahl vertikal dominanter Punkte und horizontal dominanter Punkte in dem einen oder den mehreren Bereichen hin.

Alternativ enthält das Lokalisieren des strukturierten Feldes außerdem die Verwendung eines sich wiederholenden Suchverfahrens (iterative location method), das Folgendes beinhaltet: Auswählen zusätzlicher Ausgangspunkte in dem einen oder den mehreren Bereichen und Wiederholen der Schritte des Feststellens der horizontalen und vertikalen Abweichungen in Bezug auf die zusätzlichen Ausgangspunkte, Definieren der vertikal und horizontal dominanten Punkte und Kennzeichnen des einen oder der mehreren Kernel.

Alternativ enthält das Auswählen der zusätzlichen Ausgangspunkte das Auswählen von Ausgangspunkten, die näher beieinander liegen als die Ausgangspunkte außerhalb des einen oder der mehreren Bereiche.

Vorzugsweise beinhaltet die erste vordefinierte Bedingung, dass die vertikale Abweichung über einer festgelegten Schwelle liegt und die horizontale Abweichung um einen festgelegten Faktor überschreitet.

Vorzugsweise beinhaltet die zweite vordefinierte Bedingung, dass die horizontale Abweichung über einer festgelegten Schwelle liegt und die vertikale Abweichung um einen festgelegten Faktor überschreitet.

Vorzugsweise beinhaltet die dritte vordefinierte Bedingung, dass es mindestens einen vertikal dominanten Punkt und mindestens einen horizontal dominanten Punkt innerhalb der Gruppe gibt.

Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird außerdem ein Verfahren zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes bereitgestellt, das Folgendes enthält:
Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird;
Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
Definieren jener Ausgangspunkte als vertikal dominant, deren vertikale Abweichungen ihre horizontalen Abweichungen um einen vordefinierten Faktor überschreiten, und jener Ausgangspunkte als horizontal dominant, deren horizontale Abweichungen ihre vertikalen Abweichungen um einen vordefinierten Faktor überschreiten; und
Lokalisieren des strukturierten Feldes im Bild auf die Positionen von mindestens einigen der vertikal dominanten und horizontal dominanten Ausgangspunkte hin.

Vorzugsweise beinhaltet das Lokalisieren des strukturierten Feldes das Lokalisieren eines Textfeldes.

Alternativ beinhaltet das Lokalisieren des strukturierten Feldes das Suchen eines Bereichs des Bildes, der eine Mischung aus horizontal und vertikal dominanten Ausgangspunkten enthält.

Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird außerdem ein Verfahren zum Sortieren eines Objektes bereitgestellt, das mit Informationen in einem darauf befindlichen strukturierten Feld markiert ist, wobei das Verfahren Folgendes beinhaltet:
Erfassen eines Graustufenbildes des Objektes;
Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird;
Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
Definieren jener Ausgangspunkte als vertikal oder horizontal dominant, deren vertikale bzw. horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen;
Kennzeichnen eines oder mehrerer Kernel im Bild, wobei jeder Kernel eine Gruppe von Ausgangspunkten in festgelegter gegenseitiger Nähe umfasst und eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte in der Gruppe betrifft;
Lokalisieren des strukturierten Feldes unter Verwendung des einen oder der mehreren Kernel;
Entschlüsseln von in den strukturierten Feldern enthaltenen Informationen; und
Weiterleiten des Objektes auf die entschlüsselten Informationen hin.

Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird außerdem eine Vorrichtung zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes bereitgestellt, die Folgendes enthält:
eine Bilderfassungseinheit, die das Graustufenbild des Objektes bildet; und
eine Bildverarbeitungseinheit, die:
eine Vielzahl von Ausgangspunkten im Bild auswählt;
jedem Ausgangspunkt einen Graustufenwert zuordnet;
für jeden Ausgangspunkt eine horizontale Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und eine vertikale Abweichung feststellt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
jene Ausgangspunkte als vertikal bzw. horizontal dominant definiert, deren vertikale bzw. horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen;
ein oder mehrere Kernel im Bild kennzeichnet, wobei jeder Kernel eine Gruppe von Ausgangspunkten in festgelegter gegenseitiger Nähe enthält und eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte in der Gruppe betrifft; und
das strukturierte Feld im Bild unter Verwendung des einen oder mehrerer Kernel lokalisiert.

Vorzugsweise enthält das strukturierte Feld ein alphanumerisches Textfeld.

Alternativ enthält das Textfeld ein Adressfeld in einem gesendeten Objekt.

Alternativ enthält die Vorrichtung außerdem einen Objektsortierer, der das Objekt auf das lokalisierte, strukturierte Feld hin einsortiert.

Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird außerdem eine Vorrichtung zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes bereitgestellt, die Folgendes enthält:
eine Bilderfassungseinheit, die das Graustufenbild des Objektes bildet; und
eine Bildverarbeitungseinheit, die:
eine Vielzahl von Ausgangspunkten im Bild auswählt;
jedem Ausgangspunkt einen Graustufenwert zuordnet;
für jeden Ausgangspunkt eine horizontale Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und eine vertikale Abweichung feststellt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
jene Ausgangspunkte als vertikal dominant definiert, deren vertikale Abweichungen ihre horizontalen Abweichungen um einen vordefinierten Faktor überschreiten, und jene Ausgangspunkte als horizontal dominant, deren horizontale Abweichungen ihre vertikalen Abweichungen um einen vordefinierten Faktor überschreiten; und
das strukturierte Feld im Bild auf die Positionen von mindestens einigen der vertikal dominanten und horizontal dominanten Ausgangspunkte hin lokalisiert.

Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird außerdem eine Vorrichtung zum Sortieren eines Objektes bereitgestellt, das mit Informationen in einem darauf befindlichen strukturierten Feld markiert wird, wobei die Vorrichtung Folgendes enthält:
eine Bilderfassungseinheit, die das Graustufenbild des Objektes bildet; und
eine Bildverarbeitungseinheit, die:
eine Vielzahl von Ausgangspunkten im Bild auswählt;
jedem Ausgangspunkt einen Graustufenwert zuordnet;
für jeden Ausgangspunkt eine horizontale Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und eine vertikale Abweichung feststellt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist;
jene Ausgangspunkte als vertikal oder horizontal dominant definiert, deren vertikale bzw. horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen;
ein oder mehrere Kernel im Bild kennzeichnet, wobei jeder Kernel eine Gruppe von Ausgangspunkten in festgelegter gegenseitiger Nähe enthält und eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte in der Gruppe betrifft;
das strukturierte Feld im Bild unter Verwendung des einen oder mehrerer Kernel lokalisiert;
im strukturierten Feld enthaltene Informationen entschlüsselt; und
einen Objekt-Router (object router), der das Objekt auf die entschlüsselten Informationen hin weiterleitet.

Die vorliegende Erfindung wird besser mit der folgenden ausführlichen Beschreibung der bevorzugten Ausführungsformen davon verstanden, wenn sie zusammen mit den Zeichnungen gelesen wird, in denen:

KURZE BESCHREIBUNG DER ZEICHNUNGEN

1 eine schematische perspektivische Zeichnung ist, die ein Paketsortiersystem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt;

2A bis 2F sind Bilder, die aufeinanderfolgende Stufen der Analyse eines Bildes im System von 1 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung schematisch darstellen;

3 ein Flussdiagramm ist, das eine erste Verarbeitungsstufe schematisch darstellt, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung beim Lokalisieren von Textfeldern in einem Bild verwendet wird;

4 ein schematisches Diagramm ist, das Punkte in einem Bild zeigt, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung beim Festlegen eines Textkernels verwendet werden;

5 ein schematisches Diagramm ist, das Bereiche zeigt, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung innerhalb eines Textkernels in einem Bild analysiert werden;

6 ein Flussdiagramm ist, das eine zweite Verarbeitungsstufe schematisch darstellt, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung beim Lokalisieren von Textfeldern in einem Bild verwendet wird;

die 7A und 7B Flussdiagramme sind, die einen Prozess schematisch darstellen, der gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung beim Festlegen eines Vertrauenswertes eines in einem oder mehreren der Schritte von 6 gefundenen Textfeldes enthalten ist; und

8 ein Flussdiagramm ist, das ein Verfahren zur Zuordnung von Rangordnungen zu Textfeldern gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt, die in einem letzten Schritt von 6 gefunden wurden.

AUSFÜHRLICHE BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM

Nun wird Bezug auf 1 genommen, die eine schematische perspektivische Ansicht eines Sortiersystems 10 mit Förderband ist, das so arbeitet, dass es gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung Textblöcke auf einem Paket 11 sucht und analysiert. Vorzugsweise umfasst das System 10 eine Zeilenabbildungskamera (live imaging camera) 12, beispielsweise eine von Dalsa Inc. von Waterloo, Ontario, Kanada, hergestellte CL-C8-6000A oder eine von Accusort Systems Inc., von Telford, Pennsylvania, hergestellte AV3656, und eine Verarbeitungseinheit 14. Die Kamera 12 erzeugt ein Graustufenbild einer Seite 18 des Paketes 11, vorzugsweise mittels einer nach dem Stand der Technik bekannten push-broom Technik (push-broom technique). Die Seite 18 umfasst mindestens ein Feld 16, in dem sich Text befindet. Vorzugsweise befindet sich das Paket 11 zum Sortieren auf einem Förderband 20 in einer kleinen Posteinrichtung.

Das von der Kamera 12 erzeugte Bild wird zur Verarbeitungseinheit 14 übertragen, wo das Bild analysiert wird, um interessierende Bereiche (ROIs) der Seite 18 mit vorhandenem Text festzustellen. Vorzugsweise wird die Feststellung von ROIs mit Text in einem Prozessor 13 der ersten Stufe zur allgemeinen Suche (first, general search, stage processor) ausgeführt, auf den ein Prozessor 15 der zweiten Stufe zur speziellen Suche (second, spezific locator, stage processor) folgt, der das Bild verarbeitet. Vorzugsweise sind die Prozessoren 13 und 15 in Softwaremodulen enthalten, die in der zuvor in die Einheit 14 geladenen Software enthalten sind. Alternativ sind die Prozessoren 13 und 15 spezielle Verarbeitungseinheiten. Es ist jedoch klar, dass das hierin an späterer Stelle beschriebene Verfahren zum Kennzeichnen der Textblöcke ebenso auf Bilder, die von irgendeinem anderen geeigneten Mittel erhalten wurden, und unter Verwendung anderer nach dem Stand der Technik bekannter Verarbeitungsarchitekturen, darunter allgemeine programmierbare Komponenten und/oder spezielle Hardwarekomponenten, angewandt werden kann. Die Funktionsweise des Prozessors der ersten Stufe und des Prozessors der zweiten Stufe wird weiter unten ausführlich beschrieben.

Die 2A bis 2F sind Bilder, die fortschreitende Stufen der Analyse eines Bildes des Paketes 11 im System 10 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung schematisch darstellen. Auf die Bilder von den 2A bis 2F wird in der folgenden Beschreibung der Funktionsweise des Systems Bezug genommen. Ein Beispiel eines typischen, von der Kamera 12 erzeugten Graustufenbildes wird als Schwarzweißzeichnung in 2A gezeigt. Ein Rechteck 30 zeigt die Grenzen des Graustufenbildes. Der Klarheit wegen wird die Position einer Adressenbezeichnung 32 auf dem Paket 11 in 2A durch ein schwarz umrandetes Rechteck angezeigt.

In der folgenden Beschreibung der Funktionsweise des Systems werden numerische Werte für Parameter angegeben, die von der Verarbeitungseinheit 14 verwendet werden, wenn die Kamera 12 eine CL-C8-600A oder eine AV3656 ist, die verschiedene optische Eigenschaften haben. Vorzugsweise ist die Kamera 12 so konfiguriert, dass sie Bilder erzeugt, die rechteckige Bildelementmatrices (arrays of pixels) bei Auflösungen im Bereich von 200 Bildelementen pro 2,54 cm auf der Paketoberfläche umfassen.

3 ist ein Flussdiagramm, das eine erste Verarbeitungsstufe zeigt, die von einem Prozessor 13 der ersten Stufe ausgeführt wird, wobei gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung eine allgemeine Suche nach Text-ROIs ausgeführt wird. Der Schritt 52 ist eine die Dominanz feststellender Schritt, wobei eine erste Vielzahl von hierin als Ausgangspunkte bezeichneten Bildelementen {(i, j)}, von denen jeder eine entsprechende Intensität Iij hat, aus dem Bild ausgewählt wird. Vorzugsweise befindet sich die Vielzahl von Ausgangspunkten an den Scheitelpunkten kongruenter, benachbarter Rechtecke, die durch einen festgelegten Vektor (sx, sy) definiert werden. Beispielsweise haben wir festgestellt, dass (sx, sy) = (6, 6) in der hierin weiter oben beschriebenen Bildkonfiguration sehr gute Ergebnisse zum Sortieren von Postpaketen liefert.

Für jeden Ausgangspunkt werden die folgenden Berechnungen ausgeführt:

wobei Δ hor / ij als horizontale Abweichung bezeichnet wird und

wobei Δ ver / ij als vertikale Abweichung bezeichnet wird und wobei Δx und Δy festgelegte x- bzw. y-Verschiebungen sind.

Ein Punkt (i, j) wird hier als horizontal dominant betrachtet, falls:
Entweder

oder

oder sowohl die Bedingung (3) als auch die Bedingung (4) wahr sind, wobei N ein zuvor festgelegter Wert ist, der in Abhängigkeit von dem durch die Bildquantisierung (image quantization) erzeugten Rauschen gesetzt wird, und τ ein zuvor festgelegter Wert ist, der in Abhängigkeit vom Bildkontrast gesetzt wird. T1 und T2 entsprechen einem ersten bzw. einem zweiten zuvor festgelegten Verstärkungsgrenzwert und werden zum Kompensieren kontrastschwacher Bilder verwendet. Beim System 10 von 1 sind die Werte von (τ, N, T1, T2) beispielsweise für die Kamera CL-C8-6000A vorzugsweise (4, 20, 3, 15) und für die Kamera AV3656 (3, 16, 3, 15). Folglich ist ein Punkt beispielsweise horizontal dominant, falls er auf einer vertikalen Linie liegt, da solche Linien große Werte horizontaler Abweichung, Δ hor / ij, und kleine Werte vertikaler Abweichung, Δ ver / ij, aufweisen.

Ein Punkt (i, j) wird hierin als vertikal dominant betrachtet, falls:
Entweder

oder

oder sowohl die Bedingung (5) als auch die Bedingung (6) wahr sind. Es ist klar, dass ein Punkt vertikal dominant ist, falls er auf einer horizontalen Linie Liegt, da solche Linien große Werte vertikaler Abweichungen, Δ ver / ij, und kleine Werte horizontaler Abweichungen, Δ nor / ij, aufweisen. Falls ein Punkt gemäß der hierin verwendeten Definition weder vertikal dominant noch horizontal dominant ist, wird angenommen, dass er ein Hintergrundpunkt ist.

Nach der Feststellung vertikal und horizontal dominanter Punkte gemäß der obigen Beschreibung werden die Werte dieser Punkte zur ersten Feststellung von Text-ROIs weiter zum Schritt 54 übertragen. 2B ist beispielsweise eine Darstellung horizontal dominanter Punkte, und 2C ist eine Darstellung vertikal dominanter Punkte, die dem Bild von 2A nach Durchlaufen des Schrittes 52 entsprechen.

Im Schritt 54 erfolgt eine erste Beurteilung von wahrscheinlich Text enthaltenden Positionen im Bild, die hierin als Textkernel bezeichnet werden. Im Allgemeinen enthält Text sowohl horizontal dominante als auch vertikal dominante Punkte in ungefähr gleichen Werten, so dass:
Ein Textkernel hierin als ein Satz von Ausgangspunkten definiert wird, so dass es für jeden Punkt mindestens einen horizontal dominanten Punkt (i', j') und mindestens einen vertikal dominanten Punkt (i'', j'') gibt, so dass: |i – i'| + |j – j'| ≤ k and |i – i''| + |j – j''|≤ k' (7)wobei k und k' zuvor festgelegte ganze Zahlen sind, die eine Größe einer Umgebung um einen Textkernel definieren.

Gemäß der obigen Definition enthält ein Textkernel folglich mindestens einen horizontal dominanten Punkt und mindestens einen vertikal dominanten Punkt.

4 stellt eine Matrix 70 von Ausgangspunkten in einem Bild dar, in dem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ein typischer Textkernel 72 erkannt wird, wobei k = 1 und k' = 2. Eine Matrix von Ausgangspunkten 70 umfasst einen Ausgangspunkt 74 mit den Koordinaten (i, j). Ein Punkt 76 mit den Koordinaten (i, j + 1) ist horizontal dominant, und ein Punkt 78 mit den Koordinaten (i – 2, j) ist vertikal dominant. Da ein Bereich 72 um den Punkt 74 herum einen vertikal dominanten und einen horizontal dominanten Punkt umfasst, ist der Bereich 72 ein Textkernel. 2D stellt beispielsweise Textkernelpositionen dar, die nach dem Durchgang des Bildes von 2A durch den Schritt 54 gefunden wurden.

Nach der Feststellung von Textkerneln gemäß der obigen Beschreibung werden die Werte von Positionen von Textkerneln und von horizontal und vertikal dominanten Punkten zum Schritt 56 (3) übertragen, in dem eine erste Auswertung erfolgt, ob ein rechteckiger Bereich des Bildes Text umfasst. Vorzugsweise wird das Bild in eine Vielzahl rechteckiger Felder mit der Größe m × n Bildelemente unterteilt, wobei m und n zuvor festgelegte ganze Zahlen sind. Es wurde festgestellt, dass m = n = 16 gute Ergebnisse liefert. Jedes Feld wird entsprechend der Anzahl von im Feld enthaltenen horizontal dominanten Punkten (N_h1), vertikal dominanten Punkten (N_v1) und Textkernelpunkten (N_k1) als Text enthaltend oder nicht enthaltend klassifiziert. Von einem Feld wird angenommen, dass es Text enthält, falls Nh1 > 0 and Nv1 > 0 and Nk1 > 0 (8)wahr ist. Falls die Gleichung (8) nicht erfüllt wird, wird von dem Feld angenommen, dass es keinen Text enthält. Alle Textfelder werden gemäß einem im Folgenden definierten "Gruppierungs"-Kriterium in ROIs gruppiert:
Falls zwei Textfelder eine gemeinsame horizontale Grenze oder eine gemeinsame vertikale Grenze haben, wird angenommen, dass die beiden Textfelder im selben ROI enthalten sind.

Positionen von Text enthaltenden Feldern, wie sie im Schritt 56 festgestellt wurden, werden zum Schritt 58 übertragen, in dem eine zweite Auswertung erfolgt, ob Bereiche, die die jeweiligen Felder enthalten und umgeben, Text umfassen, wie hierin weiter unten beschrieben wird.

5 stellt die im Schritt 56 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung überprüften Bereiche dar. In der folgenden Beschreibung ist ein Ausdruck der Form min (a, b, c, ...) äquivalent zum Minimum des Satzes von Werten a, b, c, ..., und ein Ausdruck der Form max (a, b, c, ...) ist äquivalent zum Maximum des Satzes von Werten a, b, c, .... Ein rechteckiger Bereich 80 im Bild (der Klarheit wegen von einer dicken Linie umgeben), der im Schritt 56 als Text enthaltend ausgewählt wurde, wird intern in eine Vielzahl kongruenter Rechtecke 82 unterteilt. Vorzugsweise ist die Form der Unterteilung so, dass vier Rechtecke 82 entstehen. Außerhalb des Feldes 80 und an dessen Seiten angrenzend wird eine weitere Vielzahl von Rechtecken 84 gebildet, deren Abmessungen im Wesentlichen ähnlich wie die der Rechtecke 82 sind. Um jedes Rechteck 82 und 84 wird ein Bereich der Größe m x n Bildelemente überprüft, um das jeweilige Rechteck als Text enthaltend oder keinen Text enthaltend zu klassifizieren. Beispielsweise wird ein Bereich 88 um ein Rechteck 86 überprüft.

Jedes Rechteck 82 und 84 wird gemäß der folgenden Parameter als Text enthaltend oder keinen Text enthaltend klassifiziert:

1. Anzahl horizontal dominanter Punkte (N_h2) und vertikal dominanter Punkte (N_v2) im m × n großen Bereich im Zentrum des Rechtecks; und
2. Anzahl von Textkernelpunkten (N_k2) im m × n großen Bereich im Zentrum des Rechtecks.

Aufgrund dieser Parameter werden die folgenden Kriterien verwendet, um festzustellen, ob das Rechteck 82 oder 84 Text enthält:
Falls N_h2 = N_v2 = 0, wird angenommen, dass das Rechteck keinen Text enthält;
falls min (N_h2, N_v2) = 0 und N_h2 = 0, wird angenommen, dass das Rechteck keinen Text enthält;
andernfalls wird angenommen, dass das Rechteck Text enthält.

Alle Textfelder werden sodann gemäß dem bezüglich der obigen Gleichung (8) definierten Gruppierungskriterium in ROIs gruppiert.

Die Positionen der Textfelder werden zum Schritt 60 (3) übertragen, in dem aufgrund der Ergebnisse der vorhergehenden Schritte eine erste vorläufige Abbildung von Text-ROIs des Bildes erstellt wird. Die Abbildung von Text-ROIs wird sodann zu einer zweiten Stufe übertragen, die hierin weiter unten ausführlich beschrieben wird, in der genaue Merkmale und Fehlalarme erkannt werden und eine endgültige Position und eine endgültige Rangordnung jedes Text-ROI festgelegt werden.

6 ist ein Flussdiagramm, das die zweite Verarbeitungsstufe darstellt, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung im Prozessor 15 der zweiten Stufe (1) ausgeführt wird. Die in den Schritten 102, 104, 106, 108 und 110 ausgeführten Vorgänge der zweiten Stufe entsprechen abgesehen von einigen hier im Folgenden beschriebenen Unterschieden im Wesentlichen den in den Schritten 52, 54, 56, 58 bzw. 60 beschriebenen Vorgängen. Die zweite Verarbeitungsstufe führt eine zweite Iteration mit den in der ersten Stufe gefundenen Text-ROIs aus, um die Erkennung der Text-ROIs zu verbessern, um ROIs zu löschen, die falsch gekennzeichnet wurden und um den bei Beendigung der zweiten Stufe als Text-ROIs gekennzeichneten ROIs eine Rangordnung zuzuweisen.

Im Schritt 102 wird eine zweite Vielzahl von Ausgangspunkten innerhalb der in der ersten Stufe (3) gekennzeichneten Text-ROIs ausgewählt, wobei die Ausgangspunkte eine rechteckige Matrix von Punkten bilden, die durch einen Untervektor vom Vektor (sx, sy) definiert wird. Vorzugsweise entspricht der Untervektor (sx/2, sy/2). Wie hierin oben für den Schritt 52 beschrieben wurde, werden die durch die Gleichungen (1) und (2) gegebenen Berechnungen und die durch die Gleichungen (3) und (4) und die Gleichungen (5) und (6) gegebenen Bedingungen angewandt, um horizontal und vertikal dominante Punkte zu finden.

Außerdem kommen im Schritt 102 die folgenden Bedingungen hinzu:
Falls ein Punkt (i, j) horizontal dominant ist, wird er hierin als positiv dominant betrachtet, falls Δ hor / ij > 0, und als negativ dominant betrachtet, falls Δ hor / ij < 0; und falls ein Punkt (i, j) vertikal dominant ist, wird er hierin als positiv dominant betrachtet, falls Δ ver / ij > 0, und als negativ dominant betrachtet, falls Δ ver / ij < 0.

(Die Feststellungen positiv und negativ dominanter Punkte werden hierin im Folgenden verwendet, um seilartige Strukturen (rope-like textures) aus den ROIs zu entfernen.)

Nach der Feststellung vertikal und horizontal dominanter Punkte im Schritt 102, werden die Werte dieser Punkte zum Schritt 104 übertragen, in dem eine zweite spezifischere Feststellung von Textkerneln erfolgt. Die Feststellung im Schritt 104 ist ähnlich wie diejenige, die in Bezug auf den Schritt 54 der ersten Verarbeitungsstufe oben beschrieben wurde, verwendet jedoch die vom Schritt 102 bereitgestellten Informationen mit höherer Auflösung. 2E ist beispielsweise eine Darstellung von Textkernelpositionen, die nach dem Durchgang durch den Schritt 104 für das Bild von 2A gefunden wurden.

Positionswerte von Textkerneln und von horizontal und vertikal dominanten Punkten werden unabhängig davon, ob die Dominanz positiv oder negativ ist, zum Schritt 106 (6) übertragen, in dem eine zweite Auswertung erfolgt, ob ein rechteckiger Bereich des Bildes Text enthält, wie in Bezug auf den Schritt 56 der ersten Verarbeitungsstufe hierin oben definiert und beschrieben wurde. Alle Textfelder werden gemäß dem in Bezug auf die obige Gleichung (8) definierten Gruppierungskriterium in ROIs gruppiert, und die Positionen der Felder werden zum Schritt 108 übertragen.

7A und 7B sind Flussdiagramme, die Bedingungen schematisch darstellen, die gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung im Schritt 108 überprüft werden. Der Schritt 108 analysiert außerdem die im Schritt 106 gefundenen ROIs, um festzustellen, ob ein Feld ein Text-ROI ist, und um eine von vier Klassifikationen für statistische Sicherheit (confidence level classifications) davon festzustellen: kein Text, sehr zweifelhaft, zweifelhaft und sicher. Die Analyse erfolgt über eine Reihe von Entscheidungen, die von den Werten von N_k, N_h, N_h+, N_h–, N_v, N_v+ und N_v– für den analysierten ROI abhängen, wobei:

N_k: die Anzahl von Kerneln ist;
N_h: die Anzahl horizontal dominanter Punkte ist;
N_h+: die Anzahl horizontal positiv dominanter Punkte ist;
N_h–: die Anzahl horizontal negativ dominanter Punkte ist;
N_v: die Anzahl vertikal dominanter Punkte ist;
N_v+: die Anzahl vertikal positiv dominanter Punkte ist; und
N_v–: die Anzahl vertikal negativ dominanter Punkte ist.

Die Flussdiagramme der 7A uns 7B umfassen eine Reihe von Bedingungen, die den oben aufgelisteten Parametern auferlegt werden, gemäß denen jeder ROI klassifiziert und jedem eine statistische Sicherheit zugewiesen wird. Es ist klar, dass diese spezifischen Bedingungen aufgrund der spezifischen Anwendung, der Betriebsumgebung und der Hardwarekonfiguration des Systems 10 (1) empirisch ausgewählt wurden. In anderen Ausführungsformen der vorliegenden Erfindung können die diesen auferlegten Parameter und Bedingungen geändert werden, um verschiedenen Anwendungsbedürfnissen zu entsprechen, wie Fachleute verstehen werden.

Beginnend mit 7A ist eine Bedingung 120 N_k = 0 wahr, wenn im ROI keine Kernelpunkte vorhanden sind. Eine Bedingung 122 max (N_h, N_v) = 0 ist wahr, wenn im ROI keine dominanten Punkte vorhanden sind. Folglich ist höchstwahrscheinlich kein Text vorhanden, wenn die Bedingung 120 oder 122 wahr ist, und der ROI wird dementsprechend klassifiziert. Eine wahre Bedingung 124 min (N_h+, N_h–) = 0 und min (N_v+, N_v–) ≥ 10 entspricht höchstwahrscheinlich einer geraden horizontalen Linie. Eine wahre Bedingung 126 min (N_v+, N_v–) = 0 und min (N_h+, N_h–) ≥ 10 entspricht höchstwahrscheinlich einer geraden vertikalen Linie. Falls irgendeine der Bedingungen 120, 122, 124 oder 126 wahr ist, wird der statistischen Sicherheit eine vierte (niedrigste) Klassifikation von "Kein Text" zugeordnet.

Eine Bedingung 128 min (N_v+, N_v–, N_h+, N_h–) ≤ 1 ist wahr, wenn die Anzahl positiv oder negativ dominanter Punkte sehr gering ist, wohingegen festgestellt wurde, dass Text-ROIs normalerweise meist höhere Anzahlen dieser Punkte aufweisen. Eine Bedingung 130 min (N_h+, N_h–) + min (N_v+, N_v–) ≤ 2 und max (N_h+, N_h–) + max (N_v+, N_v–) ≥ 15 ist wahr, wenn die Punkte im Vergleich zu typischen, ausgeglicheneren Werten, die für Text-ROIs gefunden wurden, zuviel Ausrichtung (horizontal oder vertikal) von Bildmerkmalen im ROI zeigen. Falls die Bedingung 128 oder die Bedingung 130 wahr ist, wird der statistischen Sicherheit eine dritte Klassifikation "Sehr zweifelhaft" zugeordnet.

Eine Bedingung 132 (7B) min (N_h, N_v) ≤ 2 und max (N_h, N_v)≥ 10 ist wahr, falls die Punkte zuviel Richtungsorientierung (directional orientation) in beide Richtungen zeigen, wie unter Verwendung absoluter Kriterien gemessen wurde. Eine Bedingung 134 min (N_h, N_v) ≥ 2 und max (N_h, N_v) ≥ 5·min (N_h, N_v) ist wahr, falls die Punkte zuviel Richtungsorientierung in beide Richtungen zeigen, wie unter Verwendung relativer Kriterien gemessen wurde. Eine Bedingung 136 min (N_h+, N_h–) ≤ 2 und max (N_h+, N_h–) ≥ 10 ist wahr, falls die Punkte zuviel Richtungsorientierung in horizontaler Richtung zeigen, wie unter Verwendung absoluter Kriterien gemessen wurde. Eine Bedingung 138 min (N_h+, N_h–) ≥ 2 und max (N_h+, N_h–) ≥ 5·min (N_h+, N_h–) ist wahr, falls die Punkte zuviel Richtungsorientierung in horizontaler Richtung zeigen, wie unter Verwendung relativer Kriterien gemessen wurde. Eine Bedingung 140 min (N_v+, N_v–) ≤ 2 und max (N_v+, N_v–) ≥ 10 ist wahr, falls die Punkte zuviel Richtungsorientierung in vertikaler Richtung zeigen, wie unter Verwendung absoluter Kriterien gemessen wurde. Eine Bedingung 142 min (N_v+, N_v–) ≥ 2 und max (N_v+, N_v–) 5·min (N_v+, N_v–) ist wahr, falls die Punkte zuviel Richtungsorientierung in vertikaler Richtung zeigen, wie unter Verwendung relativer Kriterien gemessen wurde. Falls irgendeine der Bedingungen 132, 134, 136, 138, 140 oder 142 wahr ist, zeigen die Punkte innerhalb des ROI zuviel Orientierung, und der statistischen Sicherheit wird eine zweite Klassifikation "Zweifelhaft" zugeordnet.

Falls keine der Bedingungen 120, 122, 124, 126, 128, 130, 132, 134, 136, 138, 140 oder 142 wahr ist, wird dem ROI eine erste (höchste) Klassifikation "Sicher" zugeordnet.

Der Schritt 110 (6) empfängt die Positionen und statistischen Sicherheiten von Text-ROIs, wie sie im Schritt 108 festgestellt wurden, und klassifiziert die "sehr zweifelhaften" und "zweifelhaften" Text-ROIs erneut in "Sicher" (enthält Text) oder "Kein Text" (enthält keinen Text). Der Schritt 110 wird in den folgenden Unterschritten ausgeführt:

1. Ein "zweifelhafter" ROI mit einem "sicheren" ROI in seiner 8-Nachbarschaft, die ein Satz von Feldern ist, der hierin unten in der Gleichung (9) definiert wird, wird als ein "sicherer" ROI klassifiziert; andernfalls wird er als ein "sehr zweifelhafter" ROI klassifiziert.
2. Ein "sehr zweifelhafter" ROI mit einem "sicheren" ROI in seiner 8-Nachbarschaft oder der durch einen anderen "sehr zweifelhaften" ROI in horizontaler oder vertikaler Richtung mit einem "sicheren" ROI verbunden ist, wird als "sicherer" ROI klassifiziert.
3. Alle verbleibenden ROIs werden als "kein Text" klassifiziert.
4. Die erneute Klassifikation gemäß den Schritten 1, 2 und 3 wird gemäß dem bezüglich der obigen Gleichung (8) beschriebenen Gruppierungskriterium ausgeführt, außer dass Textkernelelemente in einem Bereich zwischen benachbarten ROIs vorhanden sein müssen.

Die 8-Nachbarschaft eines Feldes (i', j') ist ein Satz von Feldern (i, j), so dass max(|i – i'|, |j – j'|) = 1 (9)

Es wurde festgestellt, dass der Unterschritt 4 im Wesentlichen möglicherweise in Bild vorhandene seilartige Strukturen zurückweist, eindeutig getrennte Text-ROIs aufteilt und das Aufteilen korrekter ROIs verhindert.

8 ist ein Flussdiagramm, das Bedingungen schematisch darstellt, die in einem Klassifikationsschritt 112 des Prozesses von 6 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung überprüft werden. Der Schritt 112 weist jedem im Schritt 110 gefundenen "sicheren" ROT, der hierin als ROI-Bereich bezeichnet wird, bezüglich der Wahrscheinlichkeit, mit der er Text enthält, eine Rangordnung zu. Vorzugsweise verwendet der Schritt die folgenden Messwerte, um eine Rangordnung eines ROI-Bereichs zu bestimmen:

1. Anzahl von m × n Feldern im ROI-Bereich, die hierin als Rb bezeichnet werden;
2. Anzahl von horizontal dominanten Punkten, vertikal dominanten Punkten und Kernelpunkten im ROI-Bereich, die hierin als Rh, Rv bzw. Rk bezeichnet werden;
3. Breite und Höhe eines kleinsten, den ROI-Bereich enthaltenden Rechtecks, die hierin als wr und hr bezeichnet werden; und
4. Haupt- und Nebenachse einer kleinsten, den ROI-Bereich enthaltenden Ellipse, die hierin als we und he bezeichnet werden.

Die Rangordnung erfolgt über eine Reihe von die hier weiter unten beschrieben Bedingungen, die von den Werten von Rb, Rh, Rv, Rk, wr, hr, we und he abhängig sind. Wie hierin weiter oben angemerkt wurde, können die bestimmen Parameter und Bedingungen auf die Systemkonfiguration und Anwendungsbedürfnisse hin geändert werden. Die Bedingungen werden sequenziell überprüft.

Falls eine Bedingung 150 wahr ist, in der hr ≤ 2 und wr ≤ 4, wird angenommen, dass der Bereich zu klein ist, um eine Textbezeichnung zu sein, und er erhält den niedrigsten Rang 11. Falls eine Bedingung 152 wahr ist, in der Rb > 1000, wird angenommen, dass der Bereich zu groß ist, und er erhält einen Rang 10. Falls eine Bedingung 154 wahr ist, in der Rb < 30, wird angenommen, dass der Bereich zu klein ist, und er erhält einen Rang 9. Falls eine Bedingung 156 wahr ist, in der we/he > 5 und hr ≤ 8, wird angenommen, dass der Bereich zu richtungsorientiert ist, und er erhält einen Rang 8. Falls eine Bedingung 158 wahr ist, in der Rb > 500, wird angenommen, dass der Bereich zu groß ist, und er erhält einen Rang 7. Falls eine Bedingung 160 wahr ist, in der Rb < 40, wird angenommen, dass der Bereich zu klein ist, und er erhält einen Rang 6. Falls eine Bedingung 162 wahr ist, in der ein Bereich (Ellipse) – Rb > 50, wird angenommen, dass der Bereich nicht ausreichend gefüllt ist, und er erhält einen Rang 5. Falls eine Bedingung 164 wahr ist, in der max (Rh, Rv) > 3 min (Rh, Rv) oder Rk > 4 min (Rh, Rv), wird angenommen, dass der Bereich zu richtungsorientiert ist, und er erhält einen Rang 4. Falls eine Bedingung 166 wahr ist, in der wehe > 3 Rb, wird angenommen, dass der Bereich nicht ausreichend gefüllt ist, und er erhält einen Rang 3. Falls eine Bedingung 168 wahr ist, in der we/he > 3 und he ≤ 8, wird angenommen, dass der Bereich richtungsorientiert ist, und er erhält einen Rang 2. Falls keine der Bedingungen 150, 152, 154, 156, 158, 160, 162, 164, 166 oder 168 wahr ist, wird dem Bereich der höchste Rang 1 zugeordnet.

Nach der oben beschriebenen Klassifikation gibt der Prozessor 15 der zweiten Stufe (1) einen endgültigen Satz von Positionen und Dimensionen von Text-ROIs und für jeden Text-ROI einen endgültig zugeordneten Rang aus. 2F ist beispielsweise eine Darstellung von Text-ROI-Positionen 36, die von doppelten Linien umgeben sind, die nach dem Durchgang durch den Prozessor 15 der zweiten Stufe für das Bild von 2A gefunden wurden. Ein Text-ROI 34 mit dem höchsten Rang ist von einer dickeren Linie umgeben. Vorzugsweise wird die Ausgabe von einem Textprozessor 17 weiter verarbeitet oder zu einem oder mehreren zusätzlichen Verarbeitungseinheiten übertragen, in denen im Schritt 112 in den Text-ROIs gefundener Text analysiert oder decodiert wird, wobei irgendwelche nach dem Stand der Technik bekannten, geeigneten Verfahren verwendet werden, beispielsweise optische Zeichenerkennung (optical character recognition) (OCR). Alternativ oder zusätzlich wird der Ausgang vom Schritt 112 u.a. dem Förderband 20 zugeführt, um das Paket 11 korrekt weiterzuleiten.

Die Grundgedanken der vorliegenden Erfindung ermöglichen es folglich, dass Bilderzeugungssysteme Text-ROIs im Vergleich zu nach dem gegenwärtigen Stand der Technik bekannten Systemen leistungsfähiger und mit weniger falschen negativen Ergebnissen erkennen können. Obwohl die hierin beschriebene bevorzugte Ausführungsform auf das System 10 zum Sortieren von Paketen bezogen ist, ist es klar, dass die Grundgedanken der vorliegenden Erfindung ähnlich in anderen Texterkennungsanwendungen verwendet werden können.

Obwohl die bevorzugte Ausführungsform, wie sie hierin oben beschrieben wurde, eine erste und eine zweite Verarbeitungsstufe verwendet, die zum Lokalisieren von Text-ROIs mit dominanten Punkten und Textkerneln arbeiten, ist es klar, dass eine oder mehrere weitere, mit dominanten Punkten und/oder Textkerneln arbeitende Stufen zusätzlich auf Graustufenbilder angewandt werden können, um Text-ROIs zu lokalisieren. Alle solche Verarbeitungsstufen und ihre Verwendung beim Lokalisieren von Text-ROIs werden als innerhalb vom Anwendungsbereich der vorliegenden Erfindung liegend betrachtet. Außerdem werden die spezifischen Bildparameter, die im Kontext der hierin oben beschriebenen, bevorzugten Ausführungsform definiert wurden, und die auf diese Parameter angewandten Entscheidungsbedingungen und Klassifikationen beispielhaft angegeben. Fachleute sind in der Lage, Parameter, Bedingungen und Klassifikationen an die Bedürfnisse anderer Anwendungen anzupassen, auf die die vorliegende Erfindung angewandt werden kann.

Außerdem ist es klar, dass andere mit dominanten Punkten arbeitende Stufen, wie sie oben beschrieben wurden, entwickelt werden können, um andere Arten strukturierter Felder innerhalb eines Bildes, beispielsweise einen Satz diagonaler Linien, zu lokalisieren. Alle solche Stufen und ihre Verwendung beim Lokalisieren eines spezifischen strukturierten Feldes werden als innerhalb vom Anwendungsbereich der vorliegenden Erfindung liegend betrachtet. Folglich ist es klar, dass die oben beschriebenen bevorzugten Ausführungsformen beispielhaft angegeben werden und der gesamte Anwendungsbereich der Erfindung nur durch die Ansprüche begrenzt wird.

Claims

Verfahren zum Lokalisieren eines strukturierten Feldes (32) in einem Graustufenbild eines Objektes, mit den Schritten: a) Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei die Ausgangspunkte eine Matrix (70) aus Bildelementen mit vordefinierten Abständen bilden, und wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird; b) Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist; gekennzeichnet durch: c) Definieren (52) jener Ausgangspunkte (76, 78) als vertikal bzw. horizontal dominant, deren vertikale und horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen; d) Kennzeichnen (54) eines oder mehrerer Kernel (72) im Bild, wobei jeder Kernel eine Gruppe von Ausgangspunkten (74) in festgelegter gegenseitiger Nähe umfasst, und wobei es für jeden Ausgangspunkt (i, j) mindestens einen horizontal dominanten Punkt (i', j') und mindestens einen vertikal dominanten Punkt (i'', j'') gibt, so dass gilt: |i – i'| + |j – j'| ≤ k and |i – i''| + |j – j''| ≤ k' (7) wobei k und k' vorbestimmte ganze Zahlen sind, die eine Größe einer Umgebung um einen Ausgangspunkt (74) definieren, und wobei ein Kernel eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte (76, 78) in der Gruppe betrifft, und e) Lokalisieren des strukturierten Feldes (32) im Bild unter Verwendung des einen oder mehrerer Kernel (72).
Verfahren nach Anspruch 1, wobei das strukturierte Feld (32) ein alphanumerisches Textfeld umfasst.
Verfahren nach Anspruch 2, wobei das Textfeld ein Adressfeld auf einem gesendeten Objekt umfasst.
Verfahren nach Anspruch 1, das das Sortieren des Objektes entsprechend dem lokalisierten, strukturierten Feld (32) umfasst.
Verfahren nach Anspruch 1, wobei das Auswählen der Vielzahl von Ausgangspunkten das Auswählen der Ausgangspunkte umfasst, so dass sie sich an den Schnittpunkten kongruenter benachbarter Rechtecke befinden.
Verfahren nach Anspruch 1, wobei das Lokalisieren des strukturierten Feldes (32) das Unterteilen des Bildes in eine Vielzahl von Bereichen (80) und das Suchen eines oder mehrerer der Bereiche (82, 84) umfasst, die in Bezug auf andere der Bereiche eine große Anzahl Kernel enthalten.
Verfahren nach Anspruch 6, wobei das Suchen des einen oder mehrerer Bereiche die Zuweisung eines Rangordnungsgrades zu jedem der Bereiche (82, 84) umfasst, der eine Wahrscheinlichkeit anzeigt, dass der Bereich eine gewünschte Eigenschaft hat.
Verfahren nach Anspruch 7, wobei die Zuweisung des Rangordnungsgrades die Auswertung von Kerneln in Randbereichen umfasst, die an den einen oder mehrere Bereiche (82, 84) angrenzen.
Verfahren nach Anspruch 7, wobei die Zuweisung des Rangordnungsgrades die Zuweisung einer Rangordnung auf die jeweilige Anzahl vertikal dominanter Punkte (74) und horizontal dominanter Punkte (76) in dem einen oder den mehreren Bereichen (82, 84) hin umfasst.
Verfahren nach Anspruch 6, wobei das Lokalisieren des strukturierten Feldes (32) die Verwendung eines sich wiederholenden Suchverfahrens umfasst, das Folgendes beinhaltet: Auswählen zusätzlicher Ausgangspunkte in dem einen oder den mehreren Bereichen (82, 84) und Wiederholen der Schritte des Feststellens der horizontalen und vertikalen Abweichungen in Bezug auf die zusätzlichen Ausgangspunkte; Definieren der vertikal und horizontal dominanten Punkte (76, 74) und Kennzeichnen des einen oder der mehreren Kernel.
Verfahren nach Anspruch 10, wobei das Auswählen der zusätzlichen Ausgangspunkte das Auswählen von Ausgangspunkten umfasst, die näher beieinander liegen als die Ausgangspunkte außerhalb des einen oder der mehreren Bereiche.
Verfahren nach Anspruch 1, wobei die erste vordefinierte Bedingung beinhaltet, dass die vertikale Abweichung über einer zuvor festgelegten Schwelle liegt und die horizontale Abweichung um einen zuvor festgelegten Faktor überschreitet.
Verfahren nach Anspruch 1, wobei die zweite vordefinierte Bedingung beinhaltet, dass die horizontale Abweichung über einer zuvor festgelegten Schwelle liegt und die vertikale Abweichung um einen zuvor festgelegten Faktor überschreitet.
Verfahren zum Lokalisieren eines strukturierten Feldes (32) in einem Graustufenbild eines Objektes, das Folgendes umfasst: Auswählen einer Vielzahl von Ausgangspunkten im Bild, wobei jedem Ausgangspunkt ein Graustufenwert zugeordnet wird; Feststellen einer horizontalen Abweichung für jeden Ausgangspunkt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und einer vertikalen Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist; Definieren (52) jener Ausgangspunkte (76) als vertikal dominant, deren vertikale Abweichungen ihre horizontalen Abweichungen um einen vordefinierten Faktor überschreiten, und jener Ausgangspunkte (78) als horizontal dominant, deren horizontale Abweichungen ihre vertikalen Abweichungen um einen vordefinierten Faktor überschreiten; und Lokalisieren des strukturierten Feldes (32) im Bild auf die Positionen von mindestens einigen der vertikal dominanten und horizontal dominanten Ausgangspunkte hin.
Verfahren nach Anspruch 14, wobei das Lokalisieren des strukturierten Feldes (32) das Lokalisieren eines Textfeldes umfasst.
Verfahren nach Anspruch 14, wobei das Lokalisieren des strukturierten Feldes (32) das Suchen eines Bereichs des Bildes umfasst, der eine Mischung aus horizontal und vertikal dominanten Ausgangspunkten enthält.
Verfahren nach Anspruch 1, wobei die in den strukturierten Feldern enthaltenen Informationen entschlüsselt werden, und das das strukturierte Feld enthaltende Objekt auf die entschlüsselten Informationen hin weitergeleitet wird.
Vorrichtung zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes, die Folgendes umfasst: eine Bilderfassungseinheit (12), die das Graustufenbild des Objektes bildet; und eine Bildverarbeitungseinheit (14), die: eine Vielzahl von Ausgangspunkten im Bild auswählt, wobei die Ausgangspunkte eine Matrix (70) aus Bildelementen mit vordefinierten Abständen bilden; jedem Ausgangspunkt einen Graustufenwert zuordnet; für jeden Ausgangspunkt eine horizontale Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und eine vertikale Abweichung feststellt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist; jene Ausgangspunkte (76, 78) als vertikal bzw. horizontal dominant definiert (52), deren vertikale bzw. horizontale Abweichungen einer ersten oder einer zweiten vordefinierten Bedingung entsprechen; ein oder mehrere Kernel (72) im Bild kennzeichnet (54), wobei jeder Kernel eine Gruppe von Ausgangspunkten in festgelegter gegenseitiger Nähe enthält, und wobei es für jeden Ausgangspunkt (i, j) mindestens einen horizontal dominanten Punkt (i', j') und mindestens einen vertikal dominanten Punkt (i'', j'') gibt, so dass gilt: |i – i'| + |j – j'|≤ k and |i – i''| + |j – j''| ≤ k' (7)wobei k und k' vorbestimmte ganze Zahlen sind, die eine Größe einer Umgebung um einen Ausgangspunkt (74) definieren, und wobei ein Kernel (72) eine dritte vordefinierte Bedingung erfüllt, die die Anzahl vertikal dominanter und horizontal dominanter Ausgangspunkte in der Gruppe betrifft, und das strukturierte Feld (32) im Bild unter Verwendung des einen oder mehrerer Kernel lokalisiert.
Vorrichtung nach Anspruch 18, wobei das strukturierte Feld (32) ein alphanumerisches Textfeld umfasst.
Vorrichtung nach Anspruch 19, wobei das Textfeld ein Adressfeld auf einem gesendeten Objekt umfasst.
Vorrichtung nach Anspruch 18, die einen Objektsortierer umfasst, der das Objekt entsprechend dem lokalisierten, strukturierten Feld einsortiert.
Vorrichtung zum Lokalisieren eines strukturierten Feldes in einem Graustufenbild eines Objektes, die Folgendes enthält: eine Bilderfassungseinheit (12), die das Graustufenbild des Objektes bildet; und eine Bildverarbeitungseinheit (14), die; eine Vielzahl von Ausgangspunkten im Bild auswählt; jedem Ausgangspunkt einen Graustufenwert zuordnet; für jeden Ausgangspunkt eine horizontale Abweichung, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines horizontal benachbarten Ausgangspunktes abhängig ist, und eine vertikale Abweichung feststellt, die von einem Unterschied zwischen dem Graustufenwert des Ausgangspunktes und dem Graustufenwert eines vertikal benachbarten Ausgangspunktes abhängig ist; jene Ausgangspunkte als vertikal dominant definiert, deren vertikale Abweichungen ihre horizontalen Abweichungen um einen vordefinierten Faktor überschreiten, und jene Ausgangspunkte als horizontal dominant, deren horizontale Abweichungen ihre vertikalen Abweichungen um einen vordefinierten Faktor überschreiten; und das strukturierte Feld im Bild auf die Positionen von mindestens einigen der vertikal dominanten und horizontal dominanten Ausgangspunkte hin lokalisiert.
Vorrichtung nach Anspruch 19, wobei die Bildverarbeitungseinheit im strukturierten Feld enthaltene Informationen entschlüsselt; und wobei einen Objekt-Router enthalten ist, der das Objekt auf die entschlüsselten Informationen hin weiterleitet.