DE69822608T2

DE69822608T2 - Binarisierungsverfahren in einem Zeichenerkennungssystem

Info

Publication number: DE69822608T2
Application number: DE69822608T
Authority: DE
Inventors: Andrei Heilper; Yaakov Navon; Eugene Walach
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-05-28
Filing date: 1998-05-28
Publication date: 2005-01-05
Anticipated expiration: 2018-05-29
Also published as: JP3251918B2; JP2000011089A; EP0961218B1; US6438265B1; EP0961218A1; DE69822608D1

Description

56+TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft optische Zeichenerkennungssysteme (optical character recognition, OCR) und insbesondere ein neues Binarisierungsverfahren in einem solchen optischen Zeichenerkennungssystem.
HINTERGRUND DER ERFINDUNG
Die Binarisierung eingescannter Graustufenbilder wird in einem Bildanalysesystem für Dokumente wie einem optischen Zeichenerkennungssystem als erster Schritt durchgeführt. Dieses Verfahren besteht darin, dass jedes Pixel als Text oder als Hintergrund markiert wird.
Bei automatischen Paketsortiersystemen wird die Adresse von einem Graustufenbild gelesen und decodiert. Das Bild wird durch eine über dem Paket angebrachte Kamera aufgenommen, während sich das Paket auf einem Transportband vorbeibewegt. Aus naheliegenden Gründen befindet sich das System in einem großräumigen Gebäude und arbeitet unter rauen Bedingungen. Die Graustufenbilder werden durch instabile Beleuchtungsbedingungen, Verzerrungen durch Kippen und verwischte Pixel, geringen Kontrast sowie veränderliche Auflösung infolge wechselnder Pakethöhe beeinträchtigt. Darüber hinaus sind Pakete mit Kunststoffen überzogen, die Reflexionen verursachen, und mit Bändern beklebt, die das Adressfeld, Firmenzeichen, Texturen und Grafikelemente teilweise abdecken. Alle diese Einflussgrößen führen dazu, dass der Binarisierungsprozess in einem Sortiersystem sehr kompliziert wird. Die Wahl des Verfahrens mit der "besten" Binarisierung ist sehr schwierig. Um diese große Vielfalt von Bildern zu erfassen, ist ein mehrstufiges Binarisierungsverfahren erforderlich.
Bei einer Bewertung der verschiedenen Binarisierungsverfahren (siehe O. Trier et al., "Goal-directed evaluation of binarization methods", IEEE Transactions on pattern analysis and machine intelligence, Bd. 17, Nr. 12, Dezember 1995) hat sich das Niblack-Verfahren mit einem Nachbearbeitungsschritt als das beste erwiesen. Bei diesem Verfahren wird jedoch als Schwellwert ein absoluter Schwellwert angenommen, oberhalb dessen das Pixel als Text und ansonsten als Hintergrund eingeordnet wird. Dabei wird die Breite des Textstrichs nicht berücksichtigt, sodass auch Hintergrundpixel zur Ermittlung des Schwellwerts beitragen und zu einem ungenauen Schwellwert führen (siehe auch WO-A-87 03 118).
ÜBERBLICK ÜBER DIE ERFINDUNG
Die Hauptaufgabe der Erfindung besteht deshalb darin, ein Binarisierungsverfahren in einem OCR-System zu entwickeln, das eine Abschätzung des relativen Schwellwertes zwischen den Intensitäten des Texts und des Hintergrunds allein ausgehend von den Textpixeln vornimmt.
Die Erfindung betrifft daher ein Binarisierungsverfahren in einem optischen Zeichenerkennungssystem, bei welchem ein eingelesenes Graustufenbild einen zu erkennenden Text in Form von Strichen enthält, die eine mehreren Bildelementen entsprechende bekannte Strichbreite haben, wobei ein solches Verfahren die Textpixel durch pixelweises Prüfen ermittelt, ob die Differenz zwischen dem Wert jedes untersuchten Pixels und den Werten einer Vielzahl in einem bestimmten Abstand von diesem befindlicher Pixel größer als ein relativer Schwellwert ist, welcher dem Intensitätsunterschied zwischen dem Text und dem Bildhintergrund entspricht, Teilbereiche des Bildes in Schritten zu jeweils mindestens zwei Pixeln prüft, um Textkerne zu erkennen, und die Bildpixel lediglich in Textkerne enthaltenden Teilflächen mit einer Kantenlänge von mehreren Strichbreiten durch Verwendung eines in jeder Teilfläche ermittelten absoluten Schwellwertes binarisiert.
Gemäß einem wesentlichen Merkmal der Erfindung besteht der Schritt der Ermittlung der Textpixel in der pixelweisen Prüfung, ob eine der Differenzen zwischen dem Wert des untersuchten Pixels und dem wert der beiden Pixel an jedem Schnittpunkt eines Kreises mit dem Mittelpunkt an der Stelle des untersuchten Pixels und einem Radius, der gleich der Strichbreite sowohl jeder waagerechten und senkrechten Zeile als auch beider Zeilen unter einem Winkel von 45 Grad ist, größer als der relative Schwellwert ist.
Gemäß einer bevorzugten Ausführungsart der Erfindung ist der relative Schwellwert derjenige Schwellwert, der dem Ausläufer des Hauptzweigs des Histogramms entspricht, der die Anzahl der Teilflächen mit einer vorgegebenen Größe, welche vorzugsweise gleich der Strichbreite ist, angibt, die vollständig mit Pixeln gefüllt sind, welche in Abhängigkeit von einem Schwellwert als Textpixel erkannt werden, der gleich der Mindestdifferenz zwischen dem Wert des untersuchten Pixels und den werten der beiden am Schnittpunkt des Kreises mit einer der Zeilen liegenden benachbarten Pixel ist, für die die Bedingungen erfüllt sind, um ein Pixel als "Text" einzustufen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden Beschreibung unter Bezug auf die beiliegenden Zeichnungen deutlich, in denen:
1 ein zu untersuchendes Pixel und dessen acht Nachbarn zeigt, die sich am Schnittpunkt eines Kreises mit einem Radius, der gleich der Strichbreite ist, mit der waagerechten Zeile, der senkrechten Zeile und den Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeile befinden, wobei diese Pixel zur Berechnung des relativen Schwellwertes dienen, der bei dem Verfahren gemäß der Erfindung verwendet wird.
2 das Histogramm der vollständig mit Pixeln gefüllten Teilflächen als Funktion vom ermittelten relativen Schwellwert zeigt.
3 schematisch ein Bild zeigt, in dem der als Textkern zu erkennende Buchstabe L enthalten ist, wobei die Hintergrundpixel durch Punkte und die Textpixel durch "x" dargestellt sind.
4 schematisch ein Bild zeigt, in dem der in mehrere Teilflächen aufgeteilte Buchstabe L enthalten ist, die beim Binarisierungsschritt verwendet werden.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Das Binarisierungsverfahren der Erfindung setzt sich aus den folgenden Schritten zusammen:

– Suche nach Textkernen
– Beseitigung des Störlichts
– Teilflächenbinarisierung der Textkernflächen

Suche nach Textkernen
Der Text ist in einem Graustufenbild durch zwei Hauptparameter gekennzeichnet: die Strichbreite, die etwa der Schreibstiftbreite entspricht, und scharfe Intensitätssprünge an den Textkanten, die einen relativen Schwellwert definieren. Diese beiden Parameter ändern sich von Bild zu Bild und werden zuerst aus dem Graustufenbild ermittelt.
Die Ermittlung der Strichbreite beruht auf der Analyse des Zeilenprofils im Graustufenbild. Normalerweise weist der Text im Graustufenbild in Bezug auf den Hintergrund geringe Intensitätswerte auf. Entlang einer Text enthaltenen Zeile gibt es in Textnähe abrupte Veränderungen der Pixelintensität. Diese Veränderungen bilden im Pixelintensitätszeilenprofil "Löcher". Die Breite der "Löcher" wird über mehrere Zeilen des Bildes ermittelt, und der Mittelwert der Breiten ist die Strichbreite.
Die nach dieser Prozedur berechnete Strichbreite ist genau, jedoch ist diese Genauigkeit für die Binarisierungsergebnisse nicht entscheidend. Die Strichbreite wird nur für die Suche nach Textkernen benötigt. Im ungünstigsten Fall, also wenn der Text um 45 Grad gedreht ist, kann diese Genauigkeit um einen Faktor √2 schlechter als die genaue Strichbreite sein. Gemäß der folgenden Beschreibung erfolgt die Suche in verschiedenen Richtungen sowie in einem Abstand, der zwei Strichbreiten entspricht. Deshalb kann die Bedeutung der Genauigkeit der Strichbreite vernachlässigt werden.
Der relative Schwellwert ist ein wesentliches Merkmal der Erfindung und stellt den Intensitätsunterschied zwischen dem Text und dem Hintergrund dar. Dieser relative Schwellwert ändert sich von einer Zone zur anderen. Bei einer Fläche mit schwachem Kontrast ist der Schwellwert klein, während er bei einer Fläche mit starkem Kontrast groß ist. Das Prinzip der Erfindung besteht darin, ein Pixel als Text einzustufen, wenn seine Intensität geringer ist als die Intensitäten der Pixel in seiner Umgebung.
Zuerst wird das Bild in quadratische Teilflächen aufgeteilt, deren Kantenlänge einer Strichbreite entspricht, was bei der bevorzugten Ausführungsart einer Länge von vier Pixeln entspricht.
In 1 ist gezeigt, dass das Pixel 10 im Verhältnis zu seinen Nachbarpixeln geprüft wird, die sich auf einem Kreis 12 befinden, dessen Radius gleich der Strichbreite ist und in dessen Mittelpunkt sich das geprüfte Pixel 10 befindet. Diese Nachbarpixel befinden sich an den Schnittpunkten des Kreises 12 mit vier Zeilen, und zwar der waagerechten Zeile, der senkrechten Zeile und den beiden Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeile. Der Wert des mittleren Pixels wird für jede Zeile mit den Werten der beiden anderen Pixel verglichen, um zu prüfen, ob diese drei Pixel ein "Intensitätsloch" bilden, das unterhalb des relativen Schwellwert liegt. Wenn dies der Fall ist, wird das mittlere Pixel als "Text" eingeordnet.
Zur Formalisierung des obigen Prozesses kann man davon ausgehen, dass dieses Pixel bei einer Strichbreite w und einem relativen Schwellwert t mit einem Pixelwert P(x, y) an der Stelle (x, y) als "Text" eingeordnet wird, wenn die folgende Bedingung erfüllt ist:

P(x – w, y) – P(x, y) > t UND P(x + w, y) – P(x, y) > t
ODER
P(x, y – w) – P(x, y) > t UND P(x, y + w) – P(x, y) > t
ODER
P(x + d, y + d) – P(x, y) > t UND P(x – d, y – d) – P(x, y) > t
ODER
P(x – d, y + d) – P(x, y) > t UND P(x + d, y – d) – P(x, y) > t,
wobei die Koordinaten (x +/– d, y +/– d) die Koordinaten der Zeilen bei 45 und 135 Grad auf dem Kreis sind und d gleich w/√2 ist.
Die obige Suche wird mit einer Reihe von Schwellwerten t durchgeführt. Dabei werden für einen Schwellwert t die Teilflächen ermittelt, in denen alle Pixel als Text eingestuft wurden. Für eine solche Teilfläche wird ein t-min ermittelt. t-min ist die geringste Differenz zwischen dem Wert des untersuchten Pixels und den Werten seiner beiden benachbarten Pixel in einer der oben definierten Zeilen, für welche die Bedingungen für das Erkennen eines Pixels als "Text " erfüllt sind, das heißt bei denen die drei Pixel ein "Intensitätsloch" bilden. Dieser kleinste Wert dient im Histogramm als Abszisse, um den Wert N(t-min) der vollständig mit Pixeln gefüllten Teilflächen zu definieren. Ein solches Histogramm kann mehrere Zweige haben, wie in 2 zu sehen ist.
Als relativer Schwellwert wird der Ausläufer des Hauptzweigs des nach der obigen Prozedur erstellten Histogramms gewählt. Somit ist im Histogramm von 2 der gewählte relative Schwellwert t = 18 und entspricht also dem Wert t vor t = 19, bei dem N = 0 ist. Vorzugsweise wählt man den höchstmöglichen Schwellwert (obwohl man einen niedrigeren Schwellwert wählen könnte), da ein solcher Schwellwert die Bedingung für das Erkennen eines "Textpixels" verschärft. Dies führt zwar dazu, dass ein Teil der Textpixel irrtümlich als "Hintergrund" erkannt wird, jedoch werden diese wie später erläutert beim Binarisierungsschritt der Teilflächen wieder in "Text" zurückverwandelt. Wenn ein niedrigerer Schwellwert gewählt wird, können außerdem durch Störlicht verursachte Pixel als "Text" eingeordnet werden, da ein niedrigerer Schwellwert die Bedingungen für das Erkennen eines "Textpixels" aufweicht. Wenn man eine Teilfläche finden will, deren sämtliche Pixel als "Text" einzuordnen sind, stellt dies eine sehr starke Einschränkung dar, sodass man davon ausgehen kann, dass man mehr Teilflächen findet, bei denen nur ein Teil der Pixel "Text" entsprechen. Auf diese Weise werden bei diesem Verfahren nicht allzu viele Textpixel übergangen, die ohnehin bei der anschließenden Binarisierung der Teilflächen wiederhergestellt werden.
Die Suche nach Textkernen ist ein Vorbinarisierungsschritt und erfasst lediglich einen Teil der Textpixel. Ein Pixel wird als "Text" eingeordnet, wenn die im vorangehenden Abschnitt definierte Bedingung erfüllt ist. Die Werte t und w sind dann der ermittelte relative Schwellwert bzw. die ermittelte Strichbreite.
Während dieses Vorbinarisierungsschritts erfolgt die Suche entweder in Teilbildbereichen oder pixelweise im Originalbild. Im Folgenden wird davon ausgegangen, dass das in 3 gezeigte Bild ein Zeichen L mit einer Strichbreite von vier Pixeln enthält. Bei einer Teilabtastrate von 2 wird der Teilbildbereich abgetastet, indem jedes zweite Pixel geprüft und dann innerhalb jeder Zeile in Zweierschritten fortgefahren wird und die nächsten Zeilen jeweils in Zweierschritten geprüft werden, was in 3 in Zeile 0 und Zeile 2 durch Punkte dargestellt ist. Das Prüfmuster sieht daher wie folgt aus:

Zeile 0: p(0,0), p(0,2), p(0,4), p(0,6) ... p(0,26)
Zeile 2: p(2,0), p(2,2), p(2,4), p(2,6) ... p(2,26)
Zeile 4: p(4,0), p(4,2), p(4,4), p(4,6)
Da das Pixel p(4,6) als "Text" erkannt wird, wechselt der Prozess zum Originalbild, d. h., jetzt wird jedes Pixel geprüft und in Einerschritten fortgefahren.
Jedes geprüfte Pixel wird nun als "x" dargestellt. Diese geprüften Pixel, die sich als Textpixel herausstellen, befinden sich in der Zeile 4: p(4,6), p(4,7), p(4,8), p(4,9). Da jedoch das Pixel p(4,10) ein Hintergrundpixel ist, wechselt der Prozess wieder zurück zum Teilbildbereich und fährt in Zweierschritten fort:

Zeile 4: p(4,10), p(4,12) ... p(4,26)
Zeile 6: p(6,0), p(6,2), p(6,4), p(6,6)
Da das Pixel p(6,6) als "Text" eingestuft wird, wechselt der Prozess wieder zum Originalbild (Erhöhung in Einerschritten} bis zum Pixel p(6,10) und kehrt wieder zum Teilbildbereich zurück usw.
Da die meisten Pixel in einem Bild Hintergrundpixel sind, ist diese Suche zeitaufwendig. Aus diesem Grund erfolgt der Wechsel der Schrittweite von 1 auf 2 (oder mehr), wenn ein Pixel als Hintergrundpixel erkannt wird. Erst wenn ein Pixel als "Text" erkannt wird, ist es sinnvoll, jedes Pixel zu prüfen.
Im Idealfall erhält man in diesem Schritt ein binäres Bild aus Textkernen und Linien, deren Breite gleich der ermittelten Strichbreite ist. "Homogene" helle und dunkle Bereiche, d. h. größere Klebestreifen auf dem Paket, sollen nicht im Binärbild erscheinen. Ränder zwischen hellen und dunklen Bereichen wie zum Beispiel ein weißes Etikett auf einem dunklen Paket sollen nicht im Binärbild erscheinen. Der Grund hierfür wird am Beispiel eines Pixels am Rand eines schwarzen Klebestreifens und zwei seiner Nachbarpixel in derselben Zeile dargestellt. Die Intensität P(x, y) dieses Pixels ist gleich oder geringer als einer der Nachbarwerte P(x – w, y) und P(x + w, y). Wenn sich eines dieser Pixel auf dem Klebestreifen befindet, ist das andere im Hintergrund und umgekehrt. Damit ist die im vorangehenden Schritt genannte Bedingung, dieses Pixel als schwarz einzustufen, niemals erfüllt.
Beseitigung des Störlichts
Bilder werden wie oben erwähnt praktisch nie unter idealen Bedingungen aufgenommen. Die Bilder werden durch Helligkeitsunterschiede, texturierte Unterlagen, Störlicht usw. beeinträchtigt. Daher ist im vorbinarisierten Bild noch Störlicht enthalten, das beseitigt werden muss, bevor man zum nächsten Binarisierungsschritt übergeht. Hierfür werden zwei aufeinanderfolgende Schritte ausgeführt: das Entfernen von Pixeln mit hoher Intensität und anschließend das Entfernen isolierter Pixel.
Zum Entfernen der Pixel mit hoher Intensität wird das Intensitätshistogramm derjenigen Pixel analysiert, die im vorangehenden Schritt als Text erkannt wurden. Aus dieser Analyse kann man die Existenz von Hintergrundpixeln im Textkernbild ermitteln. Normalerweise haben die Pixel höhere Intensitäten als normale Textpixel und wurden irrtümlich als "Text" eingestuft. Wahrscheinlich befinden sich diese Pixel in texturierten oder "Störlicht"-Bereichen und erfüllen die Bedingung für das Erkennen eines Pixels als "Text" gemäß der obigen Beschreibung. Wenn man solche Pixel findet, werden sie aus dem binären Textkernbild entfernt, d. h., sie werden als "Hintergrund"-Pixel zurückgestuft. Diejenigen Pixel, die als Text erkannt wurden, aber von anderen Textpixeln isoliert sind, werden als Störlicht angesehen. Da der Text durch eine Strichbreite gekennzeichnet ist, geht man davon aus, das die Textkerngröße etwa der Strichbreite entspricht. Solche Pixel werden als "Hintergrund" zurückgestuft.
Teilflächenbinarisierung der Textkernflächen
In dieser Phase sind die meisten Textpixel des Bildes als "Text" eingestuft. Pixel in der Nähe von "Text"-Pixeln können entweder "Text"-Pixel oder "Hintergrund"-Pixel sein. Einige als "Text" eingestufte Pixel (Minderheit) können auch "Hintergrund"-Pixel sein. Deshalb wird eine zweite als "Teilflächenbinarisierung" bezeichnete Binarisierung durchgeführt. Die Bildfläche wird in quadratische Teilflächen mit einer Kantenlänge von mehreren Strichbreiten aufgeteilt, und nur diejenigen Teilflächen werden erneut binarisiert, welche "Text"-Pixel enthalten.
Beispielsweise wird die Bildfläche in 4 in quadratische Teilflächen mit einer Kantenlänge von 3 Strichbreiten bzw. 12 × 12 Pixeln aufgeteilt. Somit enthalten die Teilflächen 20, 24 und 26 Text (Teile des Buchstaben L) und werden erneut binarisiert, während die Teilfläche 22 keinen Text enthält und nicht noch einmal binarisiert wird.
Eine neu zu binarisierende Teilfläche wie die Teilfläche 20 enthält Textpixel (wie die in 4 durch ein "x" definierten Pixel) und Nichttextpixel in der Nähe eines Textpixels (wie die durch einen Punkt definierten Pixel). Für jede Teilfläche wie die Teilfläche 20 wird ein absoluter Schwellwert ermittelt. Die Pixel mit einem Wert unterhalb dieses Schwellwerts werden als "Text" und alle anderen als "Hintergrund" eingestuft.
Bei einer bevorzugten Ausführungsart wird der absolute Schwellwert aus den "Text"-Pixeln und aus den "Nichttext"-Pixel in der Nähe der "Text"-Pixel (im Abstand von 2 bis 3 Pixeln) der Teilfläche ermittelt. Als Schwellwert wird das arithmetische Mittel aus dem Mittelwert der "Text"-Pixelwerte und dem Mittelwert der "Nichttext"-Pixelwerte genommen.
Durch diese Binarisierung werden die Lücken in dem Textkernbild "geglättet" und ausgefüllt, welches man nach dem Schritt "Suche nach Textkernen" erhalten hat. Als "Hintergrund" eingestufte Pixel werden nun als "Text" zurückgestuft. Isolierte und Störlicht-Pixel hingegen, die irrtümlich als "Text" eingestuft worden waren, werden nun als "Hintergrund" zurückgestuft.
Vorteile des Verfahrens gemäß der Erfindung
Es gibt eine Vielzahl von Binarisierungsverfahren. Im Gegensatz zu den meisten dieser Verfahren ist das vorliegende Verfahren jedoch auf OCR-Zwecke ausgerichtet. Eine Bildvorlage für die optische Zeichenerkennung muss nämlich idealerweise sauber sein und darf nur Text enthalten. Dies ist für den Segmentierungsschritt des OCR-Prozesses von entscheidender Bedeutung, der vor dem Erkennungsschritt die Lage der Zeichen definiert.
Somit weist das vorliegende Verfahren die folgenden Vorteile auf

– Ein wesentliches Merkmal besteht in der Ermittlung des relativen Schwellwerts, welcher genauer ist, da zu seiner Ermittlung nur Textpixel beitragen.
– In dunklen Bereichen wie etwa bei Klebestreifen auf einem Paketbild weisen die Pixel eine Intensität auf, die dem Text nahe kommt. Beim vorliegenden Verfahren werden Pixel nur dann als "Text" eingestuft, wenn sie Teil einer Linie oder eines Textes einer bestimmten Strichbreite sind. Deshalb taucht ein dunkler Bereich nicht im binarisierten Bild auf, da dessen "Breite" wesentlich größer ist als die Strichbreite. Auch die Ränder des dunklen Bereichs tauchen nicht auf.
– Bei einem Bild, welches Text (zum Beispiel eine Adresse) und ein aus grafischen Elementen und fettgedrucktem Text bestehendes Firmenzeichen enthält, tauchen die meisten Teile dieses Firmenzeichens nicht im binarisierten Bild auf. Das ist bei der OCR wichtig, da die OCR-Bearbeitung von "Störlicht"-Bereichen zeitaufwendig ist und eine Vielzahl von Problemen bereitet. Zum Beispiel ist es schwierig, einen Textbereich durch OCR in Textzeilen zu segmentieren, wenn in dem binarisierten Bild Grafikelemente auftauchen.
– Bei Bildern, die Text enthalten, sind die meisten Pixel "Hintergrund"-Pixel. Um mittels dieses Verfahrens nach Textmustern zu suchen, braucht man nur einen kleinen Teil der Pixel zu prüfen. Wenn man zum Beispiel eine Teilabtastrate von 2 verwendet, werden nur wenig mehr als ein Viertel der Pixel geprüft. Beim Schritt der Teilflächenbinarisierung werden nur diejenigen Teilflächen erneut binarisiert, die Text enthalten, und man spart somit viel Zeit ein.
– Vor dem Schritt der Teilflächenbinarisierung wird in einem Schritt Störlicht entfernt, bei dem irrtümlich als "Text" eingestufte Pixel auf "Hintergrund" zurückgestuft werden. Dadurch wird die Ermittlung des absoluten Schwellwerts beim Schritt der Teilflächenbinarisierung genauer und somit die Qualität des Binärbildes verbessert.
– Bei texturiertem Hintergrund gibt es eine Vielzahl "isolierter" Pixel, welche die Bedingung für die Einstufung als "Text" erfüllt haben. Somit gibt es auch eine Vielzahl von Teilflächen, die "Text" enthalten und beim Schritt der Teilflächenbinarisierung neu binarisiert würden. Durch das Entfernen solcher Pixel wird die Bearbeitungszeit verkürzt und die Qualität des Binärbildes verbessert.

Claims

Binarisierungsverfahren in einem optischen Zeichenerkennungssystem, bei dem ein eingelesenes Graustufenbild einen zu erkennenden Text in Form von Strichen mit einer bekannten mehreren Pixeln (Bildelementen) entsprechenden Strichbreite enthält, wobei das Verfahren die folgenden Schritte umfasst: Ermitteln der Textpixel im eingelesenen Bild durch pixelweises Prüfen, ob die Differenz zwischen dem Wert jedes untersuchten Pixels und den Werten der beiden Pixel an jedem Schnittpunkt eines Kreises mit dem Mittelpunkt an der Stelle des untersuchten Pixels und einem Radius, der gleich der Strichbreite sowohl jeder waagerechten und senkrechten Zeile als auch beider Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeilen ist, größer ist als ein relativer Schwellwert, der dem Intensitätsunterschied zwischen dem Text und dem Bildhintergrund entspricht, Binarisieren der Bildpixel lediglich in Textpixel enthaltende Teilflächen mit einer Kantenlänge von mehreren Strichbreiten durch Verwendung eines in jeder Teilfläche ermittelten absoluten Schwellwertes.
Verfahren nach Anspruch 1, bei welchen der relative Schwellwert derjenige Schwellwert ist, der dem Ausläufer des Hauptzweigs des Histogramms entspricht, der die Anzahl der Teilflächen mit einer vorgegebenen Größe angibt, die vollständig mit Pixeln gefüllt sind, welche in Abhängigkeit von einem Schwellwert als Textpixel erkannt wurden, der gleich der Mindestdifferenz zwischen dem Wert des untersuchten Pixels und den Werten der beiden am Schnittpunkt des Kreises mit einer der Zeilen liegenden benachbarten Pixel ist, für die die Bedingungen des als "Text" eingeordneten untersuchten Pixels erfüllt sind.
Verfahren nach einem der Ansprüche 1 bis 2, bei welchem der absolute Schwellwert aus den Textpixeln und den textfremden Pixeln in der Nähe der Textpixel ermittelt wird, indem der arithmetische Mittelwert aus dem Mittelwert der Textpixelwerte und dem Mittelwert der textfremden Pixelwerte gebildet wird.
Verfahren nach einem der Ansprüche 1 bis 3, bei welchem der Ermittlungsschritt an einem ersten Pixel des eingelesenen Bildes ausgeführt wird und, wenn es sich bei dem ersten Pixel nicht um ein Textpixel handelt, so lange um mindestens zwei Pixel zum nächsten Pixel gesprungen und erneut ermittelt wird, ob es sich beim nächsten Pixel um Text handelt, bis ein Pixel gefunden wird, das kein Textpixel ist, und bei welchem die vorangegangenen Schritte so lange wiederholt werden, bis alle Textpixel des eingelesenen Bildes ermittelt wurden.
Verfahren nach einem der Ansprüche 1 bis 4, bei welchem der Ermittlungsschritt an den Pixeln ein und derselben Zeile ausgeführt wird und um mindestens zwei Zeilen zur nächsten Zeile gesprungen wird, wenn das letzte Pixel einer Zeile kein Textpixel ist, und im gegenteiligen Falle zur nächsten Zeile gesprungen wird.
Verfahren nach einem der Ansprüche 1 bis 5, bei welchem die im Bildbinarisierungsschritt verwendeten Teilflächen quadratische Teilflächen mit einer Seitenlänge von drei Strichbreiten sind.
Verfahren nach einem der Ansprüche 1 bis 6, welches ferner den Schritt des Entfernens von Pixeln mit hoher Intensität umfasst, nachdem alle Text-Kernbereiche ermittelt wurden und bevor der Schritt der Binarisierung der Bildpixel einsetzt, wobei der Entfernungsschritt darin besteht, dass Textpixel, deren Intensität die Intensität von normalem Text überschreitet, in Hintergrundpixel umgewandelt werden.
Verfahren nach einem der Ansprüche 1 bis 7, welches ferner den Schritt der Umwandlung von den anderen Textpixeln isolierter Pixel in Hintergrundpixel umfasst.