DE69822608T2 - Binarisierungsverfahren in einem Zeichenerkennungssystem - Google Patents

Binarisierungsverfahren in einem Zeichenerkennungssystem Download PDF

Info

Publication number
DE69822608T2
DE69822608T2 DE69822608T DE69822608T DE69822608T2 DE 69822608 T2 DE69822608 T2 DE 69822608T2 DE 69822608 T DE69822608 T DE 69822608T DE 69822608 T DE69822608 T DE 69822608T DE 69822608 T2 DE69822608 T2 DE 69822608T2
Authority
DE
Germany
Prior art keywords
text
pixels
pixel
image
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69822608T
Other languages
English (en)
Other versions
DE69822608D1 (de
Inventor
Andrei Heilper
Yaakov Navon
Eugene Walach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69822608D1 publication Critical patent/DE69822608D1/de
Publication of DE69822608T2 publication Critical patent/DE69822608T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

  • 56+TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft optische Zeichenerkennungssysteme (optical character recognition, OCR) und insbesondere ein neues Binarisierungsverfahren in einem solchen optischen Zeichenerkennungssystem.
  • HINTERGRUND DER ERFINDUNG
  • Die Binarisierung eingescannter Graustufenbilder wird in einem Bildanalysesystem für Dokumente wie einem optischen Zeichenerkennungssystem als erster Schritt durchgeführt. Dieses Verfahren besteht darin, dass jedes Pixel als Text oder als Hintergrund markiert wird.
  • Bei automatischen Paketsortiersystemen wird die Adresse von einem Graustufenbild gelesen und decodiert. Das Bild wird durch eine über dem Paket angebrachte Kamera aufgenommen, während sich das Paket auf einem Transportband vorbeibewegt. Aus naheliegenden Gründen befindet sich das System in einem großräumigen Gebäude und arbeitet unter rauen Bedingungen. Die Graustufenbilder werden durch instabile Beleuchtungsbedingungen, Verzerrungen durch Kippen und verwischte Pixel, geringen Kontrast sowie veränderliche Auflösung infolge wechselnder Pakethöhe beeinträchtigt. Darüber hinaus sind Pakete mit Kunststoffen überzogen, die Reflexionen verursachen, und mit Bändern beklebt, die das Adressfeld, Firmenzeichen, Texturen und Grafikelemente teilweise abdecken. Alle diese Einflussgrößen führen dazu, dass der Binarisierungsprozess in einem Sortiersystem sehr kompliziert wird. Die Wahl des Verfahrens mit der "besten" Binarisierung ist sehr schwierig. Um diese große Vielfalt von Bildern zu erfassen, ist ein mehrstufiges Binarisierungsverfahren erforderlich.
  • Bei einer Bewertung der verschiedenen Binarisierungsverfahren (siehe O. Trier et al., "Goal-directed evaluation of binarization methods", IEEE Transactions on pattern analysis and machine intelligence, Bd. 17, Nr. 12, Dezember 1995) hat sich das Niblack-Verfahren mit einem Nachbearbeitungsschritt als das beste erwiesen. Bei diesem Verfahren wird jedoch als Schwellwert ein absoluter Schwellwert angenommen, oberhalb dessen das Pixel als Text und ansonsten als Hintergrund eingeordnet wird. Dabei wird die Breite des Textstrichs nicht berücksichtigt, sodass auch Hintergrundpixel zur Ermittlung des Schwellwerts beitragen und zu einem ungenauen Schwellwert führen (siehe auch WO-A-87 03 118).
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • Die Hauptaufgabe der Erfindung besteht deshalb darin, ein Binarisierungsverfahren in einem OCR-System zu entwickeln, das eine Abschätzung des relativen Schwellwertes zwischen den Intensitäten des Texts und des Hintergrunds allein ausgehend von den Textpixeln vornimmt.
  • Die Erfindung betrifft daher ein Binarisierungsverfahren in einem optischen Zeichenerkennungssystem, bei welchem ein eingelesenes Graustufenbild einen zu erkennenden Text in Form von Strichen enthält, die eine mehreren Bildelementen entsprechende bekannte Strichbreite haben, wobei ein solches Verfahren die Textpixel durch pixelweises Prüfen ermittelt, ob die Differenz zwischen dem Wert jedes untersuchten Pixels und den Werten einer Vielzahl in einem bestimmten Abstand von diesem befindlicher Pixel größer als ein relativer Schwellwert ist, welcher dem Intensitätsunterschied zwischen dem Text und dem Bildhintergrund entspricht, Teilbereiche des Bildes in Schritten zu jeweils mindestens zwei Pixeln prüft, um Textkerne zu erkennen, und die Bildpixel lediglich in Textkerne enthaltenden Teilflächen mit einer Kantenlänge von mehreren Strichbreiten durch Verwendung eines in jeder Teilfläche ermittelten absoluten Schwellwertes binarisiert.
  • Gemäß einem wesentlichen Merkmal der Erfindung besteht der Schritt der Ermittlung der Textpixel in der pixelweisen Prüfung, ob eine der Differenzen zwischen dem Wert des untersuchten Pixels und dem wert der beiden Pixel an jedem Schnittpunkt eines Kreises mit dem Mittelpunkt an der Stelle des untersuchten Pixels und einem Radius, der gleich der Strichbreite sowohl jeder waagerechten und senkrechten Zeile als auch beider Zeilen unter einem Winkel von 45 Grad ist, größer als der relative Schwellwert ist.
  • Gemäß einer bevorzugten Ausführungsart der Erfindung ist der relative Schwellwert derjenige Schwellwert, der dem Ausläufer des Hauptzweigs des Histogramms entspricht, der die Anzahl der Teilflächen mit einer vorgegebenen Größe, welche vorzugsweise gleich der Strichbreite ist, angibt, die vollständig mit Pixeln gefüllt sind, welche in Abhängigkeit von einem Schwellwert als Textpixel erkannt werden, der gleich der Mindestdifferenz zwischen dem Wert des untersuchten Pixels und den werten der beiden am Schnittpunkt des Kreises mit einer der Zeilen liegenden benachbarten Pixel ist, für die die Bedingungen erfüllt sind, um ein Pixel als "Text" einzustufen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden Beschreibung unter Bezug auf die beiliegenden Zeichnungen deutlich, in denen:
  • 1 ein zu untersuchendes Pixel und dessen acht Nachbarn zeigt, die sich am Schnittpunkt eines Kreises mit einem Radius, der gleich der Strichbreite ist, mit der waagerechten Zeile, der senkrechten Zeile und den Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeile befinden, wobei diese Pixel zur Berechnung des relativen Schwellwertes dienen, der bei dem Verfahren gemäß der Erfindung verwendet wird.
  • 2 das Histogramm der vollständig mit Pixeln gefüllten Teilflächen als Funktion vom ermittelten relativen Schwellwert zeigt.
  • 3 schematisch ein Bild zeigt, in dem der als Textkern zu erkennende Buchstabe L enthalten ist, wobei die Hintergrundpixel durch Punkte und die Textpixel durch "x" dargestellt sind.
  • 4 schematisch ein Bild zeigt, in dem der in mehrere Teilflächen aufgeteilte Buchstabe L enthalten ist, die beim Binarisierungsschritt verwendet werden.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Das Binarisierungsverfahren der Erfindung setzt sich aus den folgenden Schritten zusammen:
    • – Suche nach Textkernen
    • – Beseitigung des Störlichts
    • – Teilflächenbinarisierung der Textkernflächen
  • Suche nach Textkernen
  • Der Text ist in einem Graustufenbild durch zwei Hauptparameter gekennzeichnet: die Strichbreite, die etwa der Schreibstiftbreite entspricht, und scharfe Intensitätssprünge an den Textkanten, die einen relativen Schwellwert definieren. Diese beiden Parameter ändern sich von Bild zu Bild und werden zuerst aus dem Graustufenbild ermittelt.
  • Die Ermittlung der Strichbreite beruht auf der Analyse des Zeilenprofils im Graustufenbild. Normalerweise weist der Text im Graustufenbild in Bezug auf den Hintergrund geringe Intensitätswerte auf. Entlang einer Text enthaltenen Zeile gibt es in Textnähe abrupte Veränderungen der Pixelintensität. Diese Veränderungen bilden im Pixelintensitätszeilenprofil "Löcher". Die Breite der "Löcher" wird über mehrere Zeilen des Bildes ermittelt, und der Mittelwert der Breiten ist die Strichbreite.
  • Die nach dieser Prozedur berechnete Strichbreite ist genau, jedoch ist diese Genauigkeit für die Binarisierungsergebnisse nicht entscheidend. Die Strichbreite wird nur für die Suche nach Textkernen benötigt. Im ungünstigsten Fall, also wenn der Text um 45 Grad gedreht ist, kann diese Genauigkeit um einen Faktor √2 schlechter als die genaue Strichbreite sein. Gemäß der folgenden Beschreibung erfolgt die Suche in verschiedenen Richtungen sowie in einem Abstand, der zwei Strichbreiten entspricht. Deshalb kann die Bedeutung der Genauigkeit der Strichbreite vernachlässigt werden.
  • Der relative Schwellwert ist ein wesentliches Merkmal der Erfindung und stellt den Intensitätsunterschied zwischen dem Text und dem Hintergrund dar. Dieser relative Schwellwert ändert sich von einer Zone zur anderen. Bei einer Fläche mit schwachem Kontrast ist der Schwellwert klein, während er bei einer Fläche mit starkem Kontrast groß ist. Das Prinzip der Erfindung besteht darin, ein Pixel als Text einzustufen, wenn seine Intensität geringer ist als die Intensitäten der Pixel in seiner Umgebung.
  • Zuerst wird das Bild in quadratische Teilflächen aufgeteilt, deren Kantenlänge einer Strichbreite entspricht, was bei der bevorzugten Ausführungsart einer Länge von vier Pixeln entspricht.
  • In 1 ist gezeigt, dass das Pixel 10 im Verhältnis zu seinen Nachbarpixeln geprüft wird, die sich auf einem Kreis 12 befinden, dessen Radius gleich der Strichbreite ist und in dessen Mittelpunkt sich das geprüfte Pixel 10 befindet. Diese Nachbarpixel befinden sich an den Schnittpunkten des Kreises 12 mit vier Zeilen, und zwar der waagerechten Zeile, der senkrechten Zeile und den beiden Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeile. Der Wert des mittleren Pixels wird für jede Zeile mit den Werten der beiden anderen Pixel verglichen, um zu prüfen, ob diese drei Pixel ein "Intensitätsloch" bilden, das unterhalb des relativen Schwellwert liegt. Wenn dies der Fall ist, wird das mittlere Pixel als "Text" eingeordnet.
  • Zur Formalisierung des obigen Prozesses kann man davon ausgehen, dass dieses Pixel bei einer Strichbreite w und einem relativen Schwellwert t mit einem Pixelwert P(x, y) an der Stelle (x, y) als "Text" eingeordnet wird, wenn die folgende Bedingung erfüllt ist:

    P(x – w, y) – P(x, y) > t UND P(x + w, y) – P(x, y) > t
    ODER
    P(x, y – w) – P(x, y) > t UND P(x, y + w) – P(x, y) > t
    ODER
    P(x + d, y + d) – P(x, y) > t UND P(x – d, y – d) – P(x, y) > t
    ODER
    P(x – d, y + d) – P(x, y) > t UND P(x + d, y – d) – P(x, y) > t,
    wobei die Koordinaten (x +/– d, y +/– d) die Koordinaten der Zeilen bei 45 und 135 Grad auf dem Kreis sind und d gleich w/√2 ist.
  • Die obige Suche wird mit einer Reihe von Schwellwerten t durchgeführt. Dabei werden für einen Schwellwert t die Teilflächen ermittelt, in denen alle Pixel als Text eingestuft wurden. Für eine solche Teilfläche wird ein t-min ermittelt. t-min ist die geringste Differenz zwischen dem Wert des untersuchten Pixels und den Werten seiner beiden benachbarten Pixel in einer der oben definierten Zeilen, für welche die Bedingungen für das Erkennen eines Pixels als "Text " erfüllt sind, das heißt bei denen die drei Pixel ein "Intensitätsloch" bilden. Dieser kleinste Wert dient im Histogramm als Abszisse, um den Wert N(t-min) der vollständig mit Pixeln gefüllten Teilflächen zu definieren. Ein solches Histogramm kann mehrere Zweige haben, wie in 2 zu sehen ist.
  • Als relativer Schwellwert wird der Ausläufer des Hauptzweigs des nach der obigen Prozedur erstellten Histogramms gewählt. Somit ist im Histogramm von 2 der gewählte relative Schwellwert t = 18 und entspricht also dem Wert t vor t = 19, bei dem N = 0 ist. Vorzugsweise wählt man den höchstmöglichen Schwellwert (obwohl man einen niedrigeren Schwellwert wählen könnte), da ein solcher Schwellwert die Bedingung für das Erkennen eines "Textpixels" verschärft. Dies führt zwar dazu, dass ein Teil der Textpixel irrtümlich als "Hintergrund" erkannt wird, jedoch werden diese wie später erläutert beim Binarisierungsschritt der Teilflächen wieder in "Text" zurückverwandelt. Wenn ein niedrigerer Schwellwert gewählt wird, können außerdem durch Störlicht verursachte Pixel als "Text" eingeordnet werden, da ein niedrigerer Schwellwert die Bedingungen für das Erkennen eines "Textpixels" aufweicht. Wenn man eine Teilfläche finden will, deren sämtliche Pixel als "Text" einzuordnen sind, stellt dies eine sehr starke Einschränkung dar, sodass man davon ausgehen kann, dass man mehr Teilflächen findet, bei denen nur ein Teil der Pixel "Text" entsprechen. Auf diese Weise werden bei diesem Verfahren nicht allzu viele Textpixel übergangen, die ohnehin bei der anschließenden Binarisierung der Teilflächen wiederhergestellt werden.
  • Die Suche nach Textkernen ist ein Vorbinarisierungsschritt und erfasst lediglich einen Teil der Textpixel. Ein Pixel wird als "Text" eingeordnet, wenn die im vorangehenden Abschnitt definierte Bedingung erfüllt ist. Die Werte t und w sind dann der ermittelte relative Schwellwert bzw. die ermittelte Strichbreite.
  • Während dieses Vorbinarisierungsschritts erfolgt die Suche entweder in Teilbildbereichen oder pixelweise im Originalbild. Im Folgenden wird davon ausgegangen, dass das in 3 gezeigte Bild ein Zeichen L mit einer Strichbreite von vier Pixeln enthält. Bei einer Teilabtastrate von 2 wird der Teilbildbereich abgetastet, indem jedes zweite Pixel geprüft und dann innerhalb jeder Zeile in Zweierschritten fortgefahren wird und die nächsten Zeilen jeweils in Zweierschritten geprüft werden, was in 3 in Zeile 0 und Zeile 2 durch Punkte dargestellt ist. Das Prüfmuster sieht daher wie folgt aus:

    Zeile 0: p(0,0), p(0,2), p(0,4), p(0,6) ... p(0,26)
    Zeile 2: p(2,0), p(2,2), p(2,4), p(2,6) ... p(2,26)
    Zeile 4: p(4,0), p(4,2), p(4,4), p(4,6)
  • Da das Pixel p(4,6) als "Text" erkannt wird, wechselt der Prozess zum Originalbild, d. h., jetzt wird jedes Pixel geprüft und in Einerschritten fortgefahren.
  • Jedes geprüfte Pixel wird nun als "x" dargestellt. Diese geprüften Pixel, die sich als Textpixel herausstellen, befinden sich in der Zeile 4: p(4,6), p(4,7), p(4,8), p(4,9). Da jedoch das Pixel p(4,10) ein Hintergrundpixel ist, wechselt der Prozess wieder zurück zum Teilbildbereich und fährt in Zweierschritten fort:

    Zeile 4: p(4,10), p(4,12) ... p(4,26)
    Zeile 6: p(6,0), p(6,2), p(6,4), p(6,6)
  • Da das Pixel p(6,6) als "Text" eingestuft wird, wechselt der Prozess wieder zum Originalbild (Erhöhung in Einerschritten} bis zum Pixel p(6,10) und kehrt wieder zum Teilbildbereich zurück usw.
  • Da die meisten Pixel in einem Bild Hintergrundpixel sind, ist diese Suche zeitaufwendig. Aus diesem Grund erfolgt der Wechsel der Schrittweite von 1 auf 2 (oder mehr), wenn ein Pixel als Hintergrundpixel erkannt wird. Erst wenn ein Pixel als "Text" erkannt wird, ist es sinnvoll, jedes Pixel zu prüfen.
  • Im Idealfall erhält man in diesem Schritt ein binäres Bild aus Textkernen und Linien, deren Breite gleich der ermittelten Strichbreite ist. "Homogene" helle und dunkle Bereiche, d. h. größere Klebestreifen auf dem Paket, sollen nicht im Binärbild erscheinen. Ränder zwischen hellen und dunklen Bereichen wie zum Beispiel ein weißes Etikett auf einem dunklen Paket sollen nicht im Binärbild erscheinen. Der Grund hierfür wird am Beispiel eines Pixels am Rand eines schwarzen Klebestreifens und zwei seiner Nachbarpixel in derselben Zeile dargestellt. Die Intensität P(x, y) dieses Pixels ist gleich oder geringer als einer der Nachbarwerte P(x – w, y) und P(x + w, y). Wenn sich eines dieser Pixel auf dem Klebestreifen befindet, ist das andere im Hintergrund und umgekehrt. Damit ist die im vorangehenden Schritt genannte Bedingung, dieses Pixel als schwarz einzustufen, niemals erfüllt.
  • Beseitigung des Störlichts
  • Bilder werden wie oben erwähnt praktisch nie unter idealen Bedingungen aufgenommen. Die Bilder werden durch Helligkeitsunterschiede, texturierte Unterlagen, Störlicht usw. beeinträchtigt. Daher ist im vorbinarisierten Bild noch Störlicht enthalten, das beseitigt werden muss, bevor man zum nächsten Binarisierungsschritt übergeht. Hierfür werden zwei aufeinanderfolgende Schritte ausgeführt: das Entfernen von Pixeln mit hoher Intensität und anschließend das Entfernen isolierter Pixel.
  • Zum Entfernen der Pixel mit hoher Intensität wird das Intensitätshistogramm derjenigen Pixel analysiert, die im vorangehenden Schritt als Text erkannt wurden. Aus dieser Analyse kann man die Existenz von Hintergrundpixeln im Textkernbild ermitteln. Normalerweise haben die Pixel höhere Intensitäten als normale Textpixel und wurden irrtümlich als "Text" eingestuft. Wahrscheinlich befinden sich diese Pixel in texturierten oder "Störlicht"-Bereichen und erfüllen die Bedingung für das Erkennen eines Pixels als "Text" gemäß der obigen Beschreibung. Wenn man solche Pixel findet, werden sie aus dem binären Textkernbild entfernt, d. h., sie werden als "Hintergrund"-Pixel zurückgestuft. Diejenigen Pixel, die als Text erkannt wurden, aber von anderen Textpixeln isoliert sind, werden als Störlicht angesehen. Da der Text durch eine Strichbreite gekennzeichnet ist, geht man davon aus, das die Textkerngröße etwa der Strichbreite entspricht. Solche Pixel werden als "Hintergrund" zurückgestuft.
  • Teilflächenbinarisierung der Textkernflächen
  • In dieser Phase sind die meisten Textpixel des Bildes als "Text" eingestuft. Pixel in der Nähe von "Text"-Pixeln können entweder "Text"-Pixel oder "Hintergrund"-Pixel sein. Einige als "Text" eingestufte Pixel (Minderheit) können auch "Hintergrund"-Pixel sein. Deshalb wird eine zweite als "Teilflächenbinarisierung" bezeichnete Binarisierung durchgeführt. Die Bildfläche wird in quadratische Teilflächen mit einer Kantenlänge von mehreren Strichbreiten aufgeteilt, und nur diejenigen Teilflächen werden erneut binarisiert, welche "Text"-Pixel enthalten.
  • Beispielsweise wird die Bildfläche in 4 in quadratische Teilflächen mit einer Kantenlänge von 3 Strichbreiten bzw. 12 × 12 Pixeln aufgeteilt. Somit enthalten die Teilflächen 20, 24 und 26 Text (Teile des Buchstaben L) und werden erneut binarisiert, während die Teilfläche 22 keinen Text enthält und nicht noch einmal binarisiert wird.
  • Eine neu zu binarisierende Teilfläche wie die Teilfläche 20 enthält Textpixel (wie die in 4 durch ein "x" definierten Pixel) und Nichttextpixel in der Nähe eines Textpixels (wie die durch einen Punkt definierten Pixel). Für jede Teilfläche wie die Teilfläche 20 wird ein absoluter Schwellwert ermittelt. Die Pixel mit einem Wert unterhalb dieses Schwellwerts werden als "Text" und alle anderen als "Hintergrund" eingestuft.
  • Bei einer bevorzugten Ausführungsart wird der absolute Schwellwert aus den "Text"-Pixeln und aus den "Nichttext"-Pixel in der Nähe der "Text"-Pixel (im Abstand von 2 bis 3 Pixeln) der Teilfläche ermittelt. Als Schwellwert wird das arithmetische Mittel aus dem Mittelwert der "Text"-Pixelwerte und dem Mittelwert der "Nichttext"-Pixelwerte genommen.
  • Durch diese Binarisierung werden die Lücken in dem Textkernbild "geglättet" und ausgefüllt, welches man nach dem Schritt "Suche nach Textkernen" erhalten hat. Als "Hintergrund" eingestufte Pixel werden nun als "Text" zurückgestuft. Isolierte und Störlicht-Pixel hingegen, die irrtümlich als "Text" eingestuft worden waren, werden nun als "Hintergrund" zurückgestuft.
  • Vorteile des Verfahrens gemäß der Erfindung
  • Es gibt eine Vielzahl von Binarisierungsverfahren. Im Gegensatz zu den meisten dieser Verfahren ist das vorliegende Verfahren jedoch auf OCR-Zwecke ausgerichtet. Eine Bildvorlage für die optische Zeichenerkennung muss nämlich idealerweise sauber sein und darf nur Text enthalten. Dies ist für den Segmentierungsschritt des OCR-Prozesses von entscheidender Bedeutung, der vor dem Erkennungsschritt die Lage der Zeichen definiert.
  • Somit weist das vorliegende Verfahren die folgenden Vorteile auf
    • – Ein wesentliches Merkmal besteht in der Ermittlung des relativen Schwellwerts, welcher genauer ist, da zu seiner Ermittlung nur Textpixel beitragen.
    • – In dunklen Bereichen wie etwa bei Klebestreifen auf einem Paketbild weisen die Pixel eine Intensität auf, die dem Text nahe kommt. Beim vorliegenden Verfahren werden Pixel nur dann als "Text" eingestuft, wenn sie Teil einer Linie oder eines Textes einer bestimmten Strichbreite sind. Deshalb taucht ein dunkler Bereich nicht im binarisierten Bild auf, da dessen "Breite" wesentlich größer ist als die Strichbreite. Auch die Ränder des dunklen Bereichs tauchen nicht auf.
    • – Bei einem Bild, welches Text (zum Beispiel eine Adresse) und ein aus grafischen Elementen und fettgedrucktem Text bestehendes Firmenzeichen enthält, tauchen die meisten Teile dieses Firmenzeichens nicht im binarisierten Bild auf. Das ist bei der OCR wichtig, da die OCR-Bearbeitung von "Störlicht"-Bereichen zeitaufwendig ist und eine Vielzahl von Problemen bereitet. Zum Beispiel ist es schwierig, einen Textbereich durch OCR in Textzeilen zu segmentieren, wenn in dem binarisierten Bild Grafikelemente auftauchen.
    • – Bei Bildern, die Text enthalten, sind die meisten Pixel "Hintergrund"-Pixel. Um mittels dieses Verfahrens nach Textmustern zu suchen, braucht man nur einen kleinen Teil der Pixel zu prüfen. Wenn man zum Beispiel eine Teilabtastrate von 2 verwendet, werden nur wenig mehr als ein Viertel der Pixel geprüft. Beim Schritt der Teilflächenbinarisierung werden nur diejenigen Teilflächen erneut binarisiert, die Text enthalten, und man spart somit viel Zeit ein.
    • – Vor dem Schritt der Teilflächenbinarisierung wird in einem Schritt Störlicht entfernt, bei dem irrtümlich als "Text" eingestufte Pixel auf "Hintergrund" zurückgestuft werden. Dadurch wird die Ermittlung des absoluten Schwellwerts beim Schritt der Teilflächenbinarisierung genauer und somit die Qualität des Binärbildes verbessert.
    • – Bei texturiertem Hintergrund gibt es eine Vielzahl "isolierter" Pixel, welche die Bedingung für die Einstufung als "Text" erfüllt haben. Somit gibt es auch eine Vielzahl von Teilflächen, die "Text" enthalten und beim Schritt der Teilflächenbinarisierung neu binarisiert würden. Durch das Entfernen solcher Pixel wird die Bearbeitungszeit verkürzt und die Qualität des Binärbildes verbessert.

Claims (8)

  1. Binarisierungsverfahren in einem optischen Zeichenerkennungssystem, bei dem ein eingelesenes Graustufenbild einen zu erkennenden Text in Form von Strichen mit einer bekannten mehreren Pixeln (Bildelementen) entsprechenden Strichbreite enthält, wobei das Verfahren die folgenden Schritte umfasst: Ermitteln der Textpixel im eingelesenen Bild durch pixelweises Prüfen, ob die Differenz zwischen dem Wert jedes untersuchten Pixels und den Werten der beiden Pixel an jedem Schnittpunkt eines Kreises mit dem Mittelpunkt an der Stelle des untersuchten Pixels und einem Radius, der gleich der Strichbreite sowohl jeder waagerechten und senkrechten Zeile als auch beider Zeilen unter einem Winkel von 45 Grad bezüglich der waagerechten Zeilen ist, größer ist als ein relativer Schwellwert, der dem Intensitätsunterschied zwischen dem Text und dem Bildhintergrund entspricht, Binarisieren der Bildpixel lediglich in Textpixel enthaltende Teilflächen mit einer Kantenlänge von mehreren Strichbreiten durch Verwendung eines in jeder Teilfläche ermittelten absoluten Schwellwertes.
  2. Verfahren nach Anspruch 1, bei welchen der relative Schwellwert derjenige Schwellwert ist, der dem Ausläufer des Hauptzweigs des Histogramms entspricht, der die Anzahl der Teilflächen mit einer vorgegebenen Größe angibt, die vollständig mit Pixeln gefüllt sind, welche in Abhängigkeit von einem Schwellwert als Textpixel erkannt wurden, der gleich der Mindestdifferenz zwischen dem Wert des untersuchten Pixels und den Werten der beiden am Schnittpunkt des Kreises mit einer der Zeilen liegenden benachbarten Pixel ist, für die die Bedingungen des als "Text" eingeordneten untersuchten Pixels erfüllt sind.
  3. Verfahren nach einem der Ansprüche 1 bis 2, bei welchem der absolute Schwellwert aus den Textpixeln und den textfremden Pixeln in der Nähe der Textpixel ermittelt wird, indem der arithmetische Mittelwert aus dem Mittelwert der Textpixelwerte und dem Mittelwert der textfremden Pixelwerte gebildet wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, bei welchem der Ermittlungsschritt an einem ersten Pixel des eingelesenen Bildes ausgeführt wird und, wenn es sich bei dem ersten Pixel nicht um ein Textpixel handelt, so lange um mindestens zwei Pixel zum nächsten Pixel gesprungen und erneut ermittelt wird, ob es sich beim nächsten Pixel um Text handelt, bis ein Pixel gefunden wird, das kein Textpixel ist, und bei welchem die vorangegangenen Schritte so lange wiederholt werden, bis alle Textpixel des eingelesenen Bildes ermittelt wurden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, bei welchem der Ermittlungsschritt an den Pixeln ein und derselben Zeile ausgeführt wird und um mindestens zwei Zeilen zur nächsten Zeile gesprungen wird, wenn das letzte Pixel einer Zeile kein Textpixel ist, und im gegenteiligen Falle zur nächsten Zeile gesprungen wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, bei welchem die im Bildbinarisierungsschritt verwendeten Teilflächen quadratische Teilflächen mit einer Seitenlänge von drei Strichbreiten sind.
  7. Verfahren nach einem der Ansprüche 1 bis 6, welches ferner den Schritt des Entfernens von Pixeln mit hoher Intensität umfasst, nachdem alle Text-Kernbereiche ermittelt wurden und bevor der Schritt der Binarisierung der Bildpixel einsetzt, wobei der Entfernungsschritt darin besteht, dass Textpixel, deren Intensität die Intensität von normalem Text überschreitet, in Hintergrundpixel umgewandelt werden.
  8. Verfahren nach einem der Ansprüche 1 bis 7, welches ferner den Schritt der Umwandlung von den anderen Textpixeln isolierter Pixel in Hintergrundpixel umfasst.
DE69822608T 1998-05-28 1998-05-28 Binarisierungsverfahren in einem Zeichenerkennungssystem Expired - Lifetime DE69822608T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP98480038A EP0961218B1 (de) 1998-05-28 1998-05-28 Binarisierungsverfahren in einem Zeichenerkennungssystem

Publications (2)

Publication Number Publication Date
DE69822608D1 DE69822608D1 (de) 2004-04-29
DE69822608T2 true DE69822608T2 (de) 2005-01-05

Family

ID=8235758

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69822608T Expired - Lifetime DE69822608T2 (de) 1998-05-28 1998-05-28 Binarisierungsverfahren in einem Zeichenerkennungssystem

Country Status (4)

Country Link
US (1) US6438265B1 (de)
EP (1) EP0961218B1 (de)
JP (1) JP3251918B2 (de)
DE (1) DE69822608T2 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411741B1 (en) * 1998-01-14 2002-06-25 Kabushiki Kaisha Toshiba Image processing apparatus
JP2000350021A (ja) * 1999-06-04 2000-12-15 Ricoh Co Ltd デジタル画像処理装置
US6738496B1 (en) * 1999-11-01 2004-05-18 Lockheed Martin Corporation Real time binarization of gray images
US6512849B1 (en) * 2000-05-22 2003-01-28 International Business Machines Corporation Finding objects in an image
US6778700B2 (en) * 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
JP2002271611A (ja) * 2001-03-14 2002-09-20 Fujitsu Ltd 画像処理装置
CN1310183C (zh) * 2003-07-08 2007-04-11 摩托罗拉公司 二进制化文字图像的方法
JP2005275900A (ja) * 2004-03-25 2005-10-06 Noritsu Koki Co Ltd 粒子状ノイズ抑制のための画像処理方法及びプログラム及びこの方法を実施する画像処理装置
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7555172B2 (en) * 2005-10-31 2009-06-30 Xerox Corporation Dynamic range detection and adjustment
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
EP2064658A4 (de) 2006-09-07 2017-08-23 Lumex As Relative schwelle und verwendung von rändern beim optischen zeichenerkennungsprozess
US20080101703A1 (en) * 2006-10-30 2008-05-01 Lockheed Martin Corporation Systems and methods for recognizing shapes in an image
US8223395B2 (en) 2007-07-20 2012-07-17 Sharp Laboratories Of America, Inc. Methods and systems for refining text color in a digital image
US8009928B1 (en) 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
TWI394457B (zh) * 2009-04-30 2013-04-21 Novatek Microelectronics Corp 文字保護裝置及動態適應性去交錯裝置
US8825409B2 (en) * 2010-09-08 2014-09-02 International Business Machines Corporation Tracing seismic sections to convert to digital format
EP3380990B1 (de) * 2015-11-24 2023-06-07 Ceske vysoke uceni technicke v Praze Detektor für effizienten uneingeschränkten hub
US10176400B1 (en) 2016-09-27 2019-01-08 Matrox Electronic Systems Ltd. Method and apparatus for locating dot text in an image
US10223618B1 (en) 2016-09-27 2019-03-05 Matrox Electronic Systems Ltd. Method and apparatus for transformation of dot text in an image into stroked characters based on dot pitches
US10192132B1 (en) * 2016-09-27 2019-01-29 Matrox Electronic Systems Ltd. Method and apparatus for detection of dots in an image
US10176399B1 (en) 2016-09-27 2019-01-08 Matrox Electronic Systems Ltd. Method and apparatus for optical character recognition of dot text in an image
CN107689047B (zh) * 2017-08-16 2021-04-02 汕头大学 一种自动裁剪眼底图像的方法、装置及其可读存储介质
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
CN111178362B (zh) * 2019-12-16 2023-05-26 平安国际智慧城市科技股份有限公司 文本图像处理方法、装置、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4742557A (en) * 1985-11-08 1988-05-03 Ncr Corporation Adaptive character extraction method and system
JPH0743754B2 (ja) 1985-12-26 1995-05-15 富士電機株式会社 文字画像2値化装置
JPH0799533B2 (ja) 1986-05-16 1995-10-25 富士電機株式会社 2値化装置
US5058182A (en) * 1988-05-02 1991-10-15 The Research Foundation Of State Univ. Of New York Method and apparatus for handwritten character recognition
JP2507811B2 (ja) 1989-01-13 1996-06-19 富士電機株式会社 2値化装置
JP3037781B2 (ja) 1991-06-10 2000-05-08 古野電気株式会社 データ二値化方法
US5379130A (en) * 1992-12-02 1995-01-03 Industrial Technology Research Institute Text/image separation method
US5568571A (en) * 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
EP0694862A3 (de) * 1994-07-22 1996-07-24 At & T Corp Erkennung von degradierten, graustufenförmigen Dokumenten mittels zweidimensionalen versteckten Pseudo-Markovmodellen und N-best-Hypothesen
US5583659A (en) * 1994-11-10 1996-12-10 Eastman Kodak Company Multi-windowing technique for thresholding an image using local image properties
JP3334385B2 (ja) 1994-12-20 2002-10-15 セイコーエプソン株式会社 画像読み取り装置および読み取り方法
ATE185211T1 (de) * 1995-01-31 1999-10-15 United Parcel Service Inc Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
US5649025A (en) * 1995-02-03 1997-07-15 Xerox Corporation Multithresholding for document image segmentation

Also Published As

Publication number Publication date
JP3251918B2 (ja) 2002-01-28
JP2000011089A (ja) 2000-01-14
EP0961218B1 (de) 2004-03-24
US6438265B1 (en) 2002-08-20
EP0961218A1 (de) 1999-12-01
DE69822608D1 (de) 2004-04-29

Similar Documents

Publication Publication Date Title
DE69822608T2 (de) Binarisierungsverfahren in einem Zeichenerkennungssystem
DE3881392T2 (de) System und Verfahren für automatische Segmentierung.
DE69608170T2 (de) Gerät und Verfahren zur Bildbinarisation
DE69415048T2 (de) Verfahren und apparat zum bestimmen der genauen winkelorientierung von strichc0desymbolen in zweidimentionalen ccd-bildern
DE69329380T2 (de) Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
DE69323236T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines zweidimensionalen, digitalen Bildes
DE60014959T2 (de) Vorrichtung zur lagebestimmung von etiketten, unter verwendung mehrerer auflösungen
DE69432585T2 (de) Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument
DE69129520T2 (de) Verbessertes Segmentierungsverfahren für das maschinelle Lesen von handgeschriebener Information
DE69308905T2 (de) Verarbeiten von mit Punktmatrix- oder Tintenstrahlkopf gedrucktem Text für optische Zeichenerkennung
DE3851173T2 (de) Verfahren und Gerät zur Erkennung von Halbtonbildmustern.
DE60303202T2 (de) System und verfahren zum identifizieren und extrahieren von zeichenketten aus erfassten bilddaten
DE69728482T2 (de) Zweidimensionaler Codeleser
DE69600461T2 (de) System und Verfahren zur Bewertung der Abbildung eines Formulars
DE4311172C2 (de) Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes
DE102007035884B4 (de) Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
DE69032344T2 (de) Verfahren zum Messen von Neigungswinkeln
DE60132315T2 (de) Verbessertes verfahren zur bildbinarisierung
DE69029594T2 (de) Ermittlung von Linienabschnitten und von vorbestimmten Mustern in einem optisch abgetasteten Dokument
DE3107521A1 (de) Verfahren zum automatischen erkennen von bild- und text- oder graphikbereichen auf druckvorlagen
EP0402868B1 (de) Verfahren zur Erkennung von vorab lokalisierten, in digitalen Grauwertbildern vorliegenden Zeichen, insbesondere zum Erkennen von in Metalloberflächen eingeschlagenen Zeichen
DE69512074T2 (de) Verfahren und gerät zur automatischen bestimmung eines textgebiets auf einem bitmapbild
DE69423607T2 (de) Verfahren zum klassifizieren von bildern mit ausgabeabbildungen
DE69627424T2 (de) Bildverarbeitungsverfahren und Gerät
DE102016100134B4 (de) Verfahren und Vorrichtung zum Untersuchen eines Objekts unter Verwendung von maschinellem Sehen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)