DE19507059B4

DE19507059B4 - Verfahren zur omnidirektionalen Erfassung von OCR-Klarschrift auf Etiketten oder ähnlichen Datenträgern durch zufallsgesteuerte Suche und Dekodierung mit einem neuronalen Netzwerk

Info

Publication number: DE19507059B4
Application number: DE19507059A
Authority: DE
Inventors: Klaus Wevelsiep
Original assignee: Individual
Current assignee: Individual
Priority date: 1995-03-01
Filing date: 1995-03-01
Publication date: 2004-08-12
Anticipated expiration: 2015-03-02
Also published as: DE19507059B9; DE19507059A1

Abstract

Verfahren zur omnidirelekionalen Erfassung, d.h. zur Erfassung unter beliebiger örtlicher Position und unter beliebiger winkelmässiger Orientierung, von optisch lesbaren Zeichen (vorzugsweise von "OCR-Klarschrift"), welche kontrastierend auf Etiketten oder ähnlichen Datenträgern aufgebracht sind und diese Datenträger innerhalb eines Lesefeldes einer Lesevorrichtung vorgelegt werden , wobei der Hintergrund des Lesefeldes beliebig graphisch strukturiert sein kann, d.h. in Form und Farbe beliebige geometrische reguläre und/oder irreguläre Muster enthalten kann, wobei auch ein farblich homogener Hintergrund ohne jedwedes Muster zugelassen ist, dadurch gekennzeichnet, dass keinerlei Zusatzinformation, wie spezielle optisch oder magnetisch erkennbare Symbole, oder sonstige Orientierung und Position der zeilenförmig angeordneten optisch lesbaren Zeichen kennzeichnende Hilfssymbolik erforderlich ist, um die zu erkennende Zeile optisch lesbaren Zeichen von dein graphisch beliebig gestalteten Hintergrund zu separieren und zu deleodieren, d.h. in einen ASCII-Zeichenstring umzusetzen, auszugeben oder weiter zu verarbeiten, gleichgültig, in welcher Orientierung und Position die zu erfassenden optisch lesbaren Zeichen in Bezug auf das Koordinatensystem...

Description

Die Erfindung betrifft ein Verfahren zur Erfassung und Delcodierung von zeilenförmig angeordneten optisch lesbaren Schriftzeichen, die auf Datenträgern, wie Etiketten, oder direkt auf Gegenständen mit einer ausreichend kontrastierenden Farbe aufgebracht worden sind. Im Gegensatz zu Beleglesern und Seitenlesern, die das vorgelegte Schriftgut nur in ausgerichteter Orientierung (vorzugsweise nur horizontal) in Bezug auf das Koordinatensystem des Lesers erfassen können, bzw. allenfalls nur geringfügige Winkelabweichungen zulassen, sind omnidirektionale Leser in der Lage, die optisch lesbaren Zeichen. (OCR-Klarschrift) in beliebiger Orientierung (z.B. auch kopfstehend) und an beliebigen Positionen innerhalb des Lesefeldes des Lesers zu erfassen.

Derartige Leser sind bekannt geworden. Sie benötigen jedoch verabredete grafische Merkmale, die zusätzlich auf dem Datenträger angebracht und von einem speziellen Detektor erkannt, dem Leser Orientierung und Position des Datenträgers mitteilen. Verfahren dieser Art sind bekannt, siehe Literaturstellen /2/,/3/,/4/ des anliegenden Forschungsberichtes, der als Bestandteil dieser Anmeldung das neuartige erfindungsgemässe Verfahren beschreibt, welches auf diese, die praktische Anwendung stark einschränkende Merkmale verzichtet. Eine Beschreibung des zitierten bekannten Verfahrens findet sich auch im USA-Patent 4691367.

Das neuartige erfindungsgemässe Verfahren erfasst durch das beschriebene zufallsgesteuerte Suchverfahreu einen oder mehrere im Lesefeld auftauchende ein- oder mehrzeilige Datenträger, bzw. Gegenstände mit direkter Beschriftung ebenfalls omnidirektional. Da, wie beschrieben und an praktisch demonstrierten Beispielen nachgewiesen (Bildteil), auf die zitierten grafischen Hilfsmerlanale vollständig verzichtet wird, ergeben sich für die praktische Anwendung folgende Vorteile

– effizientere Ausnützung der Beschriftungsfläche
– ein grafisches Layout der Etiketten (Position der Schrift in Bezug auf Hilfsmerkmale) entfällt, da die Hilfsmerkmale entfallen
– Druck mit preiswerten, auch nicht grafikfähigen Druckern
– Datenträger können auf beliebig strukturiertem Hintergrund, der selbst auch Schriftinformation enthalten kann, aufgebracht werden.

Zur Dekodierung der erfassten Zeichen wird erfindungsgemäss ein neuronales Netz eingesetzt, das in praktischer Ausfuhrung des Lesers vom Anwender selbst trainiert werden kann. Dies führt zu einem weiteren Vorteil:

– neben einer grossen Vielfalt der verwendbaren Schrifttypen kann der Anwender auch selbst definierte grafische Zeichen in den lesbaren Zeichenvorrat aufnehmen – insbesondere also auch Firmenlogos etc. omnidirektional erkennen, bzw. im Rahmen seiner Qualitätssicherung überprüfen.

Das erfindungsgemässe Verfahren wurde wie im Forschungsbericht beschieben, auf einem Personal Comptiter, erweitert um einen speziell für die omnidirektionale Erfassung entwickelten Frame-Grabber, der wegen der erforderlichen Bildrotationen bei Verwendung einer CCD-Kamera mit "quadratischen" Pixeln absolut gleiche Abbildungsmasstäbe in x- und y-Richtung garantiert, praxisnah – aber noch nicht in Echtzeit automatisch ablaufend simuliert. da der Bildspeicher des Frame-Grabbers logisch als Teil des Arbeitsspeichers des Auswerterechners (spezielle herstellerabhängige Driver und ein darauf Rücksicht nehmendes Betriebssystem sind demnach nicht erforderlich) konzipiert ist, können die in der PC-Evaluation ermittelten Algorithmen grundsätzlich direkt auf die Zielhardware eines OCR-Lesers übertragen werden. Diese Zielhardware ist unter Berücksichtigung einer wirtschaftlichen (und von Lizenzrechten freier) Fertigung des OCR-Lesers aus auf dem Markt erhältlichen Standardbauteilen zu erstellen und wird im wesentlichen bestehen aus

– analog/digitaler Elektronik mit adaptiver Digitalisierungsschwelle zur Erzeugung des binarisierten Kamerabildes des Lesefeldes
– einem RAM-Arbeitsspeicher im Bereich von ca. 2 Mebabyte zur Aufnahme aller wie beschrieben mit Attributen versehenen Teilbilder
– einem 16-Bit Mikroprozessor zur Abwicklung des Programms
– FPGA-Bausteine zur (schnellen !) Hardware-Realisierung von Bildrotation, Korrelation, ggf. auch für das neuronale Netz, sowie für die Schnittstellen zur Ausgabe und Bedienung
– Eprom-Speicher für das Rechenprogramm
– Flash-Eprom-Speicher zur Aufnahme der trainierten Matrizen des neuronalen Netzes.

Wie beschieben, betragen die Abmessungen des Lesefeldes derzeit 512 × 512 Pixel. Es ist selbstverständlich, dass unter Berücksichtigung des zukünftigen technischen Standes der Kameratechnik auch höhere Pixelzahlen (z.B. 1024 × 1024) erfindungsgemäss angestrebt werden.

Aus dem Stand der Technik sind bereits einige Verfahren zur Erkennung von Schriftzeichen bekannt.

Das in DE 30 14 350 A1 (im folgenden Text auch mit /2/ gekennzeichnet) offenbarte Verfahren, zielt ebenfalls darauf ab, Gegenstände, z.B. auch Datensätze, z.B. in Form von Schriftzeichen, die in beliebiger Position und Orientierung auf einem Bildfenster erscheinen zu identifizieren.

Dazu sind aber gemäß Anspruch 1 dieser Schrift sogenannte „Kennzeichnungsfelder" auf den Gegenständen notwendig, welche mindestens eine Datenspur mit darin enthaltenen Zeichen und mehreren Kontrastlinien aufweisen.

Auch die DE 23 38 561 A1 schlägt zum (Zitat aus dem Anspruch 1) „Identifizieren von Objekten mittels Dateninformationen, wobei die Objekte in wahlloser Position und Ausrichtung und zu wahllosen Zeiten in einem bestimmten Gebiet erscheinen können" vor, wobei dazu die Oberfläche der Objekte eine Kennzeichnung in Form eines Datenfeldes aufweisen, das in zumindest einer Datenspur angeordnete kontrastierende Datenmarkierungen umfasst, wobei diese „Datenmarkierungen" mehrere Linien umfasst. Auch hier sind also verabredete „Datenmarkierungen" notwendig.

Die DE 39 26 327 A1 beschreibt die Erfassung von Seiten mit Hilfe eines Scanners und trennt lesbaren Text enthaltende Bereiche von solchen, die Graphik oder sonstige nicht lesbare, d.h. nicht in ASCII-Zeichen umsetzbare Informationen enthalten. In dieser Schrift (Priorität 10.8.88 aus US 230847 ) wird zum Stand der Technik festgehalten, dass andere Systeme (oder Verfahren) von sogenannten „Registrierungsmarken" zum Anzeigen des Beginns von Textspalten Gebrauch machen (s. Seite 1, Zeile 36–39). Das in der Schrift selber offenbarte Verfahren erwartet aber die Vorlage einer zu erfassenden Seite grundsätzlich „ausgerichtet" – d.h. so in Bezug auf das Koordinatensystem des Scanners vorgelegt, dass zu lesender Text sich mit horizontal verlaufenden Schriftzeilen identifiziert.

Da das in der Praxis nur mit einem – wenn auch geringen – Winkelfehler möglich ist, verwendet das Verfahren eine Korrektur des sich einstellenden „Schrägfehlers" (Spalte 9, ab Zeile 10). Aus der Beschreibung des Korrekturverfahrens ist jedoch ersichtlich, dass es sich nicht um ein Verfahren handelt, dass „Schrägfehler" beliebiger Grösse , insbesondere nicht bis +– 180 Grad , kompensieren kann. Das bedeutet, dass sogenanntes „OMNIDIREKTIONALES" Erfassen von Schriftgut, d.h. Erfassen bei beliebiger POSITION und beliebiger Winkel-Orientierung, mit dem Ziel der Dekodierung der Schriftsymbole z.B. als ASCII-Zeichen mit dem entgegengehaltenen Verfahren prinzipiell nicht möglich ist. Dies geht auch aus der Wahl des Ausdrucks „Schrägfehler" hervor : die Erfindergemeinschaft erwartet demnach, dass bei Benutzung seines Verfahrens die Schriftvorlage in vernünftiger Winkelorientierung vorgeleGt wird. Dies geht insbesondere aus dem Text Spalte 10, Zeilen 1–4 hervor: Zitat: „Bei dem oben beschriebenen Verfahren der Schrägfehlerjustierung wird unterstellt, dass der Text auf einer Seite generell in horizontalen Zeilen auf der Seite angeordnet ist. Eine genaue Definition der erlaubten Winkelabweichung von der „ausgerichteten" Normallage wird nicht angegeben. Dem Text ist lediglich zu entnehmen, dass hier mit einer Schräglage von etwa Zeilenhöhe gerechnet wird (geschätzter zugelassener Schrägfehler bis ca. +– 5 Grad). Ausserdem wird in Spalte 19, Zeilen 53 und 54 zudem ausdrücklich darauf hingewiesen, dass „... eine Bilddigitalisierung empfindlich gegenüber Unterschieden in der Ausrichtung ist ...". Dies ist nochmals ein Beleg dafür, dass das entgegengehaltene Verfahren die omnidirektionale Lesefähigkeit nicht verfolgt, geringe Winkelfehler bereits die Erkennung vereiteln und deshalb die weiter oben aufgeführte „Schrägfehler" – Korrektur erforderlich ist.

Auch ist festzuhalten, dass bei einem angenommenen „Schrägfehler" von +– 90 Grad das Verfahren versuchen würde, zumindest bei engem Zeilenabstand, "Textzeilen" auf der nunmehr quer liegenden Vorlage zu identifizieren , was möglicherweise (abhängig von Zeichen- und Textzeilenabstand) erfolgreich wäre und diese jetzt querliegenden Zeichen dem im Verfahren beschriebenen Schablonenvergleich (das ist mathematisch eine Kreuzkorralation zwischen erfasstem Zeichen und einem in einem Speicher abgelegten Vergleichs-Template, das in Normallage abgelegt ist) unterziehen . In den meisten Fällen ergäbe sich keine Übereinstimmung – – in wenigen Fällen würden jedoch Übereinstimmungen gemeldet, die jedoch semantisch fehlerhaft wären:
Beispiel : eine querliegende 8 und das „Unendlich"-Zeichen können offensichtlich nur sehr ungenau unterschieden werden. Allgemeiner ausgedrückt: Als „Schablonenvergleich" bekannte Dekodierverfahren können mit ca. 30...50 Vergleichsmustern arbeiten. Wollte man auch Vergleichsmuster für jede Winkelorientierung (gefordert wären dann Winkelschritte im Bereich von ca. 1 Grad) ergäbe sich rein formal ein Vergleichsmuster-Vorrat von hier 50·360 = 1800 Mustern (exakter: Anzahl der zu unterscheidenden Font-Typen mal 360). Die Fachliteratur kennt kein Korrelationsverfahren, das bei einer derart hohen Anzahl von Musterklassen noch zuverlässig (also ohne Mehrdeutigkeit) dekodieren kann.

Das in der DE 34 14 455 A1 offenbarte Verfahren setzt ein „kantenparallel" zum Lesefenster des Lesegerätes ausgerichtetes Dokument („Vorlage") voraus – – siehe Text auf Seite 23, Zeilel, oder Anspruch 1, Zitat „.... wobei die Vorlage ... ausgerichtet ... abgetastet wird". Dies wird auch durch die kantenparallele Ausrichtung des Koordinatensystems der Vorlage x0, y0 in Bezug auf das Koordinatensystem des Lesers x, y in 1 unterstrichen. Des weiteren ist 6 zu entnehmen, dass die Scanrichtung des Abtasters 24 parallel zu einer Koordinatenachse des Maschinen-Koordinatensystems auf der Lesefläche 20 gewählt worden ist. Weiterhin wird an keiner Stelle der o.g. Schrift der bekannte Begriff „omnidirektional" bzw. „Identifizieren in beliebiger Position und Orientierung" – wie z.B. schon in der EP 0 017 950 und dem dort genannten Verfahren verwendet, benutzt.

Die EP 0 461 760 A2 beschreibt ebenfalls ein Verfahren, das wie auch die oben erwähnte DE 34 14 455 A1 nicht omnidirektional arbeitet, also vorgelegte Dokumente nur bezüglich der Position bewertet und Text, Graphik und Blanks unterscheidet. Es wird die korrekte Ausrichtung des Dokuments in Bezug auf das Koordinatensystem des Lesers wie selbstverständlich vorausgesetzt – siehe hierzu 3 der Schrift. Des weiteren enthält auch diese Schrift nirgendwo eine Formulierung etwa im Sinne von „omnidirectional" oder „position and orientation – independent.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Verfügung zu stellen, dass die omidirektionale Erfassung von optisch lesbaren Zeichen (vorzugsweise „OCR-Klarschrift")(Quelle: S.2, Z.8) auf Etiketten oder ähnlichen Datenträgern innerhalb des Lesefeldes eines Lesers, z.B. einer Kamera (Quelle: Seite 2, Z.9 und Z. 46) ermöglicht, ohne dass im Lesefeld eine die Orientierung oder Position der OCR-Klarschrift irgendwie angebende Hilfssymbolik vorgesehen ist (Quelle: Anspruch 1), wobei unter „omnidirektionaler" Erfassung eine solche Erfassung zu verstehen ist, die optisch lesbare Zeichen in jeglicher Neigung oder Position innerhalb des Lesefeldes des Lesers (Quelle: S.2, Z.8–9) sucht und alle im Lesefeld befindlichen OCR-Zeichen in horizontaler Orientierung in einem verabredeten Speicherbereich ablegt. (Quelle: S.5, Z. 17–20).

Diese Aufgabe wird gelöst durch den Gegenstand des Anspruchs 1.

1. Übersicht

Zur Kennzeichnung von Objekten in Handel und Industrie werden wegen der einfachen Erfassungs- und Dekodiertechnik möglichst eindimensionale Verfahren eingesetzt – also Verfahren, bei denen die Informationsgewinnting durch einen Scan in nur einer Ortsrichtung erfolgt. Bedingung hierfür ist, daß alle Musterelemente vom Scan getroffen werden. In ihrer modernen Ausprägung sind diese Verfahren für omnidirektionale (richtungsunabhängige) Erfassung geeignet, wenn Datenträger und Scanrichtung aufeinander abgestimmt sind. Ein bekannter Vertreter dieser Technik ist der Barcode, dessen Information in wechselndem Breitenverhältnis der in Scanrichtung aufeinanderfolgenden schwarz/weißen Musterelemente liegt, siehe Bild 1.

Nachteilig ist die geringe informationsdichte, die bei neuesten Entwicklungen zum Verlassen der eindimensionalen Erfassung führt und eine zweidimensionale Erfassung des Codierungsmusters erzwingt. /1/.

Im Gegensatz zum Barcode, der vom Menschen nur mit Hilfe maschineller Hilfsmittel zu lesen ist, steht die Beschriftung von Etiketten mit numerischen und alphanumerischen Zeichen einer maschinenlesbaren OCR-Klarschrift, siehe Beispiele in Bild 2. Ihre Erfassung ist grundsätzlich nur mit zweidimensionaler Erfassung des Etikett mit Schriftzeichen enthaltenden Bildes möglich. Ziel der Bildverarbeitung ist die Erkennung (Dekodierung) der Schriftzeichen der Textzeile(n), d.h. die Zuordnung von ASCII-Zeichen zu den Schriftzeichen des Schriftbildes und deren Ausgabe an einer Schnittstelle.

Bisher werden OCR-Klarschriftleser bevorzugt im "direktionalen" Betrieb verwendet, d.h. die Anordnung der zu lesenden Textzeilen auf der Vorlage ist bekannt und die Vorlage hat einen festen translatorischen Bezug auf das Koordinatensystem des Lesers, insbesondere wird Rotation der Vorlage vollständig ausgeschlossen. Dies beschränkt den Einsatz von OCR-Klarschriftlesern praktisch auf Seiten- und Belegleser (Banken, Versicherungen). Die Variationsmöglichkeit bezüglich des Layouts der Datenträger ist sehr eng begrenzt – und in diesen Anwendungen auch nicht erforderlich.

Die geschilderten Eigenschaften lassen einen Einsatz der bisher bekannten OCR-Lesetechnik im industriellen Umfeld nicht zu: hier ist omnidirektionale Lesbarkeit und Variationsmöglichkeit (Produktionsumstellung, kleine Losgrößen) der Datenträger und die automatische Adaption des Lesers an das veränderte Layout des Datenträgers Voraussetzung zur Akzeptanz des Verfahrens.

Eine in den 80-er Jahren gezeigte Lösung des omnidirektionalen Klarschriftleseproblems /2/, /3/, bediente sich verabredeter geometrischer Muster (Balken und Zwischenräume bekannter Breitenverhältnisse), um Position und Orientierung des Etiketts zu ermitteln, siehe Bild 3. Ein Verhältnisdetektor /4/ ermittelte die Koordinaten der vom Scan getroffenen Balkenpixel. Hieraus wurden translatorischer und rotatorischer Versatz des Etiketts in Bezug auf das Koordinatensystem des Lesers ermittelt. Bei bekanntem (also auch nicht beliebig variablem) Layout des Etiketts war damit die Position der Schriftzeichen bekannt. Die Parameter (Zeilenzahl, Startkoordinaten und Richtung) eines feinzeiligen Leserasters wurden errechnet und das Bild der Textzeilen ausgerichtet in einem verabredeten Speicherbereich abgelegt. Die Dekodierung der Schriftzeichen (nur OCR-A) wurde mit einem handelsüblichen Korrelator /5/ durchgeführt.

Das im folgenden beschriebene Verfahren ist Gegenstand des Patentbegehrens und vermeidet die Nachteile der vorstehend beschriebenen Entwicklung. Gleichzeitig wird durch Einsatz eines neuronalen Netzwerkes vom Typ Backpropagation ein vom Schrifttyp unabhängiger Dekoder realisiert. Durch weitgehend automatische Adaption des Lesers an das Layout des Datenträgers durch eine zufallsgesteuerte Textzeilensuche (max. ca 5 Zeilen) können sowohl eine als auch mehrere Textzeilen ohne Umprogrammierung erfaßt und dekodiert werden. Dabei können die Textzeilen unterschiedliche Länge aufweisen (eine Mindestzahl von Schriftzeichen von ca 3–5 ist aufgrund des verwendeten Suchalgorithmus erforderlich, siehe 3.). Die einzelnen Textzeilen dürfen gegeneinander und gegen das Koordinatensystem des Lesers beliebigen rotatorischen und translatorischen Versatz aufweisen. Ein gegenseitiger Mindestabstand, siehe 3.1, der Textzeilen ist jedoch einzuhalten. Die Textzeilen können auf beliebigem (auch Text eines fremden Schrifttyps enthaltenden) Hintergrund erscheinen. Eine typische Szene enthaltend zwei Textzeilen auf einem Graphik und Text enthaltenden Hintergrund ist beispielhaft in Bild 19 gezeigt.

Schwerpunkt der praktischen Anwendung ist die Kennzeichnung von Objekten in Produktion und Materialfluß sowie Lagerwesen innerhalb eines ISO-9000 Richtlinien erfüllenden Qualitätssicherungssystems. Die gekennzeichneten Objekte werden automatisch oder manuell in beliebiger Position und Orientierung in das Lesefeld einer CCD-Kamara gebracht (in den folgenden Beispielen Sony XC-77CE, 756 x 581 Pixel) und der Erfassungs- und Dekodierprozeß durch ein extern dem Auswerterechrier zugeführtes Triggersignal gestartet. Alternativ kann dieser Prozeß auch ohne externes Signal durch ständiges Beobachten des Bildinhaltes durch das Auswerteprogramm automatisch ablaufen. In den folgenden Demostrationsbeispielen wird der Prozeß manuell gestartet.

Weitere Anwendungen des beschriebenen Verfahrens sind

– automatische Suche von Postleitzahl und Ortsbezeichnung auf Anschriftfeldern von Postsachen (wird im Beispiel gezeigt) und Dekodierung der Information
– automatisches Lesen von Ausweisen und ähnlichen Datenträgern auch wechselnden graphischen Layouts
– automatisches Lesen von Schildern bis hin zu KFZ-Kennzeichen eines vorgegebenen graphischen Layouts (nationale Anwendung)

Das gesamte Erfassungs- und Dekodierverfahren ist derzeit als Pascal-Programm (Borland Turbo-Pascal 5.0, 486-er PC) realisiert worden und simuliert sämtliche Schritte von der Erfassung des Bildes der Szene mittels Frame-Grabber bis zur Ausgabe des ASCII-Strings der gelesenen Textzeilen auf einem Drucker.

Technische Daten des derzeit verwendeten Systems, siehe Bild 4

– Kamera XC-77CE mit Makro-Zoom, Objektiv F1.8; 12,5–75 mm + Vorsatzlinse für Nachbetrachtung, + 3 Dioptrien, Aufnahmeabstand 210 mm, Bildfeldgröße ca 55 × 55 mm² entsprechend einem quadratischen Bildausschnitt von 512 × 512 Pixel, Pixelabmessung der Kamera 11 μm × 11μm, sog. quadratische Pixel, Pixelclock f_c = 14,1875 MHz
– Frame-Grabber für Binärbilderfassung /6/, das Binärbild von 512 × 512 Pixel wird gepackt mit 8 Pixel/Byte in einen 32 kByte großen zusammenhängenden Bereich des regulären Upper-Memory RAM-Speicherraums des Host-Rechners abgebildet. Der physikalische 32 kByte RAM-Speicher des Frame-Grabbers wird somit logisch ein Teil des von DOS aus verwaltbaren Speicherraums im Bereich 640 kByte bis 1 MByte. Die Binarisierungsschwelle wird programmgesteuert eingestellt. Die Möglichkeit, die Schwelle adaptiv aufgrund der Dekodierungsergebnisse zu verstellen, ist gegeben, wird derzeit aber noch nicht genutzt.

Bildrotationen sind ein wesentlicher Bestandteil der Algorithmen zur Textzeilensuche. Damit bei Rotation des Bildes keine geometrische Verzerrung auftritt, muß das abgespeicherte Bild gleiche Ortsmaßstäbe in x- und y-Richtung aufweisen, Aspect-Ratio = 1:1. Entsprechend ist – abhängig von den Eigenschaften der Kamera – die Pixelclock der Frame-Grabber-Karte zu wählen. Im Falle der hier verwendeten Kamera XC-77CE ist die Pixelclock der Karte identisch mit der Pixelclock f_c der Kamera.

– PC-AT-Rechner (Rost), Prozessor 48GDX-2, Takt 50 MHz, VGA-Grafik; die G40 × 480 Pixel-VGA-Grafikkarte wird hierbei als RAM-Speicher für alle Pixel-Operationen (Quelle und Ziel) des Binärbildes verwendet. Aufgrund der VGA-Architektur werden 512 (Breite) × 480 (Höhe) Pixel des Binärbildes verarbeitet. Ein (unterer) Bereich von 512 × 30 Pixel geht verloren. Das Originalbild des Frame-Grabbers bleibt bis zum Abschluß aller Operationen der Zeichenerfassung und Dekodierung erhalten. Dies ist eine wesentliche Eigenschaft des neuen Verfahrens: da der Prozeß der Textzeilensuche zufallsgesteuert arbeitet, siehe 3., kann bei einer Rückweisung eines Datenträgers wegen nicht erfolgter Dekodierung ein erneuter Versuch mit zufällig anderen Startbedingungen zum Erfolg führen. Dies wurde mehrfach beobachtet. Hierin liegt ein grundsätzlicher Vorteil gegenüber einem deterministisch ablaufenden Verfahren. Die Verwendung der VGA-Karte als Pixelspeicher hat einen weiteren Vorteil für Simulationen: alle Vorgänge können visuell beobachtet werden. Hierzu werden die Farbattribute der Grafik genutzt (max. 15 Farben, derzeit 7 genutzt). Die Algorithmen operieren damit mit bis zu 7 gleichzeitig dargestellten Binärbildern.

Bei Übertragung der Algorithmen auf andere Rechnerarchitekturen (z.B. 68000-er VME-Bussystem) müssen entsprechend große Binärbildspeicher für Pixeloperationen deklariert werden. Da wesentliche Operationen der Textzeilensuche Bildrotationen beinhalten, ist ein guadratischer Bildausschnitt (mindestens 512 × 512, wünschenswert ca 1024 × 1024 Pixel) einem rechteckigen Bildausschnitt vorzuziehen, wobei das Prinzip der quadratischen Pixel streng einzuhalten ist.

2. Definitionen zur Verfahrensbeschreibung

Nachfolgend werden die Begriffe Erfassung und Dekodierung unterschieden:

– Erfassung ist die omnidirektionale Suche einer aus OCR-Zeichen bestehenden Textzeile eines Schrifttyps (die Zeichen können numerisch 0 bis 9 oder alphanumerisch sein, bevorzugt Großbuchstaben) und die ausgerichtete Ablage, d.h. Speicherung in horizontaler Orientierung in einem verabredeten Speicherbereich.
– Dekodierung ist die Zuordnung eines ASCII-Zeichens zum graphischen Abbild eines OCR-Zeichens, also die Zeichenerkennung.

Die Erfassung berücksichtigt derzeit Schriften mit festem Zeichenabstand ("monospaced"), Proportionalschriften sind nicht zugelassen. Dies ist für industrielle Anwendung keine Einschränkung, Anschriftfelder auf Postsachen werden überwiegend mit festem Zeichenabstand geschrieben. Als Schriften in den folgenden Beispielen werden verwendet:

– eine OCR-B-älinliche Schrift /7/, siehe Bilder 5–18, gedruckt über 9-Nadel-Matrixdrucker Panasonic KX-P1080
– Courier, mit Zeichendichte (pitch) von 10 Zeichen pro Zoll, 12 Punkt, gedruckt mit HP-Deskjet 550C, siehe ab Bild 19.

Alle Abzüge von Bildschirmdarstellungen wurden von VGA-Graphik auf Drucker HP 550C ausgegeben. Das verwendete Koordinatensystein orientiert sich an der VGA-Graphik, Ursprung links oben:
x-Koordinate von links nach rechts, Pixel 128 bis 639,
y-Koordinate von oben nach unten, Pixel 0 bis 479.

3. Zufallsgesteuerte omnidirektionale Erfassung einer Textzeile eines Datenträgers

In der folgenden prinzipiellen Prozeßbeschreibung wird vorausgesetzt:

– eine Textzeile ausreichender Länge (> 3 OCR-Zeichen), im Beispiel Bild 5 mit 10 Zeichen aus Ziffern einer beliebigen Schrifttype mit festem Zeichenabstand und Zeichen gleicher Höhe ohne Ober- und Unterlängen
– keine Hintergrundinformation
– das Binärbild dieser Szene liegt als VGA-Grafik mit dem Farbattribut gelb (Rohbild) vor.

Ein Beispiel für diesen Fall zeigt Bild 5.

3.1 Zufallsgesteuerte Suche

Ausgehend von einem Startpunkt in Bildmitte xr0, yr0 wird über den Aufruf des Randomgenerators in Pascal ein Zufallspunkt xr, yr , Attribut grau, innerhalb eines durch r0 gegebenen Bereiches um den Startpunkt gesetzt. Der Bereich ist ein Quadrat der Seitenlänge 2·r0 mit xr0, yr0 als Mittelpunkt. Liegt dieser Punkt – wie zu erwarten – nicht auf einem Pixel eines der Schriftzeichen (Musterpixel) wird die Suche fortgesetzt, wobei r0 mit der Anzahl der Suchschritte nges erhöht wird. Somit wird zufallsbedingt nach einer Anzahl von Suchschritten zwangsläufig ein Musterpixel gefunden und rot markiert. Ausgehend von diesem getroffenen Pixel wird in der durch eine einstellbare richtungsunabhängige Suchdistanz mindst beschriebenen Umgebung nach dem Zufallsverfahren (Gleichverteilung) ein weiteres Musterpixel gesucht (isotrope Suche) und wenn gefunden, wieder rot markiert, usw. Auf diese Weise wird das gesamte gesuchte Muster mit einer Punktwolke von Suchpixeln und Treffern eingehüllt. Die Trefferkoordinaten werden in einer 2-dim. Matrix mx(n), my(n) gespeichert, n ist die lfd. Nr. des erfolgreichen Suchschrittes.

Das Verfahren ist bis hier in den Bildern 5–8 gezeigt und wird abgebrochen, wenn eine vorher eingestellte Zahl n = nmax, im Beispiel nmax = 1500 erreicht wurde – oder wenn eine obere Grenze nges = nexit von Suchschritten erreicht wird, z.B. in dein Falle, wo kein Muster vorhanden ist. Einmal rot markierte Pixel werden von der weiteren Suche ausgeschlossen, damit das Verfahren das Muster möglichst homogen mit Treffern überzieht und nicht festfährt. Bild 8 zeigt eine typischerweise sich ergebende Punktwolke nach Abschluß der Mustersuche.

Die Verfahrensschritte des geschilderten Suchprozesses sind im Anhang in der Pascal-Prozedur procedure rauschen kommentiert aufgelistet. Die folgenden weiteren Eigenschaften kennzeichnen dieses Suchverfahren:,

– Schriftzeichen (Musterelemente) deren minimaler gegenseitiger Abstand größer ist als mindst werden nicht erreicht, sie bilden ein zweites oder weiteres eigenständiges Muster und können nach Entdecken und entsprechendem Markieren des ersten Musters in einer weiteren Suche gefunden werden. Auf diese Weise können mehrere Textzeilen in beliebiger gegenseitiger Position und Orientierung, vorausgesetzt ihr gegenseitiger minimaler Abstand ist größer als mindst, gefunden, abgelegt und dekodiert werden, siehe hierzu Bild 19 und Bild 48.
– Bereits bei der Suche können die Muster von Textzeilen gegebener Schrifttype von Fremdmustern mit gewisser Wahrscheinlichkeit unterschieden werden, indem nach jeweils z.B. 1000 Suchschritten (nges = 1000, 2000, 3000, usw.) das relative Trefferverhältnis vt = n/nges gebildet und mit einem voreingestellten Gültigkeitsintervall verglichen wird. Für die gezeigten Schrifttypen dieser Arbeit liegt vt für ein Textzeilenmuster typisch zwischen 0,03 und 0,2. Versuche zeigten, daß Fremdmuster oft außerhalb dieses Bereiches liegen (z.B. vt ≈ 1 für große dunkle Flächen, vt < 0,01 für sehr kleine fremde Muster). Das wichtigste Kriterium zur Unterscheidung zwischen Textzeile und fremden Mustern ist jedoch die in 3.3.2 behandelte Korrelation.
– durch Wahl von in x- und y-Richtung unterschiedlichen Suchdistanzen (mindstx, mindsty) kann die Mustersuche auch bei sehr eng parallel liegenden Textzeilen (Textblock, siehe 4.1) durchgeführt werden (anisotrope Suche). Jedoch ist dann nur noch eine Erfassung des Datenträgers innerhalb eines eingeschränkten Winkelbereiches, ausgehend von der Horizontalen (bzw. Vertikalen) möglich. Eine praktische Anwendung ist die automatische Erfassung von Postleitzahlen und Ortsbezeichnungen auf Postsachen, siehe 4.3 und Bild 48.

3.2 Ermittlung der groben Winkel-Orientierung eines entdeckten Musters

Ausgehend von der Situation in Bild 8, nmax Treffer-Koordinaten in Matrix mx(n),my(n), wird die Winkelorientierung φ der gefundenen Textzeile mit Hilfe einer Regressionsanalyse des Punktekollektivs der Treffermatrix bestimmt: Gleichungen siehe z.B. /7/, Algoritlimus in Prozedur procedure regression, Anhang, aufgelistet. Die Bestimmungsgrößen a0, a1 der Regressionsgeraden y = a0 + a1·x werden ermittelt, gleichzeitig wird das Gütemaß der Regression (empirische Reststreuung) σ² ermittelt (sigma21 in procedure regression). Der Winkel der Regressionsgeraden ergibt sich zu φ = arctan(a1).

Es zeigt sich, daß die Güte der Regression (Stabilität des Winkels der Regressionsgeraden) mit wachsendem Winkel φ abnimmt (σ2 steigt). Versuche zeigen, daß die Winkielstabilität so schlecht wird, daß die Orientierung der Textzeile nicht mehr für die weitere Musterverarbeitung ausreicht. Um diesen Fehler zu minimieren, wird folgendes Verfahren angewendet:
x- und y-Koordinaten des Punktekollektivs der Treffermatrix werden vertauscht, die Regressionsanalyse erneut durchgeführt und wiederum σ² errechnet. (sigma22 in procedure regression).

Von beiden Berechnungen wird die mit dem kleineren Wert für σ² als Ergebnis gewählt. Für den Fall sigma22 < sigma2l werden x- und y-Achse rückgetauscht und endgültig die Orientierung φ errechnet. Die sich ergebende Regressionsgerade wird geplottet und ist aus Bild 9 ersichtlich. Die Schwerpunktkoordinaten x_m und y_m des Musters werden ermittelt (Schwerpunkt liegt immer auf der Regressionsgeraden).

3.3 Klassifizierung des gefundenen Musters als Textzeile oder Fremdmuster

Ausgehend von der Situation nach Bild 9 wird über eine Korrelation mit einer bekannten, die Periodizität einer aus Schriftzeichen mit festem Abstand bestehenden Textzeile (Lückenfunktion) und dem unbekannten Muster ermittelt, ob das unbekannte Muster in einem vorgegebenen periodischen Abstand dz Lücken enthält. Zusätzlich wird die Zeichenhöhe hz ermittelt und geprüft, ob diese in einem vorgegeben Intervall liegt. Der Ablauf wird mit Bildern 10–13 und den Prozeduren procedure histogramm und procedure hist_korr erläutert.

3.3.1 procedure histogramm

Das unbekannte Muster, ausreichend dicht beschrieben durch die Treffermatrix mx(n), my(n), wird um den Musterschwerpunkt x_m, y_m herum mit Kenntnis des Orientierungswinkels φ der Regressionsgeraden in die Horizontallage zurückgedreht und in Bildmitte geschoben. Es werden die Histogramme hx(x) über die x-Achse (längs) und hy(y) über die y-Achse (quer) der Pixelhäufigkeiten des Musters gebildet – und nur zu Testzwecken geplottet (hx(x) mit Faktor 10 gedehnt). Die Qualität der Histogramme (eindeutige Kennzeichnung der Lücken zwischen den Schriftzeichen, eindeutige Zeichenhöhe) ist von der Anzahl nmax der Treffer abhängig. Für erwartete Textzeilen mit 4–10 Zeichen ist nmax mit ca 1000–3000 vorzugeben.

3.3.2 procedure hist_korr

Zur Weiterverarbeitung werden beide Histogramme binarisiert (Schwellen hx_min, by_min). Zur sinnvollen Korrelation von hx(x) mit der Lückenfunktion hx_s(x) wird die Bioarisierung von hx(x) mit + 1 für hx(x) > hx_min und mit –1 für hx(x) ≤ hx_min gewählt. Ein typisches sich ergebendes Muster für die bioarisierte Funktion hx(x) ist in Bild 10 zu sehen. Die Lückenfunktion hx_s(x) wird aus dem vorgegebenen Schriftzeichenabstand dz der erwarteten Textzeile errechnet und ist beispielhaft ebenfalls in Bild 10 ersichtlich. Ihr Wertevorrat ist +1, –1 (Schriftzeichenmitte = +1, Lückenmitte = –1). Die Korrelation hx(x) mit hx s(x) zeigt deutliche periodische Maxima und Minima, wenn Lücken- und Zeichenmitten der Lückenftinktion mit entsprechenden Eigenschaften des unbekannten Musters korrelieren. Eine in diesem Sinne gute Korrelation ist in Bild 10 zu sehen.

In Bild 11 wird beispielhaft die Korrelation mit einem freinden Muster gezeigt. Die Korrelation ergibt keine ausgeprägten Extremwerte – und auffällig viele Nulldurchgänge (schlechte Korrelation). In Versuchen wurden folgende Kriterien zur Klassifizierung eines unbekannten Musters mit hoher Sicherheit ermittelt:

– Summe des Absolutbetrages sum_kx der Korrelationsfunktion kx(d) aus hx(x) mit hx_s(x), (Gleichungen, siehe Anhang) über die Existenzlänge d1 bis d2 der Korrelationsfunktion. Wenn diese Summe eine vorgegebene Schwelle (in Versuchen ermittelt minsum = 800) übersteigt, gilt diese Eigenschaft als wichtigstes Kriterium für eine Textzeile. Typische Werte für sum_kx liegen bei einer 10-zifferigen Textzeile bei ca 1500 bis 2200 (vgl. Fremdmuster in Bild 11: sum_kx = 530).
– Die Anzahl der Nulldurchgänge nullz mit positivem Differenzenquotienten liegt für eine Textzeile typischerweise im Bereich 5 bis 40, je nach Länge der Textzeile und Dichte der Trefferpunktwolke (entsprechend nmax). Fremdmuster haben oft sehr viel höhere Werte, vgl. Fremdmuster in Bild 11 mit nullz = 65. im Programmbeispiel sind die Schwellen auf min_z = 3 und max_z = 50 gesetzt: 3 < nullz < 50 gilt als ein weiteres Kriterium für eine Textzeile.
– Die aus Histogramm hy(x) ermittelte aktuelle Zeichenhöhe hz, siehe Bild 10, wird mit der vorgegebenen Zeichenhöhe des erwarteten Schrifttyps verglichen. Da die Regressionsgerade insbesondere bei kurzen Textzeilen bis zu einigen Grad von der wahren Textzeilenrichtung abweichen kann, die horizontal gedrehte Textzeile nach Bild 10 also um diesen Winkel schräg liegen kann, wird ein Erwartungsintervall für hz vorgegeben: mit minhz < hz < maxhz ergibt sich das letzte Kriterium für die Klassifizierung des Musters als Textzeile. In Bild 12 ist ein typischer Fall bei kurzer Textzeile gezeigt, Bild 13 zeigt die zugehörigen Korrelationsergebnisse: gemessene Zeichenhöhe hz = 37, vorgegebene Zeichenhöhe hz = 30, minhz = 21, maxhz = 48.

Wenn alle drei Kriterien erfüllt sind (UND-Verknüpfung) wird auf Textzeile erkannt.

3.4 Markieren des klassifizierten Musters

Nach Klassifizierung als Textzeile bzw. Fremdmuster wird das Ergebnis dem Muster als Farbattribut zugeordnet:

3.4.1 Markieren als Textzeile (gültiges Muster)"

Um jedes rot markierte Trefferpixel herum wird ein Quadrat vorgebbarer Seitenlänge (typisch 20 Pixel) aufgespannt und alle darin enthaltenen gelben Pixel des Rohbildes auf weiß gesetzt: Das Ergebnis ist bei genügender Trefferdichte, d.h. ausreichend großem nmax ein vollständig weiß eingefärbtes Muster. Zufällig unmarkiert bleibende kleinere Bereiche innerhalb des Musters (bei geringer Trefferdichte) sind nicht störend, wie in 3.5.3 beschrieben. Nur weiße Muster werden weiterverarbeitet.

3.4.2 Markieren als Fremdmuster (ungültiges Muster)

Der Vorgang wird wie vorstehend beschrieben, jedoch mit dem Attribut blau ausgeführt. Das Muster gilt als gelöscht (siehe hierzu Beispiel in Bild 31) und wird nicht weiter bearbeitet. Bei einer erneuten Suche nach einer (ggf. weiteren) Textzeile wird das Muster ignoriert.

3.5 Erfassung der markierten Textzeile und ausgerichtete Ablage in einer Matrix

Nach der Regressionsanalyse liegt der Orientierungswinkel φ der Textzeile nur grob vor, Winkelabweichungen von bis zu ca 8° von der wahren Orientierung der Textzeile wurden beobachtet. Zur Korrektur des Fehlers und zur Eingrenzung des weiter zu verarbeitenden Bildausschnittes auf einen mit Sicherheit die markierte Textzeile enthaltenden Bereiches wird das folgende zweistufige Verfahren angewendet.

3.5.1 Grobsuche Text

Bild 14 zeigt die erste Stufe: Ein unter dem ermittelten Winkel φ der Regressionsgeraden aufgebautes Zeilenraster entsprechend einer Auflösung von 128 Suchzeilen scannt das Bild in einem Bereich von 14 Zeilen (entsprechend einer erwarteten Zeichenhöhe von ca 30 Pixel) um die Regressionsgerade herum ab und sucht nach weiß markierten Pixeln. Die Textzeile gilt als gefunden, wenn in einem Scan mehr als 3 Pixel weiß auftauchen. Hiermit wird die obere Begrenzung (firstscan) der Textzeile gefunden. Das Zeilenraster läuft weiter und findet bei einer Anzahl von weniger als 3 Pixel weiß die untere Begrenzung der Textzeile (lastscan). Die 1fd.Nr. der Rasterzeilen, mit denen das Raster die Textzeile erst- und letztmalig im Sinne des geschilderten Kriteriums trifft, werden notiert und aus ihrer Differenz die tatsächliche Höhe der Textzeile ermittelt. Ist die wahre Orientierung der Textzeile identisch mit φ, hat man auch die Höhe hz der Schriftzeichen exakt ermittelt. Bei Schräglage z.B. nach Bild 12, wird hz zu groß ermittelt im Vergleich zum vorgegebenen Wert des erwarteten Schrifttyps.

Das aus Gründen der Zeitersparnis so beschränkte Zeilenraster wird in Bild 14 dargestellt, um den erreichten Stand visuell zu verfolgen: die gefundene und weiß markierte Textzeile liegt mit Sicherheit im dargestellten Bereich.

3.5.2 Feinkorrektur des Orientierungswinkels (Feinsuche Text)

Bild 15 zeigt das Verfahren zur Feinkorrektur des Orientierungswinkels φ: ein nur noch aus firstscan –1 bis lastscan + 1 Zeilen bestehendes Zeilenraster (Zeilenabstand des 128-er Rasters beibehalten) wird um die Regressionsgerade herum (diese ist identisch mit midscan in Bild 14) aufgespannt und in festen Winkelschritten von jeweils 1° um den Schwerpunkt der Textzeile geschwenkt (Rasterrotation). Die Anzahl der Winkelschritte hängt von der ermittelten Zeichenhöhe hz ab: ist diese kleiner als das 1,2-fache der Sollvorgabe, der erwartete Fehler von φ also gering, wird im Bereich φ – 2° < φ < φ + 2° rotiert. Ist hz gleich oder größer, wird im Bereich φ – 10° < φ < φ + 10° rotiert. Nach jedem Rotationsschritt wird wiederum hz ermittelt. Nur wenn die Winkeldifferenz zwischen Regressionsgerade und Textzeilenrichtung Null wird, ist hz minimal. Der sich bei miniinalem hz ergebende Winkel des Zeilenrasters ist der wahre Winkel der Orientierung der Textzeile. Versuche zeigten, daß bei langen Textzeilen (6–10 Zeichen) der Restfehler i.a. unter 2° liegt. Dies ist für die spätere Dekodierung ausreichend. Bekannte Ansätze /5/ dekodieren noch bis Schräglagen von 8°.

3.5.3 Ausgerichtete Ablage der Textzeile

Nach Feinkorrektur wird der von der Textzeile eingenommene Bildbereich einschließlich einer Sicherheitsreserve von je einer Rasterzeile ober- und unterhalb der Textzeile mit einem entsprechend rotierten Zeilenraster mit der maximal möglichen Auflösung (im Beispiel 512 × 512 Pixel) abgetastet und in einer Matrix text ausgerichtet abgelegt. Bilder 16 und 17 visualisieren diesen Vorgang. Bild 17 zeigt den vom feinzeiligen Raster maximal möglicher Auflösung eingenommenen Bildbereich, Farbattribut grün. Das Auswerteprogramm hat dazu dessen Begrenzungskoordinaten aus der Kenntnis weiß markierter äusserer Musterelemente errechnet. Innerhalb des Musters liegende kleinere gelb gebliebene Bereiche infolge nicht ausreichender Trefferdichte werden hierbei miterfaßt: der Algorithmus speichert alle Musterelemente mit weißer und gelber Markierung.

Durch die grün erfolgte Markierung der in Matrix text abgelegten Textzeile gilt diese für die weitere Suche als erfaßt und gelöscht. Bild 18 zeigt die ausgerichtete Textzeile (Inhalt der Matrix text) und ihre Position innerhalb des in Bild 17 markierten Bereiches in Originalgröße und 2-fach gezoomter Darstellung.

Die Textzeile ist aufrecht stehend abgebildet worden. Bei einer zufällig um 180° gedrehten Orientierung des Datenträgers wäre sie kopfstehend abgebildet worden. Das in 5.4 gezeigte neuronale Dekodierverfahren berücksichtigt beide Möglichkeiten.

4. Zufallsgesteixerte Suche mehrerer Textzeilen eines oder mehrerer Datenträger

4.1 Erfassen mehrerer Datenträger mit je einer Textzeile

Bild 19 zeigt beispielhaft eine Szene mit 2 Datenträgern (Etiketten) je einer Textzeile mit je 10 Zeichen auf einem freinden Text enthaltenden Hintergrund. Die Textzeilen sind gegeneinander und gegen den Hintergrund beliebig positioniert und orientiert. Beide Textzeilen werden in isotroper Suche gefunden (mindst = 30, nmax = 1000), die Suche startet in Bildmitte. Bilder 20–29 zeigen den Prozeß bis zur Ablage der ausgerichteten Textzeilen. Im Erfassungsprogramm wurde per Vorgabe nach genau 2 (erwarteten) Textzeilen gesucht. Die Pixelabmessungen des Bildfeldes lassen im gegenwärtig realisierten PC-Simulatiousprogramm max. 5 Textzeilen zu je 10 Zeichen zu.

Sollte nach mehr Textzeilen gesucht werden als vorhanden sind, wird der Suchalgorithmus spätestens nach Entdecken und Ablegen der vorhandenen Textzeile(n) nur noch auf Fremdmuster einrasten – und diese nach Korrelation mit der Lückenfunktion für die erwarteten Textzeilen löschen. Bilder 30 und 31 zeigen beispielhaft einen Fall, in dem nach zwei Textzeilen gesucht wird, aber nur eine vorhanden ist. Damit der Algorithmus gezielt abbrechen kann, wird nach einer vorgegebenen Anzahl von Suchzyklen der Erfassungsprozeß beendet. Ein Zyklus entspricht der Folge der in Bildern 21–28 bei erfolgreicher, bzw. der in Bildern 21 und 22 bei ergebnisloser Suche gezeigten Schritte. Im vorliegenden Fall wird nach 20 Zyklen geordnet abgebrochen.

4.2 Erfassen eines Datenträgers mit mehrern parallelen Textzeilen (Textblock)

Bilder 32–34 zeigen am Beispiel eines 5-zeiligen Textblocks mit engem Textzeilenabstand das Prinzip der anisotropen Suche. Die bisher in jeder Richtung identische durch mindst gegebene Suchdistanz kann bei den eng liegenden parallelen Textzeilen nicht angewendet werden. Die Punktwolke der Suchpixel würde den gesamten Textblock einhüllen. Durch unterschiedliche Suchdistanzen in x- und y-Richtung ist das Problem jedoch lösbar: mit (beispielhaft) mindstx = 30 und mindsty = 8 wird verhindert, daß die Punktwolke einer Textzeile auf eine benachbarte überspringen kann. Dies funktioniert bis zu einem durch Textzeilenabstand und Zeichenhöhe bestimmten Rotationswinkel φ der Textzeilen, siehe Bild 49. Im gezeigten Fall ist eine Rotation des Datenträgers von φ = ± 20° gegen die Horizontale noch zulässig. Die Suche beginnt im Beispiel in Bildmitte. Die Folge der erfaßten Zeilen in Bild 34 ist daher zufällig. Dies kann verhindert werden, wenn die zufallsgesteuerte Suche um den Startpunkt herum mit einem deterministisch fortschreitenden Startpunkt erfolgt. Dieser bewegt sich etwa in Bildmitte in festen Schritten nach unten. Nachdem die oberste Textzeile gefunden wurde, bewegt sich der Startpunkt also etwa um einen Textzeilenabstand nach unten. Dort beginnt die Zufallssuche erneut, usw.

4.3 Erfassen von Postleitzahl und Ort auf Postsachen (automatusche Sortierung)

Bilder 35 bis 37 zeigen beispielhaft die Erfassung von Postleitzahl und Ort. Die Suche beginnt wie vorstehend beschrieben, jedoch von unten startend. Sie erfolgt anisotrop mit mindstx > mindsty, damit der Abstand zwischen Postleitzahl und Ort überbruckt werden kann, ohne daß die Punktwolke der untersten Zeile (Postleitzahl u. Ort) auf den Rest der Anschrift überspringt. Der Startpunkt der Suche wurde im Beispiel zufällig etwa in die Mitte zwischen unterster und folgender Zeile gesetzt. Dies ist in praktischen Anwendungen (z.B. automatische Briefsortierung) infolge der großen Variabilität, in der die Textzeilen einer Anschrift positioniert sein können, nicht unrealistisch.

Wie Bild 36 zeigt, rastet die Suche zufällig zunächst auf die Name und Straße enthaltenden Textzeilen ein, löscht diese dann aber, wie in Bild 37 gezeigt, weil die Korrelation ein unsinniges Muster ergibt. Das damit verbleibende Zielgebiet wird, da der Startpunkt nicht verändert wurde, mit hoher Wahrscheinlichkeit die unterste Zeile sein. In Bild 37 wird diese als gültig markiert, Grob- und Feinsuche Text durchgeführt und die Textzeile mit Postleitzahl und Ort ausgerichtet erfaßt und abgelegt. Mit geringer Wahrscheinlichkeit könnte wegen der geschilderten Unkenntnis der Textzeilenpositionen auch bei von unten beginnender Suche und kleinem deterministischem Anteil im nach oben fortschreitenden Suchschritt auch eine falsche Zeile des Anschriftfeldes gefunden und abgelegt werden.

Durch eine nach Dekodierung der Textzeile, siehe 5.4, durchgeführte zusätzliche Plausibilitätsprüfung anhand einer Postleitzahl und Ort enthaltenden Datenbank kann der Fehler erkannt und die Suche erneut durchgeführt werden: die Startparameter werden zufällig anders, möglicherweise günstiger liegen, bzw. es kann gezielt abgebrochen werden.

Auf ein zusätzlich auftretendes Problem bei automatischer Sortierung wird hingewiesen: infolge unterschiedlicher zu erwartender Schrifttypen und damit auch unterschiedlicher Zeichenabstände dz muß die Korrelation mit der Lückenfunktion mehrfach mit variiertem Wert für dz durchgeführt werden. Aus dem Maximum aller Korrelationssummen sum_kx kann dann auf das vorliegende dz rückgeschlossen werden. Dieser Wert wird bei der Segmentierung der Schriftzeichen noch benötigt. Die Dekodierung unterschiedlicher Schrifttypen mit neuronalen Netzwerken wird in 5.4.3 behandelt.

Die anisotrope Suche läßt wie geschildert nur eine eingeschränkte Rotation φ zu.

Dies ist hier wenig nachteilig, da Postgut überwiegend vororientiert angeboten werden kann. Eine Rotation von ± 20° gegen die Horizontale kann vom Verfahren toleriert werden.

5. Dekodierung einer ausgerichtet abgelegten Textzeile mit neuronalen Netzen

Die Dekodierung einer ausgerichtet abgelegten Textzeile erfolgt in 4 Schritten:

-1- Segmentierung der einzelnen Schriftzeichen so, daß jedes zu dekodierende Zeichen einzeln als binäres Pixelbild in einem reservierten Speicherbereich (im folgenden Pixelbox genannt) abgelegt wird. Es dürfen hierbei keinerlei Pixel eines Nachbarzeichens mit erfaßt werden.

-2- Konturglättung und Füllen von Löchern in der Kontur des in der Pixelbox abgelegten Zeichens, d.h. Korrektur von grundsätzlichen Fehlern der Rasterrotation infolge von Rundungen beim Errechnen der Zielpixel-Koordinaten.

-3- Merkmalextraktion: eine ausreichend hoch bemessene Anzahl von Merkmalen, mit denen sich jede Musterklasse von allen andern Musterklassen des Zeichenvorrats des verwendeten Schrifttyps unterscheiden lassen, wird ausgewählt. Musterklasse ist ein Zeichen des Zeichenvorrats mit allen durch Druck, ggf. Verschmutzung und Digitalisierung möglichen Variationen seiner Normgestalt.

-4- Delcodierung (Erkennung) des mit seinen Merkmalen beschriebenen Zeichens im neuronalen Netz. Dieses wurde vorher mit einem repräsentativen Satz von bekannten Vertretern der zu erkennenden Musterklassen trainiert. Das Training soll neben den ungestörten Normzeichen insbesondere auch Zeichen mit verfahrenstypischen Variationen verwenden. Die Delcodierung liefert als Ergebnis das ASCII-Zeichen der erkannten Musterklasse oder meldet eine sogenannte Rückweisung, wenn eine Klasse nicht erkannt werden konnte. Auch mit Fehlklassifikationen ist zu rechnen.

Die im folgenden detailliert beschriebenen Prozesse benutzen zur Visualisierung wiederum die VGA-Graphik mit Farbattributen. Die in 4. erfaßte und ausgerichtete Textzeile wird wie in Bild 38 gezeigt positioniert. Sie kann zufallsbedingt auch kopfsteliend (180°-rotiert) angeboten werden.

5.1 Segmentieren der Schriftzeichen

Die Segmentierung erfolgt in x- und y-Richtung analog zum Verfahren nach 3.3 wiederum durch Histogrammanalyse. Es werden jetzt jedoch alle Pixel des Musters Textzeile verarbeitet.

5.1.1 Segmentierung in x-Richtung

Linke und rechte Begrenzung der Zeichen werden durch die in Bild 38 gezeigte Lückenfunktion, die mit dem Histogramm über die x-Achse korreliert wird, ermittelt. Die Lückenfunktion wird mit Kenntnis des vorgegebenen und aus 3.3 bestätigten Zeichenabstandes dz konstruiert und hat die Werte + 1 über die mittlere Breite der erwarteten Lücken, 0 über die mittlere Breite des Zeichens. Eine sich typischerweise ergebende Korrelatiosfunktion ist in Bild 38 gezeigt. Das Minimum der Korrelationsfunktion bestimmt die Positionierung der Lückenfunktion so, daß deren Position der Lücken mit der mittleren Lückenposition der Textzeile übereinstimmen. Die in Bild 38 gezeigten vertikalen Trennungslinien zwischen den OCR-Zeichen sind die so ermittelten Lückenmitten.

5.1.2 Segmentierung in y-Richtung

Obere und untere Begrenzung der Zeichen und damit der Textzeile werden durch Auswertung des Histogramms in Bild 38 rechts oben über die y-Achse so gebildet, daß ein Histogrammbetrag kleiner als 3 Pixel unter der Bedingung, daß dieser Fall nicht innerhalb des Histogramms, sondern nur an den Grenzen auftritt, die Begrenzung kennzeichnet. Ein Sicherheitsbereich von jeweils 3 Pixeln Höhenabstand wird oben und unten dem Ergebnis zugeschlagen und die somit ermittelte obere und untere Begrenzungslinie in Bild 38 gezeigt.

5.1.3 Pixelbox

Wie man erkennt, liegt ein Zeichen stets innerhalb des durch die Begrenzungslinien gebildeten Zeichenframes aus dz·hz Pixel, auch Blanks werden korrekt berücksichtigt. Störungen in Form einzelner isolierter Pixel (Spots) irritieren das Verfahren nicht. Der Inhalt eines Zeichenframes wird in der in Bild 38 gezeigten Pixelbox zur Visualisierung von Zeichen und Segmentierung in 4-fach gezoomter Darstellung gezeigt. Alle weiteren Schritte bis zur Merkmalextraktion werden anhand der Pixelboxdarstellung erklärt.

Die Pixelbox hat eine Größe von 30 (Breite) × 40 (Höhe) Pixel, so daß binäre Zeichenmuster mit einem Informationsgehalt von bis zu 30·40 = 1200 Bit bearbeitet werden können. Der Hintergrund der Pixelbox hat den Wert 0, gesetzte Pixel der Zeichenkontur erhalten den Wert 1.

Die gewählte Größe der Pixelbox ist dem Stande der Technik nach ausreichend für eine Erkennung von OCR-Zeichen direkt im Ortsbereich mit neuronalen Netzen. Typische Pixelabmessungen von Zeichenframes veröffentlichter Arbeiten liegen zwischen 10 × 10 und 32 ×32 mit einer Häufung bei ca 20 × 20 Pixeln /9/, /10/, /12/, /13/, /18/. Nur in Sonderfällen werden größere Abmessungen verwendet: 61 × 61 in /15/.

Das Verfahren der visuell beobachtbaren und vergrößert dargestellten Pixelbox wurde eingeführt, um zu Optimierungs- und Testzwecken vor Übergabe von Merkmalen an das neuronale Netz die Zeichengestalt beurteilen und den Vorgang der Merkmalextraktion verfolgen zu können. Mit Rücksicht auf industriellen Einsatz und Bedienung/Umstellung durch angelernte Kräfte ist dies ein wesentlicher Vorteil des Verfahrens im Vergleich zu einer Black-Box Realisierung.

5.2 Konturglättung, Füllen von Löchern

Mit den in Bild 39 gezeigten Faltungsmasken werden 1-Pixel breite Ausbrüche am Rand der Kontur und 1-Pixel große Löcher im Inneren der Zeichenkontur geschlossen. Die Wirkung ist durch Vergleich der Pixelboxen in den Bildern 38, 39 und 41, 42 beispielhaft zu verfolgen.

5.3 Merkmalextraktion"

Von den bekannten Möglichkeiten der Merkmalextraktion binärer Muster /20/, /21/,

– Feature Extraction
– Orthogonaltransformation des Musters (Fourier-Transformation /25/ oder Walsh-Transformation /19/)
– direkte Auswertung des Musters im Ortsraum wurde das letztere gewählt und das Verfahren in Bild 40 gezeigt. Über das sich in der Pixelbox befindende OCR-Zeichen wird ein orthogonales Gitterraster mit 12 äquidistanten Zeilen und 10 äquidistanten Spalten gelegt. An den Kreuzungspunkten von Zeilen und Spalten wird das OCR-Zeichen abgetastet: damit werden 12·10 = 120 Bit der Informationsmenge des Zeichens als binäre Merkmale systematisch herausgegriffen. Die Position des Zeichens innerhalb der Pixelbox ist dabei gleichgültig, da effektive Zeichenbreite und -Höhe (im Beispiel 23 bzw. 30 Pixel) die linke/rechte und obere/untere Begrenzung des Rasters festlegen. Auch die Größe des Zeichens darf in Grenzen variieren: die untere Grenze ist mit 12 × 10 Pixel (dichtmöglichste Rasterlinien), die obere durch die Pixelboxabmessungen gegeben (dann aber keine Positionsvarianz mehr möglich). Innerhalb technisch vernünftiger Grenzen erfolgt die Merkmalextraktion damit translations- und gößeninvariant. Rotation ist bis auf den Restfehler der Feinsuche 3.5.2 ausgeschlossen. Translations- und Größeninvarianz sind sehr wesentliche Eigenschaften für industrielle Anwendungen, da neuronale Netze vertretbaren Aufwandes diese Eigenschaften fordern. Erste Ansätze zur Entwicklung neuronaler Netze, die auch ortsvariante Muster erkennen können, sind noch Forschungsgegenstand /11/, /16/. Die praktische Notwendigkeit einer begrenzten Größeninvarianz ergibt sich z.B. aus folgender Anwendung: die Kamera beobachtet die Oberfläche eines Förderbandes. Pakete unterschiedlicher Höhe mit OCR-Etiketten ergeben unterschiedliche Zeichengrößen in der Bildebene infolge der wechselnden Gegenstandsweite.

5.3.1 Merkmalvektor

Das durch 120 Merkmale beschriebene OCR-Zeichen wird durch zeilenweises Auslesen des Abtastgitters als eindimensionaler Merkmalvektor mit 120 binären Komponenten (0 = Hintergrund, 1 = Kontur) der Erkennungseinheit – einem neuronalen Backpropagation-Netz zugeführt.

5.3.2 Variation der Merkmalenzahl

Aus der Beschreibung 5.3 folgt, daß auch Abtastgitter anderer Spalten- oder Zeilenzahl realisierbar sind. Orientierende Versuche mit ca 500 Zeichen (Ziffern 0–9) zeigten, daß zur Erkennung mit dem unter 5.4 gezeigten Netztyp bei einer Erkennungsrate von ca 99% (d.h. 1 % Rückweisungen oder Fehlklassifizierungen) bei etwa gleicher Druckqualität der Zeichen mit Drucker HP 550C und etwa gleicher Szenenbeleuchtung, aber beliebiger Rotationslage bei der Bildaufnahme, 12 × 10 Merkmale nicht unterschritten werden sollten.

Eine Erhöhung auf 35 × 25 = 875 Merkmale wurde realisiert, brachte jedoch keine signifikante Verbesserung. Sie könnte jedoch bei Ausdehnung des Zeichenvorrates auf den gesamten alphanumerischen Zeichensatz erforderlich werden.

5.4 Neuronales Netz

Zur Zeichenerkennung wird ein 3-schichtiges Netz (Input-Schicht, Hidden-Schicht, Output-Schicht) vom Multi-Layer Perzeptrontyp /22/ angewendet und mit der Backpropagation Lernmethode /22/, /23/, /24/ trainiert. Nachstehend wird dies dem Sprachgebrauch folgend als Backpropagation-Netz bezeichnet.

Die Netztopologie ist aus Bild 44 ersichtlich.

5.4.1 Aufbau des Netzes

Die in Bild 44 gezeigte Topologie ist in procedure backpropagation (Anhang) realisiert worden:

– der Input-Schicht, bestehend aus 120 Übergabeneuronen (Output = Input) wird der binäre Merkmalvektor xn(i) wie in 5.3.1 ermittelt angeboten. Die Komponentenzählung i läuft von 1 bis 120
– die aus 10 Neuronen bestehende Hidden-Schicht setzt die aus dem Input und der Gewichtungsmatrix w_hid(r,i), einschließlich eines für alle Elemente konstanten Bias = 1, errechnete Propagierungsfunktion (kumulierter Input) net(r) in die Ausgangsfunktion o_hid(r) um. Es wird die sigmoide Transferfunktion (Aktivierungsfunktion) o_hid(r) = 1/(1 + exp(–g_hid·net(r))mit g_hid = 1 angewendet und damit die Ausgangsfunktion o_hid(r) der Hidden-Schicht auf den Wertebereich 0 bis 1 begrenzt
– die Output-Schicht enthält für jede der 10 Zeichenklassen 1 Neuron. Die Neuronen der Output-Schicht sind im Aufbau identisch mit denen der Hidden-Schicht. Es wird die gleiche sigmoide Transferfunktion zur Berechnung der Ausgangsfunktion yn(r) der Zeichenklassen wie in der Hidden-Schicht verwendet. Die Gewichtungsmatrix ist w_out(r,i).

Damit besteht das Backpropagation-Netz aus 140 Neuronen und 121 * 10 + 10 * 10 = 1320 Verbindungen = Gewichte.

Die Gewichtungsmatrizen wurden mit dem Neuro-Compiler NC /24/ trainiert und als Download in das Netz übertragen.

5.4.2 Training des Netzes

Bisher wurde das Netz exemplarisch zum Beweis seiner grundsätzlichen Brauchbarkeit mit nur 50 Mustern der Klassen 0 bis 9 (Schrifttype Courier 10 Zeichen/Zoll, siehe Bild 2) auf dem Neuro-Compiler unter Einstellung der gleichen Netztopologie wie Bild 44 trainiert.

Die Lernparameter /23/, /24/, /26/, /27/ wurden wie folgt eingestellt:
dynamischer Lernfaktor σ = 0,1 σ-Rate = 1
dynamischer Momentumfaktor μ = 0,9 μ-Rate = 1
Abbruchfehler = 0,001

Auf einem 486-er PC, Takt 50 MHz, ergab sich der gewünschte Abbruchfehler nach einer Rechenzeit von ca 5 Minuten entsprechend einer Anzahl von 379 Zyklen. Die Muster wurden mit HP 550C schwarz gedruckt und vom Framegraber durch Verstellen der Digitalisierungsschwelle mit dünner, mittlerer und dicker Kontur aufgenommen. Die Reihenfolge, in der Lernmuster angeboten werden, ist generell als kritisch anzusehen /23/, /22/ – das Netz muß die zu lernenden Muster offensichtlich gleichmäßig zugeführt bekommen: im vorliegenden Fall wurden die Muster 5 mal in der Folge 0 bis 9 angeboten.

Die Musterauswahl wurde mit Hilfe der Pixelbox 5.1.3 unter Nennung der Zeichenklasse getroffen und im NC-Lernfileformat /24/ zusammengestellt. Ein Ausschnitt aus einem Lernfile ist in Bild 45 gezeigt.

Bild 46 zeigt die derzeitige einfache Menüsteuerung für die Erstellung der Trainingsfiles, bzw. zur Erkennung einer unbekannten Textzeile (Pkt 14).

Die nach dem exemplarischen Training erhaltenen Ergebnisse wurden in 5.3.2 geschildert.

5.4.3 Klassifizierung und Ausgabe

Der in 5.3.1 beschriebene Merkmalvektor wird über eine 2-dim. Matrix (Komponentenzählung, 1fd.Nr. z des Zeichens der Textzeile) an das Netz übergeben. Zunächst wird dabei angenommen, daß die Textzeile aufrecht steht: Normallage. Die Ergebnisse des neuronalen Netzes yn(r) für jedes Zeichen z liegen wie beschrieben zwischen 0 und 1, mit typischen Werten für gute Erkennung etwa im Bereich 0,96 bis 0,99. Die Summe aller so ermittelten Klassenergebnisse wird gebildet und zunächst gespeichert, siehe max_sum in Bild 47. Die Textzeile wird anschließend durch uingekehrtes Auslesen der den Merkmalvektor und die Zeichenzählung enthaltenden Matrix um 180° rotiert, also angenommen, daß sie kopfstehend vorliegt: 180-Grad-Lage und wiederum max_sum gebildet. Typischerweise unterscheiden sich beide Werte (Ausnahme Textzeilen aus Ziffern 0, 6, 9 – bei denen aber auch eine vom Menschen getroffene Entscheidung nicht eindeutig sein kann). Die Orientierung entspricht dem größeren der beiden Werte für max_sum.

Nach Ermittlung der Orientiering erfolgt die Bestimmung der Zeichenklassen. Bild 47 zeigt beispielhaft die Bewertung des Zeichens z = 1, Klasse r = 1 aus Bild 18. Die für die Bewertung erforderlichen Größen werden in procedure bewertung_l errechnet, siehe Anhang. Es bedeuten yz(z,r) = Outputvektor yn(r) über alle Zeichen z, l = Klassenanzahl.

In procedure ascii_out wird durch Vergleich von höchstem und nächsthöchstem Klassenmaximum, sowie dem Mittelwert aller Klassen entschieden auf:

– Zeichen als Klasse 0 bis 9 sicher erkannt
– Zeichen als B1ank erkannt
– Zeichen nicht gesichert erkannt (Rückweisung)

Entsprechend dem Training nach 5.4.2 wird nur eine Schrifttype verwendet. Kommen für eine Erkennungsaufgabe mehrere gleichzeitig zu verwendende Schrifttypen in Betracht, können grundsätzlich 2 Verfahren angewendet werden

– Training aller Zeichen aller verwendeten Schrifttypen mit einem Netz und Anwendung dieses Netzes zur Erkennung aller Zeichen der verwendeten Schrifttypen, z.B. /14/ mit vorgeschalteter Feature Extraction
– Jeder verwendeten Schrifttype wird ein eigenes trainiertes Netz zugewiesen. Da bei der Erkennung die Schrifttype im allgemeinen nicht bekannt ist, wird die Dekodierung mit jedem Netz versucht und das beste Ergebnis (etwa im Sinne der oben geschilderten Bewertung der Klassenergebnisse) ausgewählt.

Ein grundsätzlicher Versuch zum letzteren Verfahren wurde im Falle nur zweier verwendeter Schrifttypen in dieser Arbeit erfolgreich durchgeführt:
Es wurden Etiketten mit OCR-B und Courier nach Bild 2, Zeichen 0 bis 9 zufällig vorgelegt und durch Umladen der vorher entsprechend trainierten Matrizen w_hid und w_out dekodiert und das Ergebnis über den maximalen Betrag von max_sum ermittelt.

Literatur

/1/ Zukunftssicher: der Barcode Produktion, 26.1.95, Nr. 4, S.9
/2/ Wevelsiep, K., Intelligenter Positions- und Klarschriftsensor Elektronik, 1983, Nr.16, S.95–98
/3/ Verfalren und Vorrichtung zum Identifizieren von Gegenständen Patentschrift DE3014350 , 24.3.83
/4/ Verfahren und Vorrichtung zum Identifizieren von Gegenständen Europäische Patentschrift 0017950, 31.8.83
/5/ OCR-Handleser 2481. Technische Beschreibung Siemens AG, 1980
/6/ Höfer, H., Koch, R., Aufbau einer Video-Interface-Karte Diplomarbeit der Fachhochschule Gießen-Friedberg, 1989
/7/ Taschenbuch Mathematischer Formeln und moderner Verfahren Thun u. Frankfurt: Harri Deutsch Verl. 1992 ISBN 3-8171-1241-6, S. 701–703
/8/ Spehr, F.: Untersuchungen zur digitalen Bildverarbeitung und zur optischen Texterkennting Diplomarbeit der Fachhochschule Gießen-Friedberg, 1991
/9/ Föhr, R., Raus, M.: Automatisches Lesen amtlicher Kfz-Kennzeichen Elektronik, 1994, H.1, 5.60-64
/10/ Heilmann, Steffen: Untersuchungen zur Kfz-Nummernschilderkennung mit einem ARTMAP-Netz Diplomarbeit der Fachhochschule Jena, 1993
/11/ Perantonis, Stavros J., Lisboa, Paulo J.G.: Translation, Rotation, and Scale Invariant Pattern Recognition by High-Order Neural Networks and Moment Classifiers IEEE Transactions on Neural Networks, Vol. 3, No.2, March 1992, pp 241–251
/12/ White, Brian A., Elmasry, Mohamed I.: The Digi-Neocognitron: A Digital Neocognitron Neural Network Model for VLSI IEEE Transactions on Neural Networks, Vol.3, No.1, January 1992, pp. 73–85
/13/ Fukushima, Kunihiko, Wake, Nobuaki: Handwritten Alphanumeric Character Recognition by the Neocognitron IEEE Transactions on Neural Networks, Vol .2, No.3, May 1991, pp 355–365
/14/ Sabourin, Michael, Mitiche, Amar: Optical Character Recognition by a Neural Network ^y Neural Networks, Vol.5, 1992, pp 843–852
/15/ Kim, Eun Jin, Lee, Yillbyung: Handwritten Hangul Recognition Using a Modified Neocognitron Neural Networks, Vol.4, 1991, pp 743–750
/16/ Coolen, A.C.C., Kuijk, F.W.: A Learning Mechanism For Invariant Pattern Recognition in Neural Networks Neural Networks, Vol.2, 1989, pp 495-506
/17/ Felten, E.W., Martin, 0., Otto, S.W.: Multi-Scale Training of a Large Baclcpropagation Net Biol. Cybern, 62, 1990, pp 503–509
/18/ Säckinger, Eduard, Boser, Bernhard E., Bromley, Jane: Application of the ANNA Neural Network Chip to High-Speed Character Recognition IEEE Transactions on Neural Networks, Vol.3, No.3, May 1992, pp 498–505
/19/ Rajavelu, A., Musavi, M.T., Shirvaikar, M.V.: A Neural Network Approach to Character Recognition Neural Networks, Vol.2, 1989, pp 387–393
/20/ Zamperoni, P.: Methoden der digitalen Bildsignalverarbeitung, Braunschweig u. Wiesbaden: Vieweg Verl. 1989. ISBN 3-528-03365-7
/21/ Niemann, H.: Methoden der Mustererkennung, Frankfurt a.M.: Akademische Verlagsgesellschaft 1974. ISBN 3-400-000213-5
/22/ Kinnebrock, W.: Neuronale Netze München: Oldenbourg Verl. 1994. ISBN 3-486-22947-8
/23/ Schöneburg, E., Hansen, N., Gawelczyk: Neuronale Netzwerke Haar: Markt u. Technik Verl. 1990. ISBN 3-89090-329-0
/24/ Handbuch zum Neuro-Compiler NC, Version 1.0 Neurolnformatik GmbH, Berlin, Überlingen, 1992
/25/ Haberäcker, P.: Digitale Bildverarbeitung München: Hanser Verl. 1987. ISBN 3-446-14901-5
/26/ Cichocki, A., Unbehauen, R.: Neuronal Networks for Optimization and Signal Processing Stuttgart: Wiley u. Teubner Verl. 1993. ISBN 3-519-06444-8
/27/ Ritter, H., Martinez, T., Schulten, K.: Neuronale Netze Bonn Addison-Wesley Verl. 1991. ISBN 3-89319-172-0

Zum Verständnis der Wirkungsweise der für das Verfahren der zufallsgesteuerten Suche und der für die Zeichendekodierung mit neuronalen Netzen wichtigsten Algorithmen sind die entsprechenden PASCAL-Prozeduren des derzeit realisierten Programms als Listing angefügt

– procedure rauschen
– procedure regression
– procedure histogramm
– procedure hist_korr
– procedure backpropagation
– procedure bewertung_l
– procedure display bewert
– procedure ascii_out

Claims

Verfahren zur omnidirelekionalen Erfassung, d.h. zur Erfassung unter beliebiger örtlicher Position und unter beliebiger winkelmässiger Orientierung, von optisch lesbaren Zeichen (vorzugsweise von "OCR-Klarschrift"), welche kontrastierend auf Etiketten oder ähnlichen Datenträgern aufgebracht sind und diese Datenträger innerhalb eines Lesefeldes einer Lesevorrichtung vorgelegt werden , wobei der Hintergrund des Lesefeldes beliebig graphisch strukturiert sein kann, d.h. in Form und Farbe beliebige geometrische reguläre und/oder irreguläre Muster enthalten kann, wobei auch ein farblich homogener Hintergrund ohne jedwedes Muster zugelassen ist, dadurch gekennzeichnet, dass keinerlei Zusatzinformation, wie spezielle optisch oder magnetisch erkennbare Symbole, oder sonstige Orientierung und Position der zeilenförmig angeordneten optisch lesbaren Zeichen kennzeichnende Hilfssymbolik erforderlich ist, um die zu erkennende Zeile optisch lesbaren Zeichen von dein graphisch beliebig gestalteten Hintergrund zu separieren und zu deleodieren, d.h. in einen ASCII-Zeichenstring umzusetzen, auszugeben oder weiter zu verarbeiten, gleichgültig, in welcher Orientierung und Position die zu erfassenden optisch lesbaren Zeichen in Bezug auf das Koordinatensystem der Lesevorrichtung vorliegen, indem eine statistisch arbeitende, zufallsgesteuerte Suchvorrichtung, bzw. ein solches Suchverfahren zunächst die Orientierung, d.h. den Rotationswinkel der aus den optisch lesbaren Zeichen bestehenden Zeile unabhängig von deren örtlicher Position gegen eine den Rotationswinkel Null kennzeichnende „ausgerichtete" Normallage ermittelt und nach typischen Merkmalen der optisch lesbaren Zeichen und und örtlichen Kombinationen, wie z.B. vorgegebene Zeichenhöhe und Zeichenabstand (Pitch) sucht und mittels Korrelation mit entsprechend abgespeicherten globalen Vergleichsmerkmalen des erwarteten Zeichensatzes , bzw. Schrifttyps vergleichend prüft, ob sinnvoll dekodierbare Textzeilen-Information vorliegt und, sofern die Prüfung sinnvoll dekodierbare Information bestätigt, d.h. im Sinne einer Aufgabenstellung verabredete globale Vergleichsmerkmale entdeckt hat, die gesamte, numehr als „gültig" erkannte Textzeile unabhängig von Position und Orientierung in die ausgerichtete Normallage dreht und in einem verabredeten Speicherbereich der die Erfassung und Deleodierung durchführenden Lesevorrichtung so ablegt, dass unabhängig von Position und Orientierung der als gültig markierten Schriftzeile diese stets ausgerichtetet in Normallage gespeichert ist und aus dieser heraus die Deleodierung der Zeichen mit bekannten Mitteln der Technik vorgenommen wird und die Ausgabe des ASCII-Äguivalents der Zeichen in der Reihenfolge ihrer Anordnung auf der Textzeile an einer üblichen Schnittstelle erfolgt, bzw., wenn die Prüfung nicht sinnvoll dekodierbare Information bestätigt, ein eine lesbare Textzeile vortäuschendes Muster angenommen wird und dieses logisch als nicht verwertbar, d.h. ungültig im Sinne der Aufgabenstellung markiert wird und das gesamte Verfahren ohne Speicherung des im Sinne der Aufgabe ungültigen Musters danach logisch determiniert beendet wird und die Suchvorrichtung, bzw. das Suchverfahren wieder in den Ausgangszustand zurückkehrt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zur Beschleunigung des Erfassungsvorgangs ausgehend von einem Startpunkt in dem örtlichen Bereich des Lesefeldes, in dem der zu erfassende und zu dekodierende optisch lesbare Datenträger aufgabentypisch erwartet wird, sog. „Suchpixel", deren Koordinaten von einem Zufallsgenerator, der Bestandteil der statistisch arbeitenden Suchvorrichtung, bzw. des Suchverfahrens ist, erzeugt werden und das Lesefeld nach farblich gegenüber dem Hintergrund kontrastierenden Musterpixeln in einer solchen Weise absuchen, dass der Suchbereich mit jedem erfolglosen Suchschritt, der dann gegeben ist, wenn ein Suchpixel auf „leeren" Hintergrund trifft, solange erweitert wird, bis zufällig ein Musterpixel getroffen wird und dann der Suchbereich auf eine geeignete Suchdistanz, die einige Pixel grösser sein muss als der grösstmögliche minimale Abstand zweier zu einer Textzeile des erwarteten Schrifttyps gehörende Schriftzeichen, verkleinert wird und somit die so getroffenen und markierten Musterpixel ein logisch zusammenhängendes Gebilde nach einer ausreichenden Anzahl von Treffern ergeben unter der Voraussetzung, dass um die zu erfassende Textzeile herum eine „leere" Weisszone ohne Musterpixel auf dem Datenträger vorgesehen ist, deren Breite allseitig grösser ist als die geeignete Suchdistanz, damit die Suche nicht auf Musterelemente des beliebig strukturierten Bildhintergrundes, der sowohl beliebige graphische Muster als auch fremden, nicht zur Erfassung und Dekodierung vorgesehenen Text enthalten kann, überspringt und des weiteren die entsprechenden Schritte nach Anspruch 1 durchlaufen werden.
Verfahren nach Anspruch 1 und 2 dadurch gekennzeichnet, dass die nach einem ersten Treffer eingeschränkte Suchdistanz nicht wie in Anspruch 1 richtungsunabhängig gewählt wird, sondern mit Rücksicht auf Datenträger, die Blöcke aus mehreren Textzeilen , wobei wiederum die äussere Weisszone des gesamten Textblocks allseits gleiche Breite aufweist, die einzelnen Textzeilen jedoch einen geringeren Abstand aufweisen als die Breite der den Textblock umhüllenden Weisszone, nunmehr richtungsabhängig gewählt wird, damit die durch Suchpixel -Treffer erreichte Markierung einer für die Erfassung vorgesehenen Textzeile nicht von dieser auf eine benachbarte, ebenfalls zur Erfassung vorgesehene Textzeile überspringt, unter der Einschränkung, dass nur ein eingeschränkter Winkelbereich der Orientierung, aber uneingeschränkte Positionierung der Datenträger im Lesefeld zugelassen wird.
Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, dass mehrere Datenträger mit jeweils einer oder mehreren Textzeile(n) , aber jeweils beliebiger Orientierung und Positionierung im Lesefeld auftreten können, die Textzeilen in zufälliger Reihenfolge des Auffindens markiert werden, ihre jeweilige Orientierung ermittelt und durch Korrelation mit abgespeicherten globalen Vergleichsmerkmalen entsprechend Anspruch 1 entweder als gültige Textzeilen im Sinne einer Aufgabenstellung markiert und in der Reihenfolge ihres Auffindens unter Vergabe einer laufenden Zählnummer gezählt werden , oder im Sinne dieser Aufgabenstellung als ungültige Fremdmuster erkannt und als gelöscht markiert werden, jedoch die als gültig erkannten Textzeilen jeweils unter Notierung der zugehörigen Zählnummer und dem jeweilig zugehörigen Orientierungswinkel in einem verabredeten Speicherbereich jeweils in ausgerichteter Norimallage gespeichert werden und das Suchverfahren nach Auffinden einer vorgegebenen Anzahl von erwarteten Textzeilen erfolgreich – oder wenn diese nicht gefunden werden, nach einer einstellbaren Anzahl von Suchzyklen determiniert abgebrochen wird und anschliessend die Dekodierung und weitere Schritte im Sinne von Anspruch 1 auf die aufgefundenen Textzeilen angewendet wird und die Suchvorrichtung bzw. das Suchverfahren danach wieder in den Ausgangszustand zurückkehrt.
Verfahren nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, dass die zufallsgesteuerte Suche nach einem Muster, das möglicherweise eine gültige Textzeile darstellt nach einer vorgebbaren Anzahl von Suchpixeltreffern beendet wird und das somit markierte grobe Pixelabbild des noch unbekannten Musters einer linearen Regression unterzogen wird, um mit der errechneten Regressionsgeraden eine erste, grobe Winkelbestimmung der Musterorientierung vorzunehmen, welche, wenn sich nach der anschliessenden Korrelation mit globalen Vergleichsmerkmalen des erwarteten Zeichen- oder Schrifttyps das Muster als gültige Textzeile erweist, als Winkelorientierung in Form einer durch oder längs aller Zeichen der Textzeile gezogenen zur Regressionsgeraden parallenen Geraden, z.B. unterhalb der Unterkante der Schriftzeichen vorliegt und somit eine erste, bis auf wenige Grad genaue Winkelschätzung der Orientierung der Textzeile in Bezug auf das Koordinatensystem des Lesefeldes ermöglicht und der somit ermittelte Orientierungswinkel jeder gültigen Schrifzeile zusammen mit der laufenden Nuummer der Schriftzeile gespeichert wird
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass nach Winkelschätzung mittels Regression das durch eine beschränkte Anzahl von Suchpixeltreffern markierte grobe Abbild des noch unbekannten Musters in Horizontallage gedreht und somit ausgerichtet abgespeichert wird und einer Korrelation mit globalen Vergleichsmerkmalen des erwarteten Zeichen- oder Schrifttyps wie z.B. Zeichenhöhe und einem die Periodizität einer so aufgebauten Textzeile beschreibenden periodischen Muster unterzogen wird – und – da nicht das vollständige Pixelabbild des unbekannte Musters der Korrelation unterzogen wird, dieses Verfalren bevorzugt schnell abgewickelt werden kann.
Verfahren nach den Ansprüchen 5 und 6, dadurch gekennzeichnet, dass nur nach erfolgreicher Korrelation mit globalen Vergleichsmerkmalen das nunmehr als gültige Textzeile erkannte Muster einer weiteren – verfeinerten – Winkelschätzung unterzogen wird, indem basierend auf dein Verlauf der Regressionsgeraden nur ein im örtlichen Bereich der gültigen Textzeile angeordnetes Abtastraster aus nur wenigen Abtastlinien so aufgespannt und in vorgebbaren kleinen Winkelschritten um die Winkelorientierung der Regressionsgeraden herum geschwenkt wird, wobei sich die aus Anzahl und Abstand der Abtastlinien ergebende Höhe des Abtastrasters um einige Pixel grösser gewählt wird als die erwartete grösste Zeichenhöhe der verwendeten Zeichen- oder Schrifttype, um nach jedem im Sinne der Schwenkung durchgeführten Abtastvorgang die Anzahl der Abtastlinien, die Musterpixel der gültigen Textzeile getroffen haben zu zählen und den Winkel des Abtastrasters, bei dem die geringe von Musterpixeln getroffene Abtastlinienzahl vorliegt, zu speichern und diesen als wahre – nunmehr verfeinerte – Orientierung der gültigen Textzeile für die sich anschliessende ausgerichtete Speicherung in Normallage des vollständigen Musters der gültigen Textzeile zu verwenden.
Verfahren nach den Ansprüchen 1 bis 7, dadurch gekennzeichnet, dass die durch unterschiedlichen Abstand der Datenträger zur Kamera der Lesevorrichtung – der beispielsweise daraus resultiert, dass Datenträger auf unterschiedlich hohen Objekten im Lesefeld vorgelegt werden – resultierende Grössenvarianz durch eine Merkinalextraktion der in Normallage ausgerichtet abgespeicherten Schriftzeichen für jede gültige Textzeile so beseitigt wird, dass ein aus einer vorgegebenen Anzahl von Spalten und Zeilen bestehendes Abtastgitter unter Berücksichtigung der aktuellen Zeichenbreite und -höhe sich so über jedes Schriftzeichen legt, dass erste und letzte Spalte des Abtastgitters mit der linken, bzw. rechten äusseren Zeichenkontur und erste und letzte Zeile des Abtastgitters mit der oberen, bzw. unteren Zeichenkontur zusanunenfallen und jeweils dazwischen Spalten und Zeilen äguidistant bestimmt werden, damit unter Einsatz der heute bekannten translations- und grösseninvarianten Neuronalen Netzwerke die Schriftzeichen nach Training mit einem Zeichensatz oder mehreren Zeichensätzen mit eimnalig verabredeten geometrischen Abmessungen deleodiert werden können
Verfalren nach Ansprüchen 1 bis 8, dadurch gekennzeichnet, dass nach dem vergeblichen Versuch, einen oder mehrere der im Lesefeld vorgelegten Datenträger vollständig zu erfassen und zu deleodieren, das gesamte zufallsgesteuerte Suchverfahren wieder unter Wahl eines nunmehr zufällig anderen Startpunktes beginnt und auf diese Weise zufällig andere Konstellationen von Suchpixelmustern, deren Unterschied zum ersten vergeblichen Versuch bevorzugt in örtlich leicht variierten Pixelverteilungen liegt, für Erfassung und Deleodierung erzeugt und den gesamten, aus Erfassung und Deleodierung bestehenden Lesevorgang nochmals durchführt und nach erfolgreicher Dekodierung beendet, bzw., wenn auch dann die Deleodierung wiederum nicht gelingt, weitere Versuche mit jeweils zufällig anderen Start-Koordinaten durchführt und entweder nach einer erfolgreichen Dekodierung zum Ende kommt – oder das Verfahren nach einer vorgegebenen maximalen Anzahl von Versuchen logisch determiniert beendet wird und die Suchvorrichtung, bzw. das Suchverfahren wieder in den Ausgangszustand zurückkehrt.
Verfahren nach Ansprüchen 1 bis 9, dadurch gekennzeichnet, dass neben vorzugsweise verwendeten standardisierten OCR-Klarschriften auch Sonder-Zeichensätze und anwenderspezifisch definierte grafische Zeichen vollständig omnidirerektional im Sinne von Anspruch 1 , oder auch nur eingeschränkt omnidirektional z.B. im Sinne von Anspruch 3, ohne zusätzliche, auf dem Datenträger oder der die Zeichen tragende Oberfläche eines Gegenstandes erforderliche optisch lesbare Hilfssymbolik erfassbar und dekeodierbar sind – bzw., wenn die Dekodierung nicht erfolgreich war, oder der Erfolg angezweifelt wird, das im verabredeten Speicherbereich in Normallage ausgerichtet abgelegte und damit bereit gehaltene originale Pixelmuster der gültigen Textzeile(n) an einer dem jeweiligen Stand der Technik entsprechenden Schnittstelle als nur den die Textzeile(n) enthaltenden Ausschnitt des in Normallage gedrehten Ausschnitt des Originalbildes ausgegeben wird.