DE2012982A1 - Verfahren zum automatischen Erkennen alphanumerischer Zeichen - Google Patents

Verfahren zum automatischen Erkennen alphanumerischer Zeichen

Info

Publication number
DE2012982A1
DE2012982A1 DE19702012982 DE2012982A DE2012982A1 DE 2012982 A1 DE2012982 A1 DE 2012982A1 DE 19702012982 DE19702012982 DE 19702012982 DE 2012982 A DE2012982 A DE 2012982A DE 2012982 A1 DE2012982 A1 DE 2012982A1
Authority
DE
Germany
Prior art keywords
character
contour
features
meaning
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19702012982
Other languages
English (en)
Inventor
Veit Dipl Ing Weber Ekke 8000 München Rensch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19702012982 priority Critical patent/DE2012982A1/de
Priority to AT128871A priority patent/AT310264B/de
Priority to IT21759/71A priority patent/IT987524B/it
Priority to LU62799D priority patent/LU62799A1/xx
Priority to FR7109266A priority patent/FR2084729A6/fr
Priority to NL7103658A priority patent/NL7103658A/xx
Priority to BE764454A priority patent/BE764454R/xx
Priority to GB1295227D priority patent/GB1295227A/en
Publication of DE2012982A1 publication Critical patent/DE2012982A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

SIEMENS AKTIENGESELLSCHAFT ' München, den 1 8..MHZ 197
Wittelsbaeherplatz
VPA
70/2029
Verfahren zum automatischen Erkennen alphanumerischer - - Zeichen
Das Hauptpatent bezieht sich auf ein Verfahren zum automatischen Erkennen alphanumerischer.Zeichen, bei dem einzelne Elemente eines Abtastfeldes in digitale Signale umgesetzt werden, die im Zustand "1" sogenannten Bildelementen des Zeichens entsprechen und damit Bildsignale darstellen, aus denen die Kontur des abgetasteten ' Zeichens gewonnen wird. Es zeichnet sich dadurch aus, daß zunächst die Kontur eines Zeichens durch Zusammenfassen benachbarter Bildelemente zu Elementarmeikmalen festgestellt und derart reversibel zwischengespeichert wird, daß daraus die ursprüngliche Kontur des abgetasteten Zeichens wieder herstellbar ist, daß aus diesen Elementarmerkmalen im nächsten Klassifizierungsßchritt, getrennt nach einer Teilstruktur des Zeichens zuzuordnenden Segmenten, Merkmale gebildet und zwischengespeichert werden, deren mögliche Bedeutungen ermittelt und in einem Bewertungespeicher gespeichert werden, daß diese Segmente in weiteren Klassifizierungsschritten Jeweils zu Segmenten höherer Ordnung zusammengefaßt, dabei aus den Merkmalen lOrmelemente, aus diesen wiederum Formelemente höherer Ordnung gebildet und jeweils deren mögliche Bedeutungen in dem Bewertungsspeicher gespeichert werden, daß für jede Bedeutungsklasse der Inhalt entsprechender Zellen des Bewertungsspeichers ausgelesen, in einer Summierstufe das Maximum für eine bestimmte Bedeutung ermittelt und ein einer wahrscheinlichen Bedeu-
VPA 9/210/0012 Go/Hei - 2 ♦'
2/0647
tung entsprechendes Signal abgegeben wird.
Dieses Verfahren geht davon aus, daß in der Praxis neben einem Prototyp eine große Anzahl von Zeichenvariationen auftreten können, die alle einer testimmten Bedeutungsklasse angehören. Dazu kommen dann noch unbekannte Zeichenänderungen, die auf Störungen zurückzuführen sind, bei denen einzelne Elemente eines Zeichens in der Form von Substitutionen "1" -•'"O", "0"->"1" des Zustandes eines Bildsignales oder als Überlagerung beider Veränderungen auftreten können. Eine größere Anzahl derartiger Substitutionen in einem Zeichenteil kann zu Linienzugunterbrechungen oder im anderen Fall zum Zusammenwachsen von Linienzü^en führen. In beiden Fällen wird der Informationsgehalt des Zeichens verändert. Mit dem Verfahren nach den Hauptpatent sollten auch noch Zeichen erkannt werden können, bei denen innerhalb einer Bedeutungsklasne eine große Anzahl von Zeichenvariationen zugelassen ist und sogar gravierende Zeichenstörungen die richtige Erkennung des Zeichens noch erlauben. Ein derartiges Verfahren ist wegen der geringtsn Rückweisungsrate universell! anwendbar, da es aucli bei extremen Verhältnissen noch zufriedenstellend arbeitet. Ein Anwender wird aber nicht in allen Fällen derart verschärfte Bedingungen festlegen. So ist es möglich, daß durch die Art der Belege bedingt entweder nur sehr geringe Zeichenvariationen auftreten oder aber die unbekannten Zeichenveränderungen, d.h. die eigentlichen Zeichenstörungen, nur sehr gering sind. Der Anwender wird dann aber vielmehr Wert darauf legen, daß das Verfahren zum automatischen Erkennen alphanumerischer Schriftzeichen seinen geringeren Ansprüchen angepaßt, wenig aufwendig ist und eine nach diesem Verfahren arbeiten-
VPA 9/210/0012 -
109842/0647
de Einrichtung entsprechend billig ist. Er kann dabei unter Umständen sogar eine höhere Rückvieisungsrate in Kauf nehmen.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, das Verfahren gemäß dem Hauptpatent dahingehend weiterzubilden, daß es mit weniger Aufwand möglichst mit derselben Sicherheit zum Erkennen abgetasteter alphanumerischer Schriftzeichen führt, wobei davon ausgegangen werden kann, daß die noch zugelassenen Zeichenvariationen einer Bedeutangsklasse oder die auftretenden unbekannten Zeichenstörungen im allgemeinen geringer sind.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß der Konturverlauf eines abgetasteten Zeichens zwischengespeichert und in einem eingeschobenen Klassifizierungsschritt aus der Makrostruktur des Zeichens anhand seiner grob charakterisierten leilkonturen wahrscheinliche Bedeutungsklassen ermittelt werden, und daß in den anschließenden Klassifizierungsschritten die Kenntnis wahrscheinlicher Bedeutungsklassen für das abgetastete Zeichen dazu benutzt wird, seine weitere^Klassifizierung zu steuern.
Die erfindungsgemäße Lösung böte nur einen geringen Vorteil gegenüber einem Verfahren nach dem Hauptpatent, wenn es sich einfach um eine Aufwandsreduzierung bei geringeren Ansprüchen handeln würde. Der wesentliche Unterschied liegt vielmehr darin, daß die erfindungsgemäße Lösung an verschiedene Anwendungsfälle leichter anpaßbar ist.
Das geht insbesondere auch aus einer Weiterbildung des erfindungsgemäßen Verfahrens ;hervor, die sich dadurch auszeichnet, daß zum Ermitteln wahröchein-
VPA 9/210/0012
licher Bedeutungsklassen eines abgetasteten Zeichens seine durch die Art und Folge der Elementarmorkmale grob charakterisierten Teilkonturen mit reduzierten Makrostrukturen verglichen werden, die in einem weiteren Klassif-ikator gespeichert sind und aus den aufgrund von Zeichenvariationen unterschiedlichen Makrostrukturen einer Bedeutungsklasse derart gebildet sind, daß sie nur solche Merkmale enthalten, die mindestens mit einer bestimmten Häufigkeit in diesen unterschiedlichen Makrostrukturen auftreten. Das bedeutet, daß man den Klassifikator für die Makroatrukturen entsprechend dem Anwendungsfall, d.h. dem nach diesem Verfahren zu verarbeitenden Zeichenrepertoire» aufbauen kann und man damit nach dem erfindungsgemäßen Verfahren den Wünschen des Anwenders besser als bisher gerecht werden kann. Andere Weiterbildungen sind in den Unteransprüchen gekennzeichnet.
Im folgenden wird ein Ausführungsbeispiel eines erfindungsgemäßen Verfahrens anhand der Zeichnungen näher erläutert. Es zeigt:
Fig. 1a - 1f den prinzipiellen Ablauf eines erfindungsgemäßen Verfahrens anhand der Klassifizierung einer gestörten "6",
Fig. 2 das Blockschaltbild einer Einrichtung zur Durchführung eines erfindungsgemäßen Verfahrens,
Fig. 3a - 3h die verschiedenen Zustände ein^r in einem ersten Klassifikator enthaltenen 2x3 Bit Matrix zum Feststellen von Elementarmerkmalen,
Fig. 4a einen Teil eines abgetasteten and digitalisierten Zeichens mit den zugehörigen Merkmalen und deren relativen Mafien,
VPA 9/210/0012 -
109842/0647
Pig. 4b schematisch einen dem in Fig. 4a dargestellten Zeiehenteil entsprechenden Ausschnitt des Konturspeichers,
Pig. 5a - 5c Beispiele für charakteristische, d.h*
unterscheidungskräftige MaßVerhältnisse für Zeichen der Bedeutungsklasse "0", "4" bzw. "9".
Anhand der Figuren 1a - 1f werden der Prinzipablauf eines erfindungsgemäßen Verfahrens und die damit zusammenhängenden Probleme kurz erläutert. Me Eig. 1a zeigt eine durch eine Linienzugunterbrechung gestörte "6", deren wesentlicher Informationsgehalt - wie in Pig. 1b dargestellt - in einer Zeichenkontur' liegt, die durch die abgebildeten Oberkonturen 0, bzw. Unterkonturen ü grob charakterisiert wird. Nun besteht bei allen Zeichenerkennungsverfahren das Problem darin, möglichst viele unterschiedliche Zeichen mit vertretbarer Fehler- und Rückweisungsrate mit möglichst geringem Aufwand zu erkennen* In dieser ... Aufgabenstellung liegen zwei gegensätzliche Forderungen; nämlich einerseits möglichst viele verschiedene Zeichen zu erkennen, was insbesondere auch bedeutet, eine große Zahl von Formvariationen und Stö:c-r rungen in das Verfahren mit einzubeziehen. Und andererseits soll diese Aufgabe mit möglichst geringem · Aufwand gelöst werden. Das bedeutet, daß die Zeichen so charakteristisch beschrieben werden müssen, daß mit möglichst wenigen Beschreibungen die Formvariationen und Störungen erfaßt werden können.
Um diese Problemstellung zu lösen, geht das erfindungsgemäße Verfahren davon aus, daß Zeichen einer BedeutungB-klasse trotz aller möglichen Formyariationen und Störungen bei grober Betrachtung noch ähnlich oder wenigstens
VPA 9/21Q/OO12 * -
1098U/0647
teilweise ähnlich sind. Zeichen grob zu betrachten, bedeutet aber in diesem Falle, wenige allgemeine Merkmale zu bilden, deren Summe die grobe b\ rm eines Zeichens wiedergibt und die Makrostruktur eines Zeichens darstellt, die in Fig. 1c abgebildet ist.
Diese grcbe Merkmalsbildung' aufgrund der Makrostruktur eines Zeichens wird aber in den meisten Fäll.en nicht ausreichen, dieses Zeichen eindeutig einer bestimmten Bedeutungsklasse zuzuordnen. Dies ist in Fi^;. 1d schematisch dargestellt, in der die zehn vei-schiedenen Bedeutungsklassen eines dezimalen Zahlei.systemes dargestellt sind und in der außerdem durch Fettdruck angedeutet ist, daß für die in Fig. 1c abgebildete Makrostruktur die Bedeutungsklassen 5, 6,unc. 9 wahrscheinlich sind. So ist aufgrund der groben Betrachtung der Makrostruktur eines Zeichens eine gewisse Vorklassifizierung möglich, die dazu dienen kann, das abgetastete Zeichen bzw. dessen zwi3cher.gespeicherten Konturverlauf speziell nach solchen charakteristischen Merkmalen zu untersuchen, die lediglich für eine der als wahrscheinlich ermittelten Bedeutungsklassen repräsentativ sind. Das ist in Fig. 1e schematisch angedeutet, in der für die Bedevtungsklasse "6M charakteristische Teilkonturen näher beschrieben werden, während andere Teilkonturen, die für diese Bedeutungsklasse nicht repräsentativ sind, nicht mehr näher untersucht werden müssen.
Diese kurze Erläuterung der Figuren 1a - 1f diente Hur dazu, das Lösungsprinzip ganz allgemein dazustellen, das darin besteht, durch eine grobt; Merkmal bildung aus der Makrostruktur eines abgetasteten Zeichens bestimmte wahrscheinliche Bedeutungsklassen zu
VPA 9/210/0012
BAV ORIGINAL
109842/0647
ermitteln und damit in einem ersten Schritt eine bestimmte Vorklassifizierung herbeizuführen, so daß dann bei der weiteren Klassifizierung anhand der Mikrostruktur des abgetasteten Zeichens nur noch solche Zeichenteile genau untersucht werden müssen, die jeweils für eine der als wahrscheinlich ermittelten Bedeutungsklassen charakteristisch sind. Damit kann der Aufwand bei der weiteren Klassifizierung wesentlich verringert werden, da in der eigentlichen Klassifizierung nicht mehr sämtliche Zeichenteile ,d.h. die gesamte MikroStruktur eines Zeichens, mit derselben Genauigkeit untersucht werden müssen.
Anhand der Pig. 2 in Verbindung mit Figuren 3a - 3h und Fig. 4a und 4b soll im folgenden ein spezielles Ausführungsbeispiel näher erläutert werden. Die Fig. 2 zeigt das Blockschaltbild einer Einrichtung zur Durchführung eines erfindungsgemäßen Verfahrens, die im wesentlichen aus drei großen Baugruppen aufgebaut ist. Die erste Baugruppe DIG mit dem Abtastsystem AB dient im wesentlichen dazu, nach bekannten Verfahren ein zu erkennendes Zeichen abzutasten und das Abtastergebnis in digitale Bildsignale umzuformen, die dann in der zweiten Baugruppe VOR weiter verarbeitet werden.
Dazu werden die digitalisierten Bildsignale einem Zwischenspeicher ZSP zugeführt, der zum Beispiel als Matrixspeicher aufgebaut sein kann und dann in der Lage ist, das gesamte Abtastergebnis eines zu erkennenden Zeichens aufzunehmen. Bei spaltenweiser Abtastung des zu erkennendenZeichens könnte dieser Zwischenepelcher aber auch aus in der Art eines SchieberegisterB aufgebauten Flip-Flop-Stufen aufgebaut sein, dies in der Lage sind, die je- . VPA 9/210/0012 ■'- -' :-- ;. ''''.^;-' -
27 0 6 47
weile einem Bildpunkt entsprechenden digitalen Bildeignale mehrerer Abtastspalten aufzunehmen.
Durch den an den Zwischenspeicher ZSP angeschlossenen Klassiflkator KO wird die Konturanalyse am digitalisierten Zeichen durchgeführt, indem sinnbildlich mit einer 2x3 Bit-Matrix die Konturen des Zeichens verfolgt und die dabei festgestellten Elementarmerkmale entsprechend der Reihenfolge ihres Auftretens aneinandergeschrieben werden. Bestimmte Signalzustände dieser 2x3 Bit-Matrix entsprechen dann einzelnen Elementarmerkmalen, wie dies durch die Figuren 3a - 3h schematisch dargestellt wird. α Dabei ist mit "1" der Zustand eines Bildsignales
bezeichnet, der einem abgetasteten Bildelement entspricht, das zum Zeichen gehört und mit dem Signalzustand 11O" ist dementsprechend ein Bildsignal definiert, das einem nicht dem Zeichen angehörenden Bildelement entspricht.
Die Figuren 3a und 3b zeigen dann Matrixkonetellationen für eine abfallende Oberkontur 0 b*.w. Unterkontur U und kennzeichnen das Merkmal "Steigung negativ" SN, die Figuren 3c und 3d dementsprechend für ansteigende Oberkontur bzw. Unterkontur, d.h. das Merkmal "Steigung positiv" SP, φ die Figuren 3e und -3f für den horizontalen Verlauf einer Teilkontur mit dem Elementarmerknial "horizontal" HO und die Figuren 3g und 3h für den vertikalen Verlauf einer Teilkontur mit dem Elementarmerkmal "vertikal" VE an einer Vorderkante VK bzw. an einer Hinterkante HK de,3 abgetasteten Zeichens.
VPA 9/210/0012 - 9 -
109842/0647
Die Reihenfolge der Elementarmerkmale bildet eine Teilkontur, die als abgeschlossen gilt, wenn die Portsetzung dieser Kontur durch das erneute Auftreten von Bildsignalen nicht bestätigt wird. Dabei lassen sich die Folgen von Elementarmerkmalen in Teilfolgen untergliedern, die hauptsächlich aus einem dieser Elementarmerkmale bestehen. Diese Teilfolgen können dann zu einem Merkmal zusammen- . gefaßt werden, das durch die Häufigkeit der in ■ ihm enthaltenen gleichartigen Elementarmerkmale SP, SN, HO oder VE grob charakterisiert ist. Das heißt, daß damit lediglich der grobe Verlauf einer 1IeIlkontur wiedergegeben werden kann.
Die genaue Charakterisierung der Merkmale, die über die Beschreibung der eben erläuterten Makrostruktur eines Zeichens hinausgeht, läßt sich mit Hilfe der in einer Teilfolge enthaltenen quantitativen Informationen, wie zum Beispiel der Höhe, Breite, ν Anzahl usw., durchführen. Dies soll an einem einfachen Beispiel anhand der Pig. 4a erläutert werden, die das digitalisierte Abtastergebnis eines Zeichenteiles darstellen möge, dessen wesentlicher Informationsgehalt in einer ünterkontur Ü1 und einer Oberkontur 02 liegt. Die ünterkontur U1 setzt sich aus den Teilfolgen der Elementarmerkmale HO, SP, SN und HO zusammen, die durch die Häufigkeit der einzelnen Elementarmerkmale nur grob charakterisiert ist. Die Mlkrostruktur dieser Teilkontur U1 läßt sich dadurch erfassen, indem man zusätzlich die Breite und Höhe dieser Teilfolgen erfaßt. So gehört zu dem ersten Merkmal HO die Breite bit und zu dem zweiten Merkmal die Breite b 12 und die Höbe h12. Entsprechend läßt sich die Oberkontur 02 grob durch die Merkmale SP, HO und SN charakterisieren,
VPA 9/210/0012 - 10-
1098U/Ö6 4 7
BAD ORIGINAL
- ίο -
zu denen dann für die Beschreibung der Mikrοstruktur die Breiten und Höhen der Teilfolgen, zum Beispiel b21 und h21, usw. treten.
Das Ergebnis dieser Konturanalyse eines abgetasteten und digitalisierten Schriftzeichens wird - wie in Pig. 2 dargestellt- in einem Konturspeicher COD markiert. Dieser Speicher ist nun so aufgebaut, daß die an einem Zeichen auftretenden Konturen entsprechend ihrer relativen Lage festgehalten werden und die in einer Teilkontur festgestellten Elementarnerkmale dieser Kontur zugeordnet sind. Was darunter verstanden werden soll, geht aus einem Vergleich der Figuren 4a und 4b hervor. Die in Fig. 4a abgebildete Unterkontur U1 sei die erste Teilkom;ur eines abgetasteten Zeichens, dann werden die Merkmale, aus denen sich diese Teilkontur zusanmeneetzt, in der Reihenfolge ihres Auftretens in der ersten Spalte des Konturspeichere zusammen mit den quantitativen Angaben über ihre relative Höhe und Breite zwischengespeichert. Weitere Teilkonturen, wie zum Beispiel die Oberkontur 02 werden entsprechend der Reihenfolge ihres Auftretens in den nächsten Spalten des Konturspeichers COD markiert, so daß schließlich η Teilkontu:?en eines abgetasteten Zeichens η Spalten dieses Konturspeichers belegen.
Darüber hinaus enthält der Kontürspeieher noch Angaben über jede Teilkontur, so zum Beispiel, ob diese eine Unterkontur U oder eine Oberkontur 0 darstellt, daß eine Unter- und Oberkontur in einem Konturende zusammenlaufen, wie dies zun Beispiel am oberen Ende des in Fig. 1a dargestellten Zeichens M6* der Fall ist. Schließlich wird auch
TPA 9/210/0012 - 11 -
109842/0647
ein Zusammenlaufen und Auseinanderlaufen von Unterr und Oberkonturen bei konvergierenden bzw. divigierenden Konturen der Makrostruktur festgehalten.
Mit dem Markieren dee Konturverlaufes in dem Könturepeicher COB ist die Vorverarbeitung det5 abge* tasteten Zeichens abgeschlossen und die sich daran anschließende Klassifizierung des Zeichens kann nun mit der dritten Baugruppe der in Fig. ?. schematisch dargestellten Einrichtung durchgeführt werden. Der sogenannten Vorklassifizierung dient der zweite Klassifikator K1, durch don die in dem Konturspeicher GOD vorliegende Ilakro-' struktur des Zeichens mit vorgegebenen reduzierten Makrostrukturen verglichen wird. Der Aufbau dieses Klassifikators K2 wird über die in ihm enthaltenen Makrostrukturen an den einzelnen AnwendungS1-fall angepaßt. '
Zur Ermittlung der reduzierten Makrostrukturen geht man von den unterschiedlichen Makrostrukturen m aller Zeichen einer bestimmten Bedeutungsklasse aus, die sich zum Beispiel ähnlich wie in der Fig. 4b als Merkmalfolgen darstellen lassen, wobei man sich zur einfacheren Darstellung* vorstellen möge, daß diese Merkmalfolge für eine einzelne Makrostruktur in einer einzigen Zeile niedergeschrieen sei. Die m Makrostrukturen aller Zeichen einer Bedeutungsklasse ergeben dann untereinandergeschrieben eine m-zeilige Merkmalmatrix mit einer der Zahl der Merkmale entsprechenden Anzahl von Spalten. Nun stellen die Merkmale eines bestimmten Zeichens aus einer Bedeutungsklasse eine Teilmenge von Merkmalen innerhalb der gesamten Merkmalmenge einer Be-
VPS 9/210/0012 - 12 -
100642/0647
deutungsklasse dar. Möchte man jetzt die Zeichen einer Bedeutungsklasse mit nur wenigen Beschreibungen oder Makrostrukturen erfassen, so bildet man die Durchschnitte dieser Teilmengen* Dabei ist die Häufigkeit, mit der ein Merkmal in einer bestimmten Spalte der m-zeiligen Merkmalmatrix auftritt, ein Kriterium dafür, ob dieses Merkmal bei der Durchschnittsbildung berücksichtigt werden muß. Die Gesamtzahl der Merkmale, die dann zu diesem Durchschnitt gehört, bildet die reduzierte Makrostruktur und repräsentiert eine Unterklasse von Zeichen innerhalb einer Bedeutungsklasse.
Es dürfte selbstverständlich sein, daß die Höhe des Schwellenwertes, nach dem ein bestimmtes Merkmal bei der Durchschnittsbildung berücksichtigt werden soll oder nicht, im wesentlichen von den Forderungen des Anwendungsfalles abhängt. Für die Bildung des Durchschnittes ist aber weiter zu beachten, daß die Anzahl der Merkmale eines Durchschnittes möglichst groß sein soll, damit eine ausreichende Beschreibung der Subklassen möglich ist, außerdem soll auch die Anzahl der Teilmengen, die mit einem Durchschnitt zu erfassen sind, d.h. der Umfang eines Durchschnittes, möglichst groß sein, um den Aufwand zu reduzieren. Können dann bei einer Durchschnittsbildung nicht sämtliche Makrostrukturen einer Bedeutungsklasse erfaßt werden, müssen weitere Durchschnitte gebildet werden, bis sämtliche Teilmengen einer Bedeutungsklasse berücksichtigt sind.
Es ist nun durchaus möglich, daß !zwei reduzierte Makrostrukturen verschiedener Bedeutungsklessen in vielen Merkmalen übereinstimmen und deehalb
VPA 9/210/0012 -13 -
103842/0647
- 13 -' ■
für ihre Bedeutungsklasse weniger repräsentativ sind als zwei Makrostrukturen, die nur wenige Merkmale gemeinsam haben. Als Maß für die Repräsentativ! tat einer reduzierten Makrostruktur kann ihre Hamming-Distanz zu allen anderen reduzierten Makrostrukturen benutzt werden. Unterschreitet diese Hamming-Distanz einen gewissen Schwellenwert, dann sind die entsprechenden reduzierten Makrostrukturen mehrdeutig und für eine bestimmte Bedeütungsklasse nicht mehr ausreichend repräsentativ. 3ei der Vorklassifizierung des zugehörigen Zeichens wird dann nur eine bestimmte Wahrscheinlichkeit für mehrere Bedeutungsklassen ermittelt und die einzig richtige Bedeutungsklasse für das Zeichen läßt sich erst in weiteren Klassifizierungssciiritten anhand der MikroStruktur des Zeichens mit ausreichender Wahrscheinlichkeit feststellen. "■ '" :
Dazu werden entsprechend der Blockdarstellung in Pig. 2 die.anhand der reduzierten Makrostrukturen ermittelten wahrscheinlichen Bedeutungen eines abgetasteten Zeichens in dem Bewertungsspeicher SPA zusammen mit der ermittelten Wahrscheinlichkeit markiert. Wird dabei eine bestimmte Wahrscheinlichkeit einer Bedeutung nicht überschritten, dann wird- g·- steuert durch die reduzierte Makrostruktur in dem Klassifikator K1 - eine Auswahlschaltung AW aktiviert. Entsprechend der wahrscheinlichen Bedeutungen werden bestimmte Maße ausgewählt, mit denen die genaue Beschreibung von Merkmalen möglich ist, die für die ermittelten Bedeutungsklassen charakteristisch sind. Von der Auswahlschaltung AW werden dann entsprechende Seile des Konturspeichers aufgerufen und in einen weiteren Klassifikator K2 ausgelesen, in dem die Mikrostruktur eines Zeichens aufgrund eindeutig charakterisierter Merkmale untersucht wird. Damit wird die Wahrsehein-
VPA // .
BAD ORIGINAL
lichkeit für eine bestimmte Bedeutungsklasse überprüft und bei Überschreiten einer vorgegebenen Wahrscheinlichkeitsschwelle eine bestimnte Bedeutung ausgegeben. Dafür ist die Schwellenwertschaltung SW vorgesehen. Läßt sich auch durch die Untersuchung der Mikrostruktur mit Hilfe des KIassifikators K2 eine bestimmte Wahrscheinlichkeit für eine Bedeutungsklasse nicht ermitteln, so erfolgt eine.Rückweisung.
In welcher Form die in dem Eonturspeicher COE festgehaltene Mikrostruktur eines abgetasteten Zeichens dazu dienen kann, die Wahrscheinlichkeit für eine bestimmte Bedeutungsklasse zu erhöhen, ist schematisch in den Pig. 5a - 5c dargestellt, in denen die digitalisierten Abt^stergebnisse der drei Ziffern »0», "9" und "4" abgebildet sind. Diese drei Ziffern besitzen im wesentlichen ähnliche Makrostrukturen und ein Vergleich mit einer reduzierten Makrostruktur aus dem KIassifikator K1 ergibt keine eindeutige Zuordnung zu einer bestimmten Bedeutungsklas— se. Wollte man nun bestimmte absolute Maße der einzelnen Konturen zur weiteren Klassifizierung anhand der Mikrostruktur heranziehen, dann würde sicherlich eine Rückweisung erfolgen, weil auch diese Maße selbst nicht charakteristisch sind. Erst durch die Art der Maßverhältnisse ho2/ho1 bzw. h92/h91 oder h42/h41 erhält man eindeutige und normierte Aussagen. Sind nun diese Maßverhältnisse als solche charakteristisch, dann kann man damit das in Fig. 5a dargestellte Zeichen der Bedeutungsklasse "0w, das in Pig. 5b dargestellte Zeichen der Bedeutungsklasse "9" und das in Pig. 5c dargestellte Zeichen der Bedeutungeklasee "4" mit großer Wahrscheinlichkeit zuordnen. Mit dieser Maßnahme wird die Beschreibung der Mikrostruktur größeninveriant, dabei können die charakteris-
9/210/0012 101842/0647 - 15 -
tischen Maßverhältnisse, die einem Merkmal zugeordnet werden, neben den Höhen oder Breiten auch die Anzahl der Elementarmerkmale, Steigungen, KrümmungeHj Winkel und ähnliches sein.
Die Erfindung wurde anhand besonders einfacher Aus— führungsbeispiele erläutert, um die wesentlichen Verfahrensabschnitte besser und verständlicher heraus- T stellen zu können. Sie beschränkt sich selbstverständlich nicht darauf. So ist es durchaus möglich, statt der hiex· beschriebenen zwei KlassifizierungsEChritte nach der Lehre des Hauptpatentes mehrere Klaesifizierungsschritte zu verwenden und dabei eventuell den hier als einzigen Block dargestellten Klessifikator K2 in mehrere Teile aufzuspalten und sich auch in diesem Fall speziell an einen bestimmten AnwendungS" fall anzupassen. Ebenso wenig ist es notwendig, zur Peststellung der Elementarmerkmale unbedingt eine Matrix mit 2 χ 3 Bit zu verwenden. Denn in einem Anwendungsfall, in dem eine- größere Zahl von Zeichenstörungen und Zeichenvariationen zugelassen werden sollen, könnten die Elementarmerkmale etwas anders definiert werden und damit das Zeichen in seinem Konturverlauf noch besser, d.h. mit größerer Reversibilität besehrieben werden, als dies mit den. in den i"ig. 3a ~ 3h dargestellten Matrizen entsprechend dem Beispiel der Pig. 4a möglich ist.
Erfindungsgemäß wesentlich ist dagegen, daß die Klassifizierung in mehreren Schritten vorgenommen wird und dabei von einer Torklassifizierung ausgegangen wird, die aufgrund der Makrostruktur eines abgetasteten Zeichens erfolgt, daß bei dieser ¥orklassifizie~ rung eiae oder mehrere Bedeutungslose©n mit einer bestimmten Wahrscheinlichkeit ermittelt werden und -
9/210/001* 1frie42-m4?-- -16.-
BAD ORIGSNAL
daß dann die weitere Klassifizierung nur noch anhand von Merkmalen durchgeführt wird, die für diese Bedeutungsklaseen charakteristisch sind.
8 Patentansprüche
5 Figuren
VPA 9/210/0012 - 17 -
109842/0647

Claims (6)

  1. Pa tent an sprüche
    Π. Verfahren zum automatischen Erkennen alphanumerischer Zeichen gemäß Patent ...... (Aktenzeichen ρ ig 49 428.1), dadurch ge ke η η ζ ei c hn e t, daß der Konturverlauf eines abgetasteten Zeichens zwischengespeichert und in einem eingeschobenen Klassifizierungsschritt aus der Makrostruktur des ,Zeichens anhand seiner grob charakterisierten Teilkonturen wahrscheinliche Bedeutungsklassen ermittelt werden und daß in den anschließenden Klassifizierungsschritten die Kenntnis wahrscheinlicher Bedeutungsklassen für das abgetastete Zeichen dazu be- f( nutzt wird, seine weitere Klassifizierung zu steuern.
  2. 2. Verfahren nach Anspruch 1, d ad u r c h gekennzeichnet, daß zum Peststellen des 4 Konturverlaufes eines abgetasteten Zeichens dessen digitalisiertes Abtastergebnis punktweise mit nur wenige Bits umfassenden Submatrizen eines ersten Klassifikators (KO) verglichen und dabei ermittelt wird, welches der Elementarmerkmale "Steigung positiv» (SP), »Steigung negativ» (SF), »horizontal» (HO) und »vertikal" (VE) einer ünterkontur oder
    einer Oberkontur, d.h. dem unteren oder oberen m
    Rand der Teilkontur zuzuordnen ist. "
  3. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß jede Teilkontur eines Zeichens nach ihrer relativen Lage anhand ihrer ermittelten Elementarmerkmale, deren jeweiliger Anzahl und Reihenfolge des Auftretens in einem Konturspeicher (COD) zwischengespeichert wird und daß wei-
    VPA 9/210/0012 - 18 -
    . 109842/06 4 7"
    terhin das Zusammenlaufen zweier Konturen markiert wird.
  4. 4. Verfahren nach Anspruch 3» dadurch gekennzeichnet, daß die Art und Größe der Merkmale in einer Folge von gleichen Elementarmerkmalen durch die Differenz der relativen Koordinaten des Anfanges und des Endes dieser Folge markiert wird.
  5. 5. Verfahren nach einem der Ansprüche 2 "bis 4, d adurch gekennzeichnet, daß zum
    ™ Ermitteln wahrscheinlicher Bedeutungsklassen eines abgetasteten Zeichens seine durch die Art und Folge der Elementarmerkmale grob charakterisierten Teilkonturen mit reduzierten Makrostrukturen verglichen werden, die in einem weiteren Klassifikator (K1) gespeichert sind und aus den aufgrund von Zeichenvariationen und unterschiedlichen Makrostrukturen einer Bedeutungsklasse derart gebildet sind, daß sie nur solche Merkmale enthalten, die mindestens mit einer bestimmten Häufigkeit in diee.en unterschiedlichen Makrostrukturen auftreten.
    φ
  6. 6. Verfahren nach einem der Ansprüche 3 bis 5, d a durch gekennzeichnet, daß nach der Ermittlung wahrscheinlicher Bedeutungsklassen eines Zeichens aus der Makrostruktur Teile des in eiern Konturspeicher (COD) gespeicherten Konturverlaufes eines Zeichens mit den nach Art und Lage für eine einzelne der als wahrscheinlich ermittelten 3edeutungsklassen charakteristischen und in einem weiteren Klassifikator (K2) gespeicherten Elementarmerkmalen, Merkmalen oder Pormelementaisolange
    VPA 9/210/0012 - 19 -
    109642/0647
    verglichen werden, bis die Bedeutung des Zeichens mit Sicherheit festgestellt ist oder das abgetastete Zeichen als nicht erkennbar zurückgewiesen wird.
    7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß für die weitere Elassifizierung eines Zeichens die relative Lage der für eine bestimmte Bedeutungsklasse charakteristischen Elementarmerkmale, Merkmale oder Formelemente derart verwendet wird, daß aus der relativen Lage bestimmter Elementarmerkmale, Merkmale oder Formelemente zueinander Maßverhältnisse gebildet werden, die für eine bestimmte Bedeutungsklasse charakteristisch sind.
    8. Verfahren nach einem der Ansprüche 1 bis 7» dadurch gekennzeichnet, daß der Klassifizierungsprozeß dann abgebrochen wird und ein Zeichen als erkannt gilt, wenn mindestens eine vorgegebene Wahrscheinlichkeit für eine bestimmte Bedeutungsklasse bei der Klassifizierung festgestellt wird.
    VPA 9/210/0012
    10 9642/06
    Lee rse
    it
DE19702012982 1970-03-18 1970-03-18 Verfahren zum automatischen Erkennen alphanumerischer Zeichen Pending DE2012982A1 (de)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE19702012982 DE2012982A1 (de) 1970-03-18 1970-03-18 Verfahren zum automatischen Erkennen alphanumerischer Zeichen
AT128871A AT310264B (de) 1970-03-18 1971-02-15 Verfahren zum automatischen Erkennen alphanumerischer Zeichen
IT21759/71A IT987524B (it) 1970-03-18 1971-03-15 Sistema per riconoscere automati camente caratteri alfanumerici
LU62799D LU62799A1 (de) 1970-03-18 1971-03-16
FR7109266A FR2084729A6 (de) 1970-03-18 1971-03-17
NL7103658A NL7103658A (de) 1970-03-18 1971-03-18
BE764454A BE764454R (fr) 1970-03-18 1971-03-18 Procede pour l'identification automatique de caracteres
GB1295227D GB1295227A (de) 1970-03-18 1971-04-19

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19702012982 DE2012982A1 (de) 1970-03-18 1970-03-18 Verfahren zum automatischen Erkennen alphanumerischer Zeichen

Publications (1)

Publication Number Publication Date
DE2012982A1 true DE2012982A1 (de) 1971-10-14

Family

ID=5765498

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19702012982 Pending DE2012982A1 (de) 1970-03-18 1970-03-18 Verfahren zum automatischen Erkennen alphanumerischer Zeichen

Country Status (8)

Country Link
AT (1) AT310264B (de)
BE (1) BE764454R (de)
DE (1) DE2012982A1 (de)
FR (1) FR2084729A6 (de)
GB (1) GB1295227A (de)
IT (1) IT987524B (de)
LU (1) LU62799A1 (de)
NL (1) NL7103658A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2453086A1 (de) * 1973-11-08 1975-05-22 Tokyo Shibaura Electric Co Schriftzeichenerkennungsvorrichtung

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01246678A (ja) * 1988-03-29 1989-10-02 Toshiba Corp パターン認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2453086A1 (de) * 1973-11-08 1975-05-22 Tokyo Shibaura Electric Co Schriftzeichenerkennungsvorrichtung

Also Published As

Publication number Publication date
AT310264B (de) 1973-09-25
LU62799A1 (de) 1971-11-08
FR2084729A6 (de) 1971-12-17
NL7103658A (de) 1971-09-21
GB1295227A (de) 1972-11-08
IT987524B (it) 1975-03-20
BE764454R (fr) 1971-09-20

Similar Documents

Publication Publication Date Title
DE3689416T2 (de) Mustermerkmalextraktion.
DE2909153C2 (de) Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern
DE3716787C2 (de)
DE3629104C2 (de)
DE2801536C2 (de) Zeichenformkodiervorrichtung
DE2432129C3 (de) Verfahren zum maschinellen Lesen von Zeichen und Vorrichtung zur Durchführung des Verfahrens
DE3326725A1 (de) Verfahren zur datenkomprimierung fuer zweidimensionale zeichenbilder
DE2144596A1 (de) Video-Anzeigevorrichtung
DE3415470A1 (de) Geraet und verfahren zum codieren und speichern von rasterabtastbildern
EP0067244A2 (de) Verfahren zum automatischen Erkennen von Weissblöcken sowie Text-, Graphik- und/oder Graubildbereichen auf Druckvorlagen
DE2752421A1 (de) Anordnung fuer die abtastung und digitalisierung von grafischen darstellungen oder daten
DE2633513C2 (de) Zeichenerkennungsvorrichtung
DE112021000371T5 (de) Digitale bildbearbeitung
DE1774314B1 (de) Einrichtung zur maschinellen zeichenerkennung
DE2410306B2 (de) Anordnung zur Einstellung eines Abtastrasters oder einer Erkennungslogik auf die Schräglage von abzutastenden bzw. zu erkennenden Zeichen
DE2012982A1 (de) Verfahren zum automatischen Erkennen alphanumerischer Zeichen
DE3128794A1 (de) Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.
EP0206214B1 (de) Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentenmustern in Form von Datenstrukturen in einem Automaten
EP1669925A2 (de) Verfahren zur Skalierung eines Bildzeichens
DE2054547A1 (de) Musterverarbeitungssystem
DE102012218854B4 (de) Verfahren und Vorrichtung zur Kompression von Bilddaten
DE19609860C1 (de) Verfahren zur Bearbeitung von Bildpunkten eines Bildsegments durch einen Rechner
DE69715921T2 (de) Anlage zur erkennung handgeschriebener zeichen
DE1949428A1 (de) Verfahren zum automatischen Erkennen alphanumerischer Zeichen
DE1774314C (de) Einrichtung zur maschinellen Zeichen erkennung