DE2001663A1 - Verfahren und Vorrichtung zur Zeichenerkennung - Google Patents
Verfahren und Vorrichtung zur ZeichenerkennungInfo
- Publication number
- DE2001663A1 DE2001663A1 DE19702001663 DE2001663A DE2001663A1 DE 2001663 A1 DE2001663 A1 DE 2001663A1 DE 19702001663 DE19702001663 DE 19702001663 DE 2001663 A DE2001663 A DE 2001663A DE 2001663 A1 DE2001663 A1 DE 2001663A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- characters
- unknown
- character type
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/52—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
- G01S7/56—Display arrangements
- G01S7/62—Cathode-ray tube displays
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Character Discrimination (AREA)
- Controls And Circuits For Display Device (AREA)
Description
IBM Deutschland
Internationale Büro-Maschinen Gesellschaft mbH
Böblingen, 14. Januar 1970 bt-rz
Anmelderin:
International Business Machines Corporation, Armonk, N.Y. 10 504
Amtliches Aktenzeichen:
Neuanmeldung
Aktenzeichen der Anmelderin:
Docket YO 967 093
Die Erfindung betrifft ein Verfahren zur maschinellen Erkennung
von einzelnen Zeichen einer Zeichenfolge aus mehreren Zeichenarten, insbesondere von Schriftzeichen einer aus mehreren
Schrifttypen bestehenden Schriftzeichenfolge, sowie eine Einrichtung zur Durchführung des Verfahrens.
Ein derartiges Zeichenerkennungsverfahren, welches die Identifizierung
von Zeichen,,die verschiedenen Zeichenklassen angehören, erlaubt, ist beispielsweise in der USA-Patentschrift Nr. 3 167
746 angegeben. Bei den meisten dieser Verfahren basiert die Erkennung des Zeichens und der Zeichenart auf einem Vergleich
des unbekannten Zeichens mit allen bekannten Zeichen in sämtlichen Zeichenarten.
Es ist die Aufgabe der vorliegenden Erfindung, ein Zeichenerkennungsverfahren
der genannten Art zu schaffen, welches die Nachteile der bekannten Verfahren und Anordnungen nicht aufweist
und eine fehlerfreie Zeichenerkennung auch dann erlaubt, wenn ein häufiger Zeichenartwechsel vorliegt.
Diese Aufgabe wird durch ein Verfahren gelöst, welches durch
009830/1685
- 2 folgende Verfahrensschritte gekennzeichnet ist:
a) Gewinnung einer maschinell verarbeitbaren Darstellung jedes zu identifizierenden Zeichens der Zeichenfolge
b) Vergleich jeder unbekannten Zeichendarstellung mit einer Vielzahl von bekannten ZeichendarStellungen jeder Zeichenart
c) Bestimmung der Zeichenart jedes unbekannten Zeichens aus
dem vorhergegangenen Vergleich
d) Ableitung einer Häufigkeitsverteilung jeder Zeichenart innerhalb einer Zeichenfolge aus mehreren Zeichenartbestimmungen
e) Identifizierung jedes unbekannten Zeichens durch Vergleich der unbekannten Zeichendarstellung mit bekannten Zeichendarstellungen
unter Zugrundelegung der Häufigkeitsverteilung, die für das zu identifizierende Zeichen und die es
umgebende Zeichenfolge bestimmt wurde.
Durch dieses Verfahren erfolgt zuerst ein Vergleich der in der Zeichenfolge enthaltenen unbekannten Zeichen mit den Zeichendarstellungen
in den verschiedenen Zeichenarten, d.h. vor der eigentliehen Erkennung des Zeichens erfolgt eine Bestimmung der Zeichenart
des unbekannten Zeichens. Die Resultate mehrerer Zeichenartbestimmungen werden gespeichert und davon eine Häufigkeitsverteilungsfunktion
für jede Zeichenart innerhalb einer Zeichenfolge abgeleitet. Diese Häufigkeitsfunktionen werden
kontinuierlich so verändert, daß jeweils eine feste Anzahl, beispielsweise 101 Zeichen in den Funktionsverlauf einbezogen werden.
Die eigentliche Zeichenerkennung basiert auf einem Vergleich, dem die Häufigkeitsfunktion zugrunde gelegt wird.
Weitere Merkmale der Erfindung sind den Patentansprüchen, Einzelheiten
der nachfolgenden Beschreibung mit den zugehörigen Zeichnungen zu entnehmen.
Docket YO 967 093
009830/1685
Es zeigen:
Fig. 1 ein Flußdiagramm der wichtigsten erfindungsgemäßen
Verfahrensschritte,'
Fig. 2 die Anordnung der Fign. 2A bis 2E,
Fign. 2A, 2B,
2C, 2D und 2E eine Ausführungsform einer Einrichtung zur Durchführung
des erfindungsgemäßen Verfahrens.
Fig. 1 stellt ein Flußdiagramm der Verfahrensschritte dar, die
zur Erkennung von Schriftzeichen in drei verschiedenen Schriftzeichenarten
notwendig sind. Eine Anordnung zur Durchführung
dieses Verfahrens ist in den Fign. 2A bis 2E gezeigt. Das Dokument,
auf dem sich die zu identifizierenden Zeichen befinden,
wird durch den Block 10 dargestellt. Jedes Zeichen wird so abgetastet,
daß eine maschinell verarbeitbare Darstellung des unbekannten Zeichens, in diesem Fall ein Binärwort von 100. Bit
Länge - in Fig. 1 durch den Block 12 verkörpert - entsteht. In der Maschine gespeichert befinden sich Darstellungen aller Zeichen
von drei verschiedenen Zeichenarten. In jedem Satz befinden sich 62 Schriftzeichen: Großbuchstaben A bis Z, Kleinbuchstaben a bis ζ und Ziffern 0 bis 9.
Die gespeicherten Darstellungen sind die bedingten Wahrscheinlichkeiten
für das Auftreten der Binärwerte O und 1 in jeder
der 100 Stellen, die zur Darstellung eines Zeichens benutzt werden. Diese Wahrscheinlichkeiten werden gewonnen, indem das
System zur Erkennung einer Mehrzahl von bekannten Zeichen, die durch verschiedene Verfahren erzeugt wurden, in jeder Zeichenärt
benutzt wird und dabei das Auftreten der Binärwerte 0 und
1 in den 100 Stellen des Binärwortes auf statistischer Grundlage speichert. Wenn beispielsweise durch diese vorangehende
Prüfung und Analyse festgestellt wird, daß die erste Binärposition für den Großbuchstaben T zu 95% den Binärwert 1 enthält,
wird die gespeicherte bedingte Wahrscheinlichkeit für den Binär-
Docket YO #7 093 009830/1685
wert 1 in dieser Position 0,95 betragen und die gespeicherte bedingte
Wahrscheinlichkeit, für den Binärwert O in dieser Position 1,00 minus 0,95 = 0,05 betragen. Demnach sind für jedes Zeichen
einer Zeichenart die Werte für 200 bedingte Wahrscheinlichkeiten innerhalb der Maschine gespeichert. Die Darstellung des unbekannten
Zeichens - Block 12 in Fig. 1 - wird den die bedingten Wahrscheinlichkeiten aufnehmenden Speichern zur Ableitung von
Zeichenvergleichsfunktionen für jedes Zeichen jeder Zeichenart zugeführt (Block 14). Die Binärwerte 1 und 0 des Binärwortes
von 100 Bit Länge, welches das unbekannte Zeichen darstellt, ^ werden benutzt, um den gespeicherten Wahrscheinlichkeitswert
* für 0 oder 1 in jeder der 100 Positionen für das erste Zeichen (Großbuchstabe A) jeder Zeichenart auszuwählen. Diese Selektion
kann sowohl parallel - wie in der vorliegenden Ausführung - als auch seriell durchgeführt werden. Die 100 bedingten Wahrscheinlichkeiten
für das erste Zeichen (Großbuchstabe A) jeder Zeichenart werden separat miteinander multipliziert wobei man drei
Zeichenvergleichsfunktionen basierend auf der gespeicherten Information für den Großbuchstaben A in jeder der drei Zeichenarten
für das unbekannte Zeichen erhält. Zusammen mit den bedingten Wahrscheinlichkeiten ist für jedes Zeichen ein Faktor gespeichert,
der die Häufigkeit des Auftretens dieses Zeichens in normalem Text angibt. Dieser Faktor wird ebenfalls bei der
h Multiplikation berücksichtigt. Die genannte Operation wird für
jedes der 62 Zeichen in einem Zeichensatz durchgeführt. Zur späteren
Verwendung werden die Zeichenvergleichsfunktionen separat im Pufferspeicher 16 gespeichert. Außerdem werden sie drei Summierschaltungen
(Akkumulatoren) zugeführt, in denen die 62 Zeichenvergleichsfunktionen für jede Zeichenart getrennt summiert
werden (Block 18).
Danach wird bestimmt, welche der akkumulierten Summen der Zeichenvergleichsfunktionen
der drei Zeichenarten den größten Wert hat und dadurch die Zeichenart des unbekannten Zeichens festgelegt
(Block 20). Es soll noch darauf hingewiesen werden, daß diese Zeichenartbestimmung ohne eigentliche Zeichenerkennung
durchgeführt wird; sie basiert auf einem Vergleich des unbe-
Dockt YO 967 093 0 0 9 8 3 0/1685
kannten Zeichens mit der gespeicherten Information aller Zeichen
jeder Zeichenart. Die Resultate der Zeichenartbestimmung werden in einem Register (Block 22) gespeichert.
Die Verfahrensschritte, die die Blöcke 10, 12, 14, 18, 20 und
22 verkörpern, werden für jedes unbekannte Zeichen durchlaufen und die Resultate der Zeichenartbestimmungen für eine vorherbestimmte
Anzahl von Zeichen gespeichert. Es sei beispielsweise angenommen, daß in 101 derartigen Zeichenartbestimmungen die
erste Zeichenart 80-mal, die zweite Zeichenart 15-mal und die
dritte Zeichenart 6-mal festgestellt wurde. Demnach werden die
Werte 80, 15 und 6 für die letzten 101 Zeichenartbestimmungen gespeichert.
Es erfolgt eine laufende Verschiebung dieser Werte, da nur jeweils die letzten 101 Zeichenartbestimmungen eingehen.
Nach jeder Zeichenartbestimmung werden drei gewichtete Zeichenarthäuf
igkeitsfunktionen abgeleitet (Block 24).
Diese gewichteten Zeichenarthäufigkeitsfunktionen werden bei der
eigentlichen Zeichenidentifizierung (Block 26) benutzt. Der Pufferspeicher 16, in dem die Zeichenvergleichsfunktionen für
jedes unbekannte Zeichen gespeichert sind - 62 Funktionen für jede Zeichenart - liefert diese Funktionen zur eigentlichen Zeichenerkennung
nach einer Verzögerung, die für die Zeichenartbestimmung der auf das zu identifizierende Zeichen folgenden
50 Zeichen ausreicht. Es wurde oben bereits festgestellt, daß die gewichteten Häufigkeitsfunktionen auf 101 Zeichenartbestimmungen
basieren. Die eigentliche Zeichenerkennung für jedes unbekannte Zeichen wird unter Benutzung der Zeichenarthäufigkeitsfunktionen
durchgeführt, die unter Zugrundelegung der Zeichenartbestimmung
des unbekannten Zeichens und der 50 vorhergehenden und 50 nachfolgenden Zeichen innerhalb der Zeichenfolge entwickelt
wurden.
Der eigentliche Zeichenerkennungsprozeß bedient sich sämtlicher Zeichenvergleichsfunktionen in jeder Zeichenart. Die 62 Zeichenvergleichsfunktionen
für jedes unbekannte Zeichen in jeder Zeichenart werden zuerst mit der entsprechenden Zeichenarthäufigkeitsfunk-
■tacket ΪΟ 967 093 009830/1685
tion multipliziert. Darauf werden die so modifizierten Zeichenvergleichsfunktionen
für das gleiche Zeichen jeder Zeichenart summiert, wobei man 62 solche Summen, eine für jedes Zeichen
einer Zeichenart erhält. Schließlich werden diese 62 Summen verglichen um die Summe mit dem größten Wert festzustellen, womit
das unbekannte Zeichen identifiziert ist.
Wie oben bereits erwähnt und in Fig. 1 durch den Block 24 angedeutet,
sind die Zeichenarthäufigkeitsfunktionen, die zur Modifizierung der Zeichenvergleichsfunktionen benutzt werden,
gewichtete Funktionen. Jede Gruppe der drei Zeichenarthäufigkeitsfunktionen
basiert auf der Zeichenartbestimmung für 101 aufeinanderfolgende Zeichen. Diese drei Funktionen werden zur Identifizierung
des innerhalb dieser Zeichenfolge zentral angeordneten, des 51. Zeichens benutzt. Um auch in den Fällen, in denen ein
Zeichenwechsel innerhalb einer geringeren Anzahl von Zeichen auftritt, für eine korrekte Erkennung zu sorgen, wird den dem zu
identifizierenden Zeichen innerhalb der Zeichenfolge am nächsten liegenden Zeichen ein höheres Gewicht beigemessen. Dies kann
beispielsweise direkt durch den Decoder zur Erzeugung der Zeichenarthäuf igkeitsfunktionen oder getrennt durch Verdoppelung der
Zeichenartbestimmungen für eine spezifische Anzahl von Zeichen beiderseits des zu identifizierenden Zeichens erfolgen. So
kann beispielsweise die Anzahl der Zeichenartbestimmungen vom 46. bis zum 56. Zeichen zur Erhöhung des Gewichts mit 2 multipliziert
werden. Selbstverständlich kann jedes kompliziertere Wichtungsschema benutzt werden, beispielsweise kann das Gewicht
abhängig gemacht werden von der räumlichen Nähe, in der sich das zu wichtende Zeichen vom zu identifizierenden Zeichen - dem
51. der Zeichenfolge - befindet.
Es ist außerdem ersichtlich, daß während der Erkennung der ersten 50 oder letzten 50 Zeichen einer Zeichenfolge die Zeichenarthäufigkeitsfunktionen
notwendigerweise auf einer kleineren Anzahl von Zeichenartbestimmungen basieren. Das erste Zeichen
einer Zeichenfolge wird identifiziert mit Hilfe von Zeichenarthäuf igkeitsfunktionen, die auf den Bestimmungen für dieses und
Docket Ϊ0 967 093 0 0 9 8 3 0/1685
- 7 - ■■■';·
die 50 folgenden Zeichen beruhen, währenddessen das letzte
Zeichen einer Zeichenfolge unter Zugrundelegung von Zeichenarthäufigkeitsfunktionen bestimmt wird, die sich von diesem Zeichen
und den 50 ihm vorausgehenden herleiten. ■
Die Fign. 2Ά bis 2E- in Fig. 2 ist die richtige Zusammenfügung
gezeigt - zeigen eine Anordnung zur Durchführung des im Zusammenhang mit Fig. 1 beschriebenen Verfahrens. Das mit einer zu erkennenden Zeichenfolge bedruckte Dokument ist wiederum mit der
Bezugszahl 10 bezeichnet. Soweit als möglich werden zur Bezeichnung der in den Fign. 2A bis 2E gezeigten Bauteile die gleichen
Bezugszahlen (10 bis 26) wie in Fig. 1 benutzt. Das Dokument 10 wird mittels eines konventionellen Abtasters 12 und eines Detektors
12B abgetastet und derart verschlüsselt, daß ein Binärwort von
100 Bit Länge, welches im Register 12C gespeichert wird» entsteht. Das Register 12C enthält 101 Flip-Flop-Stufen 12C-1 bis
12C-101. Das letzte dieser Flip-Flops 12C-IOi enthält immer eine
binäre 1, die Gründe ergeben sich aus dem unten gesagten.
Die anderen 100 Flip-Flops im Register 12C enthalten eine binäre 1 oder 0 je nachdem, was bei der Abtastung des unbekannten
Zeichens festgestellt wurde. Jede dieser Flip-Flop-Stufen hat
eine "1"-Ausgangsleitung 12D (1 bis 100) und eine "C-Äusgangsleitung 12E (1 bis 100), von denen jeweils eine aktiv ist, je
nachdem ob das zugehörige Flip-Flop den Binärwert 1 oder 0 enthält. Die letzte Flip-Flop-Stufe 12C-101 hat verständlicherweise
nur eine "1"-Ausgangsleitung 12D-101.
Die Ausgangsleitungen des Registers 12C (Leitungen 12D und 12E)
sind parallel mit den Eingängen dreier Speicher 14A-1, 14A-2 und
14A-3 verbunden, wobei jeder Speicher für eine von drei verschiedenen Schriftarten vorgesehen ist. Diese Speicher enthalten die
bedingten Wahrscheinlichkeiten für das Auftreten der Binärwerte 1 und 0 in den 1OO Positionen für jedes der 62 Zeichen eines
Zeichensatzes. Die Eingangsleitungen mit dem Binärwert 1 sind
mit 14B-1 bis 14B-101 und die Eingänge mit dem Binärwert 0 mit
14C-I bis liC-100 bezeichnet.
Docket YO 967 093 009830/1685
2001683
Jeder der Speicher hat 62 Zeilen, wobei jeweils einem Zeichen
eine Zeile zugeordnet ist. Die Wahrscheinlichkeiten für den ersten Buchstaben, Großbuchstabe A, der ersten Zeichenart
(Schrifttype) sind in der ersten Zeile des Speichers 14A-1 enthalten. Der Wert P1Ä1 bezeichnet die bedingte Wahrschein-
XAX
lichkeit für das Auftreten des Binärwertes 1 in der ersten Position des Registers 12C, wenn der Großbuchstabe A in der
Schrifttype 1 abgetastet wird. Der Wert l~p 1A1 bezeichnet die
bedingte Wahrscheinlichkeit für das Auftreten des Binärwertes O in der gleichen Position. Die anderen Werte P2Ai ^is 1^iOOAl
ρ repräsentieren die bedingten Wahrscheinlichkeiten für die Binärwerte 0 und 1 in den anderen Positionen für den Großbuchstaben
A. Die letzte Position in der ersten Reihe speichert einen Wert P , der nicht in Beziehung steht mit der Zeichendarstellung
XwXAX
sondern ein Häufigkeitsfaktor ist, der angibt, wie oft der zu der Zeile gehörende Buchstabe in normalem Text zu erwarten ist.
Beispielsweise wird der Häufigkeitsfaktor für den Kleinbuchstaben e relativ hoch und für den Kleinbuchstaben ζ relativ niedrig
sein.
Sobald die Darstellung eines unbekannten Zeichens in Form eines
Binärwortes im Register 12C enthalten ist, werden zu den drei Speichern 14A-1, 14A-2 und 14A-3 auf den entsprechenden Leitungen 14B oder 14C Signale übertragen. Die Leitung 14B-101 wird
bei jeder Operation unabhängig von den Ausgangssignalen des Detektors 12B aktiviert.
Da die Operation der drei Speicher 14A-1, 14A-2 und 14A-3
identisch verläuft, erscheint eine Beschreibung des ersten dieser Speicher ausreichend. Der Speicher enthält 62 Zeilentreiberleitungen 14D, eine für jeden der 62 Zeichen des Zeichensatzes.
Diese Leitungen werden aufeinanderfolgend in Verbindung mit den auf die gewählte Kolonne über die Leitungen 14B-1 oder
14C-1 usw. gegebenen Signalen aktiviert. Dadurch werden die entsprechend bedingten Wahrscheinlichkeiten für das zugehörige
bekannte Zeichen ebenso wie der Häufigkeitsfaktor aus dem Speicher ausgelesen und über die ODER-Schaltungen 14E einem Aus-
Docket YO 967 093 0 0 9 8 3 0/1685
■ - 9 -
gangsregister 14F zugeführt. Sobald eine Gruppe der bedingten
Wahrscheinlichkeiten sich im Register befindet, wird sie aufeinanderfolgend
einschließlich des Häufigkeitsfaktors ausgelesen und die Einzelwerte miteinander im Multiplikator 14G
multipliziert.
Unter der Voraussetzung, daß die Binärwerte in der ersten,
zweiten, dritten und hundertsten Position des Registers 12C
101 1 sind, lautete das durch die Multiplikationsschaltung
14G für den Großbuchstaben A errechnete Ergebnis folgendermaßen:
(P^) (1-P^) (P^) ---
<P10(Ä1> . 0?1Oiax>
' DieseS
Produkt wird als Zeichenvergleichsfunktion des unbekannten Zeichens gegen den Großbuchstaben A der ersten Zeichenart .
bezeichnet. .
Jedes der in der Multiplikationsschaltung 14G entwickelten Produkte
repräsentiert eine Zeichenvergleichsfunktion und wird sowohl auf einen Akkumulator 14H als auch auf einen Pufferspeicher
16A gegeben. Der beschriebene Lese- und Multiplikationsvorgang wird für die anderen 61 bekannten Zeichen des Zeichensatzes
wiederholt, wodurch 61 weitere Produkte entstehen, deren jedes eine Zeichenvergleichsfunktion des unbekannten Zeichens
mit der gespeicherten Darstellung eines der bekannten Zeichen im Zeichensatz ist.
Im Akkumulator 18A werden die Produkte getrennt für die drei
Zeichenarten aufsummiert und nach Addition des 62. Produkts
werden die Gesamtsummen auf eine Größtwertauswahlschaltung 2OA gegeben. Diese Schaltung bestimmt die Summe der drei, die den
größten Wert aufweist, und damit die Zeichenart des unbekannten Zeichens. Nach jeder Zeichenartbestimmung wird ein den Binärwert
1 darstellendes Signal über eine der Ausgangsleitungen 2OB der
Größtwertauswahlschaltung 2OA auf das entsprechende von drei
Schieberegistern 22A gegeben.
Jedes dieser Schieberegister 22A hat 101 Positionen, in denen
die Ergebnisse der letzten 101 Zeichenartbestimmungen gespeichert
Docket YO 967 093 00 9 8 3 0/ 1685
sind. Anfang und Ende der Operation, d.h. die Abtastung der
ersten oder letzten 100 unbekannten Zeichen soll in diesem Augenblick außer Betracht bleiben. Nach jeder Zeichenartbestimmung
werden die Schieberegister 22A um eine Position nach rechts verschoben,
so daß in der am weitesten links liegenden Stufe eines Registers eine 1 gespeichert ist, während die gleiche Position
der beiden anderen Registern mit einer 0 belegt ist. Gleichzeitig werden die Werte, die sich in der am weitesten rechts liegenden
Position befinden - verständlicherweise handelt es sich dabei wiederum um eine Eins und zwei Nullen - aus dem Register
herausgeschoben und nicht mehr weiter verwendet.
Demnach speichern die drei Schieberegister 22A laufend die Resultate der letzten 101 Zeichenartbestimmungen. Unter der
Voraussetzung, daß der Maximumdetektor 2OA kein Zeichen zurückweist, werden sich also jeweils 101 binäre Einsen über die drei
Schieberegister verteilt befinden.
Jedes der Schieberegister 22A besitzt 101 Ausgangsleitungen 22B,
für jede Stufe des Schieberegisters eine. Diese Ausgangsleitungen führen ein Signal, welches anzeigt ob die zugehörige Stufe des
Schieberegisters den Binärwert O oder 1 enthält. Die Leitungen 22B sind mit drei Wichtungsschaltungen 24A verbunden, deren
Funktion darin besteht, den räumlich zentral innerhalb des Schieberegisters angeordneten Binärwerten 1 ein größeres Ge-
W wicht beizumessen. Das exakte Wichtungsschema ist natürlich von
der Anwendung abhängig. Im vorliegenden Fall werden die elf zentral gelegenen Positionen des Schieberegisters (Position 46
bis 56) summiert, um die Häufigkeit des Binärwertes 1 festzustellen, und diese Summe wird verdoppelt. Die weiteren Binärwerte 1 im Schieberegister werden zu dieser verdoppelten Summe
addiert, um eine einzige Summe zu erhalten, die repräsentativ ist für die gewichteten Werte, die während der letzten 101 Zeichenartbestimmungen
für die drei Zeichenarten gespeichert wurden.
Durch die an die Wichtungsschaltungen 24A angeschlossenen De-Docket
YO 967 093 009830/1685
köder 24B werden die in der oben beschriebenen Weise ermittelten
Werte in Zeichenarthäuflgkeitsfunktionen umgeformt, die bei der
eigentlichen Zeichenerkennung benutzt werden. Diese Zeichenarthäufigkeitsfunktionen
werden von den Decodern 24b auf drei
Pufferspeicher 24C und von dort über die Leitungen 24D auf drei
Multiplikationsschaltungen 26A (Fig. 2E) gegeben. Die durch die Pufferspeicher 24C ausgeübte Zeitkontrolle bewirkt, daß die
drei Zeichenarthäufigkeitsfunktionen zu dem Zeitpunkt auf die Multiplikationsschaltungen 26Ά gegeben werden, zu dem die Zeichenvergleichsfunktionen
des 51. Zeichens innerhalb des Zeichensatzes den anderen Eingang der Multiplikationsschaltungen 26A
erreichen.
Die Zeichenvergleichsfunktionen sind - wie oben beschrieben die
62 Produkte für jede Zeichenart, die durch die Multiplikationsschaltungen
14G entwickelt wurden. Sie wurden im Pufferspeicher 16A solange gespeichert, bis die dem zu identifizierenden Zeichen räumlich folgenden 50 Zeichen abgetastet, auf die
Zeichenaxt untersucht und aus diesen Resultaten und den, die sich bei der Untersuchung der dem zu identifizierenden Zeichen
vorausgehenden 50 Zeichen ergaben, die Zeichenarthäufigkeitsfunktionen
bestimmt wurden.
Die 186 Zeichenvergleichsfunktionen (62 für jede Zeichenart) werden von den Pufferspeichern 16B in die drei Multiplikationsschaltungen 26Ά übertragen. In diesen werden jeweils die drei
im Vergleich mit einem bekannten Zeichen gewonnenen Zeichenvergleichsfunktionen
multipliziert mit den Zeichenarthäufigkeitsfunktionen und auf einen Akkumulator 26B übertragen. Jede Multiplikation
produziert eine modifizierte Zeichenvergleichsfunktion und die drei Funktionen für jedes der 62 Zeichen werden aufeinanderfolgend
im Akkumulator 26B summiert»
Diese Summe wird nun über die Torschaltung 26D in eine Position
des Registers 26 E gegeben. Wenn alle 62 Summen vom Akkumulator 26B hergestellt und in das Register 26E übertragen wurden, werden
Docket YO 967 093 009830/ 1.685'
sie auf einen Spitzenwertdetektor 26F gegeben, der die Summe
mit dem größten Wert feststellt und dadurch das Zeichen identifiziert.
Aus dieser Beschreibung wird klar, daß die eigentliche Zeichenerkennung auf der aus dem Vergleich des unbekannten Zeichens
mit dem in allen drei Zeichenarten enthaltenen bekannten Zeichen herrührenden Information basiert. Die in das Register 26E
eingegebenen Summen sind die modifizierten Zeichenvergleichsfunktionen für jedes der 62 Zeichen innerhalb eines Zeichensatzes.
Es wurde festgestellt, daß durch Anwendung dieses Zeichenerkennungsverfahrens eine Erkennung mit großer Sicherheit, d.h.
eine geringe Fehlerrate erzielbar ist.
Bei Erkennung der ersten oder letzten hundert Zeichen einer Zeichenfolge arbeitet das System prinzipiell in gleicher Weise
wie oben beschrieben. Der einzige Unterschied besteht darin, daß die Zeichenarthäufigkeitsfunktionen von weniger als 101
Zeichenartbestimmungen abgeleitet werden müssen.
Die Schieberegister 22A (Fig. 2D) werden vor Beginn der Operation auf O gestellt. Das erste Zeichen der Zeichenfolge wird
identifiziert unter Benutzung einer von den ersten 51 Zeichen der Zeichenfolge abgeleiteten Zeichenarthäufigkeitsfunktion.
Zur Erkennung des zweiten Zeichens innerhalb der Zeichenfolge basiert die Zeichenarthäufigkeitsfunktion auf der ZeichenartbeStimmung der ersten 52 Zeichen der Folge, usw. Ähnlich ist
die Arbeitsweise während der Erkennung der letzten 50 Zeichen einer Folge.
Die Steuer- und Taktgebersignalquellen, die zum Zusammenspiel
aller Funktionen der beschriebenen Anordnung notwendig ist, wird durch den Block 30 in Fig. 2C dargestellt. Diese Steuereinheit gibt sowohl Signale zur Einleitung von Operationen als
sie auch Signale empfängt, die die Ausführung von Operationen anzeigen. Die Leitungen zwischen der Steuereinheit 30 und den
Komponenten der Anordnung wurden der Übersichtlichkeit halber Docket YO 967 093 0 0 9 8 3 0/1685
weggelassen; für die Funktion der Erfindung sind sie ohne Bedeutung.
Bei der Steuereinheit 30 kann es sich beispielsweise um eine programmier- oder steuerbare Einheit handeln, wodurch
beispielsweise die Funktion der Wichtungsschaltungen 24A in
einfacher und zweckentsprechender Weise von der Anwendung abhängig
gemacht werden können.
Beispielsweise ist auch möglich, die Zeichenartauswahl in die
eigentliche Zeichenerkennung eingreifen zu lassen: durch Auswahl des der bestimmten Zeichenart zugehörigen Pufferspeichers
16A mittels der als Torschaltungen wirksamen oder durch Torschaltungen
ersetzten Multiplikationsschaltungen 26A ist ein Weglassen des Akkumulators 26B möglich.
Auch kann beispielsweise ein Verfahren der zweifachen Abtastung
der zu erkennenden Zeichen benutzt werden. Bei der ersten Abtastung
wird die Zeichenart bestimmt, die daraus abgeleiteten
Funktionen werden gespeichert und danach bei der zweiten Abtastung
direkt die eigentliche Zeichenerkennung durchgeführt.
Erwähnenswert erscheint noch, daß das Verfahren und die Anordnung
auch zur Erkennung von unbekannten Zeichen benutzt werden kann, deren Zeichenart nicht in der Maschine als Darstellung gespeichert
ist. Die kontinuierliche Entwicklung der Zeichenarthäufigkeitsfunktionen
erlaubt diese Arbeitsweise. Die Genauigkeit kann noch gesteigert werden durch Erhöhung der Anzahl der in
der Maschine gespeicherten Zeichenarten.
Schließlich soll noch darauf hingewiesen werden, daß die Einrichtung
zur Durchführung des Verfahrens in Fign. 2A bis 2E eine relativ große Anzahl von parallelarbeitenden Komponenten
besitzt. Die Funktionen dieser Komponenten können natürlich
bei Verminderung der Geschwindigkeit und bei gleichzeitiger Einsparung von Bauteilen auch seriell ausgeführt werden.
Docket YO 967 093 0 0 9 8 3 Ö / 1 605
Claims (1)
- PATENTANSPRÜCHE1. Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge aus mehreren Zeichenarten, insbesondere von Schriftzeichen einer aus mehreren Schrifttypen bestehenden Schriftzeichenfolge, gekennzeichnet durch folgende Verfahrensschritte (Fig. 1):a) Gewinnung einer maschinell verarbeitbaren Darstellung jedes zu identifizierenden Zeichens der Zeichenfolge (12)b) Vergleich jeder unbekannten Zeichendarstellung mit einer Vielzahl von bekannten Zeichendarstellungen jeder Zeichenart (14, 18)c) Bestimmung der Zeichenart jedes unbekannten Zeichens aus dem vorhergegangenen Vergleich (20)d) Ableitung einer Häufigkeitsverteilung jeder Zeichenart innerhalb einer Zeichenfolge aus mehreren Zeichenartbestimmungen (24)e) Identifizierung jedes unbekannten Zeichens durch Vergleich der unbekannten Zeichendarstellung mit bekannten Zeichendarstellungen unter Zugrundelegung der Häufigkeitsverteilung, die für das zu identifizierende Zeichen und die es umgebende Zeichenfolge bestimmt wurde.2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unbekannte Zeichen als Binärwort mit einer vom Abtastverfahren abhängigen, bestimmten Ordnung dargestellt wird und daß als Darstellung jedes bekannten Zeichens die Wahrscheinlichkeiten für das Auftreten der Binärwerte "0" und "1" innerhalb eines in gleicher Ordnung befindlichen Wortes gespeichert sind.3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Vergleich eines unbekannten und eines bekannten Zeichens durch Multiplikation der durch die Werte des Binärwortes des unbekannten Zeichens bestimmten WahrscheinlichkeitenDocket YO 967 093 009830/1685der Darstellung des bekannten Zeichens vorgenommen wird und daß die erhaltenen Wahrscheinlichkeitsprodukte für jede Zeichenart getrennt summiert werden und das unbekannte Zeichen derjenigen Zeichenart zugeordnet wird, deren Summe den größten Wert aufweist.Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Bestimmung der Häufigkeitsfunktionen den innerhalb einer Zeichenfolge dem zu identifizierenden Zeichen räumlich am nächsten liegenden Zeichen ein höheres Gewicht beigemessen wird.5. Einrichtung zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Vorrichtung (12, 12B) zum Abtasten von Zeichen, insbesondere zum Abtasten von auf einem Dokument (10) befindlichen Schriftzeichen, die für jedes abgetastete Zeichen ein Binärwort als Ausgangssignal abgibt, über ein Register (12C) mit mehreren Speichern (14A-1, 14A-2, 14A-3) verbunden ist deren jeder die Wahrscheinlichkeitsdarstellungen aller bekannten Zeichen einer Zeichenart enthält,daß an jedem Speicher (14A-1, 14A-2, 14A-3) über ODER-Schaltungen (14E) und ein Register (14F) ein Multiplikator (14G) angeschlossen ist, dessen Ausgang sowohl mit einer Summierschaltung (Akkumulator 18A) als auch mit einem Zwischenspeicher (Puffer 16A) verbunden ist, daß die Ausgänge aller Sumraierschaltungen (Akkumulatoren 18A) an eine Größtwertauswahlschaltung (2OA) angeschlossen sind, die eine binäre "1" jeweils dem der festgestellten Zeichenart zugeordneten Schieberegister (22A) zuführt, und alle Schieberegister (22A) nach Abtastung eines Zeichens weitergeschaltet werden,daß die Ausgangsleitungen (22B) jeder Stufe eines Schieberegisters (22A) mit einer Wichtungsschaltung (24A) verbunden sind, deren Ausgangssignal über einen Decoder (24B) einer an die genannten Zwischenspeicher (16A) angeschlos-Docket TO 967 093 00 98 3 0 / 1 68 5 ^ ' " ^ ■ .senen Multiplikationsschaltung (26A) zugeführt werden und daß die Ausgänge aller Multiplikationsschaltungen (26A) über eine Summlerschaltung (Akkumulator 26B) an ein durch Torschaltungen (26D) gesteuertes Register (26E) angeschlossen sind, dessen Ausgangsleitungen mit einer die unbekannten Zeichen Identifizierenden Größtwertauswahlschaltung (SpItzenwertdetektor 26F) verbunden sind.009830/ 1685
Docket YO 967 093L e e r s e i t e
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US79122269A | 1969-01-15 | 1969-01-15 | |
| US79122269 | 1969-01-15 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| DE2001663A1 true DE2001663A1 (de) | 1970-07-23 |
| DE2001663B2 DE2001663B2 (de) | 1976-09-30 |
| DE2001663C3 DE2001663C3 (de) | 1977-05-18 |
Family
ID=
Also Published As
| Publication number | Publication date |
|---|---|
| GB1238617A (de) | 1971-07-07 |
| US3634822A (en) | 1972-01-11 |
| FR2031086A5 (de) | 1970-11-13 |
| DE2001663B2 (de) | 1976-09-30 |
| JPS5023258B1 (de) | 1975-08-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE2909153C2 (de) | Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern | |
| DE3650156T2 (de) | Auf regeln basiertes datenwiederauffindverfahren und anordnung. | |
| DE2755875C2 (de) | ||
| DE2322538A1 (de) | Geraet zum auswerten von pruefungsbogen | |
| DE3326583C2 (de) | ||
| DE2640537A1 (de) | Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen | |
| DE3112958A1 (de) | "tastenfeld mit signalaufbereitungsschaltung fuer elektrische geraete" | |
| DE2311220A1 (de) | Digital-informations-verarbeitungsvorrichtung zur zeichenerkennung | |
| DE69119930T2 (de) | Vorrichtung zur Programmierung einer speicherprogrammierbaren Steuerung und Verfahren zum Gebrauch der Ablaufplantechnik | |
| DE69223979T2 (de) | Fuzzy-züruckgewinnungsgerät und verfahren dafür | |
| DE1212758B (de) | Verfahren und Schaltungsanordnung zur maschinellen Erkennung von Schriftzeichen | |
| DE2049581B2 (de) | Vorrichtung zur zeichenerkennung | |
| DE3836789A1 (de) | Vorrichtung zur erzeugung von helligkeitsstufen auf einem anzeigeschirm | |
| DE102014105218A1 (de) | Suchvorrichtung mit Verwendung von endlichen Automaten für Teilworte | |
| DE3853137T2 (de) | Abfragevorrichtung. | |
| DE69331035T2 (de) | Zeichenerkennungssystem | |
| DE1957600C3 (de) | ||
| DE2001663A1 (de) | Verfahren und Vorrichtung zur Zeichenerkennung | |
| DE2001663C3 (de) | Verfahren und Vorrichtung zur Zeichenerkennung | |
| DE2300340C2 (de) | Verfahren zur Analyse von auf einem Speicher mit Relativbewegung zwischen Speicherfläche und Lese- bzw. Schreibköpfen gespeicherten Informationen und Vorrichtung zur Durchführung des Verfahrens | |
| DE2559258A1 (de) | Verfahren zum zeilenausschliessen in druckwerken durch vergroessern der wortabstaende | |
| DE2419836C3 (de) | Schaltungsanordnung zur Durchführung von Unterprogramm-Sprungbefehlen in Datenverarbeitungsanlagen | |
| DE3714514A1 (de) | Vorrichtung und verfahren zur textverarbeitung | |
| DE1114349B (de) | Verfahren und Einrichtung zur automatischen Erkennung durchstrichener oder ineinandergeschriebener Zeichen | |
| DE1424756B2 (de) | Schaltungsanordnung zum fehlergesicherten Einführen oder Wiedereinführer, von Programmen in den Hauptspeicher einer datenverarbeitenden Anlage |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C3 | Grant after two publication steps (3rd publication) | ||
| E77 | Valid patent as to the heymanns-index 1977 | ||
| 8339 | Ceased/non-payment of the annual fee |