DE3486104T2 - Trennanlage und -verfahren fuer optische zeichenleseeinrichtungen. - Google Patents

Trennanlage und -verfahren fuer optische zeichenleseeinrichtungen.

Info

Publication number
DE3486104T2
DE3486104T2 DE8484115985T DE3486104T DE3486104T2 DE 3486104 T2 DE3486104 T2 DE 3486104T2 DE 8484115985 T DE8484115985 T DE 8484115985T DE 3486104 T DE3486104 T DE 3486104T DE 3486104 T2 DE3486104 T2 DE 3486104T2
Authority
DE
Germany
Prior art keywords
character
possible separation
segment
distance
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE8484115985T
Other languages
English (en)
Other versions
DE3486104D1 (de
Inventor
Ko C O Nec Corp Asai
Yoshitake C O Nec Corp Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP58240335A external-priority patent/JPS60132281A/ja
Priority claimed from JP59020300A external-priority patent/JPS60164879A/ja
Priority claimed from JP59020299A external-priority patent/JPS60164878A/ja
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Application granted granted Critical
Publication of DE3486104D1 publication Critical patent/DE3486104D1/de
Publication of DE3486104T2 publication Critical patent/DE3486104T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

  • Die Erfindung betrifft optische Zeichenlesesysteme. Insbesondere bezieht sie sich auf eine Trenneinrichtung zum Trennen eines auf Papier vorliegenden Zeichenfolgebildes in einzelne Zeichen.
  • Um eine Folge von gedruckten Zeichen erkennen zu können, müssen optische Zeichenlesesysteme die Zeichen in einzelne Zeichen trennen. Ferner sollten die optischen Zeichenlesesysteme gedruckte Zeichen vieler Schriftarten und schlechter Druckqualität, wie sie auf normalen Postsendungen und Dokumenten gedruckt sind, beherrschen. Bei Zeichenfolgen auf normalen Dokumenten kommt es vor, daß die zu trennenden Zeichen miteinander verbunden sind oder daß ein Zeichen wegen schlechter Qualität in mehr als ein Bild getrennt wird. Was das Alphabet betrifft, so schwankt die Breite jedes Zeichens entsprechend der Varianz der Schriftart oder der Zeichenkategorie. Deshalb ist eine Trenneinrichtung erforderlich, die die Zeichenkette unter den oben genannten Bedingungen korrekt in einzelne Zeichen trennt.
  • Eine derartige Zeichentrenneinrichtung ist im US-Patent Nr. 3 629 826 vorgeschlagen worden. Die vorgeschlagene Trenneinrichtung tastet ein Zeichenbild vertikal ab und legt eine Zeichentrennstelle fest, indem sie einen Punkt ermittelt, wo ein vertikales Scanbit minimiert wird. Um die miteinander verbundenen Zeichen, auch Verbundzeichen genannt, zu trennen, speichert diese Einrichtung außerdem vorher viele Verbundzeichenbilder für alle Zeichen, und eine Trennungsstelle wird bestimmt, indem das Verbundzeichenbild mit den gespeicherten Verbundzeichenbildern verglichen wird. Das heißt, diese Einrichtung führt die Zeichentrennung anhand der lokalen Bilder der Zeichenfolge durch.
  • Diese Trennungseinrichtung kann jedoch das Zeichen, das als ein Zeichen in zwei oder mehr Bilder aufgeteilt ist, nicht richtig erkennen. Außerdem braucht diese Einrichtung eine enorme Speicherkapazität zum Speichern vieler Verbundzeichenbilder von allen Zeichen, die mit anderen Zeichen verbunden sind. Darüber hinaus kann durch eine spezielle Funktion der Zeichentrennung für den Einzelfall eine beträchtliche Verminderung der Genauigkeit und der Geschwindigkeit der Zeichentrennung eintreten.
  • Daneben kann bei dieser Art von Trenneinrichtung ein Zeichenabstand als Information zum Trennen einer Zeichenfolge verwendet werden. Der Zeichenabstand kann der Trenneinrichtung als bekannte Information vorgegeben werden, indem man bei Drucksachen, die von optischen Zeichenlesern gelesen werden, Beschränkungen einführt. Da jedoch die Zeichen, die auf einem normalen Dokument gedruckt oder geschrieben sind, wie oben beschrieben, einen nicht festgelegten Zeichenabstand haben, ist der Zeichenabstand vorher nicht bekannt. Folglich muß der Zeichenabstand anhand eines Zeichenfolgebildes auf dem Papier geschätzt werden.
  • Bisher wird ein Mittelwert für die Zeichenbreite verschiedener Zeichen als Schätzwert für den Zeichenabstand verwendet. Wenn aber eine Einzelzeichenbreite in Abhängigkeit von Schriftart oder Zeichenkategorie sehr schwankt oder die Anzahl der Verbundzeichen sich erhöht, ist ein Abweichungsfehler zwischen dem Mittelwert der Zeichenbreite und einem tatsächlichen Zeichenabstand nicht mehr vernachlässigbar. Aufgrund des Fehlers wählt die Trenneinrichtung eine falsche Anzahl Verbundzeichen oder trennt die Zeichenfolge an einer falschen Trennstelle. Wie oben beschrieben, sollte der optische Zeichenleser sowohl die gedruckten Zeichen mit konstantem Abstand wie auch die mit variablem Abstand einschließlich handgeschriebener Zeichen beherrschen. Dabei muß die Trenneinrichtung den Algorithmus für die Zeichentrennung ändern, je nachdem ob es sich um gedruckte Zeichen mit konstantem oder mit variablem Abstand handelt. Deshalb ist es auch wichtig, vor Durchführung der Zeichenfolgetrennung herauszufinden, ob der Abstand der ermittelten Zeichendaten konstant oder variabel ist.
  • Das IBM Technical Disclosure Bulletin, Vol. 23, Nr. 3, August 1980, S. 1194, C.R. JIH "Segmentation method for fixedpitched and machine-printed documents" beschreibt eine Methode zur Trennung einzelner Zeichen aus einem Zeichenzeilenbild auf der Grundlage eines bestimmten Standardabstands. Da jedes Zeichen in einem Zeichenzeilenbild normalerweise eine andere Breite hat und der Anfang eines Zeichenzeilenbildes nicht festgelegt ist, kann das Verfahren, das das Zeichen einfach anhand des Standardabstandes abtrennt, nicht zur Verbesserung der Genauigkeit beitragen. Um dieses Problem zu lösen, wird bei diesem Verfahren das Zeichen auf der Grundlage des Standardabstands und der Abstandsabweichungsinformation vom Zeichenzeilenbild getrennt.
  • Um die Abstandsabweichung zu erkennen, werden der Anfangsrand, der Endrand und die Mittellinie des Zeichenkörpers ermittelt. Die Abstandsabweichung wird dann als Abstand zwischen einer durch den Standardabstand gegebenen Referenzgitterposition und der Mittellinie des Zeichenkörpers berechnet. Da die Abstandsabweichung bei falschen Daten hoch ist, werden die falschen Daten durch eine einfache Schwellwertverarbeitung auf der Grundlage des experimentellen Wertes beseitigt. Daraus folgt, daß sich die Anzahl der falschen Daten erhöht, die Anzahl der zu ermittelnden richtigen Daten sich verringert und die Abstandsabweichungsinformation sich nicht auf die Kompensation des Standardabstands auswirken kann.
  • Daher ist es eine Aufgabe der Erfindung, eine Trenneinrichtung bzw. ein Trennverfahren zur Trennung einer Zeichenfolge in einzelne Zeichen bereitzustellen, das auch dann genau arbeitet, wenn die Zeichenfolge Verbundzeichen aufweist oder wenn ein Zeichen in zwei oder mehr Bilder aufgeteilt ist.
  • Diese Aufgabe wird von einer Einrichtung mit den Merkmalen des Anspruchs 1 und einem Verfahren mit den Merkmalen des Anspruchs 7 gelöst. Die Unteransprüche beziehen sich auf die bevorzugten erfindungsgemäßen Ausführungsbeispiele.
  • Die erfindungsgemäße Trenneinrichtung ist insbesondere in der Lage, einen optimalen Zeichenabstand auch dann zu ermitteln, wenn die Zeichenfolge Verbundzeichen aufweist oder ein Zeichen in zwei oder mehr Bilder aufgeteilt ist, und zu erkennen, ob die gewonnenen Zeichendaten einen konstanten oder variablen Abstand haben, und somit eine Zeichentrennung entsprechend den Zeichenabständen durchzuführen.
  • Die erfindungsgemäße Trenneinrichtung bestimmt eine Zeichentrennstelle, indem sie anhand des Zeichenabstands nacheinander für eine Trennung in Frage kommende Segmente, auch mögliche Segmente genannt, und eine Leerrauminformation des Zeichenbildes festlegt, und ermittelt eine Sequenz von Zeichentrennstellen durch eine dynamische Programmierung. Die Zeichensequenztrennstellen werden so festgelegt, daß sie die Varianz der Entfernung zwischen den möglichen Trennstellen und die Varianz der Verschiebung zwischen einem durchschnittlichen Abstand und einem Zeichenabstand minimiert.
  • Ferner schätzt die erfindungsgemäße Trenneinrichtung einen Zeichenabstand. Diese Trenneinrichtung trennt eine Häufigkeitsverteilung eines Zeichenkörpers über eine Entfernung zwischen den Zeichenkörpern anhand eines möglichen Zeichenabstands in viele Segmente. Die Zeichenkörper sind durch die Leerrauminformation des Zeichenbildes voneinander getrennt. Der mögliche Zeichenabstand wird anhand einer Zeichenhöheninformation oder anderer Informationen festgelegt. Die Trenneinrichtung ermittelt einen optimalen Linearsummenschätzstandard (Varianzkriterium) für den Fehler zwischen einem repräsentativen Punkt des getrennten Segments und dem möglichen Zeichenabstand. Der am besten geeignete Zeichenabstand wird so festgelegt, daß er den optimalen Linearsummenschätzstandard (Varianzkriterium) minimiert.
  • Die oben genannten und weitere Aufgaben, Merkmale und Vorteile der Erfindung werden durch die nachstehende Beschreibung der bevorzugten erfindungsgemäßen Ausführungsbeispiele im Zusammenhang mit den beiliegenden Zeichnungen besser verständlich, in denen
  • Fig. 1(a) bis (e) die möglichen Zeichentrennstellen in einem Zeichenfolgebild gemäß einem erfindungsgemäßen Ausführungsbeispiel darstellen,
  • Fig. 2(a) bis (b) die Punkte des Endrandes in einem Zeichenfolgebild gemäß einem erfindungsgemäßen Ausführungsbeispiel darstellen,
  • Fig. 3 ein Prinzip zur Gewinnung optimaler Zeichentrennstellen aus einer Anzahl von möglichen Zeichentrennstellen darstellt,
  • Fig. 4 ein Blockschaltbild einer Trenneinrichtung gemäß einem erfindungsgemäßen Ausführungsbeispiel ist,
  • Fig. 5 ein Blockschaltbild der Schätzstandard-Arithmetikeinheit gemäß Fig. 4 ist,
  • Fig. 6 Abstände zwischen Zeichenkörpern im Zeichenfolgebild darstellt,
  • Fig. 7 ein Beispiel einer Häufigkeitsverteilung des Abstandes zwischen Zeichenkörpern, die aus einer Reihe von Zeichenfolgebildern ermittelt worden sind, darstellt,
  • Fig. 8(a) und (b) ein Beispiel einer Häufigkeitsverteilung des Abstandes zwischen Zeichenkörpern mit konstantem bzw. variablem Zeichenabstand darstellen,
  • Fig. 9 ein Blockschaltbild der Zeichenabstandserkennungseinheit gemäß Fig. 4 ist.
  • Fig. 1(a) zeigt in schraffierter Form ein Zeichenfolgebild mit Verbundzeichen und ein Zeichen, das in zwei Bilder geteilt ist. Ein Zeichenabstand P kann von einem nachstehend beschriebenen Zeichenabstandsdetektor ermittelt werden, es kann jedoch auch, wenn der Abstand bereits bekannt ist, der bekannte Wert verwendet werden. Eine Projektionsverteilung gemäß Fig. 1(b) wird ermittelt, indem das Zeichenfolgebild gemäß Fig. 1(a) vertikal projiziert wird.
  • Um die Verbundzeichen (a m u) zu trennen und den getrennten Buchstaben (h) zu einem richtigen Einzelzeichen zusammenzusetzen, muß ein Anfangstrennpunkt für das Zeichen richtig vorausgesagt werden. Bei den miteinander verbundenen Zeichen "a" und "m" ist beispielsweise das "a" etwas kleiner. Deshalb sollte der Anfangstrennpunkt etwas links von einem Anfangsrand der Verbundzeichenbilder (a m u) liegen.
  • Zuerst werden Lage und Größe einer weißen Fläche (im folgenden Leerraum genannt) und einer schwarzen Fläche (im folgenden Zeichenkörper genannt) aus der Projektionsverteilung gemäß Fig. 1(b) extrahiert. Es werden eine Anzahl von Zeichenkörperbreiten Vi (i = 1, . . . 4), Leerräumen Wi (i = 1, ... 4) und Lageinformationen aus der Projektionsverteilung gemäß Fig. 1(c) gewonnen.
  • Als nächstes werden anhand des Zeichenabstands P und der vorher festgelegten Schwellwerte T&sub1; und T&sub2; Segmente zur Festlegung der Zeichentrennstellen (im folgenden zulässige Segmente genannt) festgelegt, und zwar unter folgenden Bedingungen (1) und (2):
  • Bedingung (1) Ein Segment der Leerräume wird als das zulässige Segment bestimmt.
  • Bedingung (2) Ein Segment der Zeichenkörper, deren Breite Vi die Bedingung Vi > P + T&sub1; erfüllt und bei dem das Segment T&sub2; an beiden Enden der Breite Vi ausgenommen ist, wird als das zulässige Segment bestimmt.
  • Als zulässige Segmente, die die genannten Bedingungen (1) und (2) erfüllen, gelten die Segmente A&sub0;, A&sub1;, A&sub2;, A&sub3;, A&sub4; und A&sub5; gemäß Fig. 1(d). Hier können die oben genannten Schwellwerte T&sub1; und T&sub2; als Funktionen des Zeichenabstands P gegeben sein. Außerdem kann der Schwellwert T&sub1; gemäß einem Schätzfehler bei der Schätzung des Zeichenabstands P festgelegt werden, wie später beschrieben wird.
  • Als nächstes werden die möglichen Segmente k (k≥0) gemäß Fig. 1(e) unter Verwendung des Zeichenabstands P und des vorher festgelegten Schwellwertes T&sub3; als zulässige Segmente A&sub1;, A&sub2;, A&sub3;, A&sub4; und A&sub5; festgelegt. In Fig. 1(e) werden erste Scanbits W&sub0;' (dargestellt durch kleine, weiße Kreise) im Leerraum W&sub0; festgelegt. Als nächstes wird ein Segment k'=0 festgelegt, bei dem ein Abstand von dem beliebigen Scanbit W&sub0;, in den Grenzen (P±T&sub3;) liegt. Als nächstes wird das Segment mit dem zulässigen Segment A&sub1; und dem Segment k'=0 als mögliches Segment k=0 festgelegt. Im Ausführungsbeispiel gibt es im ersten möglichen Segment k=0 nur ein Scanbit (dargestellt durch einen schwarzen Punkt). Das durch einen schwarzen Punkt dargestellte Scanbit wird im folgenden als eine mögliche Trennstelle bezeichnet, die mit x(k, ik) definiert ist. Dabei ist ik eine ganze Zahl, die mit 1 beginnt und eine relative Anzahl der möglichen Segmente k ist. Das heißt, in dieser Stufe wird die erste mögliche Trennstelle x(0, 1) ermittelt.
  • Als nächstes wird ein Segment k'=1 festgelegt, bei dem der Abstand von der möglichen Trennstelle x(0, 1) in den Grenzen (P±T&sub3;) liegt, und das Segment mit dem zulässigen Segment A&sub1; und dem Segment k'=0 wird als mögliches Segment k=1 festgelegt. Das mögliche Segment k=1 weist zwei mögliche Trennstellen x(1, 1) und x(1, 2) auf. Dann wird das Segment, bei dem der Abstand von einer möglichen Trennstelle x(1, i&sub1;) den Wert (P±T&sub3;) hat, nämlich das Segment von x(1, 1)+P-T&sub3; bis x(1, 2)+P+T&sub3; als ein Segment k'=2 festgelegt. Das gesamte Segment k'=2 ist im zulässigen Segment A&sub4; enthalten, und deshalb ist das mögliche Segment k=2 mit dem Segment k'=2 identisch. Das mögliche Segment k=2 weist vier mögliche Trennstellen x(2, 1), x(2, 2), x(2, 3) und x(2, 4), auf.
  • Ein Segment k'=3 wird dann entsprechend dem möglichen Segment k=2 auf gleiche Weise festgelegt, und ein mögliches Segment k=3 und eine mögliche Trennstelle x(3, i&sub3;) (i&sub3; = 1, 2, 3, 4, 5, 6) werden durch ein logisches Produkt mit dem zulässigen Segment A&sub4; bestimmt. Ein mögliches Segment k=4 und eine mögliche Trennstelle x(4, i&sub4;) (i&sub4; = 1, 2, 3, 4) werden entsprechend dem möglichen Segment k=3 festgelegt. Dann wird durch ein logisches Produkt aus einem Segment k'=4 und dem zulässigen Segment A&sub4; eine mögliche Trennstelle x(4, 1) erzeugt, und die Trennstellen x(4, 2), x(4, 3), x(4, 4) werden durch ein logisches Produkt aus einem Segment k'=4 und dem zulässigen Segment A&sub5; erzeugt.
  • Wie aus der obigen Beschreibung hervorgeht, gilt für alle möglichen Trennstellen x(k, ik) und x(k+1, ik+1) zwischen den nebeneinanderliegenden, möglichen Segmenten k und k+1 folgende Formel, wenn der Abstand {x(k+1, ik+1)-x(k, ik)} zwischen den möglichen Trennstellen x(k, ik) und x(k+1, ik+1) als d(k, k+1; ik, ik+1) definiert wird:
  • d(k, k+1; ik, ik+1)-P ≤ T&sub3; (1)
  • Für den Abstand d(1, 2; 1, 2) zwischen den möglichen Trennstellen x(1, 1) und x(2, 2) gilt z. B. folgende Formel:
  • d(1, 2; 1, 2)-P ≤ T&sub3;.
  • Das heißt, die Trennstelle, für die die Formel (1) in bezug auf die mögliche Trennstelle x(0, 1) gilt, sind drei Punkte, die durch kleine, weiße Kreise (das Segment k'=1 gemäß Fig. 1(e)) dargestellt sind. Aber von diesen weißen Kreisen befinden sich nur zwei im zulässigen Segment A&sub3;, und als eine mögliche Trennstelle x(1, ik) sind die Punkte x(1, 1) und x(1, 2) verfügbar.
  • Dabei kann der oben genannte Schwellwert T&sub3; wie der Schwellwert T&sub1; als eine Funktion des Zeichenabstands P gegeben sein. Ferner kann das mögliche Segment k auch unter einer anderen Bedingung anhand des Zeichenabstands P, der Zeichenkörperbreite Vi und des Leerraumes Wi festgelegt werden.
  • Nachstehend wird ein Verfahren zur Erkennung des Endrandes des Zeichenfolgebildes beschrieben. Wie später noch beschrieben wird, ist die Erkennung des Endrandes für die Bestimmung einer Trennstelle der Zeichenfolge erforderlich.
  • In Fig. 2(a) und (b) ist das Zeichenbild in den Zeichenkörper Vj und den Leerraum Wj getrennt. Jeder Leerraum Wj wird mit dem Produkt T&sub4;·P, d. h. mit dem Produkt aus einem vorher festgelegten Parameter T&sub4; und dem Zeichenabstand P verglichen. In den Leerräumen Wi wird ein Leerraum Wj, der größer ist als das Produkt T&sub4;·P, als ein mögliches Endrandsegment festgelegt.
  • Als nächstes wird das Produkt T&sub5;·P, d. h. das Produkt aus einem vorher festgelegten Parameter T&sub5; (T&sub5;≤T&sub4;) und dem Zeichenabstand P berechnet. Das Segment, das sich vom Anfangsrand des möglichen Endrandsegments Wj bis zu dem vom Produkt T&sub5;·P bestimmten Punkt erstreckt, wird als ein erstes zulässiges Endrandsegment festgelegt. Als nächstes wird das Segment, das sich von einem Anfangsrand eines Zeichenkörpers Vj unmittelbar vor dem möglichen Segment Wj bis zu dem durch die Summe P+T&sub1; (die Summe aus Zeichenabstand P und Parameter T&sub1;) bestimmten Punkt erstreckt, als ein zweites zulässiges Endrandsegment festgelegt. Ferner wird eine logische Summe aus dem ersten und zweiten zulässigen Endrandsegment T&sub5;·P und P+T&sub1; als ein zweites mögliches Endrandsegment Q festgelegt.
  • Ein Endrandsegment E wird ermittelt, indem das logische Produkt aus dem ersten möglichen Segment Wj und dem zweiten in Frage kommenden Segment Q gebildet wird. Das heißt, das Endrandsegment E in Fig. 2(a) ist gleich dem Segment T&sub5;·P, und das Endrandsegment E in Fig. 2(b) ist gleich dem Segment Wj. Aus einem Endrandsegment E des Zeichenbildes in Fig. 1(a), das nach dem gleichen Verfahren ermittelt wird, wird das mit einem Pfeil E bezeichnete Segment in Fig. 1(e). Das Endrandsegment E in Fig. 1(e) weist die möglichen Trennstellen x(4, 2), x(4, 3) und x(4, 4) auf.
  • Das Endrandsegment kann auch auf andere Weise festgelegt werden. Der Leerraum eines Endrandes der Zeichenzeile kann als Endrandsegment festgelegt werden. Ferner kann, wenn ein mögliches Segment (k+1) unter Verwendung des Endrandsegments k festgelegt wird und wenn die mögliche Trennstelle x(k+1, ik+1), für die die Formel (1) gilt, kein zulässiges Segment A&sub1; ist, das mögliche Segment k als Endrandsegment festgelegt werden. Andererseits kann der Anfangsrand des möglichen Segments entsprechend der Lage des Endrandsegments, das bereits ermittelt worden ist, festgelegt werden.
  • Als nächstes wird ein Verfahren zur Bestimmung der Zeichentrennstelle beschrieben. Die schwarzen Punkte in Fig. 3 stehen für die einzelnen möglichen Trennstellen x (k, ik) gemäß Fig. 1(e) mit dem in 1 gegebenen Abtastabstand und dem als Ausgangspunkt fungierenden Punkt x(0, 1). Der Zeichenabstand P wird auf "20" festgelegt. Ferner soll sich aus Gründen einer einfachen Beschreibung des Prinzips der Zeichentrennung das für eine Trennung vorgesehene Zeichenfolgebild nur von dem möglichen Segment k=0 bis zu dem möglichen Segment k=4 gemäß Fig. 1(e) erstrecken.
  • Zunächst werden die in der Beschreibung verwendeten Symbole definiert: Ein Symbol ud (r, n; ir, in) (0&le;r< n) bedeutet einen Mittelwert von (n-r) Abstandsstücken d(r, r+1; ir, ir+1), d(r+1, r+2; ir+1, ir+2) . . .., d(n-1, n; in-1, in), ermittelt aus (n-r+1) Stücken von möglichen Trennstellen x(r, ir), x(r+1, ir+1) . . .., x(n, in). Die Punkte x(r, ir), x(r+1; ir+1) . . .., x(n, in) werden bei jedem möglichen Segment von k=r bis k=n beliebig gewählt. Ein Symbol &sigma;d²(r, n; ir, in) (0&le;r< n) bedeutet eine Varianz des Mittelwerts ud(r, n; ir, in) von (n-r) Abstandsstücken d(r, r+1; ir, ir+1), d(r+1, r+2; ir+1, ir+2), . . .., d(n-1, n; in-1, in) Zeichentrennstellen, die sich von dem möglichen, als Anfangsrand fungierenden Segment r (r = 0 in Fig. 3) bis zu dem möglichen, als Endrand fungierenden Segment n (n = 4 in Fig. 3) erstrecken, werden bestimmt, indem die möglichen Trennstellen x(r, ir), x(r+1, ir+1) . . .., x(n, in) ermittelt werden, bei denen ein in der folgenden Formel (2) aufgeführter Schätzstandard U minimiert wird:
  • U(r, n) = &beta;·&sigma;²r, n; ir, in)+1-&beta;) · (ud(r, n; ir, in)-P)² (2)
  • Für den Wichtungsfaktor &beta; in der Formel (2) gilt 0&le;ß&le;1.
  • Die mögliche Trennstelle zur Minimierung der Formel (2) kann durch die folgende dynamische Programmierung bestimmt werden. Eine optimale mögliche Trennstelle x(k, ik) in dem möglichen Segment k wird durch die folgenden Rekursionsformeln (3-1), (3-2) und (3-3) ermittelt. In diesen Formeln werden beliebige mögliche Trennstellen x(k, ik) ik = i, 2 . . .., hk) und mögliche Trennstellen x(k+1, ik+1) (ik+1 = 1, 2 . . .., hk+1) verwendet. Das heißt, zuerst wird eine Entfernung d(k, k+1; ik, ik+1) und dann die folgenden Formeln (3-1), (3-2) und (3-3) berechnet:
  • Die mögliche Trennstelle x*(k, ik), die den Schätzstandard U(0, k+1) der Formel (3-3) minimiert, wird zu einer optimalen möglichen Trennstelle gegenüber der beliebigen möglichen Trennstelle x(k+1, ik+1) der möglichen Trennstelle (k+1) in hk möglichen Trennstellenstücken x(k, l), . . .. x(k, hk) des möglichen Segments k.
  • Wenn man sich dabei auf die einzelnen möglichen Trennstellen x(0, i&sub0;) (i&sub0;=1 in Fig. 3) des möglichen, als Anfangsrand fungierenden Segments k=0 bezieht, werden der in der Formel (3-1) angezeigte, optimale Mittelwert ud* (0, 0; i&sub0;, i&sub0;) und eine kumulative Quadratsumme D(0) des in der Formel (3-2) angezeigten, optimalen Abstandes d(-1, 0; i&submin;&sub1;, i&sub0;) auf Null gesetzt. Eine optimale mögliche Trennstelle x(k, ik) des möglichen Segments k an jeder möglichen Trennstelle x(k+1, ik+1) des nächsten möglichen Segments (k+1) kann ermittelt werden, indem ein optimaler Mittelwert ud*(&sup0;, 1; ik, i&sub0;) und eine kumulative Quadratsumme D*(k-1, k) des optimalen Abstandes d(k- 1, k; ik-1, ik) an jeder möglichen Trennstelle x(k, ik) des möglichen Segments k gespeichert werden. Dabei handelt es sich beim ersten Glied der Formel (3-3) um eine weitere Möglichkeit, die in der Formel (2) gegebene Varianz &sigma;d²(0, k+1; i&sub0;, ik+1) auszudrücken.
  • Als nächstes wird anhand von Fig. 3 ein Rechenvorgang mit den Formeln (3-1) und (3-3) beschrieben. In der Zeichnung steht R(u, U) für den Mittelwert ud*(0; 1; ik, i&sub0;) und den Schätzstandard U(0, k) gemäß Rekursionsformeln (3-1) und (3-3) an jeder möglichen Trennstelle x(k, ik) jedes möglichen Segments k (k = 0, 1, 2, 3, 4). Diese werden als optimale Werte aus der möglichen Trennstelle x*(k-1, ik-1) berechnet. Dann wird in diesem Ausführungsbeispiel der Wichtungsfaktor &beta; in der Formel 3-3 mit 0,5 festgelegt. Ferner zeigen die Pfeile in Fig. 3 eine Sequenz der optimalen möglichen Trennstellen an.
  • Es besteht z. B. im Punkt 39 die mögliche Trennstelle x(2, 1), und ein Abstand d(1, 2; 1, 1) von der möglichen Trennstelle x(1, 1) ist 19. Folglich ergibt sich ein Mittelwert ud(0, 2) von der möglichen Trennstelle x(0, 1) über die mögliche Trennstelle x(1, 1) bis zur möglichen Trennstelle x(2, 1) aus 1/2·(1·20+19) = 19,5. Der in der Formel (3-2) angezeigte Wert D*(1) = 20² wird zur möglichen Trennstelle x(1, 1) entsprechend gespeichert. Aus dem Ausdruck (3-2) ergibt sich D(2) = 20² + 19². Setzt man nun diese Werte in die Formel (3-3) ein, so lautet der Schätzstandard U(0, 2) an der möglichen Trennstelle x(2, 1) auf einem Weg über die mögliche Trennstelle x(1, 1) folgendermaßen:
  • U(0, 2) = 0,5 (20²+19²/2-19,5²)+ 0,5.(19,5-20)² = 0,38.
  • Entsprechend hat der Schätzstandard U'(0, 2) an der möglichen Trennstelle x(2, 1) auf einem Weg über die mögliche Trennstelle x(l, 2) den Wert 1,26. Der Ausgangspunkt des Weges zur möglichen Trennstelle x(2, 1), nämlich den möglichen Trennstellen x(1, 1) oder x(1, 2) wird so gewählt, daß der Schätzstandard U einen minimalen Wert annimmt. Dementsprechend liegt eine optimale mögliche Trennstelle des möglichen Segments k=1 zur möglichen Trennstelle x(2, 1) hin bei x(1, 1), da U(0, 2) kleiner ist als U'(0, 2). Ferner werden der Mittelwert ud*(0, 2) = 19,5 und der Schätzstandard (0, 2) = 0,38 gewählt. Es wird also ein Schätzstandard U(0, k) (k = 1, 2, 3, 4) an jeder möglichen Trennstelle x(k, ik) (k = 1, 2, 3, 4) gemäß Fig. 3 berechnet, indem der gleiche Rechenvorgang anhand der Rekursionsformeln (3-1), (3-2) und (3-3) durchgeführt wird.
  • Wie bereits beschrieben, weist das Endrandsegment E die möglichen Trennstellen x(4, 2), x(4, 3) und x(4, 4) des möglichen Segments k=4 auf. Eine der möglichen Trennstellen x(4, 2), x(4, 3) und x(4, 4), deren Schätzstandard U(0, 4) minimal ist, wird als ein Endpunkt der Zeichentrennung gewählt. Folglich wird der Punkt x(4, 2) als Endpunkt gewählt, da sein Schätzstandard 20,3 beträgt, während die anderen 20,5 und 20,8 betragen.
  • Schließlich werden x(4, 2) = 81, x(3, 3) = 60, x(2, 2) = 40, x(1, 1) = 20, x(0, 1) = 0 als Trennstellen gewählt, indem der Weg der optimalen Trennstellen in umgekehrter Richtung, beginnend am Zeichentrennungsendpunkt x(4, 2) durchlaufen wird. Es werden also die Punkte 0, 20, 40, 60 und 81 als Trennstellen bestimmt.
  • Ein Logikblock für die oben beschriebene Verarbeitung ist in Fig. 4 dargestellt. Ein Scanner 1 tastet ein auf einem Blatt Papier abgedrucktes Zeichenfolgebild optisch ab und formt es in ein elektrisches Signal um. Das Zeichenfolgebild wird binär quantisiert und in einem Zeichenfolgebildspeicher 2 gespeichert. Eine Zeichenkörperextraktionseinheit 3 extrahiert schrittweise Zeichenkörper des Zeichenfolgebildes aus dem Zeichenfolgebildspeicher 2 und speichert Stellung, Breite und Höhe jedes Zeichenkörpers Vi in einem Zeichenkörperinformationsregister 21. Eine solche Zeichenkörperextraktionseinheit 3 kann auf bekannte Weise realisiert werden. Ein Zeichenabstandsdetektor 4 schätzt anhand von Stellung, Breite und Höhe jedes im Zeichenkörperinformationsregister 21 gespeicherten Zeichenkörpers Vi den Zeichenabstand P ab. Der geschätzte Zeichenabstand wird in einem Zeichenabstandsinformationsregister 22 gespeichert. Der Zeichenabstandsdetektor 4 wird nachstehend genauer beschrieben. Dabei kann der bereits bekannte Zeichenabstand P verwendet werden. Ein Parameterinformationsregister 30 speichert die Parameter T&sub1;, T&sub2;, T&sub3;, T&sub4;, T&sub5;, &beta;, die, wie bereits beschrieben, Schwellwerte bzw. einen Wichtungsfaktor darstellen.
  • Eine Extraktionseinheit 5 für zulässige Segmente extrahiert die zulässigen Segmente Ai, für die die oben beschriebenen Bedingungen (1) und (2) gelten. Lage und Höhe des Segments Wi werden von einem Komparator oder anderen Elementen im Hinblick auf Lage und Breite Vi einer Anzahl von im Zeichenkörperinformationsregister 21 gespeicherten Zeichenkörpern extrahiert. Als nächstes wird jede Zeichenkörperbreite Vi mit der Summe P+T&sub1; des im Zeichenabstandsinformationsregister 22 gespeicherten Zeichenabstands P und des im Parameterinformationsregister 30 gespeicherten Parameters T&sub1; verglichen. Ist die Breite Vi größer als die Summe P+T&sub1;, wird ein im Parameterinformationsregister 30 gespeicherter Wert T&sub2; von beiden Rändern der Zeichenkörperbreite Vi exzerpiert und das zulässige Segment, das die Bedingung (2) erfüllt, extrahiert. Lage und Breite der zulässigen Segmente Ai werden in einem Informationsregister 23 für zulässige Segmente gespeichert.
  • Die Extraktionseinheit 6 für mögliche Endrandsegmente berechnet das Produkt T&sub4;·P aus dem im Parameterinformationsregister 30 gespeicherten Parameter T&sub4; und dem Zeichenabstand P. Dann vergleicht die Einheit 6 das Produkt T&sub4;·P mit dem im Informationsregister 23 für zulässige Segmente gespeicherten Leerraum Wi. Der Leerraum Wj, dessen Breite größer ist als das Produkt T&sub4;·P, wird also als ein mögliches erstes Endrandsegment erkannt. Als nächstes berechnet die Extraktionseinheit 6 das Produkt T&sub5;·P aus dem Parameter T&sub5; und dem Zeichenabstand P und versetzt das Segment von einem Anfangsrand des Leerraumes Wj an die durch das Produkt T&sub5;·P als ein zulässiges Segment bestimmte Stelle. Ferner wird die Summe P+T&sub1; aus dem Zeichenabstand P und dem Parameter T&sub1; berechnet, und das zulässige Segment wird von einem Anfangsrand des Zeichenkörpers Vj unmittelbar vor dem Leerraum Wj bis zur Summe P+T&sub1; versetzt. Die beiden zulässigen Segmente werden zu einer logischen Summe zusammengefaßt und nacheinander als ein zweites mögliches Endrandsegment im Register 24 für mögliche Endrandsegmente gespeichert.
  • Eine Extraktionseinheit 7 für mögliche Segmente extrahiert nacheinander jede mögliche Trennstelle x(k, ik) des möglichen Segments k in bezug auf die zulässigen Segmente Ai und die in einem Informationsregister 23 für zulässige Segmente bzw. im Parameterinformationsregister 30 gespeicherten Parameter. Zu diesem Zeitpunkt hat eine Steuereinheit 10 jede mögliche Trennstelle x(0, i&sub0;) i&sub0; = 1, 2, . . .. h&sub0;) des möglichen Anfangsrandsegments k=0 mit einem Zeichentrennungsausgangspunkt ermittelt. Diese Punkte x(0, i&sub0;) werden auf der Grundlage der einzelnen Trennstellen in einem konstanten Leerraumbereich W&sub0;' berechnet. Der Leerraum W&sub0;' wird nach dem Zeichenabstand P von einem Anfangsrand des Zeichenfolgebildes eingestellt. Die möglichen Trennstellen x(0, i&sub0;) werden in einem Informationsregister 26 für optimale Trennstellen gespeichert. Eine Extraktionseinheit 7 für mögliche Segmente berechnet eine mögliche Trennstelle x(k+1, ik+1), für die der Ausdruck (1) gilt. Bei dieser Berechnung werden die möglichen Trennstellen k (k, ik) (ik = 1, 2, . . .. hk) des möglichen Segments k (k = 0, 1, 2, . . ..) aus dem Register 26 für optimale Trennstellen gelesen. Das heißt, ein Punkt (x(k, 1) + P-T&sub3;) wird anhand der ersten möglichen Trennstelle x(k, 1) des möglichen Segments k, des Zeichenabstands P und des Parameters T&sub3; berechnet. Als nächstes wird anhand der letzten möglichen Trennstelle x(k, hk) des möglichen Segments k, des Zeichenabstands P und des Parameters T&sub3; ein Punkt (x(k, hk) + P +T&sub3;) berechnet. Die Scanbits, die in einem Segment k' von Punkt (x(k, 1) + P-T&sub3;) bis (x(k, hk) + P + T&sub3;) vorhanden sind, werden mit dem zulässigen Segment Ai zu einem logischen Produkt zusammengefaßt. Alle möglichen Trennstellen x(k+1, ik+1) (ik+1 = 1, 2, . . .. hk+1) des möglichen Segments (k+1) werden somit extrahiert und im Informationsregister 25 für mögliche Trennstellen gespeichert.
  • Der Inhalt des Informationsregisters 25 für mögliche Trennstellen wird an eine Schätzstandard-Arithmetikeinheit 8 übergeben. Wenn die mögliche Trennstelle x(k+1, ik+1) an die Schätzstandard-Arithmetikeinheit 8 übergeben wird, sind die möglichen Trennstellen x(0, i&sub0;) (i&sub0;, 1, . . .. h&sub0;), x(1, i&sub1;) (ii = 1, . . .. h&sub1;), . . .. x(k, ik) (ik = 1, . . .. hk), die zu dem möglichen Segment k=0 bis k gehören, bereits berechnet und werden im Informationsregister 26 für optimale Trennstellen gespeichert. Ferner sind der Mittelwert ud*(0, k; i&sub0;, ik), der in der Schätzstandard-Arithmetikeinheit 8 anhand der Formel (3-1) berechnet worden ist, die kumulative Quadratsumme D*(k), berechnet anhand der Formel (3-2), und der Schätzstandard U(0, k) und die optimale mögliche Trennstelle x*(k-1, ik-1) des möglichen Segments k-1, berechnet anhand der Formel (3-3), bereits im Register 26 gespeichert. Diese Daten sind jeweils im Zusammenhang mit den möglichen Trennstellen x(k, ik) (ik = 1, .... hk) abgespeichert. Wenn dann die möglichen Trennstellen x(0, i&sub0;) der möglichen Segmente k=0 im Register 25 gespeichert sind, wird dort als Mittelwert ud*(0, 0; i&sub0;, i&sub0;) und je nach möglicher Trennstelle x(0, i&sub0;) als kumulative Quadratsumme D*(0) der Wert 0 eingegeben.
  • Wenn die mögliche Trennstelle x*(k+1, ik+1) vom Informationsregister 25 für mögliche Trennstellen übergeben wird, berechnet die Schätzstandard-Arithmetikeinheit 8 den Abstand d*(k, k+1; ik, ik+1) für jede mögliche Trennstelle x(k, ik) (ik = 1, 2, . . .. hk) des möglichen Segments k zuerst. Als nächstes werden hk Stücken des Schätzstandards U(0, k+1) in bezug auf die möglichen Trennstellen x(k, ik) des möglichen Segments k ermittelt, indem die Rekursionsformeln (3-1), (3-2) und (3-3) nacheinander berechnet werden. Zu diesem Zeitpunkt wird auf den Mittelwert ud*(0, 1; i&sub0;, ik), die kumulative Quadratsumme D(k) des Abstands und den Parameter &beta;, die im Parameterinformationsregister 30 gespeichert sind, zurückgegriffen.
  • Dann wird der Mindestwert des Schätzstandards U*(0, k+1) bestimmt, und die mögliche Trennstelle x*(k, ik), die dem Mindeststandard U*(0, k+1) entspricht, wird als optimale mögliche Trennstelle gewählt. Die optimale mögliche Trennstelle x*(k, ik) ist ein vorausgehender Punkt, der bis zur möglichen Trennstelle x(k+1, ik+1*) reicht. Ferner werden der Mindestwert des Schätzstandards U(0, k+1), der Mittelwert ud*(0, k+1, i&sub0;, ik+1*), bei dem der Wert des Schätzstandards minimiert wird, und die kumulative Quadratsumme D*(k+1) des Abstandes zusammen mit der möglichen Trennstelle x*(k+1, ik+1) im Informationsregister 26 für optimale Trennstellen gespeichert. Die Schätzstandard-Arithmetikeinheit 8 führt die oben beschriebenen Arbeitsschritte für alle möglichen Trennstellen x(k+1, ik+1) durch.
  • Als nächstes gibt die Steuereinheit 10 der Extraktionseinheit 6 zur Extraktion möglicher Segmente die Anweisung zur Extraktion der möglichen Trennstellen x(k+2, ik+2) des nächsten möglichen Segments k+2. Also wird der gleiche Arbeitsschritt wie oben beschrieben wiederholt.
  • Die Steuereinheit 10 prüft dann, ob die mögliche Trennstelle x(k+2, ik+2) des möglichen Segments (k+1), die dem Informationsregister 26 für optimale Trennstellen übergeben worden ist, das mögliche Endrandsegment erreicht hat. Die Information über das Endrandsegment wird im Register 24 der möglichen Endrandsegmente gespeichert. Wenn nicht, wird lediglich eine Anweisung zur Verarbeitung des nächsten, möglichen Segments an die Extraktionseinheit 6 für mögliche Segmente ausgegeben. Wenn dagegen die mögliche Trennstelle x(k+1), ik+1) das mögliche Endrandsegment erreicht hat, gibt die Steuereinheit 10 die oben erwähnte Anweisung an die Extraktionseinheit 6 für mögliche Segmente und stellt sicher, daß jede mögliche Trennstelle x(k+2, ik+2) (ik+2=1, . . .. hk+2) des nächsten möglichen Segments k+2 durch die Schätzstandard- Arithmetikeinheit 8 geschätzt wird.
  • Als nächstes ermittelt die Steuereinheit 10 die möglichen Trennstellen x(e, ie) im möglichen Endrandsegment E. Dann berechnet die Steuereinheit 10 eine Anzahl von Schätzstandards U(0, n) für he Stücken von möglichen Trennstellen x(e, ie). Der minimale Schätzstandard U*(0, n) wird erkannt, und die mögliche Trennstelle x*(e, ie), die dem Schätzstandard U*(0, n) entspricht, wird als Endrandstelle gewählt.
  • Die Steuereinheit 10 ermittelt ferner eine Sequenz von optimalen möglichen Trennstellen, die sich bis zur möglichen Trennstelle x*(n, in) erstrecken. Diese Ermittlung wird in Verbindung mit dem Informationsregister 26 für optimale Trennstellen durchgeführt. Das heißt, die Sequenz der optimalen Trennstelle wird gewählt, indem der optimale Weg in umgekehrter Richtung von der Endrandstelle x*(n, in) bis zu den möglichen Trennstellen x*(n-1, in-1), . . .. x*(0, i&sub0;) schrittweise durchlaufen wird. Die dabei ermittelten Trennstellen werden in einem Zeichentrennstellenregister 27 gespeichert.
  • Als nächstes ermittelt die Steuereinheit 10 einen konstanten Bereich, der entsprechend dem Zeichenabstand P innerhalb des Leerraums von der Endrandstelle x*(n, in) bis zu eineu Anfangsrand des nächsten Zeichenkörpers festgelegt wird. Dieser konstante Bereich wird als ein Anfangsrand des fragmentarischen Zeichenfolgebildes, bei dem als nächstes die Teilung in Segmente durchzuführen ist, festgelegt. Die Stelle des Endrandes wird im Informationsregister 26 für optimale Trennstellen gespeichert.
  • Die Zeichentrennstellen des Zeichenfolgebildes (Fig. 1(a)) werden also im Zeichentrennstellenregister 27 gespeichert. Das Zeichenfolgebild wird anhand der Höhe der einzelnen im Zeichenkörperinformationsregister 21 gespeicherten Zeichenkörper und der im Zeichentrennstellenregister 27 gespeicherten Zeichentrennstellen nach Zeichen getrennt. Die getrennten Zeichen werden von bekannten Zeichenerkennungssystemen gelesen.
  • Die Schätzstandard-Arithmetikeinheit 8 wird nachstehend anhand von Fig. 5 näher beschrieben. Wenn die möglichen Trennstellen x(k+1, ik+1) des möglichen Segments k+1 im Informationsregister 25 für mögliche Trennstellen gespeichert sind, werden die möglichen Trennstellen x(k+1, ik+1) an eine Abstandsberechnungseinheit 81 und ein Gruppenregister 261 für mögliche Trennstellen zu den betreffenden Trennstellen übertragen. Die mögliche Trennstelle (k+1) wird in einem Stufenregister 80 und dem Gruppenregister 261 für mögliche Trennstellen zu den vorher bestimmten Stellen gespeichert. Wenn die möglichen Trennstellen x(k+1, ik+1) in der Abstandsberechnungseinheit 81 gespeichert sind, werden die im Gruppenregister 261 für mögliche Trennstellen gespeicherten möglichen Trennstellen x(k, ik) von der Steuereinheit 10 nacheinander an die Abstandsberechnungseinheit 81 übergeben. Das Informationsregister 26 für optimale Trennstellen weist folgendes auf: ein Gruppenregister 261 für mögliche Trennstellen, ein Verkettungsinformationsgruppenregister 262, ein Gruppenregister 263 für optimale statistische Gruppen und ein Gruppenregister 264 für optimale Schätzwerte. Die Abstandsberechnungseinheit 8 berechnet einen Abstand d(k, k+1; ik, ik+1) nach dem anderen.
  • Eine statistische Berechnungseinheit 82 berechnet einen Mittelwert ud(0, k+1; i&sub0;, ik+1) und eine kumulative Quadratsumme D(k) des Abstands anhand der Rekursionsformeln (3-1) und (3-2). Das heißt, der Mittelwert ud(0, k+1; i&sub0;, ik+1) wird anhand des Ausdrucks (3-1) mit Hilfe des Mittelwerts ud*(0, k; i&sub0;, ik) an der im Gruppenregister 263 für optimale statistische Gruppen gespeicherten möglichen Trennstelle x(k, ik), des in der Abstandsberechnungseinheit 81 berechneten Abstands d(k, k+1; ik, ik+1) und der im Stufenregister 80 gespeicherten Segmente (k+1) und k berechnet. Dagegen wird die kumulative Quadratsumme D(k+1) des Abstands nach der Formel (3-2) mit Hilfe der kumulativen Quadratsumme D*(k) des Abstands an der im Gruppenregister 263 für optimale statistische Gruppen gespeicherten möglichen Trennstelle x(k, ik) und des von der Abstandsberechnungseinheit 81 ausgegebenen Abstands d(k, k+1; ik, ik+1) berechnet. Der Mittelwert ud(0, k+1; i&sub0;, ik+1) und die kumulative Quadratsumme D(k+1) des Abstands werden in der statistischen Berechnungseinheit 82 berechnet. Diese Daten werden in einem statistischen Laderegister 83 gespeichert. Eine Schätzwertberechnungseinheit 84 berechnet einen Wert des Schätzstandards U(0, k+1) nach der Formel (3-2). Das heißt, der Schätzwert U(0, k+1) wird anhand der Formel (3-3) mit Hilfe des Zeichenabstands P, des Parameters ß, eines Inhalts des statistischen Laderegisters 83 und eines Inhalts des Stufenregister 80 berechnet.
  • Als nächstes vergleicht ein Komparator 85 einen von der Schätzwertberechnungseinheit 84 ausgegebenen Schätzwert mit einem Inhalt eines Mindestschätzwertregisters 86. Wenn der ausgegebene Wert der Schätzwertberechnungseinheit 84 kleiner ist als der Inhalt des Mindestschätzwertregisters 86, schaltet ein Ausgangssignal 851 auf "EIN". Zu Beginn wird ein ausreichend großer Wert im Mindestschätzwertregister 86 festgelegt.
  • Wenn das Ausgangssignal 851 auf "EIN" schaltet, öffnet ein Schaltglied 53, und ein Ausgangssignal der Schätzwertberechnungseinheit 84 wird an das Mindestschätzwertregister 86 übergeben. Wenn das Ausgangssignal 851 auf "EIN" schaltet, öffnet ferner ein Schaltglied 52, und der Mittelwert ud(0, k+1, i&sub0;, ik+1) und die kumulative Quadratsumme D(k+1) des Abstands, die im statistischen Laderegister 83 gespeichert sind, werden an das statistische Register 88 für Mindestwerte übergeben. Wenn das Ausgangssignal 851 auf "EIN" schaltet, öffnet außerdem ein Schaltglied 51, und Trennstelleninformationen k und ik zu den möglichen Trennstellen x(k, ik), die in der Abstandsberechnungseinheit 81 gespeichert sind, werden an das Verkettungsinformationsregister 87 übergeben.
  • Der oben beschriebene Vorgang wird mit allen möglichen Trennstellen x(k, ik) (ik = 1, . . .. hk) der im Informationsregister 261 für optimale Trennstellen gespeicherten möglichen Segmente durchgeführt.
  • Das heißt, zu diesem Zeitpunkt wird der optimale Mittelwert ud*(0, k+1, i&sub0;, ik+1) und die kumulative Quadratsumme D*(k+1) an den Trennstellen x(k+1, ik+1) im statistischen Register 88 für Mindestwerte gespeichert. Ein optimaler Schätzwert der möglichen Trennstelle x(k+1, ik+1) wird im Mindestschätzwertregister 86 gespeichert. Ferner wird eine optimale Trennweginformation zur möglichen Trennstelle x(k+1, ik) vom möglichen Segment x(k, i&sub1;) im Verkettungsinformationsregister 87 gespeichert. Der Inhalt des statistischen Registers 88 für Mindestwerte, des Mindestschätzwertregisters 86 und des Verkettungsinformationsregisters 87 werden von der Steuereinheit 10 an das statistische Gruppenregister 263 für Mindestwerte, das Mindestschätzwertgruppenregister 264 bzw. an das Verkettungsinformationsgruppenregister 262 übergeben. Als nächstes wird das Mindestschätzwertregister 86 auf einen ausreichend großen Anfangswert gesetzt.
  • Der optimale Schätzwert und der optimale Trennweg für alle möglichen Trennstellen x(k+1, ik+1) (ik+1 = 1, 2, . . .. hh+1) der möglichen Segmente (k+1) werden durch Wiederholung des oben beschriebenen Arbeitsvorgangs ermittelt. Es versteht sich von selbst, daß diese Arbeitsvorgänge von einem normalen Mikrocomputer durchgeführt werden können.
  • Die Zeichentrenneinrichtung, wie oben beschrieben, kann eine Zeichenfolge selbst dann auf einfache Weise und stabil in einzelne Zeichen trennen, wenn die Zeichenfolge Verbundzeichen aufweist und ein Zeichen in zwei oder mehr Bilder geteilt ist.
  • Als nächstes wird der Zeichenabstandsdetektor 4 genauer beschrieben.
  • Fig. 6 zeigt ein Zeichenfolgebild zur Beschreibung eines Abstands zwischen Zeichenkörpern. Der Zeichenkörper ist schraffiert dargestellt und in Rechteckform (gestrichelte Linien) untergebracht. Ein Referenzsymbol Fi, i+1 (i = 1, 2, .... 6) stellt einen Abstand von einem Anfangsrand des i-ten Zeichenkörpers bis zu einem Anfangsrand des i+1-ten Zeichenkörpers dar. Ein Referenzsymbol F'i, i+1 (i = 1, 2, . . .. 6) stellt einen Abstand von einem Endrand des i-ten Zeichenkörpers bis zu einem Endrand des i+1-ten Zeichenkörpers dar. Die Symbole für einen Abstand zwischen den Zeichenkörpern können als empirische Werte, die eine Häufigkeitsverteilung eines Abstands zwischen Zeichenstücken darstellen, verwendet werden. Entsprechend stellt ein Referenzsymbol Fi,j (i = 1, 2, . . .. 6; i< j)) einen Abstand von einem Anfangsrand des i-ten Zeichenkörpers bis zu einem Anfangsrand des j-ten Zeichenkörpers und ein Referenzsymbol F'i,j einen Abstand von einem Endrand des i-ten Zeichenkörpers bis zu einem Endrand des j-ten Zeichenkörpers dar. Je mehr Beobachtungen gemacht werden, um so stabiler wird die gewonnene Statistik, und somit kann diese Statistik als Statistik empirischer Werte für eine Häufigkeitsverteilung des Abstands zwischen Zeichenkörpern verwendet werden, wie nachstehend beschrieben.
  • Außerdem kann der Abstand zwischen Zeichenkörpern zur Gewinnung empirischer Werte für die Häufigkeitsverteilung auf den Abstand Fi, j (j = i+1, i+2, i+3) oder den Abstand F'i, j (j = i+1, i+2, i+3) beschränkt werden. Ferner können Zeichenbilder wie Punkt (.), Komma (,) usw. aus der Beobachtung des Abstands zwischen Zeichenkörpern ausgeschlossen werden, indem die Zeichenkörperbreite und -höhe anhand einer mittleren Höhe Hm einer Anzahl von Zeichenkörpern überprüft wird. Wenn ein Leerraum, der im Vergleich zur mittleren Höhe Hm groß ist, erkannt wird, kann der Abstand zwischen Zeichenkörpern mit Leerraum aus der Beobachtung ausgeschlossen werden.
  • Fig. 7 zeigt ein Beispiel einer Häufigkeitsverteilung des Abstands zwischen einer Reihe von Zeichenkörpern mit einem Konstantabstandszeichen gemäß Fig. 6. Eine Abszisse F zeigt einen Wert des Abstands Fi, j und eine Ordinate NUM eine Häufigkeit des Abstands zwischen Zeichenkörpern an.
  • Fig. 8(a) und (b) zeigen ein Beispiel einer Häufigkeitsverteilung des Abstands zwischen einer Reihe von Zeichenkörpern mit konstanten Abstandsdaten bzw. mit alphabetisch variablen Abstandsdaten.
  • Ein Prinzip der Zeichenabstandserkennung wird später beschrieben. Gemäß Fig. 7 und Fig. 8(a) und (b) wird die mittlere Zeichenhöhe Hm anhand der Höhe einer Anzahl von Zeichenkörpern berechnet. Als nächstes wird mit Hilfe von Koeffizienten &alpha;&sub1;, &alpha;&sub2;,2 (&alpha;&sub1;< &alpha;&sub2;) ein mögliches Präsenzsegment (&alpha;&sub1;·Hm, &alpha;&sub2;·Hm) des Zeichenabstands festgelegt. Alle Abstände zwischen den Zeichenkörpern, die bei dem möglichen Präsenzsegment (&alpha;&sub1;·Hm, &alpha;&sub2;·Hm) vorkommen, können als mögliche Zeichenabstände Pi angesehen werden, die Anzahl der möglichen Zeichenabstände Pi kann jedoch bei der folgenden Verarbeitung reduziert werden, um Verarbeitungszeit zu sparen. Das heißt, ein Abstand F(1) zwischen Zeichenkörpern, der den häufigsten Abstand innerhalb einer konstanten zulässigen Breite &Delta;&tau; einnimmt, wird anhand der Häufigkeitsverteilung innerhalb des zulässigen Präsenzsegments (&alpha;&sub1;·Hm, &alpha;&sub2;·Hm) berechnet. Ein unterer Grenzwert eines möglichen Segments beschränkter Präsenz mit dem Zeichenabstand Pi wird mit Hilfe eines Koeffizienten &alpha;&sub3; (0&le;&alpha;&sub3;&le;1) als MAX(&alpha;&sub1;·Hm, (1-&alpha;&sub3;)·F(1)) festgelegt. Ein oberer Grenzwert eines möglichen Segments beschränkter Präsenz mit dem Zeichenabstand wird als MIN(&alpha;&sub1;·Hm, (1+&alpha;&sub3;).U(1)) festgelegt. In Fig. 7 ist ein Segment C&sub1; das mögliche Segment beschränkter Präsenz mit dem Zeichenabstand, und eine Anzahl von Abständen zwischen Zeichenkörpern im Segment C&sub1; sind die möglichen Zeichenabstände Pi.
  • Als nächstes wird die Häufigkeitsverteilung in durch gestrichelte Linien abgegrenzte Bereiche aufgeteilt. Dabei liegt ein Grenzpunkt S (f'k-1, j'k) jedes Bereichs f'k (k = 2, . . .. n) genau in einem Mittelpunkt (k-1)·Pi des Bereiches und genau in einem Mittelpunkt k·Pi des Bereiches f'k. Entsprechend liegt ein Grenzpunkt S(f'k, f'k+1) jedes Bereichs f'k genau in einem Mittelpunkt k·Pi des Bereiches f'k und genau in einem Mittelpunkt (k+1)·Pi des Bereiches f'k+1. Dementsprechend wird der Grenzpunkt S(f'k-1, f'k) mit (kPi-½Pi) und der Grenzpunkt S(f'k, f'k+1) mit (kPi + ½Pi) beschrieben. Als nächstes wird der Mittelwert (k, nk) von nk Stücken (nk&ge;0) von Abständen zwischen Zeichenkörpern im Bereich f'k (k = 1, 2, . . .. n) berechnet. Eine dem Zeichenabstand entsprechende und aus dem Bereich f'k auf der Grundlage des möglichen Zeichenabstands Pi empirisch ermittelte Größe wird durch Division des Mittelwerts (k, nk) durch die ganze Zahl k errechnet.
  • Ein geschätzter Zeichenabstand kann mit Hilfe eines optimalen linearen Schätzverfahrens ermittelt werden. Bei diesem Verfahren wird eine Anzahl von Differenzwerten zwischen einem Wert 1/k · P(k·nk), durch Beobachtung entnommen aus dem Bereich f'k, und dem möglichen Zeichenabstand Pi, mit denen die gesamte Fläche f'k umgerechnet wird, berechnet. Dann wird der mögliche Zeichenabstand Pi, der die Differenz minimiert, als geschätzter Zeichenabstand gewählt.
  • Dementsprechend wird der folgende Abstandsschätzfehler- Schätzstandard (Varianzkriterium) T, der als Schätzstandard für optimales Schätzen fungiert, dafür verwendet.
  • wobei der Koeffizient C(k, nk) eine Funktion einer Beispielanzahl nk und eine ganze Zahl k (k = 1, 2, . . . n) ist und die Gleichung
  • erfüllt. Ein Anwendungsbeispiel für diesen Koeffizienten ist
  • Ferner ist der Schätzfehler-Schätzstandard T der Formel (4) eine Varianz des Schatzfehlers. Es kann jedoch ein Schätzstandard verwendet werden, der auf dem absoluten Wert 1/k· (k, nk)-Pi) der Differenz beruht. Der optimale geschätzte Zeichenabstand kann mit der Formel (4) ermittelt werden. Ferner wird die Häufigkeitsverteilung des Abstands zwischen Zeichenkörpern gleichzeitig zu einem Cluster zusammengefaßt.
  • Als nächstes wird anhand von Fig. 7, 8(a) und 8(b) ein Zeichenabstandserkennungsverfahren beschrieben. Die Häufigkeitsverteilung des Abstands zwischen Zeichenkörpern, die mit konstantem Abstand gedruckt sind (Fig. 8(a)), ist anders als die von Zeichen, die mit variablem Abstand gedruckt sind (Fig. 8(b)). Der Unterschied kann ermittelt werden durch Abschätzen einer Anzahl von Varianzen &sigma;²(fk) des Abstands zwischen Zeichenkörpern bei k Fällen ( , 2 , 3 , . . .) des geschätzten Zeichenabstands für den Gesamtbereich fk (k = 1, 2, . . . n). Es wird der folgende geschätzte Varianzwert &epsi;², der aus der linearen Summe einer Varianz &sigma;²(fk) für den Gesamtbereich fk (k = 1, 2, . . . n) besteht, verwendet:
  • wobei der Koeffizient C'(k, nk) beim geschätzen Varianzwert &epsi;² eine Funktion der Beispielanzahl nk des Abstands zwischen Zeichenkörpern und der ganzen Zahl k ist, der die Formel
  • erfüllt. Ein Anwendungsbeispiel für diesen Koeffizienten ist
  • Dabei kann ein geschätzter Fehlerwert &epsi; anstelle des oben beschriebenen geschätzten Varianzwertes &epsi;² verwendet werden. Wenn der geschätzte Varianzwert &epsi;² oder der geschätzte Fehlerwert &epsi; größer ist als ein vorher bestimmter Schwellwert kann die Zeichenfolge mit Hilfe des geschätzten Zeichenabstands als Hauptkomponente geteilt werden. Die Zeichenfolge hat dann nämlich einen konstanten Zeichenabstand. Wenn der geschätzte Varianzwert &epsi;² oder der geschätzte Fehlerwert &epsi; kleiner ist als der Schwellwert &alpha;&sub4;, kann die Zeichenfolge nicht mit Hilfe des geschätzten Zeichenabstands als Hauptkomponente geteilt werden. Die Zeichenfolge hat dann nämlich einen variablen Zeichenabstand.
  • Es kann also eine Eigenschaft des Zeichenabstands ermittelt werden. Eine stabile Zeichentrennung wird durch die Zeichentrenneinrichtung gemäß Fig. 4 sichergestellt, wenn die Zeichenfolge einen konstanten Zeichenabstand hat. Wenn die Zeichenfolge dagegen einen variablen Zeichenabstand hat, können die Zeichen nach den anderen Zeichentrennverfahren, die beispielsweise auf dem Leerraum des Zeichenzeilenbildes beruhen, getrennt werden.
  • Fig. 9 ist ein Blockschaltbild eines Zeichenabstandsdetektors. Ein Anfangsrandpunkt und die Größe jedes Zeichenkörpers werden mit Hilfe des Scanners 1, des Zeichenfolgebildspeichers 2 und der Zeichenkörperextraktionseinheit 2 im Zeichenkörperregister 21 gespeichert. Größe des Zeichenkörpers bedeutet Breite und Höhe des Zeichenkörpers. Eine weitere Steuereinheit 41 berechnet mit Hilfe eines Anfangsrandpunktes und eines Endrandpunktes einen Abstand zwischen Zeichenkörpern. Die Anfangs- und Endrandpunkte werden nacheinander aus dem Zeichenkörperregister 21 geholt. Dann erhöht die Steuereinheit 41 die Häufigkeit, die dem Abstand zwischen den Zeichenkörpern entspricht. Die Häufigkeit wird in einer Häufigkeitsverteilungstabelle 42 unter einer Adresse, die den Abstand zwischen Zeichenkörpern angibt, gespeichert. Die Häufigkeitsverteilungen des Abstands zwischen Zeichenkörpern gemäß Fig. 7, 8(a) und 8(b) werden somit in der Häufigkeitsverteilungstabelle 42 erzeugt. Zu Beginn wird die Häufigkeitsverteilungstabelle 42 auf den Anfangswert 0 gestellt.
  • Als nächstes berechnet die Steuereinheit 41 die mittlere Höhe Hm anhand einer Anzahl von Höhen einer Anzahl von Zeichenkörpern, die im Zeichenkörperregister 21 gespeichert sind. Die mittlere Höhe Hm wird an einen Präsenzsegmentdetektor 43 übergeben. Ein Konstantenregister 44 speichert die Koeffizienten &alpha;&sub1;, &alpha;&sub2;, (&alpha;&sub1;< &alpha;&sub2;) und &alpha;&sub3; und die zulässige konstante Breite &Delta;&tau;. Der Präsenzsegmentdetektor 43 nimmt zunächst die Koeffizienten &alpha;&sub1; und &alpha;&sub2; aus dem Konstantenregister 44 auf und legt dann den unteren Grenzwert &alpha;&sub1;·Hm und den oberen Grenzwert &alpha;&sub2;·Hm eines möglichen Präsenzsegments mit dem Zeichenabstand fest. Als nächstes liest der Präsenzsegmentdetektor 43 einen Häufigkeitswert des Abstands zwischen Zeichenkörpern, die zu dem möglichen Präsenzsegment gehören, nacheinander über die Steuereinheit 41 aus der Häufigkeitsverteilungstabelle 42. Mit dem gelesenen Häufigkeitswert wird der Abstand F(1) zwischen Zeichenkörpern, die den häufigsten Abstand innerhalb der zulässigen konstanten Breite &Delta;&tau; haben, berechnet.
  • Eine Präsenzsegment-Arithmetikeinheit 45 berechnet anhand des Abstands F(1) mit Hilfe des Präsenzsegmentdetektors 43 und des Koeffizienten &alpha;&sub3; aus dem Konstantenregister 44 die Werte (1-&alpha;&sub3;) F(1) und (1+&alpha;&sub3;)·F(1). Dann legt die Arithmetikeinheit MAX{&alpha;&sub1;·Hm, (1-&alpha;&sub3;) F(1)} und MIN{(&alpha;&sub2;·Hm, (1+&alpha;&sub3;)·F(1)} als einen oberen Grenzwert PL für das zeichenabstandsbegrenzte, mögliche Präsenzsegment C&sub1; bzw. als einen unteren Grenzwert PU für das mögliche Segment C&sub1; begrenzter Präsenz fest. Der obere und untere Grenzwert L und PU werden im Präsenzsegmentregister 46 gespeichert. Wenn kein Abstand F(1) im Präsenzsegmentdetektor 45 gefunden wird, wird die mittlere Höhe Hm anstelle des Abstands F(1) festgelegt.
  • Dann wird der untere Grenzwert PL für den Zeichenabstand aus dem Präsenzsegmentregister 46 an einen Zähler 47 übergeben. Der Zähler 47 zählt schrittweise vom unteren Grenzwert PL bis zum oberen Grenzwert PU, nachdem der unten beschriebene Rechenvorgang beendet ist, und übergibt den Zählwert Pi (PL&le;Pi&le;PU) an eine Mittelwertberechnungseinheit 48. Die Mittelwertberechnungseinheit 48 berechnet n Stücke der Häufigkeitsverteilungsbereiche, und zwar einen unteren Grenzwert (k · Pi-½Pi) und einen oberen Grenzwert (k · Pi+½Pi) für alle Bereiche fk (k = 1, 2, . . . n) entsprechend dem Zählwert (dem möglichen Zeichenabstand Pi) des Zählers 47. Ferner berechnet die Mittelwertberechnungseinheit 48 anhand der Häufigkeitsverteilungstabelle 42 eine Anzahl nk und einen Mittelwert (k, n) des Abstands zwischen zum Bereich fk gehörenden Zeichenkörpern. Der oben beschriebene Vorgang wird mit n Stücken von Bereichen durchgeführt. Der mögliche Zeichenabstand Pi, die Anzahl nk (k = 1, 2, . . . n) der Abstände zwischen Zeichenkörpern jedes Bereichs fk (k = 1, 2, . . . n) und der Mittelwert (k, nk) (k = 1, 2 . . .. n) werden an die Schätzfehler-Schätzwert-Arithmetikeinheit 49 übergeben. Die Schätzfehler-Schätzwert-Arithmetikeinheit 49 berechnet den Schätzfehler-Schätzwert T (Formel (4)) anhand der Informationen von der Mittelwertberechnungseinheit 48.
  • Ein minimierter Schätzfehler-Schätzwert T wird in einem Schätzwertregister 50 gespeichert. Zu Beginn wird in einem Register 54 für optimale Zeichenabstände ein genügend großer Wert als Schätzfehler-Schätzwert festgelegt. Eine Vergleichseinheit 55 vergleicht den Schätzfehler-Schätzwert, der von der Schätzfehler-Schätzwert-Arithmetikeinheit 49 kommt, mit einem Inhalt des Registers 50. Wenn ein Ausgabewert der Schätzfehler-Schätzwert-Arithmetikeinheit 49 kleiner ist als der Inhalt des Schätzwertregisters 50, schreibt die Vergleichseinheit 55 den Ausgabewert der schätzfehler-Schätzwert-Arithmetikeinheit 49 in das Schätzwertregister 50 und schreibt einen Wert für den möglichen Zeichenabstand Pi in das Register 54 für optimale Zeichenabstände. Dann erhöht die Vergleichseinheit 49 den Zähler 47 über die Steuereinheit 41 um 1. Wenn dagegen der Ausgabewert der Arithmetikeinheit 49 größer ist als der Inhalt des Schätzwertregisters 50, erhöht die Vergleichseinheit 55 den Zähler 47 nur um 1. Der optimale Zeichenabstand wird im Register 54 für optimale Zeichenabstände ermittelt, indem der oben beschriebene Vorgang so lange durchgeführt wird, bis ein Wert des Zählers 47 den oberen Grenzwert PU des Zeichenabstands erreicht.
  • Wenn der geschätzte optimale Zeichenabstand im Register 54 für optimale Zeichenabstände festgelegt ist, berechnet eine Varianzschätzwertberechnungseinheit 56 einen Bereich von n Stücken von Bereichen der Häufigkeitsverteilung, nämlich einen unteren Grenzwert (k· -½ ) und einen oberen Grenzwert (k·P-½ ) für den Bereich fk (k = 1, 2, . . . n) entsprechend dem geschätzten Zeichenabstand . Als nächstes berechnet die Varianzschätzwertberechnungseinheit 56 eine Beispielanzahl nk und eine Varianz &sigma;²(fk) bei einem Wert k· für den Abstand zwischen zu dem Bereich fk gehörenden Zeichenkörpern anhand der Häufigkeitsverteilungstabelle 42. Ferner berechnet die Arithmetikeinheit 56 den geschätzten Varianzwert &epsi;² der Formel (5). Bei diesem Ausführungsbeispiel wird die Varianz &sigma;²(fk) durch die Varianzschätzwertberechnungseinheit 56 ermittelt, sie kann jedoch auch in der Mittelwertberechnungseinheit 48 berechnet werden. Der geschätzte Varianzwert &epsi;² wird in einem Register 57 für geschätzte Varianzwerte gespeichert.
  • Ein Schwellwertregister 58 speichert einen Schwellwert um den Zeichenabstand zu ermitteln. Ein Komparator 59 ermittelt eine Eigenschaft des Zeichenabstands, indem er den geschätzten Varianzwert &epsi;², der in einem Register 57 für geschätzte Varianzwerte gespeichert ist, mit dem Schwellwert &alpha;&sub4;, der im Schwellwertregister 58 gespeichert ist, vergleicht. Das heißt, wenn der geschätzte Varianzwert &epsi;² größer ist als der Schwellwert &alpha;&sub4;, entscheidet der Komparator 59, daß ein Verfahren zur Bestimmung der Zeichentrennstelle mit dem geschätzten Zeichenabstand als Hauptkomponente nicht angewendet werden kann; wenn der geschätzte Varianzwert &epsi;² kleiner ist als der Schwellwert &alpha;&sub4;, entscheidet der Komparator 59, daß das Verfahren zur Bestimmung der Zeichentrennstelle mit dem geschätzten Zeichenabstand als Hauptkomponente angewendet werden kann. Im letzteren Falle werden der geschätzte Zeichenabstand , der im Register 54 für optimale Zeichenabstände gespeichert ist, und der geschätzte Varianzwert &epsi;², der im Register 57 für geschätzte Varianzwerte gespeichert ist, an das Zeichenabstandsinformationsregister 22 übergeben. Im ersteren Falle werden ein Anzahl von Zeichenkörperbildern, die im Zeichenkörperinformationsregister 21 gespeichert sind, nach einem weiteren Trennverfahren getrennt.
  • Im Zeichenabstandsdetektor kann ein Zeichenabstand auch dann genau gemessen werden, wenn die Zeichenfolge Verbundzeichen oder geteilte Zeichen aufweist. Ferner kann eine Eigenschaft des Zeichenabstands sicher erkannt werden, wodurch ein Zeichentrennverfahren mit hoher Anpassungsfähigkeit gewählt werden kann.

Claims (7)

1. Zeichentrennvorrichtung zum Trennen von Zeichenfolgebildern in einzelne Zeichen auf der Basis einer Projektionsverteilung, die erhalten wird entlang einer Serie von Zeichenfolgeabbildungen, wobei die Projektionsverteilung einem Histogramm einer Summierung von Nichtleerstellen-Bildpunkten in einer Richtung senkrecht zu der Schreibrichtung der Zeichenfolgeabbildungen entspricht, mit: einer Einrichtung zum Extrahieren von mehreren Zeichenstücken, die als Nichtleerstellen-Räume definiert sind und durch Leerstellen-Räume von der Projektionsverteilung getrennt sind (3 in Fig. 4), einer Einrichtung zum Schätzen eines Zeichenabstands mittels der Zeichenstücke (4 in Fig. 4), einer Einrichtung zum Bestimmen eines möglichen Trennintervalls oder -abschnitts auf der Basis der Projektionsverteilung des Zeichenabstands (5 und 7 in Fig. 4), eine Einrichtung zum Berechnen eines Abstands zwischen einer möglichen Trennposition innerhalb des möglichen Trennabschnitts und einer möglichen Trennposition innerhalb des benachbarten möglichen Trennabschnitts (7 in Fig. 4) und eine Einrichtung zum Berechnen einer Reihe von optimalen möglichen Trennpositionen, wobei ein Schätzstandard der Varianz über die Zeichenfolgeabbildungen minimiert wird (8 in Fig. 4), wobei der Schätzstandard aus der Summe einer gewichteten Varianz des Abstands zwischen den möglichen Trennpositionen in den Zeichenfolgeabbildungen über alle möglichen Trennabschnitte und einer gewichteten quadratischen Differenz zwischen einem Mittelwert des Abstands über alle möglichen Trennabschnitte und dem Zeichenabstand besteht, wobei die Summe der Gewichtungskoeffizienten eins entspricht.
2. Zeichentrennvorrichtung nach Anspruch 1, mit einer Einrichtung zum Bestimmen eines möglichen Trennabschnitts mittels des gemeinsamen Bereichs des Leerstellenraums und eines Intervalls, das durch den Zeichenabstand und einen dritten Schwellwert (T3 in Fig. 1e) vorgegeben wird.
3. Zeichentrennvorrichtung nach Anspruch 1 oder 2, ferner mit einer Einrichtung zum Überprüfen der Breite der Zeichenstücke mittels der Summe des Zeichenabstands und eines ersten Schwellwerts (T1 in Fig. 2a und 2b) und Bestimmen eines möglichen Trennabschnitts mittels des gemeinsamen Bereichs zwischen dem Zeichenstück, das größer als die Summe des Zeichenabstands und des ersten Schwellwerts (T1 in Fig. 2) ist, und einem Intervall, das durch den Zeichenabstand und den dritten Schwellwert (T3 in Fig. 1e) vorgegeben wird.
4. Zeichentrennvorrichtung nach einem der Ansprüche 1 bis 3, ferner mit einer Einrichtung zum Prüfen der Breite der Leerstellen-Räume mittels des Produkts aus dem Zeichenabstand und einem vierten Schwellwert (T4 in Fig. 2a und 2b) und einer Einrichtung zum Extrahieren eines gewählten Leerstellen-Raumes, der größer als das Produkt des Zeichenabstands und des vierten Schwellwerts (T4 in Fig. 2a und 2b) ist, wobei der gewählte Leerstellen- Raum vorgegeben wird als der erste hintere Endkandidatenabschnitt des Zeichenfolgebildes.
5. Zeichentrennvorrichtung nach Anspruch 4, ferner mit einer Einrichtung zum Extrahieren eines ersten Intervalls von einem führenden Ende des gewählten Leerstellen-Raumes zu der Position, die durch den Zeichenabstand und einen fünften Schwellwert (T5 in Fig. 2a und 2b) gebildet werden, und einer Einrichtung zum Extrahieren eines zweiten Intervalls aus dem führenden Ende des Zeichenstücks, das direkt vor dem gewählten Leerstellen- Raum vorhanden ist, zu der Position, die von dem Zeichenabstand und dem ersten Schwellwert (T1 in Fig. 2a und 2b) gebildet wird, wobei der Bereich der durch die logische Summe des ersten und zweiten Intervalls gebildet wird, als der zweite hintere Endkandidatenbereich gesetzt wird.
6. Zeichentrennvorrichtung nach einem der Ansprüche 3 bis 5, ferner mit einer Einrichtung zum Extrahieren eines Ausschlußintervalls, wobei das Ausschlußintervall gebildet wird durch einen zweiten Schwellwert (T2 in Fig. 1d) und an beiden Enden des Zeichenstücks vorgesehen wird, das größer als die Summe des Zeichenabstands und des ersten Schwellwerts (T1 in Fig. 2a und 2b) ist.
7. Zeichentrennverfahren zum Trennen von Zeichenfolgebildern in einzelne Zeichen mittels einer Projektionsverteilung, die erhalten wird entlang einer Serie von Zeichenfolgebildern, wobei die Projektionsverteilung einem Histogramm einer Summierung von Nichtleerstellen-Bildpunkten in einer Richtung senkrecht zu der Schreibrichtung der Zeichenfolgebildern entspricht, mit den Schritten: Extrahieren von mehreren Zeichenstücken, die als Nichtleerstellen-Räume definiert sind und durch Leerstellen-Räume von der Projektionsverteilung getrennt sind, Schätzen eines Zeichenabstands mittels der Zeichenstücke, Bestimmen eines möglichen Trennintervalls oder -abschnitts mittels der Projektionsverteilung und dem Zeichenabstand, Berechnen eines Abstands zwischen einer möglichen Trennposition innerhalb des möglichen Trennabschnitts und einer möglichen Trennposition innerhalb des benachbarten möglichen Trennabschnitts und Berechnen einer Folge von optimalen möglichen Trennpositionen, wobei ein Schätzstandard der Varianz über die Zeichenfolgebilder minimiert ist, wobei der Schätzstandard aus der Summe einer gewichteten Varianz des Abstands zwischen den möglichen Trennpositionen in den Zeichenfolgebildern über alle möglichen Trennabschnitte und einer gewichteten quadratischen Differenz zwischen einem Mittelwert des Abstands über alle möglichen Trennabschnitte und dem Zeichenabstand besteht, wobei die Summe der Gewichtungskoeffizienten eins ist.
DE8484115985T 1983-12-20 1984-12-20 Trennanlage und -verfahren fuer optische zeichenleseeinrichtungen. Expired - Lifetime DE3486104T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP58240335A JPS60132281A (ja) 1983-12-20 1983-12-20 文字分離装置
JP59020300A JPS60164879A (ja) 1984-02-07 1984-02-07 文字分離装置
JP59020299A JPS60164878A (ja) 1984-02-07 1984-02-07 文字ピツチ検出装置

Publications (2)

Publication Number Publication Date
DE3486104D1 DE3486104D1 (de) 1993-04-22
DE3486104T2 true DE3486104T2 (de) 1993-07-01

Family

ID=27282979

Family Applications (2)

Application Number Title Priority Date Filing Date
DE8484115985T Expired - Lifetime DE3486104T2 (de) 1983-12-20 1984-12-20 Trennanlage und -verfahren fuer optische zeichenleseeinrichtungen.
DE3486241T Expired - Lifetime DE3486241T2 (de) 1983-12-20 1984-12-20 Gerät und Verfahren zur Zeichenabstandsbestimmung für optische Zeichenerkennungssysteme.

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE3486241T Expired - Lifetime DE3486241T2 (de) 1983-12-20 1984-12-20 Gerät und Verfahren zur Zeichenabstandsbestimmung für optische Zeichenerkennungssysteme.

Country Status (3)

Country Link
US (1) US4635290A (de)
EP (2) EP0428499B1 (de)
DE (2) DE3486104T2 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887301A (en) * 1985-06-05 1989-12-12 Dest Corporation Proportional spaced text recognition apparatus and method
US5046114A (en) * 1985-10-01 1991-09-03 The Palantir Corporation Method and structure for separating joined patterns for use in pattern and character recognition system
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JPH0634256B2 (ja) * 1987-03-04 1994-05-02 シャープ株式会社 接触文字切出し方法
JPH01112388A (ja) * 1987-10-26 1989-05-01 Ricoh Co Ltd 文字認識処理方法
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
JPH02306386A (ja) * 1989-05-20 1990-12-19 Toshiba Corp 文字認識装置
US5048097A (en) * 1990-02-02 1991-09-10 Eastman Kodak Company Optical character recognition neural network system for machine-printed characters
US5040229A (en) * 1990-02-02 1991-08-13 Eastman Kodak Company Contour feature-based method for identification and segmentation of touching characters
US5121440A (en) * 1990-08-30 1992-06-09 Monolithic Resources Corporation Analog video character recognition system
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
US5253304A (en) * 1991-11-27 1993-10-12 At&T Bell Laboratories Method and apparatus for image segmentation
US5692069A (en) * 1995-03-17 1997-11-25 Eastman Kodak Company Apparatus for performing character segmentation using slant histograms
US5991439A (en) * 1995-05-15 1999-11-23 Sanyo Electric Co., Ltd Hand-written character recognition apparatus and facsimile apparatus
DE19533585C1 (de) * 1995-09-01 1997-01-09 Peter Prof Dr Maas Verfahren zur Segmentierung von Zeichen
JP2974061B2 (ja) * 1996-11-13 1999-11-08 日本電気株式会社 パタン抽出装置
SG71018A1 (en) * 1997-03-01 2000-03-21 Inst Of Systems Science Nat Un Robust identification code recognition system
DE10009761A1 (de) * 2000-03-01 2001-09-20 Cgk Comp Ges Konstanz Mbh Bildaufnahmeverfahren und -Vorrichtung
US7936476B2 (en) * 2002-03-22 2011-05-03 Laser Substrates, Inc. Font pitch adjustment during print process
US7471826B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Character segmentation by slices
JP5636691B2 (ja) * 2010-02-26 2014-12-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5508359B2 (ja) * 2011-08-03 2014-05-28 シャープ株式会社 文字認識装置、文字認識方法及びプログラム
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
JP6492894B2 (ja) * 2015-04-01 2019-04-03 富士通株式会社 認識プログラム、認識方法及び認識装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL265383A (de) * 1960-05-31
US3629826A (en) * 1970-01-02 1971-12-21 Ibm Sectioning apparatus and method for character recognition systems
JPS5327333A (en) * 1976-08-27 1978-03-14 Nec Corp Character seperator
US4173015A (en) * 1978-08-16 1979-10-30 Recognition Equipment Incorporated System and method for character presence detection
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US4365234A (en) * 1980-10-20 1982-12-21 Hendrix Electronics, Inc. Segmentation system and method for optical character scanning
NL183790C (nl) * 1980-11-21 1989-01-16 Nederlanden Staat Werkwijze voor karaktersegmentatie.
JPS57101986A (en) * 1980-12-17 1982-06-24 Toshiba Corp Character detecting and cutting method
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system

Also Published As

Publication number Publication date
DE3486241D1 (de) 1993-12-09
EP0428499A2 (de) 1991-05-22
EP0428499B1 (de) 1993-11-03
DE3486241T2 (de) 1994-05-19
EP0146147B1 (de) 1993-03-17
EP0428499A3 (en) 1991-11-27
EP0146147A3 (en) 1988-07-27
DE3486104D1 (de) 1993-04-22
US4635290A (en) 1987-01-06
EP0146147A2 (de) 1985-06-26

Similar Documents

Publication Publication Date Title
DE3486104T2 (de) Trennanlage und -verfahren fuer optische zeichenleseeinrichtungen.
DE3851867T2 (de) Zeichenerkennungsgerät.
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
DE60308025T3 (de) Identifikationsmarkieren von poststücken durch bildsignatur und zugehörige postbearbeitungsmaschine
DE68928154T2 (de) Fingerabdruckverarbeitungssystem, geeignet für das Ermitteln des Kernes eines Fingerabdruckbildes durch Krümmungsparameter
DE3689416T2 (de) Mustermerkmalextraktion.
DE10036110B4 (de) Verfahren zur Bestimmung des Schrägwinkels eines zweidimensionalen Barcodes
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE3633743C2 (de)
DE3515159C2 (de)
DE3786472T2 (de) Vorrichtung für optische Zeichenerkennung.
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE19530829C2 (de) Verfahren zum elektronischen Wiederauffinden von einem Dokument hinzugefügter Information
EP0312905A1 (de) Verfahren zur automatischen Zeichenerkennung
DE68928703T2 (de) Buchstabenerkennungsvorrichtung
WO1995033580A1 (de) Verfahren zur steuerung der eingabestation für eine briefsortieranlage
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
DE69121805T2 (de) Strichkode-Abtastvorrichtung
WO2008074477A1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung von schriftzeichen in einem bild
DE102018115158A1 (de) NC-Programm-Umwandlungseinrichtung
DE2907274A1 (de) Unterbrechungseinrichtung fuer schreibautomaten bei einem typenwechsel
DE2146497C3 (de) Segmentierungs-Vorrichtung für optische Zeichenleser
DE2654815A1 (de) Verfahren zur unterscheidung von gross- und kleinbuchstaben
DE3246631C2 (de) Zeichenerkennungsvorrichtung
DE2300340C2 (de) Verfahren zur Analyse von auf einem Speicher mit Relativbewegung zwischen Speicherfläche und Lese- bzw. Schreibköpfen gespeicherten Informationen und Vorrichtung zur Durchführung des Verfahrens

Legal Events

Date Code Title Description
8364 No opposition during term of opposition