-
Die Erfindung betrifft optische Zeichenlesesysteme.
Insbesondere bezieht sie sich auf eine Trenneinrichtung zum
Trennen eines auf Papier vorliegenden Zeichenfolgebildes in
einzelne Zeichen.
-
Um eine Folge von gedruckten Zeichen erkennen zu
können, müssen optische Zeichenlesesysteme die Zeichen in
einzelne Zeichen trennen. Ferner sollten die optischen
Zeichenlesesysteme gedruckte Zeichen vieler Schriftarten und schlechter
Druckqualität, wie sie auf normalen Postsendungen und
Dokumenten gedruckt sind, beherrschen. Bei Zeichenfolgen auf normalen
Dokumenten kommt es vor, daß die zu trennenden Zeichen
miteinander verbunden sind oder daß ein Zeichen wegen schlechter
Qualität in mehr als ein Bild getrennt wird. Was das Alphabet
betrifft, so schwankt die Breite jedes Zeichens entsprechend
der Varianz der Schriftart oder der Zeichenkategorie. Deshalb
ist eine Trenneinrichtung erforderlich, die die Zeichenkette
unter den oben genannten Bedingungen korrekt in einzelne
Zeichen trennt.
-
Eine derartige Zeichentrenneinrichtung ist im US-Patent
Nr. 3 629 826 vorgeschlagen worden. Die vorgeschlagene
Trenneinrichtung tastet ein Zeichenbild vertikal ab und legt eine
Zeichentrennstelle fest, indem sie einen Punkt ermittelt, wo
ein vertikales Scanbit minimiert wird. Um die miteinander
verbundenen Zeichen, auch Verbundzeichen genannt, zu trennen,
speichert diese Einrichtung außerdem vorher viele
Verbundzeichenbilder für alle Zeichen, und eine Trennungsstelle wird
bestimmt, indem das Verbundzeichenbild mit den gespeicherten
Verbundzeichenbildern verglichen wird. Das heißt, diese
Einrichtung führt die Zeichentrennung anhand der lokalen Bilder
der Zeichenfolge durch.
-
Diese Trennungseinrichtung kann jedoch das Zeichen, das
als ein Zeichen in zwei oder mehr Bilder aufgeteilt ist, nicht
richtig erkennen. Außerdem braucht diese Einrichtung eine
enorme Speicherkapazität zum Speichern vieler
Verbundzeichenbilder von allen Zeichen, die mit anderen Zeichen verbunden
sind. Darüber hinaus kann durch eine spezielle Funktion der
Zeichentrennung für den Einzelfall eine beträchtliche
Verminderung der Genauigkeit und der Geschwindigkeit der
Zeichentrennung eintreten.
-
Daneben kann bei dieser Art von Trenneinrichtung ein
Zeichenabstand als Information zum Trennen einer Zeichenfolge
verwendet werden. Der Zeichenabstand kann der Trenneinrichtung
als bekannte Information vorgegeben werden, indem man bei
Drucksachen, die von optischen Zeichenlesern gelesen werden,
Beschränkungen einführt. Da jedoch die Zeichen, die auf einem
normalen Dokument gedruckt oder geschrieben sind, wie oben
beschrieben, einen nicht festgelegten Zeichenabstand haben, ist
der Zeichenabstand vorher nicht bekannt. Folglich muß der
Zeichenabstand anhand eines Zeichenfolgebildes auf dem Papier
geschätzt werden.
-
Bisher wird ein Mittelwert für die Zeichenbreite
verschiedener Zeichen als Schätzwert für den Zeichenabstand
verwendet. Wenn aber eine Einzelzeichenbreite in Abhängigkeit
von Schriftart oder Zeichenkategorie sehr schwankt oder die
Anzahl der Verbundzeichen sich erhöht, ist ein Abweichungsfehler
zwischen dem Mittelwert der Zeichenbreite und einem
tatsächlichen Zeichenabstand nicht mehr vernachlässigbar.
Aufgrund des Fehlers wählt die Trenneinrichtung eine falsche
Anzahl Verbundzeichen oder trennt die Zeichenfolge an einer
falschen Trennstelle. Wie oben beschrieben, sollte der
optische Zeichenleser sowohl die gedruckten Zeichen mit konstantem
Abstand wie auch die mit variablem Abstand einschließlich
handgeschriebener Zeichen beherrschen. Dabei muß die
Trenneinrichtung den Algorithmus für die Zeichentrennung ändern, je
nachdem ob es sich um gedruckte Zeichen mit konstantem oder
mit variablem Abstand handelt. Deshalb ist es auch wichtig,
vor Durchführung der Zeichenfolgetrennung herauszufinden, ob
der Abstand der ermittelten Zeichendaten konstant oder
variabel ist.
-
Das IBM Technical Disclosure Bulletin, Vol. 23, Nr. 3,
August 1980, S. 1194, C.R. JIH "Segmentation method for
fixedpitched and machine-printed documents" beschreibt eine Methode
zur Trennung einzelner Zeichen aus einem Zeichenzeilenbild auf
der Grundlage eines bestimmten Standardabstands. Da jedes
Zeichen in einem Zeichenzeilenbild normalerweise eine andere
Breite hat und der Anfang eines Zeichenzeilenbildes nicht
festgelegt ist, kann das Verfahren, das das Zeichen einfach
anhand des Standardabstandes abtrennt, nicht zur Verbesserung
der Genauigkeit beitragen. Um dieses Problem zu lösen, wird
bei diesem Verfahren das Zeichen auf der Grundlage des
Standardabstands und der Abstandsabweichungsinformation vom
Zeichenzeilenbild getrennt.
-
Um die Abstandsabweichung zu erkennen, werden der
Anfangsrand, der Endrand und die Mittellinie des Zeichenkörpers
ermittelt. Die Abstandsabweichung wird dann als Abstand
zwischen einer durch den Standardabstand gegebenen
Referenzgitterposition und der Mittellinie des Zeichenkörpers berechnet.
Da die Abstandsabweichung bei falschen Daten hoch ist, werden
die falschen Daten durch eine einfache Schwellwertverarbeitung
auf der Grundlage des experimentellen Wertes beseitigt. Daraus
folgt, daß sich die Anzahl der falschen Daten erhöht, die
Anzahl der zu ermittelnden richtigen Daten sich verringert und
die Abstandsabweichungsinformation sich nicht auf die
Kompensation des Standardabstands auswirken kann.
-
Daher ist es eine Aufgabe der Erfindung, eine
Trenneinrichtung bzw. ein Trennverfahren zur Trennung einer
Zeichenfolge in einzelne Zeichen bereitzustellen, das auch dann genau
arbeitet, wenn die Zeichenfolge Verbundzeichen aufweist oder
wenn ein Zeichen in zwei oder mehr Bilder aufgeteilt ist.
-
Diese Aufgabe wird von einer Einrichtung mit den
Merkmalen des Anspruchs 1 und einem Verfahren mit den
Merkmalen des Anspruchs 7 gelöst. Die Unteransprüche beziehen sich
auf die bevorzugten erfindungsgemäßen Ausführungsbeispiele.
-
Die erfindungsgemäße Trenneinrichtung ist insbesondere
in der Lage, einen optimalen Zeichenabstand auch dann zu
ermitteln,
wenn die Zeichenfolge Verbundzeichen aufweist oder
ein Zeichen in zwei oder mehr Bilder aufgeteilt ist, und zu
erkennen, ob die gewonnenen Zeichendaten einen konstanten oder
variablen Abstand haben, und somit eine Zeichentrennung
entsprechend den Zeichenabständen durchzuführen.
-
Die erfindungsgemäße Trenneinrichtung bestimmt eine
Zeichentrennstelle, indem sie anhand des Zeichenabstands
nacheinander für eine Trennung in Frage kommende Segmente,
auch mögliche Segmente genannt, und eine Leerrauminformation
des Zeichenbildes festlegt, und ermittelt eine Sequenz von
Zeichentrennstellen durch eine dynamische Programmierung. Die
Zeichensequenztrennstellen werden so festgelegt, daß sie die
Varianz der Entfernung zwischen den möglichen Trennstellen und
die Varianz der Verschiebung zwischen einem durchschnittlichen
Abstand und einem Zeichenabstand minimiert.
-
Ferner schätzt die erfindungsgemäße Trenneinrichtung
einen Zeichenabstand. Diese Trenneinrichtung trennt eine
Häufigkeitsverteilung eines Zeichenkörpers über eine
Entfernung zwischen den Zeichenkörpern anhand eines möglichen
Zeichenabstands in viele Segmente. Die Zeichenkörper sind durch
die Leerrauminformation des Zeichenbildes voneinander
getrennt. Der mögliche Zeichenabstand wird anhand einer
Zeichenhöheninformation oder anderer Informationen festgelegt.
Die Trenneinrichtung ermittelt einen optimalen
Linearsummenschätzstandard (Varianzkriterium) für den Fehler
zwischen einem repräsentativen Punkt des getrennten Segments
und dem möglichen Zeichenabstand. Der am besten geeignete
Zeichenabstand wird so festgelegt, daß er den optimalen
Linearsummenschätzstandard (Varianzkriterium) minimiert.
-
Die oben genannten und weitere Aufgaben, Merkmale und
Vorteile der Erfindung werden durch die nachstehende
Beschreibung der bevorzugten erfindungsgemäßen Ausführungsbeispiele im
Zusammenhang mit den beiliegenden Zeichnungen besser
verständlich, in denen
-
Fig. 1(a) bis (e) die möglichen Zeichentrennstellen in
einem Zeichenfolgebild gemäß einem erfindungsgemäßen
Ausführungsbeispiel darstellen,
-
Fig. 2(a) bis (b) die Punkte des Endrandes in einem
Zeichenfolgebild gemäß einem erfindungsgemäßen
Ausführungsbeispiel darstellen,
-
Fig. 3 ein Prinzip zur Gewinnung optimaler
Zeichentrennstellen aus einer Anzahl von möglichen
Zeichentrennstellen darstellt,
-
Fig. 4 ein Blockschaltbild einer Trenneinrichtung gemäß
einem erfindungsgemäßen Ausführungsbeispiel ist,
-
Fig. 5 ein Blockschaltbild der
Schätzstandard-Arithmetikeinheit gemäß Fig. 4 ist,
-
Fig. 6 Abstände zwischen Zeichenkörpern im
Zeichenfolgebild darstellt,
-
Fig. 7 ein Beispiel einer Häufigkeitsverteilung des
Abstandes zwischen Zeichenkörpern, die aus einer Reihe von
Zeichenfolgebildern ermittelt worden sind, darstellt,
-
Fig. 8(a) und (b) ein Beispiel einer
Häufigkeitsverteilung des Abstandes zwischen Zeichenkörpern mit konstantem bzw.
variablem Zeichenabstand darstellen,
-
Fig. 9 ein Blockschaltbild der
Zeichenabstandserkennungseinheit gemäß Fig. 4 ist.
-
Fig. 1(a) zeigt in schraffierter Form ein
Zeichenfolgebild mit Verbundzeichen und ein Zeichen, das in zwei Bilder
geteilt ist. Ein Zeichenabstand P kann von einem nachstehend
beschriebenen Zeichenabstandsdetektor ermittelt werden, es
kann jedoch auch, wenn der Abstand bereits bekannt ist, der
bekannte Wert verwendet werden. Eine Projektionsverteilung
gemäß Fig. 1(b) wird ermittelt, indem das Zeichenfolgebild gemäß
Fig. 1(a) vertikal projiziert wird.
-
Um die Verbundzeichen (a m u) zu trennen und den
getrennten Buchstaben (h) zu einem richtigen Einzelzeichen
zusammenzusetzen, muß ein Anfangstrennpunkt für das Zeichen
richtig vorausgesagt werden. Bei den miteinander verbundenen
Zeichen "a" und "m" ist beispielsweise das "a" etwas kleiner.
Deshalb sollte der Anfangstrennpunkt etwas links von einem
Anfangsrand der Verbundzeichenbilder (a m u) liegen.
-
Zuerst werden Lage und Größe einer weißen Fläche (im
folgenden Leerraum genannt) und einer schwarzen Fläche (im
folgenden Zeichenkörper genannt) aus der Projektionsverteilung
gemäß Fig. 1(b) extrahiert. Es werden eine Anzahl von
Zeichenkörperbreiten Vi (i = 1, . . . 4), Leerräumen Wi (i = 1,
... 4) und Lageinformationen aus der Projektionsverteilung
gemäß Fig. 1(c) gewonnen.
-
Als nächstes werden anhand des Zeichenabstands P und
der vorher festgelegten Schwellwerte T&sub1; und T&sub2; Segmente zur
Festlegung der Zeichentrennstellen (im folgenden zulässige
Segmente genannt) festgelegt, und zwar unter folgenden
Bedingungen (1) und (2):
-
Bedingung (1) Ein Segment der Leerräume wird als das
zulässige Segment bestimmt.
-
Bedingung (2) Ein Segment der Zeichenkörper, deren Breite Vi
die Bedingung Vi > P + T&sub1; erfüllt und bei dem
das Segment T&sub2; an beiden Enden der Breite Vi
ausgenommen ist, wird als das zulässige Segment
bestimmt.
-
Als zulässige Segmente, die die genannten Bedingungen
(1) und (2) erfüllen, gelten die Segmente A&sub0;, A&sub1;, A&sub2;, A&sub3;, A&sub4;
und A&sub5; gemäß Fig. 1(d). Hier können die oben genannten
Schwellwerte T&sub1; und T&sub2; als Funktionen des Zeichenabstands P
gegeben sein. Außerdem kann der Schwellwert T&sub1; gemäß einem
Schätzfehler bei der Schätzung des Zeichenabstands P
festgelegt werden, wie später beschrieben wird.
-
Als nächstes werden die möglichen Segmente k (k≥0)
gemäß Fig. 1(e) unter Verwendung des Zeichenabstands P und des
vorher festgelegten Schwellwertes T&sub3; als zulässige Segmente
A&sub1;, A&sub2;, A&sub3;, A&sub4; und A&sub5; festgelegt. In Fig. 1(e) werden erste
Scanbits W&sub0;' (dargestellt durch kleine, weiße Kreise) im
Leerraum W&sub0; festgelegt. Als nächstes wird ein Segment k'=0
festgelegt, bei dem ein Abstand von dem beliebigen Scanbit W&sub0;, in
den Grenzen (P±T&sub3;) liegt. Als nächstes wird das Segment mit
dem zulässigen Segment A&sub1; und dem Segment k'=0 als mögliches
Segment k=0 festgelegt. Im Ausführungsbeispiel gibt es im
ersten möglichen Segment k=0 nur ein Scanbit (dargestellt durch
einen schwarzen Punkt). Das durch einen schwarzen Punkt
dargestellte Scanbit wird im folgenden als eine mögliche
Trennstelle bezeichnet, die mit x(k, ik) definiert ist. Dabei ist
ik eine ganze Zahl, die mit 1 beginnt und eine relative Anzahl
der möglichen Segmente k ist. Das heißt, in dieser Stufe wird
die erste mögliche Trennstelle x(0, 1) ermittelt.
-
Als nächstes wird ein Segment k'=1 festgelegt, bei dem
der Abstand von der möglichen Trennstelle x(0, 1) in den
Grenzen (P±T&sub3;) liegt, und das Segment mit dem zulässigen Segment
A&sub1; und dem Segment k'=0 wird als mögliches Segment k=1
festgelegt. Das mögliche Segment k=1 weist zwei mögliche
Trennstellen x(1, 1) und x(1, 2) auf. Dann wird das Segment, bei dem
der Abstand von einer möglichen Trennstelle x(1, i&sub1;) den Wert
(P±T&sub3;) hat, nämlich das Segment von x(1, 1)+P-T&sub3; bis x(1,
2)+P+T&sub3; als ein Segment k'=2 festgelegt. Das gesamte Segment
k'=2 ist im zulässigen Segment A&sub4; enthalten, und deshalb ist
das mögliche Segment k=2 mit dem Segment k'=2 identisch. Das
mögliche Segment k=2 weist vier mögliche Trennstellen x(2, 1),
x(2, 2), x(2, 3) und x(2, 4), auf.
-
Ein Segment k'=3 wird dann entsprechend dem möglichen
Segment k=2 auf gleiche Weise festgelegt, und ein mögliches
Segment k=3 und eine mögliche Trennstelle x(3, i&sub3;) (i&sub3; = 1, 2,
3, 4, 5, 6) werden durch ein logisches Produkt mit dem
zulässigen Segment A&sub4; bestimmt. Ein mögliches Segment k=4 und eine
mögliche Trennstelle x(4, i&sub4;) (i&sub4; = 1, 2, 3, 4) werden
entsprechend dem möglichen Segment k=3 festgelegt. Dann wird
durch ein logisches Produkt aus einem Segment k'=4 und dem
zulässigen Segment A&sub4; eine mögliche Trennstelle x(4, 1) erzeugt,
und die Trennstellen x(4, 2), x(4, 3), x(4, 4) werden durch
ein logisches Produkt aus einem Segment k'=4 und dem
zulässigen Segment A&sub5; erzeugt.
-
Wie aus der obigen Beschreibung hervorgeht, gilt für
alle möglichen Trennstellen x(k, ik) und x(k+1, ik+1) zwischen
den nebeneinanderliegenden, möglichen Segmenten k und k+1
folgende Formel, wenn der Abstand {x(k+1, ik+1)-x(k, ik)}
zwischen den möglichen Trennstellen x(k, ik) und x(k+1, ik+1) als
d(k, k+1; ik, ik+1) definiert wird:
-
d(k, k+1; ik, ik+1)-P ≤ T&sub3; (1)
-
Für den Abstand d(1, 2; 1, 2) zwischen den möglichen
Trennstellen x(1, 1) und x(2, 2) gilt z. B. folgende Formel:
-
d(1, 2; 1, 2)-P ≤ T&sub3;.
-
Das heißt, die Trennstelle, für die die Formel (1) in
bezug auf die mögliche Trennstelle x(0, 1) gilt, sind drei
Punkte, die durch kleine, weiße Kreise (das Segment k'=1 gemäß
Fig. 1(e)) dargestellt sind. Aber von diesen weißen Kreisen
befinden sich nur zwei im zulässigen Segment A&sub3;, und als eine
mögliche Trennstelle x(1, ik) sind die Punkte x(1, 1) und x(1,
2) verfügbar.
-
Dabei kann der oben genannte Schwellwert T&sub3; wie der
Schwellwert T&sub1; als eine Funktion des Zeichenabstands P gegeben
sein. Ferner kann das mögliche Segment k auch unter einer
anderen Bedingung anhand des Zeichenabstands P, der
Zeichenkörperbreite Vi und des Leerraumes Wi festgelegt
werden.
-
Nachstehend wird ein Verfahren zur Erkennung des
Endrandes des Zeichenfolgebildes beschrieben. Wie später noch
beschrieben wird, ist die Erkennung des Endrandes für die
Bestimmung einer Trennstelle der Zeichenfolge erforderlich.
-
In Fig. 2(a) und (b) ist das Zeichenbild in den
Zeichenkörper Vj und den Leerraum Wj getrennt. Jeder Leerraum Wj
wird mit dem Produkt T&sub4;·P, d. h. mit dem Produkt aus einem
vorher festgelegten Parameter T&sub4; und dem Zeichenabstand P
verglichen. In den Leerräumen Wi wird ein Leerraum Wj, der größer
ist als das Produkt T&sub4;·P, als ein mögliches Endrandsegment
festgelegt.
-
Als nächstes wird das Produkt T&sub5;·P, d. h. das Produkt
aus einem vorher festgelegten Parameter T&sub5; (T&sub5;≤T&sub4;) und dem
Zeichenabstand P berechnet. Das Segment, das sich vom
Anfangsrand des möglichen Endrandsegments Wj bis zu dem vom Produkt
T&sub5;·P bestimmten Punkt erstreckt, wird als ein erstes
zulässiges Endrandsegment festgelegt. Als nächstes wird das
Segment, das sich von einem Anfangsrand eines Zeichenkörpers Vj
unmittelbar vor dem möglichen Segment Wj bis zu dem durch die
Summe P+T&sub1; (die Summe aus Zeichenabstand P und Parameter T&sub1;)
bestimmten Punkt erstreckt, als ein zweites zulässiges
Endrandsegment festgelegt. Ferner wird eine logische Summe aus
dem ersten und zweiten zulässigen Endrandsegment T&sub5;·P und P+T&sub1;
als ein zweites mögliches Endrandsegment Q festgelegt.
-
Ein Endrandsegment E wird ermittelt, indem das logische
Produkt aus dem ersten möglichen Segment Wj und dem zweiten in
Frage kommenden Segment Q gebildet wird. Das heißt, das
Endrandsegment E in Fig. 2(a) ist gleich dem Segment T&sub5;·P, und
das Endrandsegment E in Fig. 2(b) ist gleich dem Segment Wj.
Aus einem Endrandsegment E des Zeichenbildes in Fig. 1(a), das
nach dem gleichen Verfahren ermittelt wird, wird das mit einem
Pfeil E bezeichnete Segment in Fig. 1(e). Das Endrandsegment E
in Fig. 1(e) weist die möglichen Trennstellen x(4, 2), x(4, 3)
und x(4, 4) auf.
-
Das Endrandsegment kann auch auf andere Weise
festgelegt werden. Der Leerraum eines Endrandes der Zeichenzeile
kann als Endrandsegment festgelegt werden. Ferner kann, wenn
ein mögliches Segment (k+1) unter Verwendung des
Endrandsegments k festgelegt wird und wenn die mögliche Trennstelle
x(k+1, ik+1), für die die Formel (1) gilt, kein zulässiges
Segment A&sub1; ist, das mögliche Segment k als Endrandsegment
festgelegt werden. Andererseits kann der Anfangsrand des
möglichen Segments entsprechend der Lage des Endrandsegments, das
bereits ermittelt worden ist, festgelegt werden.
-
Als nächstes wird ein Verfahren zur Bestimmung der
Zeichentrennstelle beschrieben. Die schwarzen Punkte in Fig. 3
stehen für die einzelnen möglichen Trennstellen x (k, ik)
gemäß Fig. 1(e) mit dem in 1 gegebenen Abtastabstand und dem als
Ausgangspunkt fungierenden Punkt x(0, 1). Der Zeichenabstand P
wird auf "20" festgelegt. Ferner soll sich aus Gründen einer
einfachen Beschreibung des Prinzips der Zeichentrennung das
für eine Trennung vorgesehene Zeichenfolgebild nur von dem
möglichen Segment k=0 bis zu dem möglichen Segment k=4 gemäß
Fig. 1(e) erstrecken.
-
Zunächst werden die in der Beschreibung verwendeten
Symbole definiert: Ein Symbol ud (r, n; ir, in) (0≤r< n)
bedeutet einen Mittelwert von (n-r) Abstandsstücken d(r, r+1; ir,
ir+1), d(r+1, r+2; ir+1, ir+2) . . .., d(n-1, n; in-1, in),
ermittelt aus (n-r+1) Stücken von möglichen Trennstellen
x(r, ir), x(r+1, ir+1) . . .., x(n, in). Die Punkte x(r, ir),
x(r+1; ir+1) . . .., x(n, in) werden bei jedem möglichen
Segment von k=r bis k=n beliebig gewählt. Ein Symbol σd²(r, n;
ir, in) (0≤r< n) bedeutet eine Varianz des Mittelwerts ud(r, n;
ir, in) von (n-r) Abstandsstücken d(r, r+1; ir, ir+1),
d(r+1, r+2; ir+1, ir+2), . . .., d(n-1, n; in-1, in)
Zeichentrennstellen, die sich von dem möglichen, als
Anfangsrand fungierenden Segment r (r = 0 in Fig. 3) bis zu
dem möglichen, als Endrand fungierenden Segment n (n = 4 in
Fig. 3) erstrecken, werden bestimmt, indem die möglichen
Trennstellen x(r, ir), x(r+1, ir+1) . . .., x(n, in) ermittelt
werden, bei denen ein in der folgenden Formel (2) aufgeführter
Schätzstandard U minimiert wird:
-
U(r, n) = β·σ²r, n; ir, in)+1-β) · (ud(r, n;
ir, in)-P)² (2)
-
Für den Wichtungsfaktor β in der Formel (2) gilt 0≤ß≤1.
-
Die mögliche Trennstelle zur Minimierung der Formel (2)
kann durch die folgende dynamische Programmierung bestimmt
werden. Eine optimale mögliche Trennstelle x(k, ik) in dem
möglichen Segment k wird durch die folgenden Rekursionsformeln
(3-1), (3-2) und (3-3) ermittelt. In diesen Formeln werden
beliebige mögliche Trennstellen x(k, ik) ik = i, 2 . . .., hk)
und mögliche Trennstellen x(k+1, ik+1) (ik+1 = 1, 2 . . ..,
hk+1) verwendet. Das heißt, zuerst wird eine Entfernung d(k,
k+1; ik, ik+1) und dann die folgenden Formeln (3-1), (3-2) und
(3-3) berechnet:
-
Die mögliche Trennstelle x*(k, ik), die den
Schätzstandard U(0, k+1) der Formel (3-3) minimiert, wird zu einer
optimalen möglichen Trennstelle gegenüber der beliebigen möglichen
Trennstelle x(k+1, ik+1) der möglichen Trennstelle (k+1) in hk
möglichen Trennstellenstücken x(k, l), . . .. x(k, hk) des
möglichen Segments k.
-
Wenn man sich dabei auf die einzelnen möglichen
Trennstellen x(0, i&sub0;) (i&sub0;=1 in Fig. 3) des möglichen, als
Anfangsrand fungierenden Segments k=0 bezieht, werden der in der
Formel (3-1) angezeigte, optimale Mittelwert ud* (0, 0; i&sub0;, i&sub0;)
und eine kumulative Quadratsumme D(0) des in der Formel (3-2)
angezeigten, optimalen Abstandes d(-1, 0; i&submin;&sub1;, i&sub0;) auf Null
gesetzt. Eine optimale mögliche Trennstelle x(k, ik) des
möglichen Segments k an jeder möglichen Trennstelle x(k+1, ik+1)
des nächsten möglichen Segments (k+1) kann ermittelt werden,
indem ein optimaler Mittelwert ud*(&sup0;, 1; ik, i&sub0;) und eine
kumulative Quadratsumme D*(k-1, k) des optimalen Abstandes d(k-
1, k; ik-1, ik) an jeder möglichen Trennstelle x(k, ik) des
möglichen Segments k gespeichert werden. Dabei handelt es sich
beim ersten Glied der Formel (3-3) um eine weitere
Möglichkeit, die in der Formel (2) gegebene Varianz σd²(0, k+1;
i&sub0;, ik+1) auszudrücken.
-
Als nächstes wird anhand von Fig. 3 ein Rechenvorgang
mit den Formeln (3-1) und (3-3) beschrieben. In der Zeichnung
steht R(u, U) für den Mittelwert ud*(0; 1; ik, i&sub0;) und den
Schätzstandard U(0, k) gemäß Rekursionsformeln (3-1) und (3-3)
an jeder möglichen Trennstelle x(k, ik) jedes möglichen
Segments k (k = 0, 1, 2, 3, 4). Diese werden als optimale Werte
aus der möglichen Trennstelle x*(k-1, ik-1) berechnet. Dann
wird in diesem Ausführungsbeispiel der Wichtungsfaktor β in der
Formel 3-3 mit 0,5 festgelegt. Ferner zeigen die Pfeile in
Fig. 3 eine Sequenz der optimalen möglichen Trennstellen an.
-
Es besteht z. B. im Punkt 39 die mögliche Trennstelle
x(2, 1), und ein Abstand d(1, 2; 1, 1) von der möglichen
Trennstelle x(1, 1) ist 19. Folglich ergibt sich ein
Mittelwert ud(0, 2) von der möglichen Trennstelle x(0, 1) über die
mögliche Trennstelle x(1, 1) bis zur möglichen Trennstelle
x(2, 1) aus 1/2·(1·20+19) = 19,5. Der in der Formel (3-2)
angezeigte Wert D*(1) = 20² wird zur möglichen Trennstelle x(1,
1) entsprechend gespeichert. Aus dem Ausdruck (3-2) ergibt
sich D(2) = 20² + 19². Setzt man nun diese Werte in die Formel
(3-3) ein, so lautet der Schätzstandard U(0, 2) an der
möglichen Trennstelle x(2, 1) auf einem Weg über die mögliche
Trennstelle x(1, 1) folgendermaßen:
-
U(0, 2) = 0,5 (20²+19²/2-19,5²)+ 0,5.(19,5-20)² = 0,38.
-
Entsprechend hat der Schätzstandard U'(0, 2) an der möglichen
Trennstelle x(2, 1) auf einem Weg über die mögliche
Trennstelle x(l, 2) den Wert 1,26. Der Ausgangspunkt des Weges zur
möglichen Trennstelle x(2, 1), nämlich den möglichen
Trennstellen x(1, 1) oder x(1, 2) wird so gewählt, daß der
Schätzstandard U einen minimalen Wert annimmt. Dementsprechend liegt
eine optimale mögliche Trennstelle des möglichen Segments k=1
zur möglichen Trennstelle x(2, 1) hin bei x(1, 1), da U(0, 2)
kleiner ist als U'(0, 2). Ferner werden der Mittelwert ud*(0,
2) = 19,5 und der Schätzstandard (0, 2) = 0,38 gewählt. Es
wird also ein Schätzstandard U(0, k) (k = 1, 2, 3, 4) an jeder
möglichen Trennstelle x(k, ik) (k = 1, 2, 3, 4) gemäß Fig. 3
berechnet, indem der gleiche Rechenvorgang anhand der
Rekursionsformeln (3-1), (3-2) und (3-3) durchgeführt wird.
-
Wie bereits beschrieben, weist das Endrandsegment E die
möglichen Trennstellen x(4, 2), x(4, 3) und x(4, 4) des
möglichen Segments k=4 auf. Eine der möglichen Trennstellen x(4,
2), x(4, 3) und x(4, 4), deren Schätzstandard U(0, 4) minimal
ist, wird als ein Endpunkt der Zeichentrennung gewählt.
Folglich wird der Punkt x(4, 2) als Endpunkt gewählt, da sein
Schätzstandard 20,3 beträgt, während die anderen 20,5 und 20,8
betragen.
-
Schließlich werden x(4, 2) = 81, x(3, 3) = 60, x(2, 2)
= 40, x(1, 1) = 20, x(0, 1) = 0 als Trennstellen gewählt,
indem der Weg der optimalen Trennstellen in umgekehrter
Richtung, beginnend am Zeichentrennungsendpunkt x(4, 2)
durchlaufen wird. Es werden also die Punkte 0, 20, 40, 60 und 81 als
Trennstellen bestimmt.
-
Ein Logikblock für die oben beschriebene Verarbeitung
ist in Fig. 4 dargestellt. Ein Scanner 1 tastet ein auf einem
Blatt Papier abgedrucktes Zeichenfolgebild optisch ab und
formt es in ein elektrisches Signal um. Das Zeichenfolgebild
wird binär quantisiert und in einem Zeichenfolgebildspeicher 2
gespeichert. Eine Zeichenkörperextraktionseinheit 3 extrahiert
schrittweise Zeichenkörper des Zeichenfolgebildes aus dem
Zeichenfolgebildspeicher 2 und speichert Stellung, Breite und
Höhe jedes Zeichenkörpers Vi in einem
Zeichenkörperinformationsregister 21. Eine solche Zeichenkörperextraktionseinheit 3
kann auf bekannte Weise realisiert werden. Ein
Zeichenabstandsdetektor 4 schätzt anhand von Stellung, Breite und Höhe
jedes im Zeichenkörperinformationsregister 21 gespeicherten
Zeichenkörpers Vi den Zeichenabstand P ab. Der geschätzte
Zeichenabstand wird in einem
Zeichenabstandsinformationsregister 22 gespeichert. Der Zeichenabstandsdetektor 4 wird
nachstehend genauer beschrieben. Dabei kann der bereits
bekannte Zeichenabstand P verwendet werden. Ein
Parameterinformationsregister 30 speichert die Parameter T&sub1;, T&sub2;, T&sub3;, T&sub4;, T&sub5;,
β, die, wie bereits beschrieben, Schwellwerte bzw. einen
Wichtungsfaktor darstellen.
-
Eine Extraktionseinheit 5 für zulässige Segmente
extrahiert die zulässigen Segmente Ai, für die die oben
beschriebenen Bedingungen (1) und (2) gelten. Lage und Höhe des Segments
Wi werden von einem Komparator oder anderen Elementen im
Hinblick auf Lage und Breite Vi einer Anzahl von im
Zeichenkörperinformationsregister 21 gespeicherten
Zeichenkörpern extrahiert. Als nächstes wird jede Zeichenkörperbreite Vi
mit der Summe P+T&sub1; des im Zeichenabstandsinformationsregister
22 gespeicherten Zeichenabstands P und des im
Parameterinformationsregister 30 gespeicherten Parameters T&sub1; verglichen. Ist
die Breite Vi größer als die Summe P+T&sub1;, wird ein im
Parameterinformationsregister 30 gespeicherter Wert T&sub2; von beiden
Rändern der Zeichenkörperbreite Vi exzerpiert und das
zulässige Segment, das die Bedingung (2) erfüllt, extrahiert. Lage
und Breite der zulässigen Segmente Ai werden in einem
Informationsregister 23 für zulässige Segmente gespeichert.
-
Die Extraktionseinheit 6 für mögliche Endrandsegmente
berechnet das Produkt T&sub4;·P aus dem im
Parameterinformationsregister 30 gespeicherten Parameter T&sub4; und dem
Zeichenabstand P. Dann vergleicht die Einheit 6 das Produkt T&sub4;·P mit
dem im Informationsregister 23 für zulässige Segmente
gespeicherten Leerraum Wi. Der Leerraum Wj, dessen Breite größer ist
als das Produkt T&sub4;·P, wird also als ein mögliches erstes
Endrandsegment erkannt. Als nächstes berechnet die
Extraktionseinheit 6 das Produkt T&sub5;·P aus dem Parameter T&sub5; und
dem Zeichenabstand P und versetzt das Segment von einem
Anfangsrand des Leerraumes Wj an die durch das Produkt T&sub5;·P als
ein zulässiges Segment bestimmte Stelle. Ferner wird die Summe
P+T&sub1; aus dem Zeichenabstand P und dem Parameter T&sub1; berechnet,
und das zulässige Segment wird von einem Anfangsrand des
Zeichenkörpers Vj unmittelbar vor dem Leerraum Wj bis zur Summe
P+T&sub1; versetzt. Die beiden zulässigen Segmente werden zu einer
logischen Summe zusammengefaßt und nacheinander als ein
zweites mögliches Endrandsegment im Register 24 für mögliche
Endrandsegmente gespeichert.
-
Eine Extraktionseinheit 7 für mögliche Segmente
extrahiert nacheinander jede mögliche Trennstelle x(k, ik) des
möglichen Segments k in bezug auf die zulässigen Segmente Ai
und die in einem Informationsregister 23 für zulässige
Segmente bzw. im Parameterinformationsregister 30 gespeicherten
Parameter. Zu diesem Zeitpunkt hat eine Steuereinheit 10 jede
mögliche Trennstelle x(0, i&sub0;) i&sub0; = 1, 2, . . .. h&sub0;) des
möglichen Anfangsrandsegments k=0 mit einem
Zeichentrennungsausgangspunkt ermittelt. Diese Punkte x(0, i&sub0;) werden auf der
Grundlage der einzelnen Trennstellen in einem konstanten
Leerraumbereich W&sub0;' berechnet. Der Leerraum W&sub0;' wird nach dem
Zeichenabstand P von einem Anfangsrand des Zeichenfolgebildes
eingestellt. Die möglichen Trennstellen x(0, i&sub0;) werden in
einem Informationsregister 26 für optimale Trennstellen
gespeichert. Eine Extraktionseinheit 7 für mögliche Segmente
berechnet eine mögliche Trennstelle x(k+1, ik+1), für die der
Ausdruck (1) gilt. Bei dieser Berechnung werden die möglichen
Trennstellen k (k, ik) (ik = 1, 2, . . .. hk) des möglichen
Segments k (k = 0, 1, 2, . . ..) aus dem Register 26 für optimale
Trennstellen gelesen. Das heißt, ein Punkt (x(k, 1) + P-T&sub3;)
wird anhand der ersten möglichen Trennstelle x(k, 1) des
möglichen Segments k, des Zeichenabstands P und des Parameters
T&sub3; berechnet. Als nächstes wird anhand der letzten möglichen
Trennstelle x(k, hk) des möglichen Segments k, des
Zeichenabstands P und des Parameters T&sub3; ein Punkt (x(k, hk) + P
+T&sub3;) berechnet. Die Scanbits, die in einem Segment k' von
Punkt (x(k, 1) + P-T&sub3;) bis (x(k, hk) + P + T&sub3;) vorhanden
sind, werden mit dem zulässigen Segment Ai zu einem logischen
Produkt zusammengefaßt. Alle möglichen Trennstellen x(k+1,
ik+1) (ik+1 = 1, 2, . . .. hk+1) des möglichen Segments (k+1)
werden somit extrahiert und im Informationsregister 25 für
mögliche Trennstellen gespeichert.
-
Der Inhalt des Informationsregisters 25 für mögliche
Trennstellen wird an eine Schätzstandard-Arithmetikeinheit 8
übergeben. Wenn die mögliche Trennstelle x(k+1, ik+1) an die
Schätzstandard-Arithmetikeinheit 8 übergeben wird, sind die
möglichen Trennstellen x(0, i&sub0;) (i&sub0;, 1, . . .. h&sub0;), x(1, i&sub1;) (ii
= 1, . . .. h&sub1;), . . .. x(k, ik) (ik = 1, . . .. hk), die zu dem
möglichen Segment k=0 bis k gehören, bereits berechnet und
werden im Informationsregister 26 für optimale Trennstellen
gespeichert. Ferner sind der Mittelwert ud*(0, k; i&sub0;, ik), der
in der Schätzstandard-Arithmetikeinheit 8 anhand der Formel
(3-1) berechnet worden ist, die kumulative Quadratsumme D*(k),
berechnet anhand der Formel (3-2), und der Schätzstandard U(0,
k) und die optimale mögliche Trennstelle x*(k-1, ik-1) des
möglichen Segments k-1, berechnet anhand der Formel (3-3),
bereits im Register 26 gespeichert. Diese Daten sind jeweils im
Zusammenhang mit den möglichen Trennstellen x(k, ik) (ik = 1,
.... hk) abgespeichert. Wenn dann die möglichen Trennstellen
x(0, i&sub0;) der möglichen Segmente k=0 im Register 25 gespeichert
sind, wird dort als Mittelwert ud*(0, 0; i&sub0;, i&sub0;) und je nach
möglicher Trennstelle x(0, i&sub0;) als kumulative Quadratsumme
D*(0) der Wert 0 eingegeben.
-
Wenn die mögliche Trennstelle x*(k+1, ik+1) vom
Informationsregister 25 für mögliche Trennstellen übergeben
wird, berechnet die Schätzstandard-Arithmetikeinheit 8 den
Abstand d*(k, k+1; ik, ik+1) für jede mögliche Trennstelle x(k,
ik) (ik = 1, 2, . . .. hk) des möglichen Segments k zuerst. Als
nächstes werden hk Stücken des Schätzstandards U(0, k+1) in
bezug auf die möglichen Trennstellen x(k, ik) des möglichen
Segments k ermittelt, indem die Rekursionsformeln (3-1), (3-2)
und (3-3) nacheinander berechnet werden. Zu diesem Zeitpunkt
wird auf den Mittelwert ud*(0, 1; i&sub0;, ik), die kumulative
Quadratsumme D(k) des Abstands und den Parameter β, die im
Parameterinformationsregister 30 gespeichert sind,
zurückgegriffen.
-
Dann wird der Mindestwert des Schätzstandards U*(0,
k+1) bestimmt, und die mögliche Trennstelle x*(k, ik), die dem
Mindeststandard U*(0, k+1) entspricht, wird als optimale
mögliche Trennstelle gewählt. Die optimale mögliche
Trennstelle x*(k, ik) ist ein vorausgehender Punkt, der bis zur
möglichen Trennstelle x(k+1, ik+1*) reicht. Ferner werden der
Mindestwert des Schätzstandards U(0, k+1), der Mittelwert
ud*(0, k+1, i&sub0;, ik+1*), bei dem der Wert des Schätzstandards
minimiert wird, und die kumulative Quadratsumme D*(k+1) des
Abstandes zusammen mit der möglichen Trennstelle x*(k+1, ik+1)
im Informationsregister 26 für optimale Trennstellen
gespeichert. Die Schätzstandard-Arithmetikeinheit 8 führt die oben
beschriebenen Arbeitsschritte für alle möglichen Trennstellen
x(k+1, ik+1) durch.
-
Als nächstes gibt die Steuereinheit 10 der
Extraktionseinheit 6 zur Extraktion möglicher Segmente die Anweisung zur
Extraktion der möglichen Trennstellen x(k+2, ik+2) des
nächsten möglichen Segments k+2. Also wird der gleiche
Arbeitsschritt wie oben beschrieben wiederholt.
-
Die Steuereinheit 10 prüft dann, ob die mögliche
Trennstelle x(k+2, ik+2) des möglichen Segments (k+1), die dem
Informationsregister 26 für optimale Trennstellen übergeben
worden ist, das mögliche Endrandsegment erreicht hat. Die
Information über das Endrandsegment wird im Register 24 der
möglichen Endrandsegmente gespeichert. Wenn nicht, wird
lediglich eine Anweisung zur Verarbeitung des nächsten, möglichen
Segments an die Extraktionseinheit 6 für mögliche Segmente
ausgegeben. Wenn dagegen die mögliche Trennstelle x(k+1),
ik+1) das mögliche Endrandsegment erreicht hat, gibt die
Steuereinheit 10 die oben erwähnte Anweisung an die
Extraktionseinheit 6 für mögliche Segmente und stellt sicher, daß jede
mögliche Trennstelle x(k+2, ik+2) (ik+2=1, . . .. hk+2) des
nächsten möglichen Segments k+2 durch die Schätzstandard-
Arithmetikeinheit 8 geschätzt wird.
-
Als nächstes ermittelt die Steuereinheit 10 die
möglichen Trennstellen x(e, ie) im möglichen Endrandsegment E. Dann
berechnet die Steuereinheit 10 eine Anzahl von Schätzstandards
U(0, n) für he Stücken von möglichen Trennstellen x(e, ie).
Der minimale Schätzstandard U*(0, n) wird erkannt, und die
mögliche Trennstelle x*(e, ie), die dem Schätzstandard U*(0,
n) entspricht, wird als Endrandstelle gewählt.
-
Die Steuereinheit 10 ermittelt ferner eine Sequenz von
optimalen möglichen Trennstellen, die sich bis zur möglichen
Trennstelle x*(n, in) erstrecken. Diese Ermittlung wird in
Verbindung mit dem Informationsregister 26 für optimale
Trennstellen durchgeführt. Das heißt, die Sequenz der
optimalen Trennstelle wird gewählt, indem der optimale Weg in
umgekehrter Richtung von der Endrandstelle x*(n, in) bis zu den
möglichen Trennstellen x*(n-1, in-1), . . .. x*(0, i&sub0;)
schrittweise durchlaufen wird. Die dabei ermittelten Trennstellen
werden in einem Zeichentrennstellenregister 27 gespeichert.
-
Als nächstes ermittelt die Steuereinheit 10 einen
konstanten Bereich, der entsprechend dem Zeichenabstand P
innerhalb des Leerraums von der Endrandstelle x*(n, in) bis zu
eineu Anfangsrand des nächsten Zeichenkörpers festgelegt wird.
Dieser konstante Bereich wird als ein Anfangsrand des
fragmentarischen Zeichenfolgebildes, bei dem als nächstes die Teilung
in Segmente durchzuführen ist, festgelegt. Die Stelle des
Endrandes wird im Informationsregister 26 für optimale
Trennstellen gespeichert.
-
Die Zeichentrennstellen des Zeichenfolgebildes (Fig.
1(a)) werden also im Zeichentrennstellenregister 27
gespeichert. Das Zeichenfolgebild wird anhand der Höhe der einzelnen
im Zeichenkörperinformationsregister 21 gespeicherten
Zeichenkörper und der im Zeichentrennstellenregister 27 gespeicherten
Zeichentrennstellen nach Zeichen getrennt. Die getrennten
Zeichen werden von bekannten Zeichenerkennungssystemen gelesen.
-
Die Schätzstandard-Arithmetikeinheit 8 wird nachstehend
anhand von Fig. 5 näher beschrieben. Wenn die möglichen
Trennstellen x(k+1, ik+1) des möglichen Segments k+1 im
Informationsregister 25 für mögliche Trennstellen gespeichert
sind, werden die möglichen Trennstellen x(k+1, ik+1) an eine
Abstandsberechnungseinheit 81 und ein Gruppenregister 261 für
mögliche Trennstellen zu den betreffenden Trennstellen
übertragen. Die mögliche Trennstelle (k+1) wird in einem
Stufenregister 80 und dem Gruppenregister 261 für mögliche
Trennstellen zu den vorher bestimmten Stellen gespeichert. Wenn die
möglichen Trennstellen x(k+1, ik+1) in der
Abstandsberechnungseinheit 81 gespeichert sind, werden die im
Gruppenregister 261 für mögliche Trennstellen gespeicherten möglichen
Trennstellen x(k, ik) von der Steuereinheit 10 nacheinander an
die Abstandsberechnungseinheit 81 übergeben. Das
Informationsregister 26 für optimale Trennstellen weist folgendes auf: ein
Gruppenregister 261 für mögliche Trennstellen, ein
Verkettungsinformationsgruppenregister 262, ein Gruppenregister 263
für optimale statistische Gruppen und ein Gruppenregister 264
für optimale Schätzwerte. Die Abstandsberechnungseinheit 8
berechnet einen Abstand d(k, k+1; ik, ik+1) nach dem anderen.
-
Eine statistische Berechnungseinheit 82 berechnet einen
Mittelwert ud(0, k+1; i&sub0;, ik+1) und eine kumulative
Quadratsumme D(k) des Abstands anhand der Rekursionsformeln (3-1)
und (3-2). Das heißt, der Mittelwert ud(0, k+1; i&sub0;, ik+1) wird
anhand des Ausdrucks (3-1) mit Hilfe des Mittelwerts ud*(0, k;
i&sub0;, ik) an der im Gruppenregister 263 für optimale
statistische Gruppen gespeicherten möglichen Trennstelle x(k, ik), des
in der Abstandsberechnungseinheit 81 berechneten Abstands d(k,
k+1; ik, ik+1) und der im Stufenregister 80 gespeicherten
Segmente (k+1) und k berechnet. Dagegen wird die kumulative
Quadratsumme D(k+1) des Abstands nach der Formel (3-2) mit
Hilfe der kumulativen Quadratsumme D*(k) des Abstands an der
im Gruppenregister 263 für optimale statistische Gruppen
gespeicherten möglichen Trennstelle x(k, ik) und des von der
Abstandsberechnungseinheit 81 ausgegebenen Abstands d(k, k+1;
ik, ik+1) berechnet. Der Mittelwert ud(0, k+1; i&sub0;, ik+1) und
die kumulative Quadratsumme D(k+1) des Abstands werden in der
statistischen Berechnungseinheit 82 berechnet. Diese Daten
werden in einem statistischen Laderegister 83 gespeichert.
Eine Schätzwertberechnungseinheit 84 berechnet einen Wert des
Schätzstandards U(0, k+1) nach der Formel (3-2). Das heißt,
der Schätzwert U(0, k+1) wird anhand der Formel (3-3) mit
Hilfe des Zeichenabstands P, des Parameters ß, eines Inhalts
des statistischen Laderegisters 83 und eines Inhalts des
Stufenregister 80 berechnet.
-
Als nächstes vergleicht ein Komparator 85 einen von der
Schätzwertberechnungseinheit 84 ausgegebenen Schätzwert mit
einem Inhalt eines Mindestschätzwertregisters 86. Wenn der
ausgegebene Wert der Schätzwertberechnungseinheit 84 kleiner
ist als der Inhalt des Mindestschätzwertregisters 86, schaltet
ein Ausgangssignal 851 auf "EIN". Zu Beginn wird ein
ausreichend großer Wert im Mindestschätzwertregister 86 festgelegt.
-
Wenn das Ausgangssignal 851 auf "EIN" schaltet, öffnet
ein Schaltglied 53, und ein Ausgangssignal der
Schätzwertberechnungseinheit 84 wird an das Mindestschätzwertregister 86
übergeben. Wenn das Ausgangssignal 851 auf "EIN" schaltet,
öffnet ferner ein Schaltglied 52, und der Mittelwert ud(0,
k+1, i&sub0;, ik+1) und die kumulative Quadratsumme D(k+1) des
Abstands, die im statistischen Laderegister 83 gespeichert sind,
werden an das statistische Register 88 für Mindestwerte
übergeben. Wenn das Ausgangssignal 851 auf "EIN" schaltet, öffnet
außerdem ein Schaltglied 51, und Trennstelleninformationen k
und ik zu den möglichen Trennstellen x(k, ik), die in der
Abstandsberechnungseinheit 81 gespeichert sind, werden an das
Verkettungsinformationsregister 87 übergeben.
-
Der oben beschriebene Vorgang wird mit allen möglichen
Trennstellen x(k, ik) (ik = 1, . . .. hk) der im
Informationsregister 261 für optimale Trennstellen gespeicherten möglichen
Segmente durchgeführt.
-
Das heißt, zu diesem Zeitpunkt wird der optimale
Mittelwert ud*(0, k+1, i&sub0;, ik+1) und die kumulative
Quadratsumme D*(k+1) an den Trennstellen x(k+1, ik+1) im
statistischen Register 88 für Mindestwerte gespeichert. Ein optimaler
Schätzwert der möglichen Trennstelle x(k+1, ik+1) wird im
Mindestschätzwertregister 86 gespeichert. Ferner wird eine
optimale Trennweginformation zur möglichen Trennstelle x(k+1,
ik) vom möglichen Segment x(k, i&sub1;) im
Verkettungsinformationsregister 87 gespeichert. Der Inhalt des statistischen
Registers 88 für Mindestwerte, des Mindestschätzwertregisters 86
und des Verkettungsinformationsregisters 87 werden von der
Steuereinheit 10 an das statistische Gruppenregister 263 für
Mindestwerte, das Mindestschätzwertgruppenregister 264 bzw. an
das Verkettungsinformationsgruppenregister 262 übergeben. Als
nächstes wird das Mindestschätzwertregister 86 auf einen
ausreichend großen Anfangswert gesetzt.
-
Der optimale Schätzwert und der optimale Trennweg für
alle möglichen Trennstellen x(k+1, ik+1) (ik+1 = 1, 2, . . ..
hh+1) der möglichen Segmente (k+1) werden durch Wiederholung
des oben beschriebenen Arbeitsvorgangs ermittelt. Es versteht
sich von selbst, daß diese Arbeitsvorgänge von einem normalen
Mikrocomputer durchgeführt werden können.
-
Die Zeichentrenneinrichtung, wie oben beschrieben, kann
eine Zeichenfolge selbst dann auf einfache Weise und stabil in
einzelne Zeichen trennen, wenn die Zeichenfolge Verbundzeichen
aufweist und ein Zeichen in zwei oder mehr Bilder geteilt ist.
-
Als nächstes wird der Zeichenabstandsdetektor 4 genauer
beschrieben.
-
Fig. 6 zeigt ein Zeichenfolgebild zur Beschreibung
eines Abstands zwischen Zeichenkörpern. Der Zeichenkörper ist
schraffiert dargestellt und in Rechteckform (gestrichelte
Linien) untergebracht. Ein Referenzsymbol Fi, i+1 (i = 1, 2,
.... 6) stellt einen Abstand von einem Anfangsrand des i-ten
Zeichenkörpers bis zu einem Anfangsrand des i+1-ten
Zeichenkörpers dar. Ein Referenzsymbol F'i, i+1 (i = 1, 2, . . .. 6)
stellt einen Abstand von einem Endrand des i-ten
Zeichenkörpers bis zu einem Endrand des i+1-ten Zeichenkörpers dar. Die
Symbole für einen Abstand zwischen den Zeichenkörpern können
als empirische Werte, die eine Häufigkeitsverteilung eines
Abstands zwischen Zeichenstücken darstellen, verwendet werden.
Entsprechend stellt ein Referenzsymbol Fi,j (i = 1, 2, . . .. 6;
i< j)) einen Abstand von einem Anfangsrand des i-ten
Zeichenkörpers bis zu einem Anfangsrand des j-ten Zeichenkörpers und
ein Referenzsymbol F'i,j einen Abstand von einem Endrand des
i-ten Zeichenkörpers bis zu einem Endrand des j-ten
Zeichenkörpers dar. Je mehr Beobachtungen gemacht werden, um so
stabiler wird die gewonnene Statistik, und somit kann diese
Statistik als Statistik empirischer Werte für eine
Häufigkeitsverteilung des Abstands zwischen Zeichenkörpern verwendet
werden, wie nachstehend beschrieben.
-
Außerdem kann der Abstand zwischen Zeichenkörpern zur
Gewinnung empirischer Werte für die Häufigkeitsverteilung auf
den Abstand Fi, j (j = i+1, i+2, i+3) oder den Abstand F'i, j
(j = i+1, i+2, i+3) beschränkt werden. Ferner können
Zeichenbilder wie Punkt (.), Komma (,) usw. aus der Beobachtung des
Abstands zwischen Zeichenkörpern ausgeschlossen werden, indem
die Zeichenkörperbreite und -höhe anhand einer mittleren Höhe
Hm einer Anzahl von Zeichenkörpern überprüft wird. Wenn ein
Leerraum, der im Vergleich zur mittleren Höhe Hm groß ist,
erkannt wird, kann der Abstand zwischen Zeichenkörpern mit
Leerraum aus der Beobachtung ausgeschlossen werden.
-
Fig. 7 zeigt ein Beispiel einer Häufigkeitsverteilung
des Abstands zwischen einer Reihe von Zeichenkörpern mit einem
Konstantabstandszeichen gemäß Fig. 6. Eine Abszisse F zeigt
einen Wert des Abstands Fi, j und eine Ordinate NUM eine
Häufigkeit des Abstands zwischen Zeichenkörpern an.
-
Fig. 8(a) und (b) zeigen ein Beispiel einer
Häufigkeitsverteilung des Abstands zwischen einer Reihe von
Zeichenkörpern mit konstanten Abstandsdaten bzw. mit
alphabetisch variablen Abstandsdaten.
-
Ein Prinzip der Zeichenabstandserkennung wird später
beschrieben. Gemäß Fig. 7 und Fig. 8(a) und (b) wird die
mittlere Zeichenhöhe Hm anhand der Höhe einer Anzahl von
Zeichenkörpern berechnet. Als nächstes wird mit Hilfe von
Koeffizienten α&sub1;, α&sub2;,2 (α&sub1;< α&sub2;) ein mögliches Präsenzsegment (α&sub1;·Hm,
α&sub2;·Hm) des Zeichenabstands festgelegt. Alle Abstände zwischen
den Zeichenkörpern, die bei dem möglichen Präsenzsegment
(α&sub1;·Hm, α&sub2;·Hm) vorkommen, können als mögliche Zeichenabstände
Pi angesehen werden, die Anzahl der möglichen Zeichenabstände
Pi kann jedoch bei der folgenden Verarbeitung reduziert
werden, um Verarbeitungszeit zu sparen. Das heißt, ein Abstand
F(1) zwischen Zeichenkörpern, der den häufigsten Abstand
innerhalb einer konstanten zulässigen Breite Δτ einnimmt,
wird anhand der Häufigkeitsverteilung innerhalb des zulässigen
Präsenzsegments (α&sub1;·Hm, α&sub2;·Hm) berechnet. Ein unterer
Grenzwert eines möglichen Segments beschränkter Präsenz mit dem
Zeichenabstand Pi wird mit Hilfe eines Koeffizienten α&sub3;
(0≤α&sub3;≤1) als MAX(α&sub1;·Hm, (1-α&sub3;)·F(1)) festgelegt. Ein oberer
Grenzwert eines möglichen Segments beschränkter Präsenz mit
dem Zeichenabstand wird als MIN(α&sub1;·Hm, (1+α&sub3;).U(1))
festgelegt. In Fig. 7 ist ein Segment C&sub1; das mögliche Segment
beschränkter Präsenz mit dem Zeichenabstand, und eine Anzahl von
Abständen zwischen Zeichenkörpern im Segment C&sub1; sind die
möglichen Zeichenabstände Pi.
-
Als nächstes wird die Häufigkeitsverteilung in durch
gestrichelte Linien abgegrenzte Bereiche aufgeteilt. Dabei
liegt ein Grenzpunkt S (f'k-1, j'k) jedes Bereichs f'k (k =
2, . . .. n) genau in einem Mittelpunkt (k-1)·Pi des Bereiches
und genau in einem Mittelpunkt k·Pi des Bereiches f'k.
Entsprechend liegt ein Grenzpunkt S(f'k, f'k+1) jedes Bereichs
f'k genau in einem Mittelpunkt k·Pi des Bereiches f'k und
genau in einem Mittelpunkt (k+1)·Pi des Bereiches f'k+1.
Dementsprechend wird der Grenzpunkt S(f'k-1, f'k) mit (kPi-½Pi)
und der Grenzpunkt S(f'k, f'k+1) mit (kPi + ½Pi) beschrieben.
Als nächstes wird der Mittelwert (k, nk) von nk Stücken
(nk≥0) von Abständen zwischen Zeichenkörpern im Bereich f'k
(k = 1, 2, . . .. n) berechnet. Eine dem Zeichenabstand
entsprechende und aus dem Bereich f'k auf der Grundlage des möglichen
Zeichenabstands Pi empirisch ermittelte Größe wird durch
Division des Mittelwerts (k, nk) durch die ganze Zahl k
errechnet.
-
Ein geschätzter Zeichenabstand kann mit Hilfe eines
optimalen linearen Schätzverfahrens ermittelt werden. Bei
diesem Verfahren wird eine Anzahl von Differenzwerten zwischen
einem Wert 1/k · P(k·nk), durch Beobachtung entnommen aus dem
Bereich f'k, und dem möglichen Zeichenabstand Pi, mit denen
die gesamte Fläche f'k umgerechnet wird, berechnet. Dann wird
der mögliche Zeichenabstand Pi, der die Differenz minimiert,
als geschätzter Zeichenabstand gewählt.
-
Dementsprechend wird der folgende Abstandsschätzfehler-
Schätzstandard (Varianzkriterium) T, der als Schätzstandard
für optimales Schätzen fungiert, dafür verwendet.
-
wobei der Koeffizient C(k, nk) eine Funktion einer
Beispielanzahl nk und eine ganze Zahl k (k = 1, 2, . . . n) ist und die
Gleichung
-
erfüllt. Ein Anwendungsbeispiel für diesen Koeffizienten ist
-
Ferner ist der Schätzfehler-Schätzstandard T der Formel (4)
eine Varianz des Schatzfehlers. Es kann jedoch ein
Schätzstandard verwendet werden, der auf dem absoluten Wert 1/k· (k,
nk)-Pi) der Differenz beruht. Der optimale geschätzte
Zeichenabstand kann mit der Formel (4) ermittelt werden. Ferner
wird die Häufigkeitsverteilung des Abstands zwischen
Zeichenkörpern gleichzeitig zu einem Cluster zusammengefaßt.
-
Als nächstes wird anhand von Fig. 7, 8(a) und 8(b) ein
Zeichenabstandserkennungsverfahren beschrieben. Die
Häufigkeitsverteilung des Abstands zwischen Zeichenkörpern, die mit
konstantem Abstand gedruckt sind (Fig. 8(a)), ist anders als
die von Zeichen, die mit variablem Abstand gedruckt sind (Fig.
8(b)). Der Unterschied kann ermittelt werden durch Abschätzen
einer Anzahl von Varianzen σ²(fk) des Abstands zwischen
Zeichenkörpern bei k Fällen ( , 2 , 3 , . . .) des geschätzten
Zeichenabstands für den Gesamtbereich fk (k = 1, 2, . . . n).
Es wird der folgende geschätzte Varianzwert ε², der aus der
linearen Summe einer Varianz σ²(fk) für den Gesamtbereich fk
(k = 1, 2, . . . n) besteht, verwendet:
-
wobei der Koeffizient C'(k, nk) beim geschätzen
Varianzwert ε² eine Funktion der Beispielanzahl nk des
Abstands zwischen Zeichenkörpern und der ganzen Zahl k ist, der
die Formel
-
erfüllt. Ein Anwendungsbeispiel für diesen Koeffizienten ist
-
Dabei kann ein geschätzter Fehlerwert ε anstelle des oben
beschriebenen geschätzten Varianzwertes ε² verwendet werden.
Wenn der geschätzte Varianzwert ε² oder der geschätzte
Fehlerwert ε größer ist als ein vorher bestimmter Schwellwert
kann die Zeichenfolge mit Hilfe des geschätzten
Zeichenabstands als Hauptkomponente geteilt werden. Die Zeichenfolge
hat dann nämlich einen konstanten Zeichenabstand. Wenn der
geschätzte Varianzwert ε² oder der geschätzte Fehlerwert
ε kleiner ist als der Schwellwert α&sub4;, kann die Zeichenfolge
nicht mit Hilfe des geschätzten Zeichenabstands als
Hauptkomponente geteilt werden. Die Zeichenfolge hat dann
nämlich einen variablen Zeichenabstand.
-
Es kann also eine Eigenschaft des Zeichenabstands
ermittelt werden. Eine stabile Zeichentrennung wird durch die
Zeichentrenneinrichtung gemäß Fig. 4 sichergestellt, wenn die
Zeichenfolge einen konstanten Zeichenabstand hat. Wenn die
Zeichenfolge dagegen einen variablen Zeichenabstand hat,
können die Zeichen nach den anderen Zeichentrennverfahren, die
beispielsweise auf dem Leerraum des Zeichenzeilenbildes
beruhen, getrennt werden.
-
Fig. 9 ist ein Blockschaltbild eines
Zeichenabstandsdetektors. Ein Anfangsrandpunkt und die Größe jedes
Zeichenkörpers werden mit Hilfe des Scanners 1, des
Zeichenfolgebildspeichers 2 und der Zeichenkörperextraktionseinheit 2
im Zeichenkörperregister 21 gespeichert. Größe des
Zeichenkörpers bedeutet Breite und Höhe des Zeichenkörpers. Eine weitere
Steuereinheit 41 berechnet mit Hilfe eines Anfangsrandpunktes
und eines Endrandpunktes einen Abstand zwischen
Zeichenkörpern. Die Anfangs- und Endrandpunkte werden nacheinander aus
dem Zeichenkörperregister 21 geholt. Dann erhöht die
Steuereinheit 41 die Häufigkeit, die dem Abstand zwischen den
Zeichenkörpern entspricht. Die Häufigkeit wird in einer
Häufigkeitsverteilungstabelle 42 unter einer Adresse, die den
Abstand zwischen Zeichenkörpern angibt, gespeichert. Die
Häufigkeitsverteilungen des Abstands zwischen Zeichenkörpern
gemäß Fig. 7, 8(a) und 8(b) werden somit in der
Häufigkeitsverteilungstabelle 42 erzeugt. Zu Beginn wird die
Häufigkeitsverteilungstabelle 42 auf den Anfangswert 0 gestellt.
-
Als nächstes berechnet die Steuereinheit 41 die
mittlere Höhe Hm anhand einer Anzahl von Höhen einer Anzahl von
Zeichenkörpern, die im Zeichenkörperregister 21 gespeichert
sind. Die mittlere Höhe Hm wird an einen
Präsenzsegmentdetektor 43 übergeben. Ein Konstantenregister 44 speichert die
Koeffizienten α&sub1;, α&sub2;, (α&sub1;< α&sub2;) und α&sub3; und die zulässige konstante
Breite Δτ. Der Präsenzsegmentdetektor 43 nimmt zunächst die
Koeffizienten α&sub1; und α&sub2; aus dem Konstantenregister 44 auf und
legt dann den unteren Grenzwert α&sub1;·Hm und den oberen
Grenzwert α&sub2;·Hm eines möglichen Präsenzsegments mit dem
Zeichenabstand fest. Als nächstes liest der
Präsenzsegmentdetektor 43 einen Häufigkeitswert des Abstands zwischen
Zeichenkörpern, die zu dem möglichen Präsenzsegment gehören,
nacheinander über die Steuereinheit 41 aus der
Häufigkeitsverteilungstabelle 42. Mit dem gelesenen Häufigkeitswert wird der Abstand
F(1) zwischen Zeichenkörpern, die den häufigsten Abstand
innerhalb der zulässigen konstanten Breite Δτ haben, berechnet.
-
Eine Präsenzsegment-Arithmetikeinheit 45 berechnet
anhand des Abstands F(1) mit Hilfe des Präsenzsegmentdetektors
43 und des Koeffizienten α&sub3; aus dem Konstantenregister 44 die
Werte (1-α&sub3;) F(1) und (1+α&sub3;)·F(1). Dann legt die
Arithmetikeinheit MAX{α&sub1;·Hm, (1-α&sub3;) F(1)} und MIN{(α&sub2;·Hm,
(1+α&sub3;)·F(1)} als einen oberen Grenzwert PL für das
zeichenabstandsbegrenzte, mögliche Präsenzsegment C&sub1; bzw. als einen
unteren Grenzwert PU für das mögliche Segment C&sub1; begrenzter
Präsenz fest. Der obere und untere Grenzwert L und PU werden
im Präsenzsegmentregister 46 gespeichert. Wenn kein Abstand
F(1) im Präsenzsegmentdetektor 45 gefunden wird, wird die
mittlere Höhe Hm anstelle des Abstands F(1) festgelegt.
-
Dann wird der untere Grenzwert PL für den
Zeichenabstand aus dem Präsenzsegmentregister 46 an einen Zähler 47
übergeben. Der Zähler 47 zählt schrittweise vom unteren
Grenzwert PL bis zum oberen Grenzwert PU, nachdem der unten
beschriebene Rechenvorgang beendet ist, und übergibt den
Zählwert Pi (PL≤Pi≤PU) an eine Mittelwertberechnungseinheit 48.
Die Mittelwertberechnungseinheit 48 berechnet n Stücke der
Häufigkeitsverteilungsbereiche, und zwar einen unteren
Grenzwert (k · Pi-½Pi) und einen oberen Grenzwert (k · Pi+½Pi) für
alle Bereiche fk (k = 1, 2, . . . n) entsprechend dem Zählwert
(dem möglichen Zeichenabstand Pi) des Zählers 47. Ferner
berechnet die Mittelwertberechnungseinheit 48 anhand der
Häufigkeitsverteilungstabelle 42 eine Anzahl nk und einen
Mittelwert (k, n) des Abstands zwischen zum Bereich fk
gehörenden Zeichenkörpern. Der oben beschriebene Vorgang wird mit n
Stücken von Bereichen durchgeführt. Der mögliche
Zeichenabstand Pi, die Anzahl nk (k = 1, 2, . . . n) der Abstände zwischen
Zeichenkörpern jedes Bereichs fk (k = 1, 2, . . . n) und der
Mittelwert (k, nk) (k = 1, 2 . . .. n) werden an die
Schätzfehler-Schätzwert-Arithmetikeinheit 49 übergeben. Die
Schätzfehler-Schätzwert-Arithmetikeinheit 49 berechnet den
Schätzfehler-Schätzwert T (Formel (4)) anhand der Informationen von
der Mittelwertberechnungseinheit 48.
-
Ein minimierter Schätzfehler-Schätzwert T wird in einem
Schätzwertregister 50 gespeichert. Zu Beginn wird in einem
Register 54 für optimale Zeichenabstände ein genügend großer
Wert als Schätzfehler-Schätzwert festgelegt. Eine
Vergleichseinheit 55 vergleicht den Schätzfehler-Schätzwert, der von der
Schätzfehler-Schätzwert-Arithmetikeinheit 49 kommt, mit einem
Inhalt des Registers 50. Wenn ein Ausgabewert der
Schätzfehler-Schätzwert-Arithmetikeinheit 49 kleiner ist als der Inhalt
des Schätzwertregisters 50, schreibt die Vergleichseinheit 55
den Ausgabewert der schätzfehler-Schätzwert-Arithmetikeinheit
49 in das Schätzwertregister 50 und schreibt einen Wert für
den möglichen Zeichenabstand Pi in das Register 54 für
optimale Zeichenabstände. Dann erhöht die Vergleichseinheit 49 den
Zähler 47 über die Steuereinheit 41 um 1. Wenn dagegen der
Ausgabewert der Arithmetikeinheit 49 größer ist als der Inhalt
des Schätzwertregisters 50, erhöht die Vergleichseinheit 55
den Zähler 47 nur um 1. Der optimale Zeichenabstand wird im
Register 54 für optimale Zeichenabstände ermittelt, indem der
oben beschriebene Vorgang so lange durchgeführt wird, bis ein
Wert des Zählers 47 den oberen Grenzwert PU des
Zeichenabstands erreicht.
-
Wenn der geschätzte optimale Zeichenabstand im
Register 54 für optimale Zeichenabstände festgelegt ist, berechnet
eine Varianzschätzwertberechnungseinheit 56 einen Bereich von
n Stücken von Bereichen der Häufigkeitsverteilung, nämlich
einen unteren Grenzwert (k· -½ ) und einen oberen Grenzwert
(k·P-½ ) für den Bereich fk (k = 1, 2, . . . n) entsprechend
dem geschätzten Zeichenabstand . Als nächstes berechnet die
Varianzschätzwertberechnungseinheit 56 eine Beispielanzahl nk
und eine Varianz σ²(fk) bei einem Wert k· für den Abstand
zwischen zu dem Bereich fk gehörenden Zeichenkörpern anhand
der Häufigkeitsverteilungstabelle 42. Ferner berechnet die
Arithmetikeinheit 56 den geschätzten Varianzwert ε² der
Formel (5). Bei diesem Ausführungsbeispiel wird die Varianz
σ²(fk) durch die Varianzschätzwertberechnungseinheit 56
ermittelt, sie kann jedoch auch in der Mittelwertberechnungseinheit
48 berechnet werden. Der geschätzte Varianzwert ε² wird in
einem Register 57 für geschätzte Varianzwerte gespeichert.
-
Ein Schwellwertregister 58 speichert einen Schwellwert
um den Zeichenabstand zu ermitteln. Ein Komparator 59
ermittelt eine Eigenschaft des Zeichenabstands, indem er den
geschätzten Varianzwert ε², der in einem Register 57 für
geschätzte Varianzwerte gespeichert ist, mit dem Schwellwert α&sub4;,
der im Schwellwertregister 58 gespeichert ist, vergleicht. Das
heißt, wenn der geschätzte Varianzwert ε² größer ist als der
Schwellwert α&sub4;, entscheidet der Komparator 59, daß ein
Verfahren zur Bestimmung der Zeichentrennstelle mit dem geschätzten
Zeichenabstand als Hauptkomponente nicht angewendet werden
kann; wenn der geschätzte Varianzwert ε² kleiner ist als der
Schwellwert α&sub4;, entscheidet der Komparator 59, daß das
Verfahren zur Bestimmung der Zeichentrennstelle mit dem geschätzten
Zeichenabstand als Hauptkomponente angewendet werden kann.
Im letzteren Falle werden der geschätzte Zeichenabstand , der
im Register 54 für optimale Zeichenabstände gespeichert ist,
und der geschätzte Varianzwert ε², der im Register 57 für
geschätzte Varianzwerte gespeichert ist, an das
Zeichenabstandsinformationsregister 22 übergeben. Im ersteren Falle werden
ein Anzahl von Zeichenkörperbildern, die im
Zeichenkörperinformationsregister 21 gespeichert sind, nach einem weiteren
Trennverfahren getrennt.
-
Im Zeichenabstandsdetektor kann ein Zeichenabstand auch
dann genau gemessen werden, wenn die Zeichenfolge
Verbundzeichen oder geteilte Zeichen aufweist. Ferner kann eine
Eigenschaft des Zeichenabstands sicher erkannt werden, wodurch ein
Zeichentrennverfahren mit hoher Anpassungsfähigkeit gewählt
werden kann.