-
Technisches
Gebiet
-
Die
vorliegende Erfindung betrifft die Erkennung von handschriftlichen
Textbildern in einem Rechensystem zur Bildung von Texteingabeinformation in
das Rechensystem. Speziell betrifft die Erfindung sowohl holistische
als auch analytische Erkennungsoperationen, die zusammenarbeiten,
um eine zuverlässigere
Erkennung der Textbilder durchzuführen.
-
Hintergrund
der Erfindung
-
Das
Gebiet der Erkennung handschriftlichen Texts ist von Interesse aufgrund
zahlreicher gewerblicher Anwendungen in Offline-Erkennungssystemen wie
dem Sortieren von Post, dem Lesen von Bankschecks und Formularen
sowie in Online-Erkennungssystemen wie der Eingabe in einen Kontaktbildschirm
mit einer Schreibnadel in alle Arten von Rechensystemen, aber speziell
in Laptop-, Tablett- oder Handrechensystemen. Siehe beispielsweise Robert
K. Powalka, "An
algorithm toolbox for on-line cursive script recognition", Doctoral Thesis,
XP- 002211843,
<http:/
/citeseer.nj.nec.com/rd/70348799%2C209471%2C1%2CO.25%2CDownload/http
:citeseer.nj.nec.com/compress/0/papers/cs/8855/http:zSzzSzwww.doc.ntu.ac.ukzSz
{ink datazSzrkpzSzthesis.main.ps.gz/an-algorithm-toolbox-for.ps>, S. 1-286 (Oktober
1995); und B. Plessis et al., "A
multi-classifier combination strategy for the recognition of handwritten
cursive words," DOCUMENT
ANALYSIS AND RECOGNITION, PROCEEDINGS OF THE SECOND INTERNATIONAL
CONFERENCE ON TSUKUBA SCIENCE CITY, JAPAN, S. 642-645 (Oktober 1993),
die beide Zeichenerkennungssysteme beschreiben.
-
Die
Hauptschwierigkeiten bei der Erkennung von handschriftlichem oder
kursivem Text sind wohlbekannt – Zeichen
in den Wörtern
sind häufig
miteinander verbunden, und die Veränderlichkeit von Zeichenformen
ist hoch. Es gibt auf dem Gebiet der Handschrifterkennung zwei Hauptstrategien.
Diese sind die holistische Erkennung und die analytische Erkennung.
Bei der holistischen Erkennung wird eine Kette von Zeichen wie etwa
ein Wort oder ein Satz als ein Ganzes erkannt, ohne daß der Erkennungsvorgang
eine Einzelzeichen-Erkennungsphase hat. Bei der analytischen Erkennung
wird eine Zeichenkette zuerst in Zeichen segmentiert und dann Zeichen
für Zeichen
erkannt, um das Wort oder den Satz zu erkennen.
-
Der
wesentliche Vorteil der holistischen Erkennung liegt darin, daß dabei
die Segmentierungsphase vermieden wird und dementsprechend Segmentierungsfehler
vermieden werden. Beispielsweise beginnt die holistische Erkennung
eines Worts mit einer Darstellung des Worts, die durch Extraktion
von Merkmalen der Kursivschrift wie etwa von Strichen, die bei der
Bildung von Teilen eines Zeichens verwendet werden, kreiert wird.
Diese extrahierten Merkmale in der Wortdarstellung werden dann mit Merkmalsdarstellungen
für Wörter aus
einem Lexikon aller Wörter
in einem Referenzvokabular verglichen. Der wesentliche Nachteil
einer holistischen Vorgehensweise besteht darin, daß es unmöglich ist, eine
detaillierte Zeichengestalt zu berücksichtigen. Das führt zu einer
signifikanten Verschlechterung von Erkennungsresultaten bei sehr
großen
Lexika.
-
Der
Hauptvorteil der analytischen Erkennung ist die Verfügbarkeit
von wohlbekannten und hochentwickelten Zeichenerkennungstechniken.
Es gibt jedoch in dem Erkennungsprozeß eine Segmentierungsphase,
und das Problem liegt darin, daß fehlerhafte
Segmentierungsentscheidungen zu einer unrichtigen Erkennung von
Zeichen und damit des Worts führen.
Der Segmentierungsalgorithmus kann viele fehlerhafte Varianten für Zeichen
erzeugen, die auf dem Bereich des Zeichenbilds basieren, in dem die
Segmentierungsentscheidung getroffen wird. Daher ist der Hauptnachteil
dieser Vorgehensweise, daß die
genaue Erkennung von der richtigen Segmentierung abhängig ist,
und die richtige Segmentierung ist wegen der Vielseitigkeit von
Kursivschriftarten schwierig.
-
Die
vorliegende Erfindung wurde im Hinblick auf diese und andere Bedingungen
gemacht.
-
Zusammenfassung
der Erfindung
-
Gemäß der vorliegenden
Erfindung werden die oben angegebenen und weitere Probleme durch die
Vorrichtung nach Anspruch 1 und das entsprechende Verfahren nach
Anspruch 7 gelöst.
Eine Vorrichtung zum Erkennen einer Zeichenkette handschriftlichen
Texts in einem in ein Rechensystem geladenen Bild wird angegeben.
Die Vorrichtung weist folgendes auf:
eine holistische Erkennungseinrichtung
zum Erkennen der Zeichenkette als ein Ganzes und zum Erzeugen einer
ersten Antwortliste und einer Segmentierungsliste, wobei die erste
Antwortliste eine Vielzahl von Erkennungsantworten für die Zeichenkette
in dem Bild enthält
und jede Antwort einen Konfidenzwert dahingehend hat, daß die Antwort
richtig ist, und wobei die Segmentierungsliste Segmentierungsinformation
enthält,
welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale
trennt.
-
Weitere
analytische Erkennungseinrichtungen, die auf die Segmentierungsliste
reagieren, sind vorgesehen, um eine Vielzahl von Zeichen einzeln
zu erkennen und eine zweite Antwortliste für die Zeichenkette in dem Bild
zu erzeugen; dabei hat jede Antwort einen Konfidenzwert dahingehend,
daß die Antwort
richtig ist.
-
Eine
Einrichtung, die auf die erste Antwortliste und die zweite Antwortliste
anspricht, findet die beste Erkennungsantwort für die Zeichenkette.
-
Kurze Beschreibung
der Zeichnungen
-
1 zeigt
eine Ausführungsform
der Erfindung, wobei das holistische Erkennungsmodul Segmentierungsinformation
zu dem analytischen Erkennungsmodul leitet;
-
2 zeigt
eine Rechenumgebung, in der die verschiedenen Ausführungsformen
der Erfindung wirksam sein können;
-
3 zeigt
eine andere Ausführungsform der
Erfindung mit dem Operationsfluß für eine holistische
Erkennungsphase, eine hypothetische Segmentierungsphase, eine analytische
Erkennungsphase und die Kombinationsphase, um die beste Antwort
zu finden;
-
4 zeigt
den Operationsfluß für die Übersetzungsoperation 306 in 3;
-
5 zeigt
den Operationsfluß für die Kombinations-
oder Beste-Antwort-Phase in den 1 und 3;
-
6 zeigt
den Operationsfluß für eine andere
Ausführungsform
der Beste-Antwort-Phase
in den 1 und 3;
-
7 zeigt
den Operationsfluß für die analytische
Erkennungsoperation 320 in 3; und
-
8 zeigt
den Operationsfluß für eine andere
Ausführungsform
der analytischen Erkennungsoperation 320 in 3.
-
Genaue Beschreibung
bevorzugter Ausführungsformen
-
Die
logischen Operationen der verschiedenen Ausführungsformen der vorliegenden
Erfindung sind realisiert (1) als eine Folge von computer-implementierten
Schritten, die auf einem Rechensystem ablaufen, und/oder (2) als
miteinander verbundene logische Maschinenmodule innerhalb des Rechensystems.
Die Realisierung ist eine Frage der Wahl in Abhängigkeit von den Leistungsanforderungen
des die Erfindung implementierenden Rechensystems. Daher werden
die logischen Operationen, welche die hier beschriebenen Ausführungsformen
der vorliegenden Erfindung bilden, unterschiedlich als Operationen,
Schritte oder Module bezeichnet.
-
Bei
einer Ausführungsform
der Erfindung, die in 1 gezeigt ist, liefert ein Bildlademodul 100 eine
digitalisierte Darstellung einer eingegebenen Zeichenkette, die
zu erkennen ist. Die Zeichenkette ist im typischsten Fall ein Wort,
kann aber eine Vielzahl von Wörtern
sein, die einen Satz bilden. Die Zeichenkette besteht aus alphanumerischen
Zeichen und kann daher in einem Satz als Zahlen und Wörter gemischt
sein. "Wort" wird zwar durchweg
verwendet, um eine zu erkennende Zeichenkette zu bezeichnen, es
versteht sich jedoch, daß die
Zeichenkette eine Mischung aus alphanumerischen Zeichen, eine Vielzahl
von Wörtern
oder ein Satz sein kann.
-
Das
digitalisierte Bild des Worts wird einem holistischen Erkennungsmodul
102 und
einem analytischen Erkennungsmodul
104 zugeführt. Das
holistische Erkennungsmodul
102 ist an dem gesamten Wort
wirksam, um das Wort als ein Ganzes zu erkennen. Dies erfolgt durch
Aufteilen des Worts in Zeichenmerkmale und Treffen einer Entscheidung
bei Erkennen des gesamten Worts auf der Basis der Zeichenkettenmerkmale.
Ein Zeichenmerkmal kann in Abhängigkeit
von der angewandten holistischen Erkennungstechnik aus verschiedenen
Informationselementen eines Zeichens bestehen. Ein Beispiel einer
holistischen Erkennungstechnik ist beschrieben in der
US-PS 5 313 527 mit dem Titel METHOD
AND APPARATUS FOR RECOGNIZING CURSIVE WRITING FROM A SEQUENTIAL
INPUT INFORMATION, Erfinder S.A. Guberman, Ilia Lossev und Alexander
V. Pashintsev. In dieser speziellen Patentschrift werden die Zeichenmerkmale
als Metastriche bezeichnet, d. h. als ein Strich, der einen Teil
eines Zeichens bildet.
-
Das
holistische Erkennungsmodul 102 bildet ferner eine Segmentierungsliste 103,
welche den Segmentierungspunkt zwischen dem Ende eines Zeichens
oder Buchstabens und dem Beginn des nächsten Zeichens oder Buchstabens
bezeichnet. Die Segmentierung ist zwar nicht Teil des holistischen
Erkennungsvorgangs, aber eine durch die holistische Erkennungsoperation
erzeugte Antwort kann verwendet werden, um Segmentierungspunkte zwischen
Zeichen zu definieren. Jede Antwort hat Mengen von Zeichenmerkmalen,
die jedes Zeichen in der Antwort bilden, zu der das holistische
Erkennungsmodul 102 gelangt ist. In dem Guberman-Patent
können
beispielsweise die Zeichen in einer Antwort mit einer Kette von
Metastrichen assoziiert werden. Daher enthält die von dem holistischen
Erkennungsmodul 102 erzeugte Antwort auch eine Menge an
Metastrichen für
jedes Zeichen in der holistischen Antwort. Somit erzeugt das holistische
Erkennungsmodul 102 als Nebenprodukt eine Segmentierungsliste 103,
die von dem analytischen Erkennungsmodul 104 zur Segmentierung
des digitalen Bilds genutzt werden kann.
-
Das
analytische Erkennungsmodul 104 verwendet die Segmentierungsliste
für die
Antworten in der holistischen Antwortliste 106, um das
digitale Bild in Zeichenbilder aufzuteilen. Diese Zeichenbilder können dann
durch eine Zeichenbilderkennungsoperation erkannt werden, die auch
als Zeichenklassifizierer bezeichnet wird. Während jedes Zeichen in einem
Wort von dem analytischen Erkennungsmodul 104 erkannt wird,
wird eine analytische Antwort für das
Wort aufgebaut, und ein Konfidenzwert in der Antwort wird dem Antwort-Wort
zugewiesen. Diese analytischen Antwort-Wörter für verschiedene Segmentierungen
des digitalen Bilds des Worts werden in der analytischen Antwortliste 108 gesammelt.
Ein Beste-Antwort-Modul 110 übernimmt dann die analytische
Wort-Antwortliste 108 und
die holistische Wort-Antwortliste 106 und findet die beste
Antwort bzw. die Antwort mit dem höchsten Konfidenzwert in der
Liste. Es gibt eine Vielzahl von Techniken zum Finden der besten
Antwort, und zwei derartige Techniken werden nachstehend unter Bezugnahme
auf die 5 und 6 beschrieben.
-
2 zeigt
ein Beispiel einer geeigneten Rechensystemumgebung 200,
in der die Erfindung implementiert werden kann. Die Rechensystemumgebung 200 ist
nur ein Beispiel einer geeigneten Rechensystemumgebung und soll
keine Einschränkung des
Umfangs der Verwendung oder Funktionalität der Erfindung bedeuten. Ebenso
soll die Rechenumgebung 200 nicht so interpretiert werden,
als gäbe
es irgendeine Abhängigkeit
oder Anforderung in Verbindung mit irgendeiner Komponente oder Kombination von
Komponenten, die in der beispielhaften Betriebsumgebung 200 gezeigt
sind.
-
Die
Erfindung kann mit zahlreichen anderen Universal- oder Spezial-Rechensystemumgebungen oder
-konfigurationen funktionieren. Beispiele von wohlbekannten Rechensystemen,
Umgebungen und/oder Konfigurationen, die zum Gebrauch mit der Erfindung
geeignet sein können,
umfassen – ohne eine
Einschränkung
zu bedeuten – Personalcomputer,
Servercomputer, Hand- oder Slate-Vorrichtungen, Tabletteinrichtungen,
Laptopeinrichtungen, Multiprozessorsysteme, mikroprozessor-basierte
Systeme, Settopboxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs,
Minicomputer, Großrechner,
verteilte Rechenumgebungen, die jedes der obigen Systeme oder Einrichtungen
aufweisen können, und
dergleichen.
-
In
der einfachsten Konfiguration weist die Rechenvorrichtung 200 typischerweise
wenigstens eine Verarbeitungseinheit 202 und einen Speicher 204 auf.
Je nach der genauen Konfiguration und dem Typ der Rechenvorrichtung
kann der Speicher 204 ein flüchtiger (etwa ein RAM), ein
nichtflüchtiger
(etwa ein ROM, Flash-Speicher usw.) oder eine Kombination der beiden
Speicher sein. Diese Grundkonfiguration ist in 2 mittels
der Strichlinie 206 angedeutet. Zusätzlich kann die Vorrichtung 200 weitere Merkmale/Funktionen
haben. Beispielsweise kann die Vorrichtung 200 außerdem einen
zusätzlichen Speicher
(herausnehmbar und/oder fest eingebaut) aufweisen, was Magnet- oder
Bildplatten oder ein Band sein kann, ohne darauf beschränkt zu sein.
Solche zusätzlichen
Speicher sind in 2 durch den entfernbaren Speicher 208 und
den fest angeordneten Speicher 210 veranschaulicht.
-
Der
Speicher 204, der entfernbare Speicher 208 und
der fest angeordnete Speicher 210 sind sämtlich Beispiele
für Speichermedien.
Speichermedien für
Computer umfassen flüchtige
und nichtflüchtige,
entfernbare und nicht entfernbare Datenträger, die mit irgendeiner Methode
oder Technologie für
die Speicherung von Information wie etwa als computerlesbare Anweisungen,
Datenstrukturen, Programmodule oder andere Daten implementiert sind.
Speichermedien für
Rechner umfassen RAM, ROM, EPROM, Flashspeicher oder andere Speichertechnologien,
CD-ROM, DVD oder andere Bildspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher
oder andere Magnetspeichereinrichtungen oder jedes andere Medium,
das verwendbar ist, um die gewünschten
Informationen zu speichern, und auf das die Einrichtung 200 zugreifen
kann. Jeder derartige Datenträger
kann ein Teil der Vorrichtung 200 sein.
-
Die
Vorrichtung 20 kann außerdem
Kommunikationsanschlüsse 212 enthalten,
die der Vorrichtung die Kommunikation mit anderen Vorrichtungen ermöglichen.
Die Kommunikationsanschlüsse 212 sind
ein Beispiel für
Kommunikationsmittel. Kommunikationsmittel verkörpern typischerweise computerlesbare
Anweisungen, Datenstrukturen, Programmodule oder andere Daten in
einem modulierten Datensignal wie etwa einer Trägerwelle oder einem anderen
Transportmechanismus und umfassen jedes Informationstransportmedium.
Der Ausdruck "moduliertes
Datensignal" bedeutet
ein Signal, bei dem eine oder mehrere seiner Eigenschaften auf solche
Weise vorgegeben oder geändert
sind, daß in
dem Signal Information codiert ist. Beispielsweise und ohne Einschränkung umfassen Kommunikationsmittel
verdrahtete Mittel wie ein verdrahtetes Netz oder einen direktverdrahteten
Anschluß sowie
drahtlose Mittel wie akustische, HF-, Infrarot- und andere drahtlose Mittel.
Der Ausdruck computerlesbare Medien oder Computerprogrammprodukt
bedeutet im vorliegenden Zusammenhang sowohl Datenträger als
auch Kommunikationsmittel.
-
Die
Vorrichtung 200 kann auch Eingabeeinrichtungen 214 wie
eine Tastatur, eine Maus, einen Stift, eine Spracheingabeeinrichtung,
eine Berührungseingabeeinrichtung,
Dokumentenscanner usw. haben. Ausgabeeinrichtungen 216 wie
ein Display, Lautsprecher, ein Drucker, elektromechanische Einrichtungen
wie Dokumentenbearbeiter, die von der Vorrichtung 200 gesteuert
werden, können
ebenfalls vorgesehen sein. All diese Einrichtungen sind im Stand
der Technik wohlbekannt und brauchen hier nicht näher erörtert zu
werden. Die mit der Rechenvorrichtung 200 zusammenarbeitende
spezielle Eingabe-/Ausgabeeinrichtung ist abhängig von der Anwendung, in
der das Erkennungssystem arbeitet, und davon, ob das Erkennungssystem
offline oder online mit zu erkennenden kursiven Bildern arbeitet.
-
Unter
Berücksichtigung
der Rechenumgebung ist in 3 eine andere
Ausführungsform
der Erfindung gezeigt. Bei dieser Ausführungsform ist die kombinierte
holistische/analytische Erkennungstechnik in eine holistische Phase,
eine Segmentierungsphase, eine analytische Phase und eine Kombinationsphase
aufgeteilt. Auch hier wird ein Bild eines Worts in das Rechensystem
durch die Ladeoperation 302 geladen. Das Bild kann durch
Scannen eines handschriftlichen Dokuments oder durch Detektieren eines
Worts, das mit einer Schreibnadel an einem Tastbildschirm eingegeben
wird, geladen werden. Der Ladevorgang 302 digitalisiert
das kursive Wortbild und leitet es weiter zu dem Merkmalerkennungsmodul 304 und
dem Übersetzungsmodul 306.
Das Merkmalerkennungsmodul 304 zerlegt das Wortbild in
Zeichenmerkmale, d. h. Teile eines Zeichens, die zum Erkennen des
Worts genutzt werden können. Daher
ist die Ausgabe des Merkmalerkennungsmoduls 304 eine Kette
von Zeichenmerkmalen für
das Gesamtwort oder, im Fall des Patents von Guberman et al., eine
Kette von Metastrichen.
-
Bei
der Vergleichsoperation 308 wird die Kette von eingegebenen
Zeichenmerkmalen aus der Merkmalsliste 312 mit Zeichenmerkmal-Prototypen für Wörter in
einem Vokabular verglichen, das von einem Universallexikon 310 bereitgestellt
wird. Das Lexikon oder Wörterbuch 310 kann
auf ein erwartetes Vokabular für
die zu erkennenden eingegebenen Wörter zugeschnitten sein. Die
Wörter
in dem Lexikon sind in Form von ASCII-Zeichen gespeichert. Die Wörter in
ASCII-Zeichenform aus dem Lexikon 310 werden durch die
Umwandlungsoperation 309 in eine Kette von Zeichenmerkmal-Prototypen
umgewandelt. Eine Vielzahl von Mengen von Zeichenmerkmal-Prototypen
für verschiedene
Formen bzw. Gestalten jedes ASCII-Zeichens sind als Zeichenmerkmal-Prototypen 307 gespeichert.
Die Umwandlungsoperation 309 ruft für jedes Zeichen in einem Wort aus
dem Lexikon 310 ein oder mehr Mengen von Zeichenmerkmals-Prototypen
ab und führt
die Kette von Zeichenmerkmals-Prototypen für das Referenzwort der Vergleichsoperation 308 zu.
Wenn die Zeichenmerkmale Metastriche sind, wird eine Prototyp-Kette von
Metastrichen mit der eingegebenen Kette von Metastrichen für das eingegebene
Wort verglichen, die von der Erkennungsoperation 304 empfangen wurden.
-
Die
Vergleichstechnik ist im einzelnen in der Patentschrift 5 313 527
von Guberman et al. beschrieben. Das Resultat der Vergleichsoperation 308 ist
eine Liste von holistischen ASCII-Wortantworten für sämtliche
möglichen Übereinstimmungen
zwischen dem zu erkennenden eingegebenen Wort und den verschiedenen
möglichen
Wortvariationen in dem im Lexikon 310 gespeicherten Vokabular.
Jede dieser Wortantworten trägt
einen Konfidenzwert, der ein Maß für die Gleichheit
zwischen den das eingegebene Wort darstellenden Metastrichen und
den Metastrichen ist, die das Referenzwort aus dem Vokabular bilden.
-
Nach
der Vergleichsoperation für
jede Antwort ist es möglich,
eine Merkmalsliste von segmentierten Zeichen zu konstruieren. Die
Konstruktionsoperation umfaßt
eine Zurückverfolgungsoperation 313 und
eine Lokalisierungsoperation 314. Die Zurückverfolgungsoperation 313 verfolgt
die Entscheidungsoperationen zurück,
die durch die Vergleichsoperation 308 beim Vergleichen
der Metastrichketten durchgeführt
wurden. Während
des Verfolgens der Entscheidungen assoziiert die Zurückverfolgungsoperation 313 jeden
eingegebenen Metastrich mit einem entsprechenden Metastrich-Prototyp.
Die Entscheidungsoperationen können
grafisch als ein Vergleichsweg durch eine grafische Vergleichsmatrix dargestellt
werden, wogegen in dem Patent von Guberman et al. die Vergleichsgrafikoordinaten
die Metastrich-Prototypen und die eingegebenen Metastriche sind.
Diese Vergleichstechnik und die Vergleichsgrafik sind auch in einem
Artikel "Handwritten Word
Recognition – The
Approach Proved by Practice" von
G. Dzuba, A. Filatov, D. Gershuny und I. Kil beschrieben (Proceedings
IWFHR-VI, 12.-14. August 1998, Taejon, Korea, S. 99-111). Eine Vergleichsentscheidung,
die den Erkennungsprozeß in der
Vergleichsgrafik vorwärts
bewegt, ist eine Bewegung diagonal durch die Grafik. Jede dieser
Diagonalbewegungen erkennt effektiv eine Übereinstimmung zwischen einem
eingegebenen Metastrich und einem Metastrich-Prototyp.
-
Die
Lokalisierungsoperation 314 lokalisiert dann die Zeichensegmentierungspunkte
zwischen eingegebenen Metastrichen aus der Übereinstimmung der eingegebenen
Metastriche und der Metastrich-Prototypen. Da die Zeichensegmentierungsstellen
zwischen Metastrichen für
die Kette von Metastrich-Prototypen bekannt sind, wird diese Information
auf die Übereinstimmung
zwischen den eingegebenen Metastrichen und den Metastrich-Prototypen angewandt,
um die Segmentierungspunkte in der Kette von eingegebenen Metastrichen
zu detektieren. Somit gibt die Lokalisierungsoperation 314 die segmentierte
Zeichenmerkmalsliste 316 aus, die für jede Antwort in der holistischen
Antwortliste 311 eine Kette von Zeichenmerkmalen hat, und
Merkmale sind für
jedes Zeichen in der Antwort in Zeichenmengen segmentiert.
-
In
der Segmentierungsphase wird die segmentierte Zeichenmerkmalsliste 316 verwendet
zur Bildung verschiedener Segmentierungshypothesen für das zu
erkennende Wortbild. Das Übersetzungsmodul 306 empfängt die
segmentierte Zeichenmerkmalsliste 316 und das digitalisierte
Wortbild. Tatsächlich
empfängt
das Übersetzungsmodul 306 eine
Segmentierungshypothese für
das Wortbild auf der Basis der lokalisierten Segmentierungspunkte
in der segmentierten Zeichenmerkmalsliste 316. Für jede Segmentierungshypothese,
die von der segmentierten Merkmalsliste 316 empfangen wird,
trennt oder segmentiert das Übersetzungsmodul 306 das
digitalisierte Bild an diesem hypothetischen Segmentierungspunkt
zwischen Zeichen in dem digitalen Bild, um für das in Zeichen segmentierte
Wort 318 Zeichenausschnittbilder zu kreieren. Diese Zeichenausschnitt-Wortbilder
werden dann in der analytischen Phase der analytischen Erkennungseinrichtung 320 zugeführt. Eine
Ausführungsform
des Übersetzungsmoduls 306 wird
nachstehend unter Bezugnahme auf 4 beschrieben.
-
In
der analytischen Phase wird jedes Zeichenbild, das aus dem Wortbild
ausgeschnitten ist, durch die analytische Erkennungsoperation 320 erkannt.
Auf der Basis der verschiedenen Segmentierungshypothesen werden
in der Operation 320 verschiedene ASCII-Zeichen als mit den Zeichen in dem Wortbild übereinstimmend
erkannt. Die analytische Erkennungsoperation 320 erzeugt
eine analytische ASCII-Wortantwort mit einem Konfidenzwert für die Antwort.
Der Konfidenzwert repräsentiert
den kombinierten Konfidenzwert bei der Erkennung aller Zeichen in
der Antwort. Diese analytischen ASCII-Wortantworten 328 sind dann
für die
Vereinigungs- oder Beste-Antwort-Phase verfügbar. Beispielhafte Ausführungsformen
der analytischen Erkennungsoperation 320 werden nachstehend
unter Bezugnahme auf die 7 und 8 beschrieben.
-
Die
Vereinigungsphase erzeugt das finale beste Antwortresultat aus Alternativen
in der analytischen ASCII-Wortantwortliste 328 und der
holistischen ASCII-Wortantwortliste 311. Die Vereinigungsoperation 330 kombiniert
die ASCII-Antworten aus der holistischen Antwortliste 311 und
der analytischen Antwortliste 328. Aus dieser kombinierten
Information detektiert die Finden-Operation 332 die beste
Wortantwort als Treffer für
das eingegebene Wortbild. Nachdem die beste Antwort bestimmt worden
ist, erfolgt Rücksprung
des Operationsflusses zum Hauptprogramm. Die Vereinigungs- oder
Beste-Antwort-Phase
wird nachfolgend im einzelnen in zwei verschiedenen Ausführungsformen
gemäß den 5 und 6 beschrieben.
-
4 zeigt
mehr im einzelnen die Operationen des Übersetzungsmoduls 306.
Die Operationen des Übersetzungsmoduls
beginnen mit der Plazierungsoperation 402, wobei Zeichenmerkmale
an dem digitalisierten Wortbild lokalisiert werden. Die Plazierungsoperation 402 empfängt das
digitalisierte Wortbild 404 und die segmentierte Zeichenmerkmalsliste 316.
Das digitalisierte Wortbild kann als elektronisches Bild des ursprünglich eingegebenen Worts
betrachtet werden, das als Gitter aus binären Bildelementen (pels) digitalisiert
ist. Die segmentierte Zeichenmerkmalsliste 316 enthält die segmentierten Zeichenmerkmale
einer holistischen Wortantwort, wie oben in 3 beschrieben
wurde, und enthält außerdem den
Ort jedes Zeichenmerkmals in dem Wortbild. Dieser Ort wird durch
die Merkmalserkennungsoperation 304 in 3 bestimmt
und ist in der Merkmalsliste 312 ebenfalls in 3 enthalten.
Daher lokalisiert die Plazierungsoperation 402 an dem digitalisierten
Wortbild sämtliche
Zeichenmerkmale in dem Wortbild. Wenn mit an deren Worten die Zeichenmerkmale
Metastriche sind, wird der Ort jedes Metastrichs entlang dem Wortbild
durch die Plazierungsoperation 402 bestimmt. Jeder der
Metastriche in der Metastrichkette, der für das Wortbild identifiziert
wird, wird an der richtigen Stelle entlang dem digitalisierten Wortbild
plaziert.
-
Nachdem
die Metastriche an dem Wortbild richtig plaziert sind, beginnt die
Fülloperation 406 damit,
gleichzeitig sämtliche
Bildelemente entlang dem digitalisierten Wortbild zwischen sämtlichen
Zeichenmerkmalen zu füllen.
Tatsächlich
werden die Bildelemente im Inneren des Zeichenbilds zwischen den Metastrichen
ausgefüllt,
indem beginnend vom Rand jedes Metastrichmerkmals von dem Merkmal
nach außen
fortgeschritten wird. Während
das digitalisierte Wortbild aus jedem Metastrichmerkmal ausgefüllt wird,
trifft die Füllung
zwischen den zwei Merkmalen zusammen. Tatsächlich ist dies, als ob man
das digitalisierte Bild ausmalen würde, um die leeren Stellen entlang
dem digitalisierten Bild zwischen Metastrichmerkmalen auszufüllen. Wenn
dieses Ausmalen mit konstanter Geschwindigkeit von sämtlichen
Merkmalen gleichzeitig erfolgt, trifft die Füllung oder Ausmalung in der
Mitte zwischen den Metastrichmerkmalen zusammen.
-
Die
Fülldetektieroperation 408 detektiert Segmentierungspunkte
zwischen Zeichen durch Detektieren des Punkts, an dem die Füllung zwischen Metastrichmerkmalen
für die
benachbarten Merkmale von benachbarten segmentierten Merkmalsmengen
aufeinander trifft. Wenn mit anderen Worten zwei benachbarte Metastriche
in verschiedenen Metastrichzeichen-Mengen vorhanden sind, dann wird
der Treffpunkt zum Füllen
des digitalisierten Bilds zwischen diesen benachbarten Metastrichen
als ein Segmentierungspunkt zwischen den Zeichen detektiert, die
durch die Metastrich-Mengen dargestellt sind. Nachdem jeder dieser
Segmentierungspunkte zwischen den Zeichenmerkmals-Mengen bestimmt ist,
trennt die Segmentoperation 410 das Wortbild an jedem der
Segmentierungspunkte. Das Trennen des Wortbilds an den Segmentierungspunkten
liefert die ausgeschnittenen Zeichenbilder 318, die in
der analytischen Erkennungsphase für das Wort verwendet werden.
Damit sind die Operationen des Übersetzungsmoduls 306 in 3 abgeschlossen.
-
5 zeigt
eine Ausführungsform
der Finden-Operation 110 oder der Vereinigungs- oder Beste-Antwort-Phase
in 3. In 5 beginnt die Beste-Antwort-Operation
mit der Operation 502, die Antworten von der analytischen
Antwortliste und der holistischen Antwortliste vergleicht, um Übereinstimmungen
zu finden. Wenn die gleiche Antwort auf beiden Listen ist, führt die
Listenoperation 504 die passenden Antworten mit einem kombinierten
Wert für ihren
Konfidenzwert auf. Der kombinierte Wert kann einfach der Mittelwert
der zwei Konfidenzwerte sein. Alternativ kann der Konfidenzwert
in den Antworten auf jeder Liste gewichtet und kombiniert werden. Wenn
eine Antwort nur auf einer Liste vorkommt, ist es möglich, diese
Antwort dennoch der passenden Antwortliste hinzuzufügen, indem
der der Antwort zugehörige
Konfidenzwert mit einem zweiten Konfidenzwert null gemittelt oder
der Konfidenzwert gewichtet wird, um die Tatsache zu reflektieren,
daß er sich
nur auf einer Liste befand. Bei außerordentlich hohen Konfidenzwerten
für eine
einzige Antwort kann dies immer noch eine signifikante Antwort auf der
Antwortliste der passenden Antworten liefern.
-
Die
Wähloperation 506 wählt dann
die Antwort mit dem höchsten
kombinierten oder gemittelten Konfidenzwert als eine beste Antwort
aus den zwei Antwortlisten, d. h. der analytischen Antwortliste
und der holistischen Antwortliste, aus. Diese beste Antwort wird
durch die Antworttrenn-Entscheidungsoperation 508 geprüft. Die
Entscheidungsoperation 508 prüft, ob die Differenz der Konfidenzwerte,
d. h. ein Antworttrennwert, zwischen der Antwort mit dem höchsten kombinierten
Konfidenzwert und der Antwort mit dem nächsten höchsten kombinierten Konfidenzwert
größer als
ein Grenzwert N ist. Wenn der Antworttrennwert größer als
N ist, wird die beste Antwort durch Operation 510 akzeptiert.
Wenn der Antworttrennwert kleiner als der Grenzwert N ist, verzweigt
sich der Operationsablauf bei NEIN zu der Verwerfungsoperation 512,
welche die Antwort verwirft und ein Fehlerflag setzt. Nachdem die
beste Antwort entweder verworfen oder akzeptiert worden ist, erfolgt
Rücksprung
des Operationsflusses zum Hauptprogramm.
-
6 zeigt
eine alternative Ausführungsform
zum Finden der besten Antwort. In 6 beginnt
die Operation mit der Abrufoperation 602 und der Abrufoperation 604.
Die Abrufoperation 602 ruft die beste analytische Antwort
aus der analytischen Antwortliste 108 (1)
oder 328 (3) ab. Die beste Antwort auf
jeder Liste ist die Antwort mit dem höchsten Konfidenzwert. Die Abrufoperation 604 ruft die
beste holistische Antwort aus der holistischen Antwortliste 106 (1)
oder 311 (3) ab. Die beste analytische
Ant wort und die beste holistische Antwort werden der Wähloperation 606 zugeführt. Die
Wähloperation 606 verwendet
irgendeinen wohlbekannten Wahrscheinlichkeitsalgorithmus, um die analytische
oder die holistische Antwort als die beste Antwort 608 zu
wählen.
Die beste Antwort plus ihr Konfidenzwert 608 sind das Resultat
der Wähloperation 606.
-
In 7 ist
der Operationsfluß für eine Ausführungsform
eines analytischen Erkennungsmoduls 320 gezeigt. Der Fluß beginnt
an einer Abrufoperation 702, die aus den Zeichenausschnitt-Bildern 318 für das zeichenmäßig segmentierte
Wort (3) das erste Zeichenbild in der ersten segmentierten
Wortsegmentierungshypothese des Wortbilds abruft. Dieses Zeichenbild
wird mit einer neuronalen Zeichenerkennungsoperation 704 erkannt.
Alle Varianten des Zeichens und des Konfidenzwerts bei der Erkennung jeder
Variante werden in einer Zeichenvariantedaten-Datei 706 gesammelt.
Die Prüfoperation 708 detektiert
dann, ob es eine weitere Segmentierungshypothese für das erste
Zeichen des Worts gibt. Wenn es eine weitere Hypothese gibt, verzweigt
sich der Operationsfluß bei
JA zurück
zu der Abrufoperation 702, um das erste Zeichen der zweiten
Hypothese abzurufen. Der Fluß verbleibt
in dieser Schleife, bis alle Varianten aller ersten Zeichen für sämtliche
Hypothesen erkannt und in der Zeichenvariantendatei 706 gespeichert
worden sind.
-
Wenn
sämtliche
möglichen
ersten Zeichen erkannt worden sind, verzweigt sich der Operationsfluß bei NEIN
von der Testoperation 708 zu der Interpretationsoperation 710.
Die Interpretationsoperation 710 verwendet die Wörter in
dem Wörterbuch 326 (gleich
wie Lexikon 326 in 3), um aus
den Zeichenvarianten 706 die möglichen Antworten zu wählen. Jede
Zeichenvariante, die in dem Vokabular kein Wort mit dem gleichen
ersten Zeichen hat, wird verworfen. Diejenigen, die ein solches
Wort haben, werden als das erste Zeichen in möglichen Antwortketten 328 verarbeitet.
Wenn sämtliche
Zeichen für
sämtliche
Hypothesen verarbeitet worden sind, sind die möglichen Antwortketten die analytischen
Wortantwort-Antworten 328 (3).
-
Wenn
alle ersten Zeichen interpretiert worden sind, fragt die Abfrageoperation,
ob es mehr Zeichen in der Zeichenkette in den Zeichenausschnitt-Bildern 318 für das segmentierte
Wort gibt. Wenn es mehr Zeichen gibt, verzweigt sich der Operationsfluß über JA zurück zu Operation 702,
um das zweite Zeichen für
die erste Segmentierungshypothese abzurufen. Die iterativen Abläufe werden
fortgesetzt, bis alle Zeichen für
sämtliche
Hypothesen erkannt worden sind. Die Interpretationsoperation 710 verwendet
die möglichen
Antwortketten gemeinsam mit dem Vokabular, um mögliche Wortantworten zu finden.
Wenn beispielsweise eine bestimmte Antwortkette für die ersten
zwei Zeichen "qu" und die dritte Zeichenvariante "v" ist und das Wörterbuch keine Wörter enthält, die
mit "quv" beginnen, dann wird die "v"-Variante für das dritte Zeichen verworfen
und nicht verwendet. Wenn alle Zeichen und alle Segmentierungshypothesen
verarbeitet sind, bilden die in der Datei 328 gesammelten
möglichen
Antwortketten die analytische ASCII-Wortantwortliste. Der Konfidenzwert
für jede
Antwort ist die Summe der Konfidenzwerte bei der Erkennung jedes
Zeichens in der Antwort. Selbstverständlich könnten andere Konfidenzalgorithmen
wie etwa eine Gewichtung der Erkennungs-Konfidenzwerte mit Werten
aus dem Vokabular verwendet werden.
-
8 zeigt
einen Operationsfluß für eine andere
Ausführungsform
für das
analytische Erkennungsmodul 320 in 3. In 8 erkennt
die neuronale Zeichenerkennung sämtliche
möglichen
Zeichenvarianten für
sämtliche
möglichen
Segmentierungshypothesen auf der Basis der Ausschnittbilder von
zeichenmäßig segmentierten
Wörtern 318.
Tatsächlich
werden alle möglichen
ASCII-Wörter
(legitime oder anderweitige) in einer ASCII-Kandidatenwörterliste 804 gesammelt.
Wenn die Prüfoperation 806 detektiert,
daß alle
möglichen
Zeichenvarianten für
alle möglichen
Segmentierungshypothesen erkannt worden sind, wird das Wortfilter 808 aktiv
und wählt
legitime Wortantworten aus. Das Filter 808 verwendet das
Wörterbuch 810,
um der analytischen ASCII-Wortantwortliste 328 nur solche
Kandidatenwörter
aus der Liste 804 zu liefern, die ein Gegenwort in dem
Wörterbuch 810 haben.
Auch hier wird der Konfidenzwert auf die gleiche Weise bestimmt,
wie das oben in bezug auf 7 erörtert wurde.
-
Es
versteht sich für
den Fachmann, daß es viele
andere holistische Erkennungsoperationen und analytische Operationen
gibt, welche die oben beschriebenen ersetzen könnten. Alles, was erforderlich
ist, um die Erfindung zu verkörpern,
ist, daß das holistische
Erkennungsmodul fähig
sein muß,
für das eingegebene
Wortbild Zeichensegmentierungsinformation zuliefern, so daß diese
Segmentierungsinformation verwendet werden kann, um die Genauigkeit des
analytischen Erkennungsmoduls zu steigern. Die Ergebnisse von bei den
Erkennungsoperationen können
dann geprüft
werden, um die beste Antwort zu wählen.
-
Die
Erfindung wurde zwar speziell unter Bezugnahme auf bevorzugte Ausführungsformen
gezeigt und beschrieben, es versteht sich jedoch für den Fachmann,
daß zahlreiche
weitere Änderungen hinsichtlich
Form und Einzelheiten vorgenommen werden können, ohne vom Umfang der Erfindung
gemäß der Definition
in den beigefügten
Ansprüchen abzuweichen.