DE19961476A1

DE19961476A1 - Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis

Info

Publication number: DE19961476A1
Application number: DE19961476A
Authority: DE
Inventors: Andreas Kosmala; Daniel Willett
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-12-20
Filing date: 1999-12-20
Publication date: 2001-07-05

Abstract

Zur Zeichenerkennung wird anstelle eines üblicherweise verwendeten Lexikons mit einem fest vorbestimmten Wortschatz ein flexibles Textmodell verwendet, mit dem die bedingten Auftrittswahrscheinlichkeiten von Buchstabenfolgen und nicht von Wortfolgen beschrieben werden. Zusätzlich zu den Textmodellen werden Graphemmodelle im Rahmen der Handschrifterkennung eingesetzt. Es können mit diesem Verfahren sowohl ein Einzelworterkennung als auch eine Mehrworterkennung realisiert werden.

Description

Die Erfindung betrifft ein Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, insbesondere das Erkennen einer zu erkennenden Zeichenfolge, sowie ein computerlesbares Speichermedium und Computerprogramm-Erzeugnis.

Es sind verschiedene Verfahren zur Handschrifterkennung bekannt, das heißt zur Erkennung eines von einem Benutzer eingegebenen Schriftzuges, die eine zu erkennende Zeichenfolge beschreibt.

Die Verfahren zur Handschrifterkennung werden üblicher Weise unterschieden

- in ein Verfahren zur Handschrifterkennung, das beginnt, nachdem die gesamte zu erkennende Zeichenfolge eingegeben worden ist (Offline Handschrifterkennung), und
- in ein Verfahren, bei dem das Erkennungsverfahren schon begonnen wird während ein Benutzer die zu erkennende Zeichenfolge noch eingibt und die zu erkennende Zeichenfolge noch nicht vollständig eingegeben worden ist (Online Handschrifterkennung).

Ein Verfahren der letzteren Art wird im weiteren als Online- Verfahren zur Handschrifterkennung bezeichnet. Bei einem Online-Verfahren wird üblicherweise eine Bewegung des Stiftes, das der Benutzer zur Eingabe des Schriftzuges verwendet, während der Eingabe, abgetastet. Die Gesamtbewegung des Stiftes beschreibt die zu erkennende Zeichenfolge.

Die zu erkennende Zeichenfolge wird aufgrund der Abtastung als zeitliche Sequenz X von Abtastwerten dargestellt.

Aus [1] und [2] ist zur Online-Handschrifterkennung bekannt, einzelne Zeichen, beispielsweise Buchstaben, mit einem Hidden Markov Modell anhand von Trainingsdaten zu modellieren. Bei diesem Verfahren ist ein Lexikon gespeichert, in dem die zur Verfügung stehenden Worte des Wortschatzes definiert sind. Ein gültiges Wort des Lexikons ist durch die Folge seiner Buchstaben bzw. der Folge der entsprechend trainierten Hidden Markov Modelle beschrieben. Mittels der sogenannten Viterbi- Dekodierung wird zur Erkennung eines neuen Wortes, das durch die Abtastsequenz X der eingegebenen Zeichenfolge repräsentiert ist, das wahrscheinlichste Wort W_best aus allen Worten W des Lexikons ermittelt gemäß folgender Vorschrift:

Die Suche im Rahmen der Viterbi-Dekodierung erfolgt üblicherweise unter Berücksichtigung des zur Verfügung stehenden Lexikons um den Berechnungsaufwand zur Ermittlung des wahrscheinlichsten Wortes W_best zu begrenzen und die Fehlerrate zu minimieren.

Für die Erkennung eines ganzen Satzes oder von Wortfolgen ist es bekannt, zusätzlich sogenannte Sprachmodelle einzusetzen. Sprachmodelle sind Wahrscheinlichkeiten für vorgegebene bestimmte Wortfolgen W, die gemäß folgender Vorschrift gebildet werden:

wobei mit P(w_i|w_i-N+1, . . ., w_i-1) eine Wahrscheinlichkeit dafür bezeichnet wird, dass das Wort w_i der Wortfolge w_i-N+1, . . ., w_i-1 folgt. Mit N wird die sogenannte Kontexttiefe des verwendeten statistischen Modells bezeichnet, das heißt die Anzahl vorangegangener Worte, die bei der Ermittlung der bedingten Wahrscheinlichkeit gemäß Vorschrift (2) für das jeweilige Wort berücksichtigt werden.

Mit der Viterbi-Dekodierung werden bei der Erkennung der zu erkennenden Zeichenfolge das Sprachmodell und die Hidden Markov Modelle gleichzeitig ausgewertet. Als Ergebnis des Online- Verfahrens zur Handschrifterkennung wird diejenige Wortfolge als erkannte Wortfolge ausgegeben, deren Gesamtauftrittswahrscheinlichkeit größer ist als ein Vergleichswert. Die Gesamtauftrittswahrscheinlichkeit der Wortfolge wird gemäß folgender Vorschrift gebildet:

Mit s wird ein frei einstellbarer Gewichtungsparameter bezeichnet. Mit diesem Gewichtungsparameter s kann eine anwendungsabhängige Feineinstellung erfolgen bzw. es können verschiedene Wertebereiche, die die einzelnen Modelle liefern, angeglichen werden.

Nachteilig an dieser Vorgehensweise ist insbesondere, dass mit diesem Verfahren lediglich ganze Worte erkannt werden können und statistische Zusammenhänge über Wortgrenzen hinweg, beispielsweise Leerzeichen zwischen zwei Worten oder auch Satzzeichen, nicht berücksichtigt werden.

Ein weiterer erheblicher Nachteil dieses Verfahrens ist darin zu sehen, dass ein Lexikon mit einem fest vorgegebenen Wortschatz eingesetzt wird. Dies macht ein solches Handschrifterkennungssystem unflexibel hinsichtlich Worten, die nicht in dem vorgegebenen Wortschatz enthalten sind.

Weiterhin ist es bekannt, bei Verzicht auf ein fest vorgegebenes Lexikon lediglich die Eingabe einzelner, druckschriftähnlicher Buchstaben und somit nicht die Eingabe eines Wortes in einem zusammenhängenden Schriftzug, zu verarbeiten. Bei einem solchen Verfahren werden die Buchstaben einzeln erkannt und später aneinandergereiht, wodurch Worte und Sätze gebildet werden.

Ein erheblicher Nachteil dieses Verfahrens ist darin zu sehen, dass nicht Worte in einem durchgängigen Schriftzug eingegeben werden können, was zu einer erheblichen Komfortnachteil in der Bedienbarkeit des Handschrifterkennungssystems führt.

Aus [3] ist ein System zur Dekodierung eines statistischen Modells bekannt, der auch als Stack-Decoder bezeichnet wird.

Aus [4] sind weiterhin verschiedene statistische Verfahren zum Trainieren und zum Auswerten von Hidden Markov Modellen bekannt, jedoch beschrieben für Hidden Markov Modelle zur Spracherkennung. Die entsprechenden Verfahren, beispielsweise der Viterbi-Algorithmus, die sogenannte Strahlsuche oder auch Verfahren der dynamischen Programmierung können ohne weiteres auch für das Training sowie für die Auswertung von Hidden Markov Modellen im Rahmen der Handschrifterkennung eingesetzt werden.

Der Erfindung liegt das Problem zugrunde, ein Verfahren sowie eine Vorrichtung zum Erkennen einer zu erkennenden Zeichenfolge anzugeben, das zum einen kein fest vorgegebenes Lexikon benötigt und zum anderen die Verarbeitung einer Zeichenfolge als zusammenhängender Schriftzug für ein ganzes Wort ermöglicht.

Bei einem Verfahren zum Erkennen einer zu erkennenden Zeichenfolge wird die zu erkennende Zeichenfolge erfaßt, beispielsweise mittels eines Digitalisiertabletts, das eine Eingabe eines Schriftzuges durch einen Benutzer mittels eines Stifts, der über das Digitalisiertablett geführt wird, erfaßt. Die erfaßte Bewegung, die den Schriftzug bildet, wird digitalisiert, das heißt, abgetastet und die abgetasteten Werte werden als erfaßte Zeichenfolge weiterverarbeitet. Die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen. Im Rahmen des Erkennungsverfahrens werden ein statistisches Zeichenmodell sowie ein statistisches Textmodell (auch als N-Gramm bezeichnet) eingesetzt. Das Zeichenmodell enthält für jede darin enthaltene Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) unter der Bedingung, dass ein Zeichen c vorliegt. Das statistische Textmodell enthält für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit für das Zeichen c unter der Bedingung, dass eine bestimmte Folge vorangegangener Zeichen vorliegt. Mittels des Zeichenmodells und des Textmodells wird für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit ermittelt und es wird diejenige Zeichenfolge als erkannte Zeichenfolge ausgegeben, deren Gesamtauftrittswahrscheinlichkeit größer ist als ein Vergleichswert.

In diesem Dokument wird als Textmodell ein statistisches Modell bezeichnet, das nicht auf der Basis ganzer Worte, sondern auf der Basis von Einzelzeichen, insbesondere von Buchstaben, trainiert wird. Obwohl das Textmodell ähnlich strukturiert ist wie ein Sprachmodell, beschreibt das Textmodell nicht die Wahrscheinlichkeiten von Wortfolgen, sondern die von Einzelzeichenfolgen, das heißt insbesondere von Buchstabensequenzen.

Es ist darauf hinzuweisen, dass der Vergleichswert sowohl ein relativer Wert sein kann als auch ein absoluter Wert. Ist der Vergleichswert ein relativer Wert, so wird beispielsweise diejenige Zeichenfolge als erkannte Zeichenfolge ausgegeben, deren Gesamtwahrscheinlichkeit größer ist als die aller anderen Zeichenfolgen, für die eine Gesamtwahrscheinlichkeit ermittelt worden ist. Es können auch eine vorgebbare Anzahl der "besten" Zeichenfolgen ausgewählt werden. Ist der Vergleichswert ein absoluter Wert, so wird beispielsweise eine Zeichenfolge als erkannte Zeichenfolge ausgegeben, wenn ihre Gesamtwahrscheinlichkeit größer ist als ein frei vorgegebbarer Wert.

Da es möglich ist, mit dem Textmodell statistische Zusammenhänge über Wortgrenzen hinweg zu erfassen, sind auch Auftrittswahrscheinlichkeiten von Wortgrenzen im Textmodell implizit enthalten. Dies führt dazu, dass sowohl eine Erkennung ganzer Sätze bzw. von Wortfolgen möglich ist als auch die Erkennung einzelner Worte. Somit ist durch die Erfindung eine erhebliche Verbesserung der Flexibilität im Rahmen der Erkennung einer Zeichenfolge erreicht.

Ein weiterer Vorteil ist darin zu sehen, dass die Erfindung nicht mehr auf ein fest vorgegebenes Lexikon angewiesen ist, womit eine weitere erhebliche Flexibilitätssteigerung im Rahmen der Zeichenerkennung, insbesondere einer Handschrifterkennung, erreicht wird.

Durch die Erfindung wird erstmals eine automatische schreiberunabhängige Handschrifterkennung ermöglicht ohne besondere Voraussetzungen bezüglich des verwendeten Vokabulars, das heißt ohne dass ein fest vorgegebenes Lexikon benötigt wird. Auch existieren keine besonderen Voraussetzungen bezüglich der bei der Eingabe zu verwendenden Schriftart, das heißt von einem Benutzer kann nunmehr auch Text unter Verwendung miteinander verbundener Buchstaben eingegeben werden.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im weiteren beschriebenen Ausgestaltungen beziehen sich sowohl auf das Verfahren, die Vorrichtung, das computerlesbare Speichermedium, sowie das Computerprogramm-Erzeugnis.

Die einzelnen Verfahrensschritte können sowohl mittels eines Computerprogrammes als auch mittels einer speziellen elektronischen Schaltung realisiert werden.

In einer Ausgestaltung ist die zu erkennende Zeichenfolge ein von einem Benutzer handschriftlich eingegebener Schriftzug.

In dem statistischen Textmodell können in der Folge vorangegangener Zeichen mehrere, auch mehr als zwei Zeichen berücksichtigt werden zur Ermittlung der bedingten Auftrittswahrscheinlichkeit für ein Zeichen c. Es kann eine beliebige Kontexttiefe berücksichtigt werden. Um Zeichenfolgen zu erkennen, deren Gesamtlänge kleiner als die verwendete Kontexttiefe des Textmodells ist, können sogenannte "Back-off" N-Gramme verwendet werden. Diese beschreiben ein Zeichen c in einem kleineren Kontext, bis hin zur Kontextunabhängigkeit. Damit ist auch die Erkennung von singulären Zeichen ermöglicht.

Insbesondere bei einer großen Kontexttiefe ist es vorteilhaft, die erfaßte Zeichenfolge abzutasten und zu jedem Abtastzeitpunkt t (t = 0, . . ., u) aus der abgetasteten Zeichenfolge einen Merkmalsvektor zu bilden. Mit u wird eine Anzahl von Abtastzeitpunkten innerhalb der zu erkennenden Zeichenfolge bezeichnet. Zu einem ersten Abtastzeitpunkt t = 0 wird für jedes Zeichen c des Textmodells eine Auftrittswahrscheinlichkeit für das jeweilige Zeichen berechnet. Das Zeichenfolgeerkennungsverfahren weist für die Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte auf, die in iterativer Weise durchgeführt werden. In einem ersten Schritt (Schritt a)) wird für zumindest einen Teil der Zeichen des Textmodells mittels des Zeichenmodells und des Textmodells eine Zwischenauftrittswahrscheinlichkeit zu dem aktuellen Abtastzeitpunkt t ermittelt. Mit der Zwischenauftrittswahrscheinlichkeit wird jeweils angegeben, wie wahrscheinlich das Auftreten der Zwischenzeichenfolge ist, die das jeweilige Zeichen zu dem aktuellen Abtastzeitpunkt sowie die Folge berücksichtigter vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten enthält. Die Berechnung erfolgt in absteigender Reihenfolge gespeicherter Zwischenauftrittswahrscheinlichkeiten von Zeichenfolgen vorangegangener Abtastzeitpunkte. Die Zwischenauftrittswahrscheinlichkeiten zu dem aktuellen Abtastzeitpunkt t, die größer sind als ein vorgegebener Schwellenwert, werden gespeichert. Diese Verfahrensschritte werden so lange für einen weiteren Abtastzeitpunkt t' (t' < t) als neuen aktuellen Abtastzeitpunkt t wiederholt, bis der letzte Abtastzeitpunkt u erreicht ist. Durch diese Vorgehensweise, die der Realisierung des Stack-Decoders aus [3] entspricht, wird eine sehr effiziente Ermittlung der Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge erreicht, womit eine Erkennung einer Zeichenfolge auch mit einer sehr großen Kontexttiefe ermöglicht wird, die erheblich größer als die Kontexttiefe ist, die mit einem üblichen Viterbi Dekodierungsverfahrens erreicht werden kann.

Mit der Erkennung kann schon begonnen werden, während der Benutzer noch sein zu erkennendes Wort als Schriftzug eingibt, das heißt das Verfahren kann schon begonnen werden, obwohl die zu erkennende Zeichenfolge noch nicht vollständig erfaßt worden ist.

Als statistisches Zeichenmodell kann ein Hidden Markov Modell eingesetzt werden. Es ist in diesem Zusammenhang darauf hinzuweisen, dass grundsätzlich jedes allgemeine statistische Graphemmodell verwendet werden kann, mit dem die bedingte Wahrscheinlichkeit P(X|c) der Zeichenfolge X unter der Bedingung, dass das Zeichen c vorliegt, eingesetzt werden kann. Beispielsweise können auch TDNN (Time Delay Neural Network) oder sämtliche Arten von Hidden Markov Modellen, z. B. kontinuierliche, diskrete oder hybride Hidden Markov Modelle eingesetzt werden.

Zur Berechnung der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X kann beispielsweise das Prinzip der dynamischen Programmierung, eine sogenannte Viterbi- Approximation oder auch das Verfahren gemäß der Strahlsuche (wie in [4] beschrieben) eingesetzt werden.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren näher erläutert.

Es zeigen

Fig. 1 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte des bevorzugten Ausführungsbeispiels dargestellt sind;

Fig. 2 eine Skizze eines Systems zur Handschrifterkennung mit einem Digitalisiertablett und einer Erkennungseinheit zur Durchführung der Handschrifterkennung;

Fig. 3 eine Skizze, in der das Prinzip der Erkennung einer Zeichenfolge unter Verwendung des Stack-Decoders dargestellt ist.

Fig. 2 zeigt eine Vorrichtung 200 zum Erkennen eines von einem Benutzer mittels eines Stiftes 201 eingegebenen Schriftzugs 202.

Der Benutzer führt den Stift 201 über ein Digitalisiertablett 203. Alternativ kann anstelle des Digitalisiertabletts auch ein Display mit integriertem Sensor zum Erfassen des Schriftzuges oder ein System eingesetzt werden, in dem die Sensorik zum Erfassen des Schriftzuges in dem Stift selbst integriert ist. In vorgegebenen Zeitabständen wird die Bewegung des Stiftes 201 mittels Sensoren des Digitalisiertabletts 203 erfaßt, das heißt der Schriftzug 202 wird abgetastet.

Die Abtastrate zur Abtastung des Schriftzuges beträgt 100 Hz. Das Digitalisiertablett 203 ist über eine Verbindung 204, beispielsweise ein Kabel, mit einer Eingangs-/Aus gangsschnittstelle 205 eines Computers 206 verbunden. Mit der Eingans-/Ausgansschnittstelle 205 ist über einen Bus 207 ein Speicher 208 sowie eine Recheneinheit, beispielsweise ein Prozessor 209 verbunden. Es ist anzumerken, dass die gesamte Recheneinheit sowie der Speicher, das heißt die Elemente des Computers 206 auch in dem Digitalisiertablett 203 selbst integriert sein können.

Die ermittelten Abtastwerte sowie daraus gebildete Merkmalsvektoren werden in dem Speicher 208 gespeichert. Das im weiteren beschriebene und in Fig. 1 dargestellte Verfahren wird von dem Prozessor 209 durchgeführt.

Wie in Fig. 1 dargestellt ist, wird in einem ersten Schritt (Schritt 101) von dem Benutzer des Digitalisiertabletts, das in diesem Fall die Vorrichtung zur Erkennung der Zeichenfolge darstellt, ein Erkennungsmodus für die Handschrifterkennung ausgewählt.

In dem Ausführungsbeispiel stehen zwei Erkennungsmodi zur Verfügung.

Bei einem ersten Modus, der im weiteren als Mehrworterkennungsmodus bezeichnet wird, erfolgt die Handschrifterkennung über Wortgrenzen hinweg, so dass sogar eine Erkennung ganzer Sätze erfolgen kann, wie im weiteren näher dargelegt wird.

Bei einem zweiten Erkennungsmodus, im weiteren als Einzelworterkennungsmodus bezeichnet, erfolgt eine isolierte Erkennung einzelner Worte, allerdings unter Berücksichtigung der zusätzlichen Erkennung von Satzzeichen.

In einem zweiten Schritt (Schritt 102) wird der von dem Benutzer über den Stift 201 eingegebene Schriftzug 202 erfaßt. Die Erfassung erfolgt mittels zeitlicher Abtastung der Bewegung des Stifts 201, die durch Sensoren in dem Digitalisiertablett detektiert wird. Zu jedem Abtastzeitpunkt wird die jeweilige Ortskoordinate innerhalb des Digitalisiertabletts 203 erfaßt, an der sich der Stift 201 zu dem jeweiligen Abtastzeitpunkt befindet.

In einem weiteren Schritt (Schritt 103) wird zu dem jeweiligen Abtastzeitpunkt ein Merkmalsvektor gebildet, dessen Komponenten unter Berücksichtigung von Merkmalsvektoren vorangegangener Abtastzeitpunkte gebildet wird. Jeder Merkmalsvektor weist einen ebenfalls zu dem jeweiligen Abtastzeitpunkt erfaßten Schreibwinkel Θ_n auf. Mit dem Schreibwinkel Θ_n wird der Winkel bezeichnet zwischen der Tangente an die aktuellen Schreibrichtung und einer Referenzachse, im vorliegenden Fall einer in Bezug auf das Digitalisiertablett 203 bezogene horizontale Achse. Weiterhin weist der Merkmalsvektor einen Differenzwinkel auf, der gebildet wird aus der Differenz des Schreibwinkels Θ_n zu dem aktuellen Abtastzeitpunkt und dem Schreibwinkel Θ_n-1 des vorangegangenen Abtastzeitpunktes.

Nachdem zumindest einige Merkmalsvektoren gebildet worden sind, wird in einem weiteren Schritt (Schritt 104) überprüft, welcher Erkennungsmodus in dem ersten Schritt (Schritt 101) ausgewählt worden ist.

Ist der erste Erkennungsmodus der Mehrworterkennung ausgewählt worden, so wird in einem weiteren Schritt (Schritt 105) ein Verfahren zur Mehrworterkennung durchgeführt.

Für dieses Verfahren wird ein zuvor gebildetes und in dem Speicher 208 gespeichertes Textmodell 106 für die Mehrworterkennung eingesetzt. Weiterhin wird ein ebenfalls in einer vorangegangenen Trainingsphase trainiertes statistisches Graphemmodell, im vorliegenden Fall Hidden Markov Modelle 107 für die Mehrworterkennung, verwendet.

Das Textmodell - sowohl für die Mehrworterkennung als auch für die im späteren beschriebene Einzelworterkennung - beschreibt allgemein die Auftrittswahrscheinlichkeit P(c_i|c_i-N+1, . . ., c_i-1) eines Buchstabens c_i unter der Bedingung einer bestimmten, dem Buchstaben c_i vorausgehenden Buchstabenfolge c_i-N+1, . . ., c_i-1. Die Auftrittswahrscheinlichkeit einer Zeichenfolge C = (c₁, . . ., c_m) wird gemäß folgender Vorschrift ermittelt:

wobei mit N die Kontexttiefe des verwendeten Textmodells bezeichnet wird, das heißt die Anzahl der zur Ermittlung der bedingten Wahrscheinlichkeit berücksichtigten vorangegangenen Buchstaben bzw. Zeichen.

Die Struktur des Textmodells ähnelt der Struktur des oben dargestellten Sprachmodelles. Es können in diesem Zusammenhang zur Optimierung des Textmodells auch grundsätzlich alle bekannten Verfahren zur Optimierung eines Sprachmodells eingesetzt werden.

Anhand des folgenden Beispielsatzes wird das Training des Textmodells und die dazu verwendeten Trainingsdaten erläutert.

Es wird angenommen, dass die Trainingsmenge für das Textmodell aus folgendem Satz besteht:

Ein Trigramm-Sprachmodell besteht aus relativen Trigramm-, Bigramm- und Unigramm-Häufigkeiten.

Für die Mehrworterkennung wird in diesem Zusammenhang der gesamte Satz als Trainingsmenge verwendet. Für das Beispiel eines Textmodells mit einer Kontexttiefe N = 3 ergeben sich für die Trainingsmenge beginnend bei dem ersten Buchstaben "n" des Wortes "Ein" folgende Kontextkombinationen:

(n|i,E), (<sp<|n,i), (T|<sp<,n), (r|T,<sp<), (i|r,T), (g|i,r), (r|g,i) (a|r,g), (m|a,r), (m|m,a), (-|m,m) (S|-,m), (p|S,-), . . .

Mit <sp< wird eine Wortgrenze bezeichnet.

Dieses Beispiel macht deutlich, dass bei entsprechend großer Kontexttiefe statistische Zusammenhänge über Wortgrenzen hinaus erfaßt werden. Sogar Satzzeichen, deren Einfluß auf eine spezielle Orthografie und der Einfluß von Wortgrenzen auf eine spezielle Orthografie eines Begriffes werden durch solche Trainingsdaten mit berücksichtigt.

Ist der zweite Erkennungsmodus, das heißt die Einzelworterkennung ausgewählt worden, so wird in einem weiteren Schritt (Schritt 108) ein Verfahren zur Einzelworterkennung durchgeführt, das im wesentlichen dem im weiteren beschriebenen Verfahren zur Mehrworterkennung entspricht mit dem Unterschied, dass ein anderes Textmodell, nämlich ein Textmodell für Einzelworterkennung 109 sowie ein anderes Graphemmodell, nämlich Hidden Markov Modelle für Einzelworterkennung 110 im Rahmen der Einzelworterkennung verwendet werden. Es ist in diesem Zusammenhang anzumerken, dass die Graphemmodelle für die Einzelworterkennung und für die Mehrworterkennung dieselben sein können.

Für das Textmodell zur Einzelworterkennung wird die oben angenommene Trainingsmenge in einer veränderten Form zum Training des Textmodells 109 eingesetzt. Die einzelnen Worte des Satzes werden dazu in einzelne Wörter unterteilt, das heißt es ergibt sich anschaulich folgende Trainingsmenge:

Es ergeben sich im Vergleich zur Trainingsmenge für das Textmodell zur Mehrworterkennung folgende Kontextkombinationen:

(n|i,E), (i|r,T), (g|i,r), (r|g,i) (a|r,g), (m|m,a) (-|m,m), . . .

Die Hidden Markov Modelle sowohl für die Mehrworterkennung als auch für die Einzelworterkennung werden gemäß dem aus [1] bekannten Verfahren trainiert.

Es ist in diesem Zusammenhang zu betonen, dass nicht unbedingt Hidden Markov Modelle als Zeichenmodelle verwendet werden müssen. Es sollte lediglich sichergestellt werden, dass während der Handschrifterkennung die verwendeten Graphemmodelle möglichst effizient gemeinsam mit dem jeweils verwendeten Textmodell ausgewertet werden können. Die Einstellung der Modellparameter für die Hidden Markov Modelle, die jeweils ein Graphem darstellen, werden, wie oben dargelegt, anhand von Trainingsbeispielen geschätzt. Neben dem in [1] beschriebenen Verfahren können auch beliebige andere Verfahren, die unter anderem in [4] beschrieben sind, eingesetzt werden.

Die Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge wird gemäß folgender Vorschrift gebildet:

Anhand Fig. 3 wird die Dekodierung der statistischen Modelle, das heißt die Erkennung mit Hilfe der statistischen Modelle beschrieben. Hierzu wird der in [3] beschriebene Stack-Decoder eingesetzt.

Nachfolgend wird die Arbeitsweise des Stack-Decoders im zeitsynchronen Modus beschrieben.

Fig. 3 zeigt eine Zeitachse 301, auf der einzelne Abtastzeitpunkte 302 dargestellt sind. In einem ersten Schritt wird für jeden Abtastzeitpunkt t, zu dem ein Merkmalsvektor aus dem Schriftzug 202 extrahiert worden ist, ein leerer Stack 303 zugeordnet, der später im Laufe der Dekodierung mit Werten aufgefüllt wird, die im weiteren als Hypothesen bezeichnet werden. Als Hypothese H wird eine Teildekodierung der jeweiligen Zeichenfolge bis zu dem betrachteten Abtastzeitpunkt t_H bezeichnet. Die Hypothese H besteht aus der hypothesenspezifischen Folge C_H von Zeichen c. Die hypothesenspezifische, Zeichenfolge sowie ein bedingter Auftrittswahrscheinlichkeitswert der Hypothese Sc_H wird auf dem Stack 303 des entsprechenden Abtastzeitpunktes t_H abgelegt, das heißt gespeichert.

Der bedingte Auftrittswahrscheinlichkeitswert der Hypothese Sc_H wird entsprechend der Vorschriften (4) und (5) berechnet, womit sich folgende Ermittlungsvorschrift ergibt:

Sc_H = P(C_H)^s.P(x_{[1,. . .,tH]}|CH). (6)

Die bedingte Auftrittswahrscheinlichkeit P(X_{[t',. . .,t"]}|C) für die Merkmalssequenz X_{[t',. . .,t']} bei Auftreten des Zeichens c wird dabei mittels der sogenannten Viterbi-Approximation sowie einer zeitsynchronen Strahlsuche gemäß [4] bestimmt. Die Hypothesen H werden auf den jeweiligen Stacks nach ihrer Auftrittswahrscheinlichkeit in aufsteigender Reihenfolge abgespeichert, so dass bei stapelorientierter Verarbeitung die jeweils wahrscheinlichste Hypothese H_i ^(th) immer vorrangig verarbeitet wird. Nachdem ein zu bearbeitender Abtastzeitpunkt t ausgewählt wurde, wird geprüft, ob der ausgewählte Abtastzeitpunkt schon dem Ende des erfaßten Schriftzuges 202 entspricht (t = u).

Ist dies der Fall, so wird die innerhalb des Stapelmodells vorrangige Hypothese zum Abtastzeitpunkt u als das Erkennungsergebnis ausgegeben (Schritt 111).

Anderenfalls wird mit der Expansion des Stapels fortgefahren, indem die Hypothese des zeitlich nächsten Stacks unter Berücksichtigung von Graphem- und Textmodell um ein Zeichen c_i(k) verlängert wird. Auf diese Weise entstehen neue Hypothesen, die auf den entsprechenden nachfolgenden Stacks gespeichert werden. Potentielle Wortenden definieren neue Hypothesen, die dem jeweiligen Stack zugefügt werden.

Die Schritte der Auswahl des Stacks der Überprüfung, ob das Ende des Schriftzugs erreicht wurde, die Ermittlung der neuen Auftrittswahrscheinlichkeitswerte der Hypothesen werden so lange für einen neu ausgewählten Zeitpunkt t' als aktuellen Abtastzeitpunkt t (t' < t) fortgesetzt, bis das Ende des erfaßten Schriftzugs 202 erreicht ist.

Wie in [3] dargelegt ist, muß nicht jeder Abtastzeitpunkt und damit nicht jeder initialisierte Stack tatsächlich ausgewählt und im Rahmen der Dekodierung berücksichtigt werden.

Es können die in den [3] dargelegten Auswahlmechanismen eingesetzt werden um den Dekodierungsprozeß und damit das Verfahren zur Handschrifterkennung wesentlich zu beschleunigen.

So können zum Beispiel erst die nachfolgenden Stacks selektiert werden, deren beste Hypothesen einen Wert der Auftrittswahrscheinlichkeit aufweisen, der größer ist als ein vorgebbarer Schwellenwert. Außerdem können zeitlich benachbarte Stacks teilweise übersprungen werden, da davon ausgegangen werden kann, daß sich in zeitlich benachbarten Stacks überwiegend ähnliche Hypothesen befinden, deren Auswertung vernachlässigt werden kann ohne allzu große Fehler zu erzeugen. Zusätzliche Pruningmechanismen können auch in der Strahlsuche zur Einzelworterkennung eingesetzt werden, so daß auch auf dieser Ebene eine weitere Beschleunigung der Einzelworterkennung erreicht wird.

Im weiteren werden einige Alternativen zum oben dargelegten Ausführungsbeispiel aufgezeigt:
Die Graphemmodelle können sowohl kontextabhängig als auch kontextunabhängig trainiert werden, das heißt es kann bzw. können sowohl lediglich ein Modell pro Buchstabe bzw. Zeichen im kontextunabhängigen Fall als auch, im kontextabhängigen Fall, abhängig von der Kombination benachbarter Zeichen, mehrere Modelle für einen Buchstaben verwendet werden.

Zum Schätzen der Parameter der Hidden Markov Modelle können beispielsweise eingesetzt werden der sogenannte EM-Algorithmus, z. B. das sogenannte Viterbi-Training oder auch der sogenannte Baum-Welch-Algorithmus.

Die Hidden Markov Modelle können alternativ auch diskriminativ trainiert werden.

In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] J. Makhoul et al. Online Cursive Handwriting Recognision Using Hidden Markov Models and Statistical Grammars, Proceedings of the Human Language Technology Workshop, P. 432-436, Plainsboro, New Jersey, March 1994;
[2] K. S. Nathan et al. Real-Time On-Line Unconstrained Handwriting Recognition Using Statistical Methods, Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol. 4, P. 2916-2622, Detroit, Michigan, 1995;
[3] D. Willett, C. Neukirchen und G. Rigoll, DUCODE - Der Stackdekoder, Technical Report, Mercator University Duisburg, Forschungsbereich Technische Informatik, 1998, erhältlich im Internet am 01. 12. 1999 unter der Adresse:
http://www.fb9-ti-uni-duisburg-de;
[4] E. G. Schukat-Talamazzini, Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, S. 121-163 und S. 231-269, 1995.

Claims

1. Datenverarbeitungsverfahren zum Erkennen einer zu erkennenden Zeichenfolge,

- bei dem die zu erkennende Zeichenfolge rechnergestützt erfaßt wird,
- bei dem die erfaßte Zeichenfolge einem Zeichenfolgeerkennungsverfahren unterzogen wird, in dem verwendet werden:
- ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- bei dem in dem Zeichenfolgeerkennungsverfahren aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt wird, und
- bei dem eine Zeichenfolge als erkannte Zeichenfolge ausgegeben wird, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.

2. Verfahren nach Anspruch 1, bei dem die zu erkennende Zeichenfolge ein von einem Benutzer handschriftlich eingegebener Schriftzug ist.

3. Verfahren nach Anspruch 1 oder 2, bei dem die Folge vorangegangener Zeichen mehrere Zeichen enthält.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem als statistisches Zeichenmodell ein Hidden Markov Modell eingesetzt wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X das Prinzip der dynamischen Programmierung eingesetzt wird.

6. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die Viterbi-Approximation eingesetzt wird.

7. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die Strahlsuche eingesetzt wird.

8. Verfahren nach einem der Ansprüche 1 bis 7,

- bei dem die erfaßte Zeichenfolge abgetastet wird,
- bei dem die zu jedem Abtastzeitpunkt t, t = 0, . . ., u, aus der abgetasteten Zeichenfolge ein Merkmalsvektor gebildet wird, wobei mit u eine Anzahl von Abtastzeitpunkten der zu erkennenden Zeichenfolge bezeichnet wird,
- bei dem zu einem ersten Abtastzeitpunkt t = 0 für jedes Zeichen c des Textmodells eine Auftrittswahrscheinlichkeit für das Zeichen c berechnet wird,
- bei dem das Zeichenfolgeerkennungsverfahren für die Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte aufweist:
- für zumindest einen Teil der Zeichen c des Textmodells wird mittels des Zeichenmodells und des Textmodells mindestens eine Zwischenauftrittswahrscheinlichkeit des aktuellen Abtastzeitpunkts t berechnet, mit der angegeben wird, wie wahrscheinlich die jeweilige Zwischenzeichenfolge ist, die das entsprechende Zeichen c des aktuellen Abtastzeitpunkts t sowie eine Folge vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten aufweist,
- die Berechnung erfolgt in absteigender Reihenfolge gespeicherter Zwischenauftrittswahrscheinlichkeiten von Folgen vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten,
- die Zwischenauftrittswahrscheinlichkeiten des aktuellen Abtastzeitpunkts t, die größer sind als ein vorgegebener Schwellenwert, werden gespeichert,
- es werden die Schritte a) bis c) für einen weiteren Abtastzeitpunkt t', mit t' < t als neuen aktuellen Abtastzeitpunkt t so lange wiederholt, bis der letzte Abtastzeitpunkt t = u erreicht ist.

9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem das Verfahren während des Erfassens der zu erkennenden Zeichenfolge begonnen wird.

10. Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge,
mit einem Prozessor, der derart eingerichtet ist, daß folgende Verfahrensschritte durchführbar sind:

- die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
- die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
- ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
- eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.

11. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Erkennen einer zu erkennenden Zeichenfolge:

12. Computerprogramm-Erzeugnis, das ein computerlesbares Speichermedium umfaßt, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Erkennen einer zu erkennenden Zeichenfolge: