DE19961476A1 - Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis - Google Patents

Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis

Info

Publication number
DE19961476A1
DE19961476A1 DE19961476A DE19961476A DE19961476A1 DE 19961476 A1 DE19961476 A1 DE 19961476A1 DE 19961476 A DE19961476 A DE 19961476A DE 19961476 A DE19961476 A DE 19961476A DE 19961476 A1 DE19961476 A1 DE 19961476A1
Authority
DE
Germany
Prior art keywords
character
string
character string
model
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19961476A
Other languages
English (en)
Inventor
Andreas Kosmala
Daniel Willett
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19961476A priority Critical patent/DE19961476A1/de
Publication of DE19961476A1 publication Critical patent/DE19961476A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

Zur Zeichenerkennung wird anstelle eines üblicherweise verwendeten Lexikons mit einem fest vorbestimmten Wortschatz ein flexibles Textmodell verwendet, mit dem die bedingten Auftrittswahrscheinlichkeiten von Buchstabenfolgen und nicht von Wortfolgen beschrieben werden. Zusätzlich zu den Textmodellen werden Graphemmodelle im Rahmen der Handschrifterkennung eingesetzt. Es können mit diesem Verfahren sowohl ein Einzelworterkennung als auch eine Mehrworterkennung realisiert werden.

Description

Die Erfindung betrifft ein Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, insbesondere das Erkennen einer zu erkennenden Zeichenfolge, sowie ein computerlesbares Speichermedium und Computerprogramm-Erzeugnis.
Es sind verschiedene Verfahren zur Handschrifterkennung bekannt, das heißt zur Erkennung eines von einem Benutzer eingegebenen Schriftzuges, die eine zu erkennende Zeichenfolge beschreibt.
Die Verfahren zur Handschrifterkennung werden üblicher Weise unterschieden
  • - in ein Verfahren zur Handschrifterkennung, das beginnt, nachdem die gesamte zu erkennende Zeichenfolge eingegeben worden ist (Offline Handschrifterkennung), und
  • - in ein Verfahren, bei dem das Erkennungsverfahren schon begonnen wird während ein Benutzer die zu erkennende Zeichenfolge noch eingibt und die zu erkennende Zeichenfolge noch nicht vollständig eingegeben worden ist (Online Handschrifterkennung).
Ein Verfahren der letzteren Art wird im weiteren als Online- Verfahren zur Handschrifterkennung bezeichnet. Bei einem Online-Verfahren wird üblicherweise eine Bewegung des Stiftes, das der Benutzer zur Eingabe des Schriftzuges verwendet, während der Eingabe, abgetastet. Die Gesamtbewegung des Stiftes beschreibt die zu erkennende Zeichenfolge.
Die zu erkennende Zeichenfolge wird aufgrund der Abtastung als zeitliche Sequenz X von Abtastwerten dargestellt.
Aus [1] und [2] ist zur Online-Handschrifterkennung bekannt, einzelne Zeichen, beispielsweise Buchstaben, mit einem Hidden Markov Modell anhand von Trainingsdaten zu modellieren. Bei diesem Verfahren ist ein Lexikon gespeichert, in dem die zur Verfügung stehenden Worte des Wortschatzes definiert sind. Ein gültiges Wort des Lexikons ist durch die Folge seiner Buchstaben bzw. der Folge der entsprechend trainierten Hidden Markov Modelle beschrieben. Mittels der sogenannten Viterbi- Dekodierung wird zur Erkennung eines neuen Wortes, das durch die Abtastsequenz X der eingegebenen Zeichenfolge repräsentiert ist, das wahrscheinlichste Wort Wbest aus allen Worten W des Lexikons ermittelt gemäß folgender Vorschrift:
Die Suche im Rahmen der Viterbi-Dekodierung erfolgt üblicherweise unter Berücksichtigung des zur Verfügung stehenden Lexikons um den Berechnungsaufwand zur Ermittlung des wahrscheinlichsten Wortes Wbest zu begrenzen und die Fehlerrate zu minimieren.
Für die Erkennung eines ganzen Satzes oder von Wortfolgen ist es bekannt, zusätzlich sogenannte Sprachmodelle einzusetzen. Sprachmodelle sind Wahrscheinlichkeiten für vorgegebene bestimmte Wortfolgen W, die gemäß folgender Vorschrift gebildet werden:
wobei mit P(wi|wi-N+1, . . ., wi-1) eine Wahrscheinlichkeit dafür bezeichnet wird, dass das Wort wi der Wortfolge wi-N+1, . . ., wi-1 folgt. Mit N wird die sogenannte Kontexttiefe des verwendeten statistischen Modells bezeichnet, das heißt die Anzahl vorangegangener Worte, die bei der Ermittlung der bedingten Wahrscheinlichkeit gemäß Vorschrift (2) für das jeweilige Wort berücksichtigt werden.
Mit der Viterbi-Dekodierung werden bei der Erkennung der zu erkennenden Zeichenfolge das Sprachmodell und die Hidden Markov Modelle gleichzeitig ausgewertet. Als Ergebnis des Online- Verfahrens zur Handschrifterkennung wird diejenige Wortfolge als erkannte Wortfolge ausgegeben, deren Gesamtauftrittswahrscheinlichkeit größer ist als ein Vergleichswert. Die Gesamtauftrittswahrscheinlichkeit der Wortfolge wird gemäß folgender Vorschrift gebildet:
Mit s wird ein frei einstellbarer Gewichtungsparameter bezeichnet. Mit diesem Gewichtungsparameter s kann eine anwendungsabhängige Feineinstellung erfolgen bzw. es können verschiedene Wertebereiche, die die einzelnen Modelle liefern, angeglichen werden.
Nachteilig an dieser Vorgehensweise ist insbesondere, dass mit diesem Verfahren lediglich ganze Worte erkannt werden können und statistische Zusammenhänge über Wortgrenzen hinweg, beispielsweise Leerzeichen zwischen zwei Worten oder auch Satzzeichen, nicht berücksichtigt werden.
Ein weiterer erheblicher Nachteil dieses Verfahrens ist darin zu sehen, dass ein Lexikon mit einem fest vorgegebenen Wortschatz eingesetzt wird. Dies macht ein solches Handschrifterkennungssystem unflexibel hinsichtlich Worten, die nicht in dem vorgegebenen Wortschatz enthalten sind.
Weiterhin ist es bekannt, bei Verzicht auf ein fest vorgegebenes Lexikon lediglich die Eingabe einzelner, druckschriftähnlicher Buchstaben und somit nicht die Eingabe eines Wortes in einem zusammenhängenden Schriftzug, zu verarbeiten. Bei einem solchen Verfahren werden die Buchstaben einzeln erkannt und später aneinandergereiht, wodurch Worte und Sätze gebildet werden.
Ein erheblicher Nachteil dieses Verfahrens ist darin zu sehen, dass nicht Worte in einem durchgängigen Schriftzug eingegeben werden können, was zu einer erheblichen Komfortnachteil in der Bedienbarkeit des Handschrifterkennungssystems führt.
Aus [3] ist ein System zur Dekodierung eines statistischen Modells bekannt, der auch als Stack-Decoder bezeichnet wird.
Aus [4] sind weiterhin verschiedene statistische Verfahren zum Trainieren und zum Auswerten von Hidden Markov Modellen bekannt, jedoch beschrieben für Hidden Markov Modelle zur Spracherkennung. Die entsprechenden Verfahren, beispielsweise der Viterbi-Algorithmus, die sogenannte Strahlsuche oder auch Verfahren der dynamischen Programmierung können ohne weiteres auch für das Training sowie für die Auswertung von Hidden Markov Modellen im Rahmen der Handschrifterkennung eingesetzt werden.
Der Erfindung liegt das Problem zugrunde, ein Verfahren sowie eine Vorrichtung zum Erkennen einer zu erkennenden Zeichenfolge anzugeben, das zum einen kein fest vorgegebenes Lexikon benötigt und zum anderen die Verarbeitung einer Zeichenfolge als zusammenhängender Schriftzug für ein ganzes Wort ermöglicht.
Bei einem Verfahren zum Erkennen einer zu erkennenden Zeichenfolge wird die zu erkennende Zeichenfolge erfaßt, beispielsweise mittels eines Digitalisiertabletts, das eine Eingabe eines Schriftzuges durch einen Benutzer mittels eines Stifts, der über das Digitalisiertablett geführt wird, erfaßt. Die erfaßte Bewegung, die den Schriftzug bildet, wird digitalisiert, das heißt, abgetastet und die abgetasteten Werte werden als erfaßte Zeichenfolge weiterverarbeitet. Die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen. Im Rahmen des Erkennungsverfahrens werden ein statistisches Zeichenmodell sowie ein statistisches Textmodell (auch als N-Gramm bezeichnet) eingesetzt. Das Zeichenmodell enthält für jede darin enthaltene Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) unter der Bedingung, dass ein Zeichen c vorliegt. Das statistische Textmodell enthält für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit für das Zeichen c unter der Bedingung, dass eine bestimmte Folge vorangegangener Zeichen vorliegt. Mittels des Zeichenmodells und des Textmodells wird für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit ermittelt und es wird diejenige Zeichenfolge als erkannte Zeichenfolge ausgegeben, deren Gesamtauftrittswahrscheinlichkeit größer ist als ein Vergleichswert.
In diesem Dokument wird als Textmodell ein statistisches Modell bezeichnet, das nicht auf der Basis ganzer Worte, sondern auf der Basis von Einzelzeichen, insbesondere von Buchstaben, trainiert wird. Obwohl das Textmodell ähnlich strukturiert ist wie ein Sprachmodell, beschreibt das Textmodell nicht die Wahrscheinlichkeiten von Wortfolgen, sondern die von Einzelzeichenfolgen, das heißt insbesondere von Buchstabensequenzen.
Es ist darauf hinzuweisen, dass der Vergleichswert sowohl ein relativer Wert sein kann als auch ein absoluter Wert. Ist der Vergleichswert ein relativer Wert, so wird beispielsweise diejenige Zeichenfolge als erkannte Zeichenfolge ausgegeben, deren Gesamtwahrscheinlichkeit größer ist als die aller anderen Zeichenfolgen, für die eine Gesamtwahrscheinlichkeit ermittelt worden ist. Es können auch eine vorgebbare Anzahl der "besten" Zeichenfolgen ausgewählt werden. Ist der Vergleichswert ein absoluter Wert, so wird beispielsweise eine Zeichenfolge als erkannte Zeichenfolge ausgegeben, wenn ihre Gesamtwahrscheinlichkeit größer ist als ein frei vorgegebbarer Wert.
Da es möglich ist, mit dem Textmodell statistische Zusammenhänge über Wortgrenzen hinweg zu erfassen, sind auch Auftrittswahrscheinlichkeiten von Wortgrenzen im Textmodell implizit enthalten. Dies führt dazu, dass sowohl eine Erkennung ganzer Sätze bzw. von Wortfolgen möglich ist als auch die Erkennung einzelner Worte. Somit ist durch die Erfindung eine erhebliche Verbesserung der Flexibilität im Rahmen der Erkennung einer Zeichenfolge erreicht.
Ein weiterer Vorteil ist darin zu sehen, dass die Erfindung nicht mehr auf ein fest vorgegebenes Lexikon angewiesen ist, womit eine weitere erhebliche Flexibilitätssteigerung im Rahmen der Zeichenerkennung, insbesondere einer Handschrifterkennung, erreicht wird.
Durch die Erfindung wird erstmals eine automatische schreiberunabhängige Handschrifterkennung ermöglicht ohne besondere Voraussetzungen bezüglich des verwendeten Vokabulars, das heißt ohne dass ein fest vorgegebenes Lexikon benötigt wird. Auch existieren keine besonderen Voraussetzungen bezüglich der bei der Eingabe zu verwendenden Schriftart, das heißt von einem Benutzer kann nunmehr auch Text unter Verwendung miteinander verbundener Buchstaben eingegeben werden.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die im weiteren beschriebenen Ausgestaltungen beziehen sich sowohl auf das Verfahren, die Vorrichtung, das computerlesbare Speichermedium, sowie das Computerprogramm-Erzeugnis.
Die einzelnen Verfahrensschritte können sowohl mittels eines Computerprogrammes als auch mittels einer speziellen elektronischen Schaltung realisiert werden.
In einer Ausgestaltung ist die zu erkennende Zeichenfolge ein von einem Benutzer handschriftlich eingegebener Schriftzug.
In dem statistischen Textmodell können in der Folge vorangegangener Zeichen mehrere, auch mehr als zwei Zeichen berücksichtigt werden zur Ermittlung der bedingten Auftrittswahrscheinlichkeit für ein Zeichen c. Es kann eine beliebige Kontexttiefe berücksichtigt werden. Um Zeichenfolgen zu erkennen, deren Gesamtlänge kleiner als die verwendete Kontexttiefe des Textmodells ist, können sogenannte "Back-off" N-Gramme verwendet werden. Diese beschreiben ein Zeichen c in einem kleineren Kontext, bis hin zur Kontextunabhängigkeit. Damit ist auch die Erkennung von singulären Zeichen ermöglicht.
Insbesondere bei einer großen Kontexttiefe ist es vorteilhaft, die erfaßte Zeichenfolge abzutasten und zu jedem Abtastzeitpunkt t (t = 0, . . ., u) aus der abgetasteten Zeichenfolge einen Merkmalsvektor zu bilden. Mit u wird eine Anzahl von Abtastzeitpunkten innerhalb der zu erkennenden Zeichenfolge bezeichnet. Zu einem ersten Abtastzeitpunkt t = 0 wird für jedes Zeichen c des Textmodells eine Auftrittswahrscheinlichkeit für das jeweilige Zeichen berechnet. Das Zeichenfolgeerkennungsverfahren weist für die Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte auf, die in iterativer Weise durchgeführt werden. In einem ersten Schritt (Schritt a)) wird für zumindest einen Teil der Zeichen des Textmodells mittels des Zeichenmodells und des Textmodells eine Zwischenauftrittswahrscheinlichkeit zu dem aktuellen Abtastzeitpunkt t ermittelt. Mit der Zwischenauftrittswahrscheinlichkeit wird jeweils angegeben, wie wahrscheinlich das Auftreten der Zwischenzeichenfolge ist, die das jeweilige Zeichen zu dem aktuellen Abtastzeitpunkt sowie die Folge berücksichtigter vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten enthält. Die Berechnung erfolgt in absteigender Reihenfolge gespeicherter Zwischenauftrittswahrscheinlichkeiten von Zeichenfolgen vorangegangener Abtastzeitpunkte. Die Zwischenauftrittswahrscheinlichkeiten zu dem aktuellen Abtastzeitpunkt t, die größer sind als ein vorgegebener Schwellenwert, werden gespeichert. Diese Verfahrensschritte werden so lange für einen weiteren Abtastzeitpunkt t' (t' < t) als neuen aktuellen Abtastzeitpunkt t wiederholt, bis der letzte Abtastzeitpunkt u erreicht ist. Durch diese Vorgehensweise, die der Realisierung des Stack-Decoders aus [3] entspricht, wird eine sehr effiziente Ermittlung der Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge erreicht, womit eine Erkennung einer Zeichenfolge auch mit einer sehr großen Kontexttiefe ermöglicht wird, die erheblich größer als die Kontexttiefe ist, die mit einem üblichen Viterbi Dekodierungsverfahrens erreicht werden kann.
Mit der Erkennung kann schon begonnen werden, während der Benutzer noch sein zu erkennendes Wort als Schriftzug eingibt, das heißt das Verfahren kann schon begonnen werden, obwohl die zu erkennende Zeichenfolge noch nicht vollständig erfaßt worden ist.
Als statistisches Zeichenmodell kann ein Hidden Markov Modell eingesetzt werden. Es ist in diesem Zusammenhang darauf hinzuweisen, dass grundsätzlich jedes allgemeine statistische Graphemmodell verwendet werden kann, mit dem die bedingte Wahrscheinlichkeit P(X|c) der Zeichenfolge X unter der Bedingung, dass das Zeichen c vorliegt, eingesetzt werden kann. Beispielsweise können auch TDNN (Time Delay Neural Network) oder sämtliche Arten von Hidden Markov Modellen, z. B. kontinuierliche, diskrete oder hybride Hidden Markov Modelle eingesetzt werden.
Zur Berechnung der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X kann beispielsweise das Prinzip der dynamischen Programmierung, eine sogenannte Viterbi- Approximation oder auch das Verfahren gemäß der Strahlsuche (wie in [4] beschrieben) eingesetzt werden.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren näher erläutert.
Es zeigen
Fig. 1 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte des bevorzugten Ausführungsbeispiels dargestellt sind;
Fig. 2 eine Skizze eines Systems zur Handschrifterkennung mit einem Digitalisiertablett und einer Erkennungseinheit zur Durchführung der Handschrifterkennung;
Fig. 3 eine Skizze, in der das Prinzip der Erkennung einer Zeichenfolge unter Verwendung des Stack-Decoders dargestellt ist.
Fig. 2 zeigt eine Vorrichtung 200 zum Erkennen eines von einem Benutzer mittels eines Stiftes 201 eingegebenen Schriftzugs 202.
Der Benutzer führt den Stift 201 über ein Digitalisiertablett 203. Alternativ kann anstelle des Digitalisiertabletts auch ein Display mit integriertem Sensor zum Erfassen des Schriftzuges oder ein System eingesetzt werden, in dem die Sensorik zum Erfassen des Schriftzuges in dem Stift selbst integriert ist. In vorgegebenen Zeitabständen wird die Bewegung des Stiftes 201 mittels Sensoren des Digitalisiertabletts 203 erfaßt, das heißt der Schriftzug 202 wird abgetastet.
Die Abtastrate zur Abtastung des Schriftzuges beträgt 100 Hz. Das Digitalisiertablett 203 ist über eine Verbindung 204, beispielsweise ein Kabel, mit einer Eingangs-/Aus­ gangsschnittstelle 205 eines Computers 206 verbunden. Mit der Eingans-/Ausgansschnittstelle 205 ist über einen Bus 207 ein Speicher 208 sowie eine Recheneinheit, beispielsweise ein Prozessor 209 verbunden. Es ist anzumerken, dass die gesamte Recheneinheit sowie der Speicher, das heißt die Elemente des Computers 206 auch in dem Digitalisiertablett 203 selbst integriert sein können.
Die ermittelten Abtastwerte sowie daraus gebildete Merkmalsvektoren werden in dem Speicher 208 gespeichert. Das im weiteren beschriebene und in Fig. 1 dargestellte Verfahren wird von dem Prozessor 209 durchgeführt.
Wie in Fig. 1 dargestellt ist, wird in einem ersten Schritt (Schritt 101) von dem Benutzer des Digitalisiertabletts, das in diesem Fall die Vorrichtung zur Erkennung der Zeichenfolge darstellt, ein Erkennungsmodus für die Handschrifterkennung ausgewählt.
In dem Ausführungsbeispiel stehen zwei Erkennungsmodi zur Verfügung.
Bei einem ersten Modus, der im weiteren als Mehrworterkennungsmodus bezeichnet wird, erfolgt die Handschrifterkennung über Wortgrenzen hinweg, so dass sogar eine Erkennung ganzer Sätze erfolgen kann, wie im weiteren näher dargelegt wird.
Bei einem zweiten Erkennungsmodus, im weiteren als Einzelworterkennungsmodus bezeichnet, erfolgt eine isolierte Erkennung einzelner Worte, allerdings unter Berücksichtigung der zusätzlichen Erkennung von Satzzeichen.
In einem zweiten Schritt (Schritt 102) wird der von dem Benutzer über den Stift 201 eingegebene Schriftzug 202 erfaßt. Die Erfassung erfolgt mittels zeitlicher Abtastung der Bewegung des Stifts 201, die durch Sensoren in dem Digitalisiertablett detektiert wird. Zu jedem Abtastzeitpunkt wird die jeweilige Ortskoordinate innerhalb des Digitalisiertabletts 203 erfaßt, an der sich der Stift 201 zu dem jeweiligen Abtastzeitpunkt befindet.
In einem weiteren Schritt (Schritt 103) wird zu dem jeweiligen Abtastzeitpunkt ein Merkmalsvektor gebildet, dessen Komponenten unter Berücksichtigung von Merkmalsvektoren vorangegangener Abtastzeitpunkte gebildet wird. Jeder Merkmalsvektor weist einen ebenfalls zu dem jeweiligen Abtastzeitpunkt erfaßten Schreibwinkel Θn auf. Mit dem Schreibwinkel Θn wird der Winkel bezeichnet zwischen der Tangente an die aktuellen Schreibrichtung und einer Referenzachse, im vorliegenden Fall einer in Bezug auf das Digitalisiertablett 203 bezogene horizontale Achse. Weiterhin weist der Merkmalsvektor einen Differenzwinkel auf, der gebildet wird aus der Differenz des Schreibwinkels Θn zu dem aktuellen Abtastzeitpunkt und dem Schreibwinkel Θn-1 des vorangegangenen Abtastzeitpunktes.
Nachdem zumindest einige Merkmalsvektoren gebildet worden sind, wird in einem weiteren Schritt (Schritt 104) überprüft, welcher Erkennungsmodus in dem ersten Schritt (Schritt 101) ausgewählt worden ist.
Ist der erste Erkennungsmodus der Mehrworterkennung ausgewählt worden, so wird in einem weiteren Schritt (Schritt 105) ein Verfahren zur Mehrworterkennung durchgeführt.
Für dieses Verfahren wird ein zuvor gebildetes und in dem Speicher 208 gespeichertes Textmodell 106 für die Mehrworterkennung eingesetzt. Weiterhin wird ein ebenfalls in einer vorangegangenen Trainingsphase trainiertes statistisches Graphemmodell, im vorliegenden Fall Hidden Markov Modelle 107 für die Mehrworterkennung, verwendet.
Das Textmodell - sowohl für die Mehrworterkennung als auch für die im späteren beschriebene Einzelworterkennung - beschreibt allgemein die Auftrittswahrscheinlichkeit P(ci|ci-N+1, . . ., ci-1) eines Buchstabens ci unter der Bedingung einer bestimmten, dem Buchstaben ci vorausgehenden Buchstabenfolge ci-N+1, . . ., ci-1. Die Auftrittswahrscheinlichkeit einer Zeichenfolge C = (c1, . . ., cm) wird gemäß folgender Vorschrift ermittelt:
wobei mit N die Kontexttiefe des verwendeten Textmodells bezeichnet wird, das heißt die Anzahl der zur Ermittlung der bedingten Wahrscheinlichkeit berücksichtigten vorangegangenen Buchstaben bzw. Zeichen.
Die Struktur des Textmodells ähnelt der Struktur des oben dargestellten Sprachmodelles. Es können in diesem Zusammenhang zur Optimierung des Textmodells auch grundsätzlich alle bekannten Verfahren zur Optimierung eines Sprachmodells eingesetzt werden.
Anhand des folgenden Beispielsatzes wird das Training des Textmodells und die dazu verwendeten Trainingsdaten erläutert.
Es wird angenommen, dass die Trainingsmenge für das Textmodell aus folgendem Satz besteht:
Ein Trigramm-Sprachmodell besteht aus relativen Trigramm-, Bigramm- und Unigramm-Häufigkeiten.
Für die Mehrworterkennung wird in diesem Zusammenhang der gesamte Satz als Trainingsmenge verwendet. Für das Beispiel eines Textmodells mit einer Kontexttiefe N = 3 ergeben sich für die Trainingsmenge beginnend bei dem ersten Buchstaben "n" des Wortes "Ein" folgende Kontextkombinationen:
(n|i,E), (<sp<|n,i), (T|<sp<,n), (r|T,<sp<), (i|r,T), (g|i,r), (r|g,i) (a|r,g), (m|a,r), (m|m,a), (-|m,m) (S|-,m), (p|S,-), . . .
Mit <sp< wird eine Wortgrenze bezeichnet.
Dieses Beispiel macht deutlich, dass bei entsprechend großer Kontexttiefe statistische Zusammenhänge über Wortgrenzen hinaus erfaßt werden. Sogar Satzzeichen, deren Einfluß auf eine spezielle Orthografie und der Einfluß von Wortgrenzen auf eine spezielle Orthografie eines Begriffes werden durch solche Trainingsdaten mit berücksichtigt.
Ist der zweite Erkennungsmodus, das heißt die Einzelworterkennung ausgewählt worden, so wird in einem weiteren Schritt (Schritt 108) ein Verfahren zur Einzelworterkennung durchgeführt, das im wesentlichen dem im weiteren beschriebenen Verfahren zur Mehrworterkennung entspricht mit dem Unterschied, dass ein anderes Textmodell, nämlich ein Textmodell für Einzelworterkennung 109 sowie ein anderes Graphemmodell, nämlich Hidden Markov Modelle für Einzelworterkennung 110 im Rahmen der Einzelworterkennung verwendet werden. Es ist in diesem Zusammenhang anzumerken, dass die Graphemmodelle für die Einzelworterkennung und für die Mehrworterkennung dieselben sein können.
Für das Textmodell zur Einzelworterkennung wird die oben angenommene Trainingsmenge in einer veränderten Form zum Training des Textmodells 109 eingesetzt. Die einzelnen Worte des Satzes werden dazu in einzelne Wörter unterteilt, das heißt es ergibt sich anschaulich folgende Trainingsmenge:
Ein
Trigramm-Sprachmodell
besteht
aus
relativen
Trigramm-,
Bigramm-
und
Unigramm-Häufigkeiten.
Es ergeben sich im Vergleich zur Trainingsmenge für das Textmodell zur Mehrworterkennung folgende Kontextkombinationen:
(n|i,E), (i|r,T), (g|i,r), (r|g,i) (a|r,g), (m|m,a) (-|m,m), . . .
Die Hidden Markov Modelle sowohl für die Mehrworterkennung als auch für die Einzelworterkennung werden gemäß dem aus [1] bekannten Verfahren trainiert.
Es ist in diesem Zusammenhang zu betonen, dass nicht unbedingt Hidden Markov Modelle als Zeichenmodelle verwendet werden müssen. Es sollte lediglich sichergestellt werden, dass während der Handschrifterkennung die verwendeten Graphemmodelle möglichst effizient gemeinsam mit dem jeweils verwendeten Textmodell ausgewertet werden können. Die Einstellung der Modellparameter für die Hidden Markov Modelle, die jeweils ein Graphem darstellen, werden, wie oben dargelegt, anhand von Trainingsbeispielen geschätzt. Neben dem in [1] beschriebenen Verfahren können auch beliebige andere Verfahren, die unter anderem in [4] beschrieben sind, eingesetzt werden.
Die Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge wird gemäß folgender Vorschrift gebildet:
Mit s wird ein frei einstellbarer Gewichtungsparameter bezeichnet. Mit diesem Gewichtungsparameter s kann eine anwendungsabhängige Feineinstellung erfolgen bzw. es können verschiedene Wertebereiche, die die einzelnen Modelle liefern, angeglichen werden.
Anhand Fig. 3 wird die Dekodierung der statistischen Modelle, das heißt die Erkennung mit Hilfe der statistischen Modelle beschrieben. Hierzu wird der in [3] beschriebene Stack-Decoder eingesetzt.
Nachfolgend wird die Arbeitsweise des Stack-Decoders im zeitsynchronen Modus beschrieben.
Fig. 3 zeigt eine Zeitachse 301, auf der einzelne Abtastzeitpunkte 302 dargestellt sind. In einem ersten Schritt wird für jeden Abtastzeitpunkt t, zu dem ein Merkmalsvektor aus dem Schriftzug 202 extrahiert worden ist, ein leerer Stack 303 zugeordnet, der später im Laufe der Dekodierung mit Werten aufgefüllt wird, die im weiteren als Hypothesen bezeichnet werden. Als Hypothese H wird eine Teildekodierung der jeweiligen Zeichenfolge bis zu dem betrachteten Abtastzeitpunkt tH bezeichnet. Die Hypothese H besteht aus der hypothesenspezifischen Folge CH von Zeichen c. Die hypothesenspezifische, Zeichenfolge sowie ein bedingter Auftrittswahrscheinlichkeitswert der Hypothese ScH wird auf dem Stack 303 des entsprechenden Abtastzeitpunktes tH abgelegt, das heißt gespeichert.
Der bedingte Auftrittswahrscheinlichkeitswert der Hypothese ScH wird entsprechend der Vorschriften (4) und (5) berechnet, womit sich folgende Ermittlungsvorschrift ergibt:
ScH = P(CH)s.P(x[1,. . .,tH]|CH). (6)
Die bedingte Auftrittswahrscheinlichkeit P(X[t',. . .,t"]|C) für die Merkmalssequenz X[t',. . .,t'] bei Auftreten des Zeichens c wird dabei mittels der sogenannten Viterbi-Approximation sowie einer zeitsynchronen Strahlsuche gemäß [4] bestimmt. Die Hypothesen H werden auf den jeweiligen Stacks nach ihrer Auftrittswahrscheinlichkeit in aufsteigender Reihenfolge abgespeichert, so dass bei stapelorientierter Verarbeitung die jeweils wahrscheinlichste Hypothese Hi (th) immer vorrangig verarbeitet wird. Nachdem ein zu bearbeitender Abtastzeitpunkt t ausgewählt wurde, wird geprüft, ob der ausgewählte Abtastzeitpunkt schon dem Ende des erfaßten Schriftzuges 202 entspricht (t = u).
Ist dies der Fall, so wird die innerhalb des Stapelmodells vorrangige Hypothese zum Abtastzeitpunkt u als das Erkennungsergebnis ausgegeben (Schritt 111).
Anderenfalls wird mit der Expansion des Stapels fortgefahren, indem die Hypothese des zeitlich nächsten Stacks unter Berücksichtigung von Graphem- und Textmodell um ein Zeichen ci(k) verlängert wird. Auf diese Weise entstehen neue Hypothesen, die auf den entsprechenden nachfolgenden Stacks gespeichert werden. Potentielle Wortenden definieren neue Hypothesen, die dem jeweiligen Stack zugefügt werden.
Die Schritte der Auswahl des Stacks der Überprüfung, ob das Ende des Schriftzugs erreicht wurde, die Ermittlung der neuen Auftrittswahrscheinlichkeitswerte der Hypothesen werden so lange für einen neu ausgewählten Zeitpunkt t' als aktuellen Abtastzeitpunkt t (t' < t) fortgesetzt, bis das Ende des erfaßten Schriftzugs 202 erreicht ist.
Wie in [3] dargelegt ist, muß nicht jeder Abtastzeitpunkt und damit nicht jeder initialisierte Stack tatsächlich ausgewählt und im Rahmen der Dekodierung berücksichtigt werden.
Es können die in den [3] dargelegten Auswahlmechanismen eingesetzt werden um den Dekodierungsprozeß und damit das Verfahren zur Handschrifterkennung wesentlich zu beschleunigen.
So können zum Beispiel erst die nachfolgenden Stacks selektiert werden, deren beste Hypothesen einen Wert der Auftrittswahrscheinlichkeit aufweisen, der größer ist als ein vorgebbarer Schwellenwert. Außerdem können zeitlich benachbarte Stacks teilweise übersprungen werden, da davon ausgegangen werden kann, daß sich in zeitlich benachbarten Stacks überwiegend ähnliche Hypothesen befinden, deren Auswertung vernachlässigt werden kann ohne allzu große Fehler zu erzeugen. Zusätzliche Pruningmechanismen können auch in der Strahlsuche zur Einzelworterkennung eingesetzt werden, so daß auch auf dieser Ebene eine weitere Beschleunigung der Einzelworterkennung erreicht wird.
Im weiteren werden einige Alternativen zum oben dargelegten Ausführungsbeispiel aufgezeigt:
Die Graphemmodelle können sowohl kontextabhängig als auch kontextunabhängig trainiert werden, das heißt es kann bzw. können sowohl lediglich ein Modell pro Buchstabe bzw. Zeichen im kontextunabhängigen Fall als auch, im kontextabhängigen Fall, abhängig von der Kombination benachbarter Zeichen, mehrere Modelle für einen Buchstaben verwendet werden.
Zum Schätzen der Parameter der Hidden Markov Modelle können beispielsweise eingesetzt werden der sogenannte EM-Algorithmus, z. B. das sogenannte Viterbi-Training oder auch der sogenannte Baum-Welch-Algorithmus.
Die Hidden Markov Modelle können alternativ auch diskriminativ trainiert werden.
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] J. Makhoul et al. Online Cursive Handwriting Recognision Using Hidden Markov Models and Statistical Grammars, Proceedings of the Human Language Technology Workshop, P. 432-436, Plainsboro, New Jersey, March 1994;
[2] K. S. Nathan et al. Real-Time On-Line Unconstrained Handwriting Recognition Using Statistical Methods, Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol. 4, P. 2916-2622, Detroit, Michigan, 1995;
[3] D. Willett, C. Neukirchen und G. Rigoll, DUCODE - Der Stackdekoder, Technical Report, Mercator University Duisburg, Forschungsbereich Technische Informatik, 1998, erhältlich im Internet am 01. 12. 1999 unter der Adresse:
http://www.fb9-ti-uni-duisburg-de;
[4] E. G. Schukat-Talamazzini, Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, S. 121-163 und S. 231-269, 1995.

Claims (12)

1. Datenverarbeitungsverfahren zum Erkennen einer zu erkennenden Zeichenfolge,
  • - bei dem die zu erkennende Zeichenfolge rechnergestützt erfaßt wird,
  • - bei dem die erfaßte Zeichenfolge einem Zeichenfolgeerkennungsverfahren unterzogen wird, in dem verwendet werden:
  • - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
  • - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
  • - bei dem in dem Zeichenfolgeerkennungsverfahren aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt wird, und
  • - bei dem eine Zeichenfolge als erkannte Zeichenfolge ausgegeben wird, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
2. Verfahren nach Anspruch 1, bei dem die zu erkennende Zeichenfolge ein von einem Benutzer handschriftlich eingegebener Schriftzug ist.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Folge vorangegangener Zeichen mehrere Zeichen enthält.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem als statistisches Zeichenmodell ein Hidden Markov Modell eingesetzt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X das Prinzip der dynamischen Programmierung eingesetzt wird.
6. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die Viterbi-Approximation eingesetzt wird.
7. Verfahren nach einem der Ansprüche 1 bis 4, bei dem zum Berechnen der bedingten Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die Strahlsuche eingesetzt wird.
8. Verfahren nach einem der Ansprüche 1 bis 7,
  • - bei dem die erfaßte Zeichenfolge abgetastet wird,
  • - bei dem die zu jedem Abtastzeitpunkt t, t = 0, . . ., u, aus der abgetasteten Zeichenfolge ein Merkmalsvektor gebildet wird, wobei mit u eine Anzahl von Abtastzeitpunkten der zu erkennenden Zeichenfolge bezeichnet wird,
  • - bei dem zu einem ersten Abtastzeitpunkt t = 0 für jedes Zeichen c des Textmodells eine Auftrittswahrscheinlichkeit für das Zeichen c berechnet wird,
  • - bei dem das Zeichenfolgeerkennungsverfahren für die Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte aufweist:
  • - für zumindest einen Teil der Zeichen c des Textmodells wird mittels des Zeichenmodells und des Textmodells mindestens eine Zwischenauftrittswahrscheinlichkeit des aktuellen Abtastzeitpunkts t berechnet, mit der angegeben wird, wie wahrscheinlich die jeweilige Zwischenzeichenfolge ist, die das entsprechende Zeichen c des aktuellen Abtastzeitpunkts t sowie eine Folge vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten aufweist,
  • - die Berechnung erfolgt in absteigender Reihenfolge gespeicherter Zwischenauftrittswahrscheinlichkeiten von Folgen vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten,
  • - die Zwischenauftrittswahrscheinlichkeiten des aktuellen Abtastzeitpunkts t, die größer sind als ein vorgegebener Schwellenwert, werden gespeichert,
  • - es werden die Schritte a) bis c) für einen weiteren Abtastzeitpunkt t', mit t' < t als neuen aktuellen Abtastzeitpunkt t so lange wiederholt, bis der letzte Abtastzeitpunkt t = u erreicht ist.
9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem das Verfahren während des Erfassens der zu erkennenden Zeichenfolge begonnen wird.
10. Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge,
mit einem Prozessor, der derart eingerichtet ist, daß folgende Verfahrensschritte durchführbar sind:
  • - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
  • - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
  • - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
  • - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
  • - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
  • - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
11. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Erkennen einer zu erkennenden Zeichenfolge:
  • - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
  • - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
  • - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
  • - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
  • - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
  • - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
12. Computerprogramm-Erzeugnis, das ein computerlesbares Speichermedium umfaßt, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Erkennen einer zu erkennenden Zeichenfolge:
  • - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
  • - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
  • - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
  • - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
  • - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
  • - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
DE19961476A 1999-12-20 1999-12-20 Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis Ceased DE19961476A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19961476A DE19961476A1 (de) 1999-12-20 1999-12-20 Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19961476A DE19961476A1 (de) 1999-12-20 1999-12-20 Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis

Publications (1)

Publication Number Publication Date
DE19961476A1 true DE19961476A1 (de) 2001-07-05

Family

ID=7933433

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19961476A Ceased DE19961476A1 (de) 1999-12-20 1999-12-20 Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis

Country Status (1)

Country Link
DE (1) DE19961476A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013007964A1 (de) 2013-05-10 2014-11-13 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
CN111488737A (zh) * 2019-01-09 2020-08-04 阿里巴巴集团控股有限公司 文本识别方法、装置及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896321A (en) * 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896321A (en) * 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Apple Newton MessagePad-Look and Feel" Funkschau 19/1993, S. 16/17 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013007964A1 (de) 2013-05-10 2014-11-13 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
DE102013007964B4 (de) 2013-05-10 2022-08-18 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
CN111488737A (zh) * 2019-01-09 2020-08-04 阿里巴巴集团控股有限公司 文本识别方法、装置及设备
CN111488737B (zh) * 2019-01-09 2023-04-14 阿里巴巴集团控股有限公司 文本识别方法、装置及设备

Similar Documents

Publication Publication Date Title
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE112010006037B4 (de) Spracherkennungsvorrichtung und Navigationssystem
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3135483C2 (de) Verfahren und Schaltungsanordnung zur Erkennung einer alphanumerischen Eingangszeichenkette
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP1611568B1 (de) Dreistufige einzelworterkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
EP1085499A2 (de) Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE69824063T2 (de) Normalisierung von Sprachsignalen
DE69333762T2 (de) Spracherkennungssystem

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection