DE19961476A1 - Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis - Google Patents
Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-ErzeugnisInfo
- Publication number
- DE19961476A1 DE19961476A1 DE19961476A DE19961476A DE19961476A1 DE 19961476 A1 DE19961476 A1 DE 19961476A1 DE 19961476 A DE19961476 A DE 19961476A DE 19961476 A DE19961476 A DE 19961476A DE 19961476 A1 DE19961476 A1 DE 19961476A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- string
- character string
- model
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
Zur Zeichenerkennung wird anstelle eines üblicherweise verwendeten Lexikons mit einem fest vorbestimmten Wortschatz ein flexibles Textmodell verwendet, mit dem die bedingten Auftrittswahrscheinlichkeiten von Buchstabenfolgen und nicht von Wortfolgen beschrieben werden. Zusätzlich zu den Textmodellen werden Graphemmodelle im Rahmen der Handschrifterkennung eingesetzt. Es können mit diesem Verfahren sowohl ein Einzelworterkennung als auch eine Mehrworterkennung realisiert werden.
Description
Die Erfindung betrifft ein Datenverarbeitungsverfahren und
Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden
Zeichenfolge, insbesondere das Erkennen einer zu erkennenden
Zeichenfolge, sowie ein computerlesbares Speichermedium und
Computerprogramm-Erzeugnis.
Es sind verschiedene Verfahren zur Handschrifterkennung
bekannt, das heißt zur Erkennung eines von einem Benutzer
eingegebenen Schriftzuges, die eine zu erkennende Zeichenfolge
beschreibt.
Die Verfahren zur Handschrifterkennung werden üblicher Weise
unterschieden
- - in ein Verfahren zur Handschrifterkennung, das beginnt, nachdem die gesamte zu erkennende Zeichenfolge eingegeben worden ist (Offline Handschrifterkennung), und
- - in ein Verfahren, bei dem das Erkennungsverfahren schon begonnen wird während ein Benutzer die zu erkennende Zeichenfolge noch eingibt und die zu erkennende Zeichenfolge noch nicht vollständig eingegeben worden ist (Online Handschrifterkennung).
Ein Verfahren der letzteren Art wird im weiteren als Online-
Verfahren zur Handschrifterkennung bezeichnet. Bei einem
Online-Verfahren wird üblicherweise eine Bewegung des Stiftes,
das der Benutzer zur Eingabe des Schriftzuges verwendet,
während der Eingabe, abgetastet. Die Gesamtbewegung des Stiftes
beschreibt die zu erkennende Zeichenfolge.
Die zu erkennende Zeichenfolge wird aufgrund der Abtastung als
zeitliche Sequenz X von Abtastwerten dargestellt.
Aus [1] und [2] ist zur Online-Handschrifterkennung bekannt,
einzelne Zeichen, beispielsweise Buchstaben, mit einem Hidden
Markov Modell anhand von Trainingsdaten zu modellieren. Bei
diesem Verfahren ist ein Lexikon gespeichert, in dem die zur
Verfügung stehenden Worte des Wortschatzes definiert sind. Ein
gültiges Wort des Lexikons ist durch die Folge seiner
Buchstaben bzw. der Folge der entsprechend trainierten Hidden
Markov Modelle beschrieben. Mittels der sogenannten Viterbi-
Dekodierung wird zur Erkennung eines neuen Wortes, das durch
die Abtastsequenz X der eingegebenen Zeichenfolge repräsentiert
ist, das wahrscheinlichste Wort Wbest aus allen Worten W des
Lexikons ermittelt gemäß folgender Vorschrift:
Die Suche im Rahmen der Viterbi-Dekodierung erfolgt
üblicherweise unter Berücksichtigung des zur Verfügung
stehenden Lexikons um den Berechnungsaufwand zur Ermittlung des
wahrscheinlichsten Wortes Wbest zu begrenzen und die Fehlerrate
zu minimieren.
Für die Erkennung eines ganzen Satzes oder von Wortfolgen ist
es bekannt, zusätzlich sogenannte Sprachmodelle einzusetzen.
Sprachmodelle sind Wahrscheinlichkeiten für vorgegebene
bestimmte Wortfolgen W, die gemäß folgender Vorschrift gebildet
werden:
wobei mit P(wi|wi-N+1, . . ., wi-1) eine Wahrscheinlichkeit dafür
bezeichnet wird, dass das Wort wi der Wortfolge wi-N+1, . . ., wi-1
folgt. Mit N wird die sogenannte Kontexttiefe des verwendeten
statistischen Modells bezeichnet, das heißt die Anzahl
vorangegangener Worte, die bei der Ermittlung der bedingten
Wahrscheinlichkeit gemäß Vorschrift (2) für das jeweilige Wort
berücksichtigt werden.
Mit der Viterbi-Dekodierung werden bei der Erkennung der zu
erkennenden Zeichenfolge das Sprachmodell und die Hidden Markov
Modelle gleichzeitig ausgewertet. Als Ergebnis des Online-
Verfahrens zur Handschrifterkennung wird diejenige Wortfolge
als erkannte Wortfolge ausgegeben, deren
Gesamtauftrittswahrscheinlichkeit größer ist als ein
Vergleichswert. Die Gesamtauftrittswahrscheinlichkeit der
Wortfolge wird gemäß folgender Vorschrift gebildet:
Mit s wird ein frei einstellbarer Gewichtungsparameter
bezeichnet. Mit diesem Gewichtungsparameter s kann eine
anwendungsabhängige Feineinstellung erfolgen bzw. es können
verschiedene Wertebereiche, die die einzelnen Modelle liefern,
angeglichen werden.
Nachteilig an dieser Vorgehensweise ist insbesondere, dass mit
diesem Verfahren lediglich ganze Worte erkannt werden können
und statistische Zusammenhänge über Wortgrenzen hinweg,
beispielsweise Leerzeichen zwischen zwei Worten oder auch
Satzzeichen, nicht berücksichtigt werden.
Ein weiterer erheblicher Nachteil dieses Verfahrens ist darin
zu sehen, dass ein Lexikon mit einem fest vorgegebenen
Wortschatz eingesetzt wird. Dies macht ein solches
Handschrifterkennungssystem unflexibel hinsichtlich Worten, die
nicht in dem vorgegebenen Wortschatz enthalten sind.
Weiterhin ist es bekannt, bei Verzicht auf ein fest
vorgegebenes Lexikon lediglich die Eingabe einzelner,
druckschriftähnlicher Buchstaben und somit nicht die Eingabe
eines Wortes in einem zusammenhängenden Schriftzug, zu
verarbeiten. Bei einem solchen Verfahren werden die Buchstaben
einzeln erkannt und später aneinandergereiht, wodurch Worte und
Sätze gebildet werden.
Ein erheblicher Nachteil dieses Verfahrens ist darin zu sehen,
dass nicht Worte in einem durchgängigen Schriftzug eingegeben
werden können, was zu einer erheblichen Komfortnachteil in der
Bedienbarkeit des Handschrifterkennungssystems führt.
Aus [3] ist ein System zur Dekodierung eines statistischen
Modells bekannt, der auch als Stack-Decoder bezeichnet wird.
Aus [4] sind weiterhin verschiedene statistische Verfahren zum
Trainieren und zum Auswerten von Hidden Markov Modellen
bekannt, jedoch beschrieben für Hidden Markov Modelle zur
Spracherkennung. Die entsprechenden Verfahren, beispielsweise
der Viterbi-Algorithmus, die sogenannte Strahlsuche oder auch
Verfahren der dynamischen Programmierung können ohne weiteres
auch für das Training sowie für die Auswertung von Hidden
Markov Modellen im Rahmen der Handschrifterkennung eingesetzt
werden.
Der Erfindung liegt das Problem zugrunde, ein Verfahren sowie
eine Vorrichtung zum Erkennen einer zu erkennenden Zeichenfolge
anzugeben, das zum einen kein fest vorgegebenes Lexikon
benötigt und zum anderen die Verarbeitung einer Zeichenfolge
als zusammenhängender Schriftzug für ein ganzes Wort
ermöglicht.
Bei einem Verfahren zum Erkennen einer zu erkennenden
Zeichenfolge wird die zu erkennende Zeichenfolge erfaßt,
beispielsweise mittels eines Digitalisiertabletts, das eine
Eingabe eines Schriftzuges durch einen Benutzer mittels eines
Stifts, der über das Digitalisiertablett geführt wird, erfaßt.
Die erfaßte Bewegung, die den Schriftzug bildet, wird
digitalisiert, das heißt, abgetastet und die abgetasteten Werte
werden als erfaßte Zeichenfolge weiterverarbeitet. Die erfaßte
Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren
unterzogen. Im Rahmen des Erkennungsverfahrens werden ein
statistisches Zeichenmodell sowie ein statistisches Textmodell
(auch als N-Gramm bezeichnet) eingesetzt. Das Zeichenmodell
enthält für jede darin enthaltene Merkmalsfolge X eine bedingte
Auftrittswahrscheinlichkeit P(X|c) unter der Bedingung, dass
ein Zeichen c vorliegt. Das statistische Textmodell enthält für
jedes in dem Textmodell enthaltene Zeichen c eine bedingte
Auftrittswahrscheinlichkeit für das Zeichen c unter der
Bedingung, dass eine bestimmte Folge vorangegangener Zeichen
vorliegt. Mittels des Zeichenmodells und des Textmodells wird
für jede in dem Erkennungsverfahren berücksichtigte
Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit ermittelt
und es wird diejenige Zeichenfolge als erkannte Zeichenfolge
ausgegeben, deren Gesamtauftrittswahrscheinlichkeit größer ist
als ein Vergleichswert.
In diesem Dokument wird als Textmodell ein statistisches Modell
bezeichnet, das nicht auf der Basis ganzer Worte, sondern auf
der Basis von Einzelzeichen, insbesondere von Buchstaben,
trainiert wird. Obwohl das Textmodell ähnlich strukturiert ist
wie ein Sprachmodell, beschreibt das Textmodell nicht die
Wahrscheinlichkeiten von Wortfolgen, sondern die von
Einzelzeichenfolgen, das heißt insbesondere von
Buchstabensequenzen.
Es ist darauf hinzuweisen, dass der Vergleichswert sowohl ein
relativer Wert sein kann als auch ein absoluter Wert. Ist der
Vergleichswert ein relativer Wert, so wird beispielsweise
diejenige Zeichenfolge als erkannte Zeichenfolge ausgegeben,
deren Gesamtwahrscheinlichkeit größer ist als die aller anderen
Zeichenfolgen, für die eine Gesamtwahrscheinlichkeit ermittelt
worden ist. Es können auch eine vorgebbare Anzahl der "besten"
Zeichenfolgen ausgewählt werden. Ist der Vergleichswert ein
absoluter Wert, so wird beispielsweise eine Zeichenfolge als
erkannte Zeichenfolge ausgegeben, wenn ihre
Gesamtwahrscheinlichkeit größer ist als ein frei vorgegebbarer
Wert.
Da es möglich ist, mit dem Textmodell statistische
Zusammenhänge über Wortgrenzen hinweg zu erfassen, sind auch
Auftrittswahrscheinlichkeiten von Wortgrenzen im Textmodell
implizit enthalten. Dies führt dazu, dass sowohl eine Erkennung
ganzer Sätze bzw. von Wortfolgen möglich ist als auch die
Erkennung einzelner Worte. Somit ist durch die Erfindung eine
erhebliche Verbesserung der Flexibilität im Rahmen der
Erkennung einer Zeichenfolge erreicht.
Ein weiterer Vorteil ist darin zu sehen, dass die Erfindung
nicht mehr auf ein fest vorgegebenes Lexikon angewiesen ist,
womit eine weitere erhebliche Flexibilitätssteigerung im Rahmen
der Zeichenerkennung, insbesondere einer Handschrifterkennung,
erreicht wird.
Durch die Erfindung wird erstmals eine automatische
schreiberunabhängige Handschrifterkennung ermöglicht ohne
besondere Voraussetzungen bezüglich des verwendeten Vokabulars,
das heißt ohne dass ein fest vorgegebenes Lexikon benötigt
wird. Auch existieren keine besonderen Voraussetzungen
bezüglich der bei der Eingabe zu verwendenden Schriftart, das
heißt von einem Benutzer kann nunmehr auch Text unter
Verwendung miteinander verbundener Buchstaben eingegeben
werden.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den
abhängigen Ansprüchen.
Die im weiteren beschriebenen Ausgestaltungen beziehen sich
sowohl auf das Verfahren, die Vorrichtung, das computerlesbare
Speichermedium, sowie das Computerprogramm-Erzeugnis.
Die einzelnen Verfahrensschritte können sowohl mittels eines
Computerprogrammes als auch mittels einer speziellen
elektronischen Schaltung realisiert werden.
In einer Ausgestaltung ist die zu erkennende Zeichenfolge ein
von einem Benutzer handschriftlich eingegebener Schriftzug.
In dem statistischen Textmodell können in der Folge
vorangegangener Zeichen mehrere, auch mehr als zwei Zeichen
berücksichtigt werden zur Ermittlung der bedingten
Auftrittswahrscheinlichkeit für ein Zeichen c. Es kann eine
beliebige Kontexttiefe berücksichtigt werden. Um Zeichenfolgen
zu erkennen, deren Gesamtlänge kleiner als die verwendete
Kontexttiefe des Textmodells ist, können sogenannte "Back-off"
N-Gramme verwendet werden. Diese beschreiben ein Zeichen c in
einem kleineren Kontext, bis hin zur Kontextunabhängigkeit.
Damit ist auch die Erkennung von singulären Zeichen ermöglicht.
Insbesondere bei einer großen Kontexttiefe ist es vorteilhaft,
die erfaßte Zeichenfolge abzutasten und zu jedem
Abtastzeitpunkt t (t = 0, . . ., u) aus der abgetasteten
Zeichenfolge einen Merkmalsvektor zu bilden. Mit u wird eine
Anzahl von Abtastzeitpunkten innerhalb der zu erkennenden
Zeichenfolge bezeichnet. Zu einem ersten Abtastzeitpunkt t = 0
wird für jedes Zeichen c des Textmodells eine
Auftrittswahrscheinlichkeit für das jeweilige Zeichen
berechnet. Das Zeichenfolgeerkennungsverfahren weist für die
Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte auf,
die in iterativer Weise durchgeführt werden. In einem ersten
Schritt (Schritt a)) wird für zumindest einen Teil der Zeichen
des Textmodells mittels des Zeichenmodells und des Textmodells
eine Zwischenauftrittswahrscheinlichkeit zu dem aktuellen
Abtastzeitpunkt t ermittelt. Mit der
Zwischenauftrittswahrscheinlichkeit wird jeweils angegeben, wie
wahrscheinlich das Auftreten der Zwischenzeichenfolge ist, die
das jeweilige Zeichen zu dem aktuellen Abtastzeitpunkt sowie
die Folge berücksichtigter vorangegangener Zeichen zu
vorangegangenen Abtastzeitpunkten enthält. Die Berechnung
erfolgt in absteigender Reihenfolge gespeicherter
Zwischenauftrittswahrscheinlichkeiten von Zeichenfolgen
vorangegangener Abtastzeitpunkte. Die
Zwischenauftrittswahrscheinlichkeiten zu dem aktuellen
Abtastzeitpunkt t, die größer sind als ein vorgegebener
Schwellenwert, werden gespeichert. Diese Verfahrensschritte
werden so lange für einen weiteren Abtastzeitpunkt t' (t' < t)
als neuen aktuellen Abtastzeitpunkt t wiederholt, bis der
letzte Abtastzeitpunkt u erreicht ist. Durch diese
Vorgehensweise, die der Realisierung des Stack-Decoders aus [3]
entspricht, wird eine sehr effiziente Ermittlung der
Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge erreicht,
womit eine Erkennung einer Zeichenfolge auch mit einer sehr
großen Kontexttiefe ermöglicht wird, die erheblich größer als
die Kontexttiefe ist, die mit einem üblichen Viterbi
Dekodierungsverfahrens erreicht werden kann.
Mit der Erkennung kann schon begonnen werden, während der
Benutzer noch sein zu erkennendes Wort als Schriftzug eingibt,
das heißt das Verfahren kann schon begonnen werden, obwohl die
zu erkennende Zeichenfolge noch nicht vollständig erfaßt worden
ist.
Als statistisches Zeichenmodell kann ein Hidden Markov Modell
eingesetzt werden. Es ist in diesem Zusammenhang darauf
hinzuweisen, dass grundsätzlich jedes allgemeine statistische
Graphemmodell verwendet werden kann, mit dem die bedingte
Wahrscheinlichkeit P(X|c) der Zeichenfolge X unter der
Bedingung, dass das Zeichen c vorliegt, eingesetzt werden kann.
Beispielsweise können auch TDNN (Time Delay Neural Network)
oder sämtliche Arten von Hidden Markov Modellen, z. B.
kontinuierliche, diskrete oder hybride Hidden Markov Modelle
eingesetzt werden.
Zur Berechnung der bedingten Auftrittswahrscheinlichkeiten
einer Merkmalsfolge X kann beispielsweise das Prinzip der
dynamischen Programmierung, eine sogenannte Viterbi-
Approximation oder auch das Verfahren gemäß der Strahlsuche
(wie in [4] beschrieben) eingesetzt werden.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren
dargestellt und wird im weiteren näher erläutert.
Es zeigen
Fig. 1 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte des bevorzugten Ausführungsbeispiels
dargestellt sind;
Fig. 2 eine Skizze eines Systems zur Handschrifterkennung mit
einem Digitalisiertablett und einer Erkennungseinheit
zur Durchführung der Handschrifterkennung;
Fig. 3 eine Skizze, in der das Prinzip der Erkennung einer
Zeichenfolge unter Verwendung des Stack-Decoders
dargestellt ist.
Fig. 2 zeigt eine Vorrichtung 200 zum Erkennen eines von einem
Benutzer mittels eines Stiftes 201 eingegebenen Schriftzugs
202.
Der Benutzer führt den Stift 201 über ein Digitalisiertablett
203. Alternativ kann anstelle des Digitalisiertabletts auch ein
Display mit integriertem Sensor zum Erfassen des Schriftzuges
oder ein System eingesetzt werden, in dem die Sensorik zum
Erfassen des Schriftzuges in dem Stift selbst integriert ist.
In vorgegebenen Zeitabständen wird die Bewegung des Stiftes 201
mittels Sensoren des Digitalisiertabletts 203 erfaßt, das heißt
der Schriftzug 202 wird abgetastet.
Die Abtastrate zur Abtastung des Schriftzuges beträgt 100 Hz.
Das Digitalisiertablett 203 ist über eine Verbindung 204,
beispielsweise ein Kabel, mit einer Eingangs-/Aus
gangsschnittstelle 205 eines Computers 206 verbunden. Mit
der Eingans-/Ausgansschnittstelle 205 ist über einen Bus 207
ein Speicher 208 sowie eine Recheneinheit, beispielsweise ein
Prozessor 209 verbunden. Es ist anzumerken, dass die gesamte
Recheneinheit sowie der Speicher, das heißt die Elemente des
Computers 206 auch in dem Digitalisiertablett 203 selbst
integriert sein können.
Die ermittelten Abtastwerte sowie daraus gebildete
Merkmalsvektoren werden in dem Speicher 208 gespeichert. Das im
weiteren beschriebene und in Fig. 1 dargestellte Verfahren wird
von dem Prozessor 209 durchgeführt.
Wie in Fig. 1 dargestellt ist, wird in einem ersten Schritt
(Schritt 101) von dem Benutzer des Digitalisiertabletts, das in
diesem Fall die Vorrichtung zur Erkennung der Zeichenfolge
darstellt, ein Erkennungsmodus für die Handschrifterkennung
ausgewählt.
In dem Ausführungsbeispiel stehen zwei Erkennungsmodi zur
Verfügung.
Bei einem ersten Modus, der im weiteren als
Mehrworterkennungsmodus bezeichnet wird, erfolgt die
Handschrifterkennung über Wortgrenzen hinweg, so dass sogar
eine Erkennung ganzer Sätze erfolgen kann, wie im weiteren
näher dargelegt wird.
Bei einem zweiten Erkennungsmodus, im weiteren als
Einzelworterkennungsmodus bezeichnet, erfolgt eine isolierte
Erkennung einzelner Worte, allerdings unter Berücksichtigung
der zusätzlichen Erkennung von Satzzeichen.
In einem zweiten Schritt (Schritt 102) wird der von dem
Benutzer über den Stift 201 eingegebene Schriftzug 202 erfaßt.
Die Erfassung erfolgt mittels zeitlicher Abtastung der Bewegung
des Stifts 201, die durch Sensoren in dem Digitalisiertablett
detektiert wird. Zu jedem Abtastzeitpunkt wird die jeweilige
Ortskoordinate innerhalb des Digitalisiertabletts 203 erfaßt,
an der sich der Stift 201 zu dem jeweiligen Abtastzeitpunkt
befindet.
In einem weiteren Schritt (Schritt 103) wird zu dem jeweiligen
Abtastzeitpunkt ein Merkmalsvektor gebildet, dessen Komponenten
unter Berücksichtigung von Merkmalsvektoren vorangegangener
Abtastzeitpunkte gebildet wird. Jeder Merkmalsvektor weist
einen ebenfalls zu dem jeweiligen Abtastzeitpunkt erfaßten
Schreibwinkel Θn auf. Mit dem Schreibwinkel Θn wird der Winkel
bezeichnet zwischen der Tangente an die aktuellen
Schreibrichtung und einer Referenzachse, im vorliegenden Fall
einer in Bezug auf das Digitalisiertablett 203 bezogene
horizontale Achse. Weiterhin weist der Merkmalsvektor einen
Differenzwinkel auf, der gebildet wird aus der Differenz des
Schreibwinkels Θn zu dem aktuellen Abtastzeitpunkt und dem
Schreibwinkel Θn-1 des vorangegangenen Abtastzeitpunktes.
Nachdem zumindest einige Merkmalsvektoren gebildet worden sind,
wird in einem weiteren Schritt (Schritt 104) überprüft, welcher
Erkennungsmodus in dem ersten Schritt (Schritt 101) ausgewählt
worden ist.
Ist der erste Erkennungsmodus der Mehrworterkennung ausgewählt
worden, so wird in einem weiteren Schritt (Schritt 105) ein
Verfahren zur Mehrworterkennung durchgeführt.
Für dieses Verfahren wird ein zuvor gebildetes und in dem
Speicher 208 gespeichertes Textmodell 106 für die
Mehrworterkennung eingesetzt. Weiterhin wird ein ebenfalls in
einer vorangegangenen Trainingsphase trainiertes statistisches
Graphemmodell, im vorliegenden Fall Hidden Markov Modelle 107
für die Mehrworterkennung, verwendet.
Das Textmodell - sowohl für die Mehrworterkennung als auch für
die im späteren beschriebene Einzelworterkennung - beschreibt
allgemein die Auftrittswahrscheinlichkeit P(ci|ci-N+1, . . ., ci-1)
eines Buchstabens ci unter der Bedingung einer bestimmten, dem
Buchstaben ci vorausgehenden Buchstabenfolge ci-N+1, . . ., ci-1.
Die Auftrittswahrscheinlichkeit einer Zeichenfolge
C = (c1, . . ., cm) wird gemäß folgender Vorschrift ermittelt:
wobei mit N die Kontexttiefe des verwendeten Textmodells
bezeichnet wird, das heißt die Anzahl der zur Ermittlung der
bedingten Wahrscheinlichkeit berücksichtigten vorangegangenen
Buchstaben bzw. Zeichen.
Die Struktur des Textmodells ähnelt der Struktur des oben
dargestellten Sprachmodelles. Es können in diesem Zusammenhang
zur Optimierung des Textmodells auch grundsätzlich alle
bekannten Verfahren zur Optimierung eines Sprachmodells
eingesetzt werden.
Anhand des folgenden Beispielsatzes wird das Training des
Textmodells und die dazu verwendeten Trainingsdaten erläutert.
Es wird angenommen, dass die Trainingsmenge für das Textmodell
aus folgendem Satz besteht:
Ein Trigramm-Sprachmodell besteht aus relativen Trigramm-,
Bigramm- und Unigramm-Häufigkeiten.
Für die Mehrworterkennung wird in diesem Zusammenhang der
gesamte Satz als Trainingsmenge verwendet. Für das Beispiel
eines Textmodells mit einer Kontexttiefe N = 3 ergeben sich für
die Trainingsmenge beginnend bei dem ersten Buchstaben "n" des
Wortes "Ein" folgende Kontextkombinationen:
(n|i,E), (<sp<|n,i), (T|<sp<,n), (r|T,<sp<), (i|r,T), (g|i,r),
(r|g,i) (a|r,g), (m|a,r), (m|m,a), (-|m,m) (S|-,m), (p|S,-),
. . .
Mit <sp< wird eine Wortgrenze bezeichnet.
Dieses Beispiel macht deutlich, dass bei entsprechend großer
Kontexttiefe statistische Zusammenhänge über Wortgrenzen hinaus
erfaßt werden. Sogar Satzzeichen, deren Einfluß auf eine
spezielle Orthografie und der Einfluß von Wortgrenzen auf eine
spezielle Orthografie eines Begriffes werden durch solche
Trainingsdaten mit berücksichtigt.
Ist der zweite Erkennungsmodus, das heißt die
Einzelworterkennung ausgewählt worden, so wird in einem
weiteren Schritt (Schritt 108) ein Verfahren zur
Einzelworterkennung durchgeführt, das im wesentlichen dem im
weiteren beschriebenen Verfahren zur Mehrworterkennung
entspricht mit dem Unterschied, dass ein anderes Textmodell,
nämlich ein Textmodell für Einzelworterkennung 109 sowie ein
anderes Graphemmodell, nämlich Hidden Markov Modelle für
Einzelworterkennung 110 im Rahmen der Einzelworterkennung
verwendet werden. Es ist in diesem Zusammenhang anzumerken,
dass die Graphemmodelle für die Einzelworterkennung und für die
Mehrworterkennung dieselben sein können.
Für das Textmodell zur Einzelworterkennung wird die oben
angenommene Trainingsmenge in einer veränderten Form zum
Training des Textmodells 109 eingesetzt. Die einzelnen Worte
des Satzes werden dazu in einzelne Wörter unterteilt, das heißt
es ergibt sich anschaulich folgende Trainingsmenge:
Ein
Trigramm-Sprachmodell
besteht
aus
relativen
Trigramm-,
Bigramm-
und
Unigramm-Häufigkeiten.
Trigramm-Sprachmodell
besteht
aus
relativen
Trigramm-,
Bigramm-
und
Unigramm-Häufigkeiten.
Es ergeben sich im Vergleich zur Trainingsmenge für das
Textmodell zur Mehrworterkennung folgende Kontextkombinationen:
(n|i,E), (i|r,T), (g|i,r), (r|g,i) (a|r,g), (m|m,a)
(-|m,m), . . .
Die Hidden Markov Modelle sowohl für die Mehrworterkennung als
auch für die Einzelworterkennung werden gemäß dem aus [1]
bekannten Verfahren trainiert.
Es ist in diesem Zusammenhang zu betonen, dass nicht unbedingt
Hidden Markov Modelle als Zeichenmodelle verwendet werden
müssen. Es sollte lediglich sichergestellt werden, dass während
der Handschrifterkennung die verwendeten Graphemmodelle
möglichst effizient gemeinsam mit dem jeweils verwendeten
Textmodell ausgewertet werden können. Die Einstellung der
Modellparameter für die Hidden Markov Modelle, die jeweils ein
Graphem darstellen, werden, wie oben dargelegt, anhand von
Trainingsbeispielen geschätzt. Neben dem in [1] beschriebenen
Verfahren können auch beliebige andere Verfahren, die unter
anderem in [4] beschrieben sind, eingesetzt werden.
Die Gesamtauftrittswahrscheinlichkeit einer Zeichenfolge wird
gemäß folgender Vorschrift gebildet:
Mit s wird ein frei einstellbarer Gewichtungsparameter
bezeichnet. Mit diesem Gewichtungsparameter s kann eine
anwendungsabhängige Feineinstellung erfolgen bzw. es können
verschiedene Wertebereiche, die die einzelnen Modelle liefern,
angeglichen werden.
Anhand Fig. 3 wird die Dekodierung der statistischen Modelle,
das heißt die Erkennung mit Hilfe der statistischen Modelle
beschrieben. Hierzu wird der in [3] beschriebene Stack-Decoder
eingesetzt.
Nachfolgend wird die Arbeitsweise des Stack-Decoders im
zeitsynchronen Modus beschrieben.
Fig. 3 zeigt eine Zeitachse 301, auf der einzelne
Abtastzeitpunkte 302 dargestellt sind. In einem ersten Schritt
wird für jeden Abtastzeitpunkt t, zu dem ein Merkmalsvektor aus
dem Schriftzug 202 extrahiert worden ist, ein leerer Stack 303
zugeordnet, der später im Laufe der Dekodierung mit Werten
aufgefüllt wird, die im weiteren als Hypothesen bezeichnet
werden. Als Hypothese H wird eine Teildekodierung der
jeweiligen Zeichenfolge bis zu dem betrachteten Abtastzeitpunkt
tH bezeichnet. Die Hypothese H besteht aus der
hypothesenspezifischen Folge CH von Zeichen c. Die
hypothesenspezifische, Zeichenfolge sowie ein bedingter
Auftrittswahrscheinlichkeitswert der Hypothese ScH wird auf dem
Stack 303 des entsprechenden Abtastzeitpunktes tH abgelegt,
das heißt gespeichert.
Der bedingte Auftrittswahrscheinlichkeitswert der Hypothese
ScH wird entsprechend der Vorschriften (4) und (5) berechnet,
womit sich folgende Ermittlungsvorschrift ergibt:
ScH = P(CH)s.P(x[1,. . .,tH]|CH). (6)
Die bedingte Auftrittswahrscheinlichkeit P(X[t',. . .,t"]|C) für
die Merkmalssequenz X[t',. . .,t'] bei Auftreten des Zeichens c
wird dabei mittels der sogenannten Viterbi-Approximation sowie
einer zeitsynchronen Strahlsuche gemäß [4] bestimmt. Die
Hypothesen H werden auf den jeweiligen Stacks nach ihrer
Auftrittswahrscheinlichkeit in aufsteigender Reihenfolge
abgespeichert, so dass bei stapelorientierter Verarbeitung die
jeweils wahrscheinlichste Hypothese Hi (th) immer vorrangig
verarbeitet wird. Nachdem ein zu bearbeitender Abtastzeitpunkt
t ausgewählt wurde, wird geprüft, ob der ausgewählte
Abtastzeitpunkt schon dem Ende des erfaßten Schriftzuges 202
entspricht (t = u).
Ist dies der Fall, so wird die innerhalb des Stapelmodells
vorrangige Hypothese zum Abtastzeitpunkt u als das
Erkennungsergebnis ausgegeben (Schritt 111).
Anderenfalls wird mit der Expansion des Stapels fortgefahren,
indem die Hypothese des zeitlich nächsten Stacks unter
Berücksichtigung von Graphem- und Textmodell um ein Zeichen
ci(k) verlängert wird. Auf diese Weise entstehen neue
Hypothesen, die auf den entsprechenden nachfolgenden Stacks
gespeichert werden. Potentielle Wortenden definieren neue
Hypothesen, die dem jeweiligen Stack zugefügt werden.
Die Schritte der Auswahl des Stacks der Überprüfung, ob das
Ende des Schriftzugs erreicht wurde, die Ermittlung der neuen
Auftrittswahrscheinlichkeitswerte der Hypothesen werden so
lange für einen neu ausgewählten Zeitpunkt t' als aktuellen
Abtastzeitpunkt t (t' < t) fortgesetzt, bis das Ende des
erfaßten Schriftzugs 202 erreicht ist.
Wie in [3] dargelegt ist, muß nicht jeder Abtastzeitpunkt und
damit nicht jeder initialisierte Stack tatsächlich ausgewählt
und im Rahmen der Dekodierung berücksichtigt werden.
Es können die in den [3] dargelegten Auswahlmechanismen
eingesetzt werden um den Dekodierungsprozeß und damit das
Verfahren zur Handschrifterkennung wesentlich zu beschleunigen.
So können zum Beispiel erst die nachfolgenden Stacks selektiert
werden, deren beste Hypothesen einen Wert der
Auftrittswahrscheinlichkeit aufweisen, der größer ist als ein
vorgebbarer Schwellenwert. Außerdem können zeitlich benachbarte
Stacks teilweise übersprungen werden, da davon ausgegangen
werden kann, daß sich in zeitlich benachbarten Stacks
überwiegend ähnliche Hypothesen befinden, deren Auswertung
vernachlässigt werden kann ohne allzu große Fehler zu erzeugen.
Zusätzliche Pruningmechanismen können auch in der Strahlsuche
zur Einzelworterkennung eingesetzt werden, so daß auch auf
dieser Ebene eine weitere Beschleunigung der
Einzelworterkennung erreicht wird.
Im weiteren werden einige Alternativen zum oben dargelegten
Ausführungsbeispiel aufgezeigt:
Die Graphemmodelle können sowohl kontextabhängig als auch kontextunabhängig trainiert werden, das heißt es kann bzw. können sowohl lediglich ein Modell pro Buchstabe bzw. Zeichen im kontextunabhängigen Fall als auch, im kontextabhängigen Fall, abhängig von der Kombination benachbarter Zeichen, mehrere Modelle für einen Buchstaben verwendet werden.
Die Graphemmodelle können sowohl kontextabhängig als auch kontextunabhängig trainiert werden, das heißt es kann bzw. können sowohl lediglich ein Modell pro Buchstabe bzw. Zeichen im kontextunabhängigen Fall als auch, im kontextabhängigen Fall, abhängig von der Kombination benachbarter Zeichen, mehrere Modelle für einen Buchstaben verwendet werden.
Zum Schätzen der Parameter der Hidden Markov Modelle können
beispielsweise eingesetzt werden der sogenannte EM-Algorithmus,
z. B. das sogenannte Viterbi-Training oder auch der sogenannte
Baum-Welch-Algorithmus.
Die Hidden Markov Modelle können alternativ auch diskriminativ
trainiert werden.
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] J. Makhoul et al. Online Cursive Handwriting Recognision Using Hidden Markov Models and Statistical Grammars, Proceedings of the Human Language Technology Workshop, P. 432-436, Plainsboro, New Jersey, March 1994;
[2] K. S. Nathan et al. Real-Time On-Line Unconstrained Handwriting Recognition Using Statistical Methods, Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol. 4, P. 2916-2622, Detroit, Michigan, 1995;
[3] D. Willett, C. Neukirchen und G. Rigoll, DUCODE - Der Stackdekoder, Technical Report, Mercator University Duisburg, Forschungsbereich Technische Informatik, 1998, erhältlich im Internet am 01. 12. 1999 unter der Adresse:
http://www.fb9-ti-uni-duisburg-de;
[4] E. G. Schukat-Talamazzini, Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, S. 121-163 und S. 231-269, 1995.
[1] J. Makhoul et al. Online Cursive Handwriting Recognision Using Hidden Markov Models and Statistical Grammars, Proceedings of the Human Language Technology Workshop, P. 432-436, Plainsboro, New Jersey, March 1994;
[2] K. S. Nathan et al. Real-Time On-Line Unconstrained Handwriting Recognition Using Statistical Methods, Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol. 4, P. 2916-2622, Detroit, Michigan, 1995;
[3] D. Willett, C. Neukirchen und G. Rigoll, DUCODE - Der Stackdekoder, Technical Report, Mercator University Duisburg, Forschungsbereich Technische Informatik, 1998, erhältlich im Internet am 01. 12. 1999 unter der Adresse:
http://www.fb9-ti-uni-duisburg-de;
[4] E. G. Schukat-Talamazzini, Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, S. 121-163 und S. 231-269, 1995.
Claims (12)
1. Datenverarbeitungsverfahren zum Erkennen einer zu
erkennenden Zeichenfolge,
- - bei dem die zu erkennende Zeichenfolge rechnergestützt erfaßt wird,
- - bei dem die erfaßte Zeichenfolge einem Zeichenfolgeerkennungsverfahren unterzogen wird, in dem verwendet werden:
- - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- - bei dem in dem Zeichenfolgeerkennungsverfahren aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt wird, und
- - bei dem eine Zeichenfolge als erkannte Zeichenfolge ausgegeben wird, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
2. Verfahren nach Anspruch 1,
bei dem die zu erkennende Zeichenfolge ein von einem Benutzer
handschriftlich eingegebener Schriftzug ist.
3. Verfahren nach Anspruch 1 oder 2,
bei dem die Folge vorangegangener Zeichen mehrere Zeichen
enthält.
4. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem als statistisches Zeichenmodell ein Hidden Markov
Modell eingesetzt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4,
bei dem zum Berechnen der bedingten
Auftrittswahrscheinlichkeiten einer Merkmalsfolge X das Prinzip
der dynamischen Programmierung eingesetzt wird.
6. Verfahren nach einem der Ansprüche 1 bis 4,
bei dem zum Berechnen der bedingten
Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die
Viterbi-Approximation eingesetzt wird.
7. Verfahren nach einem der Ansprüche 1 bis 4,
bei dem zum Berechnen der bedingten
Auftrittswahrscheinlichkeiten einer Merkmalsfolge X die
Strahlsuche eingesetzt wird.
8. Verfahren nach einem der Ansprüche 1 bis 7,
- - bei dem die erfaßte Zeichenfolge abgetastet wird,
- - bei dem die zu jedem Abtastzeitpunkt t, t = 0, . . ., u, aus der abgetasteten Zeichenfolge ein Merkmalsvektor gebildet wird, wobei mit u eine Anzahl von Abtastzeitpunkten der zu erkennenden Zeichenfolge bezeichnet wird,
- - bei dem zu einem ersten Abtastzeitpunkt t = 0 für jedes Zeichen c des Textmodells eine Auftrittswahrscheinlichkeit für das Zeichen c berechnet wird,
- - bei dem das Zeichenfolgeerkennungsverfahren für die Abtastzeitpunkte t = 1, . . ., u folgende Verfahrensschritte aufweist:
- - für zumindest einen Teil der Zeichen c des Textmodells wird mittels des Zeichenmodells und des Textmodells mindestens eine Zwischenauftrittswahrscheinlichkeit des aktuellen Abtastzeitpunkts t berechnet, mit der angegeben wird, wie wahrscheinlich die jeweilige Zwischenzeichenfolge ist, die das entsprechende Zeichen c des aktuellen Abtastzeitpunkts t sowie eine Folge vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten aufweist,
- - die Berechnung erfolgt in absteigender Reihenfolge gespeicherter Zwischenauftrittswahrscheinlichkeiten von Folgen vorangegangener Zeichen zu vorangegangenen Abtastzeitpunkten,
- - die Zwischenauftrittswahrscheinlichkeiten des aktuellen Abtastzeitpunkts t, die größer sind als ein vorgegebener Schwellenwert, werden gespeichert,
- - es werden die Schritte a) bis c) für einen weiteren Abtastzeitpunkt t', mit t' < t als neuen aktuellen Abtastzeitpunkt t so lange wiederholt, bis der letzte Abtastzeitpunkt t = u erreicht ist.
9. Verfahren nach einem der Ansprüche 1 bis 8,
bei dem das Verfahren während des Erfassens der zu erkennenden
Zeichenfolge begonnen wird.
10. Datenverarbeitungsvorrichtung zum Erkennen einer zu
erkennenden Zeichenfolge,
mit einem Prozessor, der derart eingerichtet ist, daß folgende Verfahrensschritte durchführbar sind:
mit einem Prozessor, der derart eingerichtet ist, daß folgende Verfahrensschritte durchführbar sind:
- - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
- - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
- - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
- - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
11. Computerlesbares Speichermedium, auf dem ein Programm
gespeichert ist, das es einem Computer ermöglicht, nachdem es
in einen Speicher des Computers geladen worden ist, folgende
Schritte durchzuführen zum Erkennen einer zu erkennenden
Zeichenfolge:
- - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
- - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
- - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
- - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
12. Computerprogramm-Erzeugnis, das ein computerlesbares
Speichermedium umfaßt, auf dem ein Programm gespeichert ist,
das es einem Computer ermöglicht, nachdem es in einen Speicher
des Computers geladen worden ist, folgende Schritte
durchzuführen zum Erkennen einer zu erkennenden Zeichenfolge:
- - die zu erkennende Zeichenfolge wird rechnergestützt erfaßt,
- - die erfaßte Zeichenfolge wird einem Zeichenfolgeerkennungsverfahren unterzogen, in dem verwendet werden:
- - ein statistisches Zeichenmodell, das für jede Merkmalsfolge X eine bedingte Auftrittswahrscheinlichkeit P(X|c) enthält für die Merkmalsfolge X unter der Bedingung, daß ein Zeichen c vorliegt, und
- - ein statistisches Textmodell, das für jedes in dem Textmodell enthaltene Zeichen c eine bedingte Auftrittswahrscheinlichkeit enthält für das Zeichen c unter der Bedingung, daß eine Folge vorangegangener Zeichen vorliegt,
- - in dem Zeichenfolgeerkennungsverfahren wird aus dem Zeichenmodell und dem Textmodell für jede in dem Erkennungsverfahren berücksichtigte Zeichenfolge eine Gesamtauftrittswahrscheinlichkeit der jeweiligen Zeichenfolge ermittelt, und
- - eine Zeichenfolge wird als erkannte Zeichenfolge ausgegeben, wenn die Gesamtauftrittswahrscheinlichkeit der Zeichenfolge größer ist als ein Vergleichswert.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19961476A DE19961476A1 (de) | 1999-12-20 | 1999-12-20 | Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19961476A DE19961476A1 (de) | 1999-12-20 | 1999-12-20 | Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19961476A1 true DE19961476A1 (de) | 2001-07-05 |
Family
ID=7933433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19961476A Ceased DE19961476A1 (de) | 1999-12-20 | 1999-12-20 | Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19961476A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013007964A1 (de) | 2013-05-10 | 2014-11-13 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
CN111488737A (zh) * | 2019-01-09 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5896321A (en) * | 1997-11-14 | 1999-04-20 | Microsoft Corporation | Text completion system for a miniature computer |
-
1999
- 1999-12-20 DE DE19961476A patent/DE19961476A1/de not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5896321A (en) * | 1997-11-14 | 1999-04-20 | Microsoft Corporation | Text completion system for a miniature computer |
Non-Patent Citations (1)
Title |
---|
"Apple Newton MessagePad-Look and Feel" Funkschau 19/1993, S. 16/17 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013007964A1 (de) | 2013-05-10 | 2014-11-13 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
DE102013007964B4 (de) | 2013-05-10 | 2022-08-18 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
CN111488737A (zh) * | 2019-01-09 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置及设备 |
CN111488737B (zh) * | 2019-01-09 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69721939T2 (de) | Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung | |
DE102007015497B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsprogramm | |
DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
DE112010006037B4 (de) | Spracherkennungsvorrichtung und Navigationssystem | |
DE69914131T2 (de) | Positionshandhabung bei der Spracherkennung | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69737987T2 (de) | Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3135483C2 (de) | Verfahren und Schaltungsanordnung zur Erkennung einer alphanumerischen Eingangszeichenkette | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
EP0836175B1 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
EP1085499A2 (de) | Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
DE69824063T2 (de) | Normalisierung von Sprachsignalen | |
DE69333762T2 (de) | Spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |