DE102007014405A1 - Method for word recognition in character sequences - Google Patents
Method for word recognition in character sequences Download PDFInfo
- Publication number
- DE102007014405A1 DE102007014405A1 DE102007014405A DE102007014405A DE102007014405A1 DE 102007014405 A1 DE102007014405 A1 DE 102007014405A1 DE 102007014405 A DE102007014405 A DE 102007014405A DE 102007014405 A DE102007014405 A DE 102007014405A DE 102007014405 A1 DE102007014405 A1 DE 102007014405A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- grams
- words
- list
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
Abstract
Bei dem erfindungsgemäßen Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können, werden ein Speicher (15), eine Anzeige (13) und eine Prozessoreinrichtung (12) verwendet. Der Speicher enthält n-Gramme (Zeichenketten mit der Länge n) und den Zeichenketten zugeordnete Häufigkeitswerte, wobei als Häufigkeitswert eines n-Gramms die Gesamtzahl aller n-Gramme in einer für die Worterkennung verwendeten Sprachstichprobe verwendet wird. Die Anzeige (12) zeigt ausgewählte n-Gramme und/oder erkannte Wörter an, wobei die Prozessoreinrichtung (12) mit dem Speicher (15) und der Anzeige (13) verbunden ist. Aus einer betrachteten Zeichensequenz wird eine Liste L von Wörtern mit N Zeichen erstellt, die aus der N-Zeichen-Sequenz unter Berücksichtigung der Mehrdeutigkeiten der in dieser enthaltenen einzelnen Zeichen gebildet werden können. Aus der Liste L der möglichen Wörter werden alle Wörter entfernt, deren Wort-Wahrscheinlichkeit Null ist, wobei die Wort-Wahrscheinlichkeit p = Pi pn aus den in der Zeichensequenz enthaltenen n-Grammen mit n = 1 bis N - 1 bestimmt wird. Von der Anzeige werden die verbliebenen Wörter (14) der Liste L der möglichen Wörter angezeigt.In the method according to the invention for word recognition in sequences of N characters, one or more of which may be ambiguous, a memory (15), a display (13) and a processor device (12) are used. The memory contains n-grams (strings of length n) and frequency values associated with the strings, the frequency value of an n-gram being the total number of all n-grams in a speech sample used for word recognition. The display (12) displays selected n-grams and / or recognized words, the processor device (12) being connected to the memory (15) and the display (13). From a considered sequence of characters, a list L of words of N characters is created, which can be formed from the N-character sequence, taking into account the ambiguities of the individual characters contained therein. From the list L of possible words, all words whose word probability is zero are removed, the word probability p = Pi pn being determined from the n-grams contained in the character sequence with n = 1 to N-1. From the display, the remaining words (14) of the list L of possible words are displayed.
Description
Die Erfindung betrifft ein Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können.The The invention relates to a method for word recognition in sequences of N characters, of which one or more characters are ambiguous can.
Die elektronische Erfassung von Texten und Sprache ist inzwischen Routine geworden. Sie ist jedoch nicht fehlerfrei, dauert zu lange, erfordert zu viel Speicher oder ist nicht flexibel genug in bezug auf die verwendeten Geräte oder Sprachen.The electronic recording of texts and speech is now routine become. However, it is not bug free, takes too long, requires too much memory or is not flexible enough in terms of the used devices or languages.
Eingesetzt wird die elektronische Erfassung von Texten und Sprache z. B. bei der Texteingabe in Tastaturen. Am effizientesten und gebräuchlichsten ist die normale Computertastatur, die für jeden einzugebenden Buchstaben bzw. für jedes einzugebende Zeichen eine Taste bereitstellt oder eine Tastenkombination definiert. Andere Tastaturen haben weniger Tasten, etwa die Tastaturen von Mobiltelefonen für das Versenden von SMS oder von PDAs für die Termineingabe, Spezialtastaturen wie QWERTY-Tastaturen, Tastaturen für Behinderte oder Tastaturen von Spezialgeräten. Bei der Texteingabe in solche Tastaturen kommt es notwendigerweise zu Mehrfachbelegungen der Tasten, so dass die Tasten meist mehrfach gedrückt werden müssen, um den gewünschten Buchstaben zu aktivieren (Mulitap-Methode). Im Falle eines herkömmlichen Mobiltelefons z. B. gibt es eine ge meinsame Taste für A B C Ä 2 und wenn etwa das Wort "baumhaus" eingegeben wird, muss die Tastenfolge 222886442887777 (in Ziffern angegeben) gedrückt werden, die dann aber ein eindeutiges Wort ergibt. Unter der Annahme eines üblichen deutschen Ausgabealphabets ohne Groß-/Kleinschreibung
- O(2) = {a, ä, b, c}
- O(3) = {d, e, f}
- O(4) = {g, h, i}
- O(5) = {j, k, l}
- 0(6) = {m, n, o, ö}
- O(7) = {p, q, r, s, ß}
- O(8) = {t, u, ü, v}
- O(9) = {w, x, y, z}
- O (2) = {a, ä, b, c}
- O (3) = {d, e, f}
- O (4) = {g, h, i}
- O (5) = {j, k, l}
- 0 (6) = {m, n, o, ö}
- O (7) = {p, q, r, s, ß}
- O (8) = {t, u, u, v}
- O (9) = {w, x, y, z}
Bei der Spracheingabe gibt es ebenso Mehrdeutigkeiten, beispielsweise bei schwierigen Lauten wie "s" und "f", deren Formantenfrequenzen größtenteils außerhalb von 3,4 kHz (obere Grenze der Telefonübertragungsfrequenz) liegen. Auch kann es zu ein und demselben Phonem unterschiedliche Schreibweisen geben, d. h. wenn geschrieben wird, wie gesprochen wird, fallen Zuordnungs- und Auswahlentscheidungen an (/f/ → f, v, ph, /a/ → a, aa, ah). Es sind bereits Phonem-Wörterbücher zum Einsatz gekommen.at the voice input there are also ambiguities, for example for difficult sounds like "s" and "f", their formant frequencies mostly outside of 3.4 kHz (upper Limit of the telephone transmission frequency). Also can give it different spellings to the same phoneme d. H. when it is written, as it is spoken, attribution and selection decisions to (/ f / → f, v, ph, / a / → a, aa, ah). There are already phoneme dictionaries for Use came.
Auch beispielsweise beim Lesen von elektronischen Textdateien, etwa wenn diese eingegebenen Text oder Sprache enthalten oder es sich um digitale Dokumente handelt, können sich praktisch vergleichbare Probleme beim Erkennen dieser Dateien ergeben, bis die Wörter aufgelöst sind.Also for example, when reading electronic text files, such as when contain this typed text or language or it is digital Documents can be virtually comparable Problems in recognizing these files will result until the words are dissolved.
Die nachfolgende Darstellung des Standes der Technik und der Erfindung bezieht sich schwerpunktsmäßig auf die Texterkennung bei der Eingabe in Tastaturen, für die die Erfindung zunächst vorgesehen war. Die Erfindung ist jedoch nicht auf diesen Anwendungsbereich beschränkt, sondern auch auf die oben dargestellten und andere Bereiche der Texterkennung und -analyse bzw. Spracherkennung anwendbar.The following description of the state of the art and the invention refers mainly to the text recognition when typing in keyboards for which the invention first was provided. However, the invention is not limited to this field of application limited, but also on the above and other areas of text recognition and analysis or speech recognition applicable.
Für
die Worterkennung sind zur Behebung der Mehrdeutigkeiten verschiedene
Zeichen-Disambiguierungsmethoden eingesetzt worden. Einige basieren
auf der Verwendung sogenannter n-Gramme, d. h. von zusammenhängenden
Zeichen-Sequenzen mit n Zeichen. n-Gramme sind bei der Analyse großer
Datenmengen auf bestimmte Kontexte (oder Wortgruppen) beispielsweise
durch den Geheimdienst zum Einsatz gekommen, so bei der Durchsuchung
von E-Mails auf ausgewählte Themengebiete etc.. Sie dienen
auch zur Satzerkennung aufgrund vorgegebener Wortfolgen, der n-Gramme
in diesem Kontext. Bei der Worterkennung mittels n-Grammen werden
Zeichensequenzen (auch: Strings) mit n-Grammen verglichen, die unterschiedliche
Längen haben können. Eine Kombination unterschiedlich
langer n-Gramme hat sich als nützlich erwiesen, wobei die
kürzeren n-Gramme Alternativprädiktionen liefern
und die längeren n-Gramme eine größere
Eindeutigkeit herbeiführen, aber einen hohen Speicherbedarf
haben, so dass n > 6
in der Praxis nicht vorkommt. Durch die unterschiedliche Länge
der n-Gramme werden die Häufigkeiten der einzelnen Buchstaben,
von Bigrammen, Trigrammen und auch kurzen Wörtern berücksichtigt.
Nachteilig erweist es sich bei der Anwendung der n-Gramm-Methode,
wenn die Dokumente nur sehr kurz sind. Große Beachtung
hat die bereits 1992 erschienene Veröffentlichung
Zerlegt
man beispielsweise das Wort "baumhaus" in n-Gramme der Längen
2 bis 5, so ergeben sich folgende n-Gramme Vn(baumhaus):
Ausgezählt
ergeben sich für einige ausgewählte n-Gramme folgende
Häufigkeiten:
W2(au) = 2
W3(aum) = 1
W4(baum)
= 1
W5(baumh) = 1
n-Gramme, die nicht beobachtet wurden,
haben selbstverständlich eine Häufigkeit von 0,
z. B. W3(lqü) = 0.The following frequencies are counted for some selected n-grams:
W2 (au) = 2
W3 (aum) = 1
W4 (tree) = 1
W5 (tree) = 1
Of course, n-grams that were not observed have a frequency of 0, e.g. B. W3 (lqü) = 0.
Alle
bekannten Wörter einer Sprache lassen sich nun aus n-Grammen
zusammensetzen. Insgesamt gibt es z. B. im Deutschen (ohne Berücksichtigung
von Groß-/Kleinschreibung) 30 Buchstaben, was die Maximalanzahl
möglicher n-Gramme begrenzt:
Bei der Spezialanwendung Mobiltelefon der intelligenten Textsysteme, ohne deren Einsatz die Texteingabe nach der Multitap-Methode erfolgt, gibt es nur wenige auf dem Markt eingeführte Entwicklungen.at the special application mobile phone of intelligent text systems, without the use of text input according to the multitap method, There are only a few developments introduced in the market.
Sehr
verbreitet ist das T9-Verfahren der Firma Tegic Communications,
Inc. zur Disambiguierung eingegebener Zeichen-Sequenzen, das in
der
Die
Ebenfalls
einen statistischen Ansatz für den Folgebuchstaben nutzt
ein in der
Auch
bei dem Disambiguierungsverfahren gemäß
Aus
der
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Worterkennung in Zeichen-Sequenzen zu schaffen, das sich für den Einsatz bei Zeichenmehrdeutigkeiten eignet und bei dem die Worterkennung rasch erfolgt.Of the Invention is based on the object, a method for word recognition to create in character sequences that are suitable for use is suitable for character ambiguities and in which the word recognition done quickly.
Diese Aufgabe ist erfindungsgemäß bei einem Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der Unteransprüche.These Task is according to the invention in a method solved with the features of claim 1. advantageous Further developments of the method according to the invention are the subject of the dependent claims.
Bei dem erfindungsgemäßen Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können, werden somit ein Speicher, eine Anzeige und eine Prozessoreinrichtung verwendet. Der Speicher enthält n-Gramme (Zeichenketten mit der Länge n) und den Zeichenketten zugeordnete Häufigkeitswerte, wobei als Häufigkeitswert eines n-Gramms die Gesamtzahl aller n-Gramme in ei ner für die Worterkennung verwendeten Sprachstichprobe verwendet wird. Die Anzeige zeigt ausgewählte n-Gramme und/oder erkannte Wörter an, wobei die Prozessoreinrichtung mit dem Speicher und der Anzeige verbunden ist. Aus einer betrachteten Zeichensequenz wird eine Liste L von Wörtern mit N Zeichen erstellt, die aus der N-Zeichen-Sequenz unter Berücksichtigung der Mehrdeutigkeiten der in dieser enthaltenen einzelnen Zeichen gebildet werden können. Aus der Liste L der möglichen Wörter werden alle Wörter entfernt, deren Wort-Wahrscheinlichkeit Null ist, wobei die Wort-Wahrscheinlichkeit p = Π pn aus den in der Zeichensequenz enthaltenen n-Grammen mit n = 1 bis N – 1 bestimmt wird. Von der Anzeige werden die verbliebenen Wörter der Liste L der möglichen Wörter angezeigt.at the method according to the invention for word recognition in sequences of N characters, one or more of them ambiguous Thus, a memory, an ad and a uses a processor device. The memory contains n-grams (strings of length n) and strings associated frequency values, where as the frequency value of an n-gram the total number of all n-grams in one for the word recognition language sample used is used. The Display shows selected n-grams and / or recognized words wherein the processor means is connected to the memory and the display connected is. A considered character sequence becomes a list L created from words with N characters coming from the N character sequence taking into account the ambiguities of this contained individual characters can be formed. Out the list L of possible words all words are removed whose word probability is zero, where the word probability p = Π pn from the n-grams contained in the character sequence with n = 1 to N - 1 is determined. From the ad the remaining words of the list L of possible Words displayed.
Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass es unabhängig von der verwendeten Sprache und Tastenbelegung Zuordnungsprobleme von Zeichenketten und -sequenzen löst, wobei sich sinnvolle Worthypothesen ergeben. Dies liegt daran, dass keine Wörter, sondern n-Gramme verwendet werden, um die Worterkennung in Zeichenfolgen durchzuführen. Die Liste wahrscheinlicher Worthypothesen wird nach jedem Tastendruck bei der Eingabe eines Wortes neu erzeugt, so dass eine mit dem Tippen Schritt haltende kontinuierliche Aktualisierung der Hypothesen erfolgt. Aus dieser Liste, falls sie mehr als eine Worthypothese enthält, kann der Benutzer sein korrektes Wort aussuchen, falls er das Wort bereits komplett getippt hat. Die Art und Weise, wie die Auswahl realisiert wird, ist beliebig. Ist das Wort noch nicht komplett getippt, wird der Benutzer weiterhin neue Zeichen eingeben.One significant advantage of the method is that it is independent of the language used and key assignment Assignment problems of strings and sequences solves, resulting in meaningful word hypotheses. This is because no words but n-grams used to do word recognition in strings. The list of probable word hypotheses will appear after each keystroke when entering a word newly generated, so that one with the tap step sustained continuous updating of the hypotheses. From this list, if it contains more than one word hypothesis, the user can choose his correct word if he has the word already completely typed. The way the selection is realized, is arbitrary. If the word is not completely typed yet, the user will continue to enter new characters.
Das erfindungsgemäße Erkennungsverfahren kann auf beliebige Sprachen, juristische, technische Bereiche etc. angewendet werden, indem der jeweilige Wortschatz in die Statistik integriert wird. Auch die Zuordnung von Buchstaben oder anderen Zeichen zu den Tasten, d. h. die Ausgabealphabete, bzw. Tastenbelegungen sind frei wählbar, ohne dass irgendwelche Änderun gen oder Anpassungen des Verfahrens notwendig werden. Bereits verwendete Sprachstichproben können unverändert übernommen werden, d. h. eine einmal erstellte Sprachstichprobe kann ohne Aufwand auf Geräte mit anderen Tastenanordnungen bzw. -zuordnungen übertragen werden. Die Anpassung an beliebige Sprachen mit ihren individuellen Zeichen wie der Akzent im Französischen, hebräische, kyrillische, griechische etc. Zeichen können einfach eingesetzt werden. Die Auszählung einer kompletten Sprachstichprobe dauert nur einige Minuten.The Detection method according to the invention can any languages, legal, technical areas, etc. applied by integrating the respective vocabulary into the statistics becomes. Also the assignment of letters or other characters too the keys, d. H. the output alphabets, or key assignments are freely selectable without any changes or adjustments to the procedure become necessary. Already used Language samples can be taken over unchanged be, d. H. once a language sample can be created without effort transferred to devices with other key arrangements or assignments become. The adaptation to any languages with their individual Characters like the accent in French, Hebrew, Cyrillic, Greek etc. characters can easily be used become. The counting of a complete language sample only takes a few minutes.
Das Verfahren gemäß der Erfindung ist in der Lage, unter konkurrierenden Zeichen (Buchstaben aufgrund Tastendruck oder Phoneme aufgrund Spracheingabe oder digitalen Datensätzen) und den sich ergebenden Mehrdeutigkeiten mögliche Wörter zu isolieren, die ein gültiges bzw. sinnvolles Wort sein können. Dabei werden bei jedem neuen getippten oder gesprochenen Buchstaben die möglichen erkannten Einzelbuchstaben permutiert, und bei jedem hinzugekommenen Buchstaben können sich dann wieder andere Mehrdeutigkeiten ergeben, die aufgelöst werden.The Method according to the invention is able to under competing signs (letters due to keystroke or Phonemes due to speech input or digital records) and the resulting ambiguity possible words to isolate, which is a valid or meaningful word can. It will be typed or spoken every time Letters permute the possible recognized single letters, and with each added letter can then again result in other ambiguities that are resolved.
Für
Wortketten ohne Zwischenräume kann es bei Anwendung des
erfindungsgemäßen Verfahrens auf die Wortketten
Mehrdeutigkeiten geben, wobei sich gültige Auflösungen
dann ergeben, wenn alle entstehenden Wörter entweder gültige
Ganzwörter sind oder gültige Wörter sind
und zugleich einen gültigen Wortanfang oder ein gültiges
Wortende besitzen. Dies soll das folgende Beispiel veranschaulichen,
bei dem folgende Bezeichnungen verwendet werden:
(G) gültiges
Ganzwort
(W) gültiger Wortanfang, gültiges
Wortende, gültige Wörter im Sinne von pA, pE,
pW (später erläutert)
(X) weder (G), noch
(W), d. h. ungültiges WortFor word chains without gaps, it can when applying the method according to the invention the word strings give ambiguities, where valid resolutions result when all of the resulting words are either valid whole words or are valid words and at the same time have a valid word beginning or a valid word end. This is illustrated by the following example, which uses the following labels:
(G) valid whole word
(W) valid word beginning, valid word end, valid words in the sense of pA, pE, pW (explained later)
(X) neither (G) nor (W), ie invalid word
Beispiel: daswetteristhervorragend Auflösungsversuche: Example: the weather is excellent resolution attempts:
Bei der Anwendung des erfindungsgemäßen Verfahrens auf die Texteingabe wird üblicherweise eine Tastatur verwendet, die Tasten umfasst, welchen mehreren Zeichen zugeordnet sind, und die mit der Prozessoreinrichtung verbunden ist. Bei der Texteingabe der N-Zeichen-Sequenzen wird dementsprechend ein Worterkennungsverfahren angewendet, das nach der Erfindung arbeitet.at the application of the method according to the invention Typing usually uses a keyboard includes the keys associated with a plurality of characters, and which is connected to the processor device. When entering text The N-character sequences accordingly become a word-recognition method applied, which works according to the invention.
Wenn das erfindungsgemäße Verfahren für die Spracheingabe verwendet wird, wird eine Sprachaufnahmeinrichtung verwendet und bei der Spracheingabe der Phoneme oder Phonem-Sequenzen erfolgt eine Umwandlung in N-Zeichen-Sequenzen, insbesondere von Textzeichen. Auf die N-Zeichen-Sequenzen wird ein Worterkennungsverfahren angewendet, das nach der Erfindung arbeitet.If the inventive method for the Voice input is used, a voice recorder used and in the voice input of the phonemes or phoneme sequences a conversion into N-character sequences, in particular of Text characters. The N-character sequences are word-coded applied, which works according to the invention.
Das erfindungsgemäße Verfahren lässt sich auch vorteilhaft beim Lesen beispielsweise digital vorliegender Textdokumente mit Zeichensequenzen anwenden. Hierzu wird eine Leseeinheit für das Erfassen der N-Zeichen-Sequenzen benutzt und bei dem Lesen der N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet. Durch die Erfindung können Wörter in den gespeicherten Zeichensequenzen sehr rasch und zuverlässig aufgefunden und identifiziert werden.The inventive method can be also advantageous when reading, for example, digitally available Apply text documents with character sequences. For this purpose, a reading unit used for capturing the N-character sequences and at a word recognition method is used to read the N-character sequences. Through the invention, words can be stored in the Character sequences found very quickly and reliably and be identified.
Bei
einer vorteilhaften Variante des erfindungsgemäßen
Verfahrens werden als Ganzwort-n-Gramme die Wörter aus
der Sprachstichprobe bestimmt, deren Länge der n-Gramm-Länge
entspricht, und bei der Anzeige der verbliebenen Wörter
der Liste L werden zuerst alle Wörter sortiert nach der
Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit
und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe
ist. Somit sind die Ganzwort-n-Gramme meist kurze Wörter,
die wie ein Lexikon für kurze Wörter unter Berücksichtigung
der Auftretenshäufigkeiten fungieren und eine sinnvolle
Sortierung von Worthypothesen für kurze Wörter
nach der Güte (wie "die", "ehe", "eid") unterstützen.
Im Falle einer Sprachstichprobe mit den Wörtern "baumhaus",
"hallo", "du", "der" ergeben sich das Bigram "du", Trigramm "der"
und das 5-Gramm "hallo" und als Ganzwort n-Gramme
G2(du) =
1, G3(der) = 1, G5(hallo) = 1In an advantageous variant of the method according to the invention, the words from the speech sample whose length corresponds to the n-gram length are determined as whole-word n-grams, and when displaying the remaining words of the list L, first all words are sorted according to the whole-word Probability pG = GN / NG is indicated, where GN is the whole word n-gram frequency and NG is the total number of all word n-grams of the speech sample. Thus, the whole-word n-grams are mostly short words that act like a lexicon for short words taking into account the frequency of occurrence, and a meaningful sorting of word hypotheses for short words of goodness (such as "the", "marriage", "oath") support. In the case of a language sample with the words "tree house", "hello", "you", "der" the bigram "you", trigram "the" and the 5-gram "hello" and as whole word n-grams result
G2 (du) = 1, G3 (der) = 1, G5 (hello) = 1
Nicht beobachtete n-Gramme haben die Häufigkeit 0, z. B. G3(lqü) = 0. In der Sprachstichprobe werden die Gesamtzahlen NG(n) aller Ganzwort-n-Gramme berechnet. Diese ergeben sich aus der Summe aller Häufigkeiten der Ganzwort-n-Gramme der jeweiligen Länge.Not observed n-grams have the frequency 0, z. B. G3 (lqü) = 0. In the speech sample, the total numbers NG (n) of all Whole word n-grams calculated. These result from the sum of all frequencies the whole word n-grams of the respective length.
Bei einer vorteilhaften Ausführung des erfindungsgemäßen Verfahrens werden als Wortanfangs-n-Gramme die n-Gramme bestimmt, die den Anfang eines Wortes bilden. Die Wortanfangs-Wahrscheinlichkeit pA = Π An/NA wird bestimmt, wobei An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbliebenen möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA pW erfolgt.In an advantageous embodiment of the method according to the invention as Wortan fangs-n-grams determine the n-grams that form the beginning of a word. The beginning-of-word probability pA = Π An / NA is determined, where An is the beginning of word n-gram frequency and NA is the total number of all word-beginning n-grams of the speech sample. In displaying the remaining possible words, all words are first sorted by the whole-word probability pG = GN / NG, where GN is the whole-word n-gram frequency and NG is the total number of all-word n-grams of the speech sample and the sort after pA pW.
Im
Falle der erwähnten Sprachstichprobe mit den Wörtern
"baumhaus", "hallo", "du", "der" ergeben sich die Bigramme "ba",
"ha", "du", de", die Trigramme "bau", "hal", "der", die 4-Gramme
"baum", "hall" und die 5-Gramme "baumh" sowie "hallo". Ausgezählt
ergeben sich die folgenden Häufigkeiten der Wort anfangs-n-Gramme:
Bevorzugt werden auch Wortend-n-Gramme verwendet, wobei als Wortend-n-Gramme die n-Gramme bestimmt werden, die das Ende eines Wortes bilden. Die Wortend-Wahrscheinlichkeit pE = Π En/NE wird bestimmt, wobei En die Wortend-n-Gramm-Häufigkeit und NE die Gesamtzahl aller Wortend-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbleibenden möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG und der Wortanfangs-n-Gramm-Wahrscheinlichkeit pA = Π An/NA angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit, NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist, An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA·pW·pE erfolgt.Prefers Word-end n-grams are also used, where as word-end n-grams the n-grams are determined, which form the end of a word. The word end probability pE = Π En / NE is determined where En is the word end n-gram frequency and NE is the total number all word end n-grams of the speech sample is. At the display the remaining possible words become first all words sorted by the whole word probability pG = GN / NG and the word-beginning n-gram probability pA = Π An / NA where GN is the integer n-gram frequency, NG the total number of all word n-grams of the speech sample is At the word beginning n-gram frequency and NA the total number of all Word sample n-grams of the language sample is and the sorting after pA · pW · pE.
Im
Falle der erwähnten Sprachstichprobe mit den Wörtern
haus", "hallo", "hallo", "du", "der" ergeben sich als Wortend-n-Gramme
die Bigramme "us", "lo", "du", "er", Trigramme "aus", "llo", "der",
4-Gramme "haus", "allo" und die 5-Gramme "mhaus", "hallo". Ausgezählt
ergeben sich damit folgende Häufigkeiten:
Vorteilhaft wird bei dem erfindungsgemäßen Verfahren für eine N-Zeichen-Sequenz mit jedem weiteren eingegebenen Zeichen die Wörter-Liste L neu erstellt, d. h. es erfolgt eine kontinuierliche Aktualisierung der Hypothesen. Aus der Liste L, falls sie mehr als eine Worthypothese enthält, kann der Benutzer das korrekte Wort aussuchen, falls er das Wort bereits komplett getippt hat. Wie die Auswahl aus einem Vorschlagsangebot realisiert wird, ist beliebig.Advantageous is in the inventive method for an N-character sequence with each additional character entered Word list L recreated, d. H. there is a continuous Updating the hypotheses. From list L, if more than contains a word hypothesis, the user can get the correct word if he already typed the word completely. As the Selection from a proposal offer is realized, is arbitrary.
In den bisherigen Erläuterungen wurden für die n-Gramme Werte von n = 2, n = 3, n = 4, n = 5 verwendet. Diese Werte sind nicht starr festgelegt, sondern können nach den Gegebenheiten angepasst werden. Vorzugsweise werden bei Anwendung des erfindungsgemäßen Verfahrens für die n-Gramme Werte von n = 2, n = 3 verwendet, für die der Speicherbedarf deutlich geringer als im Falle längerer n-Gramme ist. Es können je nach Anwendungsfall auch n-Gramme mit n = 1 (d. h. einzelne Buchstaben) eingesetzt werden.In the previous explanations were for the n-grams Values of n = 2, n = 3, n = 4, n = 5 are used. These values are not fixed rigidly but can according to the circumstances be adjusted. Preferably, when using the inventive Method for the n-grams values of n = 2, n = 3 used for the storage requirements significantly lower than in the case is longer n-grams. It can depending on the application also n-grams with n = 1 (ie individual letters) are used.
Bevorzugt werden für die n-Gramme auch Werte von n = 4 und/oder n = 5 verwendet. Je länger die maximalen n-Gramme gewählt werden (d. h. größere maximale Werte für n), desto besser werden die vorgeschlagenen Worthypothesen. Es werden aber auch umfangreichere Sprachstichproben nötig.Prefers Values of n = 4 and / or n are also used for the n-grams = 5 used. The longer the maximum n-grams selected (i.e., larger maximum values for n), the better the proposed word hypotheses. It will but also more extensive language samples necessary.
Im Speicher kann eine Liste von Zeichen oder Zeichensequenzen und von diesen zugeordneten Austauschzeichen, Austauschzeichensequenzen oder Austausch-n-Grammen gespeichert sein. Auf diese Weise erfolgt eine Anpassung an die Gewohnheiten eines Benutzers, bestimmte Zeichen oder Wörter (z. B. "spatz" und nicht "rsätz"), bestimmte Kurzformen (Englisch: "dont" → "don't", Französisch: "cest" → "c'est"), Sonderzeichen (z. B. Smiley) zu verwenden, an einen Spezialwortschatz etc.. Die Kurzformen müssen dann aber auch in ihrer Kurzform in der Sprachstichprobe mit eingegeben werden.in the Memory can be a list of characters or character sequences and of these associated exchange characters, exchange character sequences or exchange n-grams. This is done in this way an adaptation to the habits of a user, certain characters or words (eg "sparrow" and not "rick"), certain short forms (English: "dont" → "do not", French: "cest" → "c'est"), to use special characters (eg smileys), to a special vocabulary etc .. The short forms must but then also entered in their short form in the language sample with become.
Auch kann zweckmäßig vorgesehen werden, dass die n-Gramme im Speicher ergänzt werden, um das Erkennen von neuen Wörtern oder Spezialeingaben zu ermöglichen. Die Eingabe unbekannter Wörter ist dabei nicht notwendig. Ausreichend ist die Aktualisierung entsprechender n-Gramme (Wortanfangs-n-Gramme, Wort-n- Gramme, Wortend-n-Gramme, Ganzwort-n-Gramme). Es ist nicht sinnvoll, alle möglichen Häufigkeiten der n-Gramme An(∙), Wn(∙), En(∙) und Gn(∙) zu speichern (z. B. gibt es für n = 5 über 24 Millionen mögliche n-Gramme). Das ist auch nicht nötig. Nur wenige dieser n-Gramme treten in der Sprache auf, d. h. die Häufigkeit der meisten n-Gramme ist 0. Auf deren Speicherung kann verzichtet werden.It may also be expedient to supplement the n-grams in the memory in order to enable the recognition of new words or special entries. The input of unknown words is not necessary. Sufficient is the updating of corresponding n-grams (Wortanfang-n-Gram me, word-n-grams, word-end-n-grams, whole-word-n-grams). It does not make sense to store all possible frequencies of the n-grams An (∙), Wn (∙), En (∙) and Gn (∙) (eg, for n = 5, there are over 24 million possible n-grams). programs). This is not necessary either. Only a few of these n-grams occur in the language, ie the frequency of most n-grams is 0. Their storage can be omitted.
Wortend-n-Gramme bringen die Aussage mit sich, dass es sich um ein gültiges komplettes Wort handelt, und andere Merkmale können im Sinne der erfassten Sprachdaten ein Wort als solches erkennen. Um die einzelnen Wörter zu isolieren, ist es insbesondere für Anwendungen mit Lesen von Dateien auch nützlich, wenn Wortgrenzen, insbesondere Wortenden, zusätzlich eingegeben werden, um die Wortkette in einzelne jeweils komplette Wörter, z. B. "baumhaus" auch in "baum haus", zu teilen.Wortend-n-grams bring the statement that it is a valid one complete word, and other features can be found in the Meaning of the acquired speech data recognize a word as such. To the isolate individual words, it is especially for Applications with reading files also useful if word boundaries, In particular, word ends, additionally entered to the word string into individual complete words, eg. B. "tree house" also in "tree house" to share.
Das erfindungsgemäße Verfahren kann auch mit einer Wortvorhersage ausgestattet werden. Diese kann so ablaufen, dass anhand einer eingegebenen N-Zeichen-Sequenz eine Worterkennung für eine Zeichen-Sequenz mit einer angenommenen Länge von N + (1 bis l) Zeichen durchgeführt wird, wobei l die Vorhersagelänge, d. h. die Zahl der vorausgesagten Eingabeschritte ist. Nach Erstellung der Liste L wird aus dieser eine weitere Liste L' erstellt, die alle Wörter der Liste L enthält, wobei diese Wörter um Zeichen oder Zeichen-Sequenzen mit der Länge 1 bis l ergänzt sind. Aus der Liste L' werden alle Wörter entfernt, deren Wort-Wahrscheinlichkeit Null ist, die in der Liste L' verbliebenen Wörter werden sortiert werden und die Wörter der Listen L und L' angezeigt. Auf diese Weise kann für ein noch nicht vollständig eingegebenes Wort eine Vorhersage getroffen werden daraufhin, welches Wort bzw. welche Wörter der Benutzer bei der Eingabe im Sinn hat.The inventive method can also with a Be equipped word prediction. This can be done so that based on an input N-character sequence a word recognition for a character sequence with an assumed length of N + (1 to l) characters, where l is the prediction length, d. H. the number of predicted entry steps is. After creation the list L is created from this another list L ', the contains all the words in list L, these words to characters or character sequences with the length 1 to l are supplemented. The list L 'becomes all words removed, whose word probability is zero in the list L 'remaining words will be sorted and the words the Lists L and L 'are displayed. This way can for a not yet fully entered word a prediction Then, which word or words are taken the user has in mind when entering.
Zweckmäßig bei dieser Wortvorhersage-Methode werden in der Liste L' zuerst alle Wörter nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG sortiert, wobei GN die Ganzwort-n-Gramm-Häu figkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist. Die Sortierung erfolgt dann nach der Anfangswort-n-Gramm- und der Endwort-n-Gramm-Wahrscheinlichkeit nach pA·pW·pE.expedient in this word prediction method, the list L 'first all words after the whole word probability pG = GN / NG where GN is the whole-word n-gram frequency and NG is the total number of all word n-grams of the speech sample. The sorting then takes place after the start word n-gram and the End-word n-gram probability after pA · pW · pE.
Obenstehend sind die Bestimmung der n-Gramme und deren Verwendung erläutert worden. Es folgt nun eine Darstellung der Bestimmung der Wort-Wahrscheinlichkeiten.In the above, the determination of the n-grams and their use are explained Service. The following is a representation of the determination of the word probabilities.
Die
in den verschiedenen n-Gramm-Gruppen enthaltene Sprachstatistik
wird dazu eingesetzt, um einerseits Worthypothesen auszuschließen,
die mit größter Wahrscheinlichkeit kein Wort der
aktuellen Sprache sind, und um zum anderen die verbleibenden Hypothesen
in eine Reihenfolge entsprechend ihrer wahrscheinlichen Korrektheit
zu bringen. Dabei bezeichne im folgenden w = w1w2w3...wN ein Wort
w der Länge N, zusammengesetzt aus der Buchstabenfolge
w1w2w3...wN. Es werden folgende Auftrittswahrscheinlichkeiten bestimmt:
Für
ein Wort w berechnen sich die Wahrscheinlichkeiten, dass w ein gültiges
Wort im Sinne von n-Grammen der Länge n ist nach The language statistics included in the various n-gram groups are used to exclude, on the one hand, word hypotheses that are most likely not a word of the current language and, on the other, to put the remaining hypotheses in order according to their probable correctness. In the following, w = w1w2w3... WN denotes a word w of length N, composed of the letter sequence w1w2w3... WN. The following occurrence probabilities are determined:
For a word w, the probabilities that w is a valid word in terms of n-grams of length n are calculated
Aus diesen nach n-Gramm-Länge unterschiedenen Wort-Wahrscheinlichkeiten kann eine gesamte Wortwahrscheinlichkeit des Wortes w für die Gesamtheit aller trainierter n-Gramm-Längen berechnet werden: From these n-gram-length word probabilities, an entire word probability of the word w can be calculated for the total of all trained n-gram lengths:
Sobald auch nur eine einzige der Wort-n-Gramm-Häufigkeiten Wn(∙) = 0 ist, ist auch die Wort-Wahrscheinlichkeit pW(w) = 0.As soon as even only one of the word-n-gram frequencies Wn (∙) = 0, is also the word probability pW (w) = 0.
Am Beispiel des Wortes "baumhaus" wird dies weiter erläutert.At the Example of the word "Baumhaus" will be explained further.
Zur
Bestimmung von Bigrammen und unter der Annahme, dass es eine Gesamtzahl
NW(2) = 100 Bigramme gibt, ergibt sich:
Für
Trigramme ergibt sich entsprechend:
Aus
diesen Ergebnissen resultiert letztendlich
Eine große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind die Wortanfangs-Wahrscheinlichkeiten. Denn gibt es in der Sprachstichprobe keine Wörter mit den Wortanfangs-n-Grammen des Wortes w, so wird dieses mit großer Wahrscheinlichkeit kein gültiges Wort der Sprache sein. Dementsprechend berechnet sich die Wahrscheinlichkeit dass ein Wort w im Sinne seines Wortanfangs existiert aus A great help in assessing whether there is a word w are the word-beginning probabilities. For if there are no words in the language sample with the word-beginning n-grams of the word w, this will most likely not be a valid word of the language. Accordingly, the probability that a word w exists in the sense of the beginning of the word is calculated
Sobald auch nur eine einzige der Wortanfangs-n-Gramm-Häufigkeiten An(∙) = 0 ist, ist auch die Wortanfangs-Wahrscheinlichkeit pA(w) = 0.As soon as even just one of the word-beginning n-gram frequencies An (∙) = 0 is also the word beginning probability pA (w) = 0.
Ein
Beispiel soll dies näher erläutern. Angenommen,
es soll die Wortanfangs-Wahrscheinlichkeit für n-Gramme
der Länge 2 bis 5 und das Wort w = baumhaus berechnet werden.
Es seien die Häufigkeiten aus der oben veranschaulichten
Auflistung von Wortanfangs-Bigrammen gegeben, die in diesem Beispiel
immer den Wert 1 haben. Einige beispielhafte Gesamtzahlen von Wortanfangs-n-Grammen
seien NA(2) = 12, NA(3) = 10, NA(4) = 13, NA(5) = 11. Damit ergibt
sich
Eine weitere große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind wie erwähnt die Wortend-Wahrscheinlichkeiten. Gibt es in der Sprachstichprobe keine Wörter, die auf die gleiche Buchstabenkette enden wie das Wort w, so ist dieses mit großer Wahrscheinlichkeit kein Wort der Sprache. Berechnen lassen sich die Wortend-Wahrscheinlichkeiten direkt aus den Wortend-n-Grammen: Another great help in assessing if there is a word w is, as mentioned, the word end probabilities. If there are no words in the language sample that end in the same string of letters as the word w, then this is probably not a word of the language. The word end probabilities can be calculated directly from the word end n-grams:
Sobald auch nur eine einzige der Wortend-n-Gramm-Häufigkeiten En(∙) = 0 ist, ist auch die Wortend-Wahrscheinlichkeit pE(w) = 0.As soon as even just one of the word end n-gram frequencies En (∙) = 0 is also the word end probability pE (w) = 0.
Ein unbekanntes Wortende deutet nicht unbedingt auf eine unsinnige Worthypothese hin, sondern kann genauso gut ein Indiz dafür sein, dass ein Wort noch nicht komplett eingegeben ist.One Unknown word ending does not necessarily indicate a nonsensical word hypothesis but can just as well be an indication that a word is not completely entered yet.
Dies
erläutert das folgende Beispiel: Angenommen, es soll die
Wortend-Wahrscheinlichkeit für n-Gramme der Länge
2 bis 5 und das Wort w = baumhaus berechnet werden. Es seien die
Häufigkeiten aus der oben veranschaulichten Auflistung
von Wortend-Bigrammen gegeben, die in diesem Beispiel immer den Wert
1 haben, und einige beispielhafte Gesamtzahlen von Wortend-n-Grammen
seien NE(2) = 22, NE(3) = 20, NE(4) = 23, NE(5) = 21. Damit ergibt
sich
Für
die Ganzwort-Wahrscheinlichkeiten gilt folgendes: Ist das zu bewertende
Wort w so kurz, dass aus der Sprachstichprobe Ganzwort-n-Gramme
derselben Länge bestimmt wurden, so kann die Auftrittswahrscheinlichkeit
von w einfach angegeben werden als
Ein
Beispiel soll dies näher erläutern. Angenommen,
es soll die Ganzwortwahrscheinlichkeit für die Wörter
w = der, w = du und w = lqü berechnet werden. Es seien
die Häufigkeiten aus der oben erwähnten Sprachstichprobe
(immer 1 oder 0) gegeben und einige beispielhafte Gesamtzahlen von
Ganzwort-n-Grammen seien NG(2) = 33, NG(3) = 30. Damit ergibt sich
Es wird nun anhand des Beispiels "baumhaus" der konkrete Ablauf näher beschrieben, um aus der Vielzahl der möglichen Zeichenkombinationen für ein Wort (hier wie oben bereits angegeben: 61.440) eine sinnvolle Liste von Wortalternativen zu erstellen.It The concrete procedure will now become closer with the example of "Baumhaus" described to the variety of possible character combinations for a word (here as already stated above: 61.440) to create a meaningful list of word alternatives.
Aus der Liste L der möglichen Wörter werden alle Wörter entfernt, deren Wahrscheinlichkeiten pW(w) = 0 oder pA(w) = 0 sind. Diese Wörter stellen mit ziemlicher Sicherheit kein korrektes Wort dar. Aus Performancegründen ist es sinnvoll, bereits beim Aufbau der ersten Wortliste L dieses Kriterium anzuwenden und überhaupt nur Wörter in die Liste aufzunehmen, für die pW(w) ≠ 0 und pA(w) ≠ 0 gilt.Out the list of possible words becomes all words whose probabilities pW (w) = 0 or pA (w) = 0 are removed. These words are almost certainly not correct Word dar. For performance reasons, it makes sense already in building the first word list L apply this criterion and at all only add words to the list for which pW (w) ≠ 0 and pA (w) ≠ 0.
Aus den wenigen verbleibenden Worthypothesen wird eine sortierte Liste erzeugt, wobei sich die Reihenfolge der einzelnen Wörter aus folgenden drei Kriterien ergibt:
- (a) Zuerst stehen alle Wörter mit pG(w) ≠ 0, absteigend sortiert nach pG(w). Damit bekommen Wörter Priorität, für die Ganzwort-n-Gramme vorhanden sind.
- (b) Danach kommen alle Wörter mit pE(w) ≠ 0, absteigend sortiert nach pA(w)·pW(w)·pE(w). Damit bekommen Wörter, die ein komplettes Wort repräsentieren, Priorität vor solchen, die (bisher) nur teilweise eingegeben sind.
- (c) Es folgen alle restlichen Wörter, absteigend sortiert nach pA(w)·pW(w). In Vergleich zu der vorhergehenden Wortgruppe aus (b) werden Wörter hinten angestellt, die erst teilweise eingegeben sind. Sinnvoll wäre, dass die Eingabe von 2286428 als Hypothese zwar das Teil-Wort "baumhau" findet, aber eventuell bessere Hypothesen bevorzugt, die nach (b) bereits ein gesamtes Wort repräsentieren.
- (a) First all words with pG (w) ≠ 0 are listed, sorted in descending order according to pG (w). This gives priority to words for which whole-word n-grams exist.
- (b) Then all words come with pE (w) ≠ 0, sorted in descending order according to pA (w) · pW (w) · pE (w). This gives words that represent a complete word priority over those that are (so far) only partially entered.
- (c) All remaining words follow, sorted in descending order by pA (w) · pW (w). Compared to the previous word group from (b), words are placed behind, which are only partly entered. It makes sense that the entry of 2286428 as a hypothesis, although the sub-word "tree" finds, but may prefer better hypotheses, which after (b) already represent an entire word.
Die Erfindung wird im folgenden anhand von Ausführungsbeispielen und der Zeichnung weiter erläutert. In der Zeichnung zeigen:The Invention will be described below with reference to exemplary embodiments and further explained the drawing. In the drawing show:
In
Die
zweckmäßige Ausgestaltung der Ergänzung
der im Speicher
Im folgenden wird das erfindungsgemäße Verfahren anhand konkreter Ausführungsbeispiele in der deutschen und lateinischen Sprache bei Benutzung einer Telefontastatur weiter erläutert.in the The following is the process of the invention on the basis of concrete examples in German and Latin using a telephone keypad explained.
Für
erste Beispiel ist eine umfangreiche Sprachstichprobe mit 688.000
Wörtern benutzt worden, die viele zusammengesetzte Wörter
und auch Bücher aus der Trivialliteratur enthält.
Die n-Gramm-Belegung ist wie folgt: Tabelle 1
An dieser Tabelle erkennt man gut, dass gerade durch die n-Gramme mit n = 4 und n = 5 viel Wissen repräsentiert wird, da ein Großteil (95%–99.99%) aller Vier- und Fünf-Buchstabenkombinationen in der Sprachstichprobe nicht vorkommen.At This table can be seen well, that just by the n-grams with n = 4 and n = 5 much knowledge is represented as one Large part (95% -99.99%) of all four- and five-letter combinations do not occur in the language sample.
Die Worterkennungsprozedur wird nun für die Wörter "Ist" "das" "Baumhaus" "schon" "fertig", "Abschlussball", "Bierkasten", "Außenhandelsumsatz", "Fußballspiel" an Hand ihrer Ziffernfolgen 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 erkannt werden. Zum Vergleich sind die Ergebnisse bei Verwendung der T9-Technologie der Firma Tegic angegeben.The Word recognition procedure will now work for the words "Is" "the" "tree house" "already" "ready", "prom", "beer box", "Foreign trade turnover", "football game" on the hand of her Number sequences 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 are recognized. For comparison are the results when using the T9 technology of Tegic specified.
Die
Tabelle 2 stellt das Ergebnis dar, wobei das gesuchte bzw. eingetippte
Wort in Fettschrift dargestellt ist. Dahinter steht die jeweilige
Wort-Hypothesenliste. Tabelle 2
Die Unterschiede zwischen den beiden Worterkennungsverfahren liegen im wesentlichen nicht bei der Bearbeitung der einfachen, gängigen Wörter. Viele zusammengesetzte Wörter, die sich bei Anwendung des erfindungsgemäßen Verfahrens erschließen, können mit dem herkömmlichen T9-Verfahren nicht gefunden werden. Dabei liegt die Rechenzeit zur Erstellung der o. g. Worthypothesenliste im nichtmessbaren Bereich.The Differences between the two word recognition methods lie essentially not when editing the simple, common Words. Many compound words that are when using the method according to the invention can develop with the conventional T9 method can not be found. The calculation time is Creation of the o. G. Word hypothesis list in the unmeasurable area.
Das folgende Beispiel bezieht sich auf Latein auf einer 6-er Tastatur mit der folgenden Tastenbelegung: The following example refers to Latin on a 6-key keyboard with the following key mapping:
Die Buchstaben j, k, w, z kommen im Lateinischen nicht vor und entfallen daher. Das Beispiel zeigt, wie leicht sich die Texteingabe sowohl an neue Sprachen, als auch an andere Tastaturen anpassen lässt. Daraus ergibt sich folgendes Ausgabealphabet:
- O(0) = {a, b, c, d}
- O(1) = {e, f, g, h}
- O(2) = {i, l, m, n}
- O(3) = {o, p, q, r}
- O(4) = {s, t, u}
- O(5) = {v, x, y}
- O (0) = {a, b, c, d}
- O (1) = {e, f, g, h}
- O (2) = {i, l, m, n}
- O (3) = {o, p, q, r}
- O (4) = {s, t, u}
- O (5) = {v, x, y}
Die Sprachstatistik wurde aus einer Sprachstichprobe bestimmt, die ausschließlich eine Reihe von längeren lateinischen Originaltexten (z. B. Caesar "Commentariorum Libri VII de Bello Gallico", "Commentariorum Libri III de Bello Civili", "Libri Incertorum Auctorum") mit insgesamt 128.000 Wörtern bestand.The Language statistics were determined from a sample of language samples exclusively a series of longer Latin original texts (eg. B. Caesar "Commentary Libri VII de Bello Gallico", "Commentary Libri III de Bello Civili "," Libri Incertorum Auctorum ") with a total of 128,000 words existed.
Nach
der Auszählung sind von den möglichen n-Grammen
folgende belegt: Tabelle 3
Aus Tabelle 3 ist wiederum ersichtlich, dass gerade durch die n-Gramme mit n = 4 und n = 5 viel Information geliefert wird, die die Sprachstichprobe selbst nicht enthält.Out Table 3 again shows that it is precisely the n-grams with n = 4 and n = 5 a lot of information is supplied, which is the language sample itself does not contain.
Im
folgenden sollen
Multa legas facito, perlectis neglege multa.
Qualis
artifex pereo!
[Cato Maiar: "Sieh' zu, dass du viel liest,
und wenn du es gelesen hast, dann lasse vieles davon unberücksichtigt."
und "Welch großer Künstler scheidet mit mir dahin!"]
an
Hand ihrer Eingaben 24240 21104 100243, 313210424 2112111 24240.
340224 0342115 31313! erkannt werden. Es wird pro Wort jeweils die
gesamte sortierte Hypothesenliste angegeben, die korrekte Hypothese
in Fettdruck: Tabelle 4
Multa legas facito, perlectis negie multa.
Qualis artifex pereo!
[Cato Maiar: "See that you read a lot and when you read it, much of it is ignored." and "What great artist is going away with me!"]
on the basis of their inputs 24240 21104 100243, 313210424 2112111 24240. 340224 0342115 31313! be recognized. The complete sorted list of hypotheses is given for each word, the correct hypothesis in bold: Table 4
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list The documents listed by the applicant have been automated generated and is solely for better information recorded by the reader. The list is not part of the German Patent or utility model application. The DPMA takes over no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- - US 6307549 B1 [0012] - US 6307549 B1 [0012]
- - US 2002/0183100 A1 [0013] US 2002/0183100 A1 [0013]
- - EP 0924594 A2 [0014] - EP 0924594 A2 [0014]
- - WO 2004/003953 A1 [0015] WO 2004/003953 A1 [0015]
- - EP 1710668 A1 [0016] - EP 1710668 A1 [0016]
Zitierte Nicht-PatentliteraturCited non-patent literature
- - "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" von J. L. Arnott und M. Y. Javed, AAC Augmentative and Alternative Communication, Vol. 8, Seiten 215 bis 223 [0007] - "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" by JL Arnott and MY Javed, AAC Augmentative and Alternative Communication, Vol. 8, pages 215 to 223 [0007]
Claims (16)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102007014405A DE102007014405B4 (en) | 2007-03-26 | 2007-03-26 | Method for word recognition in character sequences |
EP08718135A EP2132656A2 (en) | 2007-03-26 | 2008-03-20 | Method for word recognition in character sequences |
PCT/EP2008/053430 WO2008116843A2 (en) | 2007-03-26 | 2008-03-20 | Method for word recognition in character sequences |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102007014405A DE102007014405B4 (en) | 2007-03-26 | 2007-03-26 | Method for word recognition in character sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102007014405A1 true DE102007014405A1 (en) | 2008-10-09 |
DE102007014405B4 DE102007014405B4 (en) | 2010-05-27 |
Family
ID=39736022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102007014405A Expired - Fee Related DE102007014405B4 (en) | 2007-03-26 | 2007-03-26 | Method for word recognition in character sequences |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2132656A2 (en) |
DE (1) | DE102007014405B4 (en) |
WO (1) | WO2008116843A2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008058271A1 (en) | 2008-11-20 | 2010-05-27 | Airbus Deutschland Gmbh | Supply unit for flexible supply channels |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0924594A2 (en) | 1997-12-19 | 1999-06-23 | Nokia Mobile Phones Ltd. | Method and apparatus for entering text in a mobile station and a mobile station |
US6307549B1 (en) | 1995-07-26 | 2001-10-23 | Tegic Communications, Inc. | Reduced keyboard disambiguating system |
US20020183100A1 (en) | 2001-03-29 | 2002-12-05 | John Parker | Character selection method and character selection apparatus |
WO2004003953A1 (en) | 2002-07-01 | 2004-01-08 | Tyco Electronics Corporation | Low noise relay |
EP1710668A1 (en) | 2005-04-04 | 2006-10-11 | Research In Motion Limited | Handheld electronic device with text disambiguation employing advanced editing feature |
US7129932B1 (en) * | 2003-03-26 | 2006-10-31 | At&T Corp. | Keyboard for interacting on small devices |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5031206A (en) * | 1987-11-30 | 1991-07-09 | Fon-Ex, Inc. | Method and apparatus for identifying words entered on DTMF pushbuttons |
US5952942A (en) * | 1996-11-21 | 1999-09-14 | Motorola, Inc. | Method and device for input of text messages from a keypad |
-
2007
- 2007-03-26 DE DE102007014405A patent/DE102007014405B4/en not_active Expired - Fee Related
-
2008
- 2008-03-20 EP EP08718135A patent/EP2132656A2/en not_active Withdrawn
- 2008-03-20 WO PCT/EP2008/053430 patent/WO2008116843A2/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6307549B1 (en) | 1995-07-26 | 2001-10-23 | Tegic Communications, Inc. | Reduced keyboard disambiguating system |
EP0924594A2 (en) | 1997-12-19 | 1999-06-23 | Nokia Mobile Phones Ltd. | Method and apparatus for entering text in a mobile station and a mobile station |
US20020183100A1 (en) | 2001-03-29 | 2002-12-05 | John Parker | Character selection method and character selection apparatus |
WO2004003953A1 (en) | 2002-07-01 | 2004-01-08 | Tyco Electronics Corporation | Low noise relay |
US7129932B1 (en) * | 2003-03-26 | 2006-10-31 | At&T Corp. | Keyboard for interacting on small devices |
EP1710668A1 (en) | 2005-04-04 | 2006-10-11 | Research In Motion Limited | Handheld electronic device with text disambiguation employing advanced editing feature |
Non-Patent Citations (1)
Title |
---|
"Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" von J. L. Arnott und M. Y. Javed, AAC Augmentative and Alternative Communication, Vol. 8, Seiten 215 bis 223 |
Also Published As
Publication number | Publication date |
---|---|
WO2008116843A2 (en) | 2008-10-02 |
DE102007014405B4 (en) | 2010-05-27 |
EP2132656A2 (en) | 2009-12-16 |
WO2008116843A3 (en) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60123952T2 (en) | GENERATION OF A UNIFORM TASK DEPENDENT LANGUAGE MODEL THROUGH INFORMATION DISCUSSION PROCESS | |
DE19721198C2 (en) | Statistical language model for inflected languages | |
DE60219943T2 (en) | METHOD FOR COMPRESSING DICTIONARY DATA | |
EP1466317B1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
DE112007000847T5 (en) | A portable electronic device and method for learning context data during a disambiguation of a text input | |
DE69919842T2 (en) | LANGUAGE MODEL BASED ON THE LANGUAGE RECOGNITION HISTORY | |
DE112007000854B4 (en) | A portable electronic device that provides a learning function for facilitating correction of erroneous text input in an environment of a text requiring multiple sequential operations of the same key, and related method | |
DE112006003659T5 (en) | A portable electronic device and method for disambiguating text input and providing a spelling substitution | |
DE102007014405B4 (en) | Method for word recognition in character sequences | |
DE112007000727T5 (en) | A portable electronic device and method for performing a spell check during a text input and integrating the output of the spell check into disambiguation output | |
DE112007000848T5 (en) | A portable electronic device and method for performing an optimized spell check during text input by providing a sequentially arranged set of spell check algorithms | |
DE112007000855T5 (en) | A portable electronic device and method for performing a spelling check during text input and providing a spell check learning feature | |
EP2815396B1 (en) | Method for phoneticizing a data list and speech-controlled user interface | |
DE112006003651T5 (en) | Portable electronic device and method for disambiguating text input to suppress artificial variants with low probability | |
DE112005001283T5 (en) | Portable electronic device with text disambiguation | |
DE112005001284T5 (en) | Portable electronic device with text disambiguation | |
DE602004004310T2 (en) | System with combined statistical and rule-based grammar model for speech recognition and understanding | |
DE112005001314T5 (en) | Portable electronic device with text disambiguation | |
DE112007000856B4 (en) | A portable electronic device and method for using context data to disambiguate a text input | |
DE112006003660T5 (en) | A portable electronic device and method for disambiguating a text input that provides artificial variants consisting of characters in a core alphabet | |
EP1340169B1 (en) | Method and device for automatically issuing information using a search engine | |
EP2034472B1 (en) | Speech recognition method and device | |
EP2006835B1 (en) | Method for determining a list of hypotheses from a vocabulary of a speech recognition system | |
DE60305922T2 (en) | METHOD AND SYSTEM FOR GENERATING AND USING DATA IN CHINESE LANGUAGE AND USER-CORRECTED DATA | |
DE102014010315B4 (en) | Computer-implemented method and device for processing voice input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R082 | Change of representative |
Representative=s name: BEATE KOENIG, 80539 MUENCHEN, DE Representative=s name: BEATE KOENIG, DE Representative=s name: KOENIG, BEATE, DIPL.-PHYS. DR.RER.NAT., DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |