DE102007014405B4

DE102007014405B4 - Method for word recognition in character sequences

Info

Publication number: DE102007014405B4
Application number: DE102007014405A
Authority: DE
Inventors: Frank Deinzer
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-03-26
Filing date: 2007-03-26
Publication date: 2010-05-27
Anticipated expiration: 2027-03-27
Also published as: EP2132656A2; WO2008116843A2; DE102007014405A1; WO2008116843A3

Abstract

Verfahren zur Worterkennung einer Eingabesequenz von Zeichen bei der Erfassung von Text oder Sprache in einer Erfassungssprache, wobei ein oder mehrere Zeichen der Eingabesequenz mehrdeutig sind, wobei
a) jedem Zeichen der Eingabesequenz mindestens ein Zeichen der Erfassungssprache zugeordnet ist,
b) zu einer Sprachstichprobe von Zeichenketten der Erfassungssprache n-Gramme mehrerer bestimmter unterschiedlich langer n-Gramm-Längen und die Häufigkeiten dieser n-Gramme in der Sprachstichprobe ermittelt werden,
c) der Eingabesequenz der Zeichen unter Berücksichtigung von deren Mehrdeutigkeiten die mehreren entsprechenden eindeutigen Zeichensequenzen der Erfassungssprache zugeordnet werden,
d) wobei jede der zugeordneten eindeutigen Zeichensequenzen der Erfassungssprache in n-Gramme der mehreren bestimmten unterschiedlich langen n-Gramm-Längen zerlegt wird und das Produkt Π der Wahrscheinlichkeiten der zerlegten n-Gramme Wn/NW(n) aus der Häufigkeit Wn der einzelnen n-Gramme in der Sprachstichprobe und der Gesamtzahl NW(n) der jeweiligen n-Gramme in der Sprachstichprobe für die entsprechenden Längen n ermittelt wird,
e) wobei aus diesen zugeordneten eindeutigen Zeichensequenzen...A method for word recognition of an input sequence of characters in the detection of text or speech in a detection language, wherein one or more characters of the input sequence are ambiguous, wherein
a) each character of the input sequence is assigned at least one character of the detection language,
b) for a speech sample of strings of the detection language n-grams of a plurality of certain different length n-gram lengths and the frequencies of these n-grams are determined in the speech sample,
c) assigning the input sequence of the characters, taking into account their ambiguities, the plurality of corresponding unique character sequences of the detection language,
d) wherein each of the associated unique character sequences of the detection speech is decomposed into n-grams of the plurality of certain different length n-gram lengths and the product Π of the probabilities of the decomposed n-grams Wn / NW (n) from the frequency Wn of the individual n -Grams in the speech sample and the total number NW (n) of the respective n-grams in the speech sample for the corresponding lengths n is determined,
e) where unique character sequences associated therewith ...

Description

Die Erfindung betrifft ein Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können.The The invention relates to a method for word recognition in sequences of N characters, of which one or more characters are ambiguous can.

Die elektronische Erfassung von Texten und Sprache ist inzwischen Routine geworden. Sie ist jedoch nicht fehlerfrei, dauert zu lange, erfordert zu viel Speicher oder ist nicht flexibel genug in bezug auf die verwendeten Geräte oder Sprachen.The electronic recording of texts and speech is now routine become. However, it is not bug free, takes too long, requires too much memory or is not flexible enough in terms of the used devices or languages.

Eingesetzt wird die elektronische Erfassung von Texten und Sprache z. B. bei der Texteingabe in Tastaturen. Am effizientesten und gebräuchlichsten ist die normale Computertastatur, die für jeden einzugebenden Buchstaben bzw. für jedes einzugebende Zeichen eine Taste bereitstellt oder eine Tastenkombination definiert. Andere Tastaturen haben weniger Tasten, etwa die Tastaturen von Mobiltelefonen für das Versenden von SMS oder von PDAs für die Termineingabe, Spezialtastaturen wie QWERTY-Tastaturen, Tastaturen für Behinderte oder Tastaturen von Spezialgeräten. Bei der Texteingabe in solche Tastaturen kommt es notwendigerweise zu Mehrfachbelegungen der Tasten, so dass die Tasten meist mehrfach gedrückt werden müssen, um den gewünschten Buchstaben zu aktivieren (Multitap-Methode). Im Falle eines herkömmlichen Mobiltelefons z. B. gibt es eine ge meinsame Taste für A B C Ä 2 und wenn etwa das Wort ”baumhaus” eingegeben wird, muss die Tastenfolge 222886442887777 (in Ziffern angegeben) gedrückt werden, die dann aber ein eindeutiges Wort ergibt. Unter der Annahme eines üblichen deutschen Ausgabealphabets ohne Groß-/Kleinschreibung
O(2) = {a, ä, b, c}
O(3) = {d, e, f}
O(4) = {g, h, i}
O(5) = {j, k, l}
O(6) = {m, n, o, ö}
O(7) = {p, q, r, s, ß}
O(8) = {t, u, ü, v}
O(9) = {w, x, y, z}
ergeben sich für das Wort ”baumhaus” (Ziffernfolge 22864287) 4·4·4·4·3·4·4·5 = 61.440mögliche Buchstabenkombinationen, wenn für jeden Buchstaben des eingegebenen Wortes jede Taste nur einmal gedrückt wird. Diese Buchstabenkombinationen gehen von ”aatmgatw” über ”baumhaus” bis ”ccvöicvß”. Unter diesen müssen unmögliche Kombinationen wie ”ääüöiäüq” (ebenfalls Ziffernfolge 22864287) ausgeschlossen werden und eine sinnvolle Liste von möglichen Wörtern (Hypothesen) angeboten werden, z. B. für die Ziffernfolge 343 ”die”, ”ehe”, ”eid”, wobei die erstgenannte Möglichkeit am häufigsten vorkommt. Dies ist die Aufgabe von Worterkennungsverfahren.The electronic recording of texts and language is used, for example. For example, when entering text in keyboards. The most efficient and common is the normal computer keyboard, which provides a key or defines a key combination for each character to be entered or for each character to be entered. Other keyboards have fewer keys, such as mobile phone keyboards for sending text messages or PDAs for appointment input, special keyboards such as QWERTY keyboards, keyboards for the disabled or special purpose keyboards. When entering text into such keyboards, it is necessary to multiple assignments of the keys, so that the keys usually have to be pressed several times to activate the desired letter (multitap method). In the case of a conventional mobile phone z. For example, there is a common key for ABC Ä 2, and when the word "Baumhaus" is entered, for example, the key sequence 222886442887777 must be pressed (in numbers), but it will then return a unique word. Assuming a common German edition alphabet without case
O (2) = {a, ä, b, c}
O (3) = {d, e, f}
O (4) = {g, h, i}
O (5) = {j, k, l}
O (6) = {m, n, o, ö}
O (7) = {p, q, r, s, ß}
O (8) = {t, u, u, v}
O (9) = {w, x, y, z}
arise for the word "tree house" (number sequence 22864287) 4 · 4 · 4 · 4 · 3 · 4 · 4 · 5 = 61,440 possible letter combinations, if for each letter of the entered word each key is pressed only once. These letter combinations go from "aatmgatw" to "baumhaus" to "ccvöicvß". Among them, impossible combinations such as "ääüöiäüq" (also numbered 22864287) must be excluded and a meaningful list of possible words (hypotheses) offered, eg. For example, for the number sequence 343 "the", "marriage", "eid", the former possibility occurring most frequently. This is the task of word recognition.

Bei der Spracheingabe gibt es ebenso Mehrdeutigkeiten, beispielsweise bei schwierigen Lauten wie ”s” und ”f”, deren Formantenfrequenzen größtenteils außerhalb von 3,4 kHz (obere Grenze der Telefonübertragungsfrequenz) liegen. Auch kann es zu ein und demselben Phonem unterschiedliche Schreibweisen geben, d. h. wenn geschrieben wird, wie gesprochen wird, fallen Zuordnungs- und Auswahlentscheidungen an (/f/ → f, v, ph, /a/ → a, aa, ah). Es sind bereits Phonem-Wörterbücher zum Einsatz gekommen.at the voice input there are also ambiguities, for example in difficult sounds like "s" and "f", whose Formant frequencies mostly outside of 3.4 kHz (upper limit of the telephone transmission frequency). Also, there may be different spellings for the same phoneme give, d. H. when it is written, as is spoken, fall Assignment and selection decisions to (/ f / → f, v, ph, / a / → a, aa, Ah). There are already phoneme dictionaries for Use came.

Auch beispielsweise beim Lesen von elektronischen Textdateien, etwa wenn diese eingegebenen Text oder Sprache enthalten oder es sich um digitale Dokumente handelt, können sich praktisch vergleichbare Probleme beim Erkennen dieser Dateien ergeben, bis die Wörter aufgelöst sind.Also for example, when reading electronic text files, such as when contain this typed text or language or it is digital Documents can act virtually similar problems detecting these files surrender until the words disbanded are.

Die nachfolgende Darstellung des Standes der Technik und der Erfindung bezieht sich schwerpunktsmäßig auf die Texterkennung bei der Eingabe in Tastaturen, für die die Erfindung zunächst vorgesehen war. Die Erfindung ist jedoch nicht auf diesen Anwendungsbereich beschränkt, sondern auch auf die oben dargestellten und andere Bereiche der Texterkennung und -analyse bzw. Spracherkennung anwendbar.The following description of the state of the art and the invention refers to the focus The text recognition when typing in keyboards for which the Invention first was provided. However, the invention is not limited to this field of application limited, but also on the above and other areas of the Text recognition and analysis or speech recognition applicable.

Für die Worterkennung sind zur Behebung der Mehrdeutigkeiten verschiedene Zeichen-Disambiguierungsmethoden eingesetzt worden. Einige basieren auf der Verwendung sogenannter n-Gramme, d. h. von zusammenhängenden Zeichen-Sequenzen mit n Zeichen, siehe auch Wikipdia: N-gram, 24.03.2007. n-Gramme sind bei der Analyse großer Datenmengen auf bestimmte Kontexte (oder Wortgruppen) beispielsweise durch den Geheimdienst zum Einsatz gekommen, so bei der Durchsuchung von E-Mails auf ausgewählte Themengebiete etc.. Sie dienen auch zur Satzerkennung aufgrund vorgegebener Wortfolgen, der n-Gramme in diesem Kontext. Bei der Worterkennung mittels n-Grammen werden Zeichensequenzen (auch: Strings) mit n-Grammen verglichen, die unterschiedliche Längen haben können. Eine Kombination unterschiedlich langer n-Gramme hat sich als nützlich erwiesen, wobei die kürzeren n-Gramme Alternativprädiktionen liefern und die längeren n-Gramme eine größere Eindeutigkeit herbeiführen, aber einen hohen Speicherbedarf haben, so dass n > 6 in der Praxis nicht vorkommt. Durch die unterschiedliche Länge der n-Gramme werden die Häufigkeiten der einzelnen Buchstaben, von Bigrammen, Trigrammen und auch kurzen Wörtern berücksichtigt. Nachteilig erweist es sich bei der Anwendung der n-Gramm-Methode, wenn die Dokumente nur sehr kurz sind.For word recognition, various character disambiguation methods have been used to correct the ambiguities. Some are based on the use of so-called n-grams, ie of contiguous character sequences with n characters, see also Wikipdia: N-gram, 24.03.2007. n-grams have been used in the analysis of large amounts of data on specific contexts (or phrases), for example, by the intelligence service, such as the search of emails on selected topics etc .. They are also used for sentence recognition due to predetermined word sequences, the n- Gramme in this Context. In the case of word recognition by means of n-grams, character sequences (also: strings) are compared with n-grams, which can have different lengths. A combination of n-grams of different lengths has proven to be useful, with the shorter n-grams providing alternative predictions and the longer n-grams providing greater uniqueness, but requiring a large memory such that n> 6 does not occur in practice. The different lengths of the n-grams take into account the frequencies of the individual letters, bigrams, trigrams and even short words. The disadvantage of using the n-gram method is that the documents are only very short.

Große Beachtung hat die bereits 1992 erschienene Veröffentlichung ”Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples” von J. L. Arnott und M. Y. Javed, AAC Augmentative and Alternative Communication, Vol. 8, Seiten 215 bis 223 gefunden. Bei dem beschriebenen Disambiguationsverfahren werden unterschiedlich lange n-Gramme verwendet, diese aber nicht wirklich kombiniert. Es wird letztlich nur eine von mehreren vorhandenen n-Gramm-Längen mit der größten n-Gramm-Länge gesucht, die überhaupt eine Entscheidung zulässt und nur diese n-Grammlänge verwendet.Great attention has published the publication "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples "from J.L. Arnott and M.Y. Javed, AAC Augmentative and Alternative Communication, Vol. 8, pages 215 to 223 found. In the described disambiguation method n-grams are used for different lengths, but these are not really combined. It will ultimately only be one of several existing ones n-gram length looking for the largest n-gram length ever allows a decision and only this n-gram length used.

Zerlegt man beispielsweise das Wort ”baumhaus” in n-Gramme der Längen 2 bis 5, so ergeben sich folgende n-Gramme Vn(baumhaus):
n = 2 V2(baumhaus) = {ba, au, um, mh, ha, au, us}
n = 3 V3(baumhaus) = {bau, aum, umh, mha, hau, aus}
n = 4 V4(baumhaus) = {baum, aumh, umha, mhau, haus}
n = 5 V5(baumhaus) = {baumh, aumha, umhau, mhaus}If, for example, the word "tree house" is decomposed into n-grams of lengths 2 to 5, the following n-grams Vn (baumhaus) result:
n = 2 V2 (tree house) = {ba, au, um, mh, ha, au, us}
n = 3 V3 (tree house) = {construction, aum, umh, mha, hau, aus}
n = 4 V4 (tree house) = {tree, aumh, umha, mhau, house}
n = 5 V5 (tree house) = {baumh, aumha, umhau, mhaus}

Ausgezählt ergeben sich für einige ausgewählte n-Gramme folgende Häufigkeiten:
W2 (au) = 2
W3 (aum) = 1
W4 (baum) = 1
W5 (baumh) = 1
n-Gramme, die nicht beobachtet wurden, haben selbstverständlich eine Häufigkeit von 0, z. B. W3(lqü) = 0.The following frequencies are counted for some selected n-grams:
W2 (au) = 2
W3 (aum) = 1
W4 (tree) = 1
W5 (tree) = 1
Of course, n-grams that were not observed have a frequency of 0, e.g. B. W3 (lqü) = 0.

Alle bekannten Wörter einer Sprache lassen sich nun aus n-Grammen zusammensetzen. Insgesamt gibt es z. B. im Deutschen (ohne Berücksichtigung von Groß-/Kleinschreibung) 30 Buchsta ben, was die Maximalanzahl möglicher n-Gramme begrenzt: n = 2 900 n = 3 27.000 n = 4 810.000 n = 5 24.300.000 All known words of a language can now be composed of n-grams. Overall, there are z. B. in German (ignoring case) 30 letters, which limits the maximum number of possible n-grams: n = 2 900 n = 3 27,000 n = 4 810000 n = 5 24,300,000

Bei der Spezialanwendung Mobiltelefon der intelligenten Textsysteme, ohne deren Einsatz die Texteingabe nach der Multitap-Methode erfolgt, gibt es nur wenige auf dem Markt eingeführte Entwicklungen.at the special application mobile phone of intelligent text systems, without the use of text input according to the multitap method, There are only a few developments introduced in the market.

Die US 7 129 932 B1 befasst sich mit Tastaturen, die Tasten mit Mehrfachbelegung umfassen, beispielsweise für PDAs etc.. Beschrieben ist das Auffinden von Wörtern und die Wortidentifikation in Sätzen. Es ist vorgesehen, die Wortgrenzen manuell einzugeben, siehe z. B. Anspruch 1. In einem Rechnerspeicher sind Wörter in einem Lexikon abgelegt, ferner ist die Häufigkeit des Auftretens dieser Wörter in einem benutzten Sprachmodell hinterlegt. Nach Eingabe einer Wortgrenze wird der Zeichensatz eines gerade eingegebenen Wortes mit den Wörtern im Lexikon verglichen und das wahrscheinlichste Wort aus dem Lexikon vorgeschlagen, d. h. das Wort, das am häufigsten im gewählten Sprachmodell vorkommt und zugleich aus der eingegebenen Zeichenfolge ableitbar ist. Es kann während der Worteingabe das noch rudimentäre Wort durch das den vorhandenen Wortanfang enthaltende wahrscheinlichste Wort ergänzt werden. Die beschriebene Wort- und Satzprädiktion ist eine Technik, die bei Spracherkennungssystemen bereits lange Zeit im Einsatz ist.The US Pat. No. 7,129,932 B1 is concerned with keyboards comprising keys with multiple occupancy, for example for PDAs etc. Described is the finding of words and the word identification in sentences. It is intended to enter the word boundaries manually, see e.g. B. Claim 1. In a computer memory words are stored in a dictionary, also the frequency of occurrence of these words in a used language model is deposited. After entering a word boundary, the character set of a word just entered is compared with the words in the lexicon and the most likely word from the lexicon is proposed, ie the word most frequently found in the selected language model and at the same time derivable from the entered character string. During the word input, the still rudimentary word can be supplemented by the most likely word containing the existing word beginning. The described word and sentence prediction is a technique that has long been in use in speech recognition systems.

Sehr verbreitet ist das T9-Verfahren der Firma Tegic Communications, Inc. zur Disambiguierung eingegebener Zeichen-Sequenzen, das in der US 6 307 549 B1 beschrieben ist. Eine eingegebene Zeichen-Sequenz wird mit gespeicherten Vokabular- bzw. Wortmodulen auf Entsprechung verglichen. Gibt es mehrere Alternativen, werden diese in einer Auswahlliste präsentiert und eine Alternative vom Benutzer ausgewählt. Für die Vokabular- bzw. Wortmodule kann eine Baum-Datenstruktur vorgesehen sein. Jeder Knoten dieser Struktur stellt eine bestimmte eingegebene Zeichen-Sequenz dar, von der mehrere Alternativ-Sequenzen bzw. mögliche ASCII-Zeichenfolgen abzweigen, die auf der Grundlage einer festen Tastenbelegung definiert sind. Wo es keinen Pfad zwischen Knoten gibt, gibt es keine gültige Zeichen-Sequenz. Für die Erweiterung des Vokabulars ist ein Extra-Wörterbuch vorgesehen. Das Disambiguierungsprinzip wird daher auch als Wörterbuch-basierte Disambiguierung bezeichnet.Very common is the T9 method of the company Tegic Communications, Inc. for the disambiguation of input character sequences, which in the US Pat. No. 6,307,549 B1 is described. An input character sequence is compared with stored vocabulary or word modules for correspondence. If there are several alternatives, these are presented in a selection list and an alternative selected by the user. For the vocabulary or word modules, a tree data structure can be provided. Each node of this structure represents a particular input character sequence, from which branch off several alternative sequences or possible ASCII character strings which are defined on the basis of a fixed key assignment. Where there is no path between nodes, there is no valid character sequence. For the extension of the Voka bulars is an extra dictionary provided. The disambiguation principle is therefore also referred to as dictionary-based disambiguation.

Die US 2002/0183100 A1 beschreibt ein Verfahren zur Buchstabenauswahl bei der Eingabe beispielsweise von SMS-Nachrichten. Bei der Anzeige wird jeweils als Folgezeichen abhängig von der vorhergehenden Eingabe, d. h. der bereits eingegebenen Zeichen-Sequenz, ein Zeichen angezeigt, das statistisch die höchste Wahrscheinlichkeit als Folgezeichen hat. Die bereits eingegebene Zeichenfolge ist fest und wird nicht variiert. Das Folgezeichen wird anhand einer statistischen Datenbank berechnet. Für die Zeichenauswahl wird dabei auf Wörterbücher zurückgegriffen, von denen eines Wortanfänge und Wörter mit bis zu drei Zeichen, das andere Wörter ab vier Zeichen beispielsweise enthält. Verfahren dieses Typs werden als Präfix-basierte Disambiguierung bezeichnet.The US 2002/0183100 A1 describes a method for character selection when entering, for example, SMS messages. In the display, a character which statistically has the highest probability as a secondary character is respectively displayed as a sequence character depending on the preceding input, ie the already entered character sequence. The already entered string is fixed and will not be varied. The following character is calculated using a statistical database. Dictionaries are used for character selection, of which one contains word beginnings and words with up to three characters, the other words with four characters or more. Methods of this type are referred to as prefix-based disambiguation.

Ebenfalls einen statistischen Ansatz für den Folgebuchstaben nutzt ein in der EP 0 924 594 A2 beschriebenes Verfahren, bei dem auf eine zweidimensionale Tabelle auf der Grundlage eines vorhergehenden Buchstabens sowie auf eine dreidimensionale Trigramm-Tabelle auf der Grundlage von zwei vorhergehenden Buchstaben zurückgegriffen wird.Also uses a statistical approach for the subsequent letter in the EP 0 924 594 A2 described method in which a two-dimensional table based on a preceding letter and a three-dimensional trigram table based on two previous letters is used.

Auch bei dem Disambiguierungsverfahren gemäß WO 2004/003953 A1 (eZiText-Verfahren der Firma Zi Corporation of Canada, Inc.) werden die ersten beiden Buchstaben eines Wortes eindeutig vom Benutzer eingeben und bestätigt. Am Wortanfang werden die Häufigkeiten von Bi- und Trigrammen genutzt. Für die Prädiktion dient ein Benutzerwörterbuch, das bevorzugt ganze Wörter und deren Häufigkeit enthält.Also in the disambiguation method according to WO 2004/003953 A1 (eZiText method of Zi Corporation of Canada, Inc.) the first two letters of a word are clearly entered and confirmed by the user. At the beginning of the word, the frequencies of bi- and trigrams are used. The prediction is based on a user dictionary, which preferably contains whole words and their frequency.

Aus der EP 1 710 668 A1 ist ein Disambiguierungsverfahren bekannt, bei dem ein Speicher mit Wörtern und ferner n-Gramm-Objekten sowie deren Häufigkeiten verwendet wird. Die n-Gramm-Objekte können Wörter oder Wortteile sein und umfassen Mono-, Bi- und Trigramme.From the EP 1 710 668 A1 is a disambiguation method is known in which a memory with words and also n-gram objects and their frequencies is used. The n-gram objects may be words or parts of words and include mono-, bi- and trigrams.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Worterkennung in Zeichen-Sequenzen zu schaffen, das sich für den Einsatz bei Zeichenmehrdeutigkeiten eignet und bei dem die Worterkennung rasch erfolgt.Of the Invention is based on the object, a method for word recognition to create in character sequences that are suitable for use with character ambiguities and where word recognition is fast.

Diese Aufgabe ist erfindungsgemäß bei einem Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der Unteransprüche.These Task is according to the invention in a Method solved with the features of claim 1. Advantageous developments the method according to the invention are the subject of the dependent claims.

Bei dem erfindungsgemäßen Verfahren zur Worterkennung einer Eingabesequenz von Zeichen bei der Erfassung von Text oder Sprache in einer Erfassungssprache, wobei ein oder mehrere Zeichen der Eingabesequenz mehrdeutig sind, ist jedem Zeichen der Eingabesequenz mindestens ein Zeichen der Erfassungssprache zugeordnet. Zu einer Sprachstichprobe von Zeichenketten der Erfassungssprache werden n-Gramme mehrerer bestimmter unterschiedlich langer n-Gramm-Längen und die Häufigkeiten dieser n-Gramme in der Sprachstichprobe ermittelt. Der Eingabesequenz der Zeichen werden unter Berücksichtigung von deren Mehrdeutigkeiten die mehreren entsprechenden eindeutigen Zeichensequenzen der Erfassungssprache zugeordnet. Jede der zugeordneten eindeutigen Zeichensequenzen der Erfassungssprache wird in n-Gramme der mehreren bestimmten unterschiedlich langen n-Gramm-Längen zerlegt und das Produkt Π der Wahrscheinlichkeiten der zerlegten n-Gramme Wn/NW(n) wird aus der Häufigkeit Wn der einzelnen n-Gramme in der Sprachstichprobe und der Gesamtzahl NW(n) der jeweiligen n-Gramme in der Sprachstichprobe für die entsprechenden Längen n ermittelt. Aus diesen zugeordneten eindeutigen Zeichensequenzen werden diejenigen Zeichensequenzen entfernt, bei denen das Produkt Π Null ist. Die verbliebenen eindeutigen Zeichensequenzen der Erfassungssprache werden nach dem jeweils ermittelten Produkt Π sortiert.at the method according to the invention for word recognition of an input sequence of characters during acquisition of text or language in a capturing language, with an or multiple characters of the input sequence are ambiguous, is every character the input sequence at least one character of the detection language assigned. To a language sample of strings of the acquisition language are n-grams of several certain different length n-gram lengths and the frequencies of these n-grams in the language sample determined. The input sequence the characters are taken into consideration of their ambiguities the several corresponding unique ones Assigned character sequences of the acquisition language. Each of the assigned unique character sequences of the detection language will be in n-grams of the several certain different length n-gram lengths decomposed and the product Π the Probabilities of the decomposed n-grams Wn / NW (n) is taken from the frequency Wn of the individual n-grams in the speech sample and the total number NW (n) of the respective n-grams in the speech sample for the corresponding lengths n determined. From these assigned unique character sequences those character sequences are removed where the product Π is zero. The remaining unique character sequences of the detection language are sorted according to the respectively determined product Π.

Bei dem erfindungsgemäßen Verfahren kann somit eine Anzeige die ausgewählten n-Gramme und/oder erkannten Wörter anzeigen, wobei die verbliebenen eindeutigen Zeichensequenzen der Erfassungssprache, d. h. die möglichen Wörter, in einer Liste L angezeigt werden.at the method according to the invention Thus, a display can recognize the selected n-grams and / or recognized words show, with the remaining unique character sequences of the Acquisition language, d. H. the possible ones words, be displayed in a list L.

Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass es unabhängig von der verwendeten Sprache und Tastenbelegung Zuordnungsprobleme von Zeichenketten und -sequenzen löst, wobei sich sinnvolle Worthypothesen ergeben. Dies liegt daran, dass keine Wörter, sondern n-Gramme verwendet werden, um die Worterkennung in Zeichenfolgen durchzuführen. Die Liste wahrscheinlicher Worthypothesen wird nach jedem Tastendruck bei der Eingabe eines Wortes neu erzeugt, so dass eine mit dem Tippen Schritt haltende kontinuierliche Aktualisierung der Hypothesen erfolgt. Aus dieser Liste, falls sie mehr als eine Worthypothese enthält, kann der Benutzer sein korrektes Wort aussuchen, falls er das Wort bereits komplett getippt hat. Die Art und Weise, wie die Auswahl realisiert wird, ist beliebig. Ist das Wort noch nicht komplett getippt, wird der Benutzer weiterhin neue Zeichen eingeben.A significant advantage of the method according to the invention is that, regardless of the language and key assignment used, it solves assignment problems of character strings and sequences, resulting in meaningful word hypotheses. This is because no words but n-grams are used to perform word recognition in strings. The list of probable word hypotheses is recreated after each keystroke in entering a word, so that a continuous update of the hypotheses is achieved with the tap step. From this list, if it contains more than one word hypothesis, the user can choose his correct word, if he has already typed the word completely. The way in which the selection is realized is arbitrary. Is not the word complete yet typed, the user will continue to type new characters.

Das erfindungsgemäße Erkennungsverfahren kann auf beliebige Sprachen, juristische, technische Bereiche etc. angewendet werden, indem der jeweilige Wortschatz in die Statistik integriert wird. Auch die Zuordnung von Buchstaben oder anderen Zeichen zu den Tasten, d. h. die Ausgabealphabete, bzw. Tastenbelegungen sind frei wählbar, ohne dass irgendwelche Änderun gen oder Anpassungen des Verfahrens notwendig werden. Bereits verwendete Sprachstichproben können unverändert übernommen werden, d. h. eine einmal erstellte Sprachstichprobe kann ohne Aufwand auf Geräte mit anderen Tastenanordnungen bzw. -zuordnungen übertragen werden. Die Anpassung an beliebige Sprachen mit ihren individuellen Zeichen wie der Akzent im Französischen, hebräische, kyrillische, griechische etc. Zeichen können einfach eingesetzt werden. Die Auszählung einer kompletten Sprachstichprobe dauert nur einige Minuten.The Detection method according to the invention can be used in any languages, legal, technical areas etc. be applied by the respective vocabulary in the statistics is integrated. Also the assignment of letters or others Sign to the keys, d. H. the output alphabet or key assignments are freely selectable, without any changes or adjustments to the procedure become necessary. Already used Language samples can unchanged be, d. H. once a language sample can be created without effort on devices be transmitted with other key arrangements or assignments. The adaptation to any languages with their individual characters like the accent in the French, Hebrew, Cyrillic, Greek etc. characters can be easily inserted. The counting a complete language sample takes just a few minutes.

Das Verfahren gemäß der Erfindung ist in der Lage, unter konkurrierenden Zeichen (Buchstaben aufgrund Tastendruck oder Phoneme aufgrund Spracheingabe oder digitalen Datensätzen) und den sich ergebenden Mehrdeutigkeiten mögliche Wörter zu isolieren, die ein gültiges bzw. sinnvolles Wort sein können. Dabei werden bei jedem neuen getippten oder gesprochenen Buchstaben die möglichen erkannten Einzelbuchstaben permutiert, und bei jedem hinzugekommenen Buchstaben können sich dann wieder andere Mehrdeutigkeiten ergeben, die aufgelöst werden.The Method according to the invention is capable of taking competing characters (letters due to Key press or phonemes due to voice input or digital data records) and to isolate the possible ambiguities possible words that a valid or meaningful word. It will be with each new typed or spoken letters the possible ones recognized single letters permuted, and with each added Letters can then again other ambiguities arise, which are resolved.

Für Wortketten ohne Zwischenräume kann es bei Anwendung des erfindungsgemäßen Verfahrens auf die Wortketten Mehrdeutigkeiten geben, wobei sich gültige Auflösungen dann ergeben, wenn alle entstehenden Wörter entweder gültige Ganzwörter sind oder gültige Wörter sind und zugleich einen gültigen Wortanfang oder ein gültiges Wortende besitzen. Dies soll das folgende Beispiel veranschaulichen, bei dem folgende Bezeichnungen verwendet werden:
(G) gültiges Ganzwort
(W) gültiger Wortanfang, gültiges Wortende, gültige Wörter im Sinne von pA, pE, pW (später erläutert)
(X) weder (G), noch (W), d. h. ungültiges WortFor word strings without spaces, when using the method according to the invention word ambiguities may exist in the word strings, with valid resolutions resulting when all resulting words are either valid whole words or valid words and at the same time have a valid word start or word end. This is illustrated by the following example, which uses the following labels:
(G) valid whole word
(W) valid word beginning, valid word end, valid words in the sense of pA, pE, pW (explained later)
(X) neither (G) nor (W), ie invalid word

Beispiel: daswetteristhervorragendExample: the weather is excellent

Auflösungsversuche:Dissolution tests:

the weather is excellent (G) (W) (G) (W) → valid resolution
the bet is outstanding (G) (W) (X) (W) → no valid resolution
da swetter is outstanding (G) (X) (W) → no valid resolution
that's what he wants (G) (X) (X) (G) (G) (G) (G) (W) → none valid resolution
the weather is outstanding (G) (G) (G) (G) (G) (W) → valid resolution

Bei der Anwendung des erfindungsgemäßen Verfahrens auf die Texteingabe wird üblicherweise eine Tastatur verwendet, die Tasten umfasst, welchen mehreren Zeichen zugeordnet sind, und die mit der Prozessoreinrichtung verbunden ist. Bei der Texteingabe der N-Zeichen-Sequenzen wird dementsprechend ein Worterkennungsverfahren angewendet, das nach der Erfindung arbeitet.at the application of the method according to the invention on the text input is usually uses a keyboard that includes keys that have multiple characters are assigned, and connected to the processor device is. When entering text of the N-character sequences accordingly applied a word recognition method, which operates according to the invention.

Wenn das erfindungsgemäße Verfahren für die Spracheingabe verwendet wird, wird eine Sprachaufnahmeinrichtung verwendet und bei der Spracheingabe der Phoneme oder Phonem-Sequenzen erfolgt eine Umwandlung in N-Zeichen-Sequenzen, insbesondere von Textzeichen. Auf die N-Zeichen-Sequenzen wird ein Worterkennungsverfahren angewendet, das nach der Erfindung arbeitet.If the inventive method for the Voice input is used, a voice recorder used and in the voice input of the phonemes or phoneme sequences a conversion into N-character sequences, in particular of Text characters. The N-character sequences are word-coded applied, which works according to the invention.

Das erfindungsgemäße Verfahren lässt sich auch vorteilhaft beim Lesen beispielsweise digital vorliegender Textdokumente mit Zeichensequenzen anwenden. Hierzu wird eine Leseeinheit für das Erfassen der N-Zeichen-Sequenzen benutzt und bei dem Lesen der N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet. Durch die Erfindung können Wörter in den gespeicherten Zeichensequenzen sehr rasch und zuverlässig aufgefunden und identifiziert werden.The inventive method let yourself also advantageous when reading, for example, digitally available Apply text documents with character sequences. For this purpose, a reading unit for the Capturing the N-character sequences used and reading the N-character sequences a word recognition method applied. Through the invention, words in found the stored character sequences very quickly and reliably and be identified.

Bei einer vorteilhaften Variante des erfindungsgemäßen Verfahrens werden als Ganzwort-n-Gramme die Wörter aus der Sprachstichprobe bestimmt, deren Länge der n-Gramm-Länge entspricht, und bei der Anzeige der verbliebenen Wörter der Liste L werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist. Somit sind die Ganzwort-n-Gramme meist kurze Wörter, die wie ein Lexikon für kurze Wörter unter Berücksichtigung der Auftretenshäufigkeiten fungieren und eine sinnvolle Sortierung von Worthypothesen für kurze Wörter nach der Güte (wie ”die”, ”ehe”, ”eid”) unterstützen. Im Falle einer Sprachstichprobe mit den Wörtern ”baumhaus”, ”hallo”, ”du”, ”der” ergeben sich das Bigram ”du”, Trigramm ”der” und das 5-Gramm ”hallo” und als Ganzwort n-Gramme G2(du) = 1, G3(der) = 1, G5(hallo) = 1 In an advantageous variant of the method according to the invention are as whole-word n-grams the words from the speech sample whose length corresponds to the n-gram length, and when the remaining words of the list L are displayed, first all the words are sorted by the whole-word probability pG = GN / NG, where GN is the whole-word n -Gram frequency and NG is the total number of all word n-grams of the speech sample. Thus, the whole-word n-grams are mostly short words that act like a lexicon for short words taking into account the frequency of occurrence, and a meaningful sorting of word hypotheses for short words of goodness (such as "the", "marriage", "oath") support. In the case of a language sample with the words "tree house", "hello", "you", "der" the bigram "you", trigram "the" and the 5-gram "hello" and as whole word n-grams result G2 (du) = 1, G3 (der) = 1, G5 (hello) = 1

Nicht beobachtete n-Gramme haben die Häufigkeit 0, z. B. G3(lqü) = 0. In der Sprachstichprobe werden die Gesamtzahlen NG(n) aller Ganzwort-n-Gramme berechnet. Diese ergeben sich aus der Summe aller Häufigkeiten der Ganzwort-n-Gramme der jeweiligen Länge.Not observed n-grams have the frequency 0, z. B. G3 (lqü) = 0. In the speech sample, the total numbers NG (n) of all Whole word n-grams calculated. These result from the sum of all frequencies the whole word n-grams of the respective length.

Bei einer vorteilhaften Ausführung des erfindungsgemäßen Verfahrens werden als Wortanfangs-n-Gramme die n-Gramme bestimmt, die den Anfang eines Wortes bilden. Die Wortanfangs-Wahrscheinlichkeit pA = Π An/NA wird bestimmt, wobei An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbliebenen möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA·pW erfolgt.at an advantageous embodiment the method according to the invention the n-grams, which are the beginning, are determined as word-beginning n-grams to form a word. The word-beginning probability pA = Π An / NA becomes where An is the beginning word n-gram frequency and NA is the total of all Word begin n-grams of the language sample is. When viewing the remaining possible Become words first all words sorted by the whole word probability pG = GN / NG displayed, where GN is the integer n-gram frequency and NG is the total number of all word n-grams of the speech sample and sorting according to pA · pW he follows.

Im Falle der erwähnten Sprachstichprobe mit den Wörtern ”baumhaus”, ”hallo”, ”du”, ”der” ergeben sich die Bigramme ”ba”, ”ha”, ”du”, de”, die Trigramme ”bau”, ”hal”, ”der”, die 4-Gramme ”baum”, ”hall” und die 5-Gramme ”baumh” sowie ”hallo”. Ausgezählt ergeben sich die folgenden Häufigkeiten der Wort anfangs-n-Gramme: A2 (ba) = 1 A2 (ha) = 1 A2 (du) = 1 A2 (de) = 1 A3 (bau) = 1 A3 (hal) = 1 A3 (der) = 1 A4 (baum) = 1 A4 (hall) = 1 A5 (baumh) = 1 A5 (hallo) = 1 In the case of the mentioned language sample with the words "tree house", "hello", "you", "der" the bigrams "ba", "ha", "you", de ", the trigrams" construction "," hal "," The ", the 4-Gramme" tree "," hall "and the 5-Gramme" baumh "as well as" hello ". Counted the following frequencies of the word initial n-grams result: A2 (ba) = 1 A2 (ha) = 1 A2 (du) = 1 A2 (en) = 1 A3 (construction) = 1 A3 (hal) = 1 A3 (the) = 1 A4 (tree) = 1 A4 (hall) = 1 A5 (tree) = 1 A5 (hello) = 1

Bevorzugt werden auch Wortend-n-Gramme verwendet, wobei als Wortend-n-Gramme die n-Gramme bestimmt werden, die das Ende eines Wortes bilden. Die Wortend-Wahrscheinlichkeit pE = Π En/NE wird bestimmt, wobei En die Wortend-n-Gramm-Häufigkeit und NE die Gesamtzahl aller Wortend-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbleibenden möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG und der Wortanfangs-n-Gramm-Wahrscheinlichkeit pA = Π An/NA angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit, NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist, An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA·pW·pE erfolgt.Prefers Word-end n-grams are also used, where as word-end n-grams the n-grams are determined, which form the end of a word. The end-of-word probability pE = Π En / NE is determined, where En the word end n-gram frequency and NE is the total number of all word end n-grams of the speech sample is. When displaying the remaining possible words, all words are first sorted by the whole word probability pG = GN / NG and the word beginning n-gram probability pA = Π An / NA where GN is the integer n-gram frequency, NG is the total of all the word n-grams of the speech sample is, to the word-beginning n-gram frequency and NA is the total number of all word-beginning n-grams of the speech sample and the sorting takes place according to pA · pW · pE.

Im Falle der erwähnten Sprachstichprobe mit den Wörtern ”baumhaus”, ”hallo”, ”du”, ”der” ergeben sich als Wortend-n-Gramme die Bigramme ”us”, ”lo”, ”du”, ”er”, Trigramme ”aus”, ”llo”, ”der”, 4-Gramme ”haus”, ”allo” und die 5-Gramme ”mhaus”, ”hallo”. Ausgezählt ergeben sich damit folgende Häufigkeiten: E2 (us) = 1 E2 (lo) = 1 E2 (du) = 1 E2 (er) = 1 E3 (aus) = 1 E3 (llo) = 1 E3 (der) = 1 E4 (haus) = 1 E4 (allo) = 1 E5 (mhaus) = 1 E5 (hallo) = 1 In the case of the mentioned language sample with the words "tree house", "hello", "you", "der", the bigrams "us", "lo", "you", "he", trigrams result as the word end n-grams "Off", "llo", "the", 4-gramme "house", "allo" and the 5-gramme "mhaus", "hello". Counted the following frequencies result: E2 (us) = 1 E2 (lo) = 1 E2 (du) = 1 E2 (er) = 1 E3 (off) = 1 E3 (llo) = 1 E3 (der) = 1 E4 (house) = 1 E4 (allo) = 1 E5 (mhaus) = 1 E5 (hello) = 1

Vorteilhaft wird bei dem erfindungsgemäßen Verfahren für eine N-Zeichen-Sequenz mit jedem weiteren eingegebenen Zeichen die Wörter-Liste L neu erstellt, d. h. es erfolgt eine kontinuierliche Aktualisierung der Hypothesen. Aus der Liste L, falls sie mehr als eine Worthypothese enthält, kann der Benutzer das korrekte Wort aussuchen, falls er das Wort bereits komplett getippt hat. Wie die Auswahl aus einem Vorschlagsangebot realisiert wird, ist beliebig.Advantageous is in the inventive method for one N-character sequence with each additional character entered the words list L recreated, d. H. there is a continuous update of the Hypotheses. From the list L, if you have more than one word hypothesis contains the user can choose the correct word if he has the word already completely typed. How to make the selection from a proposal offer is, is arbitrary.

In den bisherigen Erläuterungen wurden für die n-Gramme Werte von n = 2, n = 3, n = 4, n = 5 verwendet. Diese Werte sind nicht starr festgelegt, sondern können nach den Gegebenheiten angepasst werden. Vorzugsweise werden bei Anwendung des erfindungsgemäßen Verfahrens für die n-Gramme Werte von n = 2, n = 3 verwendet, für die der Speicherbedarf deutlich geringer als im Falle längerer n-Gramme ist. Es können je nach Anwendungsfall auch n-Gramme mit n = 1 (d. h. einzelne Buchstaben) eingesetzt werden.In the previous explanations, values of n = 2, n = 3, n = 4, n = 5 were used for the n-grams. These values are not rigidly fixed, but can be adapted according to the circumstances. When using the method according to the invention, values of n = 2, n = 3 are preferably used for the n-grams, for which the memory requirement is significantly lower than in the case of longer n-grams. It can ever after application also n-grams with n = 1 (ie single letters) are used.

Bevorzugt werden für die n-Gramme auch Werte von n = 4 und/oder n = 5 verwendet. Je länger die maximalen n-Gramme gewählt werden (d. h. größere maximale Werte für n), desto besser werden die vorgeschlagenen Worthypothesen. Es werden aber auch umfangreichere Sprachstichproben nötig.Prefers be for The n-grams also use values of n = 4 and / or n = 5. The longer the maximum n-grams selected (i.e., greater maximum Values for n), the better the proposed word hypotheses. It will but also more extensive language samples necessary.

Im Speicher kann eine Liste von Zeichen oder Zeichensequenzen und von diesen zugeordneten Austauschzeichen, Austauschzeichensequenzen oder Austausch-n-Grammen gespeichert sein. Auf diese Weise erfolgt eine Anpassung an die Gewohnheiten eines Benutzers, bestimmte Zeichen oder Wörter (z. B. ”spatz” und nicht ”rsätz”), bestimmte Kurzformen (Englisch: ”dont” → ”don't”, Französisch: ”cest” → ”c'est”), Sonderzeichen (z. B. Smiley) zu verwenden, an einen Spezialwortschatz etc.. Die Kurzformen müssen dann aber auch in ihrer Kurzform in der Sprachstichprobe mit eingegeben werden.in the Memory can be a list of characters or character sequences and of these associated exchange characters, exchange character sequences or exchange n-grams. This is done in this way an adaptation to the habits of a user, certain characters or words (eg "sparrow" and not "rick"), certain Short forms (English: "dont" → "do not", French: "cest" → "c'est"), Special characters (eg smiley) to use to a special vocabulary etc. The short forms must but then also entered in their short form in the language sample with become.

Auch kann zweckmäßig vorgesehen werden, dass die n-Gramme im Speicher ergänzt werden, um das Erkennen von neuen Wörtern oder Spezialeingaben zu ermöglichen. Die Eingabe unbekannter Wörter ist dabei nicht notwendig. Ausreichend ist die Aktualisierung entsprechender n-Gramme (Wortanfangs-n-Gramme, Wort-n- Gramme, Wortend-n-Gramme, Ganzwort-n-Gramme). Es ist nicht sinnvoll, alle möglichen Häufigkeiten der n-Gramme An(·), Wn(·), En(·) und Gn(·) zu speichern (z. B. gibt es für n = 5 über 24 Millionen mögliche n-Gramme). Das ist auch nicht nötig. Nur wenige dieser n-Gramme treten in der Sprache auf, d. h. die Häufigkeit der meisten n-Gramme ist 0. Auf deren Speicherung kann verzichtet werden.Also may be appropriate be added to the memory in the memory, the n-grams of new words or special entries. The input of unknown words is not necessary. Sufficient is the update corresponding n-grams (word-begin n-grams, word-n-grams, word-end-n-grams, integer-n-grams). It does not make sense, all possible frequencies the n-grams on (·), Wn (·) S (·) and Gn (·) to save (for example there is for n = 5 over 24 million possible n-grams). This is not necessary either. Only a few of these n-grams occur in the language, i. H. the frequency Most n-grams are 0. Their storage can be omitted become.

Wortend-n-Gramme bringen die Aussage mit sich, dass es sich um ein gültiges komplettes Wort handelt, und andere Merkmale können im Sinne der erfassten Sprachdaten ein Wort als solches erkennen. Um die einzelnen Wörter zu isolieren, ist es insbesondere für Anwendungen mit Lesen von Dateien auch nützlich, wenn Wortgrenzen, insbesondere Wortenden, zusätzlich eingegeben werden, um die Wortkette in einzelne jeweils komplette Wörter, z. B. ”baumhaus” auch in ”baum haus”, zu teilen.Wortend-n-grams bring the statement that it is a valid complete one Word acts, and other features may be included in the sense of Speech data recognize a word as such. To the individual words too isolate, it is especially for Applications with reading files are also useful when word boundaries, in particular Word ends, in addition be entered to complete the word string in individual ones respectively words, z. B. "tree house" also in "tree house" to share.

Das erfindungsgemäße Verfahren kann auch mit einer Wortvorhersage ausgestattet werden. Diese kann so ablaufen, dass anhand einer eingegebenen N-Zeichen-Sequenz eine Worterkennung für eine Zeichen-Sequenz mit einer angenommenen Länge von N + (1 bis l) Zeichen durchgeführt wird, wobei l die Vorhersagelänge, d. h. die Zahl der vorausgesagten Eingabeschritte ist. Nach Erstellung der Liste L wird aus dieser eine weitere Liste L' erstellt, die alle Wörter der Liste L enthält, wobei diese Wörter um Zeichen oder Zeichen-Sequenzen mit der Länge 1 bis l ergänzt sind. Aus der Liste L' werden alle Wörter entfernt, deren Wort-Wahrscheinlichkeit Null ist, die in der Liste L' verbliebenen Wörter werden sortiert werden und die Wörter der Listen L und L' angezeigt. Auf diese Weise kann für ein noch nicht vollständig eingegebenes Wort eine Vorhersage getroffen werden daraufhin, welches Wort bzw. welche Wörter der Benutzer bei der Eingabe im Sinn hat.The inventive method can also be equipped with a word prediction. This can run so that on the basis of an input N-character sequence one Word recognition for a character sequence with an assumed length of N + (1 to 1) characters carried out where l is the prediction length, d. H. the number of predicted entry steps is. After creation The list L is created from this one more list L 'containing all the words of the List L contains, these words are supplemented by characters or character sequences with the length 1 to l. Become from the list L ' all words removed, whose word probability is zero in the list L 'remained words will be sorted and the words the Lists L and L 'are displayed. This way can for not yet complete inputted word, a prediction will be made which Word or words the user has in mind when entering.

Zweckmäßig bei dieser Wortvorhersage-Methode werden in der Liste L' zuerst alle Wörter nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG sortiert, wobei GN die Ganzwort-n-Gramm-Häu figkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist. Die Sortierung erfolgt dann nach der Anfangswort-n-Gramm- und der Endwort-n-Gramm-Wahrscheinlichkeit nach pA·pW·pE.Useful in This word prediction method first searches all the words in the list L ' the whole word probability pG = GN / NG sorted, where GN the Whole-word n-gram frequency and NG is the total number of all word n-grams of the speech sample is. The sorting then takes place after the start word n-gram and the final word n-gram probability after pA * pW * pE.

Obenstehend sind die Bestimmung der n-Gramme und deren Verwendung erläutert worden. Es folgt nun eine Darstellung der Bestimmung der Wort-Wahrscheinlichkeiten.In the above, the determination of the n-grams and their use have been explained. The following is a representation of the determination of the word probabilities.

Die in den verschiedenen n-Gramm-Gruppen enthaltene Sprachstatistik wird dazu eingesetzt, um einerseits Worthypothesen auszuschließen, die mit größter Wahrscheinlichkeit kein Wort der aktuellen Sprache sind, und um zum anderen die verbleibenden Hypothesen in eine Reihenfolge entsprechend ihrer wahrscheinlichen Korrektheit zu bringen. Dabei bezeichne im folgenden w = w1w2w3 ... wN ein Wort w der Länge N, zusammengesetzt aus der Buchstabenfolge w1w2w3 ... wN. Es werden folgende Auftrittswahrscheinlichkeiten bestimmt:The Language statistics included in the various n-gram groups is used to exclude on the one hand word hypotheses that most likely not one word of the current language, and on the other the remaining ones Hypotheses in an order according to their probable To bring correctness. In this case, w = w1w2w3 ... wN a word w of length N, composed of the letters w1w2w3 ... wN. It will the following occurrence probabilities are determined:

Für ein Wort w berechnen sich die Wahrscheinlichkeiten, dass w ein gültiges Wort im Sinne von n-Grammen der Länge n ist nach

For a word w, the probabilities that w is a valid word in terms of n-grams of length n are calculated

Aus diesen nach n-Gramm-Länge unterschiedenen Wort-Wahrscheinlichkeiten kann eine gesamte Wortwahrscheinlichkeit des Wortes w für die Gesamtheit aller trainierten n-Gramm-Längen berechnet werden:

From these n-gram-length distinguished word probabilities, an entire Word probability of the word w are calculated for the total of all trained n-gram lengths:

Sobald auch nur eine einzige der Wort-n-Gramm-Häufigkeiten Wn(·) = 0 ist, ist auch die Wort-Wahrscheinlichkeit pW(w) = 0.As soon as even a single one of the word-n-gram frequencies Wn (·) = 0 is, is also the word probability pW (w) = 0.

Am Beispiel des Wortes ”baumhaus” wird dies weiter erläutert.At the Example of the word "tree house" becomes this further explained.

Zur Bestimmung von Bigrammen und unter der Annahme, dass es eine Gesamtzahl NW(2) = 100 Bigramme gibt, ergibt sich: p2W(baumhaus) = W2(ba)/NW(2)·W2(au)/NW(2)·W2(um)/NW(2)·W2(mh)/NW(2)·W2(ha)/NW(2)·W2(au)/NW(2)·W2(us)/NW(2) = 1/100·2/100·1/100·1/100·2/100·2/100·1/100 For the determination of bigrams and assuming that there are a total of NW (2) = 100 bigrams, we obtain: p2W (Baumhaus) = W2 (ba) / NW (2) * W2 (au) / NW (2) * W2 (um) / NW (2) * W2 (mh) / NW (2) * W2 (ha) / NW (2) * W2 (au) / NW (2) * W2 (us) / NW (2) = 1/100 * 2/100 * 1/100 * 1/100 * 2/100 * 2/100 * 1 / 100

Für Trigramme ergibt sich entsprechend: p3W(baumhaus) = W3(bau)/NW(3)·W3(aum)/NW(3)·W3(umh)/NW(3)·W3(mha)/NW(3)·W3(hau)/NW(3)·W3(aus)/NW(3) For trigrams follows: p3W (tree) = W3 (construction) / NW (3) * W3 (aum) / NW (3) * W3 (umh) / NW (3) * W3 (mha) / NW (3) * W3 (hau) / NW (3) · W3 (off) / NW (3)

Aus diesen Ergebnissen resultiert letztendlich pW(baumhaus) = ...·p2W(baumhaus)·p3W(baumhaus)·... From these results ultimately results pW (Baumhaus) = ... · p2W (Baumhaus) · p3W (Baumhaus) · ...

Eine große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind die Wortanfangs-Wahrscheinlichkeiten. Denn gibt es in der Sprachstichprobe keine Wörter mit den Wortanfangs-n-Grammen des Wortes w, so wird dieses mit großer Wahrscheinlichkeit kein gültiges Wort der Sprache sein. Dementsprechend berechnet sich die Wahrscheinlichkeit dass ein Wort w im Sinne seines Wortanfangs existiert aus

A great help in assessing whether there is a word w are the word-beginning probabilities. For if there are no words in the language sample with the word-beginning n-grams of the word w, this will most likely not be a valid word of the language. Accordingly, the probability that a word w exists in the sense of the beginning of the word is calculated

Sobald auch nur eine einzige der Wortanfangs-n-Gramm-Häufigkeiten An(·) = 0 ist, ist auch die Wortanfangs-Wahrscheinlichkeit pA(w) = 0.As soon as even a single one of the word-beginning n-gram frequencies An (·) = 0 is also the word beginning probability pA (w) = 0.

Ein Beispiel soll dies näher erläutern. Angenommen, es soll die Wortanfangs-Wahrscheinlichkeit für n-Gramme der Länge 2 bis 5 und das Wort w = baumhaus berechnet werden. Es seien die Häufigkeiten aus der oben veranschaulichten Auflistung von Wortanfangs-Bigrammen gegeben, die in diesem Beispiel immer den Wert 1 haben. Einige beispielhafte Gesamtzahlen von Wortanfangs-n-Grammen seien NA(2) = 12, NA(3) = 10, NA(4) = 13, NA(5) = 11. Damit ergibt sich pA(baumhaus) = A2(ba)/NA(2)·A3(bau)/NA(3)·A4(baum)/NA(4)·A5(baumh)/NA(5) = 1/12·1/10·1/13·1/11. An example will explain this in more detail. Suppose that you want to calculate the word beginning probability for n-grams of length 2 to 5 and the word w = tree. Given the frequencies from the list of top-of-the-word bigrams illustrated above, which in this example always has the value 1. Some exemplary total numbers of word beginning n-grams are NA (2) = 12, NA (3) = 10, NA (4) = 13, NA (5) = 11. This yields pA (tree) = A2 (ba) / NA (2) * A3 (construction) / NA (3) * A4 (tree) / NA (4) * A5 (tree) / NA (5) = 1/12 * 1 / 10 · 1/13 * 1 / 11th

Eine weitere große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind wie erwähnt die Wortend-Wahrscheinlichkeiten. Gibt es in der Sprachstichprobe keine Wörter, die auf die gleiche Buchstabenkette enden wie das Wort w, so ist dieses mit großer Wahrscheinlichkeit kein Wort der Sprache. Berechnen lassen sich die Wortend-Wahrscheinlichkeiten direkt aus den Wortend-n-Grammen:

Another great help in assessing if there is a word w is, as mentioned, the word end probabilities. If there are no words in the language sample that end in the same string of letters as the word w, then this is probably not a word of the language. The word end probabilities can be calculated directly from the word end n-grams:

Sobald auch nur eine einzige der Wortend-n-Gramm-Häufigkeiten En(·) = 0 ist, ist auch die Wortend-Wahrscheinlichkeit pE(w) = 0.As soon as even only one of the word end n gram frequencies En (·) = 0 is also the word end probability pE (w) = 0.

Ein unbekanntes Wortende deutet nicht unbedingt auf eine unsinnige Worthypothese hin, sondern kann genauso gut ein Indiz dafür sein, dass ein Wort noch nicht komplett eingegeben ist.One Unknown word ending does not necessarily indicate a nonsensical word hypothesis but may as well be an indication that a word is still there not completely entered.

Dies erläutert das folgende Beispiel: Angenommen, es soll die Wortend-Wahrscheinlichkeit für n-Gramme der Länge 2 bis 5 und das Wort w = baumhaus berechnet werden. Es seien die Häufigkeiten aus der oben veranschaulichten Auflistung von Wortend-Bigrammen gegeben, die in diesem Beispiel immer den Wert 1 haben, und einige beispielhafte Gesamtzahlen von Wortend-n-Grammen seien NE(2) = 22, NE(3) = 20, NE(4) = 23, NE(5) = 21.This explains the following example: Let's say you want the word end probability for n-grams of length 2 to 5 and the word w = Baumhaus be calculated. Given the frequencies from the list of word end bigrams illustrated above, which are always 1 in this example, and some example total numbers of word end n grams are NE (2) = 22, NE (3) = 20, NE (4) = 23, NE (5) = 21.

Damit ergibt sich pE(baumhaus) = E2(us)/NE(2)·E3(aus)/NE(3)·E4(haus)/NE(4)·E5(mhaus)/NE(5) = 1/22·1/20·1/23·1/21 This results pE (tree house) = E2 (us) / NE (2) · E3 (off) / NE (3) · E4 (house) / NE (4) · E5 (mhaus) / NE (5) = 1/22 · 1 / 20 · 1/23 · 1/21

Für die Ganzwort-Wahrscheinlichkeiten gilt folgendes: Ist das zu bewertende Wort w so kurz, dass aus der Sprachstichprobe Ganzwort-n-Gramme derselben Länge bestimmt wurden, so kann die Auftrittswahrscheinlichkeit von w einfach angegeben werden als pG(w) = GN(w1 ... wN)/NG(N) The following applies to the whole-word probabilities: If the word w to be evaluated is so short that whole-word n-grams of the same length have been determined from the speech sample, the occurrence probability of w can be simply specified as pG (w) = GN (w1 ... wN) / NG (N)

Ein Beispiel soll dies näher erläutern. Angenommen, es soll die Ganzwortwahrscheinlichkeit für die Wörter w = der, w = du und w = lqü berechnet werden. Es seien die Häufigkeiten aus der oben erwähnten Sprachstichprobe (immer 1 oder 0) gegeben und einige beispielhafte Gesamtzahlen von Ganzwort-n-Grammen seien NG(2) = 33, NG(3) = 30. Damit ergibt sich pG(der) = G3(der)/NG(3) = 1/30 pG(du) = G2(der)/NG(2) = 1/33 pG(lqü) = G3(der)/NG(3) = 0/30 An example will explain this in more detail. Suppose that the whole-word probability is calculated for the words w = der, w = du and w = lqü. Given the frequencies from the above-mentioned speech sample (always 1 or 0) and some exemplary total numbers of whole-word n-grams, let NG (2) = 33, NG (3) = 30. This yields pG (der) = G3 (der) / NG (3) = 1/30 pG (du) = G2 (der) / NG (2) = 1/33 pG (lqü) = G3 (der) / NG (3) = 0/30

Es wird nun anhand des Beispiels ”baumhaus” der konkrete Ablauf näher beschrieben, um aus der Vielzahl der möglichen Zeichenkombinationen für ein Wort (hier wie oben bereits angegeben: 61.440) eine sinnvolle Liste von Wortalternativen zu erstellen.It will now be based on the example of "Baumhaus" the concrete Process closer described to the variety of possible character combinations for a Word (here as already stated above: 61.440) a meaningful list to create word alternatives.

Aus der Liste L der möglichen Wörter werden alle Wörter entfernt, deren Wahrscheinlichkeiten pW(w) = 0 oder pA(w) = 0 sind. Diese Wörter stellen mit ziemlicher Sicherheit kein korrektes Wort dar. Aus Performancegründen ist es sinnvoll, bereits beim Aufbau der ersten Wortliste L dieses Kriterium anzuwenden und überhaupt nur Wörter in die Liste aufzunehmen, für die pW(w) ≠ 0 und pA(w) ≠ 0 gilt.Out the list L of possible words become all words whose probabilities pW (w) = 0 or pA (w) = 0 are removed. These words are almost certainly not a correct word dar. For performance reasons is it makes sense already in building the first word list L this criterion apply and at all only words to be included in the list for the pW (w) ≠ 0 and pA (w) ≠ 0 applies.

Aus den wenigen verbleibenden Worthypothesen wird eine sortierte Liste erzeugt, wobei sich die Reihenfolge der einzelnen Wörter aus folgenden drei Kriterien ergibt:

(a) Zuerst stehen alle Wörter mit pG(w) ≠ 0, absteigend sortiert nach pG(w). Damit bekommen Wörter Priorität, für die Ganzwort-n-Gramme vorhanden sind.
(b) Danach kommen alle Wörter mit pE(w) ≠ 0, absteigend sortiert nach pA(w)·pW(w)·pE(w). Damit bekommen Wörter, die ein komplettes Wort repräsentieren, Priorität vor solchen, die (bisher) nur teilweise eingegeben sind.
(c) Es folgen alle restlichen Wörter, absteigend sortiert nach pA(w)·pW(w). In Vergleich zu der vorhergehenden Wortgruppe aus (b) werden Wörter hinten angestellt, die erst teilweise eingegeben sind. Sinnvoll wäre, dass die Eingabe von 2286428 als Hypothese zwar das Teil-Wort ”baumhau” findet, aber eventuell bessere Hypothesen bevorzugt, die nach (b) bereits ein gesamtes Wort repräsentieren.

From the few remaining word hypotheses a sorted list is generated, whereby the order of the individual words results from the following three criteria:

(a) First all words with pG (w) ≠ 0 are listed, sorted in descending order according to pG (w). This gives priority to words for which whole-word n-grams exist.
(b) Then all words come with pE (w) ≠ 0, sorted in descending order according to pA (w) · pW (w) · pE (w). This gives words that represent a complete word priority over those that are (so far) only partially entered.
(c) All remaining words follow, sorted in descending order by pA (w) · pW (w). Compared to the previous word group from (b), words are placed behind, which are only partly entered. It makes sense that the entry of 2286428 as a hypothesis, although the sub-word "tree" finds, but may prefer better hypotheses, which after (b) already represent an entire word.

Die Erfindung wird im folgenden anhand von Ausführungsbeispielen und der Zeichnung weiter erläutert. In der Zeichnung zeigen:The Invention will be described below with reference to embodiments and the drawing further explained. In the drawing show:

1 eine Prozessoreinrichtung zur Durchführung des erfindungsgemäßen Verfahrens bei der Texteingabe in eine Tastatur, 1 a processor device for carrying out the method according to the invention when entering text into a keyboard,

2 eine Prozessoreinrichtung zur Durchführung des erfindungsgemäßen Verfahrens bei der Sprachaufnahme, 2 a processor device for carrying out the method according to the invention in voice recording,

3 ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zur Worterkennung, 3 a flow chart of the method according to the invention for word recognition,

4 ein Ablaufdiagramm zur Ergänzung der n-Gramme im Speicher und 4 a flow chart to supplement the n-grams in memory and

5 ein Ablaufdiagramm zur Vorhersage von Wörtern bei bereits eingegebenen Teilwörtern. 5 a flow chart for the prediction of words in already entered subwords.

1 zeigt eine Prozessoreinrichtung einschließlich Peripherie, mit der das erfindungsgemäße Verfahren bei der Texteingabe eingesetzt werden kann. Eine Tastatur 10 mit Tasten 11, eine Anzeige 13 und ein Speicher 15 sind an eine Prozessorein richtung 12 angeschlossen. Den Tasten 11 der Tastatur 10 sind mehrere Zeichen zugeordnet, so dass bei der Zeicheneingabe nicht sofort eindeutig identifizierbare Zeichenketten, Wörter etc. entstehen. Der Speicher 15 enthält n-Gramme und diesen n-Grammen zugeordnete Häufigkeitswerte, die durch das Bezugszeichen 16 symbolisiert sind. Die Bildschirmanzeige 14 der Anzeige 13 veranschaulicht die unter Benutzung der gespeicherten n-Gramme und deren Häufigkeitswerten als mögliche Wörter ermittelten verbliebenen Wörter, hier die drei alternative Wörter ”die”, ”ehe”, ”eid”. 1 shows a processor device including peripherals, with which the inventive method can be used in the text input. A keyboard 10 with buttons 11 , an ad 13 and a memory 15 are to a processorein direction 12 connected. The keys 11 the keyboard 10 are assigned several characters, so that the character input is not immediately uniquely identifiable strings, words, etc. arise. The memory 15 contains n-grams and frequency values associated with these n-grams, denoted by the reference numeral 16 are symbolized. The screen display 14 the ad 13 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", "marriage", "eid".

In 2 ist eine Prozessoreinrichtung mit Peripherie für die Worterkennung bei der Sprachaufnahme gezeigt. Eine Sprachaufnahmeeinrichtung wie ein Mikrophon 20, eine Anzeige 22 und ein Speicher 24 sind mit einer Prozessoreinrichtung 21 verbunden. Bei der Spracheingabe entstehen nicht sofort eindeutig identifizierbare Phoneme bzw. hieraus ableitbare Grapheme, N-Zeichen-Sequenzen von Strings bzw. Wörtern, etc.. Grundsätzlich ist der Lösungsansatz analog zu dem bei der Texteingabe. Der Speicher 24 enthält n-Gramme und diesen n-Grammen zugeordnete Häufigkeitswerte, die durch das Bezugszeichen 25 symbolisiert sind. Die Bildschirmanzeige 23 der Anzeige 22 veranschaulicht die unter Benutzung der gespeicherten n-Gramme und deren Häufigkeitswerten als mögliche Wörter ermittelten verbliebenen Wörter, hier die drei alternative Wörter ”die”, ”ehe”, ”eid”.In 2 a processor device is shown with peripherals for the word recognition in the voice recording. A voice recorder like a microphone 20 , an ad 22 and a memory 24 are with a processor device 21 connected. In the speech input, uniquely unambiguously identifiable phonemes or derived graphemes, N-character sequences of strings or words, etc. are not immediately generated. Basically, the approach is analogous to that in text input. The memory 24 contains n-grams and frequency values associated with these n-grams, denoted by the reference numeral 25 are symbolized. The screen display 23 the ad 22 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", "marriage", "eid".

3 zeigt, dass das Verfahren zur Worterkennung im Wesentlichen durch folgende Verfahrensschritte gekennzeichnet ist. Im Schritt 101 steht dem Verfahren der aktuelle Stand der Eingabe, z. B. eine Folge von N Tastendrücken, zur Verfügung. Aus dieser Eingabe wird im Schritt 102 die Liste L aller möglichen Worthypothesen auf Grund der existierenden Eingabe-Mehrdeutigkeiten durch Permutation aller Kombinationsmöglichkeiten generiert. Im Verfahrensschritt 103 werden die Ganzwort-Wahrscheinlichkeiten pG, die Wort-Wahrscheinlichkeiten pW, die Wortend-Wahrscheinlichkeiten pE und die Wortanfangs-Wahrscheinlichkeiten pA für jede Worthypothese der Liste L berech net. Basierend auf diesen Wahrscheinlichkeiten werden im Verfahrensschritt 104 aus der Liste L alle Worthypothesen entfernt, deren Wort-Wahrscheinlichkeiten pW oder Wortanfangs-Wahrscheinlichkeiten pA Null ist und die damit mit großer Sicherheit kein gültiges Wort repräsentieren. Falls eine Wortvorhersage durchgeführt werden soll, zweigt die Abfrage 112 zur Erzeugung der in 5 dargestellten und weiter unten näher erläuterten Erstellung der Vorhersage-Liste L'. Falls in der Liste L gültige Ganzwörter existieren, charakterisiert durch Hypothesen mit Ganzwort-Wahrscheinlichkeiten ungleich Null, zweigt die Abfrage 105 in den Verfahrensschritt 106, der alle gültigen Ganzwörter, absteigend sortiert nach ihren Ganzwort-Wahrscheinlichkeiten, auf der Bildschirmanzeige 14 darstellt. Verfahrensschritt 107 entfernt alle im Verfahrensschritt 106 angezeigten Hypothesen aus der Liste L und vermeidet damit die mehrfache Ausgabe ein und derselben Hypothese. Falls in der Liste L gültige komplette Wörter existieren, charakterisiert durch Hypothesen mit Wortend-Wahrscheinlichkeiten ungleich Null, zweigt die Abfrage 108 in den Verfahrensschritt 109, der alle gültigen kompletten Wörter, absteigend sortiert nach dem Produkt ihrer Wortend-Wahrscheinlichkeiten, Wortanfangs-Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten, an die bisherige Ausgabe auf der Bildschirmanzeige 14 anfügt. Verfahrensschritt 110 entfernt alle im Verfahrensschritt 109 angezeigten Hypothesen aus der Liste L und vermeidet damit die mehrfache Ausgabe ein und derselben Hypothese. Alle verbleibenden Hypothesen der Liste L werden im Verfahrensschritt 111, absteigend sortiert nach dem Produkt ihrer Wortanfangs-Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten, an die bisherige Ausgabe auf der Bildschirmanzeige 14 angefügt. Falls eine Wortvorhersage durchgeführt werden soll, zweigt die Abfrage 112 zur Ausgabe der Liste L', angefügt an die bisherige Ausgabe auf der Bildschirmanzeige 14. Akzeptiert der Benutzer eines der angezeigten Wörter, so verzweigt die Abfrage 115 zu Verfahrensschritt 116, der das gewählte Wort einer beliebigen Anwendung zur Verfügung stellt und die aktuelle Zeichen- bzw. Eingabesequenz löscht, so dass bei der nächsten Eingabe das Verfahren gemäß 3 im Schritt 101 mit einer leeren Zeichensequenz, d. h. einem neuen Wort, beginnt. 3 shows that the method for word recognition is essentially characterized by the following method steps. In step 101 the procedure is the current state of the input, z. A sequence of N keystrokes. From this input is in step 102 the list L of all possible word hypotheses based on the existing input ambiguities generated by permutation of all possible combinations. In the process step 103 For example, the whole-word probabilities pG, the word probabilities pW, the end-of-word probabilities pE, and the beginning-of-word probabilities pA are computed for each word hypothesis of the list L. Based on these probabilities will be in the process step 104 removes from the list L all word hypotheses whose word probabilities pW or word-beginning probabilities pA are zero and which therefore do not represent a valid word with great certainty. If a word prediction is to be performed, the query branches 112 for the production of in 5 illustrated and explained in more detail below creation of the prediction list L '. If valid whole words exist in the list L, characterized by hypotheses with non-zero integer probabilities, the query branches 105 in the process step 106 , the all valid whole words, sorted in descending order of their whole word probabilities, on the display 14 represents. step 107 removes all in the process step 106 displayed hypotheses from the list L, thus avoiding the multiple output of the same hypothesis. If valid complete words exist in the list L, characterized by hypotheses with non-zero word end probabilities, the query branches 108 in the process step 109 , the complete valid words, descending sorted by the product of their word-end-probabilities, word-beginning-probabilities and word-probabilities, to the previous edition on the display 14 appends. step 110 removes all in the process step 109 displayed hypotheses from the list L, thus avoiding the multiple output of the same hypothesis. All remaining hypotheses of the list L are in the process step 111 , descending sorted by the product of their word-beginning probabilities and word probabilities, to the previous output on the screen 14 added. If a word prediction is to be performed, the query branches 112 for the output of the list L ', added to the previous edition on the screen 14 , If the user accepts one of the displayed words, the query branches 115 to process step 116 which provides the selected word to any application and deletes the current character sequence so that upon the next input, the method of FIG 3 in step 101 begins with an empty character sequence, ie a new word.

Die zweckmäßige Ausgestaltung der Ergänzung der im Speicher 15 vorgehaltenen n-Gramme durch neue Wörter (unbekannte oder akzeptierte) ist durch die folgenden Verfahrensschritte, dargestellt in 4, beschrieben. Im Verfahrensschritt 201 wird als Grundlage der Ergänzung die Bestimmung aller n-Gramme Vn(w) des in den Speicher 15 zu integrierenden Wortes w durchgeführt. Hat das Wort w eine Länge, die durch die Ganzwort-n-Gramme abgedeckt ist, zweigt die Abfrage 202 in den Verfahrensschritt 203, der die Häufigkeit des dem Wort w zugehörigen Ganzwort-n-Gramms aktualisiert. Im Verfahrensschritt 204 wird das Wort w in die Datenbasis der Wortanfangs-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wortanfangs-n-Gramme aller n-Gramme Vn(w) aktualisiert werden, die gültige Wortanfangs-n-Gramme des Wortes w repräsentieren. Im Verfahrensschritt 205 wird das Wort w in die Datenbasis der Wort-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wort-n-Gramme aller n-Gramme Vn(w) aktualisiert werden. Im Verfahrensschritt 206 wird das Wort w in die Datenbasis der Wortend-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wortend-n-Gramme aller n-Gramme Vn(w) aktualisiert werden, die gültige Wortend-n-Gramme des Wortes w repräsentieren.The appropriate embodiment of the supplement of the memory 15 reproached n-grams by new words (unknown or accepted) is represented by the following process steps 4 , described. In the process step 201 is the basis of the complement determination of all n-grams Vn (w) of the memory 15 w to be integrated. If the word w has a length covered by the whole-word n-grams, the query branches 202 in the process step 203 which updates the frequency of the word-word-associated whole-word n-gram. In the process step 204 the word w is stored in the database of the word-in-n-grams in memory 15 integrated by updating the frequencies of the word-beginning n-grams of all n-grams Vn (w) representing valid word-beginning n-grams of the word w. In the process step 205 the word w is written to the database of the word n-grams in memory 15 integrated by updating the frequencies of the word n-grams of all n-grams Vn (w). In the process step 206 the word w is written into the database of the word end n-grams in memory 15 integrated by updating the frequencies of the word-end n-grams of all n-grams Vn (w) representing valid word-end n-grams of the word w.

5 beschreibt die Verfahrensschritte zur Erzeugung einer Wortvorhersageliste L', referenziert in 3, Verfahrensschritt 114. Aus einer Liste L wird im Verfahrensschritt 301 eine neue Liste L' erzeugt, die für jede Hypothese der Liste L alle Konkatenationen dieser Hypothese mit allen Permutationen des bekannten Ausgabealphabets in den Längen von 1 bis l Zeichen enthält. Aus der Liste L' werden im Verfahrensschritt 302 alle Hypothesen entfernt, die entweder eine Wort-Wahrscheinlichkeit von Null oder eine Wortanfangs-Wahrscheinlichkeit von Null oder eine Wortend-Wahrscheinlichkeit von Null aufweisen. Die verbleibenden Hypothesen der Liste L' werden im Verfah rensschritt 303 so sortiert, dass allen Hypothesen, die ein gültiges Ganzwort repräsentieren und absteigend nach der Ganzwort-Wahrscheinlichkeit pG sortiert sind, die weiteren Hypothesen folgen und diese dabei absteigend nach dem Produkt ihrer Wortend-Wahrscheinlichkeiten, Wortanfangs-Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten sortiert sind. Die Ausgabe 304 des Vorhersageverfahrens ist damit die sortierte Liste L'. 5 describes the method steps for generating a word prediction list L ', referenced in 3 , Process step 114 , From a list L is in the process step 301 produces a new list L 'containing for each hypothesis of the list L all concatenations of this hypothesis with all permutations of the known output alphabet in the lengths of 1 to 1 characters. From the list L 'are in the process step 302 removes all hypotheses that have either a word probability of zero or a word-first probability of zero or a word-end probability of zero. The remaining hypotheses of list L 'are in the process step 303 sorted so that all hypotheses that represent a valid whole word and are sorted in descending order of the whole word probability pG follow the further hypotheses and are sorted in descending order of the product of their end-of-word probabilities, beginning of word probabilities, and word probabilities. The edition 304 of the prediction method is thus the sorted list L '.

Im folgenden wird das erfindungsgemäße Verfahren anhand konkreter Ausführungsbeispiele in der deutschen und lateinischen Sprache bei Benutzung einer Telefontastatur weiter erläutert.in the The following is the process of the invention using concrete embodiments in German and Latin using a telephone keypad further explained.

Für das erste Beispiel ist eine umfangreiche Sprachstichprobe mit 688.000 Wörtern benutzt worden, die viele zusammengesetzte Wörter und auch Bücher aus der Trivialliteratur enthält. Die n-Gramm-Belegung ist wie folgt: Tabelle 1 Anzahl der n-Grammen in der Sprachstichgrobe n = 2 max. 900 n = 3 max. 27.000 n = 4 max. 810.000 n = 5 max. 24.300.000 Wort-n-Gramme 779 (= 87%) 9.253 (= 34%) 47.853 (= 6%) 121.139 (= 0.5%) Wortanfangs-n-Gramme 464 (= 52%) 2.965 (= 11%) 9.303 (= 1%) 20.113 (= 0.1%) Wortend-n-Gramme 469 (= 52%) 2.636 (= 10%) 8.714 (= 1%) 20.535 (= 0.1%) Ganzwortn-Gramme 125 (= 14%) 526 (= 2%) 1.614 (= 0.2%) 3.670 (= 0.01%) For the first example, an extensive voice sample of 688,000 words has been used, containing many compound words and also books from the trivial literature. The n-gram occupancy is as follows: Table 1 Number of n-grams in the linguistic coarse n = 2 max. 900 n = 3 max. 27,000 n = 4 max. 810000 n = 5 max. 24,300,000 Word n-grams 779 (= 87%) 9,253 (= 34%) 47,853 (= 6%) 121,139 (= 0.5%) Word initial n-grams 464 (= 52%) 2,965 (= 11%) 9,303 (= 1%) 20,113 (= 0.1%) Wortend-n-grams 469 (= 52%) 2,636 (= 10%) 8,714 (= 1%) 20,535 (= 0.1%) Full Wortn-grams 125 (= 14%) 526 (= 2%) 1,614 (= 0.2%) 3,670 (= 0.01%)

An dieser Tabelle erkennt man gut, dass gerade durch die n-Gramme mit n = 4 und n = 5 viel Wissen repräsentiert wird, da ein Großteil (95%–99.99%) aller Vier- und Fünf-Buchstabenkombinationen in der Sprachstichprobe nicht vorkommen.At From this table one recognizes well that just by the n-grams with n = 4 and n = 5 represents a lot of knowledge is, as the bulk (95% -99.99%) all four- and five-letter combinations do not occur in the language sample.

Die Worterkennungsprozedur wird nun für die Wörter ”Ist” ”das” ”Baumhaus” ”schon” ”fertig”, ”Abschlussball”, ”Bierkasten”, ”Außenhandelsumsatz”, ”Fußballspiel” an Hand ihrer Ziffernfolgen 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 erkannt werden. Zum Vergleich sind die Ergebnisse bei Verwendung der T9-Technologie der Firma Tegic angegeben.The The word recognition procedure now reads "finished", "prom", "beer box", "foreign trade turnover", "football game" for the words "is", "the" "tree house" their digit sequences 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 are recognized. To the Comparison are the results when using the T9 technology the company Tegic stated.

Die Tabelle 2 stellt das Ergebnis dar, wobei das gesuchte bzw. eingetippte Wort in Fettschrift dargestellt ist. Dahinter steht die jeweilige Wort-Hypothesenliste. Tabelle 2 Eingabe Vorschläge nach der Erfindung Vorschläge nach T9 478 ist, ißt, gst, gru, grt, grü ist, ißt, hsv 327 das, daß, dar, faß, fas, eas, där, far, fär, fäs das, daß, dar, faq, faß, dcs, fas, far, fäs, fär, eas 22864287 baumhaus (kein Vorschlag, unbekanntes Wort) 72466 schon, schön, schno, schmo, schmö, schnö schon, schön, schon, schmö 337844 fertig, destig, festig, festhi fertig, festig 2272458772255 abschlussball, abschlussbäll abschlussackl 2437527836 bierlasten, bierkarten, bierkasten, bierlastem, bierkartem, bierkastem, bierkästen, bierlaßten, bierlaßtem, bierkästem aidslarten (korrektes Wort unbekannt!) Eingabe Vorschläge nach der Erfindung Vorschläge nach T9 287364263357867289 außenhandelsumsatz, außenhändelsumsatz, außenhanelsumsätz, außenhändelsumsätz (kein Vorschlag, unbekanntes Wort) 387225577435 fußballspiel fußballspiel Table 2 shows the result, with the searched or typed word shown in bold. Behind it is the respective word hypothesis list. Table 2 input Suggestions according to the invention Suggestions after T9 478 is, eats, gst, gru, grt, grü is, eats, hsv 327 that, that, bar, fas, eas, där, far, fär, fäs that, that, faq, barrel, dcs, fas, far, fäs, fär, eas 22864287 tree house (no suggestion, unknown word) 72466 already, beautiful, schno, schmo, schmö, schnö already, well, yes, schmö 337844 ready, destig, firm, festhi ready, firm 2272458772255 prom, prom abschlussackl 2437527836 beer, beer, beer, beer, beer, beer, beer, beer, beer, beer AIDSlarten (correct word unknown!) input Suggestions according to the invention Suggestions after T9 287364263357867289 foreign trade turnover, foreign trade turnover, foreign trade turnover, foreign trade turnover (no suggestion, unknown word) 387225577435 football game football game

Die Unterschiede zwischen den beiden Worterkennungsverfahren liegen im wesentlichen nicht bei der Bearbeitung der einfachen, gängigen Wörter. Viele zusammengesetzte Wörter, die sich bei Anwendung des erfindungsgemäßen Verfahrens erschließen, können mit dem herkömmlichen T9-Verfahren nicht gefunden werden. Dabei liegt die Rechenzeit zur Erstellung der o. g. Worthypothesenliste im nichtmessbaren Bereich.The Differences between the two word recognition methods lie essentially not when editing simple, common words. Lots compound words, which develop when using the method according to the invention can, with the conventional one T9 method can not be found. The calculation time is Creation of the o. G. Word hypothesis list in the unmeasurable area.

Das folgende Beispiel bezieht sich auf Latein auf einer 6-er Tastatur mit der folgenden Tastenbelegung:

The following example refers to Latin on a 6-key keyboard with the following key mapping:

Die Buchstaben j, k, w, z kommen im Lateinischen nicht vor und entfallen daher. Das Beispiel zeigt, wie leicht sich die Texteingabe sowohl an neue Sprachen, als auch an andere Tastaturen anpassen lässt. Daraus ergibt sich folgendes Ausgabealphabet:
O(0) = {a, b, c, d}
O(1) = {e, f, g, h}
O(2) = {i, l, m, n}
O(3) = {o, p, q, r}
O(4) = {s, t, u}
O(5) = {v, x, y} The letters j, k, w, z do not appear in Latin and are therefore omitted. The example shows how easily text input can be adapted to new languages as well as other keyboards. This results in the following output alphabet:
O (0) = {a, b, c, d}
O (1) = {e, f, g, h}
O (2) = {i, l, m, n}
O (3) = {o, p, q, r}
O (4) = {s, t, u}
O (5) = {v, x, y}

Die Sprachstatistik wurde aus einer Sprachstichprobe bestimmt, die ausschließlich eine Reihe von längeren lateinischen Originaltexten (z. B. Caesar ”Commentariorum Libri VII de Bello Gallico”, ”Commentariorum Libri III de Bello Civili”, ”Libri Incertorum Auctorum”) mit insgesamt 128.000 Wörtern bestand. Nach der Auszählung sind von den möglichen n-Grammen folgende belegt: Tabelle 3 Anzahl der n-Gramme in der Sprachstichgrobe n = 2 max. 484 n = 3 max. 10.648 n = 4 max. 234.256 n = 5 max. 5.153.632 Wort-n-Gramme 356 (= 74%) 2.696 (= 25%) 10.130 (= 4%) 19.274 (= 0.4%) Wortanfangs-n-Gramme 205 (= 42%) 1.177 (= 11%) 3.049 (= 1%) 5.117 (= 0.1%) Wortend-n-Gramme 152 (= 31%) 931 (= 9%) 3.160 (= 1%) 6.465 (= 0.1%) Ganzwort-n-Gramme 54 (= 11%) 163 (= 2%) 540 (= 0.2%) 1280 (= 0.02%) The language statistics were determined from a language sample containing only a series of longer Latin original texts (eg Caesar "Commentary Libri VII de Bello Gallico", "Commentary Libri III de Bello Civili", "Libri Incertorum Auctorum") with a total of 128,000 words duration. After counting, the following are documented by the possible n-grams: Table 3 Number of n-grams in the linguistic coarse n = 2 max. 484 n = 3 max. 10648 n = 4 max. 234256 n = 5 max. 5153632 Word n-grams 356 (= 74%) 2,696 (= 25%) 10,130 (= 4%) 19,274 (= 0.4%) Word initial n-grams 205 (= 42%) 1,177 (= 11%) 3,049 (= 1%) 5,117 (= 0.1%) Wortend-n-grams 152 (= 31%) 931 (= 9%) 3,160 (= 1%) 6,465 (= 0.1%) Whole-word n-grams 54 (= 11%) 163 (= 2%) 540 (= 0.2%) 1280 (= 0.02%)

Aus Tabelle 3 ist wiederum ersichtlich, dass gerade durch die n-Gramme mit n = 4 und n = 5 viel Information geliefert wird, die die Sprachstichprobe selbst nicht enthält.Out Table 3 again shows that it is precisely the n-grams with n = 4 and n = 5 a lot of information is supplied, which is the language sample itself does not contain.

Im folgenden sollen
Multa legas facito, perlectis neglege multa.
Qualis artifex pereo!
[Cato Maior: ”Sieh' zu, dass du viel liest, und wenn du es gelesen hast, dann lasse vieles davon unberücksichtigt.” und ”Welch großer Künstler scheidet mit mir dahin!”]
an Hand ihrer Eingaben 24240 21104 100243, 313210424 2112111 24240. 340224 0342115 31313! erkannt werden. Es wird pro Wort jeweils die gesamte sortierte Hypothesenliste angegeben, die korrekte Hypothese in Fettdruck: Tabelle 4 Eingabe Vorschläge nach der Erfindung 24240 multa 21104 legas, legat, negat, nefas 100243 facito, habito, gadito, gadisq 313210424 perlectis, perlectit, perlectiu 2112111 neglege 24240 multa 340224 qualis, qualit, publiu, rudimu 0342115 artifex 31313 pereo, reper, peper, pereq, perfr, perfo, pergr In the following should
Multa legas facito, perlectis negie multa.
Qualis artifex pereo!
[Cato Maior: "See that you read a lot and when you read it, much of it is ignored." And "What great artist is going away with me!"]
on the basis of their inputs 24240 21104 100243, 313210424 2112111 24240. 340224 0342115 31313! be recognized. The complete sorted list of hypotheses is given per word, the correct hypothesis in bold: Table 4 input Suggestions according to the invention 24240 multa 21104 legas, legate, negat, nefas 100243 facito, habito, gadito, gadisq 313210424 perlectis, perlectit, perlectiu 2112111 neglege 24240 multa 340224 qualis, qualit, publiu, rudimu 0342115 artifex 31313 pereo, reper, peper, pereq, perfr, perfo, pergr

Claims

A method for word recognition of an input sequence of characters in the detection of text or speech in a detection language, wherein one or more characters of the input sequence are ambiguous, wherein a) each character of the input sequence is assigned at least one character of the detection language, b) to a speech sample of strings the detection language n-grams of a plurality of certain different length n-gram lengths and the frequencies of these n-grams are determined in the speech sample, c) the input sequence of the characters, taking into account their ambiguities, the plurality of corresponding unique character sequences of the detection language are assigned d) wherein each of the associated unique character sequences of the detection speech is decomposed into n-grams of the plurality of certain different-length n-gram lengths, and the product Π of the probabilities of the decomposed n-grams Wn / NW (n) from the frequency Wn of the individual n-grams in the sp and the total number NW (n) of the respective n-grams in the speech sample is determined for the corresponding lengths n, e) where those character sequences removed from these unique character sequences are removed in which the product Π is zero, and f) the remaining unique character sequences of the detection language are sorted according to the respectively determined product Π.

Method according to claim 1, characterized in that that it for the text input is applied to a keyboard, the Keyboard includes keys that are assigned to multiple characters, and the keyboard is connected to the processor device, and at the text input of the N character sequences a word recognition method is applied.

Method according to claim 1, characterized in that that it for the voice input is used, and wherein a voice recorder is used, and in the speech input of the phonemes or phoneme sequences converting into N-sign sequences, in particular of text characters, done, and on the N-character sequences Word recognition method is applied.

Method according to claim 1, characterized in that that it for the reading of character sequences is used wherein a reading unit is used, and in reading the N-character sequences Word recognition method is applied.

Method according to one of claims 1 to 4, characterized that as whole-word n-grams the words be determined from the language sample, the length of the n-gram length corresponds to, and in the display of the remaining words the List L first, all words sorted by the whole word probability pG = GN / NG displayed where GN is the integer n-gram frequency and NG is the total number of all the word n-grams of the speech sample is.

Method according to one of claims 1 to 4 and 5, characterized characterized in that the n-grams are determined as word-beginning n-grams, that form the beginning of a word, the word beginning probability pA = Π An / NA where An is the word-beginning n-gram frequency and NA is the total number of all word-beginning n-grams of the speech sample is, and when displaying the remaining possible words, all words are sorted first are displayed after the whole-word probability pG = GN / NG, where GN is the integer n-gram frequency and NG is the total number of all word n-grams of the speech sample is and sorting according to pA · pW where pW = Π pnW the word probability is and pnW = Π Wn / NW, Wn is the word n-gram frequency and NW is the total number of all word n grams.

Method according to one of claims 1 to 4 and 5 or 6, characterized characterized in that the n-grams are determined as word-end n-grams, that form the end of a word, the word end probability pE = Π En / NE where En is the word end n-gram frequency and NE is the total number all the word end n-grams of the speech sample is, and at the display the remaining possible words first all words sorted by the whole word probability pG = GN / NG and the Word beginning n-gram probability pA = Π An / NA are displayed, where GN the whole-word n-gram frequency, NG is the total number of all word n-grams of the speech sample, At the word beginning n-gram frequency and NA is the total number of all word-beginning n-grams of the speech sample is, with the sorting after pA · pW · pE.

Method according to one of claims 1 to 4 and one of claims 5 to 7, characterized in that from the considered character sequence of N characters, a list L of the remaining unique character sequences the capturing language is created and using an N-character sequence with each additional character entered the word list L is recreated.

Method according to one of claims 1 to 8, characterized that for the n-grams values of n = 2, n = 3 are used.

Method according to claim 9, characterized in that that for the n-grams values of n = 4 and / or n = 5 are used.

Method according to claim 9 or 10, characterized in that for the n-grams the value n = 1 is used.

Method according to one of claims 1 to 11, characterized that in memory a list of characters or character sequences and from these associated exchange characters, exchange character sequences or exchange n-grams is stored.

Method according to one of claims 1 to 12, characterized that the n-grams in memory are supplemented to recognize of new words or special entries.

Method according to one of claims 1 to 13, characterized that word boundaries, in particular word ends, are entered.

Method according to one of claims 1 to 14, characterized that based on an input N-character sequence, a word recognition for one Character sequence with an assumed length of N + (1 to 1) characters carried out becomes, wherein from the considered character sequence of N characters one List L of the remaining unique character sequences of the detection language is created, after creating the list L from this one further list L 'created will, all the words contains list L, these words are supplemented by characters or character sequences with the length 1 to l, out the list L 'all words be removed, their word probability Zero is, the words remaining in list L 'are sorted and the words lists L and L ' become.

Method according to claim 15, characterized in that that in the list L 'first all words sorted according to the whole word probability pG = GN / NG, where GN is the integer n-gram frequency and NG is the total number of all word n-grams of the speech sample is, and the sorting then after the start word n-gram and the End-word n-gram probability after pA * pW * pE.