DE10006725A1 - Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics - Google Patents

Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics

Info

Publication number
DE10006725A1
DE10006725A1 DE2000106725 DE10006725A DE10006725A1 DE 10006725 A1 DE10006725 A1 DE 10006725A1 DE 2000106725 DE2000106725 DE 2000106725 DE 10006725 A DE10006725 A DE 10006725A DE 10006725 A1 DE10006725 A1 DE 10006725A1
Authority
DE
Germany
Prior art keywords
sequence
features
feature
information
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2000106725
Other languages
German (de)
Inventor
Hans Geiger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KNITTEL JOCHEN
Original Assignee
KNITTEL JOCHEN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KNITTEL JOCHEN filed Critical KNITTEL JOCHEN
Priority to DE2000106725 priority Critical patent/DE10006725A1/en
Publication of DE10006725A1 publication Critical patent/DE10006725A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

Commands are converted into command form suitable for computer software. Character (digits) sequence is supplied to neuronal network in which sequence of features (characteristics) is formed from phonetic sequence or digits sequence by taking into account phonetic and/or lexical stored information and/or basing it on a sequence of string of digits (blanks). Features (characteristics) sequence is then compared with features combination (H) of defined message/statement content.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vor­ richtung zum Erkennen einer Abfolge phonetischer Laute oder Zeichen, z. B. einem Zeichenstring nach dem ASC II-Standard.The present invention relates to a method and a pre direction for recognizing a sequence of phonetic sounds or Characters, e.g. B. a character string according to the ASC II standard.

Bei vielen Computeranwendungen erfolgt die Eingabe von Steue­ rungsbefehlen in fest vorgegebener Form, die durch die Befehls­ sprache der Computersoftware definiert ist. Eingaben, die nicht genau den vorgegebenen Befehlssätzen entsprechen, werden schlichtweg nicht erkannt und abgearbeitet. Die Eingabe kann entweder durch Eingabe einer Zeichenfolge über die Tastatur er­ folgen oder durch Einsprechen eines Steuerungsbefehls in ein Mikrofon, das mit einem Spracherkennungssystem verbunden ist. Unabhängig davon, auf welche Art der Steuerungsbefehl eingege­ ben wird, ist es in jedem Fall erforderlich, daß der eingege­ bene bzw. erkannte Steuerungsbefehl genau einem durch die Com­ putersoftware vorgegebenen Steuerungsbefehl entspricht.In many computer applications, tax is entered instructions in a fixed, predetermined form by the command language of the computer software is defined. Inputs that are not correspond exactly to the specified command sets Simply not recognized and processed. The input can either by entering a string using the keyboard follow or by speaking a control command into a Microphone connected to a speech recognition system. Regardless of the type of control command ben, it is in any case necessary that the entered level or recognized control command exactly one by the Com Computer software corresponds to the given control command.

Es ist nun Ziel der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die eine Eingabe unformatierter Befehle erlauben und diese Befehle in eine für eine Computer­ software geeignete Befehlsform umwandeln.It is now the object of the present invention, a method and to create a device that accepts raw input Allow commands and these commands into one for a computer Convert software suitable command form.

Die Erfindung wird gelöst durch ein Verfahren gemäß Anspruch 1 und durch eine Vorrichtung gemäß Anspruch 9. Vorteilhafte Wei­ terbildungen der Erfindung sind Gegenstand der zugeordneten Un­ teransprüche.The invention is achieved by a method according to claim 1 and by a device according to claim 9. Advantageous Wei Further developments of the invention are the subject of the assigned Un claims.

Erfindungsgemäß wird die eingegebene Zeichenfolge oder phoneti­ sche Lautfolge einem neuronalen Netzwerk zugeführt, in welchem die Zeichenfolge entweder aufgrund phonetischer, semantischer und/oder lexikalischer gespeicherter Informationen oder bloß basierend auf Trennmarken (z. B. Leerzeichen, Sprechpause) in der Zeichenabfolge in einzelne Merkmale zerlegt wird. Diese Merkmale können kurze Zeichenketten/Wörter oder bestimmte Laute und Lautkombinationen sein. Basierend auf dieser Merkmalsabfol­ ge stellt das neuronale Netz Merkmalskombinationen zusammen, die unter Berücksichtigung der Informationen aus einem Lexikon mit lexikalischen, semantischen und/oder phonetischen Informa­ tionen derart kombiniert werden, dass sie einen definierten Aussagegenalt haben. Das neuronale Netzwerk bildet viele dieser Merkmalskombinationen und vergleicht diese in Form zeitlich co­ dierter Neuronen mit der Merkmalsabfolge. Es wird schließlich der Aussagegehalt derjenigen Merkmalskombination verwendet, die unter Minimierung der Widersprüche eine weitgehende Überein­ stimmung mit der Merkmalsabfolge aufweist. Der definierte Aus­ sagegehalt kann anschließend gegebenenfalls entsprechend einem vorgegebenen Befehlssatz einer Computersoftware in einen aus­ führbaren Befehl transformiert werden, der eine Aktion wie z. B. Ausgabe, Abfrage etc. bewirkt.According to the input string or phoneti cal sequence of sounds fed to a neural network in which the string either due to phonetic, semantic and / or lexically stored information or merely  based on separator marks (e.g. spaces, pause) in the character sequence is broken down into individual characteristics. This Characteristics can be short strings / words or certain sounds and sound combinations. Based on this feature sequence the neuronal network compiles combinations of features, the taking into account the information from a lexicon with lexical, semantic and / or phonetic informa tions are combined in such a way that they define a defined one To have declarative age. The neural network forms many of these Feature combinations and compares them in the form of time co dated neurons with the feature sequence. It will eventually the meaningfulness of the combination of features used a broad agreement while minimizing the contradictions is in agreement with the sequence of features. The defined out sagegehalt can then possibly according to a predetermined instruction set of a computer software in a executable command that is transformed into an action like e.g. B. output, query etc. causes.

Führt der sequentiell durchgeführte Vergleich der Merkmalsab­ folge mit den vom neuronalen Netzwerk aufgestellten Merkmals­ kombination zu keinem befriedigenden Ergebnis, so kann versucht werden, Teile der Merkmalsabfolge, die eine relativ gute Über­ einstimmung mit einer Merkmalskombination zeigten, unverändert zu lassen und beispielsweise unter Zuhilfenahme einer Fuzzy Lo­ gic diejenigen Teile der Merkmalsabfolge zu verändern, die kei­ ne oder nur eine geringe Übereinstimmung mit den Merkmals­ kombinationen aufwies.Performs the sequential comparison of the features follow with the feature established by the neural network combination to a satisfactory result, can be tried be parts of the feature sequence that have a relatively good over showed agreement with a combination of features, unchanged and with the help of a fuzzy lo gic to change those parts of the feature sequence that are not ne or only a slight match with the characteristics combinations.

Wird bei dem Vergleich mit allen Merkmalskombinationen insge­ samt kein zufriedenstellendes Ergebnis erzielt, kann versucht werden, die in dem neuronalen Netzwerk gebildete Merkmalsab­ folge neu zu definieren, z. B. indem bei einer Lautabfolge die zusammenhängenden Laute, d. h. Merkmale anders definiert und zu­ sammengestellt werden. Mit der neu gebildeten Merkmalsabfolge kann nun wiederum ein Vergleich mit den seitens des neuronalen Netzwerkes gefundenen Merkmalskombinationen durchgeführt wer­ den.Is compared when comparing with all combinations of features not achieved a satisfactory result, can try the feature formed in the neural network follow redefine, e.g. B. by the in a sequence of sounds  related sounds, d. H. Characteristics defined differently and too be put together. With the newly formed sequence of features can now again make a comparison with that of the neural Networks found combinations of features carried out who the.

Wenn sich lediglich eine Teilübereinstimmung der Merkmalsab­ folge mit einer Merkmalskombination ergibt, kann der überein­ stimmende Teil in einer Anzeige- oder Ausgabeeinheit als er­ kannt dargestellt werden und nach erneuter Eingabe des uner­ kannten Teils gefragt werden.If there is only a partial match of the features result with a combination of characteristics, it can match matching part in a display or output unit as he can be displayed and after re-entering the un known part.

Vorzugsweise ist in dem Speicherbereich für das lexikalische und/oder semantische Wissen ein temporärer Speicherbereich vor­ gesehen, in dem aus der gerade zurückliegenden Erkennungstätig­ keit erkannte, übereinstimmende Merkmale und Merkmalskombina­ tionen abgelegt werden, auf die das neuronale Netz bei der Bil­ dung der Merkmalskombinationen bevorzugt zugreift. Auf diese Weise fokussiert sich das System selbst auf einen angesproche­ nen Themen- bzw. Aussagebereich. Hierdurch wird die Erkennung der Zeichen oder Lautabfolge beträchtlich verbessert.Preferably in the storage area for the lexical and / or semantic knowledge before a temporary storage area seen in which from the just past recognition recognized, matching features and combination of features to which the neural network at the bil preferential access to the combinations of features. To this In this way, the system itself focuses on one that is addressed topic or statement area. This will make detection the character or sequence of sounds improved considerably.

Durch die Erfindung wird erreicht, daß man Fragen oder Befehle völlig formlos und ohne Wissen einer Befehlssprache oder Be­ fehlsterminologie in ein Eingabeterminal eingeben kann und da­ mit gesteuert durch Software bestimmte Aktionen auslösen kann. Das erfindungsgemäße Verfahren und die erfindungsgemäße Vor­ richtung übernehmen hierbei die Funktion der Schnittstelle zwi­ schen der formlosen willkürlichen subjektiven Eingabe und dem seitens der Computersoftware erforderlichen vorgegebenen Be­ fehlssatz. Die Erfindung fungiert als intelligente Schnittstel­ le, die sich auf subjektive Eigenheiten in der Eingabe ein­ stellt und selbständig die Erkennung auf bestimmte Themen bzw. Aussage- oder Befehlsbereiche fokussiert.The invention ensures that questions or commands completely informal and without knowledge of a command language or Be can enter fault terminology in an input terminal and there can trigger certain actions controlled by software. The inventive method and the inventive front direction take over the function of the interface between the informal arbitrary subjective input and the required on the part of the computer software miscarriage. The invention acts as an intelligent interface le, which is based on subjective idiosyncrasies in the input provides and independently recognizes certain topics or  Statement or command areas focused.

In dem Speicher für das lexikalische Wissen können Zeichenab­ folgen oder Lautfolgen zusammen mit ihrem Aussagegehalt und se­ mantischer Information abgelegt sein, so daß es dem neuronalen Netz möglich ist, in der zusammengestellten Merkmalskombination aufgrund der semantischen Information sinnvolle Aussagegehalte der Merkmalskombination zu generieren, die klanglich oder von der Zeichenabfolge her in die Nähe der Merkmalsabfolge kommen. Die Nähe kann anhand charakteristischer Vokalfolgen, Konsonan­ tenfolgen oder Vokal-/Konsonanten-Kombinationen erkannt werden.Characters can be stored in the memory for lexical knowledge follow or sound sequences together with their meaningfulness and se mantic information, so that it is the neural Network is possible in the compiled combination of features meaningful information based on the semantic information to generate the combination of features that sound or from the character sequence come close to the feature sequence. Proximity can be based on characteristic vowel sequences, consonant sequences or vowel / consonant combinations can be recognized.

Die Vorrichtung zum Erkennen der Bedeutung bzw. der Aussage der phonetischen Lautfolge oder Zeichenfolge muß eine Eingabevor­ richtung umfassen, in die ein Text eingesprochen oder bei­ spielsweise über eine Tastatur eingegeben werden kann. Während bei einer eingegebenen Zeichenfolge die Merkmalsabfolge durch Trennzeichen wie z. B. Leerzeichen in der Regel vorgegeben ist, muß die Merkmalsabfolge bei einer phonetischen Lautabfolge durch das neuronale Netz selbst gebildet werden. Sie bedient sich dabei des gespeicherten lexikalischen und semantischen Wissens in den Speicherbereichen, auf die das neuronale Netz­ werk zurückgreift.The device for recognizing the meaning or the statement of the phonetic sound sequence or string must have an input direction in which a text is spoken to or at can be entered using a keyboard, for example. While for a string entered, the sequence of features Separators such as B. spaces are usually specified, the sequence of features in a phonetic sequence of sounds be formed by the neural network itself. You served the stored lexical and semantic Knowledge in the memory areas to which the neural network works.

Die Bildung der Merkmalsabfolge kann durchgeführt werden unter Verwendung der associative word-recognition, wobei aus Lauten oder Zeichenbestandteilen Laut- bzw. Zeichenabfolgen gebildet werden, deren Existenz in der Laut- bzw. Zeichenabfolge durch einen Vektor dargestellt wird. Zusätzlich kann der Vektor noch Aussagen, z. B. semantischer Art, enthalten und/oder Aussagen im Zusammenhang mit vorgegebenen Steuerungsparametern einer Compu­ tersoftware. Die Erkennung kann dann durch Vergleich des Vek­ tors der eingegebenen Laut- oder Zeichenfolge mit gespeicherten Vektoren realisiert werden.The feature sequence can be created at Use of associative word recognition, being from sounds or character components of sound or character sequences are their existence in the sound or character sequence by a vector is represented. In addition, the vector can still Statements, e.g. B. semantic type, and / or statements in Relationship with the specified control parameters of a computer software. The detection can then be carried out by comparing the Vek tors of the entered sound or character string with saved  Vectors can be realized.

Bei der Bildung der Merkmalskombination durch das neuronale Netzwerk kann letztendlich die Bildung der Merkmalskombination gleich unter Zugrundelegung eines Aussagegehalts erfolgen, der als vorgegebener Steuerungsbefehl einer Computersoftware unmit­ telbar eine bestimmte Aktion veranlaßt. Der Merkmalsvergleich kann jedoch auch mit Merkmalskombinationen erfolgen, die über­ haupt eine sinnvolle Aussage beinhalten. Diese übereinstimmende Merkmalskombination kann anschließend daraufhin überprüft wer­ den, ob diese sinnvolle Aussage mit einem vorgegebenen Steue­ rungsbefehl übereinstimmt.When the combination of features is created by the neural Network can ultimately the formation of the combination of features on the basis of a statement content that as a predetermined control command of a computer software promptly initiates a certain action. The feature comparison can, however, also be done with combinations of features that are via contain a meaningful statement at all. This matching The combination of features can then be checked for who whether this meaningful statement with a given tax command corresponds.

Die Erfindung wird nachfolgend beispielsweise anhand der sche­ matischen Zeichnung beschrieben.The invention is described below, for example, using the cal matatic drawing.

Fig. 1 zeigt eine Erkennungsvorrichtung 10 für phonetische Fol­ gen oder Zeichenfolgen, die über ein Eingabegerät 12 eingegeben werden. Das Eingabegerät kann beispielsweise eine Tastatur oder ein Mikrophon sein. Der phonetische String oder Zeichenstring wird dann einem neuronalen Netzwerk 14 zugeführt, das mit einem großen Wissensspeicher 16 verbunden sind, in dem lexikalisches semantisches Wissen als auch Wissen über die korrespondierenden phonetischen Eigenschaften der lexikalischen Begriffe abgelegt sind. In dem Speicher 16 ist ein temporärer Speicher 18 enthal­ ten, dessen Bedeutung später noch näher umschrieben wird. Das neuronale Netzwerk ist weiterhin mit einer Fuzzy Logik 20 ver­ bunden, die dazu dient, nicht als übereinstimmend erkannte Merkmale oder Merkmalskombinationen zu bearbeiten. Ferner ist das neuronale Netzwerk 14 mit einer Ausgabeschnittstelle 22 verbunden, innerhalb der zulässige Befehlssätze für gewünschte Aktionen z. B. eine Ausgabe oder eine Abfrage oder dergleichen abgelegt sind. Fig. 1 shows a recognition device 10 for phonetic sequences gene or strings that are input via an input device 12 . The input device can be, for example, a keyboard or a microphone. The phonetic string or character string is then fed to a neural network 14 , which is connected to a large knowledge store 16 , in which lexical semantic knowledge as well as knowledge about the corresponding phonetic properties of the lexical terms are stored. A temporary memory 18 is contained in the memory 16 , the meaning of which will be described in more detail later. The neural network is also connected to fuzzy logic 20 , which serves to process features or combinations of features that are not recognized as matching. Furthermore, the neural network 14 is connected to an output interface 22 , within the permissible command sets for desired actions such. B. an output or a query or the like are filed.

Die Tätigkeit der Erkennungsvorrichtung aus Fig. 1 wird nach­ folgend beschrieben. Der in das neuronale Netzwerk 14 überführ­ te Zeichenstring oder phonetische String wird in eine Abfolge von Merkmalen gegliedert. Diese Gliederung kann entweder auf­ grund von Trennzeichen in einer Zeichenfolge oder beispielswei­ se aufgrund von Sprechpausen in einer phonetischen Abfolge er­ folgen. Die Gliederung kann jedoch auch basierend auf Informa­ tionen aus dem Speicher 16 erfolgen. Die untergliederten Ein­ zelbestandteilen der Abfolge bilden Merkmale, so dass die pho­ netische oder Zeichenabfolge in eine Merkmalsabfolge überführt wird, die in dem neuronalen Netzwerk auf ihren Bedeutungsgehalt untersucht werden kann. Diese Erkennung des Bedeutungsinhalts wird realisiert durch einen Vergleich mit zeitcodierten Neuro­ nen. Das neuronale Netz stellt Hypothesen in Form von Merkmals­ kombinationen auf, die ähnlich zur Merkmalsabfolge sind und ei­ nen definierten Aussagegehalt haben. Das neuronale Netzwerk bildet entsprechend dem zur Verfügung stehenden semantischen und lexikalischen Wissen aus dem Speicher 16 eine große Anzahl an derartigen Merkmalskombinationen, die zeitlich nacheinander mit der Merkmalsabfolge des phonetischen oder Zeichenstrings verglichen werden. In Fig. 2 ist ein derartiges Vergleichssche­ ma dargestellt. Hierbei zeigt die Abszisse eine Auflistung übereinstimmender Merkmale, im vorliegenden Beispiel von 1 bis 6, und die Ordinate stellt eine Zeitachse dar, die den Ver­ gleich der Merkmalsabfolge des phonetischen oder Zeichenstrings mit den Merkmalskombinationen unterschiedlicher Hypothesen H1 bis H4 zeigt. Für jede Hypothese wird die Anzahl der Widersprü­ che zu den Merkmalen der Merkmalsabfolge und/oder zum lexikali­ schen/semantischen Wissen und/oder zum Befehlssatz der Daten­ schnittstelle 22 ermittelt. In einem ersten Zeitpunkt werden alle vier Hypothesen H1 bis H4 mit der Merkmalsabfolge vergli­ chen. Nach dem ersten Vergleich wird eine Hypothese mit den meisten Widersprüchen eliminiert. Zum zweiten Zeitpunkt werden die verbleibenden Hypothesen abermals, gegebenenfalls unter Be­ rücksichtigung neuer Parameter (Befehlssatzkompatibilität etc.) verglichen. Dies führt wiederum zum Herausfallen der wider­ sprüchlichsten Hypothese. Die Vergleiche werden so oft durchge­ führt, bis eine Hypothese (Merkmalskombination) übrigbleibt, die eine gute Übereinstimmung zur Merkmalsabfolge und die wenigsten Widersprüche aufweist. Als Aussagegehalt der Merkmalsabfolge wird derjenige Aussagegehalt definiert, der der verbleibenden Hypothese zugeordnet ist. In dem Vergleich wurde bereits als ein Parameter berücksichtigt, ob die Aussage der Merkmalskombi­ nation mit einem Befehl der Ausgabeschnittstelle 16 überein­ stimmt oder sich in einen derartigen Befehl transformieren läßt.The operation of the recognition device from Fig. 1 is described according to the following. The character string or phonetic string transferred into the neural network 14 is divided into a sequence of features. This structure can either be based on separators in a character string or, for example, due to pauses in speech in a phonetic sequence. However, the structure can also be based on information from the memory 16 . The subdivided individual components of the sequence form features, so that the phonic or character sequence is converted into a feature sequence that can be examined for its meaning in the neural network. This recognition of the content of meaning is realized by a comparison with time-coded neurons. The neural network creates hypotheses in the form of combinations of features that are similar to the sequence of features and have a defined meaning. In accordance with the semantic and lexical knowledge available from the memory 16, the neural network forms a large number of such combinations of features, which are compared in time with the feature sequence of the phonetic or character string. Such a comparison scheme is shown in FIG . Here, the abscissa shows a list of matching features, in the present example from 1 to 6, and the ordinate represents a time axis which shows the comparison of the feature sequence of the phonetic or character string with the feature combinations of different hypotheses H1 to H4. For each hypothesis, the number of contradictions to the features of the feature sequence and / or to the lexical / semantic knowledge and / or to the instruction set of the data interface 22 is determined. In a first point in time, all four hypotheses H1 to H4 are compared with the sequence of features. After the first comparison, a hypothesis with most contradictions is eliminated. At the second point in time, the remaining hypotheses are compared again, if necessary taking into account new parameters (command set compatibility, etc.). This in turn leads to the falling out of the contradictory hypothesis. The comparisons are carried out until a hypothesis (combination of features) remains that has a good match to the feature sequence and the fewest contradictions. The information content that is assigned to the remaining hypothesis is defined as the information content of the feature sequence. In the comparison, it was already taken into account as a parameter whether the statement of the feature combination matches a command from the output interface 16 or can be transformed into such a command.

Falls sich bei dem Merkmalsvergleich herausstellt, dass die Merkmalskombination nur in Teilbereichen mit einer Hypothese übereinstimmt, kann durch Einspeisen des nicht erkannten Teils der Abfolge in die Fuzzy Logik 20 in Verbindung mit dem lexika­ lischen und semantischen Wissen aus dem Speicher 16 versucht werden, die unerkannte Merkmalsabfolge unter Gewichtung der Reihenfolge und des Zusammenwirkens der Merkmale mit ähnlichen bekannten Merkmalskombinationen zu vergleichen, wobei die Ab­ folge der Merkmale als zusätzlicher Parameter bei der Gewich­ tung der Ähnlichkeit berücksichtigt werden kann. Auf diese Wei­ se können unerkannte phonetische oder Zeichenfolgen möglicher­ weise durch Interpretation der Abfolge doch erkannt werden. Falls auch dieses Verfahren zu keinem Ergebnis führt, kann auf einem Display der erkannte Zeichen- oder Lautbestandteil ange­ zeigt werden, und nach der Bedeutung, Beschreibung oder geän­ derten Eingabe des nicht erkannten phonetischen oder Zeichen­ strings gefragt werden. Auf diese Weise wird der bedienenden Person vermittelt, welche Aussagen sie präzisieren muß. If it turns out in the feature comparison that the feature combination only corresponds to a hypothesis in partial areas, by feeding the unrecognized part of the sequence into the fuzzy logic 20 in conjunction with the lexical and semantic knowledge from the memory 16, an attempt can be made to identify the undetected one Compare feature sequence with weighting the order and the interaction of the features with similar known combinations of features, the sequence of features can be taken into account as an additional parameter in the weighting of the similarity. In this way, undetected phonetic or character strings can still be recognized by interpreting the sequence. If this method also does not lead to a result, the recognized character or sound component can be shown on a display and asked for the meaning, description or changed input of the undetected phonetic or character string. In this way, the operator is taught which statements they need to clarify.

Selbstverständlich führen nur zumindest weitgehend übereinstim­ mende Hypothesen zu einem Erfolg, deren Aussage mit dem Be­ fehlssatz einer Ausgabe- oder Aktionsschnittstelle 22 korre­ spondiert. Dem kann entweder dadurch Rechnung getragen werden, dass das neuronale Netzwerk nur Hypothesen aufstellt, deren Aussagegehalt mit dem Befehlssatz der Ausgabeschnittstelle kor­ respondiert oder dass als übereinstimmend oder weitgehend über­ einstimmend erkannte Hypothesen (Merkmalskombinationen) nur dann verwendet werden, wenn dem Aussagegehalt dieser Hypothesen in einem nachfolgenden Vergleichsvorgang ein Befehl aus dem Be­ fehlssatz der Ausgabeschnittstelle 22 zugeordnet werden kann. Die Ausgabeschnittstelle 22 kann der Eingabebereich eines Com­ puterprogrammes oder unterschiedlicher Computerprogramme sein, durch die unterschiedliche Aktionen veranlaßt werden können. So könnte beispielsweise die Erkennungsvorrichtung 10 in einem Auskunfts- oder Informationsterminal eines Flughafens oder der Bahn verwendet werden. Durch eine derartige Erkennungsvorrich­ tung können auch Terminals oder Computer gesteuert werden, um Zugriff auf Datenbestände zu ermöglichen, wobei das System in der Lage wäre, Zuordnungen zwischen unterschiedlichen Daten aufgrund der eingegebenen/eingesprochenen Verknüpfungen selbst neu zu erstellen. Ein derartiges Terminal könnte somit nicht nur dazu verwendet werden, Daten auszugeben, sondern auch Daten neu zusammenzustellen bzw. neue Daten zu generieren. Vorzugs­ weise enthält die Vorrichtung ein Display zur Darstellung des aus der Zeichen- oder phonetischen Abfolge bekannten bzw. abge­ leiteten Befehls, der gegebenenfalls seitens der Bedienperson bestätigt werden muß, bevor die Aktion durchgeführt wird. Auf diese Weise läßt sich vermeiden, dass falsche Aktionen gestar­ tet werden.Of course, only at least largely matching hypotheses lead to success, the statements of which correspond to the instruction set of an output or action interface 22 . This can either be taken into account by the fact that the neural network only sets up hypotheses whose information content corresponds to the instruction set of the output interface, or that hypotheses (combinations of features) recognized as being in agreement or largely via agreement are only used if the information content of these hypotheses is combined in one subsequent comparison process, a command from the command set of the output interface 22 can be assigned. The output interface 22 can be the input area of a computer program or different computer programs through which different actions can be initiated. For example, the recognition device 10 could be used in an information or information terminal of an airport or the train. Such a recognition device can also be used to control terminals or computers to enable access to databases, the system being able to recreate assignments between different data based on the entered / spoken links. Such a terminal could therefore not only be used to output data, but also to put together new data or generate new data. Preferably, the device contains a display for showing the command known or derived from the character or phonetic sequence, which may have to be confirmed by the operator before the action is carried out. In this way it can be avoided that wrong actions are started.

Claims (12)

1. Verfahren zum Erkennen einer phonetischen Lautfolge oder ei­ ner Zeichenfolge, z. B. nach dem ASC II-Standard, mit folgenden Verfahrensschritten:
  • a) Die Abfolge wird einem neuronalen Netz zugeführt,
  • b) in dem neuronalen Netz wird aus der phonetischen Abfolge bzw. Zeichenabfolge unter Berücksichtigung von phoneti­ schen und/oder lexikalischen gespeicherten Informationen und/oder basierend auf einer Zeichenkettenabfolge (Leer­ zeichen) eine Abfolge von Merkmalen gebildet,
  • c) die gebildete Merkmalsabfolge wird mit einer Merkmalskom­ bination (H) eines definierten Aussagegehaltes verglichen, die aus gespeicherten lexikalischen und semantischen In­ formationen auf der Basis der Merkmalsabfolge gebildet wird,
  • d) Schritt c) wird solange mit neuen Merkmalskombinationen wiederholt, bis unter Minimierung von Widersprüchen eine mit der Merkmalsabfolge zumindest weitgehend übereinstim­ mende Merkmalskombination gefunden wird,
  • e) der Aussagegehalt der Merkmalskombination mit den wenig­ sten Widersprüchen wird als Resultat ausgegeben und/oder eine dem Aussagegehalt dieser Merkmalskombination zugeord­ nete Aktion wird durchgeführt.
1. A method for recognizing a phonetic sound sequence or a string, z. B. according to the ASC II standard, with the following process steps:
  • a) the sequence is fed to a neural network,
  • b) a sequence of features is formed in the neural network from the phonetic sequence or character sequence taking into account phonetic and / or lexical stored information and / or based on a character sequence (blank characters),
  • c) the feature sequence formed is compared with a feature combination (H) of a defined meaningful content, which is formed from stored lexical and semantic information on the basis of the feature sequence,
  • d) step c) is repeated with new combinations of features until a combination of features that is at least largely consistent with the sequence of features is found while minimizing contradictions,
  • e) the information content of the combination of features with the least contradictions is output as a result and / or an action associated with the information content of this combination of features is carried out.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Aussagegehalt einer überein­ stimmenden Merkmalskombination nur dann als Resultat ausgegeben wird, wenn dieser Aussagegehalt in einem gespeicherten Bereich zulässiger Aussagegehalte enthalten ist. 2. The method according to claim 1, characterized in that the information content corresponds to one matching combination of characteristics is only output as a result if this information is in a saved area permissible information is included.   3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß in vorhergehenden Erkennungsschrit­ ten erkannte übereinstimmende Merkmalskombinationen in einem temporären Speicher gespeichert werden, und daß die in dem temporären Speicher zwischengespeicherten Merk­ male und/oder Merkmalskombinationen bevorzugt für einen Merk­ malsvergleich verwendet werden.3. The method according to claim 1 or 2, characterized in that in previous recognition steps ten recognized matching combinations of features in one temporary memory can be saved, and that the cached in the temporary memory male and / or combinations of features preferred for one feature Color comparison can be used. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die in dem temporären Speicher ge­ speicherten Informationen auf der Basis gespeicherter lexikali­ scher Informationen einem bestimmten Aussagebereich oder The­ menbereich zugeordnet werden, und primär Merkmale aus diesem Aussagebereich oder Themenbereich zur Bildung der Merkmalskom­ binationen verwendet werden.4. The method according to claim 3, characterized in that the ge in the temporary memory stored information based on stored lexicals certain information or a certain information area assigned to the area, and primarily features from this Statement area or topic area for the formation of the feature comm binations can be used. 5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß wenn keine übereinstimmende Merk­ malskombination gefunden wird, auf der Basis einer Merkmalskom­ bination mit möglichst vielen Merkmalsübereinstimmungen der nicht übereinstimmende Teil der Abfolge verändert und die ver­ änderte Abfolge der Erkennung in Schritt c) zugeführt wird.5. The method according to any one of the preceding claims, characterized in that if no matching note combination of colors is found on the basis of a feature com combination with as many feature matches as possible mismatched part of the sequence changed and the ver changed sequence of detection in step c) is supplied. 6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der nicht übereinstimmende Teil der Merkmalsabfolge unter Verwendung einer Fuzzy Logik verändert wird, wobei die Veränderung des nicht übereinstimmenden Teils der Merkmalsabfolge unter Berücksichtigung der Ähnlichkeit und Abfolge der Merkmale mit der Abfolge in Merkmalskombinationen (H) definierten Aussagegehalts vorgenommen wird, sofern diese Ähnlichkeit einen definierten Wert oder Wertebereich über­ schreitet. 6. The method according to claim 5, characterized in that the mismatched part of the Feature sequence changed using fuzzy logic being the change in the mismatched part the sequence of features taking into account the similarity and Sequence of characteristics with the sequence in combinations of characteristics (H) defined statement content is made, provided this Similarity over a defined value or range of values steps.   7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß wenn keine übereinstimmende Merk­ malskombination gefunden wird, die Merkmalsabfolge in Schritt b) neu definiert und der Erkennung in Schritt c) zugeführt wird.7. The method according to any one of the preceding claims, characterized in that if no matching note combination of colors is found, the sequence of features in step b) redefined and fed to the detection in step c) becomes. 8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß bei der Bildung der Merkmalsabfolge Vektoren gebildet werden, die charakteristisch für die Abfolge und/oder Eigenschaften von phonetischen oder Zeichensequenzen sind, und daß der Merkmalsvergleich anhand des Vergleichs die­ ser Vektoren durchgeführt wird.8. The method according to any one of the preceding claims, characterized in that when the sequence of features is formed Vectors are formed that are characteristic of the sequence and / or properties of phonetic or character sequences are, and that the feature comparison based on the comparison the this vectors is carried out. 9. Vorrichtung zum Erkennen der Bedeutung einer phonetischen Lautfolge oder einer Zeichenfolge, z. B. nach dem ASC II- Standard, mit folgenden Bestandteilen:
  • - Einer Eingabevorrichtung (12) zur Spracheingabe und/oder zur Eingabe von Zeichen, z. B. eine Tastatur,
  • - einem neuronalen Netzwerk (14), das die in der Eingabevor­ richtung eingegebene phonetische - oder Zeichenabfolge aufnimmt,
  • - einem Speicher (16) mit lexikalischem, semantischen und/oder phonetischen Informationen,
  • - einer ersten Ebene des neuronalen Netzwerkes, die unter Berücksichtigung der Informationen im Speicher aus der phonetischen oder Zeichenabfolge eine Merkmalsabfolge bil­ det,
  • - einem Speicherbereich (22) mit zulässigen Aussagegehalten oder Befehlssätzen,
  • - einer zweiten Ebene des neuronalen Netzwerkes, die unter Verwendung der Informationen aus dem Speicher Merkmalskom­ binationen mit einem definierten Aussagegehalt bildet,
  • - einer Vergleichsvorrichtung zum Vergleichen der Merkmals­ abfolge mit den Merkmalskombinationen,
  • - einer Bewertungseinrichtung zur Bewertung von Widersprü­ chen von aufgestellten Merkmalskombinationen mit der Merk­ malsabfolge und/oder den im Speicher gespeicherten lexika­ lischen/semantischen Informationen und gegebenenfalls den Befehlssätzen im Speicherbereich (22),
  • - einer Ausgabeeinrichtung zur Anzeige des Aussagegehalts der am wenigsten widersprüchlichen Merkmalskombination und/oder einer Einrichtung zum Durchführen einer dem Aus­ sagegehalt dieser Merkmalskombination zugeordneten Aktion.
9. Apparatus for recognizing the meaning of a phonetic sound sequence or a character string, e.g. B. according to the ASC II standard, with the following components:
  • - An input device ( 12 ) for voice input and / or for entering characters, eg. B. a keyboard,
  • - a neural network ( 14 ) which receives the phonetic or character sequence entered in the input device,
  • a memory ( 16 ) with lexical, semantic and / or phonetic information,
  • a first level of the neural network which, taking into account the information in the memory, forms a sequence of features from the phonetic or character sequence,
  • - a memory area ( 22 ) with permissible statements or instruction sets,
  • a second level of the neural network, which uses the information from the memory to form combinations of characteristics with a defined meaningfulness,
  • a comparison device for comparing the feature sequence with the feature combinations,
  • - An evaluation device for evaluating contradictions of established combinations of characteristics with the sequence of characteristics and / or the lexical / semantic information stored in the memory and possibly the instruction sets in the memory area ( 22 ),
  • - An output device for displaying the information content of the least contradicting combination of features and / or a device for performing an action associated with the content of this combination of features.
10. Vorrichtung nach Anspruch 9, gekennzeichnet durch eine Fuzzy Logik (20) zur Änderung zumin­ dest eines Teils einer Merkmalsabfolge unter Berücksichtigung der Ähnlichkeit und Abfolge der Merkmale mit im Speicher ge­ speicherten Merkmalskombinationen, welche Fuzzy Logik ausgangs­ seitig mit der zweiten Ebene verbunden ist.10. The device according to claim 9, characterized by a fuzzy logic ( 20 ) for changing at least part of a feature sequence taking into account the similarity and sequence of features with combinations of features stored in the memory, which fuzzy logic is connected on the output side to the second level. 11. Vorrichtung nach Anspruch 9 oder 10, gekennzeichnet durch einen temporären Speicher, der erkannte Merkmalskombinationen aus den letzten Erkennungen speichert, welcher temporäre Speicher ausgangsseitig mit der zweiten Ebe­ ne des neuronalen Netzwerkes verbunden ist.11. The device according to claim 9 or 10, characterized by a temporary memory that recognized Stores combinations of features from the last detections, which temporary storage on the output side with the second level ne of the neural network is connected. 12. Vorrichtung nach einem der Ansprüche 9 bis 11, gekennzeichnet durch eine Vorrichtung, die ergebnisabhängig die erste Ebene des neuronalen Netzwerkes zur Bildung einer neuen Merkmalsabfolge veranlaßt.12. The device according to one of claims 9 to 11, characterized by a device which, depending on the results first level of the neural network to form a new one Character sequence initiated.
DE2000106725 2000-02-15 2000-02-15 Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics Withdrawn DE10006725A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2000106725 DE10006725A1 (en) 2000-02-15 2000-02-15 Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2000106725 DE10006725A1 (en) 2000-02-15 2000-02-15 Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics

Publications (1)

Publication Number Publication Date
DE10006725A1 true DE10006725A1 (en) 2001-08-30

Family

ID=7630994

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000106725 Withdrawn DE10006725A1 (en) 2000-02-15 2000-02-15 Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics

Country Status (1)

Country Link
DE (1) DE10006725A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE102020131232A1 (en) 2020-11-25 2022-05-25 Aktormed Gmbh Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
DE19804603A1 (en) * 1998-02-06 1999-08-12 Philips Patentverwaltung Method for determining words in a speech signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
DE19804603A1 (en) * 1998-02-06 1999-08-12 Philips Patentverwaltung Method for determining words in a speech signal

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE102020131232A1 (en) 2020-11-25 2022-05-25 Aktormed Gmbh Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system
EP4005462A1 (en) 2020-11-25 2022-06-01 KHS GmbH Operation assistance system and method for the generation of control signals for voice control of a motor-controlled mobile robot kinematics of such an operation assistance system
DE102020131232B4 (en) 2020-11-25 2023-07-06 Aktormed Gmbh Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system

Similar Documents

Publication Publication Date Title
EP1417678A1 (en) Method and device for recognising a phonetic sound sequence or character sequence
DE60111329T2 (en) Adapting the phonetic context to improve speech recognition
DE3337353C2 (en) Speech analyzer based on a hidden Markov model
DE69908047T2 (en) Method and system for the automatic determination of phonetic transcriptions in connection with spelled words
DE4015905C2 (en) Speech analysis device, method and program
DE60016722T2 (en) Speech recognition in two passes with restriction of the active vocabulary
EP1927980B1 (en) Method for classifying spoken language in spoken dialogue systems
EP0925578B1 (en) Speech-processing system and method
EP0994461A2 (en) Method for automatically recognising a spelled speech utterance
DE112014005354T5 (en) DIALOG MANAGEMENT SYSTEM AND DIALOG MANAGEMENT PROCESS
DE3723078A1 (en) METHOD FOR DETECTING CONTINUOUSLY SPOKEN WORDS
DE19708183A1 (en) Method for speech recognition with language model adaptation
EP1273003B1 (en) Method and device for the determination of prosodic markers
DE19922974A1 (en) Method and device for processing a document
WO2006111230A1 (en) Method for the targeted determination of a complete input data set in a voice dialogue system
DE19639844A1 (en) Method for deriving at least one sequence of words from a speech signal
EP1182646A2 (en) Classification method of phonemes
DE602004003609T2 (en) Solution of segmentation ambiguity in grammatical position
DE102020215954A1 (en) DIALOGUE SYSTEM AND PROCEDURE FOR CONTROLLING THESE
DE10006725A1 (en) Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics
WO1999014740A1 (en) Method for determining the probability of the occurrence of a sequence of at least two words in a speech recognition process
DE202022106040U1 (en) Handwriting recognition system based on a neural network
WO2021254843A1 (en) Method for assisting the improved operation of a question-and-answer service provided to a telecommunications terminal via a telecommunications network, system, telecommunications network question-and-answer service, computer program and computer-readable medium
DE102016125162B4 (en) Method and device for the automatic processing of texts
EP3576084A1 (en) Efficient dialog design

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal