DE10006725A1 - Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics - Google Patents
Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristicsInfo
- Publication number
- DE10006725A1 DE10006725A1 DE2000106725 DE10006725A DE10006725A1 DE 10006725 A1 DE10006725 A1 DE 10006725A1 DE 2000106725 DE2000106725 DE 2000106725 DE 10006725 A DE10006725 A DE 10006725A DE 10006725 A1 DE10006725 A1 DE 10006725A1
- Authority
- DE
- Germany
- Prior art keywords
- sequence
- features
- feature
- information
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 17
- 230000001537 neural effect Effects 0.000 title abstract description 3
- 238000004883 computer application Methods 0.000 title description 2
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000008094 contradictory effect Effects 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 238000004590 computer program Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
Die vorliegende Erfindung betrifft ein Verfahren und eine Vor richtung zum Erkennen einer Abfolge phonetischer Laute oder Zeichen, z. B. einem Zeichenstring nach dem ASC II-Standard.The present invention relates to a method and a pre direction for recognizing a sequence of phonetic sounds or Characters, e.g. B. a character string according to the ASC II standard.
Bei vielen Computeranwendungen erfolgt die Eingabe von Steue rungsbefehlen in fest vorgegebener Form, die durch die Befehls sprache der Computersoftware definiert ist. Eingaben, die nicht genau den vorgegebenen Befehlssätzen entsprechen, werden schlichtweg nicht erkannt und abgearbeitet. Die Eingabe kann entweder durch Eingabe einer Zeichenfolge über die Tastatur er folgen oder durch Einsprechen eines Steuerungsbefehls in ein Mikrofon, das mit einem Spracherkennungssystem verbunden ist. Unabhängig davon, auf welche Art der Steuerungsbefehl eingege ben wird, ist es in jedem Fall erforderlich, daß der eingege bene bzw. erkannte Steuerungsbefehl genau einem durch die Com putersoftware vorgegebenen Steuerungsbefehl entspricht.In many computer applications, tax is entered instructions in a fixed, predetermined form by the command language of the computer software is defined. Inputs that are not correspond exactly to the specified command sets Simply not recognized and processed. The input can either by entering a string using the keyboard follow or by speaking a control command into a Microphone connected to a speech recognition system. Regardless of the type of control command ben, it is in any case necessary that the entered level or recognized control command exactly one by the Com Computer software corresponds to the given control command.
Es ist nun Ziel der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die eine Eingabe unformatierter Befehle erlauben und diese Befehle in eine für eine Computer software geeignete Befehlsform umwandeln.It is now the object of the present invention, a method and to create a device that accepts raw input Allow commands and these commands into one for a computer Convert software suitable command form.
Die Erfindung wird gelöst durch ein Verfahren gemäß Anspruch 1 und durch eine Vorrichtung gemäß Anspruch 9. Vorteilhafte Wei terbildungen der Erfindung sind Gegenstand der zugeordneten Un teransprüche.The invention is achieved by a method according to claim 1 and by a device according to claim 9. Advantageous Wei Further developments of the invention are the subject of the assigned Un claims.
Erfindungsgemäß wird die eingegebene Zeichenfolge oder phoneti sche Lautfolge einem neuronalen Netzwerk zugeführt, in welchem die Zeichenfolge entweder aufgrund phonetischer, semantischer und/oder lexikalischer gespeicherter Informationen oder bloß basierend auf Trennmarken (z. B. Leerzeichen, Sprechpause) in der Zeichenabfolge in einzelne Merkmale zerlegt wird. Diese Merkmale können kurze Zeichenketten/Wörter oder bestimmte Laute und Lautkombinationen sein. Basierend auf dieser Merkmalsabfol ge stellt das neuronale Netz Merkmalskombinationen zusammen, die unter Berücksichtigung der Informationen aus einem Lexikon mit lexikalischen, semantischen und/oder phonetischen Informa tionen derart kombiniert werden, dass sie einen definierten Aussagegenalt haben. Das neuronale Netzwerk bildet viele dieser Merkmalskombinationen und vergleicht diese in Form zeitlich co dierter Neuronen mit der Merkmalsabfolge. Es wird schließlich der Aussagegehalt derjenigen Merkmalskombination verwendet, die unter Minimierung der Widersprüche eine weitgehende Überein stimmung mit der Merkmalsabfolge aufweist. Der definierte Aus sagegehalt kann anschließend gegebenenfalls entsprechend einem vorgegebenen Befehlssatz einer Computersoftware in einen aus führbaren Befehl transformiert werden, der eine Aktion wie z. B. Ausgabe, Abfrage etc. bewirkt.According to the input string or phoneti cal sequence of sounds fed to a neural network in which the string either due to phonetic, semantic and / or lexically stored information or merely based on separator marks (e.g. spaces, pause) in the character sequence is broken down into individual characteristics. This Characteristics can be short strings / words or certain sounds and sound combinations. Based on this feature sequence the neuronal network compiles combinations of features, the taking into account the information from a lexicon with lexical, semantic and / or phonetic informa tions are combined in such a way that they define a defined one To have declarative age. The neural network forms many of these Feature combinations and compares them in the form of time co dated neurons with the feature sequence. It will eventually the meaningfulness of the combination of features used a broad agreement while minimizing the contradictions is in agreement with the sequence of features. The defined out sagegehalt can then possibly according to a predetermined instruction set of a computer software in a executable command that is transformed into an action like e.g. B. output, query etc. causes.
Führt der sequentiell durchgeführte Vergleich der Merkmalsab folge mit den vom neuronalen Netzwerk aufgestellten Merkmals kombination zu keinem befriedigenden Ergebnis, so kann versucht werden, Teile der Merkmalsabfolge, die eine relativ gute Über einstimmung mit einer Merkmalskombination zeigten, unverändert zu lassen und beispielsweise unter Zuhilfenahme einer Fuzzy Lo gic diejenigen Teile der Merkmalsabfolge zu verändern, die kei ne oder nur eine geringe Übereinstimmung mit den Merkmals kombinationen aufwies.Performs the sequential comparison of the features follow with the feature established by the neural network combination to a satisfactory result, can be tried be parts of the feature sequence that have a relatively good over showed agreement with a combination of features, unchanged and with the help of a fuzzy lo gic to change those parts of the feature sequence that are not ne or only a slight match with the characteristics combinations.
Wird bei dem Vergleich mit allen Merkmalskombinationen insge samt kein zufriedenstellendes Ergebnis erzielt, kann versucht werden, die in dem neuronalen Netzwerk gebildete Merkmalsab folge neu zu definieren, z. B. indem bei einer Lautabfolge die zusammenhängenden Laute, d. h. Merkmale anders definiert und zu sammengestellt werden. Mit der neu gebildeten Merkmalsabfolge kann nun wiederum ein Vergleich mit den seitens des neuronalen Netzwerkes gefundenen Merkmalskombinationen durchgeführt wer den.Is compared when comparing with all combinations of features not achieved a satisfactory result, can try the feature formed in the neural network follow redefine, e.g. B. by the in a sequence of sounds related sounds, d. H. Characteristics defined differently and too be put together. With the newly formed sequence of features can now again make a comparison with that of the neural Networks found combinations of features carried out who the.
Wenn sich lediglich eine Teilübereinstimmung der Merkmalsab folge mit einer Merkmalskombination ergibt, kann der überein stimmende Teil in einer Anzeige- oder Ausgabeeinheit als er kannt dargestellt werden und nach erneuter Eingabe des uner kannten Teils gefragt werden.If there is only a partial match of the features result with a combination of characteristics, it can match matching part in a display or output unit as he can be displayed and after re-entering the un known part.
Vorzugsweise ist in dem Speicherbereich für das lexikalische und/oder semantische Wissen ein temporärer Speicherbereich vor gesehen, in dem aus der gerade zurückliegenden Erkennungstätig keit erkannte, übereinstimmende Merkmale und Merkmalskombina tionen abgelegt werden, auf die das neuronale Netz bei der Bil dung der Merkmalskombinationen bevorzugt zugreift. Auf diese Weise fokussiert sich das System selbst auf einen angesproche nen Themen- bzw. Aussagebereich. Hierdurch wird die Erkennung der Zeichen oder Lautabfolge beträchtlich verbessert.Preferably in the storage area for the lexical and / or semantic knowledge before a temporary storage area seen in which from the just past recognition recognized, matching features and combination of features to which the neural network at the bil preferential access to the combinations of features. To this In this way, the system itself focuses on one that is addressed topic or statement area. This will make detection the character or sequence of sounds improved considerably.
Durch die Erfindung wird erreicht, daß man Fragen oder Befehle völlig formlos und ohne Wissen einer Befehlssprache oder Be fehlsterminologie in ein Eingabeterminal eingeben kann und da mit gesteuert durch Software bestimmte Aktionen auslösen kann. Das erfindungsgemäße Verfahren und die erfindungsgemäße Vor richtung übernehmen hierbei die Funktion der Schnittstelle zwi schen der formlosen willkürlichen subjektiven Eingabe und dem seitens der Computersoftware erforderlichen vorgegebenen Be fehlssatz. Die Erfindung fungiert als intelligente Schnittstel le, die sich auf subjektive Eigenheiten in der Eingabe ein stellt und selbständig die Erkennung auf bestimmte Themen bzw. Aussage- oder Befehlsbereiche fokussiert.The invention ensures that questions or commands completely informal and without knowledge of a command language or Be can enter fault terminology in an input terminal and there can trigger certain actions controlled by software. The inventive method and the inventive front direction take over the function of the interface between the informal arbitrary subjective input and the required on the part of the computer software miscarriage. The invention acts as an intelligent interface le, which is based on subjective idiosyncrasies in the input provides and independently recognizes certain topics or Statement or command areas focused.
In dem Speicher für das lexikalische Wissen können Zeichenab folgen oder Lautfolgen zusammen mit ihrem Aussagegehalt und se mantischer Information abgelegt sein, so daß es dem neuronalen Netz möglich ist, in der zusammengestellten Merkmalskombination aufgrund der semantischen Information sinnvolle Aussagegehalte der Merkmalskombination zu generieren, die klanglich oder von der Zeichenabfolge her in die Nähe der Merkmalsabfolge kommen. Die Nähe kann anhand charakteristischer Vokalfolgen, Konsonan tenfolgen oder Vokal-/Konsonanten-Kombinationen erkannt werden.Characters can be stored in the memory for lexical knowledge follow or sound sequences together with their meaningfulness and se mantic information, so that it is the neural Network is possible in the compiled combination of features meaningful information based on the semantic information to generate the combination of features that sound or from the character sequence come close to the feature sequence. Proximity can be based on characteristic vowel sequences, consonant sequences or vowel / consonant combinations can be recognized.
Die Vorrichtung zum Erkennen der Bedeutung bzw. der Aussage der phonetischen Lautfolge oder Zeichenfolge muß eine Eingabevor richtung umfassen, in die ein Text eingesprochen oder bei spielsweise über eine Tastatur eingegeben werden kann. Während bei einer eingegebenen Zeichenfolge die Merkmalsabfolge durch Trennzeichen wie z. B. Leerzeichen in der Regel vorgegeben ist, muß die Merkmalsabfolge bei einer phonetischen Lautabfolge durch das neuronale Netz selbst gebildet werden. Sie bedient sich dabei des gespeicherten lexikalischen und semantischen Wissens in den Speicherbereichen, auf die das neuronale Netz werk zurückgreift.The device for recognizing the meaning or the statement of the phonetic sound sequence or string must have an input direction in which a text is spoken to or at can be entered using a keyboard, for example. While for a string entered, the sequence of features Separators such as B. spaces are usually specified, the sequence of features in a phonetic sequence of sounds be formed by the neural network itself. You served the stored lexical and semantic Knowledge in the memory areas to which the neural network works.
Die Bildung der Merkmalsabfolge kann durchgeführt werden unter Verwendung der associative word-recognition, wobei aus Lauten oder Zeichenbestandteilen Laut- bzw. Zeichenabfolgen gebildet werden, deren Existenz in der Laut- bzw. Zeichenabfolge durch einen Vektor dargestellt wird. Zusätzlich kann der Vektor noch Aussagen, z. B. semantischer Art, enthalten und/oder Aussagen im Zusammenhang mit vorgegebenen Steuerungsparametern einer Compu tersoftware. Die Erkennung kann dann durch Vergleich des Vek tors der eingegebenen Laut- oder Zeichenfolge mit gespeicherten Vektoren realisiert werden.The feature sequence can be created at Use of associative word recognition, being from sounds or character components of sound or character sequences are their existence in the sound or character sequence by a vector is represented. In addition, the vector can still Statements, e.g. B. semantic type, and / or statements in Relationship with the specified control parameters of a computer software. The detection can then be carried out by comparing the Vek tors of the entered sound or character string with saved Vectors can be realized.
Bei der Bildung der Merkmalskombination durch das neuronale Netzwerk kann letztendlich die Bildung der Merkmalskombination gleich unter Zugrundelegung eines Aussagegehalts erfolgen, der als vorgegebener Steuerungsbefehl einer Computersoftware unmit telbar eine bestimmte Aktion veranlaßt. Der Merkmalsvergleich kann jedoch auch mit Merkmalskombinationen erfolgen, die über haupt eine sinnvolle Aussage beinhalten. Diese übereinstimmende Merkmalskombination kann anschließend daraufhin überprüft wer den, ob diese sinnvolle Aussage mit einem vorgegebenen Steue rungsbefehl übereinstimmt.When the combination of features is created by the neural Network can ultimately the formation of the combination of features on the basis of a statement content that as a predetermined control command of a computer software promptly initiates a certain action. The feature comparison can, however, also be done with combinations of features that are via contain a meaningful statement at all. This matching The combination of features can then be checked for who whether this meaningful statement with a given tax command corresponds.
Die Erfindung wird nachfolgend beispielsweise anhand der sche matischen Zeichnung beschrieben.The invention is described below, for example, using the cal matatic drawing.
Fig. 1 zeigt eine Erkennungsvorrichtung 10 für phonetische Fol gen oder Zeichenfolgen, die über ein Eingabegerät 12 eingegeben werden. Das Eingabegerät kann beispielsweise eine Tastatur oder ein Mikrophon sein. Der phonetische String oder Zeichenstring wird dann einem neuronalen Netzwerk 14 zugeführt, das mit einem großen Wissensspeicher 16 verbunden sind, in dem lexikalisches semantisches Wissen als auch Wissen über die korrespondierenden phonetischen Eigenschaften der lexikalischen Begriffe abgelegt sind. In dem Speicher 16 ist ein temporärer Speicher 18 enthal ten, dessen Bedeutung später noch näher umschrieben wird. Das neuronale Netzwerk ist weiterhin mit einer Fuzzy Logik 20 ver bunden, die dazu dient, nicht als übereinstimmend erkannte Merkmale oder Merkmalskombinationen zu bearbeiten. Ferner ist das neuronale Netzwerk 14 mit einer Ausgabeschnittstelle 22 verbunden, innerhalb der zulässige Befehlssätze für gewünschte Aktionen z. B. eine Ausgabe oder eine Abfrage oder dergleichen abgelegt sind. Fig. 1 shows a recognition device 10 for phonetic sequences gene or strings that are input via an input device 12 . The input device can be, for example, a keyboard or a microphone. The phonetic string or character string is then fed to a neural network 14 , which is connected to a large knowledge store 16 , in which lexical semantic knowledge as well as knowledge about the corresponding phonetic properties of the lexical terms are stored. A temporary memory 18 is contained in the memory 16 , the meaning of which will be described in more detail later. The neural network is also connected to fuzzy logic 20 , which serves to process features or combinations of features that are not recognized as matching. Furthermore, the neural network 14 is connected to an output interface 22 , within the permissible command sets for desired actions such. B. an output or a query or the like are filed.
Die Tätigkeit der Erkennungsvorrichtung aus Fig. 1 wird nach folgend beschrieben. Der in das neuronale Netzwerk 14 überführ te Zeichenstring oder phonetische String wird in eine Abfolge von Merkmalen gegliedert. Diese Gliederung kann entweder auf grund von Trennzeichen in einer Zeichenfolge oder beispielswei se aufgrund von Sprechpausen in einer phonetischen Abfolge er folgen. Die Gliederung kann jedoch auch basierend auf Informa tionen aus dem Speicher 16 erfolgen. Die untergliederten Ein zelbestandteilen der Abfolge bilden Merkmale, so dass die pho netische oder Zeichenabfolge in eine Merkmalsabfolge überführt wird, die in dem neuronalen Netzwerk auf ihren Bedeutungsgehalt untersucht werden kann. Diese Erkennung des Bedeutungsinhalts wird realisiert durch einen Vergleich mit zeitcodierten Neuro nen. Das neuronale Netz stellt Hypothesen in Form von Merkmals kombinationen auf, die ähnlich zur Merkmalsabfolge sind und ei nen definierten Aussagegehalt haben. Das neuronale Netzwerk bildet entsprechend dem zur Verfügung stehenden semantischen und lexikalischen Wissen aus dem Speicher 16 eine große Anzahl an derartigen Merkmalskombinationen, die zeitlich nacheinander mit der Merkmalsabfolge des phonetischen oder Zeichenstrings verglichen werden. In Fig. 2 ist ein derartiges Vergleichssche ma dargestellt. Hierbei zeigt die Abszisse eine Auflistung übereinstimmender Merkmale, im vorliegenden Beispiel von 1 bis 6, und die Ordinate stellt eine Zeitachse dar, die den Ver gleich der Merkmalsabfolge des phonetischen oder Zeichenstrings mit den Merkmalskombinationen unterschiedlicher Hypothesen H1 bis H4 zeigt. Für jede Hypothese wird die Anzahl der Widersprü che zu den Merkmalen der Merkmalsabfolge und/oder zum lexikali schen/semantischen Wissen und/oder zum Befehlssatz der Daten schnittstelle 22 ermittelt. In einem ersten Zeitpunkt werden alle vier Hypothesen H1 bis H4 mit der Merkmalsabfolge vergli chen. Nach dem ersten Vergleich wird eine Hypothese mit den meisten Widersprüchen eliminiert. Zum zweiten Zeitpunkt werden die verbleibenden Hypothesen abermals, gegebenenfalls unter Be rücksichtigung neuer Parameter (Befehlssatzkompatibilität etc.) verglichen. Dies führt wiederum zum Herausfallen der wider sprüchlichsten Hypothese. Die Vergleiche werden so oft durchge führt, bis eine Hypothese (Merkmalskombination) übrigbleibt, die eine gute Übereinstimmung zur Merkmalsabfolge und die wenigsten Widersprüche aufweist. Als Aussagegehalt der Merkmalsabfolge wird derjenige Aussagegehalt definiert, der der verbleibenden Hypothese zugeordnet ist. In dem Vergleich wurde bereits als ein Parameter berücksichtigt, ob die Aussage der Merkmalskombi nation mit einem Befehl der Ausgabeschnittstelle 16 überein stimmt oder sich in einen derartigen Befehl transformieren läßt.The operation of the recognition device from Fig. 1 is described according to the following. The character string or phonetic string transferred into the neural network 14 is divided into a sequence of features. This structure can either be based on separators in a character string or, for example, due to pauses in speech in a phonetic sequence. However, the structure can also be based on information from the memory 16 . The subdivided individual components of the sequence form features, so that the phonic or character sequence is converted into a feature sequence that can be examined for its meaning in the neural network. This recognition of the content of meaning is realized by a comparison with time-coded neurons. The neural network creates hypotheses in the form of combinations of features that are similar to the sequence of features and have a defined meaning. In accordance with the semantic and lexical knowledge available from the memory 16, the neural network forms a large number of such combinations of features, which are compared in time with the feature sequence of the phonetic or character string. Such a comparison scheme is shown in FIG . Here, the abscissa shows a list of matching features, in the present example from 1 to 6, and the ordinate represents a time axis which shows the comparison of the feature sequence of the phonetic or character string with the feature combinations of different hypotheses H1 to H4. For each hypothesis, the number of contradictions to the features of the feature sequence and / or to the lexical / semantic knowledge and / or to the instruction set of the data interface 22 is determined. In a first point in time, all four hypotheses H1 to H4 are compared with the sequence of features. After the first comparison, a hypothesis with most contradictions is eliminated. At the second point in time, the remaining hypotheses are compared again, if necessary taking into account new parameters (command set compatibility, etc.). This in turn leads to the falling out of the contradictory hypothesis. The comparisons are carried out until a hypothesis (combination of features) remains that has a good match to the feature sequence and the fewest contradictions. The information content that is assigned to the remaining hypothesis is defined as the information content of the feature sequence. In the comparison, it was already taken into account as a parameter whether the statement of the feature combination matches a command from the output interface 16 or can be transformed into such a command.
Falls sich bei dem Merkmalsvergleich herausstellt, dass die Merkmalskombination nur in Teilbereichen mit einer Hypothese übereinstimmt, kann durch Einspeisen des nicht erkannten Teils der Abfolge in die Fuzzy Logik 20 in Verbindung mit dem lexika lischen und semantischen Wissen aus dem Speicher 16 versucht werden, die unerkannte Merkmalsabfolge unter Gewichtung der Reihenfolge und des Zusammenwirkens der Merkmale mit ähnlichen bekannten Merkmalskombinationen zu vergleichen, wobei die Ab folge der Merkmale als zusätzlicher Parameter bei der Gewich tung der Ähnlichkeit berücksichtigt werden kann. Auf diese Wei se können unerkannte phonetische oder Zeichenfolgen möglicher weise durch Interpretation der Abfolge doch erkannt werden. Falls auch dieses Verfahren zu keinem Ergebnis führt, kann auf einem Display der erkannte Zeichen- oder Lautbestandteil ange zeigt werden, und nach der Bedeutung, Beschreibung oder geän derten Eingabe des nicht erkannten phonetischen oder Zeichen strings gefragt werden. Auf diese Weise wird der bedienenden Person vermittelt, welche Aussagen sie präzisieren muß. If it turns out in the feature comparison that the feature combination only corresponds to a hypothesis in partial areas, by feeding the unrecognized part of the sequence into the fuzzy logic 20 in conjunction with the lexical and semantic knowledge from the memory 16, an attempt can be made to identify the undetected one Compare feature sequence with weighting the order and the interaction of the features with similar known combinations of features, the sequence of features can be taken into account as an additional parameter in the weighting of the similarity. In this way, undetected phonetic or character strings can still be recognized by interpreting the sequence. If this method also does not lead to a result, the recognized character or sound component can be shown on a display and asked for the meaning, description or changed input of the undetected phonetic or character string. In this way, the operator is taught which statements they need to clarify.
Selbstverständlich führen nur zumindest weitgehend übereinstim mende Hypothesen zu einem Erfolg, deren Aussage mit dem Be fehlssatz einer Ausgabe- oder Aktionsschnittstelle 22 korre spondiert. Dem kann entweder dadurch Rechnung getragen werden, dass das neuronale Netzwerk nur Hypothesen aufstellt, deren Aussagegehalt mit dem Befehlssatz der Ausgabeschnittstelle kor respondiert oder dass als übereinstimmend oder weitgehend über einstimmend erkannte Hypothesen (Merkmalskombinationen) nur dann verwendet werden, wenn dem Aussagegehalt dieser Hypothesen in einem nachfolgenden Vergleichsvorgang ein Befehl aus dem Be fehlssatz der Ausgabeschnittstelle 22 zugeordnet werden kann. Die Ausgabeschnittstelle 22 kann der Eingabebereich eines Com puterprogrammes oder unterschiedlicher Computerprogramme sein, durch die unterschiedliche Aktionen veranlaßt werden können. So könnte beispielsweise die Erkennungsvorrichtung 10 in einem Auskunfts- oder Informationsterminal eines Flughafens oder der Bahn verwendet werden. Durch eine derartige Erkennungsvorrich tung können auch Terminals oder Computer gesteuert werden, um Zugriff auf Datenbestände zu ermöglichen, wobei das System in der Lage wäre, Zuordnungen zwischen unterschiedlichen Daten aufgrund der eingegebenen/eingesprochenen Verknüpfungen selbst neu zu erstellen. Ein derartiges Terminal könnte somit nicht nur dazu verwendet werden, Daten auszugeben, sondern auch Daten neu zusammenzustellen bzw. neue Daten zu generieren. Vorzugs weise enthält die Vorrichtung ein Display zur Darstellung des aus der Zeichen- oder phonetischen Abfolge bekannten bzw. abge leiteten Befehls, der gegebenenfalls seitens der Bedienperson bestätigt werden muß, bevor die Aktion durchgeführt wird. Auf diese Weise läßt sich vermeiden, dass falsche Aktionen gestar tet werden.Of course, only at least largely matching hypotheses lead to success, the statements of which correspond to the instruction set of an output or action interface 22 . This can either be taken into account by the fact that the neural network only sets up hypotheses whose information content corresponds to the instruction set of the output interface, or that hypotheses (combinations of features) recognized as being in agreement or largely via agreement are only used if the information content of these hypotheses is combined in one subsequent comparison process, a command from the command set of the output interface 22 can be assigned. The output interface 22 can be the input area of a computer program or different computer programs through which different actions can be initiated. For example, the recognition device 10 could be used in an information or information terminal of an airport or the train. Such a recognition device can also be used to control terminals or computers to enable access to databases, the system being able to recreate assignments between different data based on the entered / spoken links. Such a terminal could therefore not only be used to output data, but also to put together new data or generate new data. Preferably, the device contains a display for showing the command known or derived from the character or phonetic sequence, which may have to be confirmed by the operator before the action is carried out. In this way it can be avoided that wrong actions are started.
Claims (12)
- a) Die Abfolge wird einem neuronalen Netz zugeführt,
- b) in dem neuronalen Netz wird aus der phonetischen Abfolge bzw. Zeichenabfolge unter Berücksichtigung von phoneti schen und/oder lexikalischen gespeicherten Informationen und/oder basierend auf einer Zeichenkettenabfolge (Leer zeichen) eine Abfolge von Merkmalen gebildet,
- c) die gebildete Merkmalsabfolge wird mit einer Merkmalskom bination (H) eines definierten Aussagegehaltes verglichen, die aus gespeicherten lexikalischen und semantischen In formationen auf der Basis der Merkmalsabfolge gebildet wird,
- d) Schritt c) wird solange mit neuen Merkmalskombinationen wiederholt, bis unter Minimierung von Widersprüchen eine mit der Merkmalsabfolge zumindest weitgehend übereinstim mende Merkmalskombination gefunden wird,
- e) der Aussagegehalt der Merkmalskombination mit den wenig sten Widersprüchen wird als Resultat ausgegeben und/oder eine dem Aussagegehalt dieser Merkmalskombination zugeord nete Aktion wird durchgeführt.
- a) the sequence is fed to a neural network,
- b) a sequence of features is formed in the neural network from the phonetic sequence or character sequence taking into account phonetic and / or lexical stored information and / or based on a character sequence (blank characters),
- c) the feature sequence formed is compared with a feature combination (H) of a defined meaningful content, which is formed from stored lexical and semantic information on the basis of the feature sequence,
- d) step c) is repeated with new combinations of features until a combination of features that is at least largely consistent with the sequence of features is found while minimizing contradictions,
- e) the information content of the combination of features with the least contradictions is output as a result and / or an action associated with the information content of this combination of features is carried out.
- - Einer Eingabevorrichtung (12) zur Spracheingabe und/oder zur Eingabe von Zeichen, z. B. eine Tastatur,
- - einem neuronalen Netzwerk (14), das die in der Eingabevor richtung eingegebene phonetische - oder Zeichenabfolge aufnimmt,
- - einem Speicher (16) mit lexikalischem, semantischen und/oder phonetischen Informationen,
- - einer ersten Ebene des neuronalen Netzwerkes, die unter Berücksichtigung der Informationen im Speicher aus der phonetischen oder Zeichenabfolge eine Merkmalsabfolge bil det,
- - einem Speicherbereich (22) mit zulässigen Aussagegehalten oder Befehlssätzen,
- - einer zweiten Ebene des neuronalen Netzwerkes, die unter Verwendung der Informationen aus dem Speicher Merkmalskom binationen mit einem definierten Aussagegehalt bildet,
- - einer Vergleichsvorrichtung zum Vergleichen der Merkmals abfolge mit den Merkmalskombinationen,
- - einer Bewertungseinrichtung zur Bewertung von Widersprü chen von aufgestellten Merkmalskombinationen mit der Merk malsabfolge und/oder den im Speicher gespeicherten lexika lischen/semantischen Informationen und gegebenenfalls den Befehlssätzen im Speicherbereich (22),
- - einer Ausgabeeinrichtung zur Anzeige des Aussagegehalts der am wenigsten widersprüchlichen Merkmalskombination und/oder einer Einrichtung zum Durchführen einer dem Aus sagegehalt dieser Merkmalskombination zugeordneten Aktion.
- - An input device ( 12 ) for voice input and / or for entering characters, eg. B. a keyboard,
- - a neural network ( 14 ) which receives the phonetic or character sequence entered in the input device,
- a memory ( 16 ) with lexical, semantic and / or phonetic information,
- a first level of the neural network which, taking into account the information in the memory, forms a sequence of features from the phonetic or character sequence,
- - a memory area ( 22 ) with permissible statements or instruction sets,
- a second level of the neural network, which uses the information from the memory to form combinations of characteristics with a defined meaningfulness,
- a comparison device for comparing the feature sequence with the feature combinations,
- - An evaluation device for evaluating contradictions of established combinations of characteristics with the sequence of characteristics and / or the lexical / semantic information stored in the memory and possibly the instruction sets in the memory area ( 22 ),
- - An output device for displaying the information content of the least contradicting combination of features and / or a device for performing an action associated with the content of this combination of features.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000106725 DE10006725A1 (en) | 2000-02-15 | 2000-02-15 | Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000106725 DE10006725A1 (en) | 2000-02-15 | 2000-02-15 | Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10006725A1 true DE10006725A1 (en) | 2001-08-30 |
Family
ID=7630994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000106725 Withdrawn DE10006725A1 (en) | 2000-02-15 | 2000-02-15 | Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10006725A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE102020131232A1 (en) | 2020-11-25 | 2022-05-25 | Aktormed Gmbh | Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
DE19804603A1 (en) * | 1998-02-06 | 1999-08-12 | Philips Patentverwaltung | Method for determining words in a speech signal |
-
2000
- 2000-02-15 DE DE2000106725 patent/DE10006725A1/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
DE19804603A1 (en) * | 1998-02-06 | 1999-08-12 | Philips Patentverwaltung | Method for determining words in a speech signal |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE102020131232A1 (en) | 2020-11-25 | 2022-05-25 | Aktormed Gmbh | Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system |
EP4005462A1 (en) | 2020-11-25 | 2022-06-01 | KHS GmbH | Operation assistance system and method for the generation of control signals for voice control of a motor-controlled mobile robot kinematics of such an operation assistance system |
DE102020131232B4 (en) | 2020-11-25 | 2023-07-06 | Aktormed Gmbh | Operation assistance system and method for generating control signals for voice control of a motor-controlled moveable robot kinematics of such an operation assistance system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1417678A1 (en) | Method and device for recognising a phonetic sound sequence or character sequence | |
DE60111329T2 (en) | Adapting the phonetic context to improve speech recognition | |
DE3337353C2 (en) | Speech analyzer based on a hidden Markov model | |
DE69908047T2 (en) | Method and system for the automatic determination of phonetic transcriptions in connection with spelled words | |
DE4015905C2 (en) | Speech analysis device, method and program | |
DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
EP1927980B1 (en) | Method for classifying spoken language in spoken dialogue systems | |
EP0925578B1 (en) | Speech-processing system and method | |
EP0994461A2 (en) | Method for automatically recognising a spelled speech utterance | |
DE112014005354T5 (en) | DIALOG MANAGEMENT SYSTEM AND DIALOG MANAGEMENT PROCESS | |
DE3723078A1 (en) | METHOD FOR DETECTING CONTINUOUSLY SPOKEN WORDS | |
DE19708183A1 (en) | Method for speech recognition with language model adaptation | |
EP1273003B1 (en) | Method and device for the determination of prosodic markers | |
DE19922974A1 (en) | Method and device for processing a document | |
WO2006111230A1 (en) | Method for the targeted determination of a complete input data set in a voice dialogue system | |
DE19639844A1 (en) | Method for deriving at least one sequence of words from a speech signal | |
EP1182646A2 (en) | Classification method of phonemes | |
DE602004003609T2 (en) | Solution of segmentation ambiguity in grammatical position | |
DE102020215954A1 (en) | DIALOGUE SYSTEM AND PROCEDURE FOR CONTROLLING THESE | |
DE10006725A1 (en) | Method of recognizing a phonetic sound sequence or character sequence for computer applications, requires supplying the character sequence to a neuronal network for forming a sequence of characteristics | |
WO1999014740A1 (en) | Method for determining the probability of the occurrence of a sequence of at least two words in a speech recognition process | |
DE202022106040U1 (en) | Handwriting recognition system based on a neural network | |
WO2021254843A1 (en) | Method for assisting the improved operation of a question-and-answer service provided to a telecommunications terminal via a telecommunications network, system, telecommunications network question-and-answer service, computer program and computer-readable medium | |
DE102016125162B4 (en) | Method and device for the automatic processing of texts | |
EP3576084A1 (en) | Efficient dialog design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal |