EP1518221A1 - Method for natural voice recognition based on a generative transformation/phrase structure grammar - Google Patents

Method for natural voice recognition based on a generative transformation/phrase structure grammar

Info

Publication number
EP1518221A1
EP1518221A1 EP03761435A EP03761435A EP1518221A1 EP 1518221 A1 EP1518221 A1 EP 1518221A1 EP 03761435 A EP03761435 A EP 03761435A EP 03761435 A EP03761435 A EP 03761435A EP 1518221 A1 EP1518221 A1 EP 1518221A1
Authority
EP
European Patent Office
Prior art keywords
grammar
recognized
words
phrase
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP03761435A
Other languages
German (de)
French (fr)
Inventor
Klaus Dieter Liedtke
Guntbert Markefka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telekom Deutschland GmbH
Original Assignee
T Mobile Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T Mobile Deutschland GmbH filed Critical T Mobile Deutschland GmbH
Publication of EP1518221A1 publication Critical patent/EP1518221A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Definitions

  • the invention relates to a method for natural speech recognition based on a generative transformation / phrase structure grammar (GT / PS grammar).
  • NLU Natural Language Understanding
  • Speech recognition systems with natural speech recognition are able to understand a variety of possible utterances and implement them in complex command structures, the speech recognition systems, e.g. Computer, to take certain actions. They do this on the basis of predefined, meaningful sample sets, which are defined by application developers and so-called dialog designers.
  • This collection of sample sentences - also called "grammar" - includes individual command words as well as complicated nesting sentences that make sense at a certain point in the dialog. If the user expresses such a sentence, the system will understand it with great certainty and the instructions associated with it is running.
  • the Grammar is an indispensable component. It is generated using a special tool, the so-called Grammar Specification Language (GSL). It is used to reproduce the words to be understood as well as their links in advance and to lay them down for the speech recognizer.
  • GSL Grammar Specification Language
  • the predefined sentences are formed from combinations of words that are interchangeable (paradigmatic axis) and combinable (syntagmatic axis). An example of this is shown in FIG. 7. The possible utterances result from the syntagmatic connection of the paradigmatic word combinations.
  • the object of the invention is to provide a method for speech recognition on the basis of a generative transformation / phrase structure grammar which, compared to conventional recognition methods, requires less system resources and thereby enables reliable and fast recognition of speech while reducing over-generation.
  • a spoken phrase is analyzed for triphones contained therein, words contained in the spoken phrase are formed from the recognized triphones with the aid of phonetic word databases
  • the linking rules of grammatical sentences are not reproduced on the surface, but the depth structures are shown, which are followed by the syntagmatic links of all Indo-European languages.
  • Each sentence is described using a syntactic model in the form of so-called structure trees.
  • the GT / PS grammar is not based on the potential statements of a specific application, but on the deep structure of the syntax (sentence formation rules) of Indo-European languages. It provides a framework that can be filled with different words and depicts the reality of the spoken language better than the previously used "mimetic" process.
  • Subgrammars in the GT / PS model on e.g. 30 subgrammars can be reduced in just two hierarchical levels.
  • the new grammar type depicts natural language expressions in a structured form and is only around 25% the size of the previous grammar, for example. Because of its small size, this grammar is easier to maintain, and the times for compilation decrease rapidly. Due to their small size, the Detection reliability (Accuracy) and decreases the detection delay (Latency). Current computer capacities are better used and the performance of the servers increases. In addition, the new Grammar is not related to a specific application, but can be used in its basic structures for different applications, which increases the homogeneity of the systems and reduces development times.
  • the universal code of the deep structure enables the use and added value for multilingual language systems in a dimension that has not yet been achieved, especially the standard Western European languages can be processed with comparatively little effort.
  • the new GT / PS grammar is based on current linguistic models that provide natural-language utterances in the context of surface and
  • GSL Grammar Specification Language
  • the GT / PS grammar is much smaller than the previous grammar because it only needs two levels instead of the up to seven subgrammar levels; - The number of grammatically incorrect sentences covered by the grammar
  • Figure 1 A triphone analysis as the first step in the recognition process
  • Figure 2 Word recognition from the recognized triphones as a second step in the recognition process
  • Figure 3 a syntactic reconstruction of the recognized words as the third step of the recognition process
  • Figure 4 An example of the structure of the recognized words in
  • Figure 5 A sample program for a possible grammar
  • Figure 6 An overview of the structure of a PSG grammar
  • Figure 7 An example of the formation of word combinations in a grammar according to the prior art.
  • Figure 1 shows the first step of speech recognition: the triphone analysis.
  • the continuous flow of speech of a person 1 is e.g. accepted by a microphone of a telephone and fed to a speech recognizer 2 as an analog signal.
  • the analog voice signal is converted into a digital voice signal 3.
  • the speech signal contains a variety of triphones, i.e. Sound segments that in speech recognizer 2 with existing, i.e. Predefined triphon linking rules are compared.
  • the existing triphones are stored in a database which contains one or more phonebooks.
  • the recognized triphones are then present as a triphone chain 4, e.g. "Pro", “red”, “ote", "tel”.
  • useful words are formed from the recognized triphones.
  • the phonetic dictionary 5 can comprise a certain vocabulary from the colloquial language as well as a special vocabulary tailored to the respective application.
  • the recognized words 7 are reconstructed using the grammar 8.
  • the recognized words are assigned to their part of speech, such as noun, verb, adverb, article, adjective, etc., as shown in FIG 6 is shown.
  • the databases 9-15 can contain both the conventional part of speech categories mentioned above and special part of speech types, such as yes / no grammar 9, telephone numbers 14, 15.
  • a detection of DTMF inputs 16 can also be provided.
  • the described assignment of the part of speech type to the recognized words can already take place during the word recognition process.
  • the recognized words are based on their word categories of a verbal phrase, i.e. a verb-based phrase, and a nominal phrase, i.e. assigned to a phrase based on a noun, cf. Figure 6.
  • step 18 the objects for multitasking are linked to the corresponding voice-controlled application.
  • Each object 19 comprises a target sentence stored in the grammar 8, more precisely a sentence model.
  • a sentence model e.g. can be defined by a word order "subject, verb, object” or "object, verb, subject”.
  • Many other sentence structures are stored in this general form in Grammar 8. If the word categories of the recognized words 7 correspond to the order of one of the predefined sentence models, they are assigned to the associated object. The sentence is considered recognized. In other words, each sentence model comprises a number of variables assigned to the different word categories, which are filled with the corresponding word categories of the recognized words 7.
  • the procedure uses the traditional Grammar Specification Language (GSL), but structures the stored sentences in an innovative way. It is based on the rules of phrase structure grammar and the concept of a generative transformation grammar.
  • GSL Grammar Specification Language
  • the GT / PS grammar is therefore based on a theoretical model that is suitable for determining the abstract principles of natural language utterances.
  • it opens up the possibility for the first time to reverse the abstraction of sentence formation rules and to substantiate them as a prediction of the statements made by application users. This enables systematic access to speech recognition grammars that have always been based on the intuitive accumulation of example sentences.
  • a central feature of conventional and GT / PS grammars is the hierarchical nesting into so-called subgrammars, which combine individual words and variables at the highest level to form an entire sentence.
  • the GT / PS grammar is much smaller and hierarchically much clearer than the previously known grammars.
  • "meaningful" sentences are almost exclusively stored in the new grammar, so that the degree of overgeneration, ie stored sentences that are incorrect in the natural language sense, decreases. This, in turn, is the prerequisite for improved recognition performance, since the Application only has to choose between a few stored alternatives.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a method for natural voice recognition based on a generative transformation/phrase structure grammar known as GT /PS grammar. According to the invention, a spoken phrase is analyzed for triphones contained therein, words contained in the spoken phrase are formed from the recognized triphones with the aid dictionaries and the spoken phrase is syntactically reconstructed from the recognized words using a grammar. The GT /PS grammar is a novel method enabling target sentences to be placed in said grammar. It uses traditional Grammar Specification Language (GSL), structures said sentences however in an innovative manner. It is oriented towards the rules of phrase structure grammar and Noam Chomsky's concept of generative transformation grammar.

Description

Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-GrammatikProcess for natural speech recognition based on a generative transformation / phrase structure grammar
Die Erfindung betrifft ein Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik (GT/PS-Grammar).The invention relates to a method for natural speech recognition based on a generative transformation / phrase structure grammar (GT / PS grammar).
Aktuelle Spracherkennungssysteme mit natürlicher Spracherkennung (NLU = Natural Language Understanding) sind in der Lage, eine Vielzahl möglicher Äußerungen zu verstehen und in komplexe Befehlsstrukturen umzusetzen, die Spracherkennungssysteme, z.B. Computer, zu bestimmten Aktionen veranlassen. Sie tun dies auf der Grundlage vorab definierter sinnvoller Mustersätze, die von Applikationsentwicklern und sogenannten Dialog-Designern festgelegt werden. Diese Sammlung von Mustersätzen - auch „Grammar" genannt - umfasst einzelne Kommandoworte ebenso wie komplizierte Schachtelsätze, die an einer bestimmten Stelle des Dialogs sinnvoll sind. Äußert der Nutzer einen solchen Satz, wird er vom System mit großer Sicherheit verstanden und die mit ihm verknüpfte Handlungsanweisung wird ausgeführt.Current speech recognition systems with natural speech recognition (NLU = Natural Language Understanding) are able to understand a variety of possible utterances and implement them in complex command structures, the speech recognition systems, e.g. Computer, to take certain actions. They do this on the basis of predefined, meaningful sample sets, which are defined by application developers and so-called dialog designers. This collection of sample sentences - also called "grammar" - includes individual command words as well as complicated nesting sentences that make sense at a certain point in the dialog. If the user expresses such a sentence, the system will understand it with great certainty and the instructions associated with it is running.
Bei der Programmierung einer Erkennungsapplikation, z.B. einer NLU- Telefonapplikation, ist die Grammar also ein unverzichtbarer Baustein. Sie wird mit Hilfe eines speziellen Werkzeugs, der sogenannten Grammar Specification Language (GSL) erzeugt. Mit ihr werden die zu verstehenden Worte sowie ihre Verknüpfungen vorab reproduziert und für den Spracherkenner festgeschrieben. Die vorgegebenen Sätze werden dabei aus Wortkombinationen gebildet, die untereinander austauschbar (paradigmatische Achse) und miteinander kombinierbar (syntagmatische Achse) sind. Ein Beispiel hierfür ist in Figur 7 dargestellt. Die möglichen Äußerungen ergeben sich aus der syntagmatischen Verknüpfung der paradigmatischen Wortkombinationen. Dass dabei auch Sätze möglich werden, die grammatisch falsch sind, wie z.B. „Würden Sie vielleicht Telly-Tarif ersetzen?" muss in Kauf genommen werden, um das Antwortenspektrum möglichst groß zu halten. Diese sogenannte „Overgeneration", das heißt z.B. das Vorhalten bzw. Erkennen von unsinnigen Mustersätzen oder Ausdrücken mit dem selben Sinngehalt, sollte jedoch gering gehalten werden, denn sie beansprucht beträchtliche Systemressourcen und setzt gleichzeitig die Erkennungsleistung herab, weil das System jede Nutzeräußerung mit einer Fülle vorgegebener Satzkombination vergleichen muss, die kaum jemals geäußert werden.When programming a recognition application, such as an NLU telephone application, the Grammar is an indispensable component. It is generated using a special tool, the so-called Grammar Specification Language (GSL). It is used to reproduce the words to be understood as well as their links in advance and to lay them down for the speech recognizer. The predefined sentences are formed from combinations of words that are interchangeable (paradigmatic axis) and combinable (syntagmatic axis). An example of this is shown in FIG. 7. The possible utterances result from the syntagmatic connection of the paradigmatic word combinations. The fact that sentences that are grammatically wrong, such as "Would you perhaps replace the Telly tariff?" Must be accepted in order to keep the range of answers as large as possible Recognizing nonsensical pattern sentences or expressions with the same meaning, but should be kept to a minimum, because it requires considerable system resources and at the same time reduces the recognition performance, because the system has to compare every user utterance with an abundance of predefined sentence combinations that are hardly ever uttered.
In der bisher üblichen Praxis wurden die paradigmatischen Wortkombinationen in einer Weise festgelegt, die scheinbar Zusammengehöriges verbindet. Dabei wurde von der bedeutungstragenden Qualität der Worte ausgegangen. Dieses Verfahren, das von einem mutmaßlichen Erfolgssatz ausgeht, entspricht durchaus den Erfordernissen einfacher Applikationen und führt hier zu zufriedenstellenden Ergebnissen. Bei komplexen Anwendungen, mit einer Fülle sinnvoller Antwortmöglichkeiten hingegen, werden diese herkömmlichen Grammatiken so groß, dass sie selbst die Rechenkapazität gegenwärtiger Hochleistungsserver bis an die Grenze belasten. Die Folgen sind:In previous practice, the paradigmatic word combinations were defined in a way that apparently connected things together. The meaningful quality of the words was assumed. This process, which is based on a presumed set of success, meets the requirements of simple applications and leads to satisfactory results. In the case of complex applications, on the other hand, with an abundance of sensible answer options, these conventional grammars become so large that they themselves push the computing capacity of current high-performance servers to the limit. The consequences are:
Stark vermehrte Overgeneration Spürbare Verzögerungen bei der Erkennung (Latency) Sinkende Erkennungssicherheit (Accuracy). - Abgesenkte Systemstabilität (Robustness)Greatly increased overgeneration Noticeable delays in recognition (latency) Decreasing recognition reliability (Accuracy). - Reduced system stability (robustness)
Der Hauptmangel dieser Methode besteht darin, dass die spezifizierten Sätze lediglich einer oberflächlichen Kombinatorik folgen. Die erzeugte Overgeneration ist deshalb so groß, weil die scheinbar zusammengehörigen Elemente tatsächlich anderen Kombinationsregeln folgen, die in der Sprachwissenschaft seit längerem bekannt sind. Zusammenfassend wird festgehalten, dass die derzeit verbreiteten Grammars, die festlegen, welche Sätze von einem ASR-System erkannt werden, traditionellen grammatischen Konventionen folgen, die natürlich-sprachliche Äußerungen unzureichend strukturiert abbilden. Dabei wurde bislang nicht von einer Differenzierung von „Oberflächen-,, bzw. „Tiefenstrukturen" ausgegangen. Die linguistische Hypothese besagt, dass eine syntaktische Tiefenstruktur und deren „generative Umsetzung" hin zu konkreten Oberflächenstrukturen die Leistungsfähigkeit eines Sprachsystems ausmacht. Wird bei steigender Komplexität ausschließlich die bisher eingesetzte Oberflächenstruktur verwendet, muss diese, um ihrer Aufgabe dennoch gerecht zu werden, so groß dimensioniert sein, dass sie im Betrieb kaum noch vernünftig gepflegt werden kann und die Server bis an die Grenzen ihrer Kapazität belastet.The main shortcoming of this method is that the specified sentences only follow a superficial combinatorics. The overgeneration generated is so great because the apparently related elements actually follow other combination rules that have long been known in linguistics. In summary, it is stated that the currently widespread grammars, which determine which sentences are recognized by an ASR system, follow traditional grammatical conventions, which depict natural language expressions in an insufficiently structured manner. So far, no differentiation between "surface" or "deep structures" has been assumed. The linguistic hypothesis states that a syntactic deep structure and its "generative implementation" towards concrete surface structures constitute the performance of a language system. If, with increasing complexity, only the surface structure used up to now is used, in order to still be able to fulfill its task, it must be dimensioned so large that it can hardly be maintained properly in operation and the server is loaded to the limits of its capacity.
Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik anzugeben, das im Vergleich zu herkömmlichen Erkennungsverfahren weniger System ressourcen benötigt und dadurch eine sichere und schnelle Erkennung von Sprache bei gleichzeitiger Verringerung der Overgeneration ermöglicht.The object of the invention is to provide a method for speech recognition on the basis of a generative transformation / phrase structure grammar which, compared to conventional recognition methods, requires less system resources and thereby enables reliable and fast recognition of speech while reducing over-generation.
Diese Aufgabe wird erfindungsgemäß durch die Merkmale des Patentanspruchs 1 gelöst.This object is achieved by the features of claim 1.
Erfindungsgemäß erfolgt eine Analyse einer gesprochenen Phrase auf darin enthaltene Triphone, eine Bildung von in der gesprochenen Phrase enthaltenen Wörtern aus den erkannten Triphonen mit Hilfe von LautwortdatenbasenAccording to the invention, a spoken phrase is analyzed for triphones contained therein, words contained in the spoken phrase are formed from the recognized triphones with the aid of phonetic word databases
(Dictionaries) und eine syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten Wörtern unter Verwendung eines grammattischen Regelwerks (Grammar).(Dictionaries) and a syntactic reconstruction of the spoken phrase from the recognized words using a grammatical set of rules (grammar).
Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Merkmalen der Unteransprüche. Besonders markant ist der Gegensatz zwischen dem erfindungsgemäßen Verfahren und der traditionellen Grammar Specification Language, die bei kleinen Applikationen auch mit syntaktischen Oberflächen, d.h. konkretes Ausformulieren von Erfolgssätzen, gute Resultate erzielte.Advantageous refinements and developments of the invention result from the features of the subclaims. Particularly striking is the contrast between the method according to the invention and the traditional grammar specification language, which achieved good results in small applications even with syntactic surfaces, ie concrete formulation of success sentences.
Erfindungsgemäß werden die Verknüpfungsregeln grammatischer Sätze nicht an der Oberfläche reproduziert, sondern die Tiefenstrukturen aufgezeigt, denen die syntagmatischen Verknüpfungen aller indogermanischen Sprachen folgen. Jeder Satz wird anhand eines syntaktischen Modells in Form von sogenannten Strukturbäumen beschrieben.According to the invention, the linking rules of grammatical sentences are not reproduced on the surface, but the depth structures are shown, which are followed by the syntagmatic links of all Indo-European languages. Each sentence is described using a syntactic model in the form of so-called structure trees.
Die GT/PS-Grammar orientiert sich nicht an den potenziellen Äußerungen einer spezifischen Applikation, sondern an der Tiefenstruktur der Syntax (Satzbildungsregeln) indogermanischer Sprachen. Sie liefert ein Gerüst, das mit verschiedenen Worten gefüllt werden kann und die Realität der gesprochenen Sprache besser abbildet, als das bisher praktizierte „mimetische" Verfahren.The GT / PS grammar is not based on the potential statements of a specific application, but on the deep structure of the syntax (sentence formation rules) of Indo-European languages. It provides a framework that can be filled with different words and depicts the reality of the spoken language better than the previously used "mimetic" process.
Innerhalb der durch die Strukturbäume beschriebenen Tiefenstrukturen wird erkennbar, dass sich bestimmte Phrasen innerhalb eines Satzes wiederholen. Solche Wiederholungen können mit Hilfe der GSL reproduziert und aufgefangen werden. Dadurch sinkt nicht nur der Umfang einer Grammar erheblich, sondern auch die Overgeneration von grammatisch inkorrekten Sätzen sinkt beträchtlich.Within the deep structures described by the structure trees it can be seen that certain phrases are repeated within a sentence. Such repetitions can be reproduced and caught with the help of the GSL. This not only significantly reduces the size of a grammar, but also significantly reduces the over-generation of grammatically incorrect sentences.
Während in der traditionellen GSL-Grammar z.B. rund 500 Subgrammars in sieben hierarchischen Ebenen miteinander verflochten sind, kann die Anzahl derWhile in the traditional GSL grammar e.g. around 500 subgrams are intertwined in seven hierarchical levels, the number of
Subgrammars im GT/PS-Modell auf z.B. 30 Subgrammars in nur zwei hierarchischen Ebenen reduziert werden.Subgrammars in the GT / PS model on e.g. 30 subgrammars can be reduced in just two hierarchical levels.
Der neue Grammartyp bildet natürlich-sprachliche Äußerungen in strukturierter Form ab und hat dabei z.B. nur rund 25% der Größe der bisherigen Grammar. Aufgrund ihrer geringen Größe ist diese Grammar einfacher zu pflegen, wobei die Zeiten für Kompilierung rapide sinken. Aufgrund ihrer geringen Größe steigt die Erkennungssicherheit (Accuracy) und sinkt die Erkennungsverzögerung (Latency). Die aktuellen Rechnerkapazitäten werden besser ausgenutzt und die Performance der Server steigt. Darüber hinaus ist die neue Grammar nicht auf eine bestimmte Applikation bezogen, sondern kann in ihren Grundstrukturen für unterschiedliche Anwendungen, verwendet werden, wodurch die Homogenität der Systeme gesteigert und die Entwicklungszeiten reduziert werden.The new grammar type depicts natural language expressions in a structured form and is only around 25% the size of the previous grammar, for example. Because of its small size, this grammar is easier to maintain, and the times for compilation decrease rapidly. Due to their small size, the Detection reliability (Accuracy) and decreases the detection delay (Latency). Current computer capacities are better used and the performance of the servers increases. In addition, the new Grammar is not related to a specific application, but can be used in its basic structures for different applications, which increases the homogeneity of the systems and reduces development times.
Der universale Code der Tiefenstruktur ermöglicht den Einsatz und die Wertschöpfung für multilinguale Sprachsysteme in einer bislang nicht erreichten Dimension, besonders die westeuropäischen Standardsprachen können mit vergleichsweise geringem Aufwand verarbeitet werden.The universal code of the deep structure enables the use and added value for multilingual language systems in a dimension that has not yet been achieved, especially the standard Western European languages can be processed with comparatively little effort.
Im Unterschied zur bisherigen Grammar für natürlich-sprachliche Dialogapplikationen basiert die neue GT/PS Grammar auf aktuellen sprachwissenschaftlichen Modellen, die natürlich-sprachliche Äußerungen im Rahmen von Oberflächen- undIn contrast to the previous grammar for natural-language dialog applications, the new GT / PS grammar is based on current linguistic models that provide natural-language utterances in the context of surface and
Tiefenstrukturen abbilden. Die abstrakten Strukturmuster werden mit einer Grammar Specification Language (GSL) in ein hierarchisch verschachteltes und vernetztes Regelwerk übertragen, dessen Strukturen in der beiden Anlagen abgebildet sind.Show depth structures. The abstract structure patterns are transferred with a Grammar Specification Language (GSL) into a hierarchically nested and networked set of rules, the structures of which are shown in the two systems.
Die technischen Vorzüge der GT/PS-Grammar sind damit:The technical advantages of the GT / PS grammar are:
Die GT/PS-Grammar ist sehr viel kleiner als die bisherige Grammar, weil sie statt der bisher bis zu sieben Subgrammarlevels nur noch mit zwei Ebenen auskommt; - Die Zahl der von der Grammar abgedeckten aber grammatisch falschen SätzeThe GT / PS grammar is much smaller than the previous grammar because it only needs two levels instead of the up to seven subgrammar levels; - The number of grammatically incorrect sentences covered by the grammar
(Overgeneration) sinkt drastisch;(Overgeneration) drops drastically;
Sie benötigt nur noch rund ein Drittel der bislang verwendeten Slots;It only needs around a third of the slots used up to now;
Sie füllt entgegen der heutigen Spracherkenner-Philosophie die Slots in den unteren Grammar-Ebenen, statt in den oberen; - Sie nutzt das von der GSL (Grammar Specification Language) bereit gestellteContrary to today's speech recognition philosophy, it fills the slots in the lower grammar levels instead of the upper ones; - It uses the one provided by the GSL (Grammar Specification Language)
Instrument, Slotwerte in höhere Grammarlevels hoch zu reichen, konsequent aus; Sie besitzt einen neuen Slot mit der Bezeichnung ACTION, der nur noch mit den Werten GET und KILL gefüllt werden kann; sie arbeitet mit ineinander verschachtelten Slots, die hochgradig multitaskingfähig sind. - Sie führt zu einer Verbesserung der ErkennerleistungInstrument to reach slot values high in higher grammar levels consistently; It has a new slot called ACTION, which can only be filled with the values GET and KILL; it works with nested slots that are highly multitasking capable. - It leads to an improvement in the recognition performance
Sie ermöglicht eine vereinfachte Option zur Einführung mehrsprachigerIt enables a simplified option to introduce multilingual
Applikationenapplications
Sie weist eine nahtlose Integrationsfähigkeit in Nuance Technologie aufIt has a seamless integration capability in Nuance technology
Die wirtschaftlichen Vorzüge der PSG sind:The economic advantages of the PSG are:
Verringerung der Hardwarekosten durch bessere Ausnutzung der SystemressourcenReduction of hardware costs through better use of system resources
Verringerung der Übertragungszeiten durch leistungsfähigere Erkennung - Einsparung von Personalressourcen durch leichtere Pflegbarkeit Größere Kundenzufriedenheit Anwendbar auf alle Weltsprachen (Englisch bis Chinesisch)Reduction of transmission times through more efficient recognition - saving of human resources through easier maintenance, greater customer satisfaction applicable to all world languages (English to Chinese)
Nachfolgend wird die Erfindung anhand eines vereinfachten Ausführungsbeispiels unter Bezugnahme auf die Zeichnungen näher erläutert. Aus den Zeichnungen und deren Beschreibung ergeben sich weitere Merkmale, Vorteile und Anwendungsmöglichkeiten der Erfindung. Es zeigt.The invention is explained in more detail below on the basis of a simplified exemplary embodiment with reference to the drawings. Further features, advantages and possible uses of the invention result from the drawings and their description. It shows.
Figur 1 : Eine Triphonanalyse als ersten Schritt im Erkennungsprozess;Figure 1: A triphone analysis as the first step in the recognition process;
Figur 2: Eine Worterkennung aus den erkannten Triphonen als zweiten Schritt im Erkennungsprozess; Figur 3;: eine syntaktische Rekonstruktion der erkannten Wörter als dritten Schritt des Erkennungsprozesses; Figur 4: Ein Beispiel für die Gliederung der erkannten Wörter inFigure 2: Word recognition from the recognized triphones as a second step in the recognition process; Figure 3 ;: a syntactic reconstruction of the recognized words as the third step of the recognition process; Figure 4: An example of the structure of the recognized words in
Wortartenkategorien sowie in nominale und verbale Phrasen; Figur 5: Ein Programmbeispiel für eine mögliche Grammar; Figur 6: Eine Übersicht über die Struktur einer PSG Grammar;Parts of speech as well as in nominal and verbal phrases; Figure 5: A sample program for a possible grammar; Figure 6: An overview of the structure of a PSG grammar;
Figur 7: Ein Beispiel für eine Bildung von Wortkombinationen bei einer Grammar nach den Stand der Technik.Figure 7: An example of the formation of word combinations in a grammar according to the prior art.
Figur 1 zeigt den ersten Schritt einer Spracherkennung: die Triphonanalyse. Der kontinuierliche Redefluss eine Person 1 wird z.B. von einem Mikrofon eines Telefons angenommen und als analoges Signal einem Spracherkenner 2 zugeführt. Dort wird das analoge Sprachsignal in ein digitales Sprachsignal 3 umgewandelt. Das Sprachsignal enthält eine Vielzahl von Triphonen, d.h. Lautsegmenten, die im Spracherkenner 2 mit vorhandenen, d.h. vorgegebenen Triphon-Verknüpfungsregeln abgeglichen werden. Die vorhandenen Triphone sind in einer Datenbasis abgespeichert, die ein oder mehrere Lautwörterbücher enthält. Die erkannten Triphone liegen dann als eine Triphon-Kette 4 vor, z.B. „pro", „rot", „ote", „tel".Figure 1 shows the first step of speech recognition: the triphone analysis. The continuous flow of speech of a person 1 is e.g. accepted by a microphone of a telephone and fed to a speech recognizer 2 as an analog signal. There, the analog voice signal is converted into a digital voice signal 3. The speech signal contains a variety of triphones, i.e. Sound segments that in speech recognizer 2 with existing, i.e. Predefined triphon linking rules are compared. The existing triphones are stored in a database which contains one or more phonebooks. The recognized triphones are then present as a triphone chain 4, e.g. "Pro", "red", "ote", "tel".
In einem zweiten Schritt gemäß Figur 2 werden aus den erkannten Triphonen sinnvolle Wörter gebildet. Dazu wird die vorhandene Triphon-Kette 4 mit in einem weiteren Lautwörterbuch 5 abgespeicherten, vorgegebenen Wörtern 6, z.B. „profi", „portal", „protel", „hotel", verglichen. Das Lautwörterbuch 5 kann einen bestimmten Wortschatz aus der Umgangssprache sowie einen auf die jeweilige Anwendung zugeschnittenen, speziellen Wortschatz umfassen. Stimmen die erkannten Triphone, z.B. „pro" und „tel", mit den in einem Wort, z.B. „protel", enthaltenen Triphonen überein, wird das entsprechende Wort 7 als solches erkannt: „protel".In a second step according to FIG. 2, useful words are formed from the recognized triphones. For this purpose, the existing triphone chain 4 with predetermined words 6 stored in a further phonebook 5, e.g. "Professional", "portal", "protel", "hotel". The phonetic dictionary 5 can comprise a certain vocabulary from the colloquial language as well as a special vocabulary tailored to the respective application. Are the recognized triphones true, e.g. "Pro" and "tel", with those in one word, e.g. "Protel", contained triphones, the corresponding word 7 is recognized as such: "protel".
Im nächsten Schritt, dargestellt in Figur 3, erfolgt die syntaktische Rekonstruktion der erkannten Wörter 7 mit Hilfe der Grammar 8. Dazu werden die erkannten Wörter ihren Wortartkategorien, wie Nomen, Verb, Adverb, Artikel, Adjektiv, etc. zugeordnet, wie dies in Figur 6 dargestellt ist. Dies erfolgt anhand von in Wortartkategorien unterteilten Datenbasen. Wie man in Figur 5 erkennt, können die Datenbasen 9-15 sowohl die oben erwähnten, herkömmlichen Wortartkategorien als auch spezielle Wortartkategorien, wie z.B. Ja/Nein Grammtik 9, Telefonnummern 14, 15, enthalten. Zudem kann eine Erkennung von DTMF-Eingaben 16 vorgesehen sein. Die beschriebene Zuordnung der Wortartkategorie zu den erkannten Worten kann bereits während des Worterkennungsprozesses erfolgen.In the next step, shown in FIG. 3, the recognized words 7 are reconstructed using the grammar 8. For this purpose, the recognized words are assigned to their part of speech, such as noun, verb, adverb, article, adjective, etc., as shown in FIG 6 is shown. This is done using databases that are divided into parts of speech. As can be seen in FIG. 5, the databases 9-15 can contain both the conventional part of speech categories mentioned above and special part of speech types, such as yes / no grammar 9, telephone numbers 14, 15. A detection of DTMF inputs 16 can also be provided. The described assignment of the part of speech type to the recognized words can already take place during the word recognition process.
Im nächsten Schritt (Schritt 17) werden die erkannten Wörter anhand ihrer Wortkategorien einer VerbalPhrase, d.h. einer auf einem Verb basierenden Phrase, und einer NominalPhrase, d.h. einer auf einem Nomen basierenden Phrase, zugeordnet, vgl. Figur 6.In the next step (step 17) the recognized words are based on their word categories of a verbal phrase, i.e. a verb-based phrase, and a nominal phrase, i.e. assigned to a phrase based on a noun, cf. Figure 6.
Danach werden die NomialPhrasen und VerbalPhrasen nach phrasenstrukturellen Gesichtspunkten in Objekten zusammengeführt. In Schritt 18 werden die Objekte für das Multitasking mit der entsprechenden sprachgesteuerten Anwendung verknüpft.Then the nominal phrases and verbal phrases are merged into objects according to phrase-structural aspects. In step 18, the objects for multitasking are linked to the corresponding voice-controlled application.
Jedes Objekt 19 umfasst einen in der Grammar 8 hinterlegten Zielsatz, genauer gesagt ein Satzmodell. Aus Figur 4 geht hervor, dass ein solches Satzmodell z.B. durch eine Wortreihenfolge „Subjekt, Verb, Objekt" oder „Objekt, Verb, Subjekt" definiert sein kann. Viele andere Satzbaustrukturen sind in dieser allgemeinen Form in der Grammar 8 hinterlegt. Entsprechen die Wortkategorien der erkannten Wörter 7 der Reihenfolge eines der vorgegebenen Satzmodelle, so werden sie dem zugehörigen Objekt zugeordnet. Der Satz gilt als erkannt. Anders ausgedrückt umfasst jedes Satzmodell eine Anzahl von den verschiedenen Wortkategorien zugeordneten Variablen, die mit den entsprechenden Wortkategorien der erkannten Wörter 7 gefüllt werden.Each object 19 comprises a target sentence stored in the grammar 8, more precisely a sentence model. From Figure 4 it can be seen that such a sentence model e.g. can be defined by a word order "subject, verb, object" or "object, verb, subject". Many other sentence structures are stored in this general form in Grammar 8. If the word categories of the recognized words 7 correspond to the order of one of the predefined sentence models, they are assigned to the associated object. The sentence is considered recognized. In other words, each sentence model comprises a number of variables assigned to the different word categories, which are filled with the corresponding word categories of the recognized words 7.
Das Verfahren bedient sich der traditionellen Grammar Specification Language (GSL), strukturiert die hinterlegten Sätze jedoch in innovativer Weise. Dabei orientiert sie sich an den Regeln der Phrasenstrukturgrammatik und am Konzept einer Generativen Transformationsgrammatik.The procedure uses the traditional Grammar Specification Language (GSL), but structures the stored sentences in an innovative way. It is based on the rules of phrase structure grammar and the concept of a generative transformation grammar.
Durch die konsequente Anwendung der dort beschriebenen Tiefenstrukturen eines Satzes, insbesondere der Unterscheidung von Nominalphrasen und Verbalphrasen, steht sie der Satzkonstitution der natürlichen Sprache sehr viel näher als die bislang vorherrschenden intuitiven Grammarkonzepte. Die GT/PS-Grammar basiert somit auf einer theoretischen Modellbildung, die geeignet ist, die abstrakten Prinzipien natürlichsprachlicher Äußerungen zu ermitteln. Auf dem Gebiet moderner Spracherkennungssysteme eröffnet sie erstmals die Möglichkeit, die Abstraktion von Satzbildungsregeln gleichsam umzukehren und als Vorhersage der Äußerungen von Applikationsnutzern zu konkretisieren. Damit wird ein systematischer Zugriff auf Spracherkennungs-Grammars möglich, die bislang stets auf der intuitiven Akkumulation von Beispielsätzen beruhten.Through the consistent application of the deep structures of a sentence described there, in particular the distinction between noun phrases and verb phrases, it is much closer to the sentence constitution of natural language than the intuitive grammar concepts that have prevailed so far. The GT / PS grammar is therefore based on a theoretical model that is suitable for determining the abstract principles of natural language utterances. In the field of modern speech recognition systems, it opens up the possibility for the first time to reverse the abstraction of sentence formation rules and to substantiate them as a prediction of the statements made by application users. This enables systematic access to speech recognition grammars that have always been based on the intuitive accumulation of example sentences.
Ein zentrales Merkmal herkömmlicher und GT/PS-Grammars ist die hierarchische Verschachtelung in sogenannte Subgrammars, die einzelne Worte wie Variablen auf der höchsten Ebene zu einem ganzen Satz zusammensetzen. Die GT/PS-Grammar ist in diesem Punkt sehr viel kleiner und hierarchisch viel übersichtlicher als die bisher bekannten Grammars. Im Unterschied zu herkömmlichen Grammars sind in der neuen Grammar fast ausschließlich „sinnvolle" Sätze hinterlegt, so dass das Maß an Overgeneration, d.h. hinterlegte Sätze, die im natürlichsprachlichen Sinne falsch sind, sinkt. Dies ist wiederum die Voraussetzung für eine verbesserte Erkennerleistung, da die Applikation nur zwischen wenigen hinterlegten Alternativen wählen muss. A central feature of conventional and GT / PS grammars is the hierarchical nesting into so-called subgrammars, which combine individual words and variables at the highest level to form an entire sentence. The GT / PS grammar is much smaller and hierarchically much clearer than the previously known grammars. In contrast to conventional grammars, "meaningful" sentences are almost exclusively stored in the new grammar, so that the degree of overgeneration, ie stored sentences that are incorrect in the natural language sense, decreases. This, in turn, is the prerequisite for improved recognition performance, since the Application only has to choose between a few stored alternatives.

Claims

Patentansprüche claims
1. Verfahren zur natürlichen Spracherkennung auf Basis einer Generative Transformations-/Phrasenstruktur-Grammatik, gekennzeichnet durch die Schritte:1. Method for natural speech recognition based on a generative transformation / phrase structure grammar, characterized by the steps:
- Analyse einer gesprochenen Phrase auf darin enthaltene Triphone;- Analysis of a spoken phrase for triphones contained therein;
- Bildung von in der gesprochenen Phrase enthaltenen Wörtern aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries); und- Formation of words contained in the spoken phrase from the recognized triphones with the help of phonetic word databases (dictionaries); and
- Syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten Wörtern unter Verwendung eines grammatischen Regelwerks (Grammar).- Syntactic reconstruction of the spoken phrase from the recognized words using a grammatical set of rules (grammar).
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die syntaktische Rekonstruktion der gesprochenen Phrase die Schritte umfasst:2. The method according to claim 1, characterized in that the syntactic reconstruction of the spoken phrase comprises the steps:
- Zuordnung der erkannten Wörter zu Wortartenkategorien (Verb, Nomen etc.)- Assignment of the recognized words to part of speech categories (verb, noun etc.)
- Zuordnung der Wortartenkategorien zu Nominalphrasen und Verbalphrasen;- Assignment of part of speech types to noun phrases and verb phrases;
- Zusammenführung der Nominalphrasen und Verbalphrasen nach syntaktischen Regeln in Objekten unter Vorgabe verschiedene Satzmodelle, wobei die erkannten Wortfolgen mit den vorgegebenen Satzmodellen verglichen werden, wobei im Fall einer Übereinstimmung der Satz als erkannt gilt und eine Aktion in einer sprachgesteuerten Applikation auslöst.- Merging the nominal phrases and verbal phrases according to syntactic rules in objects using different sentence models, whereby the recognized word sequences are compared with the given sentence models, whereby in the event of a match, the sentence is considered recognized and an action is triggered in a voice-controlled application.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass jedes Satzmodell eine Anzahl von Wortkategorien zugeordneten Variablen aufweisen, die mit den entsprechenden Wortkategorien der erkannten Wörter gefüllt werden.3. The method according to any one of claims 1 or 2, characterized in that each sentence model have a number of variables assigned to word categories, which are filled with the corresponding word categories of the recognized words.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die zu erkennenden Worte in verschiedene Wortkategorien untergliedert in den4. The method according to any one of claims 1 to 3, characterized in that the words to be recognized are divided into different word categories in the
Wortdatenbasen vorgehalten werden. Verfahren nach eine der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Objekte oder Teile davon mit entsprechenden Aktionsparametern einer sprachgesteuerten Applikation verknüpft werden. Word databases are kept. Method according to one of claims 1 to 4, characterized in that the objects or parts thereof are linked to corresponding action parameters of a voice-controlled application.
EP03761435A 2002-06-28 2003-06-26 Method for natural voice recognition based on a generative transformation/phrase structure grammar Ceased EP1518221A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10229207 2002-06-28
DE10229207A DE10229207B3 (en) 2002-06-28 2002-06-28 Process for natural speech recognition based on a generative transformation / phrase structure grammar
PCT/DE2003/002135 WO2004003888A1 (en) 2002-06-28 2003-06-26 Method for natural voice recognition based on a generative transformation/phrase structure grammar

Publications (1)

Publication Number Publication Date
EP1518221A1 true EP1518221A1 (en) 2005-03-30

Family

ID=29795990

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03761435A Ceased EP1518221A1 (en) 2002-06-28 2003-06-26 Method for natural voice recognition based on a generative transformation/phrase structure grammar

Country Status (10)

Country Link
US (1) US7548857B2 (en)
EP (1) EP1518221A1 (en)
JP (1) JP4649207B2 (en)
CN (1) CN1315109C (en)
AU (1) AU2003250272A1 (en)
CA (1) CA2493429C (en)
DE (1) DE10229207B3 (en)
IL (1) IL165957A (en)
PL (1) PL373306A1 (en)
WO (1) WO2004003888A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295981B1 (en) * 2004-01-09 2007-11-13 At&T Corp. Method for building a natural language understanding model for a spoken dialog system
GB0517082D0 (en) 2005-08-19 2005-09-28 Univ City Hong Kong Auxiliary winding for improved performance of a planar inductive charging platform
EP2141692A1 (en) 2008-06-26 2010-01-06 Deutsche Telekom AG Automated speech-controlled support of a user
KR101195812B1 (en) * 2010-07-08 2012-11-05 뷰모션 (주) Voice recognition system and method using rule-based-system
US9817813B2 (en) * 2014-01-08 2017-11-14 Genesys Telecommunications Laboratories, Inc. Generalized phrases in automatic speech recognition systems
CN110164449B (en) * 2019-04-26 2021-09-24 安徽美博智能科技有限公司 Voice recognition air conditioner control method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998009228A1 (en) * 1996-08-29 1998-03-05 Bcl Computers, Inc. Natural-language speech control

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743B1 (en) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Speech recognition system
EP0590173A1 (en) * 1992-09-28 1994-04-06 International Business Machines Corporation Computer system for speech recognition
JPH0769710B2 (en) * 1993-03-23 1995-07-31 株式会社エイ・ティ・アール自動翻訳電話研究所 Natural language analysis method
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
JP2950823B1 (en) * 1998-09-29 1999-09-20 株式会社エイ・ティ・アール音声翻訳通信研究所 Speech recognition error correction device
JP3581044B2 (en) * 1999-05-20 2004-10-27 株式会社東芝 Spoken dialogue processing method, spoken dialogue processing system, and storage medium storing program
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
DE10032255A1 (en) * 2000-07-03 2002-01-31 Siemens Ag Speech analysis method
US7058567B2 (en) * 2001-10-10 2006-06-06 Xerox Corporation Natural language parser

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998009228A1 (en) * 1996-08-29 1998-03-05 Bcl Computers, Inc. Natural-language speech control

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FRÉDÉRIC BÉCHET ET AL: "LARGE SPAN STATISTICAL LANGUAGE MODELS : APPLICATION TO HOMOPHONE DISAMBIGUATION FOR LARGE VOCABULARY SPEECH RECOGNITION IN FRENCH", CONFERENCE PROCEEDINGS ON CD-ROM, EUROSPEECH'99, 6TH EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY,, vol. 4, 5 September 1999 (1999-09-05) - 9 September 1999 (1999-09-09), Budapest, Hungary, pages 1763, XP007001340, ISSN: 1018-4074 *
I. ZITOUNI, K. SMAÏLI, J.P. HATON: "STATISTICAL LANGUAGE MODEL BASEDON A HIERARCHICAL APPROACH:MC", 7TH EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY, AALBORG, DENMARK, 2001, 7 September 2001 (2001-09-07), Aalborg, Denmark, 2001, Retrieved from the Internet <URL:http://www.loria.fr/%7Esmaili/Euro01.pdf> [retrieved on 20110204] *
IMED ZITOUNI: "Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires : application à MAUD", DISSERTATION, 31 March 2000 (2000-03-31), UNIVERSITÉ HENRI POINCARÉ - NANCY, XP055005773, Retrieved from the Internet <URL:http://www.afcp-parole.org/doc/theses/theseIZ00.ps.gz> [retrieved on 20110204] *
IMED ZITOUNI: "Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires : application à MAUD", DISSERTATION, 7 September 2001 (2001-09-07), UNIVERSITÉ HENRI POINCARÉ - NANCY, pages 1 - 188, XP055005773 *
IMED ZITOUNI: "Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires : application à MAUD", RESUMES DE THESES, INFORMATION IN COGNITO, vol. 20, 31 December 2001 (2001-12-31), nancy, Retrieved from the Internet <URL:http://www.in-cognito.net/new/images/article/zitouni20.pdf> [retrieved on 20110204] *
M. HASPELMATH: "Word classes and parts of speech", 31 December 2001 (2001-12-31), pages 16538 - 16545, ISBN: 0-08-043076-7, Retrieved from the Internet <URL:www.eva.mpg.de/~haspelmt/2001wcl.pdf> [retrieved on 20110204] *
See also references of WO2004003888A1 *

Also Published As

Publication number Publication date
PL373306A1 (en) 2005-08-22
IL165957A0 (en) 2006-01-15
CN1315109C (en) 2007-05-09
US20060161436A1 (en) 2006-07-20
DE10229207B3 (en) 2004-02-05
US7548857B2 (en) 2009-06-16
IL165957A (en) 2010-11-30
JP4649207B2 (en) 2011-03-09
CA2493429C (en) 2011-09-13
JP2005539249A (en) 2005-12-22
AU2003250272A1 (en) 2004-01-19
CN1666254A (en) 2005-09-07
WO2004003888A1 (en) 2004-01-08
CA2493429A1 (en) 2004-01-08
WO2004003888B1 (en) 2004-03-25

Similar Documents

Publication Publication Date Title
DE69923191T2 (en) INTERACTIVE USER INTERFACE WITH LANGUAGE RECOGNITION AND NATURAL LANGUAGE PROCESSING SYSTEM
DE602005001125T2 (en) Learn the pronunciation of new words using a pronunciation graph
DE69937176T2 (en) Segmentation method to extend the active vocabulary of speech recognizers
DE69822296T2 (en) PATTERN RECOGNITION IN A DISTRIBUTED SYSTEM
DE69829235T2 (en) Registration for speech recognition
EP1466317B1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
DE69834553T2 (en) ADVANCED VOICE RECOGNITION SYSTEM WITH AN AUDIO FEEDBACK
DE69923379T2 (en) Non-interactive registration for speech recognition
DE60222093T2 (en) METHOD, MODULE, DEVICE AND VOICE RECOGNITION SERVER
DE60016722T2 (en) Speech recognition in two passes with restriction of the active vocabulary
DE69914131T2 (en) Position handling in speech recognition
DE60123952T2 (en) GENERATION OF A UNIFORM TASK DEPENDENT LANGUAGE MODEL THROUGH INFORMATION DISCUSSION PROCESS
DE60318544T2 (en) Language model for speech recognition
DE60026637T2 (en) Method for expanding the vocabulary of a speech recognition system
EP1611568B1 (en) Three-stage word recognition
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
EP0804788B1 (en) Speech recognition process
DE102006036338A1 (en) Method for generating a context-based speech dialog output in a speech dialogue system
DE60026366T2 (en) SPEECH RECOGNITION WITH A COMPLEMENTARY LANGUAGE MODEL FOR TYPICAL ERRORS IN THE LANGUAGE DIALOGUE
WO2000005709A1 (en) Method and device for recognizing predetermined key words in spoken language
EP1187440A2 (en) Spoken dialogue system
DE10229207B3 (en) Process for natural speech recognition based on a generative transformation / phrase structure grammar
EP2034472B1 (en) Speech recognition method and device
DE10014337A1 (en) Generating speech model involves successively reducing body of text on text data in user-specific second body of text, generating values of speech model using reduced first body of text
DE69723449T2 (en) METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20041216

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20110902

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20130920