DE10229207B3 - Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik - Google Patents
Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik Download PDFInfo
- Publication number
- DE10229207B3 DE10229207B3 DE10229207A DE10229207A DE10229207B3 DE 10229207 B3 DE10229207 B3 DE 10229207B3 DE 10229207 A DE10229207 A DE 10229207A DE 10229207 A DE10229207 A DE 10229207A DE 10229207 B3 DE10229207 B3 DE 10229207B3
- Authority
- DE
- Germany
- Prior art keywords
- grammar
- recognized
- words
- phrase
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009466 transformation Effects 0.000 title claims abstract description 7
- 230000008569 process Effects 0.000 title claims description 10
- 230000009471 action Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 6
- 241000282312 Proteles Species 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001136792 Alle Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik, die GT-/PS-Grammar. DOLLAR A Erfindungsgemäß erfolgt eine Analyse einer gesprochenen Phrase auf darin enthaltene Triphone, eine Bildung von in der gesprochenen Phrase enthaltenen Wörtern aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries) und eine syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten Wörtern unter Verwendung eines grammatischen Regelwerks (Grammar). DOLLAR A Die GT-/PS-Grammar ist ein neuartiges Verfahren, Zielsätze in der Grammar zu hinterlegen. Sie bedient sich der traditionellen Grammar Specification Language (GSL), strukturiert die hinterlegten Sätzes jedoch in innovativer Weise. Dabei orientiert sie sich an den Regeln der Phrasenstrukturgrammatik und an Noam Chomskys Konzept einer Generativen Transformationsgrammatik.
Description
- Die Erfindung betrifft ein Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik (GT/PS-Grammar).
- Aktuelle Spracherkennungssysteme mit natürlicher Spracherkennung (NLU = Natura) Language Understanding) sind in der Lage, eine Vielzahl möglicher Äußerungen zu verstehen und in komplexe Befehlsstrukturen umzusetzen, die Spracherkennungssysteme, z.B. Computer, zu bestimmten Aktionen veranlassen. Sie tun dies auf der Grundlage vorab definierter sinnvoller Mustersätze, die von Applikationsentwicklern und sogenannten Dialog-Designern festgelegt werden. Diese Sammlung von Mustersätzen – auch „Grammar" genannt – umfasst einzelne Kommandoworte ebenso wie komplizierte Schachtelsätze, die an einer bestimmten Stelle des Dialogs sinnvoll sind. Äußert der Nutzer einen solchen Satz, wird er vom System mit großer Sicherheit verstanden und die mit ihm verknüpfte Handlungsanweisung wird ausgeführt.
- Bei der Programmierung einer Erkennungsapplikation, z.B. einer NLU-Telefonapplikation, ist die Grammar also ein unverzichtbarer Baustein. Sie wird mit Hilfe eines speziellen Werkzeugs, der sogenannten Grammar Specification Language (GSL) erzeugt. Mit ihr werden die zu verstehenden Worte sowie ihre Verknüpfungen vorab reproduziert und für den Spracherkenner festgeschrieben. Die vorgegebenen Sätze werden dabei aus Wortkombinationen gebildet, die untereinander austauschbar (paradigmatische Achse) und miteinander kombinierbar (syntagmatische Achse) sind. Ein Beispiel hierfür ist in
7 dargestellt. - Die möglichen Äußerungen ergeben sich aus der syntagmatischen Verknüpfung der paradigmatischen Wortkombinationen. Dass dabei auch Sätze möglich werden, die grammatisch falsch sind, wie z.B. „Würden Sie vielleicht Telly-Tarif ersetzen?" muss in Kauf genommen werden, um das Antwortenspektrum möglichst groß zu halten. Diese sogenannte „Overgeneration", das heißt z.B. das Vorhalten bzw. Erkennen von unsinnigen Mustersätzen oder Ausdrücken mit dem selben Sinngehalt sollte jedoch gering gehalten werden, denn sie beansprucht beträchtliche Systemressourcen und setzt gleichzeitig die Erkennungsleistung herab, weil das System jede Nutzeräußerung mit einer Fülle vorgegebener Satzkombination vergleichen muss, die kaum jemals geäußert werden.
- In der bisher üblichen Praxis wurden die paradigmatischen Wortkombinationen in einer Weise festgelegt, die scheinbar Zusammengehöriges verbindet. Dabei wurde von der bedeutungstragenden Qualität der Worte ausgegangen. Dieses Verfahren, das von einem mutmaßlichen Erfolgssatz ausgeht, entspricht durchaus den Erfordernissen einfacher Applikationen und führt hier zu zufriedenstellenden Ergebnissen. Bei komplexen Anwendungen, mit einer Fülle sinnvoller Antwortmöglichkeiten hingegen, werden diese herkömmlichen Grammatiken so groß, dass sie selbst die Rechenkapazität gegenwärtiger Hochleistungsserver bis an die Grenze belasten. Die Folgen sind:
- – Stark vermehrte Overgeneration
- – Spürbare Verzögerungen bei der Erkennung (Latency)
- – Sinkende Erkennungssicherheit (Accuracy).
- – Abgesenkte Systemstabilität (Robustness)
- Der Hauptmangel dieser Methode besteht darin, dass die spezifizierten Sätze lediglich einer oberflächlichen Kombinatorik folgen. Die erzeugte Overgeneration ist deshalb so groß, weil die scheinbar zusammengehörigen Elemente tatsächlich anderen Kombinationsregeln folgen, die in der Sprächwissenschäft seit längerem bekannt sind.
- Zusammenfassend wird festgehalten, dass die derzeit verbreiteten Grammars, die festlegen, welche Sätze von einem ASR-System erkannt werden, traditionellen grammatischen Konventionen folgen, die natürlich-sprachliche Äußerungen unzureichend strukturiert abbilden. Dabei wurde bislang nicht von einer Differenzierung von „Oberflächen-„ bzw. „Tiefenstrukturen" ausgegangen. Die linguistische Hypothese besagt, dass eine syntaktische Tiefenstruktur und deren „generative Umsetzung" hin zu konkreten Oberflächenstrukturen die Leistungsfähigkeit eines Sprachsystems ausmacht. Wird bei steigender Komplexität ausschließlich die bisher eingesetzte Oberflächenstruktur verwendet, muss diese, um ihrer Aufgabe dennoch gerecht zu werden, so groß dimensioniert sein, dass sie im Betrieb kaum noch vernünftig gepflegt werden kann und die Server bis an die Grenzen ihrer Kapazität belastet.
- Die
EP 0 590 173 A1 beschreibt ein Verfahren zur Automatisierung von Lautwörterbüchern (Dictionaries) als Grundlage natürlicher Spracherkennung. Zielsetzung ist die vollautomatische Erfassung unbekannter Lautfolgen und deren systematische Übertragung in ein Lautwörterbuch. Auf der Grundlage der Triphon-Erkennung wird die Transposition von erkannten Phonemen über leafemische bis zu fenemischen Grundformen beschrieben. Mit Hilfe dieses Verfahrens können Triphone-Tabellen mit einer sehr großen Anzahl von Eintragungen, die großen Speicherbedarf haben, vermieden werden. Das bekannte Verfahren befasst sich ausschließlich mit dem Problem der Lautumschrift, die in den Dictionaries abgehandelt wird und greift an keiner Stelle auf die Regeln syntaktischer Wortverkettungen aus, wie sie in der vorliegenden Erfindung beschrieben ist. - Die
DE 37 86 822 T2 beschreibt eine Methode zur Verbesserung von Spracherkennungsprozessen im Rahmen einer natürlichsprachlichen Worterkennung. Das primäre Ziel dieses Verfahrens besteht darin, Teilsätze und Komplettsätze innerhalb eines kontinuierlichen Redeflusses abzugrenzen, um die Erkennungswahrscheinlichkeit zu steigern. Es basiert auf der Analyse von realen Sprechpausen, die mit den in einer Grammatik hinterlegten Teil-Satzhypothesen bzw. Komplett-Satzhypothesen verglichen werden. Bei diesem Vergleich kann es zu zwei Formen von Nichtübereinstimmung kommen: Der Überlappungsfehler, bei dem der Erkenner keine Sprachenergie registriert, obwohl laut Grammatik gesprochen werden sollte, und der Lückenfehler, bei dem eine hypothetische Sprachpause durch reale Sprachenergie gefüllt wird. Beiden Fehlergruppen werden bestimmte Fehlerwerte zugeordnet, die für verschiedene Teil-Satzhypothesen addiert werden. Wenn der Gesamtsatzfehler einen vorab gesetzten Schwellenwert überschreitet, wird die Satzhypothese zurückgewiesen". Dieses Verfahren beruht auf einer Wort-für-Wort Sukzession, bei der nach jedem erkannten Wort darüber entschieden wird, ob ein hypothetisch angenommenes Wort eine gültige Fortsetzung einer bisher erzeugten Teil-Satzhypothese ist. - Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik anzugeben, das im Vergleich zu herkömmlichen Erkennungsverfahren weniger Systemressourcen benötigt und dadurch eine sichere und schnelle Erkennung von Sprache bei gleichzeitiger Verringerung der Overgeneration ermöglicht.
- Diese Aufgabe wird erfindungsgemäß durch die Merkmale des Patentanspruchs 1 gelöst.
- Dabei erfolgt eine Analyse einer gesprochenen Phrase auf darin enthaltene Triphone, eine Bildung von in der gesprochenen Phrase enthaltenen Wörtern aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries) und eine syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten Wörtern unter Verwendung eines grammattischen Regelwerks (Grammar).
- Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Merkmalen der Unteransprüche.
- Besonders markant ist der Gegensatz zwischen dem erfindungsgemäßen Verfahren und der traditionellen Grammar Specification Language, die bei kleinen Applikationen auch mit syntaktischen Oberflächen, d.h. konkretes Ausformulieren von Erfolgssätzen, gute Resultate erzielte.
- Beim Anmeldungsgegenstand werden die Verknüpfungsregeln grammatischer Sätze nicht an der Oberfläche reproduziert, sondern die Tiefenstrukturen aufgezeigt, denen die syntagmatischen Verknüpfungen aller indogermanischen Sprachen folgen. Jeder Satz wird anhand eines syntaktischen Modells in Form von sogenannten Strukturbäumen beschrieben.
- Die GT/PS-Grammar orientiert sich nicht an den potenziellen Äußerungen einer spezifischen Applikation, sondern an der Tiefenstruktur der Syntax (Satzbildungsregeln) indogermanischer Sprachen. Sie liefert ein Gerüst, das mit verschiedenen Worten gefüllt werden kann und die Realität der gesprochenen Sprache besser abbildet, als das bisher praktizierte „mimetische" Verfahren.
- Innerhalb der durch die Strukturbäume beschriebenen Tiefenstrukturen wird erkennbar, dass sich bestimmte Phrasen innerhalb eines Satzes wiederholen. Solche Wiederholungen können mit Hilfe der GSL reproduziert und aufgefangen werden. Dadurch sinkt nicht nur der Umfang einer Grammar erheblich, sondern auch die Overgeneration von grammatisch inkorrekten Sätzen sinkt beträchtlich.
- Während in der traditionellen GSL-Grammar z.B. rund 500 Subgrammars in sieben hierarchischen Ebenen miteinander verflochten sind, kann die Anzahl der Subgrammars im GT/PS-Modell auf z.B. 30 Subgrammars in nur zwei hierarchischen Ebenen reduziert werden.
- Der neue Grammartyp bildet natürlich-sprachliche Äußerungen in strukturierter Form ab und hat dabei z.B. nur rund 25% der Größe der bisherigen Grammar. Aufgrund ihrer geringen Größe ist diese Grammar einfacher zu pflegen, wobei die Zeiten für Kompilierung rapide sinken. Aufgrund ihrer geringen Größe steigt die Erkennungssicherheit (Accuracy) und sinkt die Erkennungsverzögerung (Latency). Die aktuellen Rechnerkapazitäten werden besser ausgenutzt und die Performance der Server steigt. Darüber hinaus ist die neue Grammar nicht auf eine bestimmte Applikation bezogen, sondern kann in ihren Grundstrukturen für unterschiedliche Anwendungen. verwendet werden, wodurch die Homogenität der Systeme gesteigert und die Entwicklungszeiten reduziert werden.
- Der universale Code der Tiefenstruktur ermöglicht den Einsatz und die Wertschöpfung für multilinguale Sprachsysteme in einer bislang nicht erreichten Dimension, besonders die westeuropäischen Standardsprachen können mit vergleichsweise geringem Aufwand verarbeitet werden.
- Im Unterschied zur bisherigen Grammar für natürlich-sprachliche Dialogapplikationen basiert die neue GT/PS Grammar auf aktuellen sprachwissenschaftlichen Modellen, die natürlich-sprachliche Äußerungen im Rahmen von Oberflächen- und Tiefenstrukturen abbilden. Die abstrakten Strukturmuster werden mit einer Grammar Specification Language (GSL) in ein hierarchisch verschachteltes und vernetztes Regelwerk übertragen, dessen Strukturen in der beiden Anlagen abgebildet sind.
- Die technischen Vorzüge der GT/PS-Grammar sind damit:
- – Die GT/PS-Grammar ist sehr viel kleiner als die bisherige Grammar, weil sie statt der bisher bis zu sieben Subgrammarlevels nur noch mit zwei Ebenen auskommt;
- – Die Zahl der von der Grammar abgedeckten aber grammatisch falschen Sätze (Overgeneration) sinkt drastisch;
- – Sie benötigt nur noch rund ein Drittel der bislang verwendeten Slots;
- – Sie füllt entgegen der heutigen Spracherkenner-Philosophie die Slots in den unteren Grammar-Ebenen, statt in den oberen;
- – Sie nutzt das von der GSL (Grammar Specification Language) bereit gestellte Instrument, Slotwerte in höhere Grammarlevels hoch zu reichen, konsequent aus;
- – Sie besitzt einen neuen Slot mit der Bezeichnung ACTION, der nur noch mit den Werten GET und KILL gefüllt werden kann;
- – sie arbeitet mit ineinander verschachtelten Slots, die hochgradig multitaskingfähig sind.
- – Sie führt zu einer Verbesserung der Erkennerleistung
- – Sie ermöglicht eine vereinfachte Option zur Einführung mehrsprachiger Applikationen
- – Sie weist eine nahtlose Integrationsfähigkeit in Nuance Technologie auf
- Die wirtschaftlichen Vorzüge der PSG sind:
- – Verringerung der Hardwarekosten durch bessere Ausnutzung der Systemressourcen
- – Verringerung der Übertragungszeiten durch leistungsfähigere Erkennung
- – Einsparung von Personalressourcen durch leichtere Pflegbarkeit
- – Größere Kundenzufriedenheit
- – Anwendbar auf alle Weltsprachen (Englisch bis Chinesisch)
- Nachfolgend wird die Erfindung anhand eines vereinfachten Ausführungsbeispiels unter Bezugnahme auf die Zeichnungen näher erläutert. Aus den Zeichnungen und deren Beschreibung ergeben sich weitere Merkmale, Vorteile und Anwendungsmöglichkeiten der Erfindung.
- Es zeigt.
-
1 : Eine Triphonanalyse als ersten Schritt im Erkennungsprozess; -
2 : Eine Worterkennung aus den erkannten Triphonen als zweiten Schritt im Erkennungsprozess; -
3 ;: eine syntaktische Rekonstruktion der erkannten Wörter als dritten Schritt des Erkennungsprozesses; -
4 : Ein Beispiel für die Gliederung der erkannten Wörter irr Wortartenkategorien sowie in nominale und verbale Phrasen; -
5 : Ein Programmbeispiel für eine mögliche Grammar; -
6 : Eine Übersicht über die Struktur einer PSG Grammar; -
7 : Ein Beispiel für eine Bildung von Wortkombinationen bei einer Grammar nach den Stand der Technik. -
1 zeigt den ersten Schritt einer Spracherkennung: die Triphonanalyse. Der kontinuierliche Redefluss eine Person1 wird z.B. von einem Mikrofon eines Telefons angenommen und als analoges Signal einem Spracherkenner2 zugeführt. Dort wird das analoge Sprachsignal in ein digitales Sprachsignal3 umgewandelt. Das Sprachsignal enthält eine Vielzahl von Triphonen, d.h. Lautsegmenten, die im Spracherkenner2 mit vorhandenen, d.h. vorgegebenen Triphon-Verknüpfungsregeln abgeglichen werden. Die vorhandenen Triphone sind in einer Datenbasis abgespeichert, die ein oder mehrere Lautwörterbücher enthält. Die erkannten Triphone liegen dann als eine Triphon-Kette4 vor, z.B. „pro", „rot", „ote", „tel". - In einem zweiten Schritt gemäß
2 werden aus den erkannten Triphonen sinnvolle Wörter gebildet. Dazu wird die vorhandene Triphon-Kette4 mit in einem weiteren Lautwörterbuch5 abgespeicherten, vorgegebenen Wörtern6 , z.B. „profi", „portal", „protel", „hotel", verglichen. Das Lautwörterbuch5 kann einen bestimmten Wortschatz aus der Umgangssprache sowie einen auf die jeweilige Anwendung zugeschnittenen, speziellen Wortschatz umfassen. Stimmen die erkannten Triphone, z.B. „pro" und „tel", mit den in einem Wort, z.B. „protel", enthaltenen Triphonen überein, wird das entsprechende Wort7 als solches erkannt: „protel". - Im nächsten Schritt, dargestellt in
3 , erfolgt die syntaktische Rekonstruktion der erkannten Wörter7 mit Hilfe der Grammar B. Dazu werden die erkannten Wörter ihren Wortartkategorien, wie Nomen, Verb, Adverb, Artikel, Adjektiv, etc. zugeordnet, wie dies in6 dargestellt ist. Dies erfolgt anhand von in Wortartkategorien unterteilten Datenbasen. Wie man in5 erkennt, können die Datenbasen9–15 sowohl die oben erwähnten, herkömmlichen Wortartkategorien als auch spezielle Wortartkategorien, wie z.B. Ja/Nein Grammtik9 , Telefonnummern14 ,15 , enthalten. Zudem kann eine Erkennung von DTMF-Eingaben16 vorgesehen sein. - Die beschriebene Zuordnung der Wortartkategorie zu den erkannten Worten kann bereits während des Worterkennungsprozesses erfolgen.
- Im nächsten Schritt (Schritt 17) werden die erkannten Wörter anhand ihrer Wortkategorien einer VerbalPhrase, d.h. einer auf einem Verb basierenden Phrase, und einer NominalPhrase, d.h. einer auf einem Nomen basierenden Phrase, zugeordnet, vgl.
6 . - Danach werden die NomialPhrasen und VerbalPhrasen nach phrasenstrukturellen Gesichtspunkten in Objekten zusammengeführt.
- In Schritt 18 werden die Objekte für das Multitasking mit der entsprechenden sprachgesteuerten Anwendung verknüpft.
- Jedes Objekt
19 umfasst einen in der Grammar8 hinterlegten Zielsatz, genauer gesagt ein Satzmodell. Aus4 geht hervor, dass ein solches Satzmodell z.B. durch eine Wortreihenfolge „Subjekt, Verb, Objekt" oder „Objekt, Verb, Subjekt" definiert sein kann. Viele andere Satzbaustrukturen sind in dieser allgemeinen Form in der Grammar8 hinterlegt. Entsprechen die Wortkategorien der erkannten Wörter7 der Reihenfolge eines der vorgegebenen Satzmodelle, so werden sie dem zugehörigen Objekt zugeordnet. Der Satz gilt als erkannt. Anders ausgedrückt umfasst jedes Satzmodell eine Anzahl von den verschiedenen Wortkategorien zugeordneten Variablen, die mit den entsprechenden Wortkategorien der erkannten Wörter7 gefüllt werden. - Das Verfahren bedient sich der traditionellen Grammar Specification Language (GSL), strukturiert die hinterlegten Sätze jedoch in innovativer Weise. Dabei orientiert sie sich an den Regeln der Phrasenstrukturgrammatik und am Konzept einer Generativen Transformationsgrammatik.
- Durch die konsequente Anwendung der dort beschriebenen Tiefenstrukturen eines Satzes, insbesondere der Unterscheidung von Nominalphrasen und Verbalphrasen, steht sie der Satzkonstitution der natürlichen Sprache sehr viel näher als die bislang vorherrschenden intuitiven Grammarkonzepte.
- Die GT/PS-Grammar basiert somit auf einer theoretischen Modellbildung, die geeignet ist, die abstrakten Prinzipien natürlichsprachlicher Äußerungen zu ermitteln. Auf dem Gebiet moderner Spracherkennungssysteme eröffnet sie erstmals die Möglichkeit, die Abstraktion von Satzbildungsregeln gleichsam umzukehren und als Vorhersage der Äußerungen von Applikationsnutzem zu konkretisieren. Damit wird ein systematischer Zugriff auf Spracherkennungs-Grammars möglich, die bislang stets auf der intuitiven Akkumulation von Beispielsätzen beruhten.
- Ein zentrales Merkmal herkömmlicher und GT/PS-Grammars ist die hierarchische Verschachtelung in sogenannte Subgrammars, die einzelne Worte wie Variablen auf der höchsten Ebene zu einem ganzen Satz zusammensetzen. Die GT/PS-Grammar ist in diesem Punkt sehr viel kleiner und hierarchisch viel übersichtlicher als die bisher bekannten Grammars. Im Unterschied zu herkömmlichen Grammars sind in der neuen Grammar fast ausschließlich „sinnvolle" Sätze hinterlegt, so dass das Maß an Overgeneration, d.h. hinterlegte Sätze, die im natürlichsprachlichen Sinne falsch sind, sinkt. Dies ist wiederum die Voraussetzung für eine verbesserte Erkennerleistung, da die Applikation nur zwischen wenigen hinterlegten Alternativen wählen muss.
Claims (4)
- Verfahren zur natürlichen Spracherkennung auf Basis einer Generative Transformations-/Phrasenstruktur-Grammatik, mit den Schritten: – Analyse einer gesprochenen Phrase auf darin enthaltene Triphone; – Bildung von in der gesprochenen Phrase enthaltenen Wörtern aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries); und – Syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten Wörtern unter Verwendung eines grammatischen Regelwerks (Grammar), wobei die syntaktische Rekonstruktion der gesprochenen Phrase die Schritte umfasst: – Zuordnung der erkannten Wörter zu Wortartenkategorien (Verb, Nomen etc.) – Zuordnung der Wortartenkategorien zu Nominalphrasen und Verbalphrasen; – Zusammenführung der Nominalphrasen und Verbalphrasen nach syntaktischen Regeln in Objekten unter Vorgabe verschiedene Satzmodelle, wobei die erkannten Wortfolgen mit den vorgegebenen Satzmodellen verglichen werden, wobei im Fall einer Übereinstimmung der Satz als erkannt gilt und eine Aktion in einer sprachgesteuerten Applikation auslöst.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jedes Satzmodell eine Anzahl von Wortkategorien zugeordneten Variablen aufweisen, die mit den entsprechenden Wortkategorien der erkannten Wörter gefüllt werden.
- Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die zu erkennenden Worte in verschiedene Wortkategorien untergliedert in den Wortdatenbasen vorgehalten werden.
- Verfahren nach eine der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Objekte oder Teile davon mit entsprechenden Aktionsparametern einer sprachgesteuerten Applikation verknüpft werden.
Priority Applications (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10229207A DE10229207B3 (de) | 2002-06-28 | 2002-06-28 | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik |
CNB038152843A CN1315109C (zh) | 2002-06-28 | 2003-06-26 | 基于生成转换/短语结构语法的自然语音识别方法 |
CA2493429A CA2493429C (en) | 2002-06-28 | 2003-06-26 | Method for natural voice recognition based on a generative transformation/phrase structure grammar |
AU2003250272A AU2003250272A1 (en) | 2002-06-28 | 2003-06-26 | Method for natural voice recognition based on a generative transformation/phrase structure grammar |
EP03761435A EP1518221A1 (de) | 2002-06-28 | 2003-06-26 | Verfahren zur naturlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik |
PL03373306A PL373306A1 (en) | 2002-06-28 | 2003-06-26 | Method for natural voice recognition based on a generative transformation/phrase structure grammar |
PCT/DE2003/002135 WO2004003888A1 (de) | 2002-06-28 | 2003-06-26 | Verfahren zur natürlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik |
JP2004516499A JP4649207B2 (ja) | 2002-06-28 | 2003-06-26 | 生成変形句構造文法に基づいて自然言語認識をする方法 |
US10/519,653 US7548857B2 (en) | 2002-06-28 | 2003-06-26 | Method for natural voice recognition based on a generative transformation/phrase structure grammar |
IL165957A IL165957A (en) | 2002-06-28 | 2004-12-23 | Method for natural voice recognition based on a generative transformation/phrase structure grammar |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10229207A DE10229207B3 (de) | 2002-06-28 | 2002-06-28 | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10229207B3 true DE10229207B3 (de) | 2004-02-05 |
Family
ID=29795990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10229207A Expired - Lifetime DE10229207B3 (de) | 2002-06-28 | 2002-06-28 | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik |
Country Status (10)
Country | Link |
---|---|
US (1) | US7548857B2 (de) |
EP (1) | EP1518221A1 (de) |
JP (1) | JP4649207B2 (de) |
CN (1) | CN1315109C (de) |
AU (1) | AU2003250272A1 (de) |
CA (1) | CA2493429C (de) |
DE (1) | DE10229207B3 (de) |
IL (1) | IL165957A (de) |
PL (1) | PL373306A1 (de) |
WO (1) | WO2004003888A1 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7295981B1 (en) * | 2004-01-09 | 2007-11-13 | At&T Corp. | Method for building a natural language understanding model for a spoken dialog system |
GB0517082D0 (en) | 2005-08-19 | 2005-09-28 | Univ City Hong Kong | Auxiliary winding for improved performance of a planar inductive charging platform |
EP2141692A1 (de) | 2008-06-26 | 2010-01-06 | Deutsche Telekom AG | Automatisierte Sprachgesteuerte Unterstützung eines Benutzers |
KR101195812B1 (ko) * | 2010-07-08 | 2012-11-05 | 뷰모션 (주) | 규칙기반 시스템을 이용한 음성인식 시스템 및 그 방법 |
US9817813B2 (en) * | 2014-01-08 | 2017-11-14 | Genesys Telecommunications Laboratories, Inc. | Generalized phrases in automatic speech recognition systems |
CN110164449B (zh) * | 2019-04-26 | 2021-09-24 | 安徽美博智能科技有限公司 | 语音识别的空调机控制方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3786822T2 (de) * | 1986-04-25 | 1994-01-13 | Texas Instruments Inc | Spracherkennungssystem. |
EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0769710B2 (ja) * | 1993-03-23 | 1995-07-31 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 自然言語解析方法 |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
WO1998009228A1 (en) * | 1996-08-29 | 1998-03-05 | Bcl Computers, Inc. | Natural-language speech control |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
JP2950823B1 (ja) * | 1998-09-29 | 1999-09-20 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識誤り訂正装置 |
JP3581044B2 (ja) * | 1999-05-20 | 2004-10-27 | 株式会社東芝 | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 |
US7120582B1 (en) * | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
DE10032255A1 (de) * | 2000-07-03 | 2002-01-31 | Siemens Ag | Verfahren zur Sprachanalyse |
US7058567B2 (en) * | 2001-10-10 | 2006-06-06 | Xerox Corporation | Natural language parser |
-
2002
- 2002-06-28 DE DE10229207A patent/DE10229207B3/de not_active Expired - Lifetime
-
2003
- 2003-06-26 PL PL03373306A patent/PL373306A1/xx not_active Application Discontinuation
- 2003-06-26 US US10/519,653 patent/US7548857B2/en not_active Expired - Fee Related
- 2003-06-26 JP JP2004516499A patent/JP4649207B2/ja not_active Expired - Fee Related
- 2003-06-26 CA CA2493429A patent/CA2493429C/en not_active Expired - Fee Related
- 2003-06-26 EP EP03761435A patent/EP1518221A1/de not_active Ceased
- 2003-06-26 CN CNB038152843A patent/CN1315109C/zh not_active Expired - Fee Related
- 2003-06-26 AU AU2003250272A patent/AU2003250272A1/en not_active Abandoned
- 2003-06-26 WO PCT/DE2003/002135 patent/WO2004003888A1/de active Application Filing
-
2004
- 2004-12-23 IL IL165957A patent/IL165957A/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3786822T2 (de) * | 1986-04-25 | 1994-01-13 | Texas Instruments Inc | Spracherkennungssystem. |
EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
Also Published As
Publication number | Publication date |
---|---|
US7548857B2 (en) | 2009-06-16 |
CN1666254A (zh) | 2005-09-07 |
CA2493429C (en) | 2011-09-13 |
IL165957A (en) | 2010-11-30 |
AU2003250272A1 (en) | 2004-01-19 |
JP2005539249A (ja) | 2005-12-22 |
EP1518221A1 (de) | 2005-03-30 |
CN1315109C (zh) | 2007-05-09 |
WO2004003888B1 (de) | 2004-03-25 |
CA2493429A1 (en) | 2004-01-08 |
PL373306A1 (en) | 2005-08-22 |
IL165957A0 (en) | 2006-01-15 |
JP4649207B2 (ja) | 2011-03-09 |
US20060161436A1 (en) | 2006-07-20 |
WO2004003888A1 (de) | 2004-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE602005001125T2 (de) | Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE69923191T2 (de) | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE60000138T2 (de) | Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE19636739C1 (de) | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
DE69519229T2 (de) | Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten | |
DE60026366T2 (de) | Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog | |
EP1187440A2 (de) | Sprachdialogsystem | |
DE10229207B3 (de) | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik | |
EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |