WO1989003083A1 - Systems architecture for an acoustic man/machine dialogue system - Google Patents

Systems architecture for an acoustic man/machine dialogue system

Info

Publication number
WO1989003083A1
WO1989003083A1 PCT/DE1988/000596 DE8800596W WO8903083A1 WO 1989003083 A1 WO1989003083 A1 WO 1989003083A1 DE 8800596 W DE8800596 W DE 8800596W WO 8903083 A1 WO8903083 A1 WO 8903083A1
Authority
WO
WIPO (PCT)
Prior art keywords
module
word
architecture according
word sequence
analysis unit
Prior art date
Application number
PCT/DE1988/000596
Other languages
German (de)
French (fr)
Inventor
Lothar Glasser
Harald Höge
Erwin Marschall
Gerhard Niedermair
Montserrat Meya-Llopart
Jorge Romano-Rodriguez
Robert J. Sommer
Otto Schmidbauer
Gregor Thurmair
Hendrich Bunt
Jan B. Van Hemert
Kees Van Deemter
Dieter Mergel
Hermann Ney
Andreas Noll
John H. M. De Vet
Original Assignee
Siemens Aktiengesellschaft
N.V. Philips' Gloeilampenfabrieken
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft, N.V. Philips' Gloeilampenfabrieken filed Critical Siemens Aktiengesellschaft
Publication of WO1989003083A1 publication Critical patent/WO1989003083A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present invention relates to a system architecture for an acoustic human / machine dialog system with a voice input device for voice input into the dialog system, a configuration system and an adaptation system, the voice input device generating an input voice signal.
  • dialog system of the type mentioned at the beginning, communication takes place via human language.
  • the dialog system translates the language of a user's wishes into the language of the machine.
  • the machine is usually an EDP system on which an application with highly formalized input / output procedures of the machine language is implemented (see FIG. 1).
  • the voice input / output can take place via a voice terminal with additional aids (image output, light pen, etc.) or via a telephone.
  • a voice terminal with additional aids (image output, light pen, etc.) or via a telephone.
  • computer applications such.
  • automatic information and advisory services such as train and flight information
  • automatic transfer services such as booking or ordering from a catalog, or office management services conceivable.
  • Fig. 2 shows the basic structure of a human-machine dialog system, which consists of the systems configuration system, adaptation system and dialog system.
  • the core of the system is the dialog system, which conducts the dialog between a user and an IT application.
  • the configuration system is used to adapt the dialog system to the respective IT application.
  • the application-specific vocabulary needed for the dialog is entered here with its conceptual relationships (syntactic / semantic / pragmatic relationships).
  • the task of the adaptation system is to adapt the dialogue system to the voice characteristics of the respective user. This increases the recognition performance of the dialog system, which leads to smoother dialog operation.
  • the present invention has for its object to provide a system architecture of the type mentioned, with the help of which it is possible to implement a working and efficient man / machine dialog system which uses instructions, commands, questions, etc can direct to an EDP system and process answers or queries from the EDP system and, in some cases, pass them on to the user in the form of synthetic language and / or in the form of a screen display.
  • the object on which the present invention is based is achieved by a system architecture of the type mentioned at the outset and according to the preamble of patent claim 1, which is characterized according to the invention by the features specified in the characterizing part of patent claim 1.
  • FIG. 1 shows the basic structure of a block diagram of an overall system to be implemented, as has already been discussed in the technical field.
  • FIG. 2 shows, as also already explained, a block diagram of the human / machine dialog system to be provided according to FIG. 1 in more detail.
  • FIG. 3 shows a block diagram of the system architecture according to the invention of the human / machine dialog system shown in FIG. 2.
  • the architecture of the dialog system 30, as shown in FIG. 3, consists of a recognition module with the units “signal analysis” 31, “word sequence generation” 32 and “syntactic-semantic-pragmatic content analysis” 33, a dialog control unit 34 with adaptation to the EDP application and response generation unit 35.
  • the speech signal of a user coming from a microphone is interpreted in the recognition module and brought into a content-oriented representation.
  • the speech signal is first analyzed with regard to language-specific features.
  • the word sequence generation unit the Features are mapped to word sequences using a phonetic word lexicon 322.
  • this mapping is not clear due to the limited acoustic signal analysis, which is taken into account by parallel tracking of possible word sequences (word sequence hypotheses).
  • word sequence hypotheses The number of word sequence hypotheses can become very large. This effort can be achieved using a language model 323 in which the possible sequence of words based on the EDP application is stored, as a result of which only "valid" word sequence hypotheses need to be considered.
  • the check for valid word sequence hypotheses can also be carried out during content analysis, with the meaningful word sequences being filtered out of the word sequence hypotheses on the basis of linguistic rules.
  • statistical methods are additionally used in that the probability with which the acoustic features are mapped onto the word sequence is calculated and the sequence with the highest probability is passed on to the dialog control unit 35 as an interpreted utterance by the user.
  • the dialog control unit 35 decides whether the content of the utterance makes "sense" for the application or whether yet another dialog with the user has to be conducted.
  • the content-oriented utterance of the dialog system is converted into a machine language that is understandable for the EDP application.
  • feedback from the EDP application is brought back into a content-oriented representation of the dialog system 30 and generated for this answer.
  • the answer is output either acoustically through speech synthesis or pictorially through an image terminal.
  • the architecture of the dialog system 30 allows simple configuration to various types of EDP applications by restructuring the databases “phonetic lexicon”, “language model”, “linguistic rules” and “word lexicon” and by redesigning the adaptation to the I / O procedure.
  • the adaptation The speaker characteristics of the user are carried out via a phonetic lexicon 321, in which the speaker-specific data is entered through user training.
  • the architecture according to the invention is also suitable for real-time implementation. Due to the high computing power required, the various modules can be implemented as separate processing units, so that several modules can be used in parallel.

Abstract

The systems architecture described comprises a speech input device for the dialogue system, a configuration system and an adaptation system. Said architecture contains essentially a signal analysis unit (31) which forms an input device for the dialogue system (30) and into which the input speech signal is fed, and a word sequence generating unit (32) connected downstream of the signal analysis unit (31). A phoneme lexicon module (321), a phonetic lexicon module (322), and a speech model module (323) are connected to the word sequence generation unit (32). The architecture also comprises a contents analysis unit (33) connected downstream of the word sequence generation unit (32) for syntactic, semantic, and pragmatic contents analysis, a module for syntactic, semantic, and pragmatic rules (331) and a linguistic lexicon module (332) being connected to the contents analysis unit (33). The architecture further comprises a dialogue control unit (34), connected downstream of the contents analysis unit (33), to which are connected a module (341) for adaptation to an input/output procedure for data processing applications and an answer-generating unit (35) connected to a phonetic-linguistic module (351) for producing a synthetic speech signal and a video signal.

Description

System-Architektur für ein akustisches Mensch/Maschine- Dialogsystem System architecture for an acoustic human / machine dialogue system
Die vorliegende Erfindung betrifft eine System-Architektur für ein akustisches Mensch/Maschine-Dialogsystem mit einer Spracheingabe-Einrichtung zur Spracheingabe in das Dialogsystem einem Konfigurationssystem und einem Adaptionssystem, wobei die Spracheingabe-Eiπrichtung ein Eingangssprachsignal erzeugt.The present invention relates to a system architecture for an acoustic human / machine dialog system with a voice input device for voice input into the dialog system, a configuration system and an adaptation system, the voice input device generating an input voice signal.
Die Mensch-Maschine Kommunikation wird heutzutage zum großen Teil mit mechanischen Hilfsmitteln, wie Tastatur, Maus, Lichtgriffel etc., geführt. Bei einem Dialogsystem der eingangs genannten Art erfolgt die Kommunikation über die menschliche Sprache. Das Dialogsystem übersetzt die sprachlich formulierten Wünsche eines Benutzers in die Sprache der Maschine. Bei der Maschine handelt es sich meist um eine EDV-Anlage, auf der eine Anwendung mit stark formalisierten Ein/Ausgabeprozeduren der Maschinensprache - implementiert ist (siehe Fig. 1).Nowadays, human-machine communication is largely carried out using mechanical aids such as a keyboard, mouse, light pen, etc. In a dialog system of the type mentioned at the beginning, communication takes place via human language. The dialog system translates the language of a user's wishes into the language of the machine. The machine is usually an EDP system on which an application with highly formalized input / output procedures of the machine language is implemented (see FIG. 1).
Die Sprachein/ausgabe kann über ein Sprach-Terminεl mit zusätzlichen Hilfsmitteln (Bildausgabe, Lichtgriffel etc.) oder über ein Telefon erfolgen. Als EDV-Anwendungen sind z. B. automatische Auskunfts- und Beratungsdienste, wie Bahn- und Flugauskunft, automatische Transferdienste, wie Buchung oder Bestellung nach Katalog, oder Büroverwaltungsdienste denkbar.The voice input / output can take place via a voice terminal with additional aids (image output, light pen, etc.) or via a telephone. As computer applications such. B. automatic information and advisory services, such as train and flight information, automatic transfer services, such as booking or ordering from a catalog, or office management services conceivable.
Zur Realisierung eines Dialogsystems müssen Methoden der automatischen Spracherkennung, der linguistischen Texterschließung und der Dialogführung miteinander in einem Gesamtsystem mit einer geeigneten Architektur vereinigt werden. Einige Architekturen sind bereits vorgeschlagen worden, die jedoch im Sinne eines Gesamtsystems unvollständig sind und zum Teil zu sehr ineffizienten Realisierungen führen, vergl. z. E. G. Goodman, R. Reddy "Alternative Control Structures for Speech Understanding Systems" in 'Trends in Speech Recognition', Prentice-Hall, Signal/Processing Series, 1980.In order to implement a dialog system, methods of automatic speech recognition, linguistic text entry and dialog guidance have to be combined in an overall system with a suitable architecture. Some architectures have already been proposed, but they are incomplete in terms of an overall system and sometimes lead to very inefficient implementations, cf. EG Goodman, R. Reddy "Alternative Control Structures for Speech Understanding Systems "in 'Trends in Speech Recognition', Prentice-Hall, Signal / Processing Series, 1980.
Die Interpretation fließend gesprochener Sprache wurde bisher für sehr eingeschränkte Anwendungen nur im Forschungsbereich realisiert, wobei noch kein technischer Reifegrad für den praktischen Einsatz erreicht wurde, vergl. z. B. B. Lowerre, R. Reedy "The Harpy Speech Understanding System" in 'Trends in Speech Recognition', Prentice-Hall, Signal Processing Series, 1980.The interpretation of fluent spoken language has so far only been realized for very restricted applications in the research area, whereby no technical maturity level has yet been achieved for practical use. B. B. Lowerre, R. Reedy "The Harpy Speech Understanding System" in Trends in Speech Recognition, Prentice-Hall, Signal Processing Series, 1980.
Fig. 2 zeigt den prinzipiellen Aufbau eines Mensch-Maschine-Dialogsystems, das aus den Systemen Konfigurierungssystem, Adaptionssystem und Dialogsystem besteht. Der Kern des Systems stellt das Dialogsystem dar, welches den Dialog zwischen einem Benutzer und einer EDV-Anwendung führt. Das Konfigurierungssystem dient zur Anpassung des Dialogsystems an die jeweilige EDV-Anwendung. Hier wird der für den Dialog benötigte anwendungsspezifische Wortzschatz mit seinen begrifflichen Beziehungen (syntaktisch/semantisch/pragmatische Relationen) eingegeben.Fig. 2 shows the basic structure of a human-machine dialog system, which consists of the systems configuration system, adaptation system and dialog system. The core of the system is the dialog system, which conducts the dialog between a user and an IT application. The configuration system is used to adapt the dialog system to the respective IT application. The application-specific vocabulary needed for the dialog is entered here with its conceptual relationships (syntactic / semantic / pragmatic relationships).
Aufgabe des Adaptionssystem ist es, das Dialogsystem an die Stimmcharakteristik des jeweiligen Benutzers anzupassen. Hierdurch erhöht sich die Erkennungsleistung des Dialogsystems, was zu einem reibungsloseren Dialogbetrieb führt.The task of the adaptation system is to adapt the dialogue system to the voice characteristics of the respective user. This increases the recognition performance of the dialog system, which leads to smoother dialog operation.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, eine System-Architektur der eingangs genannten Art zu schaffen, mit dere Hilfe es möglich ist, ein arbeits- und leistungsfähiges Mensch/Maschine-Dialogsystem zu realisieren, das mittels vorgegebener gesprochener Wortfolgen Anweisungen, Befehle, Fragestellungen usw. an eine EDV-Anlage richten kann und Antworten oder Rückfragen der EDV-Anlage verarbeiten und fallweise in Form synthetischer Sprache und/oder in Form einer Eildschirmanzeige an den Benutzer weitergeben kann. Die der vorliegenden Erfindung zugrundeliegende Aufgabe wird durch eine System-Architektur der eingangs genannten Art und gemäß dem Oberbegriff des Patentanspruchs 1 gleöst, die erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 angegeben Merkmale charakterisiert ist.The present invention has for its object to provide a system architecture of the type mentioned, with the help of which it is possible to implement a working and efficient man / machine dialog system which uses instructions, commands, questions, etc can direct to an EDP system and process answers or queries from the EDP system and, in some cases, pass them on to the user in the form of synthetic language and / or in the form of a screen display. The object on which the present invention is based is achieved by a system architecture of the type mentioned at the outset and according to the preamble of patent claim 1, which is characterized according to the invention by the features specified in the characterizing part of patent claim 1.
Vorteilhafte Weiterbildungen der Erfindung sind durch die in den Unteransprüchen angegebenen Merkmale gekennzeichnet.Advantageous developments of the invention are characterized by the features specified in the subclaims.
Im folgenden wird die vorliegende Erfindung anhand mehrerer Figuren im einzelnen beschrieben.The present invention is described in detail below with reference to several figures.
Fig. 1 zeigt wie bereits erläutert, den grundsätzlichen Aufbau eines Blockschaltbildes eines zu realisierenden Gesamtsystems, wie es bereits in der Fachwelt diskutiert wurde.As already explained, FIG. 1 shows the basic structure of a block diagram of an overall system to be implemented, as has already been discussed in the technical field.
Fig. 2 zeigt, wie ebenfalls bereits erläutert, in mehr Einzelheiten ein Blockschaltbild des gemäß Fig. 1 vorzusehenden Mensch/Maschine-Dialogsystems.FIG. 2 shows, as also already explained, a block diagram of the human / machine dialog system to be provided according to FIG. 1 in more detail.
Fig. 3 zeigt ein Blockschaltbild der erfindungsgemäßen SystemArchitektur des in Fig 2 dargestellten Mensch/MaschineDialogsystems.FIG. 3 shows a block diagram of the system architecture according to the invention of the human / machine dialog system shown in FIG. 2.
Die Architektur des Dialogsystems 30 wie sie in Fig. 3 gezeigt ist, besteht aus einem Erkennungsmodul mit den Einheiten "Signalanalyse" 31, "Wortfolgengenerierung" 32 und "Syntaktischsemantisch-pragmatische Inhaltsanalyse" 33, einer Dialogsteuerungs-Einheit 34 mit Anpassung zur EDV-Anwendung und Antwortgenerierungs-Einheit 35.The architecture of the dialog system 30, as shown in FIG. 3, consists of a recognition module with the units “signal analysis” 31, “word sequence generation” 32 and “syntactic-semantic-pragmatic content analysis” 33, a dialog control unit 34 with adaptation to the EDP application and response generation unit 35.
Im Erkennungsmodul wird das von einem Mikrofon kommende Sprachsignal eines Benutzers interpretiert und in eine inhaltsorientierte Darstellung gebracht. Hierbei erfolgt zunächst eine Analyse des Sprachsignals im Hinblick auf sprachspezifische Merkmale. In der Wortfolgengenerierungseinheit werden die Merkmale mit Hilfe eines phonetischen Wortlexikons 322 auf Wortfolgen abgebildet. Im allgemeinen ist diese Abbildung wegen der begrenzten akustischen Signalanalyse nicht eindeutig, dem durch paralleles Verfolgen von möglichen Wortfolgen (Wortfolgenhypothesen) Rechnung getragen wird. Die Anzahl der Wortfolgenhypothesen kann sehr groß werden. Dieser Aufwand kann durch ein Sprachmodell 323, in welchem die mögliche Reihenfolge von Worten auf Grund der EDV-Anwendung abgespeichert ist, erfolgen, wodurch nur "gültige" Wortfolgenhypothesen betrachtet werden müssen. Die Prüfung auf gültige Wortfolgenhypothesen kann auch bei der Inhaltsanalyse durchgeführt werden, wobei aufgrund linguistischer Regeln die sinnvollen Wortfolgen aus den Wortfolgehypothesen herausgefiltert werden. Zur Gewinnung der einzig richtigen Wortfolge werden zusätzlich statistische Methoden angewendet, indem die Wahrscheinlichkeit, mit der die akustischen Merkmale auf die Wortfolge abgebildet wird, berechnet und diejenige Folge mit der höchsten Wahrscheinlichkeit als interpretierte Äußerung des Benutzers an die Dialogsteuerungs-Einheit 35 weitergegeben wird. Die Dialogsteuerungs-Einheit 35 entscheidet, ob der Inhalt der Äußerung für die Anwendung einen "Sinn" ergibt, oder ob noch ein weiterer Dialog mit dem Benutzer geführt werden muß. Bei einer sinnvollen Anfrage wird die inhaltsorientierte Äußerungsdarstellung des Dialogsystems in einen für die EDV-Anwendung verständliche Maschinensprache überführt. Bei Rückmeldungen der EDV-Anwendung wird diese wieder in eine inhaltsorientierte Darstellung des Dialogsystems 30 gebracht und für diese Antwort generiert. Die Ausgabe der Antwort erfolgt entweder akustisch durch Sprachsynthese oder bildhaft durch ein Bildterminal.The speech signal of a user coming from a microphone is interpreted in the recognition module and brought into a content-oriented representation. Here, the speech signal is first analyzed with regard to language-specific features. In the word sequence generation unit, the Features are mapped to word sequences using a phonetic word lexicon 322. In general, this mapping is not clear due to the limited acoustic signal analysis, which is taken into account by parallel tracking of possible word sequences (word sequence hypotheses). The number of word sequence hypotheses can become very large. This effort can be achieved using a language model 323 in which the possible sequence of words based on the EDP application is stored, as a result of which only "valid" word sequence hypotheses need to be considered. The check for valid word sequence hypotheses can also be carried out during content analysis, with the meaningful word sequences being filtered out of the word sequence hypotheses on the basis of linguistic rules. In order to obtain the only correct word sequence, statistical methods are additionally used in that the probability with which the acoustic features are mapped onto the word sequence is calculated and the sequence with the highest probability is passed on to the dialog control unit 35 as an interpreted utterance by the user. The dialog control unit 35 decides whether the content of the utterance makes "sense" for the application or whether yet another dialog with the user has to be conducted. In the case of a meaningful request, the content-oriented utterance of the dialog system is converted into a machine language that is understandable for the EDP application. When feedback from the EDP application is brought back into a content-oriented representation of the dialog system 30 and generated for this answer. The answer is output either acoustically through speech synthesis or pictorially through an image terminal.
Die Architektur des Dialogsystems 30 erlaubt eine einfache Konfigulierung an verschiedenartige EDV-Anwendungen durch Umstrukturierung der Datenbasen "Phonetisches Lexikon", "Sprachmodell", "Linguistische Regeln" und "Wortlexikon" und durch Neugestaltung der Anpassung an die E/A-Prozedur. Die Adaption an die Sprechercharakteristik des Benutzers erfolgt über ein Lautlexikon 321, bei dem durch ein Benutzertraining die sprecherspezifischen Daten eingetragen werden.The architecture of the dialog system 30 allows simple configuration to various types of EDP applications by restructuring the databases “phonetic lexicon”, “language model”, “linguistic rules” and “word lexicon” and by redesigning the adaptation to the I / O procedure. The adaptation The speaker characteristics of the user are carried out via a phonetic lexicon 321, in which the speaker-specific data is entered through user training.
Die erfindungsgemäße Architektur eignet sich auch für eine Echtzeitrealisierung. Aufgrund der benötigten hohen Rechenleistungen können die verschiedenen Moduln als getrennte Verarbeitungseinheiten realisiert werden, so daß parallel mit mehreren Moduln gleichzeitig gearbeitet werden kann. The architecture according to the invention is also suitable for real-time implementation. Due to the high computing power required, the various modules can be implemented as separate processing units, so that several modules can be used in parallel.

Claims

Patentansprüche Claims
1. System-Architektur für ein akustisches Mensch/Maschine-Dialogsystem, mit einer Spracheingabe-Einrichtung zur Spracheingabe in das Dialogsystem, einem Konfigurationssystem und einem Adaptionssystem, wobei die Spracheingabe-Einrichtung ein Eingangssprachsignal erzeugt, g e k e n n z e i c h n e t durch1. System architecture for an acoustic human / machine dialog system, with a voice input device for voice input into the dialog system, a configuration system and an adaptation system, the voice input device generating an input voice signal, g e k e n n e e c h n e t by
- eine Signalanalyse-Einheit (31), die eine Eingangseinrichtung des Dialogsystems (30) bildet und der das Eingangssprachsignal zugeführt wird,- a signal analysis unit (31) which forms an input device of the dialog system (30) and to which the input speech signal is supplied,
- eine der Signalanalyse-Einheit (31) nachgeschaltete Wortfolgengenerierungs-Einheit (32) zum Generieren von Wortfolgen, wobei der Wortfolgengenerierungs-Einheit (32) ein Lautlexikon-Baustein (321), ein phonetischer Wortlexikon-Baustein (322) und ein Sprachmodell-Baustein (323) zugeordnet sind,- a word sequence generation unit (32) downstream of the signal analysis unit (31) for generating word sequences, the word sequence generation unit (32) comprising a phonetic lexicon module (321), a phonetic word lexicon module (322) and a language model module (323) are assigned,
- eine der Wortfolgengenerierungs-Einheit (32) nachgeschaltete Inhaltsanalyse-Einheit (33) zur Durchführung einer syntaktisch-semantisch-pragmatischen Inhaltsanalyse, wobei der Inhaltsεnalyse-Einheit (33) ein Baustein für syntaktischsemantisch-pragmatische Regeln (331) und ein Baustein für ein linguistisches Wortlexikon (332) zugeordnet sind,- A content analysis unit (33) downstream of the word sequence generation unit (32) for carrying out a syntactic-semantic-pragmatic content analysis, the content analysis unit (33) being a module for syntactic-semantic-pragmatic rules (331) and a module for a linguistic Word dictionary (332) are assigned,
- eine der Inhaltsanalyse-Einheit (33) nachgeschεltete Dialogsteuerungs-Einheit (34), der ein Baustein (341) zur Anpassung an eine Eingabe/Ausgabe-Prozedur für EDV-Anwendungen zugeordnet ist,a dialog control unit (34) which is downstream of the content analysis unit (33) and which is assigned a module (341) for adapting to an input / output procedure for IT applications,
- eine Antwortgenεrierungs-Einheit (35) der ein Baustein "phonetisch-linguistisches Wortlexikon" (351) zugeordnet ist, zum. Erzeugen eines synthetischen Sprachsignals und eines Bildsignals, und dadurch- A response generation unit (35) which is assigned a building block "phonetic-linguistic word lexicon" (351) for. Generating a synthetic speech signal and an image signal, and thereby
- daß der Lautlexikon-Baustein (321) an einer Schnittstelle zwischen der Architektur und dem Adaptionssystem (ADS) und alle übrigen Bausteine (322, 323, 331, 332, 341, 351) an einer Schnittstelle zwischen der Architektur und der Konfigurationssystem (KFS) angeordnet sind. - That the Lautlexikon module (321) at an interface between the architecture and the adaptation system (ADS) and all other modules (322, 323, 331, 332, 341, 351) at an interface between the architecture and the configuration system (KFS) are arranged.
2. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß das von einem Mikrophon erzeugte Sprachsignal eines Benutzers in dem Erkennungsmodul, das aus der Signalaπalyse-Einheit (31), der Wortfolgengenerierungs- Einheit (32) und der Inhaltsanalyse-Einheit (33) gebildet ist, interpretiert wird und in eine inhaltsorientierte Darstellung umgesetzt wird.2. Architecture according to claim 1, characterized in that the speech signal generated by a microphone of a user in the recognition module, which is formed from the signal analysis unit (31), the word sequence generation unit (32) and the content analysis unit (33) , is interpreted and converted into a content-oriented presentation.
3. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß in der Wortfolgengenerierungs-Einheit (32) die Sprachsignal-Merkmale mit Hilfe des phonetischen Wortlexikon-Bausteins (322) auf Wortfolgen abgebildet werden ?.3. Architecture according to claim 1, characterized in that the speech signal characteristics are mapped to word sequences in the word sequence generation unit (32) with the aid of the phonetic word lexicon module (322).
4. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i e h n e t , daß ein Sprachmodell in dem Sprachmodell-Baustein (323) in welchem mögliche Reihenfolgen von Worten auf Grund bestimmter EDV-Anwendungen abgespeichert ist, mit dessen Hilfe nur "gültige" Wortfolgenhypothesen geprüft werden müssen.4. Architecture according to one of the preceding claims, characterized in that a language model is stored in the language model module (323) in which possible sequences of words are stored on the basis of certain IT applications, with the aid of which only "valid" word sequence hypotheses need to be checked.
5. Architektur nach einem der Ansprüche 1 bis 3, dadurch g e k e n n z e i c h n e t , daß die Prüfung auf "gültige" Wortfolgenhypothesen durch eine Inhaltsanalyse in der Inhaltsanalyse-Einheit (33) durchgeführt wird, wobei aufgrund linguistischer Regeln die jeweils sinnvollen Wortfolgen aus den Wortfolgenhypothesen herausgefiltert werden.5. Architecture according to one of claims 1 to 3, characterized in that the check for "valid" word sequence hypotheses is carried out by a content analysis in the content analysis unit (33), the relevant word sequences being filtered out of the word sequence hypotheses on the basis of linguistic rules.
6. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß zur Gewinnung der einzig richtigen Wortfolge für einen bestimmten Vorgang zusätzlich statistische Methoden angewendet werden, in dem die Wahrscheinlichkeit, mit der die akustischen Merkmale auf die Wortfolge abgebildet wird, berechnet und diejenige Folge mit der höchsten Wahrscheinlichkeit als interpretierte Äußerung des Benutzers an den Dialogsteuerungsmodul weitergegeben wird. 6. Architecture according to one of the preceding claims, characterized in that, in order to obtain the only correct word sequence for a specific process, additional statistical methods are used in which the probability with which the acoustic features are mapped to the word sequence is calculated and that sequence is also used is most likely passed on to the dialog control module as an interpreted statement by the user.
7. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß der Dialogsteuerungsmodul entscheidet, ob der Inhalt der Äußerung für die EDV-Anwendung einen "Sinn" ergibt oder ob noch ein weiterer Dialog mit dem Benutzer geführt werden muß.7. Architecture according to one of the preceding claims, characterized in that the dialog control module decides whether the content of the utterance makes a "sense" for the EDP application or whether another dialog must be conducted with the user.
8. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß die inhaltsorientierte Äußerungsdarstellung des Dialogsystems bei einer "sinnvollen" Anfrage in eine für die betreffende EDV-Anwendung verständliche Maschinensprache umgesetzt wird.8. Architecture according to one of the preceding claims, characterized in that the content-oriented utterance representation of the dialogue system is implemented in a "meaningful" request into a machine language that is understandable for the EDP application in question.
9. Architektur nach einem der Ansprüche 1 bis 7, dadurch g e k e n n z e i c h n e t , daß bei einer Rückmeldung anläßlich der betreffenden EDV-Anwendung diese Rückmeldung in eine inhaltsorientierte Darstellung des Dialogsystems umgesetzt wird und daß ein Antwortsignal generiert wird.9. Architecture according to one of claims 1 to 7, characterized in that in the event of a feedback on the relevant computer application, this feedback is converted into a content-oriented representation of the dialog system and that a response signal is generated.
10. Architektur nach Anspruch 9, dadurch g e k e n n z e i c h n e t , daß eine Ausgabe des Antwortsignals entweder akurtisch durch Sprachsynthese oder bildhaft durch ein Bild-Terminal durchgeführt wird.10. Architecture according to claim 9, characterized in that outputting of the response signal is carried out either acoustically by speech synthesis or pictorially by an image terminal.
11. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß für verschiedenartige EDV-Anwendungen eine Umstrukturierung der Datenbasen "phonetisches Lexikon", "Sprachmodell", "linguistische Regeln" und "Wortlexikon" sowie eine Neugestaltung der Anpassung an die betreffende Eingabe/Ausgabe-Prozedur zur einfachen Konfigurierung für verschiedenartige EDV-Anwendungen durchgeführt wird.11. Architecture according to claim 1, characterized in that a restructuring of the databases "phonetic lexicon", "language model", "linguistic rules" and "word lexicon" and a redesign of the adaptation to the relevant input / output procedure for different types of EDP applications for easy configuration for different types of EDP applications.
12. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß eine Adaption an die Sprechercharakteristik des Benutzers über das Lautlexikon erfolgt, in das durch ein Benutzertraining die speichersoezifischen Daten einoetraαen werden. 12. Architecture according to claim 1, characterized in that an adaptation to the speaker's characteristic of the user takes place via the phonetic lexicon, into which the memory-specific data are introduced by user training.
13. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß ein Echtzeitbetrieb vorgesehen ist.13. Architecture according to one of the preceding claims, characterized in that real-time operation is provided.
14. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß zur Erhöhung der Rechengeschwindigkeiten verschiedene Moduln in getrennten Verarbeitungseinheiten realisiert sind, so daß eine Vielzahl von Moduln zeitparallel arbeiten kann. 14. Architecture according to one of the preceding claims, characterized in that different modules are implemented in separate processing units to increase the computing speeds, so that a large number of modules can work in parallel.
PCT/DE1988/000596 1987-09-29 1988-09-27 Systems architecture for an acoustic man/machine dialogue system WO1989003083A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19873732849 DE3732849A1 (en) 1987-09-29 1987-09-29 SYSTEM ARCHITECTURE FOR AN ACOUSTIC HUMAN / MACHINE DIALOG SYSTEM
DEP3732849.2 1987-09-29

Publications (1)

Publication Number Publication Date
WO1989003083A1 true WO1989003083A1 (en) 1989-04-06

Family

ID=6337149

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1988/000596 WO1989003083A1 (en) 1987-09-29 1988-09-27 Systems architecture for an acoustic man/machine dialogue system

Country Status (2)

Country Link
DE (1) DE3732849A1 (en)
WO (1) WO1989003083A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2696574A1 (en) * 1992-10-06 1994-04-08 Sextant Avionique Method and device for analyzing a message provided by interaction means to a human-machine dialogue system.
WO1997043707A1 (en) * 1996-05-13 1997-11-20 Telia Ab Improvements in, or relating to, speech-to-speech conversion
US6834280B2 (en) 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4430164C2 (en) * 1994-08-25 1998-04-23 Uthe Friedrich Wilhelm Use of an interactive information system
DE19532114C2 (en) * 1995-08-31 2001-07-26 Deutsche Telekom Ag Speech dialog system for the automated output of information
DE19756641C2 (en) * 1997-12-19 2001-02-22 Sucker Mueller Hacoba Gmbh Aid for loading a creel and method for assembling a creel

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (en) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Speech recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (en) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Speech recognition system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Data Report, Band VIII, Nr. 3, September 1980, (M}nchen, DE), D. Klugman: "Speaking with the Computer", Seiten 4-9 *
Proceedings: ICASSP 86, IEEE-IECEJ-ASJ International Conference on Acoustics, Speech, and Signal Processings, 7.-11. April 1986, Tokio, JP, Band 3, IEEE, (New York, US), M. Shigenaga et al.: "A speech recognition system of continuously spoken Japanese sentences and an application to a speech input device", Seiten 1577-1580 *
Proceedings: ICASSP 87, 1987 International Conference on Acoustics, Speech, and Signal Processing, 6-9. April 1987 Dallas, Texas, Band 1, IEEE, (New York, US), P. Alinat et al.: "A continuous speech dialog system for the oral control of a sonar console", Seiten 368-371 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2696574A1 (en) * 1992-10-06 1994-04-08 Sextant Avionique Method and device for analyzing a message provided by interaction means to a human-machine dialogue system.
EP0592280A1 (en) * 1992-10-06 1994-04-13 Sextant Avionique Method and apparatus for the analysis of a message emitted by interactive means to a man-machine dialog system
WO1997043707A1 (en) * 1996-05-13 1997-11-20 Telia Ab Improvements in, or relating to, speech-to-speech conversion
US6834280B2 (en) 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries

Also Published As

Publication number Publication date
DE3732849A1 (en) 1989-04-20

Similar Documents

Publication Publication Date Title
DE60201262T2 (en) HIERARCHICAL LANGUAGE MODELS
EP0802522B1 (en) Apparatus and process to ascertain an action, and use of the apparatus and the process
DE69814589T2 (en) VOICE RECOGNITION USING MULTIPLE VOICE KNOWLEDGE
EP1184839B1 (en) Grapheme-phoneme conversion
DE69834553T2 (en) ADVANCED VOICE RECOGNITION SYSTEM WITH AN AUDIO FEEDBACK
DE69923379T2 (en) Non-interactive registration for speech recognition
DE69634239T2 (en) Recognition of continuously spoken texts and commands
DE69828141T2 (en) Method and device for speech recognition
DE69923191T2 (en) INTERACTIVE USER INTERFACE WITH LANGUAGE RECOGNITION AND NATURAL LANGUAGE PROCESSING SYSTEM
EP0925578B1 (en) Speech-processing system and method
EP0702353B1 (en) System and method for outputting synthetic speech in response to input speech signals
DE60313706T2 (en) Speech recognition and response system, speech recognition and response program and associated recording medium
EP0994461A2 (en) Method for automatically recognising a spelled speech utterance
EP1273003B1 (en) Method and device for the determination of prosodic markers
DE102006006069A1 (en) A distributed speech processing system and method for outputting an intermediate signal thereof
DE10220521B4 (en) Method and system for processing voice data and classifying calls
WO2001018792A1 (en) Method for training graphemes according to the phoneme rules for voice synthesis
EP0987682B1 (en) Method for adapting linguistic language models
DE19837102A1 (en) Method and arrangement for carrying out a database query
EP1182646A2 (en) Classification method of phonemes
DE19532114C2 (en) Speech dialog system for the automated output of information
EP1187440A2 (en) Spoken dialogue system
EP1282897A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
WO1989003083A1 (en) Systems architecture for an acoustic man/machine dialogue system
DE10220522B4 (en) Method and system for processing voice data using voice recognition and frequency analysis

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE FR GB IT LU NL SE