EP1097447A1 - Method and device for recognizing predetermined key words in spoken language - Google Patents

Method and device for recognizing predetermined key words in spoken language

Info

Publication number
EP1097447A1
EP1097447A1 EP99945842A EP99945842A EP1097447A1 EP 1097447 A1 EP1097447 A1 EP 1097447A1 EP 99945842 A EP99945842 A EP 99945842A EP 99945842 A EP99945842 A EP 99945842A EP 1097447 A1 EP1097447 A1 EP 1097447A1
Authority
EP
European Patent Office
Prior art keywords
words
filler
keywords
keyword
spoken language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP99945842A
Other languages
German (de)
French (fr)
Inventor
Alfred Hauenstein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1097447A1 publication Critical patent/EP1097447A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the invention relates to a method and a device for recognizing predetermined keywords in spoken language by a computer.
  • Modeling is understood below to mean the mapping of words into a vocabulary accessible to the system for speech recognition.
  • a vocabulary includes keywords and filler words.
  • a key word is at least one sound that is to be recognized by the system for recognizing spoken language and that is linked in particular to a predetermined action. In particular, a sound contains at least one phoneme.
  • a keyword can also include several words, at least one pause or at least one sound.
  • a noise word denotes an acoustic unit that does not correspond to a keyword, e.g. a word, a sound or a pause.
  • the object of the invention is to provide a method and a device for recognizing keywords in spoken language, in which or in which the disadvantages described above are avoided.
  • Spoken language keywords specified where the keywords are modeled for recognition. Furthermore, a predefined set of filler words is modeled. If a key word occurs in the spoken language, this key word is recognized, otherwise no key word is recognized if a match with a filler word is determined in the spoken language.
  • a further development consists in the fact that the predetermined amount of filler words is small. This is a decisive advantage since the size of the amount of filler words directly influences the computing power of the speech recognition system. A small amount of filler words can also be handled by a computer with relatively low computing power, which is advantageous in terms of the cost of the system for speech recognition. Furthermore, the predetermined amount of filler words is determined from a predetermined number of the most common words in a language.
  • the set of filler words can be the same for all possible combinations of keywords, so that when the keywords are changed, there is no need to change the set of filler words.
  • the filler words are preferably short, monosyllabic words, the acoustic ones
  • Representations match the words of the spoken language that are not keywords, or at least parts of those words.
  • the set of filler words can be obtained from the analysis of spoken dialogues. For this, a list of frequencies in these
  • Words occurring in dialogues are determined and the approx. 15 to 50 most common words selected as filler words.
  • the filler words are preferably provided with a marking. If a keyword matches a filler word from the set of filler words, this filler word is removed from the set of filler words.
  • the keywords and the filler words are then preferably modeled using a system for recognizing spoken language (see [1], [5]). All marked filler words are filtered out of the spoken language and thus only the keywords are displayed to a user or a target application.
  • the determination of the filler words can be based on a statistical analysis of natural spontaneous language. This actually models words spoken by a human and, with the filler words, excellent hit rates for non- Keywords achieved. It is also a particular advantage that the small amount of filler words places little demands on the computing power of the computer to be used.
  • a combination of the invention with known methods for recognizing keywords is also advantageous. This applies in particular to the modeling of noises and pauses (see [2]).
  • Noise word is deleted from the set of noise words if this noise word matches part of a keyword.
  • Another development is that the keywords recognized in the spoken language are displayed and the recognized noise words are not displayed.
  • At least one noise or at least one pause is modeled and added to the set of noise words.
  • One possible use of the method according to the invention is to control a medical device using the key words.
  • Another use of the invention is to answer a customer request, in particular in a communication network, for example the telephone network, the customer request being triggered by a keyword.
  • the system answers a call from a customer who specifies a specific keyword.
  • This enables an automated and efficient interaction of the customer with a computer, whereby a human customer advisor can also be addressed using a keyword.
  • Another development of the invention consists in determining a code word which indicates that a keyword preferably follows immediately. An example is the control of medical devices during the operation with the code word "computer":
  • the code word "computer” signals the system for recognizing key words that a key word "operating table higher” may then be spoken.
  • the code word "computer” can be modeled as a filler word in order not to detect a keyword when the code word is said accidentally without a subsequent keyword.
  • a device for recognizing predetermined keywords in spoken language which has a processor unit which is set up in such a way that the predetermined keywords are modeled for recognition. Furthermore, a predetermined set of filler words is modeled. If a key word occurs in the spoken language, then this key word is recognized, or if a key word is found in the spoken language
  • a further development of the device according to the invention consists in determining the predetermined amount of filler words small or in determining the predetermined amount of filler words from a predetermined number of the most frequent words in a language.
  • This device is particularly suitable for carrying out the method according to the invention or one of its developments explained above. Further developments of the invention also result from the dependent claims.
  • Fig.l a device for recognizing predetermined keywords in spoken language
  • FIG. 2 is a block diagram illustrating a method for recognizing predetermined keywords in spoken language
  • FIG. 3 shows a block diagram which represents a possibility for determining the filler words
  • 5 shows a processor unit
  • speech recognition system generally shows a system architecture for speech recognition (speech recognition system).
  • Speech recognition system comprises several levels of processing.
  • the classification 104 is followed by a search 105 for predefined filler words 106, application-specific keywords 107 or predefined noise models 108 (optionally, it is also possible to model pauses).
  • the assignments 106, 107 and / or 108 made on the basis of the search 105 are filtered in a logical block 109 and the sequence of found keywords 110 is output.
  • FIG. 2 shows a block diagram illustrating a method for recognizing predetermined keywords in spoken language.
  • the keywords are modeled in a step 201.
  • the filler words are modeled.
  • the components of the spoken language sounds
  • the keywords found are displayed in a step 204.
  • the spoken language 301 is broken down into sounds (components) and these sounds are sorted according to their frequency (see step 302).
  • a sound 304 is particularly a word 305, a syllable 306, multiple words 307, a sound 308 or a pause 309.
  • Fig. 4 shows a list of possible filler words.
  • the filler words are common in natural language dialogues in the modeled language (e.g. German) and are ideal for modeling non-key words.
  • Fig. 4 shows an example of a list with 1! Fillers:
  • a computing unit 501 is shown in FIG.
  • the computing unit 501 comprises a processor CPU 502, one
  • the computing unit 501 also has a bus 506, which ensures the connection of memory 503, processor 502 and input / output interface 504. It is also possible to connect additional components to bus 506: additional memory, hard disk, etc. Via interface 505 or bus 506, it is possible to control external devices or another program running on another computer.
  • the following publications have been cited in this document:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a method and device for recognizing specific key words in spoken language, whereby the key words are modeled for recognition. A predetermined number of expletives are also modeled. Whenever a key word occurs in spoken language, the key word is recognized. However, no key word is recognized if the spoken language coincides with an expletive.

Description

Beschreibungdescription
Verfahren und Vorrichtung zur Erkennung vorgegebener Schlüsselwörter in gesprochener SpracheMethod and device for recognizing predetermined keywords in spoken language
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache durch einen Rechner.The invention relates to a method and a device for recognizing predetermined keywords in spoken language by a computer.
Ein Verfahren und eine Vorrichtung zur Spracherkennung sind aus [1] bekannt. Dort finden sich auch eine grundlegende Einführung der an dem Spracherkennungssystem beteiligten Komponenten sowie wichtiger, bei der Spracherkennung üblicher Techniken.A method and a device for speech recognition are known from [1]. There you will also find a basic introduction to the components involved in the speech recognition system as well as important techniques common in speech recognition.
Unter Modellierung wird nachfolgend die Abbildung von Wörtern in einen dem System zur Spracherkennung zugänglichen Wortschatz verstanden. Ein Wortschatz umfaßt Schlüsselwörter und Füllwörter. Ein Schlüsselwort ist mindestens ein Laut, der von dem System zur Erkennung gesprochener Sprache erkannt werden soll und insbesondere mit einer vorgegebenen Aktion verknüpft ist. Insbesondere enthält ein Laut mindestens ein Phonem. Dabei kann ein Schlüsselwort auch mehrere Wörter, mindestens eine Pause oder mindestens ein Geräusch umfassen. Ein Füllwort bezeichnet eine akustische Einheit, die keinem Schlüsselwort entspricht, z.B. ein Wort, ein Geräusch oder eine Pause.Modeling is understood below to mean the mapping of words into a vocabulary accessible to the system for speech recognition. A vocabulary includes keywords and filler words. A key word is at least one sound that is to be recognized by the system for recognizing spoken language and that is linked in particular to a predetermined action. In particular, a sound contains at least one phoneme. A keyword can also include several words, at least one pause or at least one sound. A noise word denotes an acoustic unit that does not correspond to a keyword, e.g. a word, a sound or a pause.
Es sind Systeme für die Erkennung von Schlüsselwörtern bekannt geworden (siehe [2] oder [3] ) , die lediglich die Schlüsselwörter und/oder Phrasen aus Schlüsselwörtern modellieren. Für die Zurückweisung von Wörtern, die keine Schlüsselwörter sind, werden Algorithmen eingesetzt die Schlüsselwörter von den übrigen Wörtern unterscheiden. Ein Nachteil dieser Systeme besteht darin, daß für einen neuen Wortschatz jeweils eine neue Konfiguration des Systems zur Spracherkennung durchgeführt werden muß. Ein anderer Ansatz zur Erkennung von Schlüsselwörtern ist ein System zur Spracherkennung mit großem Wortschatz. Erkennt solch ein System alle Wörter und Geräusche, so können auch vorgegebene Schlüsselwörter erkannt werden (vergleiche [4] ) . Solch ein System stellt extrem hohe Anforderungen an die Rechenleistung und steht in der Regel auf den für die Spracherkennung vorgesehenen Rechnern nicht zur Verfügung. Ferner ist es praktisch nicht möglich, alle akustischen Ereignisse zu modellieren.Systems for the recognition of key words have become known (see [2] or [3]) which only model the key words and / or phrases from key words. For the rejection of words that are not keywords, algorithms are used that distinguish keywords from the other words. A disadvantage of these systems is that a new configuration of the system for speech recognition must be carried out for a new vocabulary. Another approach to keyword recognition is a speech recognition system with a large vocabulary. If such a system recognizes all words and noises, predefined keywords can also be recognized (compare [4]). Such a system places extremely high demands on computing power and is generally not available on the computers intended for speech recognition. Furthermore, it is practically not possible to model all acoustic events.
Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Erkennung von Schlüsselwörtern in gesprochener Sprache anzugeben, bei dem bzw. bei der die oben beschriebenen Nachteile vermieden werden.The object of the invention is to provide a method and a device for recognizing keywords in spoken language, in which or in which the disadvantages described above are avoided.
Die Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst.The object is achieved according to the features of the independent claims.
Zunächst wird ein Verfahren zur Erkennung vorgegebenerFirst, a method for recognizing predetermined ones
Schlüsselwörter in gesprochener Sprache angegeben, bei dem die Schlüsselwörter für die Erkennung modelliert werden. Weiterhin wird eine vorgegebene Menge von Füllwörtern modelliert. Wenn in der gesprochenen Sprache ein Schlüsselwort vorkommt, wird dieses Schlüsselwort erkannt, ansonsten wird kein Schlüsselwort erkannt, wenn in der gesprochenen Sprache eine Übereinstimmung mit einem Füllwort bestimmt wird.Spoken language keywords specified where the keywords are modeled for recognition. Furthermore, a predefined set of filler words is modeled. If a key word occurs in the spoken language, this key word is recognized, otherwise no key word is recognized if a match with a filler word is determined in the spoken language.
Eine Weiterbildung besteht darin, daß die vorgegebene Menge der Füllwörter klein ist. Dies ist ein entscheidender Vorteil, da die Größe der Menge an Füllwörtern die Rechenleistung des Systems zur Spracherkennung direkt beeinflußt. So kann eine kleine Menge Füllwörter auch von einem Rechner mit verhältnismäßig geringer Rechenleistung bewältigt werden, was sich vorteilhaft in den Kosten für das System zur Spracherkennung niederschlägt. Weiterhin wird die vorgegebene Menge der Füllwörter aus einer vorgegebenen Anzahl häufigster Wörter einer Sprache ermittelt.A further development consists in the fact that the predetermined amount of filler words is small. This is a decisive advantage since the size of the amount of filler words directly influences the computing power of the speech recognition system. A small amount of filler words can also be handled by a computer with relatively low computing power, which is advantageous in terms of the cost of the system for speech recognition. Furthermore, the predetermined amount of filler words is determined from a predetermined number of the most common words in a language.
Es ist ein Vorteil der Erfindung, daß insbesondere die Menge der Füllwörter für alle möglichen Kombinationen von Schlüsselwörtern gleich sein kann, demnach also bei Veränderung der Schlüsselwörter keine Änderung in der Menge der Füllwörter vorgenommen werden muß. Anhand der Menge dieser Füllwörter gelingt es, alle Wörter der gesprochenen Sprache, die keine Schlüsselwörter sind, zu absorbieren, also zu verhindern, daß diese 'Nicht-Schlüsselwörter' als Schlüsselwörter erkannt werden. Dazu sind vorzugsweise die Füllwörter kurze, einsilbige Wörter, deren akustischeIt is an advantage of the invention that, in particular, the set of filler words can be the same for all possible combinations of keywords, so that when the keywords are changed, there is no need to change the set of filler words. On the basis of the amount of these filler words, it is possible to absorb all words of the spoken language which are not keywords, that is to say to prevent these 'non-keywords' from being recognized as keywords. For this purpose, the filler words are preferably short, monosyllabic words, the acoustic ones
Repräsentationen mit den Wörtern der gesprochenen Sprache, die keine Schlüsselwörter sind, oder zumindest mit Teilen dieser Wörter, übereinstimmen. Insbesondere kann die Menge der Füllwörter aus der Analyse gesprochener Dialoge gewonnen werden. Hierzu wird eine Häufigkeitsliste der in diesenRepresentations match the words of the spoken language that are not keywords, or at least parts of those words. In particular, the set of filler words can be obtained from the analysis of spoken dialogues. For this, a list of frequencies in these
Dialogen auftretenden Wörter bestimmt und die ca. 15 bis 50 häufigsten Wörter als Füllwörter ausgesucht. Vorzugsweise werden die Füllwörter mit einer Markierung versehen. Sollte ein Schlüsselwort mit einem Füllwort aus der Menge der Füllwörter übereinstimmen, so wird dieses Füllwort aus der Menge der Füllwörter entfernt. Vorzugsweise werden daraufhin anhand eines Systems zur Erkennung gesprochener Sprache die Schlüsselwörter und die Füllwörter modelliert (siehe hierzu [1], [5]) . Aus der gesprochenen Sprache werden alle markierten Füllwörter herausgefiltert und somit einem Benutzer bzw. einer Zielapplikation nur die Schlüsselwörter angezeigt.Words occurring in dialogues are determined and the approx. 15 to 50 most common words selected as filler words. The filler words are preferably provided with a marking. If a keyword matches a filler word from the set of filler words, this filler word is removed from the set of filler words. The keywords and the filler words are then preferably modeled using a system for recognizing spoken language (see [1], [5]). All marked filler words are filtered out of the spoken language and thus only the keywords are displayed to a user or a target application.
Es ist ein besonderer Vorteil, daß die Ermittlung der Füllwörter auf einer statistischen Analyse natürlicher spontaner Sprache begründet sein kann. Dadurch werden tatsächlich von einem Menschen gesprochene Wörter modelliert und mit den Füllwörtern hervorragende Trefferraten für Nicht- Schlüsselwörter erzielt. Auch ist es ein besonderer Vorteil, daß die kleine Menge der Füllwörter nur geringe Anforderungen an die Rechenleistung des zu benutzenden Rechners stellt.It is a particular advantage that the determination of the filler words can be based on a statistical analysis of natural spontaneous language. This actually models words spoken by a human and, with the filler words, excellent hit rates for non- Keywords achieved. It is also a particular advantage that the small amount of filler words places little demands on the computing power of the computer to be used.
Ferner ist eine Kombination der Erfindung mit bekannten Verfahren zur Erkennung von Schlüsselwörtern vorteilhaft. Dies trifft insbesondere für die Modellierung von Geräuschen und Pausen zu (siehe [2]).A combination of the invention with known methods for recognizing keywords is also advantageous. This applies in particular to the modeling of noises and pauses (see [2]).
Auch ist es eine Weiterbildung der Erfindung, daß einIt is also a development of the invention that a
Füllwort aus der Menge der Füllwörter gestrichen wird, wenn dieses Füllwort mit einem Teil eines Schlüsselwortes übereinstimmt .Noise word is deleted from the set of noise words if this noise word matches part of a keyword.
Eine andere Weiterbildung besteht darin, daß die in der gesprochenen Sprache erkannten Schlüsselwörter angezeigt und die erkannten Füllwörter nicht angezeigt werden.Another development is that the keywords recognized in the spoken language are displayed and the recognized noise words are not displayed.
Im Rahmen einer zusätzlichen Weiterbildung wird mindestens ein Geräusch oder mindestens eine Pause modelliert und zu der Menge der Füllwörter hinzugefügt.As part of an additional training, at least one noise or at least one pause is modeled and added to the set of noise words.
Eine mögliche Verwendung des erfindungsgemäßen Verfahrens besteht in der Ansteuerung eines medizinischen Geräts mittels der Schlüsselwörter.One possible use of the method according to the invention is to control a medical device using the key words.
Eine andere Verwendung der Erfindung ist die Beantwortung einer Kundenanfrage, insbesondere in einem Kommunikationsnetz, bspw. dem Telefonnetz, wobei die Kundenanfrage durch ein Schlüsselwort ausgelöst wird. So erfolgt beispielsweise auf einen Anruf eines Kunden, der ein bestimmtes Schlüsselwort angibt, eine Rückantwort des Systems. Dies ermöglicht eine automatisierte und effiziente Interaktion des Kunden mit einem Rechner, wobei zusätzlich ein menschlicher Kundenberater - via Schlüsselwort - adressiert werden kann. Eine andere Weiterbildung der Erfindung besteht darin, ein Codewort zu bestimmen, das anzeigt, daß vorzugsweise unmittelbar ein Schlüsselwort folgt. Ein Beispiel ist die Steuerung medizinischer Geräte während der Operation mit dem Codewort "Computer":Another use of the invention is to answer a customer request, in particular in a communication network, for example the telephone network, the customer request being triggered by a keyword. For example, the system answers a call from a customer who specifies a specific keyword. This enables an automated and efficient interaction of the customer with a computer, whereby a human customer advisor can also be addressed using a keyword. Another development of the invention consists in determining a code word which indicates that a keyword preferably follows immediately. An example is the control of medical devices during the operation with the code word "computer":
"Computer OP-Tisch höher" anstatt "OP-Tisch höher"."Computer operating table higher" instead of "operating table higher".
Das Codewort "Computer" signalisiert dem System zur Erkennung von Schlüsselwörtern, daß möglicherweise anschließend ein Schlüsselwort "OP-Tisch höher" gesprochen wird. Zusätzlich kann als Weiterbildung das Codewort "Computer" als Füllwort modelliert werden, um bei zufälligem Sprechen des Codewortes ohne nachfolgendes Schlüsselwort kein Schlüsselwort zu detektieren.The code word "computer" signals the system for recognizing key words that a key word "operating table higher" may then be spoken. In addition, as a further development, the code word "computer" can be modeled as a filler word in order not to detect a keyword when the code word is said accidentally without a subsequent keyword.
Auch wird eine Vorrichtung zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache angegeben, die eine Prozessoreinheit aufweist, die derart eingerichtet ist, daß die vorgegebenen Schlüsselwörter für die Erkennung modelliert werden. Ferner wird eine vorgegebene Menge von Füllwörtern modelliert. Wenn in der gesprochenen Sprache ein Schlüsselwort vorkommt, so wird dieses Schlüsselwort erkannt, bzw. wird, wenn in der gesprochenen Sprache eineA device for recognizing predetermined keywords in spoken language is also specified, which has a processor unit which is set up in such a way that the predetermined keywords are modeled for recognition. Furthermore, a predetermined set of filler words is modeled. If a key word occurs in the spoken language, then this key word is recognized, or if a key word is found in the spoken language
Übereinstimmung mit einem Füllwort ermittelt wird, kein Schlüsselwort erkannt.If a match is found with a noise word, no keyword is recognized.
Eine Weiterbildung der erfindungsgemäßen Vorrichtung besteht darin, die vorgegebene Menge der Füllwörter klein zu bestimmen bzw. die vorgegebene Menge der Füllwörter aus einer vorgegebenen Anzahl der häufigsten Wörter einer Sprache zu bestimmen.A further development of the device according to the invention consists in determining the predetermined amount of filler words small or in determining the predetermined amount of filler words from a predetermined number of the most frequent words in a language.
Diese Vorrichtung ist insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.This device is particularly suitable for carrying out the method according to the invention or one of its developments explained above. Further developments of the invention also result from the dependent claims.
Anhand der folgenden Figuren werden Ausführungsbeispiele der Erfindung näher dargestellt.Exemplary embodiments of the invention are illustrated in more detail with the aid of the following figures.
Es zeigenShow it
Fig.l eine Vorrichtung zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache;Fig.l a device for recognizing predetermined keywords in spoken language;
Fig.2 ein Blockdiagramm, das ein Verfahren zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache darstellt;2 is a block diagram illustrating a method for recognizing predetermined keywords in spoken language;
Fig.3 ein Blockdiagramm, das eine Möglichkeit zur Ermittlung der Füllwörter darstellt;3 shows a block diagram which represents a possibility for determining the filler words;
Fig.4 eine Liste mit möglichen Füllwörtern und4 shows a list with possible filler words and
Fig.5 eine Prozessoreinheit.5 shows a processor unit.
In Fig.1 ist allgemein eine Systemarchitektur für eine Spracherkennung (Spracherkennungssystem) dargestellt.1 generally shows a system architecture for speech recognition (speech recognition system).
Voraussetzung für die Erkennung natürlich gesprochenerPrerequisite for the recognition of naturally spoken
Sprache ist ein geeigneter Formalismus zur Wissensrepräsentation. Ein vollständigesLanguage is a suitable formalism for representing knowledge. A complete one
Spracherkennungssystem umfaßt mehrere Verarbeitungsebenen.Speech recognition system comprises several levels of processing.
Dies sind insbesondere Akustik-Phonetik, Intonation, Syntax,These are in particular acoustic phonetics, intonation, syntax,
Semantik und Pragmatik. In Fig.l werden dieSemantics and pragmatics. In Fig.l the
Verarbeitungsebenen bei der Erkennung von Schlüsselwörtern aufgezeigt. Das natürliche Sprachsignal 101 gelangt in das Spracherkennungssystem. Dort wird in einer Komponente 102 eine Merkmalsextraktion durchgeführt. Nach der Merkmalsextraktion erfolgt anhand einer akustischen Modellierung 103 eine Klassifikation 104 (auch:Processing levels shown in the recognition of keywords. The natural speech signal 101 enters the speech recognition system. A feature extraction is carried out there in a component 102. After the feature extraction, an acoustic 104 is used to classify 104 (also:
Distanzberechnung) der in der Vorverarbeitung 102 gewonnenen Merkmale des Sprachsignals 101. Auf die Klassifikation 104 folgt eine Suche 105 nach vorgegebenen Füllwörtern 106, anwendungsspezifischen Schlüsselwörtern 107 oder vorgegebenen Geräuschmodellen 108 (optional auch Modellierung von Pausen möglich) . Die anhand der Suche 105 getroffenen Zuordnungen 106, 107 und/oder 108 werden gefiltert in einem logischen Block 109 und die Folge gefundener Schlüsselwörter 110 wird ausgegeben.Distance calculation) of the features of the speech signal 101 obtained in the preprocessing 102. The classification 104 is followed by a search 105 for predefined filler words 106, application-specific keywords 107 or predefined noise models 108 (optionally, it is also possible to model pauses). The assignments 106, 107 and / or 108 made on the basis of the search 105 are filtered in a logical block 109 and the sequence of found keywords 110 is output.
Es sei darauf hingewiesen, daß die Blockstruktur in Fig.l lediglich eine logische Aufteilung darstellt. Eine Realisierung in Hardware- oder Software-Komponenten ist nicht an die durch Fig.l dargestellte Aufteilung gebunden.It should be noted that the block structure in Fig.l represents only a logical division. Implementation in hardware or software components is not tied to the division represented by FIG.
Fig.2 zeigt ein Blockdiagramm, das ein Verfahren zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache darstellt. Dazu werden in einem Schritt 201 die Schlüsselwörter modelliert. In einem Schritt 202 werden die Füllwörter modelliert. Daraufhin werden in einem Schritt 203 die Bestandteile der gesprochenen Sprache (Laute) nach Schlüsselwörtern und Füllwörtern getrennt. Die gefundenen Schlüsselwörter werden in einem Schritt 204 angezeigt.FIG. 2 shows a block diagram illustrating a method for recognizing predetermined keywords in spoken language. For this purpose, the keywords are modeled in a step 201. In a step 202, the filler words are modeled. Thereupon, in a step 203, the components of the spoken language (sounds) are separated according to key words and filler words. The keywords found are displayed in a step 204.
Fig.3 zeigt ein Blockdiagramm, das eine Möglichkeit zur Ermittlung der Füllwörter darstellt. Dazu wird die gesprochene Sprache 301 in Laute (Bestandteile) zerlegt und diese Laute werden der Häufigkeit nach sortiert (siehe Schritt 302) .3 shows a block diagram which represents a possibility for determining the filler words. For this purpose, the spoken language 301 is broken down into sounds (components) and these sounds are sorted according to their frequency (see step 302).
In einem Schritt 303 werden die n häufigsten Laute als Füllwörter bestimmt. Ein Laut 304 ist insbesondere ein Wort 305, eine Silbe 306, mehrere Wörter 307, ein Geräusch 308 oder eine Pause 309.In a step 303, the n most frequent sounds are determined as filler words. A sound 304 is particularly a word 305, a syllable 306, multiple words 307, a sound 308 or a pause 309.
Fig.4 zeigt eine Liste mit möglichen Füllwörtern. Die Füllwörter kommen bei natürlichsprachlichen Dialogen in der modellierten Sprache (z.B. Deutsch) häufig vor und eignen sich hervorragend zur Modellierung von NichtSchlüsselwörtern. Fig.4 zeigt beispielhaft eine Liste mit 1! Füllwörtern:Fig. 4 shows a list of possible filler words. The filler words are common in natural language dialogues in the modeled language (e.g. German) and are ideal for modeling non-key words. Fig. 4 shows an example of a list with 1! Fillers:
"ich - wir - das - ja - dann - da - und - den - ist - mir - am - der - also - bis - es - Uhr - noch - bei.""I - we - that - yes - then - there - and - that - is - me - on - that - that - until - it - o'clock - still - with."
In Fig.5 ist eine Recheneinheit 501 dargestellt. Die Recheneinheit 501 umfaßt einen Prozessor CPU 502, einenA computing unit 501 is shown in FIG. The computing unit 501 comprises a processor CPU 502, one
Speicher 503 und eine Input/Output-Schnittstelle 504, die über ein aus der Recheneinheit 501 herausgeführtes Interface 505 auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor 507 sichtbar und/oder auf einem Drucker 508 ausgegeben. Eine Eingabe erfolgt über eine Maus 509 oder eine Tastatur 510. Auch verfügt die Recheneinheit 501 über einen Bus 506, der die Verbindung von Speicher 503, Prozessor 502 und Input/Output-Schnittstelle 504 sicherstellt. Weiterhin ist es möglich, an den Bus 506 zusätzliche Komponenten anzuschließen: zusätzlicher Speicher, Festplatte, etc. Über das Interface 505 oder den Bus 506 ist es möglich, externe Geräte bzw. ein anderes auf einem weiteren Rechner ablaufendes Programm anzusteuern. Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert:Memory 503 and an input / output interface 504, which is used in different ways via an interface 505 led out of the computing unit 501: an output is visible on a monitor 507 and / or output on a printer 508 via a graphics interface. An input is made via a mouse 509 or a keyboard 510. The computing unit 501 also has a bus 506, which ensures the connection of memory 503, processor 502 and input / output interface 504. It is also possible to connect additional components to bus 506: additional memory, hard disk, etc. Via interface 505 or bus 506, it is possible to control external devices or another program running on another computer. The following publications have been cited in this document:
[1] A. Hauenstein: "Optimierung von Algorithmen und Entwurf eines Prozessors für die automatische Spracherkennung", Lehrstuhl für Integrierte Schaltungen, Technische[1] A. Hauenstein: "Optimization of algorithms and design of a processor for automatic speech recognition", Chair for Integrated Circuits, Technical
Universität München, Dissertation, 19.07.1993, Kapitel 2, Seiten 13-26.University of Munich, dissertation, July 19, 1993, chapter 2, pages 13-26.
[2] R. C. Rose: "Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition"; Computer, Speech and Language; 9 (1995); Seiten 309-333.[2] R. C. Rose: "Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition"; Computer, speech and language; 9 (1995); Pages 309-333.
[3] Junkawitsch, Neubauer, Höge, Ruske: "A new keyword spotting algorithm with pre-calculated optimal thresholds", Proc. Intern. Conference on Speech and Language Processing, 1996, Seiten 2067-2070.[3] Junkawitsch, Neubauer, Höge, Ruske: "A new keyword spotting algorithm with pre-calculated optimal thresholds", Proc. Intern. Conference on Speech and Language Processing, 1996, pages 2067-2070.
[4] M. Weintraub: "LVCSR Log-Likelihood Ratio Scoring for[4] M. Weintraub: "LVCSR log-likelihood ratio scoring for
Keyword-spotting", Proc. Intern. Conference on Acoustics, Speech and Signal Processing, 1995, Seiten 297-300.Keyword-spotting ", Proc. Intern. Conference on Acoustics, Speech and Signal Processing, 1995, pages 297-300.
[5] A. Hauenstein: "Optimierung von Algorithmen und Entwurf eines Prozessors für die automatische Spracherkennung", Lehrstuhl für Integrierte Schaltungen, Technische Universität München, Dissertation, 19.07.1993, Kapitel 3, Seiten 27-86. [5] A. Hauenstein: "Optimization of algorithms and design of a processor for automatic speech recognition", Chair for Integrated Circuits, Technical University of Munich, dissertation, July 19, 1993, Chapter 3, pages 27-86.

Claims

Patentansprüche claims
1. Verfahren zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache durch einen Rechner, a) bei dem die vorgegebenen Schlüsselwörter für die Erkennung modelliert werden, b) bei dem eine vorgegebene Menge von Füllwörtern modelliert wird, c) bei dem, wenn in der gesprochenen Sprache ein Schlüsselwort vorkommt, dieses Schlüsselwort erkannt wird, d) bei dem, wenn in der gesprochenen Sprache eine Übereinstimmung mit einem Füllwort ermittelt wird, kein Schlüsselwort erkannt wird.1. A method for recognizing predetermined keywords in spoken language by a computer, a) in which the predetermined keywords are modeled for recognition, b) in which a predetermined set of filler words is modeled, c) in when, in the spoken language Keyword occurs, this keyword is recognized, d) in which, if a match with a filler word is determined in the spoken language, no keyword is recognized.
2. Verfahren nach Anspruch 1, bei dem die vorgegebene Menge der Füllwörter kleiner 50 Wörter ist.2. The method of claim 1, wherein the predetermined amount of filler words is less than 50 words.
3. Verfahren nach Anspruch 1 oder 2, bei dem die vorgegebene Menge der Füllwörter aus einer vorgegebenen Anzahl häufigster Wörter der Sprache ermittelt wird.3. The method of claim 1 or 2, wherein the predetermined amount of filler words is determined from a predetermined number of the most common words in the language.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem bei Veränderung der vorgegebene Schlüsselwörter ein Füllwort, das ein Schlüsselwort ist, aus der Menge der Füllwörter gestrichen wird.4. The method according to any one of claims 1 to 3, wherein when changing the predetermined keywords, a filler word, which is a keyword, is deleted from the set of filler words.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem, wenn ein Füllwort mit einem Teil eines Schlüsselwortes übereinstimmt oder akustisch ähnlich ist, dieses Füllwort aus der Menge der Füllwörter gestrichen wird.5. The method according to any one of the preceding claims, in which, if a noise word matches a part of a keyword or is acoustically similar, this noise word is deleted from the set of noise words.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die in der gesprochenen Sprache erkannten Schlüsselwörter angezeigt und die erkannten Füllwörter nicht angezeigt werden.Method according to one of the preceding claims, in which those recognized in the spoken language Keywords are displayed and the recognized noise words are not displayed.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem mindestens ein Geräusch der Sprache modelliert und zu der Menge der Füllwörter hinzugefügt wird.7. The method according to any one of the preceding claims, wherein at least one sound of the speech is modeled and added to the set of noise words.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem mindestens eine Pause modelliert und zu der Menge der Füllwörter hinzugefügt wird.8. The method according to any one of the preceding claims, in which at least one pause is modeled and added to the set of noise words.
9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem ein medizinisches Gerät anhand der Schlüsselwörter gesteuert wird.9. The method according to any one of claims 1 to 8, in which a medical device is controlled using the keywords.
10. Verfahren nach einem der Ansprüche 1 bis 8, bei dem der Rechner anhand des Schlüsselwortes mit einem Benutzer interagiert, wobei vorgegeben Aktionen auf dem Rechner durchgeführt werden.10. The method according to any one of claims 1 to 8, wherein the computer interacts with a user using the keyword, predetermined actions being performed on the computer.
11. Verfahren nach einem der Ansprüche 1 bis 8, bei dem ein Gerät oder eine Anwendung der Kommunikationstechnik anhand der Schlüsselwörter gesteuert wird.11. The method according to any one of claims 1 to 8, in which a device or an application of the communication technology is controlled using the keywords.
12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Codewort eingerichtet wird, das anzeigt, daß ein Schlüsselwort folgt.12. The method according to any one of the preceding claims, in which a code word is set up, which indicates that a keyword follows.
13. Verfahren nach Anspruch 12, bei dem das Codewort als Füllwort modelliert wird.13. The method according to claim 12, wherein the code word is modeled as a filler word.
14. Vorrichtung zur Erkennung vorgegebener Schlüsselwörter in gesprochener Sprache mit einer Prozessoreinheit, die derart eingerichtet ist, daß a) die vorgegebenen Schlüsselwörter für die Erkennung modelliert werden, b) eine vorgegebene Menge von Füllwörtern modelliert wird, c) wenn in der gesprochenen Sprache ein Schlüsselwort vorkommt, dieses Schlüsselwort erkannt wird, d) wenn in der gesprochenen Sprache eine Übereinstimmung mit einem Füllwort ermittelt wird, kein Schlüsselwort erkannt wird.14. Device for recognizing predetermined keywords in spoken language with a processor unit, which is set up in such a way that a) the predefined keywords for the recognition are modeled, b) a predefined set of filler words is modeled, c) if a keyword occurs in the spoken language, this keyword is recognized, d) if a match with a filler word is determined in the spoken language no keyword is recognized.
15. Vorrichtung nach Anspruch 14, bei der die Prozessoreinheit derart eingerichtet ist, daß die vorgegebene Menge der Füllwörter klein ist.15. The apparatus of claim 14, wherein the processor unit is set up such that the predetermined amount of noise is small.
16. Vorrichtung nach Anspruch 14 oder 15, bei der die Prozessoreinheit derart eingerichtet ist, daß die vorgegebene Menge der Füllwörter aus einer vorgegebenen Anzahl der häufigsten Wörter einer Sprache ermittelbar ist. 16. The apparatus of claim 14 or 15, wherein the processor unit is set up such that the predetermined amount of filler words can be determined from a predetermined number of the most common words in a language.
EP99945842A 1998-07-23 1999-07-01 Method and device for recognizing predetermined key words in spoken language Withdrawn EP1097447A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19833212 1998-07-23
DE19833212 1998-07-23
PCT/DE1999/001971 WO2000005709A1 (en) 1998-07-23 1999-07-01 Method and device for recognizing predetermined key words in spoken language

Publications (1)

Publication Number Publication Date
EP1097447A1 true EP1097447A1 (en) 2001-05-09

Family

ID=7875090

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99945842A Withdrawn EP1097447A1 (en) 1998-07-23 1999-07-01 Method and device for recognizing predetermined key words in spoken language

Country Status (3)

Country Link
US (1) US20010016814A1 (en)
EP (1) EP1097447A1 (en)
WO (1) WO2000005709A1 (en)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355912B1 (en) * 2000-05-04 2013-01-15 International Business Machines Corporation Technique for providing continuous speech recognition as an alternate input device to limited processing power devices
GB0027830D0 (en) * 2000-11-14 2000-12-27 Calder Robert M Anti social behaviour
US7797159B2 (en) * 2002-09-16 2010-09-14 Movius Interactive Corporation Integrated voice navigation system and method
US9129290B2 (en) 2006-02-22 2015-09-08 24/7 Customer, Inc. Apparatus and method for predicting customer behavior
US8396741B2 (en) 2006-02-22 2013-03-12 24/7 Customer, Inc. Mining interactions to manage customer experience throughout a customer service lifecycle
US7761321B2 (en) * 2006-02-22 2010-07-20 24/7 Customer, Inc. System and method for customer requests and contact management
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US8370127B2 (en) * 2006-06-16 2013-02-05 Nuance Communications, Inc. Systems and methods for building asset based natural language call routing application with limited resources
EP2608196B1 (en) * 2011-12-21 2014-07-16 Institut Telecom - Telecom Paristech Combinatorial method for generating filler words
CN103971678B (en) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 Keyword spotting method and apparatus
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN109994106B (en) * 2017-12-29 2023-06-23 阿里巴巴集团控股有限公司 Voice processing method and equipment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0005709A1 *

Also Published As

Publication number Publication date
WO2000005709A1 (en) 2000-02-03
US20010016814A1 (en) 2001-08-23

Similar Documents

Publication Publication Date Title
DE69923191T2 (en) INTERACTIVE USER INTERFACE WITH LANGUAGE RECOGNITION AND NATURAL LANGUAGE PROCESSING SYSTEM
EP0925461B1 (en) Process for the multilingual use of a hidden markov sound model in a speech recognition system
DE69834553T2 (en) ADVANCED VOICE RECOGNITION SYSTEM WITH AN AUDIO FEEDBACK
DE69829235T2 (en) Registration for speech recognition
DE60016722T2 (en) Speech recognition in two passes with restriction of the active vocabulary
DE112018002857T5 (en) Speaker identification with ultra-short speech segments for far and near field speech support applications
DE10111056B4 (en) Method and apparatus for identifying a non-target language in a speech recognition system
DE69814104T2 (en) DISTRIBUTION OF TEXTS AND IDENTIFICATION OF TOPICS
DE69827988T2 (en) Speech models for speech recognition
DE69822296T2 (en) PATTERN RECOGNITION IN A DISTRIBUTED SYSTEM
DE60215272T2 (en) Method and apparatus for inputting linguistic data under unfavorable conditions
DE60124559T2 (en) DEVICE AND METHOD FOR LANGUAGE RECOGNITION
DE602005000308T2 (en) Device for voice-controlled applications
DE69819438T2 (en) Speech recognition method
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
WO2000005709A1 (en) Method and device for recognizing predetermined key words in spoken language
EP1084490B1 (en) Arrangement and method for computer recognition of a predefined vocabulary in spoken language
WO2005013261A1 (en) Speech recognition method, and communication device
EP0925579A1 (en) Process for adaptation of a hidden markov sound model in a speech recognition system
WO2006111230A1 (en) Method for the targeted determination of a complete input data set in a voice dialogue system
DE60034772T2 (en) REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION
DE60128372T2 (en) METHOD AND SYSTEM FOR IMPROVING ACCURACY IN A LANGUAGE IDENTIFICATION SYSTEM
EP1078355B1 (en) Method and array for introducing temporal correlation in hidden markov models for speech recognition
EP0987682B1 (en) Method for adapting linguistic language models
DE112006000225T5 (en) Dialog system and dialog software

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010116

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Withdrawal date: 20011029