DE10124762A1

DE10124762A1 - Method for training and operating a voice recognizer, esp. for mobile-phones and hand-held computers, involves processing noise-loaded spoken statement by trained neuronal network

Info

Publication number: DE10124762A1
Application number: DE2001124762
Authority: DE
Inventors: Steffen Harengel
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 2001-05-21
Filing date: 2001-05-21
Publication date: 2002-12-19
Anticipated expiration: 2021-05-22
Also published as: DE10124762B4

Abstract

A voice recognizer training and operation procedure including noise identification, involves receiving several noise samples from a number of typical noise environments and then computing acoustic features from the noise samples in a training phase, and then with the noise samples a neuronal network of the voice recognition is trained and during operation of the voice recognition a noise-loaded spoken statement is processed by means of the trained neuronal network and by accessing the noise features data-base, where the acoustic features of the noise environment of the speaker are subtracted. An Independent claim is given for a voice recognizer, especially for speaker-independent voice recognition

Description

Die Erfindung betrifft ein Verfahren zum Training und Betrieb eines Spracherkenners mit Geräuschidentifikation, welches ei ne Basis zur Erzielung einer Geräuschreduktion schafft, sowie einen dieses Verfahren realisierenden Spracherkenner.The invention relates to a method for training and operation a speech recognizer with noise identification, which ei ne basis for achieving a noise reduction, as well a speech recognizer implementing this method.

Nachdem die Spracheingabe für Textprogramme sowie die Sprach steuerung von Gerätefunktionen sich bei PCs seit Jahren be währt und einen hohen Grad an Erkennungsgenauigkeit erreicht hat, wird sie seit kurzem verstärkt auch bei einfacheren End geräten von Telekommunikations- bzw. Datennetzen, insbesonde re Mobiltelefonen und Handheld-PCs und PDAs (Personal Digital Assistants) eingesetzt. Entsprechende Geräte sind bereits auf dem Markt erhältlich. Die Sprachsteuerung bietet hier einen erhöhten Bedienkomfort bei der Aktivierung häufig benötigter Funktionen bzw. beim Wählen häufig benutzter Rufnummern.After the voice input for text programs as well as the voice Control of device functions on PCs for years lasts and achieves a high degree of recognition accuracy has recently been reinforced even with simpler end devices of telecommunications or data networks, in particular re Mobile phones and handheld PCs and PDAs (Personal Digital Assistants). Appropriate devices are already on available on the market. The voice control offers one here Increased ease of use when activating frequently required Functions or when dialing frequently used phone numbers.

Die Spracherkennung auf derartigen Endgeräten beruht in der Regel auf Algorithmen der sprecherabhängigen Spracherkennung. Bei diesen Verfahren muß der Wortschatz durch Einsprechen al ler Worte seitens des Benutzers trainiert werden.The speech recognition on such devices is based on Rule based on speaker-dependent speech recognition algorithms. In these procedures, the vocabulary must be pronounced by speaking al words are trained by the user.

Im Gegensatz dazu erlauben sprecherunabhängige Spracherken nungsverfahren den sofortigen Einsatz ohne Initialisierung, den sogenannten Enrollment-Prozeß. Einfachere, relativ preis werte Endgeräte ("Low-Cost"-Geräte) verfügen bereits über re lativ leistungsfähige Mikrocontroller oder Mikroprozessoren mit hoher Rechenleistung, so daß für die nächsten Jahre eine Ablösung der unbequemeren sprecherabhängigen Spracherkennung bei derartigen Geräten durch die hinsichtlich der benötigten Verarbeitungsleistung aufwendigere sprecherunabhängige Spracherkennung zu erwarten steht. Diese hat im übrigen den Vorteil, daß der Wortschatz nicht a priori bekannt sein muß - was bestimmte Anwendungen überhaupt erst möglich macht.In contrast, speaker-independent speech recognition allows the immediate use without initialization, the so-called enrollment process. Simpler, relatively inexpensive Valuable end devices ("low-cost" devices) already have re relatively powerful microcontrollers or microprocessors with high computing power, so that for the next few years a Replacement of the more inconvenient speaker-dependent speech recognition in such devices by the required Processing performance more elaborate speaker-independent Speech recognition is expected. Incidentally, this has the Advantage that the vocabulary does not have to be known a priori - which makes certain applications possible in the first place.

Grundsätzlich besteht bei allen Spracherkennern das Problem, daß bei wesentlichen akustischen Abweichungen des im Betrieb zu verarbeitenden Sprachdatenmaterials vom in der Trainings phase benutzten Sprachdatenmaterial die Erkennungsleistung stark absinken kann. Dieser auch als Mismatch-Problem be zeichnete Umstand tritt besonders ausgeprägt bei einem Be trieb des Spracherkenners in einer stark geräuschbelasteten Umgebung (beispielsweise im fahrenden Kraftfahrzeug, in Pro duktionsanlagen, auf dem Bau, in Callcenter o. ä.) auf, aber auch bei Betrieb eines Spracherkenners durch Personen mit Stimmfärbungen und/oder Mundarten, die in dem in der Trai ningsphase verwendeten Sprachmaterial nicht vertreten waren.Basically, the problem with all speech recognizers is that in the event of significant acoustic deviations in operation language data material to be processed in the training phase used speech data material the recognition performance can drop sharply. This also be a mismatch problem The marked circumstance is particularly pronounced in a case drove the speech recognizer into a very noisy place Environment (for example in a moving motor vehicle, in Pro production facilities, under construction, in call centers or similar), but even if a speech recognizer is operated by people with Vocalizations and / or dialects in the trai language material used during the ning phase were not represented.

Während bei der sprecherabhängigen Spracherkennung die später im Betrieb zu erkennenden Worte vom Benutzer selbst und daher normalerweise in der Umgebung eingesprochen werden, die auch die spätere Betriebsumgebung darstellt, kann dies bei der sprecherunabhängigen Spracherkennung natürlich nicht gewähr leistet werden. Das Training wird hier im Labor vom Technolo gielieferanten mit Datenbasen durchgeführt, die eine Vielzahl von durch unterschiedliche Sprecher erzeugten Sprachproben enthalten. Auch hier wird versucht, der Betriebsumgebung be reits beim Training Rechnung zu tragen. Geht es beispielswei se bei dem Spracherkenner um Telefonanwendungen, werden zum Training der akustischen Modelle "Telefondatenbasen" einge setzt. Wird ein so trainierter Spracherkenner jedoch in einer gänzlich anderen Umgebung eingesetzt - im Beispiel statt bei einer Telefonanwendung also etwa im fahrenden Kraftfahrzeug -, so sinkt die Erkennungsleistung infolge des akustischen Mismatch zwischen Trainings- und Betriebssituation dramatisch ab.While with speaker-dependent speech recognition the later Words to be recognized in operation by the user himself and therefore normally be spoken to in the area that too represents the later operating environment, this can be done at the speaker-independent speech recognition is of course not guaranteed to be achieved. The training is done here in the laboratory by Technolo suppliers with databases carried out a variety of speech samples generated by different speakers contain. Again, an attempt is made to be the operating environment to take into account during training. For example se in the speech recognizer for telephone applications, become Training of acoustic models "telephone databases" turned on puts. However, if such a speech recognizer is trained in one completely different environment - in the example instead of a telephone application, for example in a moving motor vehicle -, the recognition performance drops due to the acoustic Mismatch between training and operational situation dramatically from.

Mittlerweile werden Spracherkennungssysteme auf verschiedens ten Plattformen (PC, PDA, Handy, etc.) und in allen möglichen Umgebungen (z. B.: Auto, Büro, Industrie, beliebiger Standort eines mobilen Gerätes: PDA, Handy) eingesetzt. In vielen Um gebungen gibt es Störgeräusche, die die Spracherkennung er schweren. Mit Hilfe von geeigneten Algorithmen zur Geräusch reduktion soll die Erkennungsleistung von Spracherkennungs systemen verbessert werden.Meanwhile, speech recognition systems are on different platforms (PC, PDA, cell phone, etc.) and in all possible Environments (e.g. car, office, industry, any location a mobile device: PDA, cell phone). In many order There are interfering noises that the speech recognition heavy. With the help of suitable algorithms for noise Reduction is supposed to be the recognition performance of speech recognition systems are improved.

Die Geräuschidentifikation liefert hierbei eine Aussage über die Geräuschart bzw. -umgebung. Dadurch ermöglicht sie die Auswahl der geeigneten Geräuschkompensation: entweder per Fremdprodukt oder durch die Geräuschanpassung des Verfahrens selbst. Weiterhin ist ein "schritthaltender" Einsatz möglich, d. h. bei einem Wechsel der Geräuschumgebung stellt das Sys tem die neue Umgebung fest.The noise identification provides information about this the type of noise or environment. This enables it Selection of the appropriate noise compensation: either by Third party product or through the noise adjustment of the process itself. Furthermore, "step-by-step" use is possible, d. H. when the noise environment changes, the Sys the new environment.

Die Geräuschanpassung stellt eine Geräuschreduktion/-kompen sation für vielfältige Spracherkennungssysteme zur Verfügung. Dadurch wird eine bessere Anpassung des Spracherkenungs systems an die Umgebung erzielt und die Erkennungsleistung erhöht: Gesprochene Äußerungen werden besser erkannt, und au ßerdem gibt es weniger Fehlerkennungen, die aus der Erkennung von Störgeräuschen resultieren.The noise adjustment represents a noise reduction / compensation available for a wide range of speech recognition systems. This will make better speech recognition adjustment systems to the environment and the recognition performance increased: spoken utterances are better recognized, and also There are also fewer error detections that result from detection result from noise.

Beide Komponenten (Geräuschidentifikation und Geräuschanpas sung) können in einer einmaligen Trainingsphase an beliebige Geräuschumgebungen angepaßt werden.Both components (noise identification and noise adjustment solution) in a one-time training phase to anyone Noise environments can be adapted.

Es gibt im Stand der Technik kaum Verfahren zur Identifikati on von Geräuschumgebungen, da diese nur im Zusammenhang mit einer Geräuschreduktion Sinn machen.There are hardly any methods of identification in the prior art on of noise environments, as these are only in connection with of noise reduction make sense.

Filtersysteme versuchen die Störgeräusche aus dem Audiokanal herauszufiltern. Hierbei werden in der "Ruhephase", d. h. wenn keine Äußerung vom Benutzer eingesprochen wird, die Fil terkoeffizienten so an den Audiokanal angepaßt, daß des an liegende Hintergrundgeräusch kompensiert wird. Sobald der Be nutzer eine Äußerung spricht, werden die Filterkoeffizienten ohne weitere Veränderung angewandt, und das Filter versucht, die Hintergrundgeräusche zu kompensieren. Im Idealfall soll des Sprachsignal ohne Störgeräusche erhalten werden, welches der nachfolgenden Erkennerkomponente zugeführt wird.Filter systems try the noise from the audio channel filter out. Here, in the "resting phase", H. if no statement is made by the user, the fil adapted to the audio channel so that the an lying background noise is compensated. As soon as the Be User speaks an utterance, the filter coefficients applied without further change, and the filter tries to compensate for the background noise. Ideally, should of the speech signal can be obtained without noise, which the subsequent recognition component is fed.

Hierfür ist kein Training an die Geräuschumgebung erforder lich, da sich das Filter von alleine einschwingt, und vor teilhaft ist auch die einfache Realisierung von Filtersyste men. Nachteilig ist, daß das Filter Einschwingzeit benötigt und zur Anpassung der Filterkoeffizienten eine gute Unter scheidung zwischen "Ruhe-" und "Sprachphase" erforderlich ist. Die Eigenschaften des Erkennungssystems werden zudem kaum berücksichtigt, d. h. es wird nicht berücksichtigt, daß es Störgeräusche gibt, die einen stärkeren bzw. schwacheren Einfluß auf Fehlerkennungen haben.No training in the noise environment is required for this Lich, since the filter settles by itself, and before the simple implementation of filter systems is also a part men. The disadvantage is that the filter requires settling time and a good sub to adjust the filter coefficients distinction between "rest" and "speech phase" required is. The characteristics of the detection system are also hardly considered, d. H. it is not considered that there is noise that is stronger or weaker Have an influence on error detection.

Das Verfahren der HMM-Geräuschadaption liefert sehr gute Er gebnisse zur Geräuschreduktion. Hierbei wird des Hidden- Markov-Modell (HMM), welches die akustische Modellierung für des Spracherkennungssystem enthält, an die Geräuschumgebung angepaßt. Dazu wird in einer Trainingsphase des System an ge räuschbehaftete Äußerungen (gesprochene Äußerung mit Störge räusch) adaptiert. Diese geräuschbehafteten Äußerungen müssen vor der Trainingsphase gesammelt werden (z. B. als Aufzeich nung per DAT-Rekorder). Für ein sprecherunabhängiges Sprach erkennungssystem ist die Aufzeichnung der geräuschbehafteten Äußerungen vieler Sprecher erforderlich, sonst droht der Ver lust der Sprecherunabhängigkeit.The method of HMM noise adaptation delivers very good Er results for noise reduction. Here the hidden Markov model (HMM), which is the acoustic modeling for of the speech recognition system contains to the noise environment customized. To do this, the system is trained in a training phase noisy utterances (spoken utterance with Störge noise) adapted. These noisy statements must be collected before the training phase (e.g. as a record via DAT recorder). For a speaker-independent language detection system is the recording of the noisy Statements by many speakers are required, otherwise the Ver lust for speaker independence.

Während das Verfahren einerseits eine sehr gute Geräuschre duktion liefert, hat es andererseits erhebliche Nachteile: In der Praxis ist eine Anpassung nur an eine spezifische Ge räuschumgebung möglich, da der Trainingsaufwand sonst zu hoch würde. Es funktioniert nur mit einem Erkennungssystem, da die HMM-Struktur nicht standardisiert ist. Der Trainingsaufwand ist hoch, da viel Trainingsmaterial (geräuschbehaftete Äuße rungen) benötigt wird. On the one hand, the process made a very good noise on the other hand, it has considerable disadvantages: In in practice an adaptation is only to a specific Ge possible in a noisy environment, otherwise the training effort would be too high would. It only works with a detection system because the HMM structure is not standardized. The training effort is high because there is a lot of training material (noisy exterior stakes) is required.

Der Erfindung liegt daher die Aufgabe zugrunde, ein verbes sertes Verfahren der gattungsgemäßen Art anzugeben, welches einerseits die Grundlage für eine hocheffiziente Geräuschre duktion - speziell auch unter verschiedenartigen Geräuschum gebungen - bietet und andererseits mit vergleichsweise gerin gem Aufwand sowohl in der Trainings- als auch der Betriebs phase in verschiedenen Spracherkennern implementiert werden kann. Weiterhin soll ein entsprechender Spracherkenner ange geben werden.The invention is therefore based on the object, a verbes specify method of the generic type, which on the one hand, the basis for a highly efficient noise control production - especially under different types of noise gebungen - offers and on the other hand with comparatively little according to effort in both training and operations phase can be implemented in different speech recognizers can. Furthermore, a corresponding speech recognizer is said to be will give.

Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und in ihrem Vorrichtungsaspekt durch einen Spracherkenner mit den Merkmalen des Anspruchs 11 gelöst.This task is regarding its procedural aspect by a method having the features of claim 1 and in their device aspect by a speech recognizer with the Features of claim 11 solved.

Die Erfindung löst das technische Problem, indem die charak teristischen akustischen und zeitlichen Eigenschaften der Ge räusche zu den jeweiligen Geräuschumgebungen gelernt werden. Nach der Lernphase wird dieses Wissen verwendet, um die Ge räuschumgebung zu identifizieren.The invention solves the technical problem by the charak teristic acoustic and temporal properties of the Ge noises can be learned for the respective noise environments. After the learning phase, this knowledge is used to understand the Ge identify the noise environment.

Das Verfahren muß dazu in einer einmaligen Trainingsphase die Geräusche der jeweiligen Geräuschumgebungen erlernen. Hierzu muß zunächst Trainingsmaterial von den zu erlernenden Ge räuschumgebungen (Geräuschproben) gesammelt werden. Dazu wer den die Geräusche mit oder ohne Sprache von den verschiedenen Geräuschumgebungen als Audiodateien aufgezeichnet. Aus diesen Audiodateien werden nun die akustischen Merkmale berechnet.The procedure must be carried out in a one-off training phase Learn the sounds of the respective noise environment. For this must first training material from the Ge to be learned noise environments (noise samples) are collected. About who which the sounds with or without speech from the different Noise environments recorded as audio files. From these Audio files are now calculated the acoustic characteristics.

Es ist vorteilhaft, für diese Merkmalsextraktion die Vorver arbeitung des Spracherkenners zu verwenden, besonders im Hin blick auf eine nachfolgende Geräuschanpassung eines Spracher kennungssystems, da diese ebenfalls die Vorverarbeitung benö tigt. Eine Vorverarbeitung wird von jedem Spracherkennungs system durchgeführt. Das Audiosignal (die Geräuschprobe) wird hierbei in Zeitfenster zerlegt, und für jedes Zeitfenster werden die akustischen Merkmale des Sprachsignals berechnet. Diese Merkmale werden normalerweise für die nachfolgenden Spracherkennungskomponenten benötigt. Für das vorgeschlagene Verfahren werden nun diese Merkmale für die Identifikation der Geräuschumgebung herangezogen.It is advantageous to use the previous ver for this feature extraction to use the work of the speech recognizer, especially in the outward direction look at a subsequent speech adaptation of a speech identification system, since this also requires preprocessing Untitled. Preprocessing is done by every speech recognition system implemented. The audio signal (the noise test) will broken down into time slots, and for each time slot the acoustic characteristics of the speech signal are calculated. These features are usually used for the following Speech recognition components needed. For the proposed These features are now used for identification the noise environment.

Die ermittelten Merkmale pro Zeitfenster bilden zusammen mit der Geräuschumgebungsinformation das Trainingsmaterial. Das Wissen, welches im Trainingsmaterial enthalten ist (Geräusche und die zeitliche Dynamik des Geräuschverlaufs), wird nun mit Hilfe eines neuronalen Netzes (NN) erlernt. Als Eingangskno ten in dem NN werden die Merkmale für mehrere aufeinanderfol gende Zeitfenster angelegt. Bei dem Training des NN wird die korrekte Information über die Geräuschumgebung dem neuronalen Netz als Zielwert für den Ausgabeknoten vorgegeben.The characteristics determined per time window form together with the training material. The Knowing what is included in the training material (noises and the temporal dynamics of the noise curve) is now included Learned with the help of a neural network (NN). As an entry point The features in the NN are consecutive for several time window. When training the NN, the correct information about the neural environment Network specified as the target value for the output node.

Für das neuronale Netz wird bevorzugt ein Multilayer-Perzep tron (MLP) verwendet. Hierbei handelt es sich um ein schicht orientiertes, vorwärtsgerichtetes (feed forward) Netz mit Vollvermaschung zwischen den einzelnen Schichten. Als Akti vierungsfunktion wird die Sigmoidfunktion Sc(x)oder tanh(x) verwendet. Welche von den beiden Aktivierungsfunktionen ver wendet wird oder wieviele Schichten des NN hat, spielen für des Verfahren keine Rolle. Es muß lediglich für eine gute Trainingsgenauigkeit die Anzahl der variablen Parameter aus reichend groß sein. Dies kann erreicht werden durch mehrere Schichten bzw. durch eine höhere Anzahl von Neuronen in den/der versteckten Schicht(en).A multilayer percep is preferred for the neural network tron (MLP) used. This is a layer oriented, forward (feed forward) network with Full meshing between the individual layers. As an act function is the sigmoid function Sc (x) or tanh (x) used. Which of the two activation functions ver or how many layers of the NN are playing for the process does not matter. It just has to be for good Training accuracy the number of variable parameters be big enough. This can be achieved through several Layers or by a higher number of neurons in the hidden layer (s).

In der Regel wird beim NN-Training als Lernregel "Error Backpropagation" verwendet. Bei diesem Verfahren wird der mittlere quadratische Fehler minimiert. Des NN wird mit den Trainingsmustern in mehreren Iterationen trainiert.As a rule, "Error Backpropagation "is used. This method uses the minimized mean square errors. The NN is with the Training patterns trained in multiple iterations.

Durch die Verwendung von Merkmalen von mehreren aufeinander folgenden Zeitfenstern als Eingangsknoten, erlernt das NN auch instationäre Geräusche, d. h. diese weisen einen zeitlichen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräu sche, etc.).By using features of several on top of each other following time slots as input nodes, the NN learns also transient noises, d. H. these indicate a temporal Noise curve on (e.g .: hammer blows, siren sounds cal, etc.).

Im Anwendungsfall (Betrieb) besteht das System aus einem Au diokanal, der gewählten Merkmalsextraktion, die auch in der Trainingsphase verwendet wurde, und aus dem gelernten NN. Mit Hilfe der Umgebungsinformation, die das NN liefert, kann zum Beispiel eine Auswahl des passenden Geräuschreduktionsverfah rens vorgenommen werden.In the application (operation), the system consists of an Au diokanal, the selected feature extraction, which is also in the Training phase was used, and from the learned NN. With The environmental information provided by the NN can be used to Example a selection of the appropriate noise reduction method rens can be made.

Es werden permanent Audiodaten, die in der Regal per Mikro phon (Audiokanal) bereitgestellt werden, dem System zuge führt. Die Audiodaten werden dabei der Merkmalsextraktion un terzogen. Man erhält dadurch in gewissen Zeitabständen (ab hängig von der Zeitfensterbreite der Merkmalsextraktion) a kustische Merkmale. Mehrere von diesen jeweils zeitlich auf einanderfolgenden Merkmalen werden an die Eingangsschicht des NN gelegt, und das NN berechnet die zugehörige Geräuschumge bung (Ausgangsknoten).There is permanent audio data that is on the shelf by micro phon (audio channel) are provided to the system leads. The audio data become the feature extraction un terzogen. This gives you at certain intervals (from dependent on the time window width of the feature extraction) a acoustic features. Several of these each timed successive features are applied to the input layer of the NN placed, and the NN calculates the associated noise exercise (exit node).

Da die Eingangsschicht des NN nur relativ kurze zeitliche Ab hängigkeiten erfaßt, ist es sinnvoll, die NN-Ausgangsinforma tion (Geräuschumgebung) aufzusammeln (sampling). Durch ein einfache Analyse dieser zeitlich aufeinanderfolgenden Aus gangsinformationen kann ein Wechsel der Geräuschumgebung festgestellt werden. Dies kann dadurch erreicht werden, daß ein Wechsel der Geräuschumgebung nur signalisiert wird, wenn mindestens ein vorbestimmter Anteil x der Ausgangsinformatio nen der letzten y Sekunden die gleiche Ausgangsinformation liefern. Die Parameter x und y sind hierbei, je nach Ge räuschumgebung, sinnvoll festzulegen. Durch diese zusätzliche Analyse wird verhindert, daß ein Geräuschumgebungswechsel nicht sofort bei einer kurzen Ruhepause signalisiert wird (z. B. in einer Pause zwischen Hammerschlägen).Since the input layer of the NN only has a relatively short time Ab dependencies, it makes sense to use the NN output information tion (noise environment). Through a simple analysis of this successive time out gangsinformation can be a change in the noise environment be determined. This can be achieved in that a change in the noise environment is only signaled if at least a predetermined portion x of the output information the same output information for the last y seconds deliver. The parameters x and y are, depending on the Ge noise environment, sensible to define. Through this additional Analysis prevents a noise environment change is not signaled immediately during a short break (e.g. in a break between hammer blows).

Wesentliche Vorteile der vorgeschlagenen, bevorzugten Lösung sind folgende:
The main advantages of the proposed preferred solution are as follows:

- There are stationary (e.g.: uniform background roughness ) and unsteady noises (e.g. hammer blows) known.
- An interaction with other noise reduction methods is easily possible. For example, according to Iden tification of the noise environment (e.g. car), a filter system selected for noise reduction for speech recognizers the one that is specially designed for this environment. This is particularly interesting for mobile devices.
- A change in the noise environment is recognized.
- The invention enables use with any Speech recognition systems, if standardization of the Preprocessing is done.

In einer zweckmäßigen Fortbildung löst die Erfindung das an gegebene technische Problem, indem die charakteristischen a kustischen und zeitlichen Eigenschaften der Geräusche mit der Wechselwirkung von gesprochener Sprache in einer gewählten Geräuschumgebung gelernt werden. Nach der Lernphase wird die ses Wissen verwendet, um die Geräuschanpassung eines Spracherkennungssystems an diese Geräuschumgebung auszufüh ren.The invention solves this in a practical training given technical problem by the characteristic a acoustic and temporal characteristics of the noise with the Interaction of spoken language in a chosen one Noise environment can be learned. After the learning phase, the This knowledge is used to adjust the noise level Speech recognition system to perform in this noise environment ren.

Das Verfahren muß dazu in einer einmaligen Trainingsphase des Wissen erlernen, wie die akustischen Merkmale von gesproche nen geräuschbehafteten Äußerungen in Merkmale transformiert werden, die nur die gesprochene Information - ohne Störgeräu sche - repräsentieren. Zunächst muß das Trainingsmaterial ge sammelt werden. Dazu werden Audiodaten von gesprochenen Äuße rungen von mehreren Sprechern ohne Störgeräusche benötigt (erste akustische Datenbasis). Weiterhin werden Audiodaten von den Geräuschen ohne Sprache von der gewählten Geräuschum gebung benötigt (zweite akustische Datenbasis). Als nächstes wird der erste Datensatz mit dem zweiten Datensatz so aufbe reitet, daß ein neuer (dritter) Datensatz entsteht, der so gut wie möglich die gesprochenen geräuschbehafteten Äußerungen repräsentiert, wie sie in der Realität in der gewählten Geräuschumgebung vorkommen.The procedure must be in a one-off training phase of the Learn how to talk about the acoustic characteristics noisy statements transformed into features that are only the spoken information - without noise sche - represent. First, the training material must be ge be collected. These are audio data from spoken utterances required by several speakers without background noise (first acoustic database). Furthermore, audio data from the noises without speech from the chosen noise required (second acoustic database). Next the first data record is processed with the second data record rides that a new (third) record is created, the so as good as possible the spoken noisy utterances represents how they are chosen in reality in reality Noise environment.

Durch die Verwendung geräuschbehafteter Sprachproben von meh reren Sprechern wird eine Sprecherabhängigkeit des Geräusch anpassungs-Verfahrens vermieden. Die Wahl der gesammelten Äu ßerungen (Sprachproben) soll nach Möglichkeit phonetisch aus gewogen sein, damit möglichst alle Phoneme und ihre Wechsel wirkung zu den Geräuschen gut trainiert werden können. Es ist aber nicht erforderlich, daß in der späteren Anwendung die selben Äußerungen (Wörter) vorkommen wie in der Trainingspha se.By using noisy speech samples from meh Other speakers become a speaker dependency of the noise adjustment procedure avoided. The choice of the collected AU If possible, speeches should be phonetic be weighed so that as possible all phonemes and their changes effect on the sounds can be trained well. It is but it is not necessary that the same utterances (words) occur as in the training phase se.

Aus dem ersten und dritten Datensatz werden nun die akusti schen Merkmale für jedes Zeitfenster berechnet. Hierbei wird zur Merkmalsextraktion die Vorverarbeitung des Spracherken ners verwendet. Man erhält dadurch des Trainingsmaterial für des NN.The acousti characteristics for each time window. Here will preprocessing speech recognition for feature extraction ners used. This gives you the training material for of the NN.

An die Eingangsknoten des NN werden mehrere zeitlich aufein anderfolgende Merkmale des dritten Datensatzes (geräuschbe haftete Äußerungen) angelegt. Bei dem Training des NN werden die Merkmale des ersten Datensatzes (Äußerung ohne Geräusche) dem NN als Zielwerte für die Ausgabeknoten vorgegeben. Hier bei entspricht des Ausgangsmerkmal dem zugehörigen mittleren Knoten der Eingangsschicht, d. h. des NN lernt die Transfor mation des geräuschbehafteten Merkmals (mittlerer Knoten der Eingangsschicht) zu dem zugehörigen Merkmal ohne Geräusche (Ausgangsknoten). Die anderen Knoten der Eingangsschicht sind zeitlich benachbarte geräuschbehaftete Merkmale, die ein Er lernen des zeitlichen dynamischen Geräuschverlaufs ermögli chen.At the input nodes of the NN, several are timed other features of the third data set (noise liable statements). When training the NN the characteristics of the first data set (utterance without noise) given to the NN as target values for the output nodes. here at corresponds to the starting characteristic the corresponding middle Node of the input layer, i.e. H. the NN learns the Transfor mation of the noisy feature (middle node of the Input layer) to the associated characteristic without noise (Output node). The other nodes of the input layer are temporally adjacent noisy features that an Er learn the temporal dynamic noise course chen.

Für des neuronale Netz (NN) wird wiederum ein Multilayer- Perzeptron (MLP) mit der Lernregel "Error Backpropagation" verwendet, wie weiter oben erläutert. For the neural network (NN), a multilayer Perceptron (MLP) with the learning rule "Error Backpropagation" used as explained above.

Durch die Verwendung von Merkmalen von mehreren aufeinander folgenden Zeitfenstern als Eingangsknoten, erlernt des NN auch die Geräuschanpassung von instationären Geräuschen, d. h. diese weisen einen zeitlichen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräusche, etc.).By using features of several on top of each other following time slots as input nodes, learned by the NN also the noise adaptation of transient noises, d. H. these have a temporal noise profile (e.g .: Hammer blows, siren noises, etc.).

Dies wird erreicht durch eine nichtlineare Aktivierungsfunk tion des NN-Knoten. Dadurch ist es möglich auch nichtlineare Zusammenhänge zwischen Sprache und Geräuschen zu erlernen.This is achieved through a non-linear activation radio tion of the NN node. This makes it possible to use non-linear ones To learn relationships between language and sounds.

Im Anwendungsfall (Betrieb) besteht das Gesamtsystem aus ei nem Audiokanal, der Vorverarbeitung (Merkmalsextraktion) des Spracherkenners, dem gelernten NN und dem nachgeschalteten Spracherkenner, der auf die Merkmale aufsetzt, welche vom NN geliefert werden. Die weitere Verarbeitung entspricht der bei der Geräuschidentifikation; siehe weiter oben. Soll die Ge räuschanpassung für mehrere Geräuschumgebungen durchgeführt werden, muß für jede Geräuschumgebung ein neues NN trainiert werden.In the application (operation), the overall system consists of egg nem audio channel, the preprocessing (feature extraction) of the Speech recognizer, the learned NN and the downstream Speech recognizer, who builds on the characteristics that the NN to be delivered. The further processing corresponds to that of the noise identification; see above. Should the Ge noise adjustment performed for multiple noise environments a new NN must be trained for each noise environment become.

Nachstehend wird die Erfindung an zwei Anwendungen näher er läutert:Below, the invention is closer to two applications explained:

1. Voice data acquisition system for industrial applications (Bei game: warehouse management)

In diesem Szenario soll für die Geräuschumgebung eines Teil lagers ein PC-Sprachdatenerfassungssystem eingesetzt werden. Hierzu wird für diese Geräuschumgebung einmalig das nötige Trainingsmaterial in der Lagerhalle aufgenommen und das Trai ning für des NN für die Geräuschanpassung durchgeführt.In this scenario, a part is intended for the noise environment a PC voice data acquisition system can be used. For this, the necessary for this noise environment is unique Training material recorded in the warehouse and the trai ning for the NN carried out for the noise adaptation.

In der Anwendungsphase spricht der Benutzer z. B. die Äuße rung "Posten 4, Lagerbestand 27" in das Mikrofon. Die Sound karte des PC digitalisiert die Äußerung. Die Vorverarbeitung berechnet aus diesen Audiodaten die zeitlich aufeinanderfol genden Merkmale. Mit Hilfe des trainierten NN wird die Geräuschanpassung durchgeführt. Die transformierten Merkmale werden dem Spracherkenner des PC übergeben, der daraus die richtigen Wörter erkennt und an das Datenerfassungssystem ü bergibt, welches die eingesprochene Anweisung korrekt aus führt. Mit Hilfe der Geräuschanpassung wird die Erkennungs leistung des Sprachdatenerfassungssystem verbessert.In the application phase, the user speaks e.g. B. the exterior tion "Item 4, inventory 27" into the microphone. The sound PC card digitizes the utterance. The preprocessing calculates the consecutive time from this audio data characteristics. With the help of the trained NN the noise adjustment carried out. The transformed characteristics are handed over to the speech recognizer of the PC, who uses them as the recognizes correct words and sends them to the data acquisition system passes, which the spoken instruction correctly leads. With the help of the noise adjustment, the detection performance of voice data acquisition system improved.

2. Voice control of a handheld PC in different Ge räuschumgebungen

Auf einem Handheld-PC soll die Steuerung des Gerätes über die Sprache erfolgen. Es soll dabei berücksichtigt werden, daß es sich um ein mobiles Gerät handelt, welches in verschiedenen Geräuschumgebungen eingesetzt wird. Hierzu soll für die Ge räuschumgebungen "Büro", "Auto" und "Zug" eine Anpassung vor genommen werden. Zunächst wird (jeweils einmalig) für die drei Geräuschumgebungen das Trainingsmaterial gesammelt. Dar aus wird ein NN für die Identifikation der Geräuschumgebung trainiert. Weiterhin wird für jede Geräuschumgebung ein NN für die Geräuschanpassung trainiert.On a handheld PC, the device should be controlled via the Language. It should be borne in mind that it is a mobile device, which in different Noise environments is used. For this purpose, for the Ge "Office", "Car" and "Train" environments be taken. First, (once only) for the three noise environments collected the training material. Dar it becomes an NN for the identification of the noise environment trained. Furthermore, an NN for each noise environment trained for noise adjustment.

In der Anwendungsphase spricht der Benutzer z. B. die Äuße rung "Kalender" in das Mikrophon. Die Soundkarte des Hand held-PC digitalisiert die Äußerung. Die Vorverarbeitung be rechnet aus diesen Audiodaten die zeitlich aufeinanderfolgen den Merkmale. Mit Hilfe des NN für Geräuschidentifikation wird die Geräuschumgebung ermittelt und das zugehörige Geräu schanpassungs-NN ausgewählt. Die Merkmale aus der Vorverar beitung werden diesem ausgewählten NN übergeben und die Ge räuschanpassungsberechnung der Merkmale wird durchgeführt. Die transformierten Merkmale werden dem Spracherkenner über geben, der daraus das richtige Kommando erkennt und die An wendung "Kalender" startet.In the application phase, the user speaks e.g. B. the exterior "Calendar" into the microphone. The sound card of the hand held-PC digitizes the statement. The preprocessing be calculates the temporal successions from these audio data the characteristics. With the help of the NN for noise identification the noise environment is determined and the associated noise adjustment NN selected. The characteristics from the pre-processing processing are handed over to this selected NN and the Ge Noise adaptation calculation of the features is carried out. The transformed characteristics are passed on to the speech recognizer who recognizes the correct command and the type application "Calendar" starts.

Es wird eine Verbesserung der Erkennungsgenauigkeit des Spra cherkenners für drei verschiedene Geräuschumgebungen ermög licht, wobei immer derselbe Spracherkenner verwendet wird. It will improve the recognition accuracy of the spra cherkenners for three different sound environments light, always using the same speech recognizer.

Die Ausführung der Erfindung ist nicht auf oben beschriebenen Ausführungen beschränkt, sondern im Rahmen der anhängenden Ansprüche ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handeln liegen.The implementation of the invention is not described above Limited versions, but within the scope of the attached Claims are also possible in a variety of modifications, that are within the scope of professional action.

Claims

1. A method for training and operation of a speech recognizer with noise identification, in particular for speech-independent speech recognition, characterized in that
multiple noise samples are recorded for a plurality of typical noise environments,
acoustic features are calculated from the noise samples in a training phase of the speech recognizer, the acoustic features of each noise sample are stored in a noise feature database,
a neural network of the speech recognizer is trained with the noise samples and
in the operation of the speech recognizer, a spoken uttered utterance by means of the trained neural network
and processed while accessing the noise feature databases, extracting the acoustic features of the speaker's noise environment.

2. The method according to claim 1, characterized in that the extracted acoustic characteristics of the noise environment can be used to adapt the noise of the speech recognizer.

3. The method according to claim 1 or 2, characterized in that as noise samples in the training phase Expressions of speech, in particular a multitude of different ones Speakers can be used.

4. The method according to claim 3, characterized in that in the training phase both pure noise tests first acoustic database as well as noisy speech samples who creates and processes the second acoustic database the.

5. The method according to claim 3 or 4, characterized in that the noisy exterior used as training material rungs include a predetermined vocabulary, which under the Point of view of the phonetic balance is selected.

6. The method according to any one of the preceding claims, characterized in that the acquisition of the acoustic characteristics a preprocessing the speech recognizer is used, the signals of the a acoustic database, in particular broken down into time windows and acoustic characteristics of the speech signal for each time windows are calculated.

7. The method according to any one of the preceding claims, characterized in that a multilayer perceptron for the neural network layer-oriented, forward-looking network with full dimensions between layers, and as an activation sigmoid function Sc (x) or Tangenshy perbolic function tanh (x) is used.

8. The method according to any one of the preceding claims, characterized in that the neural network with each sample in several iterations using the learning rule "Error Backpropagation" under Mi minimizing the mean square error is trained.

9. The method according to any one of claims 2 to 8, characterized in that
a neural network is trained to adapt to different predetermined noise environments for each of these noise environments and
the neural network to be used during operation is activated due to the acoustic characteristics of the current noise environment.

10. Speech recognizer, especially for speaker-independent Speech recognition to carry out the method according to a of the preceding claims, marked by a noise identification level, which is based on Ge noise-trained neural network, especially from the Multilayer perceptron type.

11. Speech recognizer according to claim 10, marked by a noise reduction level, which on the input side with the Noise identification level is connected and due to the through these determined acoustic characteristics of a current Noise environment is controlled.

12. Speech recognizer according to claim 11, characterized in that the noise reduction level is due to pure noise rehearsed and noisy speech samples trained neuro national network, in particular of the multilayer perceptron type, having.

13. Speech recognizer according to claim 11 or 12, marked by a plurality each of a specific predetermined one Neural networks trained in the noise environment in the Ge räuschreduktionsstufe.