DE10124762B4

DE10124762B4 - Method for training and operating a speech recognizer and speech recognizer with noise identification

Info

Publication number: DE10124762B4
Application number: DE2001124762
Authority: DE
Inventors: Steffen Harengel
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2001-05-21
Filing date: 2001-05-21
Publication date: 2004-07-15
Anticipated expiration: 2021-05-22
Also published as: DE10124762A1

Abstract

Verfahren zum Training und Betrieb eines Spracherkenners mit Geräuschidentifikation, insbesondere zur sprecherunabhängigen Spracherkennung, dadurch gekennzeichnet, daß
für eine Mehrzahl von typischen Geräuschumgebungen jeweils mehrere Geräuschproben aufgenommen werden,
aus den Geräuschproben jeweils in einer Trainingsphase des Spracherkenners akustische Merkmale berechnet werden,
die akustischen Merkmale jeder Geräuschprobe in einer Geräuschmerkmals-Datenbasis gespeichert werden,
mit den Geräuschproben ein neuronales Netz des Spracherkenners trainiert wird und
im Betrieb des Spracherkenners eine geräuschbehaftet eingesprochene Äußerung mittels des trainierten neuronalen Netzes und unter Zugriff auf die Geräuschmerkmals-Datenbasen verarbeitet wird, wobei die akustischen Merkmale der Geräuschumgebung des Sprechers extrahiert werden, indem eine Vorverarbeitung des Spracherkenners eingesetzt wird, wobei die Signale der Geräuschmerkmals-Datenbasis in Zeitfenster zerlegt und akustische Merkmale des Sprachsignals jeweils für die Zeitfenster berechnet werden.Method for training and operating a speech recognizer with noise identification, in particular for speaker-independent speech recognition, characterized in that
multiple noise samples are recorded for a plurality of typical noise environments,
acoustic characteristics are calculated from the noise samples in a training phase of the speech recognizer,
the acoustic characteristics of each noise sample are stored in a noise characteristics database,
a neural network of the speech recognizer is trained with the noise samples and
in the operation of the speech recognizer, a uttered speech is processed by means of the trained neural network and with access to the noise feature databases, the acoustic features of the noise environment of the speaker being extracted by using preprocessing of the speech recognizer, the signals of the noise feature database broken down into time windows and acoustic characteristics of the speech signal are calculated for each time window.

Description

Die Erfindung betrifft ein Verfahren zum Training und Betrieb eines Spracherkenners mit Geräuschidentifikation, welches eine Basis zur Erzielung einer Geräuschreduktion schafft, sowie einen dieses Verfahren realisierenden Spracherkenner.The invention relates to a method for training and operating a speech recognizer with noise identification, which creates a basis for achieving noise reduction, and a speech recognizer implementing this method.

Nachdem die Spracheingabe für Textprogramme sowie die Sprachsteuerung von Gerätefunktionen sich bei PCs seit Jahren bewährt und einen hohen Grad an Erkennungsgenauigkeit erreicht hat, wird sie seit kurzem verstärkt auch bei einfacheren Endgeräten von Telekommunikations- bzw. Datennetzen, insbesondere Mobiltelefonen und Handheld-PCs und PDAs (Personal Digital Assistants) eingesetzt. Entsprechende Geräte sind bereits auf dem Markt erhältlich. Die Sprachsteuerung bietet hier einen erhöhten Bedienkomfort bei der Aktivierung häufig benötigter Funktionen bzw. beim Wählen häufig benutzter Rufnummern.After voice input for text programs as well as voice control of device functions on PCs Years proven and has achieved a high degree of recognition accuracy she recently stepped up even with simpler end devices of telecommunications or data networks, in particular mobile phones and handheld PCs and PDAs (Personal Digital Assistants). Corresponding devices are already available on the market. The voice control offers an increased ease of use with the Activation often needed Functions or when dialing frequently used Phone numbers.

Die Spracherkennung auf derartigen Endgeräten beruht in der Regel auf Algorithmen der sprecherabhängigen Spracherkennung. Bei diesen Verfahren muß der Wortschatz durch Einsprechen aller Worte seitens des Benutzers trainiert werden.The speech recognition on such terminals is usually based on algorithms for speaker-dependent speech recognition. In these procedures, the Vocabulary trained by speaking all words on the part of the user become.

Im Gegensatz dazu erlauben sprecherunabhängige Spracherkennungsverfahren den sofortigen Einsatz ohne Initialisierung, den sogenannten Enrollment-Prozeß. Einfachere, relativ preiswerte Endgeräte ("Low-Cost"-Geräte) verfügen bereits über relativ leistungsfähige Mikrocontroller oder Mikroprozessoren mit hoher Rechenleistung, so daß für die nächsten Jahre eine Ablösung der unbequemeren sprecherabhängigen Spracherkennung bei derartigen Geräten durch die hinsichtlich der benötigten Verarbeitungsleistung aufwendigere sprecherunabhängige Spracherkennung zu erwarten steht. Diese hat im übrigen den Vorteil, daß der Wortschatz nicht a priori bekannt sein muß – was bestimmte Anwendungen überhaupt erst möglich macht.In contrast, speaker-independent speech recognition methods allow immediate use without initialization, the so-called enrollment process. easier, relatively inexpensive devices ("Low-cost" devices) already have relative powerful Microcontrollers or microprocessors with high computing power, so for the next few years a replacement the more uncomfortable speaker dependent Speech recognition in such devices by the regarding the processing power required more elaborate speaker-independent Speech recognition is expected. This has the additional advantage that the vocabulary need not be known a priori - what certain Applications at all only possible makes.

Grundsätzlich besteht bei allen Spracherkennern das Problem, daß bei wesentlichen akustischen Abweichungen des im Betrieb zu verarbeitenden Sprachdatenmaterials vom in der Trainingsphase benutzten Sprachdatenmaterial die Erkennungsleistung stark absinken kann. Dieser auch als Mismatch-Problem bezeichnete Umstand tritt besonders ausgeprägt bei einem Betrieb des Spracherkenners in einer stark geräuschbelasteten Umgebung (beispielsweise im fahrenden Kraftfahrzeug, in Produktionsanlagen, auf dem Bau, im Callcenter o. ä.) auf, aber auch bei Betrieb eines Spracherkenners durch Personen mit Stimmfärbungen und/oder Mundarten, die in dem in der Trainingsphase verwendeten Sprachmaterial nicht vertreten waren.Basically, all speech recognizers have the problem that at significant acoustic deviations of what is to be processed in operation Voice data material from the voice data material used in the training phase the recognition performance can drop significantly. This also as a mismatch problem described circumstance occurs particularly pronounced during operation of the speech recognizer a very noisy one Environment (for example in a moving motor vehicle, in production facilities, on the construction site, in the call center or similar) on, but also when a speech recognizer is operated by people with voice coloring and / or dialects used in the language material used in the training phase were not represented.

Während bei der sprecherabhängigen Spracherkennung die später im Betrieb zu erkennenden Worte vom Benutzer selbst und daher normalerweise in der Umgebung eingesprochen werden, die auch die spätere Betriebsumgebung darstellt, kann dies bei der sprecherunabhängigen Spracherkennung natürlich nicht gewährleistet werden. Das Training wird hier im Labor vom Technologielieferanten mit Datenbasen durchgeführt, die eine Vielzahl von durch unterschiedliche Sprecher erzeugten Sprachproben enthalten. Auch hier wird versucht, der Betriebsumgebung bereits beim Training Rechnung zu tragen. Geht es beispielsweise bei dem Spracherkenner um Telefonanwendungen, werden zum Training der akustischen Modelle "Telefondatenbasen" eingesetzt. Wird ein so trainierter Spracherkenner jedoch in einer gänzlich anderen Umgebung eingesetzt – im Beispiel statt bei einer Telefonanwendung also etwa im fahrenden Kraftfahrzeug -, so sinkt die Erkennungsleistung infolge des akustischen Mismatch zwischen Trainings- und Betriebssituation dramatisch ab .While at the speaker-dependent Voice recognition the later Words to be recognized in operation by the user himself and therefore normally in the environment, which is also the later operating environment is of course not possible with speaker-independent speech recognition guaranteed become. The training is carried out here in the laboratory by the technology supplier carried out with databases, which generated a multitude of different speakers Voice samples included. Again, the operating environment is tried to be taken into account during training. For example with the speech recognizer for telephone applications, become training the acoustic models "telephone databases" used. Becomes a speech recognizer trained in this way, however, in a completely different one Environment used - in the example instead of using a telephone, for example in a moving motor vehicle -, the detection performance drops due to the acoustic mismatch between training and operational situation dramatically.

Mittlerweile werden Spracherkennungssysteme auf verschiedensten Plattformen (PC, PDA, Handy, etc.) und in allen möglichen Umgebungen (z. B.: Auto, Büro, Industrie, beliebiger Standort eines mobilen Gerätes: PDA, Handy) eingesetzt. In vielen Umgebungen gibt es Störgeräusche, die die Spracherkennung erschweren. Mit Hilfe von geeigneten Algorithmen zur Geräuschreduktion soll die Erkennungsleistung von Spracherkennungssystemen verbessert werden.Meanwhile, speech recognition systems on various platforms (PC, PDA, cell phone, etc.) and in all possible environments (e.g .: car, office, Industry, any location of a mobile device: PDA, cell phone) used. In many environments there is noise that make speech recognition more difficult. With the help of suitable algorithms for noise reduction is said to improve the recognition performance of speech recognition systems become.

Die Geräuschidentifikation liefert hierbei eine Aussage über die Geräuschart bzw. -umgebung. Dadurch ermöglicht sie die Auswahl der geeigneten Geräuschkompensation: entweder per Fremdprodukt oder durch die Geräuschanpassung des Verfahrens selbst. Weiterhin ist ein "schritthaltender" Einsatz möglich, d. h. bei einem Wechsel der Geräuschumgebung stellt das System die neue Umgebung fest.The noise identification delivers here a statement about the type of noise or environment. This enables selecting the appropriate noise compensation: either with a third-party product or through the noise adjustment of the process itself. Furthermore, "step-by-step" use is possible, i. H. when the noise environment changes the system detects the new environment.

Die Geräuschanpassung stellt eine Geräuschreduktion/-kompensation für vielfältige Spracherkennungssysteme zur Verfügung. Dadurch wird eine bessere Anpassung des Spracherkenungssystems an die Umgebung erzielt und die Erkennungsleistung erhöht: Gesprochene Äußerungen werden besser erkannt, und außerdem gibt es weniger Fehlerkennungen, die aus der Erkennung von Störgeräuschen resultieren.The noise adjustment provides noise reduction / compensation for diverse speech recognition systems to disposal. This will result in a better adaptation of the speech recognition system achieved the environment and increased recognition performance: spoken utterances are better recognized, and also there are fewer error detections that result from the detection of noise.

Beide Komponenten (Geräuschidentifikation und Geräuschanpassung) können in einer einmaligen Trainingsphase an beliebige Geräuschumgebungen angepaßt werden.Both components (noise identification and Sound adaptation) can in a unique training phase to any sound environment customized become.

Es gibt im Stand der Technik kaum Verfahren zur Identifikation von Geräuschumgebungen, da diese nur im Zusammenhang mit einer Geräuschreduktion Sinn machen.There is hardly any in the prior art Procedure for the identification of noise environments, since these only in connection with noise reduction Make sense.

Filtersysteme versuchen die Störgeräusche aus dem Audiokanal herauszufiltern. Hierbei werden in der "Ruhephase", d. h. wenn keine Äußerung vom Benutzer eingesprochen wird, die Filterkoeffizienten so an den Audiokanal angepaßt, daß des anliegende Hintergrundgeräusch kompensiert wird. Sobald der Benutzer eine Äußerung spricht, werden die Filterkoeffizienten ohne weitere Veränderung angewandt, und das Filter versucht, die Hintergrundgeräusche zu kompensieren. Im Idealfall soll des Sprachsignal ohne Störgeräusche erhalten werden, welches der nachfolgenden Erkennerkomponente zugeführt wird.Filter systems try to filter out the noise from the audio channel. In the "rest phase", ie if no utterance is spoken by the user, the filter coefficients are adapted to the audio channel in such a way that the adjacent one Background noise is compensated. As soon as the user speaks an utterance, the filter coefficients are applied without further change and the filter tries to compensate for the background noise. In the ideal case, the speech signal should be obtained without interference, which is fed to the subsequent recognition component.

Hierfür ist kein Training an die Geräuschumgebung erforderlich, da sich das Filter von alleine einschwingt, und vorteilhaft ist auch die einfache Realisierung von Filtersystemen. Nachteilig ist, daß das Filter Einschwingzeit benötigt und zur Anpassung der Filterkoeffizienten eine gute Unterscheidung zwischen "Ruhe-" und "Sprachphase" erforderlich ist. Die Eigenschaften des Erkennungssystems werden zudem kaum berücksichtigt, d. h. es wird nicht berücksichtigt, daß es Störgeräusche gibt, die einen stärkeren bzw. schwacheren Einfluß auf Fehlerkennungen haben.There is no training for them sound environment required because the filter settles by itself, and advantageous is also the simple implementation of filter systems. adversely is that the filter Settling time required and a good distinction for adapting the filter coefficients between "rest" and "speech phase" is required. The Properties of the detection system are also hardly taken into account, d. H. it is not taken into account that it There is noise, the stronger one or weaker influence Have error detections.

Das Verfahren der HMM-Geräuschadaption liefert sehr gute Ergebnisse zur Geräuschreduktion. Hierbei wird das Hidden-Markov-Modell (HMM), welches die akustische Modellierung für des Spracherkennungssystem enthält, an die Geräuschumgebung angepaßt. Dazu wird in einer Trainingsphase das System an geräuschbehaftete Äußerungen (gesprochene Äußerung mit Störgeräusch) adaptiert. Diese geräuschbehafteten Äußerungen müssen vor der Trainingsphase gesammelt werden (z. B. als Aufzeichnung per DAT-Rekorder). Für ein sprecherunabhängiges Spracherkennungssystem ist die Aufzeichnung der geräuschbehafteten Äußerungen vieler Sprecher erforderlich, sonst droht der Verlust der Sprecherunabhängigkeit.The method of HMM noise adaptation delivers very good results for noise reduction. in this connection becomes the hidden Markov model (HMM), which is the acoustic modeling for the speech recognition system contains adapted to the noise environment. To In a training phase, the system will make noisy statements (spoken statement with Noise) adapted. These noisy statements have to be collected before the training phase (e.g. as a recording via DAT recorder). For a speaker independent Speech recognition system is the recording of the noisy statements many speakers are required, otherwise there is a risk of loss of speaker independence.

Während das Verfahren einerseits eine sehr gute Geräuschreduktion liefert, hat es andererseits erhebliche Nachteile: In der Praxis ist eine Anpassung nur an eine spezifische Geräuschumgebung möglich, da der Trainingsaufwand sonst zu hoch würde. Es funktioniert nur mit einem Erkennungssystem, da die HMM-Struktur nicht standardisiert ist. Der Trainingsaufwand ist hoch, da viel Trainingsmaterial (geräuschbehaftete Äußerungen) benötigt wird.While the method on the one hand provides very good noise reduction on the other hand there are significant disadvantages: in practice there is an adjustment only possible in a specific noise environment because the training effort would otherwise be too high. It only works with a detection system because the HMM structure is not standardized is. The training effort is high because a lot of training material (noisy statements) needed becomes.

Aus der US 5,970,446 ist ein Verfahren zum Trainung und Betrieb eines Spracherkenners mit Geräuschidentifikation, insbesondere zur sprecherunabhängigen Spracherkennung bekannt. Dieses Verfahren zeichnet sich dadurch aus, dass für eine Mehrzahl von typischen Geräuschumgebungen jeweils eine Geräuschprobe aufgenommen wird, aus den Geräuschproben jeweils in einer Trainingsphase des Spracherkenners akustische Merkmale berechnet werden und die akustischen Merkmale jeder Geräuschprobe in einer Geräuschmerkmals-Datenbasis gespeichert werden.From the US 5,970,446 a method for training and operating a speech recognizer with noise identification, in particular for speaker-independent speech recognition, is known. This method is characterized in that a noise sample is recorded for a plurality of typical noise environments, acoustic characteristics are calculated from the noise samples in each case in a training phase of the speech recognizer, and the acoustic characteristics of each noise sample are stored in a noise characteristic database.

Aus der DE 43 09 985 A1 ist ein Spracherkenner (eines anderen Typs) bekannt, bei dem ein neuronales Netz des Spracherkenners mit Geräuschproben trainiert und im Betrieb des Spracherkenners eine geräuschbehaftet eingesprochene Äußerung jeweils mittels des trainierten neuronalen Netzes bearbeitet wird.From the DE 43 09 985 A1 a speech recognizer (of another type) is known, in which a neural network of the speech recognizer trains with noise samples and in the operation of the speech recognizer, a uttered speech is processed by means of the trained neural network.

Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren der gattungsgemäßen Art anzugeben, welches einerseits die Grundlage für eine hocheffiziente Geräuschreduktion – speziell auch unter verschiedenartigen Geräuschumgebungen – bietet und andererseits mit vergleichsweise geringem Aufwand sowohl in der Trainings- als auch der Betriebsphase in verschiedenen Spracherkennern implementiert werden kann. Weiterhin soll ein entsprechender Spracherkenner angegeben werden.The invention is based on the object to provide an improved method of the generic type, which on the one hand the basis for one highly efficient noise reduction - especially also under different sound environments - offers and on the other hand with comparatively little effort both in the training as well as the operational phase implemented in different speech recognizers can be. A corresponding speech recognizer is also to be specified become.

Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und in ihrem Vorrichtungsaspekt durch einen Spracherkenner mit den Merkmalen des Anspruchs 10 gelöst.This task is done with regard to their Process aspect by a method with the features of the claim 1 and in its device aspect by a speech recognizer solved the features of claim 10.

Die Erfindung löst das technische Problem, indem die charakteristischen akustischen und zeitlichen Eigenschaften der Geräusche zu den jeweiligen Geräuschumgebungen gelernt werden. Nach der Lernphase wird dieses Wissen verwendet, um die Geräuschumgebung zu identifizieren.The invention solves the technical problem by the characteristic acoustic and temporal properties of the noises to the respective noise environments be learned. After the learning phase, this knowledge is used around the noise environment to identify.

Das Verfahren muß dazu in einer einmaligen Trainingsphase die Geräusche der jeweiligen Geräuschumgebungen erlernen. Hierzu muß zunächst Trainingsmaterial von den zu erlernenden Geräuschumgebungen (Geräuschproben) gesammelt werden. Dazu werden die Geräusche mit oder ohne Sprache von den verschiedenen Geräuschumgebungen als Audiodateien aufgezeichnet. Aus diesen Audiodateien werden nun die akustischen Merkmale berechnet.The procedure must be in a one-off training phase the noises the respective noise environments learn. For this, training material must first of the noise environments to be learned (Noise samples) to be collected. To do this, the sounds with or without speech from the different sound environments recorded as audio files. These audio files are now calculated the acoustic characteristics.

Es gehört zur Erfindung, für diese Merkmalsextraktion die Vorverarbeitung des Spracherkenners zu verwenden, besonders im Hinblick auf eine nachfolgende Geräuschanpassung eines Spracherkennungssystems, da diese ebenfalls die Vorverarbeitung benötigt. Eine Vorverarbeitung wird von jedem Spracherkennungssystem durchgeführt. Das Audiosignal (die Geräuschprobe) wird hierbei in Zeitfenster zerlegt, und für jedes Zeitfenster werden die akustischen Merkmale des Sprachsignals berechnet. Diese Merkmale werden normalerweise für die nachfolgenden Spracherkennungskomponenten benötigt. Für das vorgeschlagene Verfahren werden nun diese Merkmale für die Identifikation der Geräuschumgebung herangezogen.It is part of the invention, for this Feature extraction using preprocessing of the speech recognizer especially with regard to a subsequent noise adaptation of a speech recognition system, since this also requires preprocessing. A preprocessing is carried out by every speech recognition system. The audio signal (the noise test) is broken down into time slots, and for each time slot the acoustic characteristics of the speech signal are calculated. These characteristics are usually for the following speech recognition components needed. For the proposed These features are now used for the identification of the noise environment used.

Die ermittelten Merkmale pro Zeitfenster bilden zusammen mit der Geräuschumgebungsinformation das Trainingsmaterial. Das Wissen, welches im Trainingsmaterial enthalten ist (Geräusche und die zeitliche Dynamik des Geräuschverlaufs), wird nun mit Hilfe eines neuronalen Netzes (NN) erlernt. Als Eingangsknoten in dem NN werden die Merkmale für mehrere aufeinanderfolgende Zeitfenster angelegt. Bei dem Training des NN wird die korrekte Information über die Geräuschumgebung dem neuronalen Netz als Zielwert für den Ausgabeknoten vorgegeben.The determined characteristics per time window together with the noise environment information form the training material. The knowledge contained in the training material (noise and the temporal dynamics of the noise curve) is now learned with the help of a neural network (NN). The characteristics for several successive time windows are created as input nodes in the NN. When training the NN, the correct information about the noise environment is given to the neurona len network is specified as the target value for the output node.

Für das neuronale Netz wird bevorzugt ein Multilayer-Perzeptron (MLP) verwendet. Hierbei handelt es sich um ein schichtorientiertes, vorwärtsgerichtetes (feed forward) Netz mit Vollvermaschung zwischen den einzelnen Schichten. Als Aktivierungsfunktion wird die Sigmoidfunktion Sc(x)oder tanh(x) verwendet. Welche von den beiden Aktivierungsfunktionen verwendet wird oder wieviele Schichten des NN hat, spielen für des Verfahren keine Rolle. Es muß lediglich für eine gute Trainingsgenauigkeit die Anzahl der variablen Parameter ausreichend groß sein. Dies kann erreicht werden durch mehrere Schichten bzw. durch eine höhere Anzahl von Neuronen in den/der versteckten Schicht(en).For the neural network is preferably a multilayer perceptron (MLP) used. This is a shift-oriented, forward-looking one (feed forward) network with full meshing between the individual layers. The sigmoid function Sc (x) or tanh (x) is used as the activation function. Which of the two activation functions is used or how many layers of the NN have no role in the process. It just has to for one good training accuracy the number of variable parameters sufficient be great. This can be achieved through several layers or through one higher Number of neurons in the hidden layer (s).

In der Regel wird beim NN-Training als Lernregel "Error Backpropagation" verwendet. Bei diesem Verfahren wird der mittlere quadratische Fehler minimiert. Das NN wird mit den Trainingsmustern in mehreren Iterationen trainiert.As a rule, NN training as a learning rule "Error Backpropagation "is used. This method minimizes the mean square error. The NN is trained with the training patterns in several iterations.

Durch die Verwendung von Merkmalen von mehreren aufeinanderfolgenden Zeitfenstern als Eingangsknoten, erlernt das NN auch instationäre Geräusche, d. h. diese weisen einen zeitli chen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräusche, etc.).By using features of several successive time windows as input nodes, the NN also learns transient Sounds, d. H. these show a temporal noise pattern (e.g. hammer blows, siren noises, etc.).

Im Anwendungsfall (Betrieb) besteht das System aus einem Audiokanal, der gewählten Merkmalsextraktion, die auch in der Trainingsphase verwendet wurde, und aus dem gelernten NN. Mit Hilfe der Umgebungsinformation, die das NN liefert, kann zum Beispiel eine Auswahl des passenden Geräuschreduktionsverfahrens vorgenommen werden.In the application (operation) exists the system from an audio channel, the selected feature extraction, the was also used in the training phase, and from the learned NN. With the help of the environmental information that the NN provides, the Example made a selection of the appropriate noise reduction method become.

Es werden permanent Audiodaten, die in der Regal per Mikrophon (Audiokanal) bereitgestellt werden, dem System zugeführt. Die Audiodaten werden dabei der Merkmalsextraktion unterzogen. Man erhält dadurch in gewissen Zeitabständen (abhängig von der Zeitfensterbreite der Merkmalsextraktion) akustische Merkmale. Mehrere von diesen jeweils zeitlich aufeinanderfolgenden Merkmalen werden an die Eingangsschicht des NN gelegt, und das NN berechnet die zugehörige Geräuschumgebung (Ausgangsknoten).There is permanent audio data that be provided on the shelf by microphone (audio channel), the System fed. The audio data are subjected to the feature extraction. you receives thereby at certain intervals (depending on the time window width of the feature extraction) acoustic features. Several of these characteristics, which follow one another in time are placed on the input layer of the NN and the NN is calculated the associated sound environment (Output node).

Da die Eingangsschicht des NN nur relativ kurze zeitliche Abhängigkeiten erfaßt, ist es sinnvoll, die NN-Ausgangsinformation (Geräuschumgebung) aufzusammeln (sampling). Durch ein einfache Analyse dieser zeitlich aufeinanderfolgenden Ausgangsinformationen kann ein Wechsel der Geräuschumgebung festgestellt werden. Dies kann dadurch erreicht werden, daß ein Wechsel der Geräuschumgebung nur signalisiert wird, wenn mindestens ein vorbestimmter Anteil x der Ausgangsinformationen der letzten y Sekunden die gleiche Ausgangsinformation liefern. Die Parameter x und y sind hierbei, je nach Geräuschumgebung, sinnvoll festzulegen. Durch diese zusätzliche Analyse wird verhindert, daß ein Geräuschumgebungswechsel nicht sofort bei einer kurzen Ruhepause signalisiert wird (z. B. in einer Pause zwischen Hammerschlägen).Since the input layer of the NN only relatively short time dependencies detected, it makes sense to collect the NN output information (noise environment) (Sampling). By a simple analysis of these sequential A change in the noise environment can be determined from the initial information. This can be achieved by changing the noise environment only is signaled when at least a predetermined portion x Output information of the last y seconds provide the same output information. Depending on the noise environment, the parameters x and y are to be sensibly determined. Through this additional Analysis prevents a Sound environment change is not immediately signaled during a short break (e.g. in a break between hammer blows).

Wesentliche Vorteile der vorgeschlagenen, bevorzugten Lösung sind folgende:

– Es werden stationäre (z. B.: gleichmäßiges Hintergrundrauschen) und instationäre Geräusche (z. B.: Hammerschläge) erkannt.
– Ein Zusammenwirken mit anderen Geräuschreduktionsverfahren ist problemlos möglich. So kann zum Beispiel, nach der Identifikation der Geräuschumgebung (z.B. Auto), ein Filtersystem zur Geräuschreduktion für den Spracherkenner ausgewählt werden, welches speziell für diese Umgebung abgestimmt ist. Dies ist besonders für mobile Geräte interessant.
– Ein Wechsel der Geräuschumgebung wird erkannt.
– Die Erfindung ermöglicht die Verwendung mit beliebigen Spracherkennungssystemen, falls eine Standardisierung der Vorverarbeitung erfolgt.

The main advantages of the proposed preferred solution are as follows:

- Stationary (e.g. steady background noise) and transient noises (e.g. hammer blows) are recognized.
- Interaction with other noise reduction methods is possible without any problems. For example, after identifying the noise environment (e.g. car), a filter system for noise reduction for the speech recognizer can be selected that is specially tailored to this environment. This is particularly interesting for mobile devices.
- A change in the noise environment is recognized.
- The invention enables use with any speech recognition system if preprocessing is standardized.

In einer zweckmäßigen Fortbildung löst die Erfindung das angegebene technische Problem, indem die charakteristischen akustischen und zeitlichen Eigenschaften der Geräusche mit der Wechselwirkung von gesprochener Sprache in einer gewählten Geräuschumgebung gelernt werden. Nach der Lernphase wird dieses Wissen verwendet, um die Geräuschanpassung eines Spracherkennungssystems an diese Geräuschumgebung auszuführen.The invention solves this in a practical further training the specified technical problem by the characteristic acoustic and temporal properties of the noise with the interaction be learned from spoken language in a chosen noise environment. After the learning phase, this knowledge is used to adjust the noise a speech recognition system to perform in this noise environment.

Das Verfahren muß dazu in einer einmaligen Trainingsphase des Wissen erlernen, wie die akustischen Merkmale von gesprochenen geräuschbehafteten Äußerungen in Merkmale transformiert werden, die nur die gesprochene Information – ohne Störgeräusche – repräsentieren. Zunächst muß das Trainingsmaterial gesammelt werden. Dazu werden Audiodaten von gesprochenen Äußerungen von mehreren Sprechern ohne Störgeräusche benötigt (erste akustische Datenbasis). Weiterhin werden Audiodaten von den Geräuschen ohne Sprache von der gewählten Geräuschumgebung benötigt (zweite akustische Datenbasis). Als nächstes wird der erste Datensatz mit dem zweiten Datensatz so aufbereitet, daß ein neuer (dritter) Datensatz entsteht, der so gut wie möglich die gesprochenen geräuschbehafteten Äußerun gen repräsentiert, wie sie in der Realität in der gewählten Geräuschumgebung vorkommen.The procedure must be in a one-off training phase of knowledge, learn how the acoustic characteristics of spoken noisy statements are transformed into features that only represent the spoken information - without noise. First must Training material can be collected. For this purpose, audio data from spoken utterances required by several speakers without background noise (first acoustic Database). Furthermore, audio data from the noises without Language of the chosen one sound environment needed (second acoustic database). Next is the first record prepared with the second data set so that a new (third) data set that arises as best as possible the spoken noisy statements represents like them in reality in the chosen one sound environment occurrence.

Durch die Verwendung geräuschbehafteter Sprachproben von mehreren Sprechern wird eine Sprecherabhängigkeit des Geräuschanpassungs-Verfahrens vermieden. Die Wahl der gesammelten Äußerungen (Sprachproben) soll nach Möglichkeit phonetisch ausgewogen sein, damit möglichst alle Phoneme und ihre Wechselwirkung zu den Geräuschen gut trainiert werden können. Es ist aber nicht erforderlich, daß in der späteren Anwendung dieselben Äußerungen (Wörter) vorkommen wie in der Trainingsphase.By using noisy speech samples a speaker dependency of the noise adaptation method becomes of several speakers avoided. The choice of the collected utterances (speech samples) should if possible be phonetically balanced so that all phonemes and their Interaction with the sounds can be trained well. However, it is not necessary that the same statements be made in later application (Words) occur as in the training phase.

Aus dem ersten und dritten Datensatz werden nun die akustischen Merkmale für jedes Zeitfenster berechnet. Hierbei wird zur Merkmalsextraktion die Vorverarbeitung des Spracherkenners verwendet. Man erhält dadurch des Trainingsmaterial für des NN.From the first and third data set who which now calculates the acoustic characteristics for each time window. The preprocessing of the speech recognizer is used for the feature extraction. This gives you the training material for the NN.

An die Eingangsknoten des NN werden mehrere zeitlich aufeinanderfolgende Merkmale des dritten Datensatzes (geräuschbehaftete Äußerungen) angelegt. Bei dem Training des NN werden die Merkmale des ersten Datensatzes (Äußerung ohne Geräusche) dem NN als Zielwerte für die Ausgabeknoten vorgegeben. Hierbei entspricht des Ausgangsmerkmal dem zugehörigen mittleren Knoten der Eingangsschicht, d. h. des NN lernt die Transformation des geräuschbehafteten Merkmals (mittlerer Knoten der Eingangsschicht) zu dem zugehörigen Merkmal ohne Geräusche (Ausgangsknoten). Die anderen Knoten der Eingangsschicht sind zeitlich benachbarte geräuschbehaftete Merkmale, die ein Erlernen des zeitlichen dynamischen Geräuschverlaufs ermöglichen.At the input nodes of the NN several chronologically successive features of the third data set (noisy statements) created. When training the NN, the characteristics of the first data set (Expression without Sounds) the NN as target values for predefined the output nodes. Here corresponds to the initial characteristic the associated middle node of the input layer, i. H. of the NN learns the transformation of the noisy Characteristic (middle node of the input layer) for the associated characteristic without Sounds (Output node). The other nodes in the input layer are temporal neighboring noisy Features that are a learning of the temporal dynamic noise course enable.

Für des neuronale Netz (NN) wird wiederum ein Multilayer-Perzeptron (MLP) mit der Lernregel "Error Backpropagation" verwendet, wie weiter oben erläutert.For of the neural network (NN) is in turn a multilayer perceptron (MLP) with the learning rule "Error Back propagation " as explained above.

Durch die Verwendung von Merkmalen von mehreren aufeinanderfolgenden Zeitfenstern als Eingangsknoten, erlernt des NN auch die Geräuschanpassung von instationären Geräuschen, d. h. diese weisen einen zeitlichen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräusche, etc.).By using features of several successive time windows as input nodes, the NN also learns how to adapt the noise from transient sounds d. H. these have a temporal noise profile (e.g. hammer blows, siren noises, etc.).

Dies wird erreicht durch eine nichtlineare Aktivierungsfunktion des NN-Knoten. Dadurch ist es möglich auch nichtlineare Zusammenhänge zwischen Sprache und Geräuschen zu erlernen.This is achieved through a non-linear Activation function of the NN node. This makes it possible too nonlinear relationships between speech and noise to learn.

Im Anwendungsfall (Betrieb) besteht das Gesamtsystem aus einem Audiokanal, der Vorverarbeitung (Merkmalsextraktion) des Spracherkenners, dem gelernten NN und dem nachgeschalteten Spracherkenner, der auf die Merkmale aufsetzt, welche vom NN geliefert werden. Die weitere Verarbeitung entspricht der bei der Geräuschidentifikation; siehe weiter oben. Soll die Geräuschanpassung für mehrere Geräuschumgebungen durchgeführt werden, muß für jede Geräuschumgebung ein neues NN trainiert werden.In the application (operation) exists the entire system from an audio channel, preprocessing (feature extraction) the speech recognizer, the learned NN and the downstream speech recognizer, which is based on the characteristics that are supplied by the NN. The further processing corresponds to that for noise identification; see further above. Should the noise adjustment for many noise environments carried out must for every noise environment a new NN will be trained.

Nachstehend wird die Erfindung an zwei Anwendungen näher erläutert:The invention is as follows two applications closer explains:

1. Sprachdatenerfassungssystem für Industrieanwendungen (Beispiel: Lagerverwaltung)1. Voice data acquisition system for industrial applications (Example: warehouse management)

In diesem Szenario soll für die Geräuschumgebung eines Teillagers ein PC-Sprachdatenerfassungssystem eingesetzt werden. Hierzu wird für diese Geräuschumgebung einmalig das nötige Trainingsmaterial in der Lagerhalle aufgenommen und das Training für des NN für die Geräuschanpassung durchgeführt.This scenario is meant for the noise environment of a partial warehouse, a PC voice data acquisition system can be used. This is done for this noise environment once the necessary Training material recorded in the warehouse and the training for the NN for the noise adjustment performed.

In der Anwendungsphase spricht der Benutzer z. B. die Äußerung "Posten 4, Lagerbestand 27" in das Mikrofon. Die Soundkarte des PC digitalisiert die Äußerung. Die Vorverarbeitung berechnet aus diesen Audiodaten die zeitlich aufeinanderfolgenden Merkmale. Mit Hilfe des trainierten NN wird die Ge räuschanpassung durchgeführt. Die transformierten Merkmale werden dem Spracherkenner des PC übergeben, der daraus die richtigen Wörter erkennt und an das Datenerfassungssystem übergibt, welches die eingesprochene Anweisung korrekt ausführt. Mit Hilfe der Geräuschanpassung wird die Erkennungsleistung des Sprachdatenerfassungssystem verbessert.In the application phase, the speaks User z. B. the statement "Item 4, inventory 27 "into the microphone. The PC's sound card digitizes the utterance. The preprocessing calculates the temporally successive features from this audio data. With the help of the trained NN, the noise adaptation is carried out. The transformed features are transferred to the speech recognizer of the PC, the right words from it recognizes and transfers it to the data acquisition system, which speaks the Statement correctly executed. With the help of noise adjustment the recognition performance of the voice data acquisition system is improved.

2. Sprachsteuerung eines Handheld-PC in verschiedenen Geräuschumgebungen2. Voice control of a handheld PC in different noise environments

Auf einem Handheld-PC soll die Steuerung des Gerätes über die Sprache erfolgen. Es soll dabei berücksichtigt werden, daß es sich um ein mobiles Gerät handelt, welches in verschiedenen Geräuschumgebungen eingesetzt wird. Hierzu soll für die Geräuschumgebungen "Büro", "Auto" und "Zug" eine Anpassung vorgenommen werden. Zunächst wird (jeweils einmalig) für die drei Geräuschumgebungen das Trainingsmaterial gesammelt. Daraus wird ein NN für die Identifikation der Geräuschumgebung trainiert. Weiterhin wird für jede Geräuschumgebung ein NN für die Geräuschanpassung trainiert.On a handheld PC, the control of the Device over the Language. It should be taken into account that it is a mobile device acts, which is used in different noise environments. This should be done for the sound environments "office", "car" and "train" made an adjustment become. First is (once only) for the three sound environments that Training material collected. This becomes an NN for identification the noise environment trained. Furthermore, for any noise environment an NN for the noise adjustment trained.

In der Anwendungsphase spricht der Benutzer z. B. die Äußerung "Kalender" in das Mikrophon. Die Soundkarte des Handheld-PC digitalisiert die Äußerung. Die Vorverarbeitung berechnet aus diesen Rudiodaten die zeitlich aufeinanderfolgenden Merkmale. Mit Hilfe des NN für Geräuschidentifikation wird die Geräuschumgebung ermittelt und das zugehörige Geräuschanpassungs-NN ausgewählt. Die Merkmale aus der Vorverarbeitung werden diesem ausgewählten NN übergeben und die Geräuschanpassungsberechnung der Merkmale wird durchgeführt. Die transformierten Merkmale werden dem Spracherkenner übergeben, der daraus das richtige Kommando erkennt und die Anwendung "Kalender" startet.In the application phase, the speaks User z. B. the utterance "calendar" in the microphone. The Sound card of the handheld PC digitizes the utterance. The preprocessing uses this rudio data to calculate the successive ones in time Characteristics. With the help of the NN for sound identification becomes the noise environment determined and the associated noise adjustment NN selected. The characteristics from the preprocessing are transferred to this selected NN and the noise adjustment calculation the characteristics is carried out. The transformed features are passed to the speech recognizer, who recognizes the correct command and starts the "Calendar" application.

Es wird eine Verbesserung der Erkennungsgenauigkeit des Spracherkenners für drei verschiedene Geräuschumgebungen ermöglicht, wobei immer derselbe Spracherkenner verwendet wird.It will improve detection accuracy of the speech recognizer for three different sound environments allows always using the same speech recognizer.

Die Ausführung der Erfindung ist nicht auf oben beschriebenen Ausführungen beschränkt, sondern im Rahmen der anhängenden Ansprüche ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handeln liegen.The implementation of the invention is not on the versions described above limited, but within the scope of the attached Expectations also possible in a variety of modifications that are within the scope of professional action lie.

Claims

Procedure for training and operating a Speech recognizer with noise identification, in particular for speaker-independent speech recognition, characterized in that several noise samples are recorded for a plurality of typical noise environments, acoustic characteristics are calculated from the noise samples in a training phase of the speech recognizer, and the acoustic features of each noise sample are stored in a noise feature database be trained with the noise samples, a neural network of the speech recognizer and in the operation of the speech recognizer a noisy uttered utterance is processed by means of the trained neural network and with access to the noise feature databases, the acoustic features of the noise environment of the speaker being extracted by one Preprocessing of the speech recognizer is used, the signals of the noise feature database being broken down into time windows and acoustic features of the speech signal each because be calculated for the time window.

A method according to claim 1, characterized in that the extracted acoustic characteristics of the noise environment for noise adjustment of the Speech Recognizer can be used.

A method according to claim 1 or 2, characterized in that that as noise samples noisy in the training phase Speeches used become.

A method according to claim 3, characterized in that utterances a variety of different speakers are used.

A method according to claim 3 or 4, characterized in that in the training phase, both pure noise tests as the first acoustic Database as well as noisy Speech samples generated and processed as a second acoustic database become.

Method according to one of claims 3 to 5, characterized in that that the Noisy statements used as training material include a predetermined vocabulary from the point of view the phonetic balance is selected.

Method according to one of the preceding claims, characterized characterized that for the neural Net a multilayer perceptron, i.e. a layer-oriented, forward-looking Mesh with full mesh between the individual layers, and as Activation function the sigmoid function Sc (x) or the tangent hyperbolic function tanh (x) is used.

Method according to one of the preceding claims, characterized characterized that the neural network using each sample in multiple iterations the learning rule "Error Back propagation "while minimizing of the mean square error is trained.

Method according to one of claims 2 to 8, characterized in that that to sound adaptation to different predetermined noise environments for every of these noise environments a neural network is trained in each case and that during the Operating neural network to be used due to the acoustic characteristics the current noise environment is activated.

Speech recognizer to carry out the method according to a of the preceding claims through a noise identification level, which one based on noise tests trained neural network and a noise reduction level which on the input side with the noise identification level is connected and based on the time window determined by this acoustic characteristics of a current noise environment is controlled, having.

Speech recognizer according to claim 10, characterized in that the Noise reduction level on due to pure noise tests and noisy Has speech samples trained neural network.

Speech recognizer according to claim 10 or 11, characterized characterized that the Noise identification stage and / or the noise reduction level has a neural network of the multilayer perceptron type.

Speech recognizer according to one of claims 10 to 12, characterized by a plurality of each of a specific, predetermined noise environment trained neural networks in the noise reduction level.