DE3732394A1

DE3732394A1 - Method for compensating disturbance noises for speech-recognition systems depending on speakers and installed in motor vehicles

Info

Publication number: DE3732394A1
Application number: DE19873732394
Authority: DE
Inventors: Gerd-Stefan Kunz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1987-09-25
Filing date: 1987-09-25
Publication date: 1989-04-06

Abstract

The maximum disturbance noise occurring in the motor vehicle is stored once and, after each activation of the speech-recognition system, the difference between the disturbance signal current at the time and the disturbance signal corresponding to the maximum occurring disturbance noise is added to the current disturbance signal before a speech input. <IMAGE>

Description

Die Erfindung betrifft ein Verfahren zur Kompensation von Störgeräuschen für in Fahrzeugen installierte sprecherabhängige Spracherkennungssysteme.The invention relates to a method for compensating Noise for speaker-dependent installed in vehicles Speech recognition systems.

Derartige sprechabhängige Spracherkennungssysteme arbeiten prinzipiell derart, daß eine erstmalige Spracheingabe innerhalb einer Lernphase erfolgt, in der die Merkmale der zu erkennenden Worte analysiert und in einen Referenzspeicher geladen werden. In sogenannten späteren Erkennungsphasen werden die relevanten Merkmale eingegebener Wörter sogenannte Analyseparameter mit den abgespeicherten Referenzmustern verglichen und der jewei lige Ähnlichkeitsgrad festgestellt. Innerhalb einer Umgebung, in der die Störgeräusche annähernd konstant sind, arbeiten die heutigen Spracherkennungssysteme zufriedenstellend. Die Er kennungsdaten der heutigen Spracherkennungssysteme sinken aber drastisch herab, wenn sich die Umgebungsgeräusche während der Lernphase und der Erkennungsphase wesentlich unterscheiden. Dies ist z. B. in einem Kraftfahrzeug der Fall, bei dem unter schiedliche Betriebsarten von z. B. Standbetrieb bis Autobahn betrieb mit unterschiedlichster Geräuschbelastung möglich sind.Such speech-dependent speech recognition systems work in principle such that a first-time speech input within a learning phase takes place in which the characteristics of the to be recognized Words are analyzed and loaded into a reference memory. In so-called later recognition phases, the relevant ones Characteristics of words entered with so-called analysis parameters compared the stored reference patterns and the respective degree of similarity. Within an environment, in the noise is almost constant, they work today's speech recognition systems satisfactory. The he however, the identification data of today's speech recognition systems are falling drastically down if the ambient noise during the Learning phase and the recognition phase differ significantly. This is e.g. B. in a motor vehicle, in which under different operating modes from z. B. Stand operation up to the freeway operation with different noise levels are possible.

Aufgabe der vorliegende Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, welches die Anwendung sprecherabhängiger Spracherkennungssysteme z. B. in Kraftfahr zeugen ermöglicht.The object of the present invention is a method of Specify the type mentioned above, which the application speaker-dependent speech recognition systems e.g. B. in motor vehicles enables witnessing.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß das im Fahrzeug maximal auftretende Störgeräusch einmalig abge speichert wird, und daß nach jeder Aktivierung des Spracher kennungssystems vor einer Spracheingabe die Differenz zwischen dem jeweils aktuellen Störsignal und dem dem maximal auf tretenden Störgeräusch entsprechenden Störsignal zum aktuellen Störsignal hinzu addiert wird.This object is achieved in that the Abge maximum occurring noise in the vehicle once is saved, and that after each activation of the language identification system before a voice input the difference between the current interference signal and the maximum noise signal corresponding to the current noise Interference signal is added.

Durch das erfindungsgemäße Verfahren wird erreicht, daß am Eingang des Spracherkennungssystems immer ein konstanter Stör pegel anliegt. Hierdurch ergeben sich sowohl in ruhiger Umgebung (Standbetrieb) als auch in maximaler Störumgebung (Autobahnbetrieb) immer identische Verhältnisse für das Sprach erkennungssystem während unterschiedlicher Erkennungsvorgänge. Die Anwendung eines Spracherkennungssystems, bei dem das er findungsgemäße Verfahren Anwendung findet, kann z. B. zum An steuern eines Autotelefons dienen, wodurch sich für den Fahrer eine erhebliche Entlastung bei der Bedienung des Gerätes ver bunden mit einer Erhöhung der Fahrsicherheit ergibt.The inventive method ensures that on Input of the speech recognition system always a constant interference level is present. This results in both being quieter Environment (stand operation) as well as in maximum interference environment (Autobahn operation) always identical conditions for the speech detection system during different detection processes. The application of a speech recognition system in which he inventive method is used, for. B. An Control a car phone serve, which is great for the driver a considerable relief when operating the device associated with an increase in driving safety.

Eine zweckmäßige Schaltungsanordnung zur Durchführung des Ver fahrens gemäß der vorliegenden Erfindung ist dadurch gekenn zeichnet, daß das dem maximal auftretenden Störgeräusch ent sprechende Störsignal in einem Rauschgenerator abgespeichert ist und über ein spannungsgesteuertes Dämpfungsglied einer Addierschaltung zugeführt wird, während das aktuelle Störsignal über ein Nahbesprechungsmikrofon und einem nachgeschalteten Mikrofonverstärker der Addierschaltung zugeführt wird, wobei das spannungsgesteuerte Dämpfungsglied von in zwei Gleich richterschaltungen erzeugten den beiden Störsignalen proportionalen Gleichspannungssignalen angesteuert wird, und das Ausgangssignal der Addierschaltung dem eigentlichen Eingang des Spracherkennungssystems zugeleitet wird. Eine derartige gemäß der vorliegenden Erfindung aufgebaute Schaltungsanordnung ermöglicht ohne großen technischen Schaltungsaufwand die Ein haltung eines konstanten Störpegels am Eingang des Spracher kennungssystems. An appropriate circuit arrangement for performing the Ver driving according to the present invention is thereby characterized records that the ent the maximum noise occurring speaking interference signal stored in a noise generator is and via a voltage-controlled attenuator Adding circuit is supplied while the current interference signal via a close-range microphone and a downstream Microphone amplifier of the adder circuit is supplied, wherein the voltage controlled attenuator by in two alike judge circuits generated the two interference signals proportional DC voltage signals is driven, and the output signal of the adding circuit to the actual input of the speech recognition system. Such one Circuit arrangement constructed according to the present invention enables the On without much technical circuitry maintaining a constant noise level at the entrance to the speech identification system.

Eine andere zweckmäßige Ausgestaltung der Erfindung ist dadurch gekennzeichnet, daß zwischen der Gleichrichterschaltung für das aktuelle Störsignal und dem spannungsgesteuerten Dämpfungsglied ein Speicher angeordnet ist. Auf diese Weise wird erreicht, daß während einer Spracheingabe, die in der Regel aus einem Wort besteht, die Störsignalkompensation konstant gehalten wird, da man in der Regel davon ausgehen kann, daß sich während einer Spracheingabe die Umgebungsgeräusche nicht wesentlich ändern.Another useful embodiment of the invention is thereby characterized in that between the rectifier circuit for the current interference signal and the voltage controlled attenuator a memory is arranged. In this way it is achieved that during a speech input, which is usually one word exists, the interference signal compensation is kept constant because one can usually assume that during a Voice input does not significantly change the ambient noise.

Die Erfindung wird nachfolgend anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert.The invention is described below with reference to a drawing illustrated embodiment explained in more detail.

Die dargestellte Figur zeigt den prizipiellen Aufbau einer Eingangsschaltung ES, mit der das erfindungsgemäße Verfahren durchgeführt werden kann, sowie ein beliebiges Spracherkennungs system SES.The figure shown shows the basic structure of an input circuit ES , with which the inventive method can be carried out, as well as any speech recognition system SES .

Auf den genauen Aufbau des Spracherkennungssystems soll im folgenden nur kurz eingegangen werden, da dieser Aufbau das erfindungsgemäße Verfahren nicht betrifft und den einschlägigen Fachleuten bekannt sein dürfte. Ein sprecherabhängiges Sprach erkennungssystem besteht im wesentlichen aus drei Bausteinen, einem Analog-Interface, einem Arithmetikprozessor und einem Controller nebst einem Referenzspeicher. Durch das Anwender system wird das Spracherkennungssystem über die Befehle Ver stärkungseinstellung, Lernen und Erkennen gesteuert. Die Ver stärkungseinstellung bewirkt eine Anpassung des Signalpegels an die individuelle Sprachlautstärke, außerdem wird ein Pegel schwellwert berechnet, der eine Wortgrenzendetektion ermöglicht. Ein sprecherabhängiges Spracherkennungssytem erfordert eine Lernphase, in der die Merkmale der zu erkennenden Worte analysiert und in den Referenzspeicher geladen werden. In der Erkennungsphase werden die relevanten Merkmale des eingegebenen Wortes mit den abgespeicherten Referenzmustern verglichen und der Ähnlichkeitsgrad festgestellt. On the exact structure of the speech recognition system in following are only briefly discussed, since this structure is the The method according to the invention is not concerned and the relevant Experts should be known. A speaker-dependent language recognition system essentially consists of three components, an analog interface, an arithmetic processor and one Controller along with a reference memory. By the user system, the speech recognition system is controlled via the commands Ver strengthening, learning and recognition controlled. The Ver Strength adjustment adjusts the signal level the individual speech volume, also a level threshold is calculated, which enables word boundary detection. A speaker-dependent speech recognition system requires one Learning phase in which the characteristics of the words to be recognized analyzed and loaded into the reference memory. In the Detection phase, the relevant characteristics of the entered Word compared with the stored reference patterns and the degree of similarity was determined.

Mittels des Analog-Interface erfolgt die Verstärkungseinstellung sowie eine spektrale Entzerrung und eine Begrenzung des Frequenzbereichs des Sprachsignals auf z. B. 5 kHz als Vorbe dingung für die anschließende Digitalisierung des Sprachsignals, die z. B. durch Abtastung mit einer Frequenz von 10 kHz und einer logarithmischen Quantisierung mit 8 Bit Auflösung erfol gen kann. Der Artithmetikprozessor führt eine Spektralanalyse der digitalisierten Sprache und den Vergleich der Sprachmuster in der Erkennungsphase durch. Während der Sprachanalyse wird z. B. alle 10 Millisekunden ein Satz spektraler Intensitätswerte ausgegeben und dem nachfolgenden Controller zugeführt. Der Controller steuert die beiden anderen Bausteine, empfängt Commandos vom Anwendersystem, verwaltete den Referenzspeicher und sendet das Ergebnis der Einzelworterkennung an das Anwendersystem.The gain is set using the analog interface as well as spectral equalization and a limitation of the Frequency range of the speech signal on z. B. 5 kHz as preliminary condition for the subsequent digitization of the speech signal, the z. B. by sampling at a frequency of 10 kHz and logarithmic quantization with 8 bit resolution can. The artithmetic processor performs a spectral analysis the digitized language and the comparison of language patterns in the detection phase. During the speech analysis e.g. B. a set of spectral intensity values every 10 milliseconds output and fed to the subsequent controller. The Controller controls the other two blocks, receives Commandos from the user system, managed the reference memory and sends the result of single word recognition to the User system.

Nachfolgend wird der Aufbau der Eingangsschaltung ES be schrieben. Voraussetzung für die einwandfreie Funktion des nachgeschalteten Spracherkennungssystems SES ist das einmalige Abspeichern des maximal im Auto auftretenden Umgebungsgeräusches in einem Rauschgenerator RG. Das einmalige Abspeichern kann z. B. über einen Zeitraum von ca. 10 Millisekunden Dauer bei Autobahnbetrieb erfolgen. Im Rauschgenerator RG erfolgt dann eine Wiedergabe dieser aufgenommenen Sequenz im "Endlosschleifen betrieb". Dabei kann die Abspeicherung sowohl analog als auch, was technisch einfacher zu realisieren ist, digital abgespeichert werden. Der Rauschgenerator RG erzeugt an seinem Ausgang ein maximal auftretendes Störsignal, das über ein spannungsgesteuer tes Dämpfungsglied DG einem Eingang einer Addierschaltung Add zugeführt wird. Das jeweils aktuelle Störsignal wird über ein Nahbesprechungsmikrofon M, welches z. B. im Handapparat eines Autotelefons angeordnet ist, und einen Mikrofonverstärker MV einem zweiten Eingang der Addierschaltung Add zugeführt. The structure of the input circuit ES will be described below. A prerequisite for the proper functioning of the downstream speech recognition system SES is the one-time storage of the maximum ambient noise occurring in the car in a noise generator RG . The one-time saving can e.g. B. over a period of about 10 milliseconds in highway operation. This recorded sequence is then reproduced in the "endless loop operation" in the noise generator RG . The storage can be stored digitally as well as, which is technically easier to implement. The noise generator RG generates at its output a maximum interference signal which is fed to an input of an adder Add via a voltage-controlled attenuator DG . The current interference signal is in each case via a close-range microphone M , which, for. B. is arranged in the handset of a car phone, and a microphone amplifier MV fed to a second input of the adder Add .

Mit Aktivierung des Spracherkennungssystems SES und vor einer Spracheingabe, wird auch die Eingangsschaltung ES aktiviert und das jeweils aktuelle Störsignal der Addierschaltung Add zugeführt. Gleichzeitig werden mit Hilfe der beiden Gleich richterschaltungen GS 1 und GS 2 proportionale Gleichspannungen zur Ansteuerung des Dämpfungsgliedes DG gebildet. Hierbei repräsentieren die jeweiligen proportionalen Gleichspannungen die Größe der beidenStörsignale. Das spannungsgesteuerte Dämpfungsglied DG arbeitet nun derart, daß bei kleiner werden dem aktuellem Störsignal der Anzahl des maximal auftretenden Störsignals, welcher der Addierschaltung Add zugeführt wird, so eingestellt wird, daß am Ausgang der Addierschaltung Add immer ein Störsignal mit gleichem Pegel anliegt.When the voice recognition system SES is activated and before a voice input, the input circuit ES is also activated and the current interference signal is fed to the adder circuit Add . At the same time, with the help of the two rectifier circuits GS 1 and GS 2, proportional direct voltages are formed for controlling the attenuator DG . The respective proportional direct voltages represent the magnitude of the two interference signals. The voltage-controlled attenuator DG now works in such a way that when the current interference signal becomes smaller, the number of the maximum interference signal which is fed to the adding circuit Add is set such that an interference signal of the same level is always present at the output of the adding circuit Add .

Mit Hilfe dieser Eingangsschaltung ES ist es also möglich, sowohl für die Lern- als auch für die Erkennungsphase am Eingang eines Spracherkennungssystems gleiche "Umgebungsverhältnisse" zu schaffen, so daß eine sichere Worterkennung gewährleistet ist.With the aid of this input circuit ES , it is therefore possible to create the same “ambient conditions” for the learning as well as for the recognition phase at the input of a speech recognition system, so that reliable word recognition is ensured.

Der Speicher Sp dient dazu, die das aktuelle Störsignal re präsentierende proportionale Gleichspannung während der nach folgenden Spracheingabe konstant zu halten, da vorausgesetzt wird, daß während einer Spracheingabe von einem Wort keine wesentlichen Änderungen der aktuellen Umgebungsgeräusche ein treten.The memory Sp serves to keep the proportional DC voltage present the current interference signal re constant during the subsequent voice input, since it is assumed that no significant changes in the current ambient noise occur during a voice input of a word.

Bei der Anwendung der vorliegenden Erfindung stand die Anwendung von Spracheingabe in Verbindung mit einem Autotelefon zur Entlastung des Fahrers bei Bedienung des Gerätes im Vorder grund. Denkbar ist jedoch auch die Anwendung des erfindungsge mäßen Verfahrens mit einem Spracherkennungssystem in Verbindung mit anderen Anwendersystemen. When applying the present invention, the Use of voice input in connection with a car phone to relieve the driver when operating the device in the front reason. However, the application of the fiction is also conceivable method in connection with a speech recognition system with other user systems.

Durch den Einsatz von Spracheingabe bei Autotelefonen reduziert sich der Wählvorgang auf das Abnehmen des Handapparates und das anschließende Einsprechen des gewünschten Teilnehmernamens bzw. der Teilnehmerziffern. Nach der Erkennung stellt das System automatisch die betreffende Telefonverbindung her, so daß der Fahrer während des ganzen Vorgangs seine uneingeschränkte Aufmerksamkeit dem Straßenverkehr widmen kann. Eine Wahlwieder holung im Falle eines erfolglosen Rufes könnte ebenfalls durch Spracheingabe aktiviert werden.Reduced through the use of voice input in car phones the dialing process depends on the removal of the handset and the then speaking the desired participant name or the number of participants. After detection, this represents System automatically establishes the relevant telephone connection, see above that the driver has his unrestricted during the whole process Can pay attention to road traffic. A redial Collection in the event of an unsuccessful call could also occur Voice input can be activated.

Claims

1. A method for compensating for noise installed in driving witness-dependent speech recognition systems, characterized in that the maximum noise occurring in the vehicle is stored once and that after each activation of the speech recognition system before a voice input, the difference between the current interference signal and the maximum occurring Noise corresponding noise signal is added to the current noise signal.

2. Circuit arrangement for carrying out the method according to claim 1, characterized in that the interference signal corresponding to the maximum occurring noise is stored in a noise generator (RG) and is supplied via an voltage-controlled attenuator (DG) to an adder circuit (Add) while the current interference signal A close-range microphone (M) and a downstream microphone amplifier (MV) are fed to the adder circuit (Add) , the voltage-controlled attenuator (DG) being controlled by direct voltage signals proportional to the two interference signals generated in two rectifier circuits (GS 1 , GS 2 ), and the output signal of the adder circuit (Add) is fed to the actual input of the speech recognition system.

3. Circuit arrangement according to claim 2, characterized in that a memory (Sp) is arranged between the rectifier circuit (GS 1 ) for the current interference signal and the voltage-controlled attenuator (DG) .