DE10209323C1

DE10209323C1 - Automatische Signalpegelanpassung für Spracherkennungssysteme

Info

Publication number: DE10209323C1
Application number: DE2002109323
Authority: DE
Inventors: Fritz Class; Udo Haiber
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2002-03-02
Filing date: 2002-03-02
Publication date: 2003-02-13
Anticipated expiration: 2022-03-03

Abstract

Für die automatische Erkennung von Sprache ist es erforderlich, das akustische Sprachsignal in einen Computer zu übertragen und in digitale Form zu transformieren, um es dann zu analysieren und die gesprochenen Wörter bzw. Sätze "erkennen" zu können. Die Übertragung des Signals erfolgt in der Regel über ein Mikrofon und dahinter angeschlossene Verstärker, um den Signalpegel in einen vordefinierten Bereich zu bringen. Gerade bei Sprache variiert der Signalpegel jedoch sehr stark, z. B. durch lautes oder leises Sprechen, Nahsprechen des Mikrofons (z. B. Headset) oder größere Entfernung zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug). Diese starken Pegelschwankungen können bei der automatischen Segmentierung zu Problemen führen. DOLLAR A Die Erfindung beschreibt ein Verfahren zur automatischen Verstärkungsregelung, deren Verstärkungsfaktor nicht kontinuierlich, sondern nur zu speziellen Zeitpunkten aktualisiert wird. Diese Zeitpunkte werden in Abhängigkeit von speziellen Merkmalen, die aus dem Sprachsignal selbst abgeleitet werden, bestimmt. In besonders vorteilhafter Weise eignet sich hierzu als Merkmal die Pitchfrequenz des Sprachsignals.

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruches 1.

Für die automatische Erkennung von Sprache ist es erforder lich, das akustische Sprachsignal in einen Computer zu übertragen und in digitale Form zu transformieren, um es dann zu analysieren und die gesprochenen Wörter bzw. Sätze "erkennen" zu können. Die Übertragung des Signals erfolgt in der Regel über ein Mikrofon und dahinter angeschlossene Verstärker, um den Signalpegel in einen vordefinierten Be reich zu bringen.

Gerade bei Sprache variiert der Signalpegel jedoch sehr stark, z. B. durch lautes oder leises Sprechen, Nahbespre chen des Mikrofons (z. B. Headset) oder größere Entfernung zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug). Diese starken Pegelschwankungen können bei der automati schen Segmentierung zu Problemen führen. Eine automatische Segmentierung ist in vielen Spracherkennungssystemen einge baut und soll die Grenzen des Sprachsignals detektieren, d. h. Beginn und Ende einer Äußerung. Im weiteren Sinne ist das eine Klassifikation des Eingangssignals in sprachliche und nicht-sprachliche Bereiche. Die Parameter dieser Seg mentierautomatik müssen wiederum auf den aktuellen Pegel bereich und auf das Verhältnis sprachlicher/nicht-sprachli chem Signalpegel (das sog. "Signal/Rausch-Verhältnis SNR") abgestimmt werden.

Bei sehr niedrigem Signalpegel (z. B. leiser Sprechweise) kann es vorkommen, dass energieschwache Sprachanteile wie z. B. die Frikative "s", "f", am Anfang oder Ende einer Spracheingabe nicht oder kaum höher sind als das Grundrau schen in den nicht-sprachlichen (Pausen-)Bereichen und deshalb von der Segmentierung bei falsch eingestellten Seg mentierparametern nicht entdeckt werden können. Dadurch werden Wortteile vom Signal abgeschnitten, was letztendlich zu Erkennungsfehlern führen kann. Generell bedeutet das, dass bei stark schwankendem Signalpegel die Abstimmung zwi schen Segmentierparametern und Signalpegel nicht stimmt. Das Ziel ist es deshalb, dem Spracherkenner ein Signal mit möglichst konstantem mittleren Pegel zuzuführen.

Eine gängige Methode, um den Ausgangspegel von Verstärkern im Mittel auf konstantem Niveau zu halten, ist die "Automa tic Gain Control" (AGC); d. h. eine automatische Verstärkungs regelung. Dabei wird der Ausgangspegel ständig gemessen und abhängig vom Soll- oder Zielwert der Verstärkungsfaktor des Verstärkers verändert. Ein wichtiger Parameter hierbei ist die Zeitkonstante der Änderung; d. h. wie schnell sich der Verstär kungsfaktor ändern darf. Diese Standard-AGC ist jedoch bei der Spracherkennung nicht verwendbar aus folgendem Grund: in lan gen Sprechpausen ist nur das Grundrauschen (Umgebungsgeräusch, elektrische Störeinflüsse, . . .) als Signal vorhanden. Dieses Grundrauschen ist in der Regel sehr viel kleiner als das Sprachsignal. In diesen Pausenbereichen würde die AGC den Ver stärkungsfaktor sehr hoch setzen. Dadurch würde das Grundrau schen sehr stark verstärkt, damit der Ausgangspegel das ge wünscht Niveau erreicht. Wenn dann wieder Sprache kommt, ist der Verstärkungsfaktor zu hoch und damit das Sprachsignal übersteuert, was zu Signalverzerrungen führt.

Aus der Schrift DE 199 47 839 A1 ist ein Verfahren zur automa tischen Verstärkungsregelung für Spracherkennungssysteme be kannt. Hierbei ein Algorithmus zur Unterscheidung von Sprach- zu Störgeräuschen verwandt, mittels welchem verschiedene sprach- und störgeräuschspezifische Parameter eines Audiosi gnals ausgewählt werden, die parameterbezogen nach dem Prinzip der Fuzzy-Logik verarbeitet werden.

Es ist aus EP 0 915 563 A2 bekannt, eine Verstärkungsregelung für ein Sprachübertragungssystem so auszuführen, dass der Pe gel des Sprachsignals gemessen und abhängig vom Sollwert des Ausgangssignals der Verstärkungsfaktor des Verstärkers verän dert wird. Hierbei wird das Sprachsignal in bezug auf seine Signalenergie mit einem Schwellwert verglichen, wobei bei des sen Überschreitung auf einen Sprachbereich innerhalb des Sprachsignals geschlossen wird. Der in diesem Bereich vorherr schende Signalpegel wird sodann zur Regelung des Verstärkungs faktors herangezogen.

Die Aufgabe der Erfindung ist es eine Verstärkungsregelung für ein Spracherkennungssystem zu finden, welches es erlaubt im Mittel das Sprachsignal auf einem konstanten Pegel zu halten ohne dass Verzerrungen auftreten.

Die Aufgabe wird durch ein Verfahren zur automatischen Ver stärkungsregelung für Spracherkennungssysteme gemäß Anspruch 1 gelöst. Der Verstärkungsfaktor wird nur innerhalb der Sprachbereiche des Sprachsignals bestimmt, wobei es sich eines Kriteriums be dient, welches es ermöglicht innerhalb des Sprachsignals die Bereiche die Sprache enthalten, von den Bereichen, welche kei ne Sprache enthalten, zu unterscheiden.

Ein in besonders vorteilhafter Weise dafür geeignetes Kri terium ist die sogenannte Pitch oder Grundfrequenz des Signals. Die Pitch läßt sich vor allem in stimmhaften Be reichen der Sprache (dazu zählen vor allem die Vokale) ein deutig lokalisieren und bestimmen. Gängige Methoden zur Bestimmung der Pitch sind aus dem Stand der Technik (bei spielsweise: Hess, Wolfgang (1983), Pitch determination of Speech signals, Nr. 3, Springer Series in Information Sciences, Springer Verlag, Berlin, Deutschland) bekannt.

Die Verwendung eines Kriterium auf der Basis der Signal energie ist zwar auch denkbar, doch ist ein solches Krite rium weniger vorteilhaft, da der Sprachpegel selbst sehr starken Schwankungen unterliegt.

In der Praxis hat sich gezeigt, dass der Ausgangssignalpe gel Z gewinnbringend auf 2/3 der Vollaussteuerung des Ver stärkers eingestellt wird. An den Stellen im Signal, an denen die Pitch ein eindeutiges Sprachsignal anzeigt, wird nun der Pegel des Ausgangssignals des Verstärkers gemessen und ein Verstärkungsfaktor v so festgelegt, dass das Sprachsignal S_out den gewünschten Ausgangssignalpegel Z erreicht, gemäß:

Die Pitch wird in einem konstanten Zeitraster am Sprachsi gnal berechnet. Ein typisch vorteilhafter Wert für dieses Zeitraster ist 10 msec (10 Millisekunden). Nun läßt sich die Pitch, wie zu vor erläutert, nicht an allen Rasterpunkten bestimmen, da nur in den Bereichen 2 des Sprachsignals 1, welche stimmhafte Laute repräsentieren, eine Bestimmung der Pitch möglich ist. Denn nur in diesen Bereichen 2 schwingen die Stimmbänder. Dies ist nur in ca. 40% des Sprachsignals der Fall. Deshalb wird nur zu diesen Zeitpunkten ein neuer Verstärkungsfaktor berechnet. Dies ist in Figur an der Treppenkurve 3 zu sehen.

Aufgrund der starken Pegelschwankungen des Sprachsignals 1 kann sich auch der neu berechnete Verstärkungsfaktor zwi schen 2 Berechnungszeitpunkten stark vom zuvor berechneten unterscheiden (siehe zum Beispiel zum Zeitpunkt "6" in Figur). Starke und schnelle Änderungen des Verstärkungsfak tors sind wiederum nicht erwünscht, da dies zu Signalver zerrungen führt. Deshalb ist es in gewinnbringender Weise denkbar eine Zeitkonstante bei der Schätzung des Signal pegels Sout einzuführen, welche eine zu schnelle Änderung des Verstärkungsfaktors verhindert. Dies entspricht einer Glättung des Verlaufs des Verstärkungsfaktor v über der Zeit. Die Formel

S_neu = (1 - α).S_alt + α.S_aktuell Gl. 2

ist die bekannte Adaptionsformel, wobei α die Adaptions zeitkonstante und S der aktuelle Schätzwert (hier der Si gnalpegel) ist. Für den Anstieg und für den Abstieg des Signalpegels können unterschiedliche Zeitkonstanten α_↑ bzw. α_↓ benutzt werden. Für die folgende Erläuterung des Prin zips in Figur wurde α_↑ = 1.0 gesetzt, das heißt der Anstieg des Signalpegels wird sofort in die neue Schätzung übernom men.

Das Prinzip des Verfahrens zeigt die Figur. Darin ist ein Sprachsignal dargestellt, das in der ersten Hälfte relativ leise ist und dann um ca. Faktor 3 lauter wird. Die Trep penkurve stellt den Signalpegel an den Stellen dar, an denen ein eindeutiger Pitch (stimmhafter Bereich) festge stellt wird. Nur an diesen Stellen ändert sich auch der Verlauf der Treppenkurve und nur an diesen Stellen wird ein neuer Verstärkungsfaktor berechnet. Ebenfalls dargestellt ist der Ausgangssignalpegel Z als gestrichelte Linie 4 am oberen Rand von Abbildung. Der Verstärkungsfaktor ergibt sich für jeden Zeitpunkt als Quotient von Treppenkurve 3 und Ausgangssignalpegel 4.

Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht eine Einschränkung der Verstärkungsregelung in Abhängigkeit des Signalpegels des Eingangssignals S_in vor. Ist das Ein gangssignal kleiner als ein unterer Schwellwert T_u oder größer als ein oberer Schwellwert T_o bezogen auf den ge samten Bereich der Aussteuerung des Eingangssignals S_in, so wird keine Neuberechnung des Verstärkungsfaktors vorgenom men, selbst wenn die Pitch einen stimmhaften Bereich an zeigt. Dieses Vorgehen ist besonders dann gewinnbringend, wenn sehr leise Sprachsignale beispielsweise von Sprechern im Hintergrund und nicht vom eigentlichen Benutzer des Sy stems stammen; solche Sprachsignale sollten nach Möglich keit nicht verstärkt werden. Andererseits deuten sehr star ke Signale auf eine Übersteuerung der Eingangsstufe des Er kennungssystems, beispielsweise dem Mikrophon hin, was zu Signalverzerrungen führt; wenn die automatische Verstär kungsregelung (AGC) nun ein solches Signal nachregelt, sind derartige Verzerrungen auch durch eine Reduktion des Si gnalpegels nicht mehr zu eliminieren. Typische Werte für derartige Schwellen sind T_u = 5% und T_o = 95% des maximal möglichen Signalpegels des Eingangssignals.

Claims

1. Verfahren zur automatischen Verstärkungsregelung für Spracherkennungssysteme,
bei welchem der Pegel des Sprachsignals gemessen wird und ab hängig vom Sollwert des Ausgangssignals Z der Verstärkungsfak tor des Verstärkers verändert wird,
dadurch gekennzeichnet,
dass der veränderliche Verstärkungsfaktor nur auf Grundlage von Meßwerten innerhalb der Sprachbereiche des Sprachsignals berechnet wird,
wobei als Kriterium für die Unterscheidung, ob ein Bereich innerhalb des Sprachsignals ein Bereich ist, welcher Sprache enthält, die sogenannte Pitch oder Grundfrequenz des Signals dient.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Pitch in einem konstanten Zeitraster am Sprachsignal be rechnet wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zeitraster 10 msec (10 Millisekunden) beträgt.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge kennzeichnet, dass der Ausgangssignalpegel Z auf 2/3 der Voll aussteuerung des Verstärkers eingestellt wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch ge kennzeichnet, dass eine Zeitkonstante α zur Schätzung des Signalpegels S_out eingeführt wird, welche eine zu schnelle Änderung des Verstärkungsfaktors v verhindert.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass für den Anstieg und für den Abstieg des Signalpegels unterschiedliche Zeitkonstanten α_↑ bzw. α_↓ benutzt werden können.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Verstärkungsregelung in Abhängigkeit des Signalpegels des Eingangssignals S_in eingeschränkt wird.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass für den Fall, dass das Eingangssignal kleiner als ein unterer Schwellwert T_u oder größer als ein oberer Schwellwert T_o bezo gen auf den gesamten Bereich der Aussteuerung des Eingangssi gnals S_in, ist, keine Neuberechnung des Verstärkungsfaktors vorgenommen wird, selbst wenn die Pitch einen stimmhaften Bereich anzeigt.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Schwellen zu T_u = 5% und T_o = 95% gewählt werden.