DE10209323C1 - Automatische Signalpegelanpassung für Spracherkennungssysteme - Google Patents

Automatische Signalpegelanpassung für Spracherkennungssysteme

Info

Publication number
DE10209323C1
DE10209323C1 DE2002109323 DE10209323A DE10209323C1 DE 10209323 C1 DE10209323 C1 DE 10209323C1 DE 2002109323 DE2002109323 DE 2002109323 DE 10209323 A DE10209323 A DE 10209323A DE 10209323 C1 DE10209323 C1 DE 10209323C1
Authority
DE
Germany
Prior art keywords
signal
speech
signal level
level
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2002109323
Other languages
English (en)
Inventor
Fritz Class
Udo Haiber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Priority to DE2002109323 priority Critical patent/DE10209323C1/de
Application granted granted Critical
Publication of DE10209323C1 publication Critical patent/DE10209323C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

Für die automatische Erkennung von Sprache ist es erforderlich, das akustische Sprachsignal in einen Computer zu übertragen und in digitale Form zu transformieren, um es dann zu analysieren und die gesprochenen Wörter bzw. Sätze "erkennen" zu können. Die Übertragung des Signals erfolgt in der Regel über ein Mikrofon und dahinter angeschlossene Verstärker, um den Signalpegel in einen vordefinierten Bereich zu bringen. Gerade bei Sprache variiert der Signalpegel jedoch sehr stark, z. B. durch lautes oder leises Sprechen, Nahsprechen des Mikrofons (z. B. Headset) oder größere Entfernung zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug). Diese starken Pegelschwankungen können bei der automatischen Segmentierung zu Problemen führen. DOLLAR A Die Erfindung beschreibt ein Verfahren zur automatischen Verstärkungsregelung, deren Verstärkungsfaktor nicht kontinuierlich, sondern nur zu speziellen Zeitpunkten aktualisiert wird. Diese Zeitpunkte werden in Abhängigkeit von speziellen Merkmalen, die aus dem Sprachsignal selbst abgeleitet werden, bestimmt. In besonders vorteilhafter Weise eignet sich hierzu als Merkmal die Pitchfrequenz des Sprachsignals.

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruches 1.
Für die automatische Erkennung von Sprache ist es erforder­ lich, das akustische Sprachsignal in einen Computer zu übertragen und in digitale Form zu transformieren, um es dann zu analysieren und die gesprochenen Wörter bzw. Sätze "erkennen" zu können. Die Übertragung des Signals erfolgt in der Regel über ein Mikrofon und dahinter angeschlossene Verstärker, um den Signalpegel in einen vordefinierten Be­ reich zu bringen.
Gerade bei Sprache variiert der Signalpegel jedoch sehr stark, z. B. durch lautes oder leises Sprechen, Nahbespre­ chen des Mikrofons (z. B. Headset) oder größere Entfernung zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug). Diese starken Pegelschwankungen können bei der automati­ schen Segmentierung zu Problemen führen. Eine automatische Segmentierung ist in vielen Spracherkennungssystemen einge­ baut und soll die Grenzen des Sprachsignals detektieren, d. h. Beginn und Ende einer Äußerung. Im weiteren Sinne ist das eine Klassifikation des Eingangssignals in sprachliche und nicht-sprachliche Bereiche. Die Parameter dieser Seg­ mentierautomatik müssen wiederum auf den aktuellen Pegel­ bereich und auf das Verhältnis sprachlicher/nicht-sprachli­ chem Signalpegel (das sog. "Signal/Rausch-Verhältnis SNR") abgestimmt werden.
Bei sehr niedrigem Signalpegel (z. B. leiser Sprechweise) kann es vorkommen, dass energieschwache Sprachanteile wie z. B. die Frikative "s", "f", am Anfang oder Ende einer Spracheingabe nicht oder kaum höher sind als das Grundrau­ schen in den nicht-sprachlichen (Pausen-)Bereichen und deshalb von der Segmentierung bei falsch eingestellten Seg­ mentierparametern nicht entdeckt werden können. Dadurch werden Wortteile vom Signal abgeschnitten, was letztendlich zu Erkennungsfehlern führen kann. Generell bedeutet das, dass bei stark schwankendem Signalpegel die Abstimmung zwi­ schen Segmentierparametern und Signalpegel nicht stimmt. Das Ziel ist es deshalb, dem Spracherkenner ein Signal mit möglichst konstantem mittleren Pegel zuzuführen.
Eine gängige Methode, um den Ausgangspegel von Verstärkern im Mittel auf konstantem Niveau zu halten, ist die "Automa­ tic Gain Control" (AGC); d. h. eine automatische Verstärkungs­ regelung. Dabei wird der Ausgangspegel ständig gemessen und abhängig vom Soll- oder Zielwert der Verstärkungsfaktor des Verstärkers verändert. Ein wichtiger Parameter hierbei ist die Zeitkonstante der Änderung; d. h. wie schnell sich der Verstär­ kungsfaktor ändern darf. Diese Standard-AGC ist jedoch bei der Spracherkennung nicht verwendbar aus folgendem Grund: in lan­ gen Sprechpausen ist nur das Grundrauschen (Umgebungsgeräusch, elektrische Störeinflüsse, . . .) als Signal vorhanden. Dieses Grundrauschen ist in der Regel sehr viel kleiner als das Sprachsignal. In diesen Pausenbereichen würde die AGC den Ver­ stärkungsfaktor sehr hoch setzen. Dadurch würde das Grundrau­ schen sehr stark verstärkt, damit der Ausgangspegel das ge­ wünscht Niveau erreicht. Wenn dann wieder Sprache kommt, ist der Verstärkungsfaktor zu hoch und damit das Sprachsignal übersteuert, was zu Signalverzerrungen führt.
Aus der Schrift DE 199 47 839 A1 ist ein Verfahren zur automa­ tischen Verstärkungsregelung für Spracherkennungssysteme be­ kannt. Hierbei ein Algorithmus zur Unterscheidung von Sprach- zu Störgeräuschen verwandt, mittels welchem verschiedene sprach- und störgeräuschspezifische Parameter eines Audiosi­ gnals ausgewählt werden, die parameterbezogen nach dem Prinzip der Fuzzy-Logik verarbeitet werden.
Es ist aus EP 0 915 563 A2 bekannt, eine Verstärkungsregelung für ein Sprachübertragungssystem so auszuführen, dass der Pe­ gel des Sprachsignals gemessen und abhängig vom Sollwert des Ausgangssignals der Verstärkungsfaktor des Verstärkers verän­ dert wird. Hierbei wird das Sprachsignal in bezug auf seine Signalenergie mit einem Schwellwert verglichen, wobei bei des­ sen Überschreitung auf einen Sprachbereich innerhalb des Sprachsignals geschlossen wird. Der in diesem Bereich vorherr­ schende Signalpegel wird sodann zur Regelung des Verstärkungs­ faktors herangezogen.
Die Aufgabe der Erfindung ist es eine Verstärkungsregelung für ein Spracherkennungssystem zu finden, welches es erlaubt im Mittel das Sprachsignal auf einem konstanten Pegel zu halten ohne dass Verzerrungen auftreten.
Die Aufgabe wird durch ein Verfahren zur automatischen Ver­ stärkungsregelung für Spracherkennungssysteme gemäß Anspruch 1 gelöst. Der Verstärkungsfaktor wird nur innerhalb der Sprachbereiche des Sprachsignals bestimmt, wobei es sich eines Kriteriums be­ dient, welches es ermöglicht innerhalb des Sprachsignals die Bereiche die Sprache enthalten, von den Bereichen, welche kei­ ne Sprache enthalten, zu unterscheiden.
Ein in besonders vorteilhafter Weise dafür geeignetes Kri­ terium ist die sogenannte Pitch oder Grundfrequenz des Signals. Die Pitch läßt sich vor allem in stimmhaften Be­ reichen der Sprache (dazu zählen vor allem die Vokale) ein­ deutig lokalisieren und bestimmen. Gängige Methoden zur Bestimmung der Pitch sind aus dem Stand der Technik (bei­ spielsweise: Hess, Wolfgang (1983), Pitch determination of Speech signals, Nr. 3, Springer Series in Information Sciences, Springer Verlag, Berlin, Deutschland) bekannt.
Die Verwendung eines Kriterium auf der Basis der Signal­ energie ist zwar auch denkbar, doch ist ein solches Krite­ rium weniger vorteilhaft, da der Sprachpegel selbst sehr starken Schwankungen unterliegt.
In der Praxis hat sich gezeigt, dass der Ausgangssignalpe­ gel Z gewinnbringend auf 2/3 der Vollaussteuerung des Ver­ stärkers eingestellt wird. An den Stellen im Signal, an denen die Pitch ein eindeutiges Sprachsignal anzeigt, wird nun der Pegel des Ausgangssignals des Verstärkers gemessen und ein Verstärkungsfaktor v so festgelegt, dass das Sprachsignal Sout den gewünschten Ausgangssignalpegel Z erreicht, gemäß:
Die Pitch wird in einem konstanten Zeitraster am Sprachsi­ gnal berechnet. Ein typisch vorteilhafter Wert für dieses Zeitraster ist 10 msec (10 Millisekunden). Nun läßt sich die Pitch, wie zu vor erläutert, nicht an allen Rasterpunkten bestimmen, da nur in den Bereichen 2 des Sprachsignals 1, welche stimmhafte Laute repräsentieren, eine Bestimmung der Pitch möglich ist. Denn nur in diesen Bereichen 2 schwingen die Stimmbänder. Dies ist nur in ca. 40% des Sprachsignals der Fall. Deshalb wird nur zu diesen Zeitpunkten ein neuer Verstärkungsfaktor berechnet. Dies ist in Figur an der Treppenkurve 3 zu sehen.
Aufgrund der starken Pegelschwankungen des Sprachsignals 1 kann sich auch der neu berechnete Verstärkungsfaktor zwi­ schen 2 Berechnungszeitpunkten stark vom zuvor berechneten unterscheiden (siehe zum Beispiel zum Zeitpunkt "6" in Figur). Starke und schnelle Änderungen des Verstärkungsfak­ tors sind wiederum nicht erwünscht, da dies zu Signalver­ zerrungen führt. Deshalb ist es in gewinnbringender Weise denkbar eine Zeitkonstante bei der Schätzung des Signal­ pegels Sout einzuführen, welche eine zu schnelle Änderung des Verstärkungsfaktors verhindert. Dies entspricht einer Glättung des Verlaufs des Verstärkungsfaktor v über der Zeit. Die Formel
Sneu = (1 - α).Salt + α.Saktuell Gl. 2
ist die bekannte Adaptionsformel, wobei α die Adaptions­ zeitkonstante und S der aktuelle Schätzwert (hier der Si­ gnalpegel) ist. Für den Anstieg und für den Abstieg des Signalpegels können unterschiedliche Zeitkonstanten α bzw. α benutzt werden. Für die folgende Erläuterung des Prin­ zips in Figur wurde α = 1.0 gesetzt, das heißt der Anstieg des Signalpegels wird sofort in die neue Schätzung übernom­ men.
Das Prinzip des Verfahrens zeigt die Figur. Darin ist ein Sprachsignal dargestellt, das in der ersten Hälfte relativ leise ist und dann um ca. Faktor 3 lauter wird. Die Trep­ penkurve stellt den Signalpegel an den Stellen dar, an denen ein eindeutiger Pitch (stimmhafter Bereich) festge­ stellt wird. Nur an diesen Stellen ändert sich auch der Verlauf der Treppenkurve und nur an diesen Stellen wird ein neuer Verstärkungsfaktor berechnet. Ebenfalls dargestellt ist der Ausgangssignalpegel Z als gestrichelte Linie 4 am oberen Rand von Abbildung. Der Verstärkungsfaktor ergibt sich für jeden Zeitpunkt als Quotient von Treppenkurve 3 und Ausgangssignalpegel 4.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht eine Einschränkung der Verstärkungsregelung in Abhängigkeit des Signalpegels des Eingangssignals Sin vor. Ist das Ein­ gangssignal kleiner als ein unterer Schwellwert Tu oder größer als ein oberer Schwellwert To bezogen auf den ge­ samten Bereich der Aussteuerung des Eingangssignals Sin, so wird keine Neuberechnung des Verstärkungsfaktors vorgenom­ men, selbst wenn die Pitch einen stimmhaften Bereich an­ zeigt. Dieses Vorgehen ist besonders dann gewinnbringend, wenn sehr leise Sprachsignale beispielsweise von Sprechern im Hintergrund und nicht vom eigentlichen Benutzer des Sy­ stems stammen; solche Sprachsignale sollten nach Möglich­ keit nicht verstärkt werden. Andererseits deuten sehr star­ ke Signale auf eine Übersteuerung der Eingangsstufe des Er­ kennungssystems, beispielsweise dem Mikrophon hin, was zu Signalverzerrungen führt; wenn die automatische Verstär­ kungsregelung (AGC) nun ein solches Signal nachregelt, sind derartige Verzerrungen auch durch eine Reduktion des Si­ gnalpegels nicht mehr zu eliminieren. Typische Werte für derartige Schwellen sind Tu = 5% und To = 95% des maximal möglichen Signalpegels des Eingangssignals.

Claims (9)

1. Verfahren zur automatischen Verstärkungsregelung für Spracherkennungssysteme,
bei welchem der Pegel des Sprachsignals gemessen wird und ab­ hängig vom Sollwert des Ausgangssignals Z der Verstärkungsfak­ tor des Verstärkers verändert wird,
dadurch gekennzeichnet,
dass der veränderliche Verstärkungsfaktor nur auf Grundlage von Meßwerten innerhalb der Sprachbereiche des Sprachsignals berechnet wird,
wobei als Kriterium für die Unterscheidung, ob ein Bereich innerhalb des Sprachsignals ein Bereich ist, welcher Sprache enthält, die sogenannte Pitch oder Grundfrequenz des Signals dient.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Pitch in einem konstanten Zeitraster am Sprachsignal be­ rechnet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zeitraster 10 msec (10 Millisekunden) beträgt.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge­ kennzeichnet, dass der Ausgangssignalpegel Z auf 2/3 der Voll­ aussteuerung des Verstärkers eingestellt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch ge­ kennzeichnet, dass eine Zeitkonstante α zur Schätzung des Signalpegels Sout eingeführt wird, welche eine zu schnelle Änderung des Verstärkungsfaktors v verhindert.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass für den Anstieg und für den Abstieg des Signalpegels unterschiedliche Zeitkonstanten α bzw. α benutzt werden können.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Verstärkungsregelung in Abhängigkeit des Signalpegels des Eingangssignals Sin eingeschränkt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass für den Fall, dass das Eingangssignal kleiner als ein unterer Schwellwert Tu oder größer als ein oberer Schwellwert To bezo­ gen auf den gesamten Bereich der Aussteuerung des Eingangssi­ gnals Sin, ist, keine Neuberechnung des Verstärkungsfaktors vorgenommen wird, selbst wenn die Pitch einen stimmhaften Bereich anzeigt.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Schwellen zu Tu = 5% und To = 95% gewählt werden.
DE2002109323 2002-03-02 2002-03-02 Automatische Signalpegelanpassung für Spracherkennungssysteme Expired - Fee Related DE10209323C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2002109323 DE10209323C1 (de) 2002-03-02 2002-03-02 Automatische Signalpegelanpassung für Spracherkennungssysteme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002109323 DE10209323C1 (de) 2002-03-02 2002-03-02 Automatische Signalpegelanpassung für Spracherkennungssysteme

Publications (1)

Publication Number Publication Date
DE10209323C1 true DE10209323C1 (de) 2003-02-13

Family

ID=7714002

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2002109323 Expired - Fee Related DE10209323C1 (de) 2002-03-02 2002-03-02 Automatische Signalpegelanpassung für Spracherkennungssysteme

Country Status (1)

Country Link
DE (1) DE10209323C1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010033117A1 (de) * 2010-08-02 2012-02-02 Siemens Aktiengesellschaft Spracherkennungsverfahren

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0915563A2 (de) * 1997-11-04 1999-05-12 Nokia Mobile Phones Ltd. Verstärkungsregelschaltung
DE19947839A1 (de) * 1999-10-05 2001-01-25 Siemens Audiologische Technik Verfahren zur Spracherkennung in einer Hörhilfe mit digitaler Signalverarbeitung sowie Hörhilfe

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0915563A2 (de) * 1997-11-04 1999-05-12 Nokia Mobile Phones Ltd. Verstärkungsregelschaltung
DE19947839A1 (de) * 1999-10-05 2001-01-25 Siemens Audiologische Technik Verfahren zur Spracherkennung in einer Hörhilfe mit digitaler Signalverarbeitung sowie Hörhilfe

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010033117A1 (de) * 2010-08-02 2012-02-02 Siemens Aktiengesellschaft Spracherkennungsverfahren

Similar Documents

Publication Publication Date Title
US10523169B2 (en) Audio control using auditory event detection
DE69636985T2 (de) Sprachanwesenheitdetektor für halbduplex-audiokommunikationssystem
DE102008039276B4 (de) Tonverarbeitungsvorrichtung, Vorrichtung und Verfahren zum Steuern der Verstärkung und Computerprogramm
DE3750314T2 (de) Sprachprozessor.
EP1247425B1 (de) Verfahren zum betrieb eines hörgerätes und ein hörgerät
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
US6768801B1 (en) Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same
DE10209323C1 (de) Automatische Signalpegelanpassung für Spracherkennungssysteme
DE4229910A1 (de) Verfahren zum Verbessern der akustischen Rückhördämpfung von elektroakustischen Anlagen
DE102015200961B4 (de) Digitales Drahtlos-Audioübertragungssystem mit optimierter Dynamik
EP3961624A1 (de) Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
DE2150336A1 (de) Analysator fuer ein spracherkennungsgeraet
DE102005001345B4 (de) Verfahren und Vorrichtung zur Verarbeitung und Wiedergabe von Audiosignalen
EP3962115A1 (de) Verfahren zur bewertung der sprachqualität eines sprachsignals mittels einer hörvorrichtung
DE102009018469A1 (de) Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8304 Grant after examination procedure
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE

8327 Change in the person/name/address of the patent owner

Owner name: DAIMLER AG, 70327 STUTTGART, DE

8320 Willingness to grant licenses declared (paragraph 23)
8339 Ceased/non-payment of the annual fee