DE10209323C1 - Automatische Signalpegelanpassung für Spracherkennungssysteme - Google Patents
Automatische Signalpegelanpassung für SpracherkennungssystemeInfo
- Publication number
- DE10209323C1 DE10209323C1 DE2002109323 DE10209323A DE10209323C1 DE 10209323 C1 DE10209323 C1 DE 10209323C1 DE 2002109323 DE2002109323 DE 2002109323 DE 10209323 A DE10209323 A DE 10209323A DE 10209323 C1 DE10209323 C1 DE 10209323C1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- speech
- signal level
- level
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000003321 amplification Effects 0.000 title claims abstract description 9
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 9
- 230000001419 dependent effect Effects 0.000 title description 2
- 238000005259 measurement Methods 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
Für die automatische Erkennung von Sprache ist es erforderlich, das akustische Sprachsignal in einen Computer zu übertragen und in digitale Form zu transformieren, um es dann zu analysieren und die gesprochenen Wörter bzw. Sätze "erkennen" zu können. Die Übertragung des Signals erfolgt in der Regel über ein Mikrofon und dahinter angeschlossene Verstärker, um den Signalpegel in einen vordefinierten Bereich zu bringen. Gerade bei Sprache variiert der Signalpegel jedoch sehr stark, z. B. durch lautes oder leises Sprechen, Nahsprechen des Mikrofons (z. B. Headset) oder größere Entfernung zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug). Diese starken Pegelschwankungen können bei der automatischen Segmentierung zu Problemen führen. DOLLAR A Die Erfindung beschreibt ein Verfahren zur automatischen Verstärkungsregelung, deren Verstärkungsfaktor nicht kontinuierlich, sondern nur zu speziellen Zeitpunkten aktualisiert wird. Diese Zeitpunkte werden in Abhängigkeit von speziellen Merkmalen, die aus dem Sprachsignal selbst abgeleitet werden, bestimmt. In besonders vorteilhafter Weise eignet sich hierzu als Merkmal die Pitchfrequenz des Sprachsignals.
Description
Die Erfindung betrifft ein Verfahren nach dem Oberbegriff
des Patentanspruches 1.
Für die automatische Erkennung von Sprache ist es erforder
lich, das akustische Sprachsignal in einen Computer zu
übertragen und in digitale Form zu transformieren, um es
dann zu analysieren und die gesprochenen Wörter bzw. Sätze
"erkennen" zu können. Die Übertragung des Signals erfolgt
in der Regel über ein Mikrofon und dahinter angeschlossene
Verstärker, um den Signalpegel in einen vordefinierten Be
reich zu bringen.
Gerade bei Sprache variiert der Signalpegel jedoch sehr
stark, z. B. durch lautes oder leises Sprechen, Nahbespre
chen des Mikrofons (z. B. Headset) oder größere Entfernung
zum Mikrofon (z. B. bei Spracheingabe im Kraftfahrzeug).
Diese starken Pegelschwankungen können bei der automati
schen Segmentierung zu Problemen führen. Eine automatische
Segmentierung ist in vielen Spracherkennungssystemen einge
baut und soll die Grenzen des Sprachsignals detektieren,
d. h. Beginn und Ende einer Äußerung. Im weiteren Sinne ist
das eine Klassifikation des Eingangssignals in sprachliche
und nicht-sprachliche Bereiche. Die Parameter dieser Seg
mentierautomatik müssen wiederum auf den aktuellen Pegel
bereich und auf das Verhältnis sprachlicher/nicht-sprachli
chem Signalpegel (das sog. "Signal/Rausch-Verhältnis SNR")
abgestimmt werden.
Bei sehr niedrigem Signalpegel (z. B. leiser Sprechweise)
kann es vorkommen, dass energieschwache Sprachanteile wie
z. B. die Frikative "s", "f", am Anfang oder Ende einer
Spracheingabe nicht oder kaum höher sind als das Grundrau
schen in den nicht-sprachlichen (Pausen-)Bereichen und
deshalb von der Segmentierung bei falsch eingestellten Seg
mentierparametern nicht entdeckt werden können. Dadurch
werden Wortteile vom Signal abgeschnitten, was letztendlich
zu Erkennungsfehlern führen kann. Generell bedeutet das,
dass bei stark schwankendem Signalpegel die Abstimmung zwi
schen Segmentierparametern und Signalpegel nicht stimmt.
Das Ziel ist es deshalb, dem Spracherkenner ein Signal mit
möglichst konstantem mittleren Pegel zuzuführen.
Eine gängige Methode, um den Ausgangspegel von Verstärkern
im Mittel auf konstantem Niveau zu halten, ist die "Automa
tic Gain Control" (AGC); d. h. eine automatische Verstärkungs
regelung. Dabei wird der Ausgangspegel ständig gemessen und
abhängig vom Soll- oder Zielwert der Verstärkungsfaktor des
Verstärkers verändert. Ein wichtiger Parameter hierbei ist die
Zeitkonstante der Änderung; d. h. wie schnell sich der Verstär
kungsfaktor ändern darf. Diese Standard-AGC ist jedoch bei der
Spracherkennung nicht verwendbar aus folgendem Grund: in lan
gen Sprechpausen ist nur das Grundrauschen (Umgebungsgeräusch,
elektrische Störeinflüsse, . . .) als Signal vorhanden. Dieses
Grundrauschen ist in der Regel sehr viel kleiner als das
Sprachsignal. In diesen Pausenbereichen würde die AGC den Ver
stärkungsfaktor sehr hoch setzen. Dadurch würde das Grundrau
schen sehr stark verstärkt, damit der Ausgangspegel das ge
wünscht Niveau erreicht. Wenn dann wieder Sprache kommt, ist
der Verstärkungsfaktor zu hoch und damit das Sprachsignal
übersteuert, was zu Signalverzerrungen führt.
Aus der Schrift DE 199 47 839 A1 ist ein Verfahren zur automa
tischen Verstärkungsregelung für Spracherkennungssysteme be
kannt. Hierbei ein Algorithmus zur Unterscheidung von Sprach-
zu Störgeräuschen verwandt, mittels welchem verschiedene
sprach- und störgeräuschspezifische Parameter eines Audiosi
gnals ausgewählt werden, die parameterbezogen nach dem Prinzip
der Fuzzy-Logik verarbeitet werden.
Es ist aus EP 0 915 563 A2 bekannt, eine Verstärkungsregelung
für ein Sprachübertragungssystem so auszuführen, dass der Pe
gel des Sprachsignals gemessen und abhängig vom Sollwert des
Ausgangssignals der Verstärkungsfaktor des Verstärkers verän
dert wird. Hierbei wird das Sprachsignal in bezug auf seine
Signalenergie mit einem Schwellwert verglichen, wobei bei des
sen Überschreitung auf einen Sprachbereich innerhalb des
Sprachsignals geschlossen wird. Der in diesem Bereich vorherr
schende Signalpegel wird sodann zur Regelung des Verstärkungs
faktors herangezogen.
Die Aufgabe der Erfindung ist es eine Verstärkungsregelung für
ein Spracherkennungssystem zu finden, welches es erlaubt im
Mittel das Sprachsignal auf einem konstanten Pegel zu halten
ohne dass Verzerrungen auftreten.
Die Aufgabe wird durch ein Verfahren zur automatischen Ver
stärkungsregelung für Spracherkennungssysteme gemäß Anspruch 1 gelöst.
Der Verstärkungsfaktor wird nur innerhalb der Sprachbereiche des
Sprachsignals bestimmt, wobei es sich eines Kriteriums be
dient, welches es ermöglicht innerhalb des Sprachsignals die
Bereiche die Sprache enthalten, von den Bereichen, welche kei
ne Sprache enthalten, zu unterscheiden.
Ein in besonders vorteilhafter Weise dafür geeignetes Kri
terium ist die sogenannte Pitch oder Grundfrequenz des
Signals. Die Pitch läßt sich vor allem in stimmhaften Be
reichen der Sprache (dazu zählen vor allem die Vokale) ein
deutig lokalisieren und bestimmen. Gängige Methoden zur
Bestimmung der Pitch sind aus dem Stand der Technik (bei
spielsweise: Hess, Wolfgang (1983), Pitch determination of
Speech signals, Nr. 3, Springer Series in Information
Sciences, Springer Verlag, Berlin, Deutschland) bekannt.
Die Verwendung eines Kriterium auf der Basis der Signal
energie ist zwar auch denkbar, doch ist ein solches Krite
rium weniger vorteilhaft, da der Sprachpegel selbst sehr
starken Schwankungen unterliegt.
In der Praxis hat sich gezeigt, dass der Ausgangssignalpe
gel Z gewinnbringend auf 2/3 der Vollaussteuerung des Ver
stärkers eingestellt wird. An den Stellen im Signal, an
denen die Pitch ein eindeutiges Sprachsignal anzeigt, wird
nun der Pegel des Ausgangssignals des Verstärkers gemessen
und ein Verstärkungsfaktor v so festgelegt, dass das
Sprachsignal Sout den gewünschten Ausgangssignalpegel Z
erreicht, gemäß:
Die Pitch wird in einem konstanten Zeitraster am Sprachsi
gnal berechnet. Ein typisch vorteilhafter Wert für dieses
Zeitraster ist 10 msec (10 Millisekunden). Nun läßt sich die
Pitch, wie zu vor erläutert, nicht an allen Rasterpunkten
bestimmen, da nur in den Bereichen 2 des Sprachsignals 1,
welche stimmhafte Laute repräsentieren, eine Bestimmung der
Pitch möglich ist. Denn nur in diesen Bereichen 2 schwingen
die Stimmbänder. Dies ist nur in ca. 40% des Sprachsignals
der Fall. Deshalb wird nur zu diesen Zeitpunkten ein neuer
Verstärkungsfaktor berechnet. Dies ist in Figur an der
Treppenkurve 3 zu sehen.
Aufgrund der starken Pegelschwankungen des Sprachsignals 1
kann sich auch der neu berechnete Verstärkungsfaktor zwi
schen 2 Berechnungszeitpunkten stark vom zuvor berechneten
unterscheiden (siehe zum Beispiel zum Zeitpunkt "6" in
Figur). Starke und schnelle Änderungen des Verstärkungsfak
tors sind wiederum nicht erwünscht, da dies zu Signalver
zerrungen führt. Deshalb ist es in gewinnbringender Weise
denkbar eine Zeitkonstante bei der Schätzung des Signal
pegels Sout einzuführen, welche eine zu schnelle Änderung
des Verstärkungsfaktors verhindert. Dies entspricht einer
Glättung des Verlaufs des Verstärkungsfaktor v über der
Zeit. Die Formel
Sneu = (1 - α).Salt + α.Saktuell Gl. 2
ist die bekannte Adaptionsformel, wobei α die Adaptions
zeitkonstante und S der aktuelle Schätzwert (hier der Si
gnalpegel) ist. Für den Anstieg und für den Abstieg des
Signalpegels können unterschiedliche Zeitkonstanten α↑ bzw.
α↓ benutzt werden. Für die folgende Erläuterung des Prin
zips in Figur wurde α↑ = 1.0 gesetzt, das heißt der Anstieg
des Signalpegels wird sofort in die neue Schätzung übernom
men.
Das Prinzip des Verfahrens zeigt die Figur. Darin ist ein
Sprachsignal dargestellt, das in der ersten Hälfte relativ
leise ist und dann um ca. Faktor 3 lauter wird. Die Trep
penkurve stellt den Signalpegel an den Stellen dar, an
denen ein eindeutiger Pitch (stimmhafter Bereich) festge
stellt wird. Nur an diesen Stellen ändert sich auch der
Verlauf der Treppenkurve und nur an diesen Stellen wird ein
neuer Verstärkungsfaktor berechnet. Ebenfalls dargestellt
ist der Ausgangssignalpegel Z als gestrichelte Linie 4 am
oberen Rand von Abbildung. Der Verstärkungsfaktor ergibt
sich für jeden Zeitpunkt als Quotient von Treppenkurve 3
und Ausgangssignalpegel 4.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht
eine Einschränkung der Verstärkungsregelung in Abhängigkeit
des Signalpegels des Eingangssignals Sin vor. Ist das Ein
gangssignal kleiner als ein unterer Schwellwert Tu oder
größer als ein oberer Schwellwert To bezogen auf den ge
samten Bereich der Aussteuerung des Eingangssignals Sin, so
wird keine Neuberechnung des Verstärkungsfaktors vorgenom
men, selbst wenn die Pitch einen stimmhaften Bereich an
zeigt. Dieses Vorgehen ist besonders dann gewinnbringend,
wenn sehr leise Sprachsignale beispielsweise von Sprechern
im Hintergrund und nicht vom eigentlichen Benutzer des Sy
stems stammen; solche Sprachsignale sollten nach Möglich
keit nicht verstärkt werden. Andererseits deuten sehr star
ke Signale auf eine Übersteuerung der Eingangsstufe des Er
kennungssystems, beispielsweise dem Mikrophon hin, was zu
Signalverzerrungen führt; wenn die automatische Verstär
kungsregelung (AGC) nun ein solches Signal nachregelt, sind
derartige Verzerrungen auch durch eine Reduktion des Si
gnalpegels nicht mehr zu eliminieren. Typische Werte für
derartige Schwellen sind Tu = 5% und To = 95% des maximal
möglichen Signalpegels des Eingangssignals.
Claims (9)
1. Verfahren zur automatischen Verstärkungsregelung für
Spracherkennungssysteme,
bei welchem der Pegel des Sprachsignals gemessen wird und ab hängig vom Sollwert des Ausgangssignals Z der Verstärkungsfak tor des Verstärkers verändert wird,
dadurch gekennzeichnet,
dass der veränderliche Verstärkungsfaktor nur auf Grundlage von Meßwerten innerhalb der Sprachbereiche des Sprachsignals berechnet wird,
wobei als Kriterium für die Unterscheidung, ob ein Bereich innerhalb des Sprachsignals ein Bereich ist, welcher Sprache enthält, die sogenannte Pitch oder Grundfrequenz des Signals dient.
bei welchem der Pegel des Sprachsignals gemessen wird und ab hängig vom Sollwert des Ausgangssignals Z der Verstärkungsfak tor des Verstärkers verändert wird,
dadurch gekennzeichnet,
dass der veränderliche Verstärkungsfaktor nur auf Grundlage von Meßwerten innerhalb der Sprachbereiche des Sprachsignals berechnet wird,
wobei als Kriterium für die Unterscheidung, ob ein Bereich innerhalb des Sprachsignals ein Bereich ist, welcher Sprache enthält, die sogenannte Pitch oder Grundfrequenz des Signals dient.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass
die Pitch in einem konstanten Zeitraster am Sprachsignal be
rechnet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass
das Zeitraster 10 msec (10 Millisekunden) beträgt.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge
kennzeichnet, dass der Ausgangssignalpegel Z auf 2/3 der Voll
aussteuerung des Verstärkers eingestellt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch ge
kennzeichnet, dass eine Zeitkonstante α zur Schätzung des
Signalpegels Sout eingeführt wird, welche eine zu schnelle
Änderung des Verstärkungsfaktors v verhindert.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass
für den Anstieg und für den Abstieg des Signalpegels
unterschiedliche Zeitkonstanten α↑ bzw. α↓ benutzt werden
können.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch
gekennzeichnet, dass die Verstärkungsregelung in Abhängigkeit
des Signalpegels des Eingangssignals Sin eingeschränkt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass
für den Fall, dass das Eingangssignal kleiner als ein unterer
Schwellwert Tu oder größer als ein oberer Schwellwert To bezo
gen auf den gesamten Bereich der Aussteuerung des Eingangssi
gnals Sin, ist, keine Neuberechnung des Verstärkungsfaktors
vorgenommen wird, selbst wenn die Pitch einen stimmhaften
Bereich anzeigt.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass
die Schwellen zu Tu = 5% und To = 95% gewählt werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002109323 DE10209323C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Signalpegelanpassung für Spracherkennungssysteme |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002109323 DE10209323C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Signalpegelanpassung für Spracherkennungssysteme |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10209323C1 true DE10209323C1 (de) | 2003-02-13 |
Family
ID=7714002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002109323 Expired - Fee Related DE10209323C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Signalpegelanpassung für Spracherkennungssysteme |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10209323C1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010033117A1 (de) * | 2010-08-02 | 2012-02-02 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0915563A2 (de) * | 1997-11-04 | 1999-05-12 | Nokia Mobile Phones Ltd. | Verstärkungsregelschaltung |
DE19947839A1 (de) * | 1999-10-05 | 2001-01-25 | Siemens Audiologische Technik | Verfahren zur Spracherkennung in einer Hörhilfe mit digitaler Signalverarbeitung sowie Hörhilfe |
-
2002
- 2002-03-02 DE DE2002109323 patent/DE10209323C1/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0915563A2 (de) * | 1997-11-04 | 1999-05-12 | Nokia Mobile Phones Ltd. | Verstärkungsregelschaltung |
DE19947839A1 (de) * | 1999-10-05 | 2001-01-25 | Siemens Audiologische Technik | Verfahren zur Spracherkennung in einer Hörhilfe mit digitaler Signalverarbeitung sowie Hörhilfe |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010033117A1 (de) * | 2010-08-02 | 2012-02-02 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10523169B2 (en) | Audio control using auditory event detection | |
DE69636985T2 (de) | Sprachanwesenheitdetektor für halbduplex-audiokommunikationssystem | |
DE102008039276B4 (de) | Tonverarbeitungsvorrichtung, Vorrichtung und Verfahren zum Steuern der Verstärkung und Computerprogramm | |
DE3750314T2 (de) | Sprachprozessor. | |
EP1247425B1 (de) | Verfahren zum betrieb eines hörgerätes und ein hörgerät | |
DE602004007953T2 (de) | System und verfahren zur audiosignalverarbeitung | |
US6768801B1 (en) | Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same | |
DE10209323C1 (de) | Automatische Signalpegelanpassung für Spracherkennungssysteme | |
DE4229910A1 (de) | Verfahren zum Verbessern der akustischen Rückhördämpfung von elektroakustischen Anlagen | |
DE102015200961B4 (de) | Digitales Drahtlos-Audioübertragungssystem mit optimierter Dynamik | |
EP3961624A1 (de) | Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals | |
DE2150336A1 (de) | Analysator fuer ein spracherkennungsgeraet | |
DE102005001345B4 (de) | Verfahren und Vorrichtung zur Verarbeitung und Wiedergabe von Audiosignalen | |
EP3962115A1 (de) | Verfahren zur bewertung der sprachqualität eines sprachsignals mittels einer hörvorrichtung | |
DE102009018469A1 (de) | Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8320 | Willingness to grant licenses declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |