DE19500494C2 - Merkmalsextraktionsverfahren für ein Sprachsignal - Google Patents
Merkmalsextraktionsverfahren für ein SprachsignalInfo
- Publication number
- DE19500494C2 DE19500494C2 DE19500494A DE19500494A DE19500494C2 DE 19500494 C2 DE19500494 C2 DE 19500494C2 DE 19500494 A DE19500494 A DE 19500494A DE 19500494 A DE19500494 A DE 19500494A DE 19500494 C2 DE19500494 C2 DE 19500494C2
- Authority
- DE
- Germany
- Prior art keywords
- spectral
- interference
- speech signal
- signal
- energies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000605 extraction Methods 0.000 title claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 33
- 230000005540 biological transmission Effects 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 8
- 238000010183 spectrum analysis Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000009499 grossing Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 241001014642 Rasta Species 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Description
Bei den meisten Spracherkennungssystemen wird die Erkennung
in zwei Stufen durchgeführt. In der ersten Stufe, der Merk
malsextraktionsstufe, werden aus dem Sprachsignal in vorgege
benen Zeitabschnitten Merkmale bestimmt, die auf einer Kurz
zeitspektralanalyse beruhen. In der zweiten Stufe werden
diese spektralen Merkmale mit Mustern von spektralen Merkma
len der zu erkennenden Wörter verglichen. Als besonders
geeignet haben sich als Muster sogenannte Hidden Markov
Modelle (HMM) erwiesen. Beim Vergleich wird dasjenige Wort
oder diejenigen Wörter als erkannt gesetzt, bei denen die
Muster zu den spektralen Merkmalen des anliegenden Sprachsi
gnals die höchste Ähnlichkeit (geringster Abstand, höchste
Wahrscheinlichkeit) besitzen (Klassifikationsstufe). Als
Vergleichsverfahren hat sich der Viterbialgorithmus etab
liert.
Ein großes Problem bei der Spracherkennung bildet die Varia
bilität der Merkmale, die durch die unterschiedliche Anatomie
des Vokaltraktes der Sprecher, Kanälen (z. B. Telefonkanal,
Mobilfunk, Raumakustik und Mikrofon) sowie von additiven
Störungen (z. B. Autogeräusche, Nebensprechen, Quantisierungs
rauschen von Codierern) erzeugt wird. Um eine hohe Erken
nungsleistung eines Systems zu erreichen, müssen alle mögli
chen Variabilitäten in den Mustern repräsentiert sein, damit
eine hohe Ähnlichkeit zwischen den spektralen Merkmalen und
den Mustern für das zu erkennende Wort erreicht wird. Auf
grund der hohen Variabilität der Muster ist eine solche
umfassende Repräsentation praktisch nicht möglich und die
Erkennungsleistung sinkt mehr oder weniger, je nach der
Quelle der Variabilität.
Bisher gibt es für diese Probleme verschiedene Lösungsansät
ze.
Zur Reduktion der Variabilitäten der Merkmale bezüglich der
Übertragungseigenschaften verschiedener Kanäle hat sich das
RASTA-Verfahren /1/ und zur Reduktion der Variabilitäten der
Merkmale bezüglich additiven Störungen hat sich die Methode
der spektralen Subtraktion /2/ als wirksames Verfahren erwie
sen. Beide Verfahren sind schon in eine Merkmalsextraktions
stufe integriert.
Aus der deutschen Offenlegungsschrift DE 41 11 995 A1 ist eine
Schaltungsanordnung zur Spracherkennung bekannt. Dort wird
eine Merkmalsextraktionseinrichtung verwendet, welche nach
einem Verfahren zur Merkmalsextraktion für ein Sprachsignal
arbeitet, bei dem von dem Sprachsignal durch
Kurzzeitspektralanalyse dessen Spektralenergien bestimmt
werden und bei dem daraus abgeleitete logarithmierte
Spektralenergien bestimmt werden.
Aus dem Artikel von Christian Kroschel: Umgebungsgeräusch
reduktion bei Sprachkommunikationssystemen, in: Frequenz 42
(1988) 2/3, Seite 79 bis 84, ist bekannt die Filterkoeffizien
ten für ein Hochpaßfilter, welches von einem Sprachsignal
durchlaufen wird, zeitabhängig einzustellen. Hierbei wird die
Geräuschkompensation dadurch erzielt, daß ein mit der Störung
korreliertes Signal verwendet wird, welches keine
Sprachkomponenten enthält.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein
Verfahren für die Merkmalsextraktion eines Sprachsignales
anzugeben, welches eine schnelle Adaption an und Kompensation
von übertragungskanalspezifischen Fehlern ermöglicht.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruches 1
gelöst.
Weiterbildungen der Erfindung ergeben sich aus den Unteran
sprüchen.
Auf besonders vorteilhafte Art können die zeitlich gleitenden
Mittelwerte der logarithmierten Spektralenergien mit Hilfe
eines Hochpaßfilters eliminiert werden, dessen Filterkoeffi
zienten zeitabhängig bestimmt werden. Dadurch wird vor allen
Dingen die Spracherkennung verbessert, indem sehr schnell
eine Anpassung der Merkmalsextraktion an unterschiedliche
Übertragungskanäle erfolgt.
Besonders vorteilhaft werden für das erfindungsgemäße Verfah
ren die Basisparameter zur Bestimmung der Filterkoeffizienten
mit statistischen Methoden aus solchen Sprachsignalen extra
hiert, die der Sprache, welche als Signal übertragen werden
soll, entnommen sind. So werden besonders vorteilhaft Spre
cher- und Übertragungskanalcharkteristika in das Spracherken
nungsverfahren mit einbezogen.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht
darin, daß Störungen unterdrückt werden, die unterhalb vorge
gebener Störpegel liegen. Dies führt zu einer gegenüber
Störungen robusteren Merkmalsextraktion, da unterhalb eines
bestimmten Signalpegels, bezogen auf die jeweiligen Spektral
energien lediglich der Störpegel berücksichtigt wird.
Vorteilhafterweise können durch das erfindungsgemäße Verfah
ren auf einfache Weise die Störungen, die durch das Quanti
sierungsrauschen von Sprachcodierern bzw. Signale, die außer
halb eines Sprachübertragungsbereiches liegen, sowie Hinter
grundgeräusche, eliminiert werden. Die Merkmalsextraktion für
die nachfolgende Sprachverarbeitung wird damit wesentlich
vereinfacht.
Besonders vorteilhaft können mit dem erfindungsgemäßen Ver
fahren die Steuerparameter der einzelnen Merkmalsextraktions
schritte im voraus für bestimmte bekannte Sprachübertragungs
kanäle bestimmt und abgespeichert werden. Für die Merkmalsex
traktion bei der Spracherkennung ist es dann erforderlich die
einzelnen Sprachübertragungskanäle eindeutig zu kennzeichnen,
und wenn Sprache auf einem solchen Kanal ankommt, die abge
speicherten Parameter zu laden und die Spracherkennung mit
speziell auf den Kanal abgestimmten Parametern durchzuführen.
Vorteilhaft kann diese Parameterextraktion beispielsweise für
ISDN-Sprachleitungen, Mobiltelefonleitungen oder Analogtele
fone vorgenommen werden.
Im folgenden wird die Erfindung anhand von Figuren weiter
erläutert.
Fig. 1 zeigt ein beispielhaftes Spracherkennungssystem.
Fig. 2 zeigt ein Beispiel zur Merkmalsextraktion in einem
Spracherkennungssystem.
Fig. 3 zeigt ein Beispiel für eine erfindungsgemäße Merkmals
extraktionsstufe.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion.
In Fig. 1 ist ein Beispiel für ein Spracherkennungssystem
dargestellt. Das Sprachsignal Spr gelangt zunächst in eine
Merkmalsextraktionsstufe Merk, in welcher üblicherweise die
spektralen Merkmale des Sprachsignales Spr analysiert werden.
Sie sind hier mit m bezeichnet. Die spektralen Merkmale m
gelangen im Anschluß in eine Klassifikationsstufe Klass, in
der sie mit Mustern HMM, üblicherweise Hidden Markov Modelle
verglichen werden, um dann als Worte Wo aus dem Spracherken
nungssystem ausgegeben zu werden.
Fig. 2 gibt ein Beispiel einer Merkmalsextraktionsstufe zur
Spracherkennung an. Das Sprachsignal Spr gelangt zunächst in
einen Funktionsblock, in dem eine Kurzzeitspektralanalyse
durchgeführt wird. Dieser ist hier mit FFT bezeichnet. Im An
schluß erhält man die Spektralenergien x₁, . . ., xN. Mit diesen
Spektralenergien wird im Anschluß eine Störunterdrückung ST
durchgeführt, welche in der Regel eine spektrale Subtraktion
des Störsignales bedeutet. Es ergeben sich die entstörten
Spektralenergien ₁, . . ., N. Die entstörten Signale werden an
schließend komprimiert, was in der Regel eine Logarithmierung
der Werte bedeutet. Dies geschieht im Funktionsblock, der mit
Kom bezeichnet ist. Man erhält die logarithmierten
Spektralenergien y₁, . . ., yN. Zur weiteren Merkmalsextraktion
wird eine Kanalkompensation Kan auf die logarithmierten
Spektralenergien angewendet. Man erhält die kanalbereinigten
Spektralenergien ₁, . . ., N. In der Regel wird das RASTA-Ver
fahren für die Kanalkompensation der Spektralenergien einge
setzt. Anschließend findet eine Nachbearbeitung Na der kanal
bereinigten Spektralenergien statt und man erhält die Sprach
merkmale m₁, . . ., mM.
Wie Fig. 2 im Einzelnen zeigt, wird das Sprachsignal ab
schnittsweise (vorzugsweise in Abschnitten von 10-30 ms)
einer Kurzzeitspektralanalyse unterzogen, die meist mit Hilfe
einer Fourier-Transformation (FFT) durchgeführt wird. Je nach
spektraler Auflösung der FFT variiert die Anzahl der Spektral
energien. Bei Telefonanwendungen bei einer Bandbreite des
Telefonkanals von 3,4 KHz hat sich eine Auflösung von N = 256
Spektralenergien und bei Büroanwendungen (Bandbreite 7,4 KHz)
eine Auflösung von N = 512 Spektralenergien als günstig erwie
sen.
Zur Störunterdrückung kann nach der Spektralanalyse die
spektrale Subtraktion eingesetzt werden, wobei von den Spek
tralenergien x₁ (i = 1, . . ., N) die geschätzten Spektren si
des Störsignals abgezogen wird:
₁ = xi - si i = 1, . . ., N
Die Schätzung der Störspektren erfolgt bevorzugt während
einer Sprechpause, während der das Signal Spr nur aus dem
Störsignal besteht.
Zur Kanalkompensation werden zunächst günstigerweise die
entstörten Spektralenergien i in ihrer Dynamik komprimiert.
Als Kompressionskennlinie wird häufig der Logarithmus ver
wendet:
yi = logi i = 1, . . ., N
Auf die komprimierten Spektralenergien wird hier als Beispiel
das RASTA-Verfahren angewendet. Die Grundidee besteht dabei,
von den yi (i = 1, N) den kanalabhängigen Mittelwert i
(i = 1, . . ., N) zu entfernen. Dies erfolgt z. B. mit einem Hoch
paßfilter mit der Übertragungsfunktion:
Ein spezielles Hochpaßfilter bildet der Abzug des gleitenden
Mittelwertes ₁ von den Spektralwerten yi/3/.
Erfolgt die Bestimmung des gleitenden Mittelwertes i zu
jedem Sprachabschnitt n (n = 1, 2, . . . ) rekursiv nach der Bezie
hung
₁(n) = ai-1(n - 1) + (1 - a)i(n) i = 1, . . ., N
so läßt sich zeigen, daß die Beseitigung des Mittelwertes von
y₁ mit
i(n) = yi(n) - i(n) i = 1, . . ., N
äquivalent zu dem Hochpaßfilter mit der Übertragungsfunktion
ist, wobei H(z) eine vereinfachte Variante zu Gleichung (1)
darstellt.
Um in dem Mittelwert ₁ die Sprechereigenschaften besser
berücksichtigen zu können, besteht die Möglichkeit, zur
Bestimmung von i nur solche Signalabschnitte Spr zu verwen
den, bei denen keine Sprechpause vorliegt /3/.
Schließlich werden die kanalbereinigten Spektralenergien
einer Nachverarbeitung unterzogen, wobei im wesentlichen
durch eine lineare Operation die Anzahl der Spektralenergien
y₁ (i = 1, . . ., N) auf wenige Merkmale m₁, . . ., mM (z. B. M = 50 Werte)
reduziert werden.
Fig. 3 gibt ein Beispiel für einen nach dem erfindungsgemä
ßen Verfahren arbeitende Merkmalsextraktionsstufe eines
Spracherkennungssystems an. Die Funktionsblöcke, welche
gleich bezeichnet sind, führen auch dieselbe Operation wie
jene Funktionsblöcke in Fig. 2 durch. Die Indizierung und
die Bezeichnung ist äquivalent wie in Fig. 2 verwendet.
Zusätzlich zur Merkmalsextraktionsstufe nach Fig. 2 kommt
hier fallweise bei einer Ausführungsform des erfindungsgemä
ßen Verfahrens eine Irrelevanzreduktion Irr hinzu. Die
Irrelevanzreduktion wird beispielsweise im unmittelbaren
Anschluß an die spektrale Kurzzeitanalyse durchgeführt. Die
aus der Kurzzeitanalyse erhaltenen Spektralenergien werden
dabei mit Spektralenergien verglichen, die aus einem charak
teristischen Störsignal ermittelt wurden. Falls die Spektral
energien kleiner sind als jene des Störsignales des jeweili
gen Frequenzbereiches, so wird dem jeweiligen Frequenzbereich
die Störspektralenergie zugewiesen und mit dieser das
Verfahren weiter durchgeführt.
Nach der Irrelevanzreduktion Irr erhält man die irrelevanzre
duzierten Spektralenergien x₁′, . . ., xN′. Zusätzlich zum in
Fig. 2 beschriebenen Merkmalsextraktionsverfahren wird auf
die komprimierten Spektralenergien y₁, . . ., yN bevorzugt eine
spektrale Glättung Gl angewendet. Diese spektrale Glättung Gl
ist aus dem Stand der Technik bekannt, ist jedoch für das
funktionieren des erfindungsgemäßen Verfahrens nicht von
essentieller Bedeutung. Vielmehr wird durch die spektrale
Glättung der Rechenaufwand für die nachfolgenden Verfahrens
schritte reduziert. Man erhält geglättete Spektralenergien
y₁, . . ., yK. Ein weiterer Schritt des erfindungsgemäßen Verfah
rens sieht eine kanaladaptive Kompensation der geglätteten
Spektralenergien vor.
Die Filterkoeffizienten für diese Kompensation werden nach
dem erfindungsgemäßen Verfahren zeitabhängig ermittelt.
Der Erfindung liegen dabei drei getrennte Ansätze zugrunde,
die zum Ziel haben, die Variabilität der Merkmale weiter zu
reduzieren. Sie werden als Verfahren vorgeschlagen, die
effizient zu realisieren sind. Die Verfahren werden bei
spielsweise in die Merkmalsextraktionsstufe integriert und
können z. B. durch die in /4/ beschriebene Anordnung technisch
realisiert werden. Ein Beispiel für eine erfindungsgemäße
Merkmalsextraktionsstufe ist in Fig. 3 dargestellt.
Nach der Kurzzeitspektralanalyse wird vorteilhaft eine Irre
levanzreduktion durchgeführt, die zum Ziel hat, die für die
Spracherkennung irrelevanten von der Anwendung her bekannten
Anteile zu entfernen. Solche Anteile sind z. B.:
- - Quantisierungsrauschen der Codierer (z. B. A/D-D/A-Wandler zur Digitalisierung analoger Signale, Codierer für Mobilübertragung wie GSM)
- - Störgeräusche außerhalb vom Nutzkanal (z. B. beim Telefonkanal Signale unter 300 Hz und über 3,4 KHz)
- - konstante Arbeitsplatzgeräusche
Die Irrelevanzreduktion wird durch das Verfahren
realisiert, wobei die Schwellen ei spektralspezifische Kon
stanten darstellen. Die Schwellen können empirisch festgelegt
werden, wobei i. A. die Schwellen um so höher angesetzt wer
den, je stärker der irrelevante Anteil der Spektralenergie
ist. Durch Anpassung der Schwellen ei an die Sprachcodecs,
die in ISDN-Übertragungskanälen eingesetzt werden, wurde
experimentell eine Reduktion der Fehlerrate in der Spracher
kennung erreicht.
Nach der Kompression wird zunächst beispielsweise eine spek
trale Glättung der komprimierten Spektralenergien durchge
führt, wie sie auch in /4/ beschrieben ist.
Diese Operation wird i. A. durch eine Matrixoperation er
reicht:
Wie schon vorher erwähnt, haben sich die Werte N = 256 (Anzahl
der Spektralenergien) und K = 24 (Anzahl der geglätteten Spek
tralenergien) für Telefonanwendungen als günstig erwiesen,
können aber durch andere Werte ersetzt werden. Die spektrale
Glättung kann auch mit komprimierten Spektralenergien, die
von mehreren Signalabschnitten n, n-1, . . . erzeugt wurden,
durchgeführt werden:
Durch die spektrale Glättung wird erreicht, daß die Kanalkom
pensation für weniger Spektren durchgeführt werden muß und
daß diese auch nicht mehr die störenden Grundfrequenzanteile
enthalten. Wie erkannt werden kann, stellt ein Merkmalsex
traktionsverfahren mit spektraler Glättung lediglich eine
bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens
dar. Es sind auch andere Varianten der Erfindung denkbar, wo
die Glättung keine Rolle spielt, da beispielsweise das
Sprachsignal in anderer Form aufbereitet wird, oder der
Rechenaufwand zur Spracherkennung eine untergeordnete Rolle
spielt.
Eine adaptive Kanalkompression wie im RASTA-Verfahren hat den
Nachteil, daß das Filter H(z) nur langsam einschwingt, wo
durch am Anfang einer Äußerung die stationären Anteile der
Spektren nur ungenügend entfernt werden und dort leicht
Fehlerkennung auftritt. Um dies zu vermeiden, werden bei der
Erfindung die Filterkoeffizienten zeitvariabel eingestellt,
so daß ein schnelles Einschwingen des Kanaladaptionsfilters
erreicht wird. Die Bestimmung der kompensierten Spektren i
erfolgt nach dem Algorithmus:
i(n) = y′i(n) - ′i(n) mit i = 1, . . ., K
i0, αi0, β₀: Konstanten, die aus statistischen
Untersuchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende Funktion
(n): mit n monoton steigende Funktion
Die Konstanten i0, αi0, β₀ werden dabei beispielsweise durch
statistische Untersuchungen an typischem Sprachmaterial
festgelegt.
Im Einzelnen werden dazu beispielsweise Sprachstichproben von
für die praktische Anwendung der Erfindung typischen Spre
chern genommen. Hierbei benutzen diese Personen bevorzugte
applikationsspezifische Übertragungskanäle, wie beispielswei
se eine ISDN-Verbindung, so daß diese Sprachstichproben mit
für einen jeweiligen Sprachübertragungskanal typischen Ka
nalübertragungseigenschaften behaftet sind. Die Werte von i0
(i = 1, . . ., K) lassen sich dann als Mittelwerte der Kanal
energien i′ der Sprachstichproben bestimmen. Die Werte von αi0
werden bevorzugt durch den Quotienten
angenähert. Dabei gibt die Varianz der Mittelwerte i0 an,
wobei die Mittelwerte vorzugsweise für jede Sprachstichprobe
eines jeweiligen Sprechers separat berechnet werden. σi ist
die Varianz der Kanalwerte y′i. Für den Fall, daß die Mittel
werte i0 der Sprachstichproben nur wenig schwanken, ist also
klein und somit αi0 groß zu wählen. Für Telefonanwendungen
liegen günstige Werte von αi0 in der Größenordnung von 10 bis
15.
Der Wert β₀ wird bevorzugt aus der statistischen Abhängigkeit
seitlich benachbarter Kanalenergien y′i(n), y′i(n-1) bestimmt.
Ist die Statistische Abhängigkeit gering, so wird günstiger
weise β₀ = 1 gesetzt. Mit zunehmender Statistischer Abhängig
keit werden entsprechend der Abhängigkeit kleinere Werte von
β₀ vorgegeben.
Die Funktion (n) ist eine mit n monoton steigende Funktion,
die durch einen empirisch zu bestimmenden Wert Max begrenzt
wird (siehe Fig. 4). Bis die Größe den Wert Max erreicht
hat, kann z. B. proportional zu n gewählt werden. Die Stei
gung der Kurve kann in einem Signalabschnitt n verkleinert
werden, falls der Signalabschnitt eine Sprachpause darstellt.
Für Telefonanwendungen hat sich für Max (siehe Fig. 4) ein
Wert von 250 ms als günstig erwiesen. Während der Sprachpause
kann auch βn auf einen sehr kleinen Wert oder 0 gesetzt
werden.
Die in den verschiedenen Verarbeitungsstufen der Merkmalsex
traktionsstufe vorgegebenen Konstanten können über eine
Steuerung Steu, welche von einer externen Einrichtung Infor
mation über den Kanal oder die Art der Störung erhält, aktu
ell eingestellt werden. Hier ein Beispiel solcher externen
Information:
Ist eine Vermittlungsanlage mit einem Spracherkennungssystem ausgerüstet, so kann die Vermittlungsanlage detektieren, ob der Anrufer von einer ISDN-Telefonanlage, vom einem mobilen Telefon oder von einem analogen Telefon anruft. Je nach Telefonart ergeben sich andere Codierungs- und Störgeräusche, sowie andere Kanalübertragungscharakteristiken, für die spezifischen Konstanten optimale Erkennungsleistungen brin gen. Diese beispielsweise drei verschiedenen Sätze der Kon stanten sind in der Steuerungseinrichtung gespeichert und werden nach dem Aufbau der Verbindung je nach Telefonart in der Merkmalsextraktionsstufe der Spracherkennungseinrichtung aktiviert.
Ist eine Vermittlungsanlage mit einem Spracherkennungssystem ausgerüstet, so kann die Vermittlungsanlage detektieren, ob der Anrufer von einer ISDN-Telefonanlage, vom einem mobilen Telefon oder von einem analogen Telefon anruft. Je nach Telefonart ergeben sich andere Codierungs- und Störgeräusche, sowie andere Kanalübertragungscharakteristiken, für die spezifischen Konstanten optimale Erkennungsleistungen brin gen. Diese beispielsweise drei verschiedenen Sätze der Kon stanten sind in der Steuerungseinrichtung gespeichert und werden nach dem Aufbau der Verbindung je nach Telefonart in der Merkmalsextraktionsstufe der Spracherkennungseinrichtung aktiviert.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion
mit der die Filterkoeffizienten für den Hochpaßfilter zur
Bestimmung der kompensierten Spektralenergien gewonnen wird.
Dabei ist zu erkennen, daß die Funktion Fu eine Abhängigkeit
von n und angibt. Eine waagerechte Stelle Wa ist für eine
Sprachpause charakteristisch. Das heißt die bewertete Zeit
steigt in diesem Bereich nicht an. Die Größe wird auf den
Wert Max begrenzt, da sonst das Zeitfenster das betrachtet
wird, zu groß würde, um einer langsamen Veränderung des
Übertragungskanales folgen zu können.
Literatur
/1/ H. Hermansky, N. Morgan: "Towards Handling the Acoustic
Environment in Spoken Language Processing", Proc. ICSLP92,
pp. Tu.fPM.1.1
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348
Claims (9)
1. Merkmalsextraktionsverfahren für ein Sprachsignal (Spr),
- a) bei dem von dem Sprachsignal durch Kurzzeitspektralanalyse (FFT) dessen Spektralenergien (x₁, . . ., xN) bestimmt werden,
- b) bei dem daraus logarithmierte Spektralenergien (y₁, . . ., yN) bestimmt werden,
- c) und bei dem kanalbereinigte Spektralenergien (₁, . . ., N) in
folgender Form gebildet werden:
i0, αi0, β₀: Konstanten, die aus statistischen Unter
suchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende und nach oben beschränkte Funktion
2. Verfahren nach Anspruch 1,
- a) bei dem von mindestens einem bekannten Störsignal, welches dem Sprachsignal überlagert ist dessen Spektralenergien als Störenergien (ei) bestimmt werden,
- b) und bei dem eine Irrelevanzreduktion (Irr) des Sprachsigna les (Spr) in der Form durchgeführt wird, daß mindestens eine Spektralenergie (xi) mit der Störenergie (ei) aus dem selben Frequenzband verglichen wird, und falls die Störenergie (ei) einen größeren Betrag als die untersuchte Spektralenergie (xi) hat, für eine Weiterverarbeitung des Sprachsignales die Störenergie anstatt der Spektralenergie (xi) verwendet wird.
3. Verfahren nach Anspruch 2, bei dem das Störsignal das
Quantisierungsrauschen eines Sprachkodierers ist.
4. Verfahren nach Anspruch 2, bei dem als Störsignal Frequen
zen definiert werden, welche sich außerhalb eines für das
Sprachsignal definierten Bereiches befinden.
5. Verfahren nach Anspruch 2, bei dem das Störsignal von Hin
tergrundgeräuschen beim Sprechen verwendet wird.
6. Verfahren nach einem der vorangehenden Ansprüche,
- a) bei dem in einem ersten Schritt für mindestens zwei Sprachübertragungskanäle, auf denen das Sprachsignal über tragen wird, die für das Verfahren charakteristischen Parame ter ermittelt und gespeichert werden,
- b) bei dem für die Sprachübertragungskanäle eine eindeutige Kennung vergeben wird,
- c) und bei dem in einem weiteren Schritt die Merkmalsextrak tion sprachübertragungskanalabhängig mit den gespeicherten Parametern erfolgt.
7. Verfahren nach Anspruch 6, bei dem die Parameter für ISDN-
Sprachübertragung verwendet werden.
8. Verfahren nach Anspruch 6, bei dem die Parameter für
Mobiltelefon-Sprachübertragung verwendet werden.
9. Verfahren nach Anspruch 6, bei dem die Parameter für Ana
logtelefon-Sprachübertragung verwendet werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19500494A DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
US08/584,816 US5732388A (en) | 1995-01-10 | 1996-01-11 | Feature extraction method for a speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19500494A DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19500494A1 DE19500494A1 (de) | 1996-07-18 |
DE19500494C2 true DE19500494C2 (de) | 1997-01-23 |
Family
ID=7751203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19500494A Expired - Lifetime DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
Country Status (2)
Country | Link |
---|---|
US (1) | US5732388A (de) |
DE (1) | DE19500494C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19915648A1 (de) * | 1999-04-07 | 2000-10-12 | Rohde & Schwarz | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19616103A1 (de) * | 1996-04-23 | 1997-10-30 | Philips Patentverwaltung | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
SE516798C2 (sv) * | 1996-07-03 | 2002-03-05 | Thomas Lagoe | Anordning och sätt för analys och filtrering av ljud |
US5819287A (en) * | 1996-07-30 | 1998-10-06 | Nec Corporation | Database driven automatic program production system |
JPH1063293A (ja) * | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
DE10042943C2 (de) * | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
DE10042944C2 (de) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
DE10043946C2 (de) * | 2000-09-06 | 2002-12-12 | Siemens Ag | Komprimieren von HMM-Prototypen |
DE10047172C1 (de) * | 2000-09-22 | 2001-11-29 | Siemens Ag | Verfahren zur Sprachverarbeitung |
EP1229516A1 (de) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
US7295982B1 (en) | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
US8731214B2 (en) * | 2009-12-15 | 2014-05-20 | Stmicroelectronics International N.V. | Noise removal system |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US4866777A (en) * | 1984-11-09 | 1989-09-12 | Alcatel Usa Corporation | Apparatus for extracting features from a speech signal |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
-
1995
- 1995-01-10 DE DE19500494A patent/DE19500494C2/de not_active Expired - Lifetime
-
1996
- 1996-01-11 US US08/584,816 patent/US5732388A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19915648A1 (de) * | 1999-04-07 | 2000-10-12 | Rohde & Schwarz | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
Also Published As
Publication number | Publication date |
---|---|
DE19500494A1 (de) | 1996-07-18 |
US5732388A (en) | 1998-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19500494C2 (de) | Merkmalsextraktionsverfahren für ein Sprachsignal | |
DE112009000805B4 (de) | Rauschreduktion | |
DE69535709T2 (de) | Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate | |
DE60131639T2 (de) | Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem | |
DE60123161T2 (de) | Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel | |
DE69735396T2 (de) | Akustischer Teilband-Echokompensator | |
EP1869671B1 (de) | Verfahren und vorrichtung zur geräuschunterdrückung | |
DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE112017007005B4 (de) | Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung | |
EP0747880B1 (de) | Spracherkennungssystem | |
DE10334400A1 (de) | Verfahren zur Spracherkennung und Kommunikationsgerät | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
DE69635141T2 (de) | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE19716862A1 (de) | Sprachaktivitätserkennung | |
WO2001084536A1 (de) | Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) | |
EP0669606B1 (de) | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE4024890A1 (de) | Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten | |
EP0540535B1 (de) | Verfahren zur sprecheradaption eines automatischen spracherkennungssystems | |
DE10026872A1 (de) | Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector) | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right | ||
R071 | Expiry of right |