DE19500494A1 - Merkmalsextraktionsverfahren für ein Sprachsignal - Google Patents
Merkmalsextraktionsverfahren für ein SprachsignalInfo
- Publication number
- DE19500494A1 DE19500494A1 DE19500494A DE19500494A DE19500494A1 DE 19500494 A1 DE19500494 A1 DE 19500494A1 DE 19500494 A DE19500494 A DE 19500494A DE 19500494 A DE19500494 A DE 19500494A DE 19500494 A1 DE19500494 A1 DE 19500494A1
- Authority
- DE
- Germany
- Prior art keywords
- spectral
- energies
- determined
- interference
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims description 21
- 230000003595 spectral effect Effects 0.000 claims abstract description 65
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 abstract description 2
- 238000011835 investigation Methods 0.000 abstract 1
- 230000036962 time dependent Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 238000009499 grossing Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 241001014642 Rasta Species 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Description
Bei den meisten Spracherkennungssystemen wird die Erkennung
in zwei Stufen durchgeführt. In der ersten Stufe, der Merk
malsextraktionsstufe, werden aus dem Sprachsignal in vorgege
benen Zeitabschnitten Merkmale bestimmt, die auf einer Kurz
zeitspektralanalyse beruhen. In der zweiten Stufe werden
diese spektralen Merkmale mit Mustern von spektralen Merkma
len der zu erkennenden Wörter verglichen. Als besonders
geeignet haben sich als Muster sogenannte Hidden Markov
Modelle (HMM) erwiesen. Beim Vergleich wird dasjenige Wort
oder diejenigen Wörter als erkannt gesetzt, bei denen die
Muster zu den spektralen Merkmalen des anliegenden Sprachsi
gnals die höchste Ähnlichkeit (geringster Abstand, höchste
Wahrscheinlichkeit) besitzen (Klassifikationsstufe) Als
Vergleichsverfahren hat sich der Viterbialgorithmus etab
liert.
Ein großes Problem bei der Spracherkennung bildet die Varia
bilität der Merkmale, die durch die unterschiedliche Anatomie
des Vokaltraktes der Sprecher, Kanälen (z. B. Telefonkanal,
Mobilfunk, Raumakustik und Mikrofon) sowie von additiven
Störungen (z. B. Autogeräusche, Nebensprechen, Quantisierungs
rauschen von Codierern) erzeugt wird. Um eine hohe Erken
nungsleistung eines Systems zu erreichen, müssen alle mögli
chen Variabilitäten in den Mustern repräsentiert sein, damit
eine hohe Ähnlichkeit zwischen den spektralen Merkmalen und
den Mustern für das zu erkennende Wort erreicht wird. Auf
grund der hohen Variabilität der Muster ist eine solche
umfassende Repräsentation praktisch nicht möglich und die
Erkennungsleistung sinkt mehr oder weniger, je nach der
Quelle der Variabilität.
Bisher gibt es für diese Probleme verschiedene Lösungsansät
ze.
Zur Reduktion der Variabilitäten der Merkmale bezüglich der
Übertragungseigenschaften verschiedener Kanäle hat sich das
RASTA-Verfahren /1/ und zur Reduktion der Variabilitäten der
Merkmale bezüglich additiven Störungen hat sich die Methode
der spektralen Subtraktion /2/ als wirksames Verfahren erwie
sen. Beide Verfahren sind schon in eine Merkmalsextraktions
stufe integriert.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein
Verfahren für die Merkmalsextraktion eines Sprachsignales
anzugeben, welches eine schnelle Adaption an und Kompensation
von übertragungskanalspezifischen Fehlern ermöglicht.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruches 1
gelöst.
Weiterbildungen der Erfindung ergeben sich aus den Unteran
sprüchen.
Auf besonders vorteilhafte Art können die zeitlich gleitenden
Mittelwerte der logarithmierten Spektralenergien mit Hilfe
eines Hochpaßfilters eliminiert werden, dessen Filterkoeffi
zienten zeitabhängig bestimmt werden. Dadurch wird vor allen
Dingen die Spracherkennung verbessert, indem sehr schnell
eine Anpassung der Merkmalsextraktion an unterschiedliche
Übertragungskanäle erfolgt.
Besonders vorteilhaft werden für das erfindungsgemäße Verfah
ren die Basisparameter zur Bestimmung der Filterkoeffizienten
mit statistischen Methoden aus solchen Sprachsignalen extra
hiert, die der Sprache, welche als Signal übertragen werden
soll, entnommen sind. So werden besonders vorteilhaft Spre
cher- und Übertragungskanalcharkteristika in das Spracherken
nungsverfahren mit einbezogen.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht
darin, daß Störungen unterdrückt werden, die unterhalb vorge
gebener Störpegel liegen. Dies führt zu einer gegenüber
Störungen robusteren Merkmalsextraktion, da unterhalb eines
bestimmten Signalpegels, bezogen auf die jeweiligen Spektral
energien lediglich der Störpegel berücksichtigt wird.
Vorteilhafterweise können durch das erfindungsgemäße Verfah
ren auf einfache Weise die Störungen, die durch das Quanti
sierungsrauschen von Sprachcodierern bzw. Signale, die außer
halb eines Sprachübertragungsbereiches liegen, sowie Hinter
grundgeräusche, eliminiert werden. Die Merkmalsextraktion für
die nachfolgende Sprachverarbeitung wird damit wesentlich
vereinfacht.
Besonders vorteilhaft können mit dem erfindungsgemäßen Ver
fahren die Steuerparameter der einzelnen Merkmalsextraktions
schritte im voraus für bestimmte bekannte Sprachübertragungs
kanäle bestimmt und abgespeichert werden. Für die Merkmalsex
traktion bei der Spracherkennung ist es dann erforderlich die
einzelnen Sprachübertragungskanäle eindeutig zu kennzeichnen,
und wenn Sprache auf einem solchen Kanal ankommt, die abge
speicherten Parameter zu laden und die Spracherkennung mit
speziell auf den Kanal abgestimmten Parametern durchzuführen.
Vorteilhaft kann diese Parameterextraktion beispielsweise für
ISDN-Sprachleitungen, Mobiltelefonleitungen oder Analogtele
fone vorgenommen werden.
Im folgenden wird die Erfindung anhand von Figuren weiter
erläutert.
Fig. 1 zeigt ein beispielhaftes Spracherkennungssystem.
Fig. 2 zeigt ein Beispiel zur Merkmalsextraktion in einem
Spracherkennungssystem.
Fig. 3 zeigt ein Beispiel für eine erfindungsgemäße Merkmal
sextraktionsstufe.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion.
In Fig. 1 ist ein Beispiel für ein Spracherkennungssystem
dargestellt. Das Sprachsignal Spr gelangt zunächst in eine
Merkmalsextraktionsstufe Merk, in welcher üblicherweise die
spektralen Merkmale des Sprachsignales Spr analysiert werden.
Sie sind hier mit m bezeichnet. Die spektralen Merkmale m
gelangen im Anschluß in eine Klassifikationsstufe Klass, in
der sie mit Mustern HMM, üblicherweise Hidden Markov Modelle
verglichen werden, um dann als Worte Wo aus dem Spracherken
nungssystem ausgegeben zu werden.
Fig. 2 gibt ein Beispiel einer Merkmalsextraktionsstufe zur
Spracherkennung an. Das Sprachsignal Spr gelangt zunächst in
einen Funktionsblock, in dem eine Kurzzeitspektralanalyse
durchgeführt wird. Dieser ist hier mit FFT bezeichnet. Im An
schluß erhält man die Spektralenergien x₁ . . . ., xN. Mit diesen
Spektralenergien wird im Anschluß eine Störunterdrückung ST
durchgeführt, welche in der Regel eine spektrale Subtraktion
des Störsignales bedeutet. Es ergeben sich die entstörten
Spektralenergien ₁, . . . , N. Die entstörten Signale werden an
schließend komprimiert, was in der Regel eine Logarithmierung
der Werte bedeutet. Dies geschieht im Funktionsblock, der mit
Kom bezeichnet ist. Man erhält die logarithmierten
Spektralenergien y₁, . . . , yN. Zur weiteren Merkmalsextraktion
wird eine Kanalkompensation Kan auf die logarithmierten
Spektralenergien angewendet. Man erhält die kanalbereinigten
Spektralenergien ₁, . . . , N. In der Regel wird das RASTA-Ver
fahren für die Kanalkompensation der Spektralenergien einge
setzt. Anschließend findet eine Nachbearbeitung Na der kanal
bereinigten Spektralenergien statt und man erhält die Sprach
merkmale m₁, . . . , mM.
Wie Fig. 2 im Einzelnen zeigt, wird das Sprachsignal ab
schnittsweise (vorzugsweise in Abschnitten von 10-30 ms)
einer Kurzzeitspektralanalyse unterzogen, die meist mit Hilfe
einer Fourier-Transformation (FFT) durchgeführt wird. Je nach
spektraler Auflösung der FFT variiert die Anzahl der Spektra
lenergien. Bei Telefonanwendungen bei einer Bandbreite des
Telefonkanals von 3.4 KHz hat sich eine Auflösung von N = 256
Spektralenergien und bei Büroanwendungen (Bandbreite 7,4 KHz)
eine Auflösung von N = 512 Spektralenergien als günstig erwie
sen.
Zur Störunterdrückung kann nach der Spektralanalyse die
spektrale Subtraktion eingesetzt werden, wobei von den Spek
tralenergien x₁ (i= 1, . . . , N) die geschätzten Spektren si
des Störsignals abgezogen wird:
₁ = xi - si i = 1, . . ., N
Die Schätzung der Störspektren erfolgt bevorzugt während
einer Sprechpause, während der das Signal Spr nur aus dem
Störsignal besteht.
Zur Kanalkompensation werden zunächst günstigerweise die
entstörten Spektralenergien i in ihrer Dynamik komprimiert.
Als Kompressionskennlinie wird häufig der Logarithmus ver
wendet:
yi = logi i = 1, . . ., N
Auf die komprimierten Spektralenergien wird hier als Beispiel
das RASTA-Verfahren angewendet. Die Grundidee besteht dabei,
von den yi (i = 1, N) den kanalabhängigen Mittelwert i
(i = 1, . . . , N) zu entfernen. Dies erfolgt z. B. mit einem Hoch
paßfilter mit der Übertragungsfunktion:
Ein spezielles Hochpaßfilter bildet der Abzug des gleitenden
Mittelwertes ₁ von den Spektralwerten yi/3/.
Erfolgt die Bestimmung des gleitenden Mittelwertes i zu
jedem Sprachabschnitt n (n = 1, 2, . . . ) rekursiv nach der Bezie
hung
₁(n) = ai-1(n-1)+(1-a)i(n) i = 1, . . . , N
so läßt sich zeigen, daß die Beseitigung des Mittelwertes von
y₁ mit
i(n) = yi(n)-i(n) i = 1, . . . , N
äquivalent zu dem Hochpaßfilter mit der Übertragungsfunktion
ist, wobei H(z) eine vereinfachte Variante zu Gleichung (1)
darstellt.
Um in dem Mittelwert ₁ die Sprechereigenschaften besser
berücksichtigen zu können, besteht die Möglichkeit, zur
Bestimmung von i nur solche Signalabschnitte Spr zu verwen
den, bei denen keine Sprechpause vorliegt /3/.
Schließlich werden die kanalbereinigten Spektralenergien
einer Nachverarbeitung unterzogen, wobei im wesentlichen
durch eine lineare Operation die Anzahl der Spektralenergien
y₁ (i = 1, . . . , N) auf wenige Merkmale m₁, . . . , mM (z. B. M = 50 Werte)
reduziert werden.
Fig. 3 gibt ein Beispiel für einen nach dem erfindungsgemä
ßen Verfahren arbeitende Merkmalsextraktionsstufe eines
Spracherkennungssystems an. Die Funktionsblöcke, welche
gleich bezeichnet sind, führen auch dieselbe Operation wie
jene Funktionsblöcke in Fig. 2 durch. Die Indizierung und
die Bezeichnung ist äquivalent wie in Fig. 2 verwendet.
Zusätzlich zur Merkmalsextraktionsstufe nach Fig. 2 kommt
hier fallweise bei einer Ausführungsform des erfindungsgemä
ßen Verfahrens eine Irrelevanzreduktion Irr hinzu. Die
Irrelevanzreduktion wird beispielsweise im unmittelbaren
Anschluß an die spektrale Kurzzeitanalyse durchgeführt. Die
aus der Kurzzeitanalyse erhaltenen Spektralenergien werden
dabei mit Spektralenergien verglichen, die aus einem charak
teristischen Störsignal ermittelt wurden. Falls die Spektral
energien kleiner sind als jene des Störsignales des jeweili
gen Frequenzbereiches, so wird dem jeweiligen Frequenzbereich
die Störspektralenergie zugewiesen und mit dieser das
Verfahren weiter durchgeführt.
Nach der Irrelevanzreduktion Irr erhält man die irrelevanzre
duzierten Spektralenergien x₁′, . . . , xN′. Zusätzlich zum in
Fig. 2 beschriebenen Merkmalsextraktionsverfahren wird auf
die komprimierten Spektralenergien y₁, . . . , yN bevorzugt eine
spektrale Glättung Gl angewendet. Diese spektrale Glättung Gl
ist aus dem Stand der Technik bekannt, ist jedoch für das
funktionieren des erfindungsgemäßen Verfahrens nicht von
essentieller Bedeutung. Vielmehr wird durch die spektrale
Glättung der Rechenaufwand für die nachfolgenden Verfahrens
schritte reduziert. Man erhält geglättete Spektralenergien
y₁, . . . , yK. Ein weiterer Schritt des erfindungsgemäßen Verfah
rens sieht eine kanaladaptive Kompensation der geglätteten
Spektralenergien vor.
Die Filterkoeffizienten für diese Kompensation werden nach
dem erfindungsgemäßen Verfahren zeitabhängig ermittelt.
Der Erfindung liegen dabei drei getrennte Ansätze zugrunde,
die zum Ziel haben, die Variabilität der Merkmale weiter zu
reduzieren. Sie werden als Verfahren vorgeschlagen, die
effizient zu realisieren sind. Die Verfahren werden bei
spielsweise in die Merkmalsextraktionsstufe integriert und
können z. B. durch die in /4/ beschriebene Anordnung technisch
realisiert werden. Ein Beispiel für eine erfindungsgemäße
Merkmalsextraktionsstufe ist in Fig. 3 dargestellt.
Nach der Kurzzeitspektralanalyse wird vorteilhaft eine Irre
levanzreduktion durchgeführt, die zum Ziel hat, die für die
Spracherkennung irrelevanten von der Anwendung her bekannten
Anteile zu entfernen. Solche Anteile sind z. B.:
- - Quantisierungsrauschen der Codierer (z. B. A/D-D/A-Wandler zur Digitalisierung analoger Signale, Codierer für Mobilübertragung wie GSM)
- - Störgeräusche außerhalb vom Nutzkanal (z. B. beim Telefonkanal Signale unter 300 Hz und über 3,4 KHz)
- - konstante Arbeitsplatzgeräusche
Die Irrelevanzreduktion wird durch das Verfahren
realisiert, wobei die Schwellen ei spektralspezifische Kon
stanten darstellen. Die Schwellen können empirisch festgelegt
werden, wobei i. A. die Schwellen um so höher angesetzt wer
den, je stärker der irrelevante Anteil der Spektralenergie
ist. Durch Anpassung der Schwellen ei an die Sprachcodecs,
die in ISDN-Übertragungskanälen eingesetzt werden, wurde
experimentell eine Reduktion der Fehlerrate in der Spracher
kennung erreicht.
Nach der Kompression wird zunächst beispielsweise eine spek
trale Glättung der komprimierten Spektralenergien durchge
führt, wie sie auch in /4/ beschrieben ist.
Diese Operation wird i. A. durch eine Matrixoperation er
reicht:
Wie schon vorher erwähnt, haben sich die Werte N = 256 (Anzahl
der Spektralenergien) und K = 24 (Anzahl der geglätteten Spek
tralenergien) für Telefonanwendungen als günstig erwiesen,
können aber durch andere Werte ersetzt werden. Die spektrale
Glättung kann auch mit komprimierten Spektralenergien, die
von mehreren Signalabschnitten n, n-1, . . . erzeugt wurden,
durchgeführt werden:
Durch die spektrale Glättung wird erreicht, daß die Kanalkom
pensation für weniger Spektren durchgeführt werden muß und
daß diese auch nicht mehr die störenden Grundfrequenzanteile
enthalten. Wie erkannt werden kann, stellt ein Merkmalsex
raktionsverfahren mit spektraler Glättung lediglich eine
bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens
bar. Es sind auch andere Varianten der Erfindung denkbar, wo
die Glättung keine Rolle spielt, da beispielsweise das
Sprachsignal in anderer Form aufbereitet wird, oder der
Rechenaufwand zur Spracherkennung eine untergeordnete Rolle
spielt.
Eine adaptive Kanalkompression wie im RASTA-Verfahren hat den
Nachteil, daß das Filter H(z) nur langsam einschwingt, wo
durch am Anfang einer Äußerung die stationären Anteile der
Spektren nur ungenügend entfernt werden und dort leicht
Fehlerkennung auftritt. Um dies zu vermeiden, werden bei der
Erfindung die Filterkoeffizienten zeitvariabel eingestellt,
so daß ein schnelles Einschwingen des Kanaladaptionsfilters
erreicht wird. Die Bestimmung der kompensierten Spektren i
erfolgt nach dem Algorithmus:
i0, αi0, β₀: Konstanten, die aus statistischen
Untersuchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende Funktion
(n): mit n monoton steigende Funktion
Die Konstanten i0, αi0, β₀ werden dabei beispielsweise durch
statistische Untersuchungen an typischem Sprachmaterial
festgelegt.
Im Einzelnen werden dazu beispielsweise Sprachstichproben von
für die praktische Anwendung der Erfindung typischen Spre
chern genommen. Hierbei benutzen diese Personen bevorzugte
applikationsspezifische Übertragungskanäle, wie beispielswei
se eine ISDN-Verbindung, so daß diese Sprachstichproben mit
für einen jeweiligen Sprachübertragungskanal typischen Ka
nalübertragungseigenschaften behaftet sind. Die Werte von i0
(i = 1, . . . , K) lassen sich dann als Mittelwerte der Kanal
energien i′ der Sprachstichproben bestimmen. Die Werte von αi0
werden bevorzugt durch den Quotienten
angenähert. Dabei gibt die Varianz der Mittelwerte i0 an,
wobei die Mittelwerte vorzugsweise für jede Sprachstichprobe
eines jeweiligen Sprechers separat berechnet werden. σi ist
die Varianz der Kanalwerte y′i. Für den Fall, daß die Mittel
werte i0 der Sprachstichproben nur wenig schwanken, ist also
klein und somit αi0 groß zu wählen. Für Telefonanwendungen
liegen günstige Werte von αi0 in der Größenordnung von 10 bis
15.
Der Wert β₀ wird bevorzugt aus der statistischen Abhängigkeit
seitlich benachbarter Kanalenergien y′i(n), y′i(n-1) bestimmt.
Ist die Statistische Abhängigkeit gering, so wird günstiger
weise β₀ = 1 gesetzt. Mit zunehmender Statistischer Abhängig
keit werden entsprechend der Abhängigkeit kleinere Werte von
β₀ vorgegeben.
Die Funktion (n) ist eine mit n monoton steigende Funktion,
die durch einen empirisch zu bestimmenden Wert Max begrenzt
wird (siehe Fig. 4). Bis die Größe den Wert Max erreicht
hat, kann z. B. proportional zu n gewählt werden. Die Stei
gung der Kurve kann in einem Signalabschnitt n verkleinert
werden, falls der Signalabschnitt eine Sprachpause darstellt.
Für Telefonanwendungen hat sich für Max (siehe Fig. 4) ein
Wert von 250 ms als günstig erwiesen. Während der Sprachpause
kann auch βn, auf einen sehr kleinen Wert oder 0 gesetzt
werden.
Die in den verschiedenen Verarbeitungsstufen der Merkmalsex
traktionsstufe vorgegebenen Konstanten können über eine
Steuerung Steu, welche von einer externen Einrichtung Infor
mation über den Kanal oder die Art der Störung erhält, aktu
ell eingestellt werden. Hier ein Beispiel solcher externen
Information:
Ist eine Vermittlungsanlage mit einem Spracherkennungssystem
ausgerüstet, so kann die Vermittlungsanlage detektieren, ob
der Anrufer von einer ISDN-Telefonanlage, vom einem mobilen
Telefon oder von einem analogen Telefon anruft. Je nach
Telefonart ergeben sich andere Codierungs- und Störgeräusche,
sowie andere Kanalübertragungscharakteristiken, für die
spezifischen Konstanten optimale Erkennungsleistungen brin
gen. Diese beispielsweise drei verschiedenen Sätze der Kon
stanten sind in der Steuerungseinrichtung gespeichert und
werden nach dem Aufbau der Verbindung je nach Telefonart in
der Merkmalsextraktionsstufe der Spracherkennungseinrichtung
aktiviert.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion
mit der die Filterkoeffizienten für den Hochpaßfilter zur
Bestimmung der kompensierten Spektralenergien gewonnen wird.
Dabei ist zu erkennen, daß die Funktion Fu eine Abhängigkeit
von n und angibt. Eine waagerechte Stelle Wa ist für eine
Sprachpause charakteristisch. Das heißt die bewertete Zeit
steigt in diesem Bereich nicht an. Die Größe wird auf den
Wert Max begrenzt, da sonst das Zeitfenster das betrachtet
wird, zu groß würde, um einer langsamen Veränderung des
Übertragungskanales folgen zu können.
/1/ H. Hermansky, N. Morgan: "Towards Handling the Acoustic
Environment in Spoken Language Processing", Proc. ICSLP92,
pp. Tu.fPM.1.1
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348
Claims (10)
1. Merkmalsextraktionsverfahren für ein Sprachsignal,
- a) bei dem von dem Sprachsignal (Spr) durch Kurzzeitspek tralanalyse (FFT) dessen Spektralenergien (x₁, . . . , xN) bestimmt werden,
- b) bei dem daraus logarithmierte Spektralenergien (y₁, . . . , yN) bestimmt werden,
- c) und bei dem kanalbereinigte Spektralenergien (₁, . . . , N) in der Form gebildet werden, daß von den logarithmierten Spek tralenergien (y₁, . . . , yN) der gleitende Mittelwert der log arithmierten Spektralenergien (i(n)) subtrahiert wird, wobei ein Hochpaßfilter verwendet wird, dessen Filterkoeffizienten zeitabhängig bestimmt werden.
2. Verfahren nach Anspruch 1, bei dem kanalbereinigte Spek
tralenergien wie folgt bestimmt werden:
i0, αi0, β₀: Konstanten, die aus statistischen Unter
suchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende und nach oben beschränkte Funktion
(n): mit n monoton steigende und nach oben beschränkte Funktion
3. Verfahren nach einem der vorangehenden Ansprüche,
- a) bei dem von mindestens einem bekannten Störsignal, welches dem Sprachsignal überlagert ist dessen Spektralenergien als Störenergien (ei) bestimmt werden,
- b) und bei dem eine Irrelevanzreduktion (Irr) des Sprachsigna les (Spr) in der Form durchgeführt wird, daß mindestens eine Spektralenergie (xi) mit der Störenergie (ei) aus dem selben Frequenzband verglichen wird, und falls die Störenergie (ei) einen größeren Betrag als die untersuchte Spektralenergie (xi) hat, für eine Weiterverarbeitung des Sprachsignales die Störenergie anstatt der Spektralenergie (xi) verwendet wird.
4. Verfahren nach Anspruch 3, bei dem das Störsignal das
Quantisierungsrauschen eines Sprachkodierers ist.
5. Verfahren nach Anspruch 3, bei dem als Störsignal Frequen
zen definiert werden, welche sich außerhalb eines für das
Sprachsignal definierten Bereiches befinden.
6. Verfahren nach Anspruch 3, bei dem das Störsignal von Hin
tergrundgeräuschen beim Sprechen verwendet wird.
7. Verfahren nach einem der vorangehenden Ansprüche,
- a) bei dem in einem ersten Schritt für mindestens zwei Sprachübertragungskanäle, auf denen das Sprachsignal über tragen wird die für das Verfahren charakteristischen Parame ter ermittelt und gespeichert werden,
- b) bei dem für die Sprachübertragungskanäle eine eindeutige Kennung vergeben wird,
- c) und bei dem in einem weiteren Schritt die Merkmalsextrak tion sprachübertragungskanalabhängig mit den gespeicherten Parametern erfolgt.
8. Verfahren nach Anspruch 7, bei dem die Parameter für
ISDN-Sprachübertragung verwendet werden.
9. Verfahren nach Anspruch 7, bei dem die Parameter für
Mobiltelefon-Sprachübertragung verwendet werden.
10. Verfahren nach Anspruch 7, bei dem die Parameter für Ana
logtelefon-Sprachübertragung verwendet werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19500494A DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
US08/584,816 US5732388A (en) | 1995-01-10 | 1996-01-11 | Feature extraction method for a speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19500494A DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19500494A1 true DE19500494A1 (de) | 1996-07-18 |
DE19500494C2 DE19500494C2 (de) | 1997-01-23 |
Family
ID=7751203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19500494A Expired - Lifetime DE19500494C2 (de) | 1995-01-10 | 1995-01-10 | Merkmalsextraktionsverfahren für ein Sprachsignal |
Country Status (2)
Country | Link |
---|---|
US (1) | US5732388A (de) |
DE (1) | DE19500494C2 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19616103A1 (de) * | 1996-04-23 | 1997-10-30 | Philips Patentverwaltung | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
SE516798C2 (sv) * | 1996-07-03 | 2002-03-05 | Thomas Lagoe | Anordning och sätt för analys och filtrering av ljud |
US5819287A (en) * | 1996-07-30 | 1998-10-06 | Nec Corporation | Database driven automatic program production system |
JPH1063293A (ja) * | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
DE19915648A1 (de) * | 1999-04-07 | 2000-10-12 | Rohde & Schwarz | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
DE10042944C2 (de) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
DE10042943C2 (de) * | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
DE10043946C2 (de) * | 2000-09-06 | 2002-12-12 | Siemens Ag | Komprimieren von HMM-Prototypen |
DE10047172C1 (de) * | 2000-09-22 | 2001-11-29 | Siemens Ag | Verfahren zur Sprachverarbeitung |
EP1229516A1 (de) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
US7295982B1 (en) | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
US8731214B2 (en) * | 2009-12-15 | 2014-05-20 | Stmicroelectronics International N.V. | Noise removal system |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US4866777A (en) * | 1984-11-09 | 1989-09-12 | Alcatel Usa Corporation | Apparatus for extracting features from a speech signal |
-
1995
- 1995-01-10 DE DE19500494A patent/DE19500494C2/de not_active Expired - Lifetime
-
1996
- 1996-01-11 US US08/584,816 patent/US5732388A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
Non-Patent Citations (5)
Title |
---|
AKTAS, A., ZÜNKLER, K.: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi-DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348 * |
BOLL, S.F.: "A Spectral Subtraction Algorithm for Suppression of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203 * |
HERMANSKY, H., MORGAN, N.: "Towards Handling the Acoustic Environment in Spoken Language Proces- sing", Proc. ICSLP92, pp. Tu.fPM.1.1, 85-88 * |
KROSCHEL, Kristian: Umgebungsgeräuschreduktion bei Sprachkommunikationssystemen. In: Frequenz 42 (1988) 2/3, S. 79-84 * |
WITTMANN, M., SCHMIDBAUER, O., AKTAS, A.: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp.1251-1254 * |
Also Published As
Publication number | Publication date |
---|---|
DE19500494C2 (de) | 1997-01-23 |
US5732388A (en) | 1998-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19500494C2 (de) | Merkmalsextraktionsverfahren für ein Sprachsignal | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE10334400A1 (de) | Verfahren zur Spracherkennung und Kommunikationsgerät | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP0815553B1 (de) | Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
DE69127134T2 (de) | Sprachkodierer | |
DE19521258A1 (de) | Spracherkennungssystem | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne | |
DE69411817T2 (de) | Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen | |
DE19716862A1 (de) | Sprachaktivitätserkennung | |
WO2001084536A1 (de) | Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) | |
EP0669606B1 (de) | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE69425591T2 (de) | Trainingsverfahren für einen Spracherkenner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right | ||
R071 | Expiry of right |