DE19500494A1 - Merkmalsextraktionsverfahren für ein Sprachsignal - Google Patents

Merkmalsextraktionsverfahren für ein Sprachsignal

Info

Publication number
DE19500494A1
DE19500494A1 DE19500494A DE19500494A DE19500494A1 DE 19500494 A1 DE19500494 A1 DE 19500494A1 DE 19500494 A DE19500494 A DE 19500494A DE 19500494 A DE19500494 A DE 19500494A DE 19500494 A1 DE19500494 A1 DE 19500494A1
Authority
DE
Germany
Prior art keywords
spectral
energies
determined
interference
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19500494A
Other languages
English (en)
Other versions
DE19500494C2 (de
Inventor
Harald Dr Hoege
Alfred Dr Hauenstein
Erwin Dr Marschall
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19500494A priority Critical patent/DE19500494C2/de
Priority to US08/584,816 priority patent/US5732388A/en
Publication of DE19500494A1 publication Critical patent/DE19500494A1/de
Application granted granted Critical
Publication of DE19500494C2 publication Critical patent/DE19500494C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

Bei den meisten Spracherkennungssystemen wird die Erkennung in zwei Stufen durchgeführt. In der ersten Stufe, der Merk­ malsextraktionsstufe, werden aus dem Sprachsignal in vorgege­ benen Zeitabschnitten Merkmale bestimmt, die auf einer Kurz­ zeitspektralanalyse beruhen. In der zweiten Stufe werden diese spektralen Merkmale mit Mustern von spektralen Merkma­ len der zu erkennenden Wörter verglichen. Als besonders geeignet haben sich als Muster sogenannte Hidden Markov Modelle (HMM) erwiesen. Beim Vergleich wird dasjenige Wort oder diejenigen Wörter als erkannt gesetzt, bei denen die Muster zu den spektralen Merkmalen des anliegenden Sprachsi­ gnals die höchste Ähnlichkeit (geringster Abstand, höchste Wahrscheinlichkeit) besitzen (Klassifikationsstufe) Als Vergleichsverfahren hat sich der Viterbialgorithmus etab­ liert.
Ein großes Problem bei der Spracherkennung bildet die Varia­ bilität der Merkmale, die durch die unterschiedliche Anatomie des Vokaltraktes der Sprecher, Kanälen (z. B. Telefonkanal, Mobilfunk, Raumakustik und Mikrofon) sowie von additiven Störungen (z. B. Autogeräusche, Nebensprechen, Quantisierungs­ rauschen von Codierern) erzeugt wird. Um eine hohe Erken­ nungsleistung eines Systems zu erreichen, müssen alle mögli­ chen Variabilitäten in den Mustern repräsentiert sein, damit eine hohe Ähnlichkeit zwischen den spektralen Merkmalen und den Mustern für das zu erkennende Wort erreicht wird. Auf­ grund der hohen Variabilität der Muster ist eine solche umfassende Repräsentation praktisch nicht möglich und die Erkennungsleistung sinkt mehr oder weniger, je nach der Quelle der Variabilität.
Bisher gibt es für diese Probleme verschiedene Lösungsansät­ ze.
Zur Reduktion der Variabilitäten der Merkmale bezüglich der Übertragungseigenschaften verschiedener Kanäle hat sich das RASTA-Verfahren /1/ und zur Reduktion der Variabilitäten der Merkmale bezüglich additiven Störungen hat sich die Methode der spektralen Subtraktion /2/ als wirksames Verfahren erwie­ sen. Beide Verfahren sind schon in eine Merkmalsextraktions­ stufe integriert.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren für die Merkmalsextraktion eines Sprachsignales anzugeben, welches eine schnelle Adaption an und Kompensation von übertragungskanalspezifischen Fehlern ermöglicht.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruches 1 gelöst.
Weiterbildungen der Erfindung ergeben sich aus den Unteran­ sprüchen.
Auf besonders vorteilhafte Art können die zeitlich gleitenden Mittelwerte der logarithmierten Spektralenergien mit Hilfe eines Hochpaßfilters eliminiert werden, dessen Filterkoeffi­ zienten zeitabhängig bestimmt werden. Dadurch wird vor allen Dingen die Spracherkennung verbessert, indem sehr schnell eine Anpassung der Merkmalsextraktion an unterschiedliche Übertragungskanäle erfolgt.
Besonders vorteilhaft werden für das erfindungsgemäße Verfah­ ren die Basisparameter zur Bestimmung der Filterkoeffizienten mit statistischen Methoden aus solchen Sprachsignalen extra­ hiert, die der Sprache, welche als Signal übertragen werden soll, entnommen sind. So werden besonders vorteilhaft Spre­ cher- und Übertragungskanalcharkteristika in das Spracherken­ nungsverfahren mit einbezogen.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß Störungen unterdrückt werden, die unterhalb vorge­ gebener Störpegel liegen. Dies führt zu einer gegenüber Störungen robusteren Merkmalsextraktion, da unterhalb eines bestimmten Signalpegels, bezogen auf die jeweiligen Spektral­ energien lediglich der Störpegel berücksichtigt wird.
Vorteilhafterweise können durch das erfindungsgemäße Verfah­ ren auf einfache Weise die Störungen, die durch das Quanti­ sierungsrauschen von Sprachcodierern bzw. Signale, die außer­ halb eines Sprachübertragungsbereiches liegen, sowie Hinter­ grundgeräusche, eliminiert werden. Die Merkmalsextraktion für die nachfolgende Sprachverarbeitung wird damit wesentlich vereinfacht.
Besonders vorteilhaft können mit dem erfindungsgemäßen Ver­ fahren die Steuerparameter der einzelnen Merkmalsextraktions­ schritte im voraus für bestimmte bekannte Sprachübertragungs­ kanäle bestimmt und abgespeichert werden. Für die Merkmalsex­ traktion bei der Spracherkennung ist es dann erforderlich die einzelnen Sprachübertragungskanäle eindeutig zu kennzeichnen, und wenn Sprache auf einem solchen Kanal ankommt, die abge­ speicherten Parameter zu laden und die Spracherkennung mit speziell auf den Kanal abgestimmten Parametern durchzuführen.
Vorteilhaft kann diese Parameterextraktion beispielsweise für ISDN-Sprachleitungen, Mobiltelefonleitungen oder Analogtele­ fone vorgenommen werden.
Im folgenden wird die Erfindung anhand von Figuren weiter erläutert.
Fig. 1 zeigt ein beispielhaftes Spracherkennungssystem.
Fig. 2 zeigt ein Beispiel zur Merkmalsextraktion in einem Spracherkennungssystem.
Fig. 3 zeigt ein Beispiel für eine erfindungsgemäße Merkmal­ sextraktionsstufe.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion.
In Fig. 1 ist ein Beispiel für ein Spracherkennungssystem dargestellt. Das Sprachsignal Spr gelangt zunächst in eine Merkmalsextraktionsstufe Merk, in welcher üblicherweise die spektralen Merkmale des Sprachsignales Spr analysiert werden. Sie sind hier mit m bezeichnet. Die spektralen Merkmale m gelangen im Anschluß in eine Klassifikationsstufe Klass, in der sie mit Mustern HMM, üblicherweise Hidden Markov Modelle verglichen werden, um dann als Worte Wo aus dem Spracherken­ nungssystem ausgegeben zu werden.
Fig. 2 gibt ein Beispiel einer Merkmalsextraktionsstufe zur Spracherkennung an. Das Sprachsignal Spr gelangt zunächst in einen Funktionsblock, in dem eine Kurzzeitspektralanalyse durchgeführt wird. Dieser ist hier mit FFT bezeichnet. Im An­ schluß erhält man die Spektralenergien x₁ . . . ., xN. Mit diesen Spektralenergien wird im Anschluß eine Störunterdrückung ST durchgeführt, welche in der Regel eine spektrale Subtraktion des Störsignales bedeutet. Es ergeben sich die entstörten Spektralenergien ₁, . . . , N. Die entstörten Signale werden an­ schließend komprimiert, was in der Regel eine Logarithmierung der Werte bedeutet. Dies geschieht im Funktionsblock, der mit Kom bezeichnet ist. Man erhält die logarithmierten Spektralenergien y₁, . . . , yN. Zur weiteren Merkmalsextraktion wird eine Kanalkompensation Kan auf die logarithmierten Spektralenergien angewendet. Man erhält die kanalbereinigten Spektralenergien ₁, . . . , N. In der Regel wird das RASTA-Ver­ fahren für die Kanalkompensation der Spektralenergien einge­ setzt. Anschließend findet eine Nachbearbeitung Na der kanal­ bereinigten Spektralenergien statt und man erhält die Sprach­ merkmale m₁, . . . , mM.
Wie Fig. 2 im Einzelnen zeigt, wird das Sprachsignal ab­ schnittsweise (vorzugsweise in Abschnitten von 10-30 ms) einer Kurzzeitspektralanalyse unterzogen, die meist mit Hilfe einer Fourier-Transformation (FFT) durchgeführt wird. Je nach spektraler Auflösung der FFT variiert die Anzahl der Spektra­ lenergien. Bei Telefonanwendungen bei einer Bandbreite des Telefonkanals von 3.4 KHz hat sich eine Auflösung von N = 256 Spektralenergien und bei Büroanwendungen (Bandbreite 7,4 KHz) eine Auflösung von N = 512 Spektralenergien als günstig erwie­ sen.
Zur Störunterdrückung kann nach der Spektralanalyse die spektrale Subtraktion eingesetzt werden, wobei von den Spek­ tralenergien x₁ (i= 1, . . . , N) die geschätzten Spektren si des Störsignals abgezogen wird:
₁ = xi - si i = 1, . . ., N
Die Schätzung der Störspektren erfolgt bevorzugt während einer Sprechpause, während der das Signal Spr nur aus dem Störsignal besteht.
Zur Kanalkompensation werden zunächst günstigerweise die entstörten Spektralenergien i in ihrer Dynamik komprimiert. Als Kompressionskennlinie wird häufig der Logarithmus ver­ wendet:
yi = logi i = 1, . . ., N
Auf die komprimierten Spektralenergien wird hier als Beispiel das RASTA-Verfahren angewendet. Die Grundidee besteht dabei, von den yi (i = 1, N) den kanalabhängigen Mittelwert i (i = 1, . . . , N) zu entfernen. Dies erfolgt z. B. mit einem Hoch­ paßfilter mit der Übertragungsfunktion:
Ein spezielles Hochpaßfilter bildet der Abzug des gleitenden Mittelwertes ₁ von den Spektralwerten yi/3/.
Erfolgt die Bestimmung des gleitenden Mittelwertes i zu jedem Sprachabschnitt n (n = 1, 2, . . . ) rekursiv nach der Bezie­ hung
₁(n) = ai-1(n-1)+(1-a)i(n) i = 1, . . . , N
so läßt sich zeigen, daß die Beseitigung des Mittelwertes von y₁ mit
i(n) = yi(n)-i(n) i = 1, . . . , N
äquivalent zu dem Hochpaßfilter mit der Übertragungsfunktion
ist, wobei H(z) eine vereinfachte Variante zu Gleichung (1) darstellt.
Um in dem Mittelwert ₁ die Sprechereigenschaften besser berücksichtigen zu können, besteht die Möglichkeit, zur Bestimmung von i nur solche Signalabschnitte Spr zu verwen­ den, bei denen keine Sprechpause vorliegt /3/.
Schließlich werden die kanalbereinigten Spektralenergien einer Nachverarbeitung unterzogen, wobei im wesentlichen durch eine lineare Operation die Anzahl der Spektralenergien y₁ (i = 1, . . . , N) auf wenige Merkmale m₁, . . . , mM (z. B. M = 50 Werte) reduziert werden.
Fig. 3 gibt ein Beispiel für einen nach dem erfindungsgemä­ ßen Verfahren arbeitende Merkmalsextraktionsstufe eines Spracherkennungssystems an. Die Funktionsblöcke, welche gleich bezeichnet sind, führen auch dieselbe Operation wie jene Funktionsblöcke in Fig. 2 durch. Die Indizierung und die Bezeichnung ist äquivalent wie in Fig. 2 verwendet.
Zusätzlich zur Merkmalsextraktionsstufe nach Fig. 2 kommt hier fallweise bei einer Ausführungsform des erfindungsgemä­ ßen Verfahrens eine Irrelevanzreduktion Irr hinzu. Die Irrelevanzreduktion wird beispielsweise im unmittelbaren Anschluß an die spektrale Kurzzeitanalyse durchgeführt. Die aus der Kurzzeitanalyse erhaltenen Spektralenergien werden dabei mit Spektralenergien verglichen, die aus einem charak­ teristischen Störsignal ermittelt wurden. Falls die Spektral­ energien kleiner sind als jene des Störsignales des jeweili­ gen Frequenzbereiches, so wird dem jeweiligen Frequenzbereich die Störspektralenergie zugewiesen und mit dieser das Verfahren weiter durchgeführt.
Nach der Irrelevanzreduktion Irr erhält man die irrelevanzre­ duzierten Spektralenergien x₁′, . . . , xN′. Zusätzlich zum in Fig. 2 beschriebenen Merkmalsextraktionsverfahren wird auf die komprimierten Spektralenergien y₁, . . . , yN bevorzugt eine spektrale Glättung Gl angewendet. Diese spektrale Glättung Gl ist aus dem Stand der Technik bekannt, ist jedoch für das funktionieren des erfindungsgemäßen Verfahrens nicht von essentieller Bedeutung. Vielmehr wird durch die spektrale Glättung der Rechenaufwand für die nachfolgenden Verfahrens­ schritte reduziert. Man erhält geglättete Spektralenergien y₁, . . . , yK. Ein weiterer Schritt des erfindungsgemäßen Verfah­ rens sieht eine kanaladaptive Kompensation der geglätteten Spektralenergien vor.
Die Filterkoeffizienten für diese Kompensation werden nach dem erfindungsgemäßen Verfahren zeitabhängig ermittelt.
Der Erfindung liegen dabei drei getrennte Ansätze zugrunde, die zum Ziel haben, die Variabilität der Merkmale weiter zu reduzieren. Sie werden als Verfahren vorgeschlagen, die effizient zu realisieren sind. Die Verfahren werden bei­ spielsweise in die Merkmalsextraktionsstufe integriert und können z. B. durch die in /4/ beschriebene Anordnung technisch realisiert werden. Ein Beispiel für eine erfindungsgemäße Merkmalsextraktionsstufe ist in Fig. 3 dargestellt.
Nach der Kurzzeitspektralanalyse wird vorteilhaft eine Irre­ levanzreduktion durchgeführt, die zum Ziel hat, die für die Spracherkennung irrelevanten von der Anwendung her bekannten Anteile zu entfernen. Solche Anteile sind z. B.:
  • - Quantisierungsrauschen der Codierer (z. B. A/D-D/A-Wandler zur Digitalisierung analoger Signale, Codierer für Mobilübertragung wie GSM)
  • - Störgeräusche außerhalb vom Nutzkanal (z. B. beim Telefonkanal Signale unter 300 Hz und über 3,4 KHz)
  • - konstante Arbeitsplatzgeräusche
Die Irrelevanzreduktion wird durch das Verfahren
realisiert, wobei die Schwellen ei spektralspezifische Kon­ stanten darstellen. Die Schwellen können empirisch festgelegt werden, wobei i. A. die Schwellen um so höher angesetzt wer­ den, je stärker der irrelevante Anteil der Spektralenergie ist. Durch Anpassung der Schwellen ei an die Sprachcodecs, die in ISDN-Übertragungskanälen eingesetzt werden, wurde experimentell eine Reduktion der Fehlerrate in der Spracher­ kennung erreicht.
Nach der Kompression wird zunächst beispielsweise eine spek­ trale Glättung der komprimierten Spektralenergien durchge­ führt, wie sie auch in /4/ beschrieben ist.
Diese Operation wird i. A. durch eine Matrixoperation er­ reicht:
Wie schon vorher erwähnt, haben sich die Werte N = 256 (Anzahl der Spektralenergien) und K = 24 (Anzahl der geglätteten Spek­ tralenergien) für Telefonanwendungen als günstig erwiesen, können aber durch andere Werte ersetzt werden. Die spektrale Glättung kann auch mit komprimierten Spektralenergien, die von mehreren Signalabschnitten n, n-1, . . . erzeugt wurden, durchgeführt werden:
Durch die spektrale Glättung wird erreicht, daß die Kanalkom­ pensation für weniger Spektren durchgeführt werden muß und daß diese auch nicht mehr die störenden Grundfrequenzanteile enthalten. Wie erkannt werden kann, stellt ein Merkmalsex­ raktionsverfahren mit spektraler Glättung lediglich eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens bar. Es sind auch andere Varianten der Erfindung denkbar, wo die Glättung keine Rolle spielt, da beispielsweise das Sprachsignal in anderer Form aufbereitet wird, oder der Rechenaufwand zur Spracherkennung eine untergeordnete Rolle spielt.
Eine adaptive Kanalkompression wie im RASTA-Verfahren hat den Nachteil, daß das Filter H(z) nur langsam einschwingt, wo­ durch am Anfang einer Äußerung die stationären Anteile der Spektren nur ungenügend entfernt werden und dort leicht Fehlerkennung auftritt. Um dies zu vermeiden, werden bei der Erfindung die Filterkoeffizienten zeitvariabel eingestellt, so daß ein schnelles Einschwingen des Kanaladaptionsfilters erreicht wird. Die Bestimmung der kompensierten Spektren i erfolgt nach dem Algorithmus:
i0, αi0, β₀: Konstanten, die aus statistischen Untersuchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende Funktion
Die Konstanten i0, αi0, β₀ werden dabei beispielsweise durch statistische Untersuchungen an typischem Sprachmaterial festgelegt.
Im Einzelnen werden dazu beispielsweise Sprachstichproben von für die praktische Anwendung der Erfindung typischen Spre­ chern genommen. Hierbei benutzen diese Personen bevorzugte applikationsspezifische Übertragungskanäle, wie beispielswei­ se eine ISDN-Verbindung, so daß diese Sprachstichproben mit für einen jeweiligen Sprachübertragungskanal typischen Ka­ nalübertragungseigenschaften behaftet sind. Die Werte von i0 (i = 1, . . . , K) lassen sich dann als Mittelwerte der Kanal­ energien i′ der Sprachstichproben bestimmen. Die Werte von αi0 werden bevorzugt durch den Quotienten
angenähert. Dabei gibt die Varianz der Mittelwerte i0 an, wobei die Mittelwerte vorzugsweise für jede Sprachstichprobe eines jeweiligen Sprechers separat berechnet werden. σi ist die Varianz der Kanalwerte y′i. Für den Fall, daß die Mittel­ werte i0 der Sprachstichproben nur wenig schwanken, ist also klein und somit αi0 groß zu wählen. Für Telefonanwendungen liegen günstige Werte von αi0 in der Größenordnung von 10 bis 15.
Der Wert β₀ wird bevorzugt aus der statistischen Abhängigkeit seitlich benachbarter Kanalenergien y′i(n), y′i(n-1) bestimmt.
Ist die Statistische Abhängigkeit gering, so wird günstiger­ weise β₀ = 1 gesetzt. Mit zunehmender Statistischer Abhängig­ keit werden entsprechend der Abhängigkeit kleinere Werte von β₀ vorgegeben.
Die Funktion (n) ist eine mit n monoton steigende Funktion, die durch einen empirisch zu bestimmenden Wert Max begrenzt wird (siehe Fig. 4). Bis die Größe den Wert Max erreicht hat, kann z. B. proportional zu n gewählt werden. Die Stei­ gung der Kurve kann in einem Signalabschnitt n verkleinert werden, falls der Signalabschnitt eine Sprachpause darstellt. Für Telefonanwendungen hat sich für Max (siehe Fig. 4) ein Wert von 250 ms als günstig erwiesen. Während der Sprachpause kann auch βn, auf einen sehr kleinen Wert oder 0 gesetzt werden.
Die in den verschiedenen Verarbeitungsstufen der Merkmalsex­ traktionsstufe vorgegebenen Konstanten können über eine Steuerung Steu, welche von einer externen Einrichtung Infor­ mation über den Kanal oder die Art der Störung erhält, aktu­ ell eingestellt werden. Hier ein Beispiel solcher externen Information:
Ist eine Vermittlungsanlage mit einem Spracherkennungssystem ausgerüstet, so kann die Vermittlungsanlage detektieren, ob der Anrufer von einer ISDN-Telefonanlage, vom einem mobilen Telefon oder von einem analogen Telefon anruft. Je nach Telefonart ergeben sich andere Codierungs- und Störgeräusche, sowie andere Kanalübertragungscharakteristiken, für die spezifischen Konstanten optimale Erkennungsleistungen brin­ gen. Diese beispielsweise drei verschiedenen Sätze der Kon­ stanten sind in der Steuerungseinrichtung gespeichert und werden nach dem Aufbau der Verbindung je nach Telefonart in der Merkmalsextraktionsstufe der Spracherkennungseinrichtung aktiviert.
Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion mit der die Filterkoeffizienten für den Hochpaßfilter zur Bestimmung der kompensierten Spektralenergien gewonnen wird. Dabei ist zu erkennen, daß die Funktion Fu eine Abhängigkeit von n und angibt. Eine waagerechte Stelle Wa ist für eine Sprachpause charakteristisch. Das heißt die bewertete Zeit steigt in diesem Bereich nicht an. Die Größe wird auf den Wert Max begrenzt, da sonst das Zeitfenster das betrachtet wird, zu groß würde, um einer langsamen Veränderung des Übertragungskanales folgen zu können.
Literatur
/1/ H. Hermansky, N. Morgan: "Towards Handling the Acoustic Environment in Spoken Language Processing", Proc. ICSLP92, pp. Tu.fPM.1.1
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres­ sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348

Claims (10)

1. Merkmalsextraktionsverfahren für ein Sprachsignal,
  • a) bei dem von dem Sprachsignal (Spr) durch Kurzzeitspek­ tralanalyse (FFT) dessen Spektralenergien (x₁, . . . , xN) bestimmt werden,
  • b) bei dem daraus logarithmierte Spektralenergien (y₁, . . . , yN) bestimmt werden,
  • c) und bei dem kanalbereinigte Spektralenergien (₁, . . . , N) in der Form gebildet werden, daß von den logarithmierten Spek­ tralenergien (y₁, . . . , yN) der gleitende Mittelwert der log­ arithmierten Spektralenergien (i(n)) subtrahiert wird, wobei ein Hochpaßfilter verwendet wird, dessen Filterkoeffizienten zeitabhängig bestimmt werden.
2. Verfahren nach Anspruch 1, bei dem kanalbereinigte Spek­ tralenergien wie folgt bestimmt werden: i0, αi0, β₀: Konstanten, die aus statistischen Unter­ suchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende und nach oben beschränkte Funktion
3. Verfahren nach einem der vorangehenden Ansprüche,
  • a) bei dem von mindestens einem bekannten Störsignal, welches dem Sprachsignal überlagert ist dessen Spektralenergien als Störenergien (ei) bestimmt werden,
  • b) und bei dem eine Irrelevanzreduktion (Irr) des Sprachsigna­ les (Spr) in der Form durchgeführt wird, daß mindestens eine Spektralenergie (xi) mit der Störenergie (ei) aus dem selben Frequenzband verglichen wird, und falls die Störenergie (ei) einen größeren Betrag als die untersuchte Spektralenergie (xi) hat, für eine Weiterverarbeitung des Sprachsignales die Störenergie anstatt der Spektralenergie (xi) verwendet wird.
4. Verfahren nach Anspruch 3, bei dem das Störsignal das Quantisierungsrauschen eines Sprachkodierers ist.
5. Verfahren nach Anspruch 3, bei dem als Störsignal Frequen­ zen definiert werden, welche sich außerhalb eines für das Sprachsignal definierten Bereiches befinden.
6. Verfahren nach Anspruch 3, bei dem das Störsignal von Hin­ tergrundgeräuschen beim Sprechen verwendet wird.
7. Verfahren nach einem der vorangehenden Ansprüche,
  • a) bei dem in einem ersten Schritt für mindestens zwei Sprachübertragungskanäle, auf denen das Sprachsignal über­ tragen wird die für das Verfahren charakteristischen Parame­ ter ermittelt und gespeichert werden,
  • b) bei dem für die Sprachübertragungskanäle eine eindeutige Kennung vergeben wird,
  • c) und bei dem in einem weiteren Schritt die Merkmalsextrak­ tion sprachübertragungskanalabhängig mit den gespeicherten Parametern erfolgt.
8. Verfahren nach Anspruch 7, bei dem die Parameter für ISDN-Sprachübertragung verwendet werden.
9. Verfahren nach Anspruch 7, bei dem die Parameter für Mobiltelefon-Sprachübertragung verwendet werden.
10. Verfahren nach Anspruch 7, bei dem die Parameter für Ana­ logtelefon-Sprachübertragung verwendet werden.
DE19500494A 1995-01-10 1995-01-10 Merkmalsextraktionsverfahren für ein Sprachsignal Expired - Lifetime DE19500494C2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19500494A DE19500494C2 (de) 1995-01-10 1995-01-10 Merkmalsextraktionsverfahren für ein Sprachsignal
US08/584,816 US5732388A (en) 1995-01-10 1996-01-11 Feature extraction method for a speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19500494A DE19500494C2 (de) 1995-01-10 1995-01-10 Merkmalsextraktionsverfahren für ein Sprachsignal

Publications (2)

Publication Number Publication Date
DE19500494A1 true DE19500494A1 (de) 1996-07-18
DE19500494C2 DE19500494C2 (de) 1997-01-23

Family

ID=7751203

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19500494A Expired - Lifetime DE19500494C2 (de) 1995-01-10 1995-01-10 Merkmalsextraktionsverfahren für ein Sprachsignal

Country Status (2)

Country Link
US (1) US5732388A (de)
DE (1) DE19500494C2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19616103A1 (de) * 1996-04-23 1997-10-30 Philips Patentverwaltung Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
SE516798C2 (sv) * 1996-07-03 2002-03-05 Thomas Lagoe Anordning och sätt för analys och filtrering av ljud
US5819287A (en) * 1996-07-30 1998-10-06 Nec Corporation Database driven automatic program production system
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
DE19915648A1 (de) * 1999-04-07 2000-10-12 Rohde & Schwarz Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
DE10043946C2 (de) * 2000-09-06 2002-12-12 Siemens Ag Komprimieren von HMM-Prototypen
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
EP1229516A1 (de) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
US8731214B2 (en) 2009-12-15 2014-05-20 Stmicroelectronics International N.V. Noise removal system
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AKTAS, A., ZÜNKLER, K.: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi-DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348 *
BOLL, S.F.: "A Spectral Subtraction Algorithm for Suppression of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203 *
HERMANSKY, H., MORGAN, N.: "Towards Handling the Acoustic Environment in Spoken Language Proces- sing", Proc. ICSLP92, pp. Tu.fPM.1.1, 85-88 *
KROSCHEL, Kristian: Umgebungsgeräuschreduktion bei Sprachkommunikationssystemen. In: Frequenz 42 (1988) 2/3, S. 79-84 *
WITTMANN, M., SCHMIDBAUER, O., AKTAS, A.: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp.1251-1254 *

Also Published As

Publication number Publication date
US5732388A (en) 1998-03-24
DE19500494C2 (de) 1997-01-23

Similar Documents

Publication Publication Date Title
DE19500494C2 (de) Merkmalsextraktionsverfahren für ein Sprachsignal
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP0747880B1 (de) Spracherkennungssystem
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19716862A1 (de) Sprachaktivitätserkennung
WO2001084536A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
EP0669606A2 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
EP0470411A2 (de) Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP0540535B1 (de) Verfahren zur sprecheradaption eines automatischen spracherkennungssystems
EP1062659B1 (de) Verfahren und vorrichtung zur bearbeitung eines tonsignals
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
R071 Expiry of right
R071 Expiry of right