DE19500494C2

DE19500494C2 - Merkmalsextraktionsverfahren für ein Sprachsignal

Info

Publication number: DE19500494C2
Application number: DE19500494A
Authority: DE
Inventors: Harald Dr Hoege; Alfred Dr Hauenstein; Erwin Dr Marschall
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1995-01-10
Filing date: 1995-01-10
Publication date: 1997-01-23
Anticipated expiration: 2015-01-11
Also published as: DE19500494A1; US5732388A

Description

Bei den meisten Spracherkennungssystemen wird die Erkennung in zwei Stufen durchgeführt. In der ersten Stufe, der Merk malsextraktionsstufe, werden aus dem Sprachsignal in vorgege benen Zeitabschnitten Merkmale bestimmt, die auf einer Kurz zeitspektralanalyse beruhen. In der zweiten Stufe werden diese spektralen Merkmale mit Mustern von spektralen Merkma len der zu erkennenden Wörter verglichen. Als besonders geeignet haben sich als Muster sogenannte Hidden Markov Modelle (HMM) erwiesen. Beim Vergleich wird dasjenige Wort oder diejenigen Wörter als erkannt gesetzt, bei denen die Muster zu den spektralen Merkmalen des anliegenden Sprachsi gnals die höchste Ähnlichkeit (geringster Abstand, höchste Wahrscheinlichkeit) besitzen (Klassifikationsstufe). Als Vergleichsverfahren hat sich der Viterbialgorithmus etab liert.

Ein großes Problem bei der Spracherkennung bildet die Varia bilität der Merkmale, die durch die unterschiedliche Anatomie des Vokaltraktes der Sprecher, Kanälen (z. B. Telefonkanal, Mobilfunk, Raumakustik und Mikrofon) sowie von additiven Störungen (z. B. Autogeräusche, Nebensprechen, Quantisierungs rauschen von Codierern) erzeugt wird. Um eine hohe Erken nungsleistung eines Systems zu erreichen, müssen alle mögli chen Variabilitäten in den Mustern repräsentiert sein, damit eine hohe Ähnlichkeit zwischen den spektralen Merkmalen und den Mustern für das zu erkennende Wort erreicht wird. Auf grund der hohen Variabilität der Muster ist eine solche umfassende Repräsentation praktisch nicht möglich und die Erkennungsleistung sinkt mehr oder weniger, je nach der Quelle der Variabilität.

Bisher gibt es für diese Probleme verschiedene Lösungsansät ze.

Zur Reduktion der Variabilitäten der Merkmale bezüglich der Übertragungseigenschaften verschiedener Kanäle hat sich das RASTA-Verfahren /1/ und zur Reduktion der Variabilitäten der Merkmale bezüglich additiven Störungen hat sich die Methode der spektralen Subtraktion /2/ als wirksames Verfahren erwie sen. Beide Verfahren sind schon in eine Merkmalsextraktions stufe integriert.

Aus der deutschen Offenlegungsschrift DE 41 11 995 A1 ist eine Schaltungsanordnung zur Spracherkennung bekannt. Dort wird eine Merkmalsextraktionseinrichtung verwendet, welche nach einem Verfahren zur Merkmalsextraktion für ein Sprachsignal arbeitet, bei dem von dem Sprachsignal durch Kurzzeitspektralanalyse dessen Spektralenergien bestimmt werden und bei dem daraus abgeleitete logarithmierte Spektralenergien bestimmt werden.

Aus dem Artikel von Christian Kroschel: Umgebungsgeräusch reduktion bei Sprachkommunikationssystemen, in: Frequenz 42 (1988) 2/3, Seite 79 bis 84, ist bekannt die Filterkoeffizien ten für ein Hochpaßfilter, welches von einem Sprachsignal durchlaufen wird, zeitabhängig einzustellen. Hierbei wird die Geräuschkompensation dadurch erzielt, daß ein mit der Störung korreliertes Signal verwendet wird, welches keine Sprachkomponenten enthält.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren für die Merkmalsextraktion eines Sprachsignales anzugeben, welches eine schnelle Adaption an und Kompensation von übertragungskanalspezifischen Fehlern ermöglicht.

Diese Aufgabe wird gemäß den Merkmalen des Patentanspruches 1 gelöst.

Weiterbildungen der Erfindung ergeben sich aus den Unteran sprüchen.

Auf besonders vorteilhafte Art können die zeitlich gleitenden Mittelwerte der logarithmierten Spektralenergien mit Hilfe eines Hochpaßfilters eliminiert werden, dessen Filterkoeffi zienten zeitabhängig bestimmt werden. Dadurch wird vor allen Dingen die Spracherkennung verbessert, indem sehr schnell eine Anpassung der Merkmalsextraktion an unterschiedliche Übertragungskanäle erfolgt.

Besonders vorteilhaft werden für das erfindungsgemäße Verfah ren die Basisparameter zur Bestimmung der Filterkoeffizienten mit statistischen Methoden aus solchen Sprachsignalen extra hiert, die der Sprache, welche als Signal übertragen werden soll, entnommen sind. So werden besonders vorteilhaft Spre cher- und Übertragungskanalcharkteristika in das Spracherken nungsverfahren mit einbezogen.

Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß Störungen unterdrückt werden, die unterhalb vorge gebener Störpegel liegen. Dies führt zu einer gegenüber Störungen robusteren Merkmalsextraktion, da unterhalb eines bestimmten Signalpegels, bezogen auf die jeweiligen Spektral energien lediglich der Störpegel berücksichtigt wird.

Vorteilhafterweise können durch das erfindungsgemäße Verfah ren auf einfache Weise die Störungen, die durch das Quanti sierungsrauschen von Sprachcodierern bzw. Signale, die außer halb eines Sprachübertragungsbereiches liegen, sowie Hinter grundgeräusche, eliminiert werden. Die Merkmalsextraktion für die nachfolgende Sprachverarbeitung wird damit wesentlich vereinfacht.

Besonders vorteilhaft können mit dem erfindungsgemäßen Ver fahren die Steuerparameter der einzelnen Merkmalsextraktions schritte im voraus für bestimmte bekannte Sprachübertragungs kanäle bestimmt und abgespeichert werden. Für die Merkmalsex traktion bei der Spracherkennung ist es dann erforderlich die einzelnen Sprachübertragungskanäle eindeutig zu kennzeichnen, und wenn Sprache auf einem solchen Kanal ankommt, die abge speicherten Parameter zu laden und die Spracherkennung mit speziell auf den Kanal abgestimmten Parametern durchzuführen.

Vorteilhaft kann diese Parameterextraktion beispielsweise für ISDN-Sprachleitungen, Mobiltelefonleitungen oder Analogtele fone vorgenommen werden.

Im folgenden wird die Erfindung anhand von Figuren weiter erläutert.

Fig. 1 zeigt ein beispielhaftes Spracherkennungssystem.

Fig. 2 zeigt ein Beispiel zur Merkmalsextraktion in einem Spracherkennungssystem.

Fig. 3 zeigt ein Beispiel für eine erfindungsgemäße Merkmals extraktionsstufe.

Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion.

In Fig. 1 ist ein Beispiel für ein Spracherkennungssystem dargestellt. Das Sprachsignal Spr gelangt zunächst in eine Merkmalsextraktionsstufe Merk, in welcher üblicherweise die spektralen Merkmale des Sprachsignales Spr analysiert werden. Sie sind hier mit m bezeichnet. Die spektralen Merkmale m gelangen im Anschluß in eine Klassifikationsstufe Klass, in der sie mit Mustern HMM, üblicherweise Hidden Markov Modelle verglichen werden, um dann als Worte Wo aus dem Spracherken nungssystem ausgegeben zu werden.

Fig. 2 gibt ein Beispiel einer Merkmalsextraktionsstufe zur Spracherkennung an. Das Sprachsignal Spr gelangt zunächst in einen Funktionsblock, in dem eine Kurzzeitspektralanalyse durchgeführt wird. Dieser ist hier mit FFT bezeichnet. Im An schluß erhält man die Spektralenergien x₁, . . ., x_N. Mit diesen Spektralenergien wird im Anschluß eine Störunterdrückung ST durchgeführt, welche in der Regel eine spektrale Subtraktion des Störsignales bedeutet. Es ergeben sich die entstörten Spektralenergien ₁, . . ., _N. Die entstörten Signale werden an schließend komprimiert, was in der Regel eine Logarithmierung der Werte bedeutet. Dies geschieht im Funktionsblock, der mit Kom bezeichnet ist. Man erhält die logarithmierten Spektralenergien y₁, . . ., y_N. Zur weiteren Merkmalsextraktion wird eine Kanalkompensation Kan auf die logarithmierten Spektralenergien angewendet. Man erhält die kanalbereinigten Spektralenergien ₁, . . ., _N. In der Regel wird das RASTA-Ver fahren für die Kanalkompensation der Spektralenergien einge setzt. Anschließend findet eine Nachbearbeitung Na der kanal bereinigten Spektralenergien statt und man erhält die Sprach merkmale m₁, . . ., m_M.

Wie Fig. 2 im Einzelnen zeigt, wird das Sprachsignal ab schnittsweise (vorzugsweise in Abschnitten von 10-30 ms) einer Kurzzeitspektralanalyse unterzogen, die meist mit Hilfe einer Fourier-Transformation (FFT) durchgeführt wird. Je nach spektraler Auflösung der FFT variiert die Anzahl der Spektral energien. Bei Telefonanwendungen bei einer Bandbreite des Telefonkanals von 3,4 KHz hat sich eine Auflösung von N = 256 Spektralenergien und bei Büroanwendungen (Bandbreite 7,4 KHz) eine Auflösung von N = 512 Spektralenergien als günstig erwie sen.

Zur Störunterdrückung kann nach der Spektralanalyse die spektrale Subtraktion eingesetzt werden, wobei von den Spek tralenergien x₁ (i = 1, . . ., N) die geschätzten Spektren _si des Störsignals abgezogen wird:

₁ = x_i - _si i = 1, . . ., N

Die Schätzung der Störspektren erfolgt bevorzugt während einer Sprechpause, während der das Signal Spr nur aus dem Störsignal besteht.

Zur Kanalkompensation werden zunächst günstigerweise die entstörten Spektralenergien _i in ihrer Dynamik komprimiert. Als Kompressionskennlinie wird häufig der Logarithmus ver wendet:

y_i = log_i i = 1, . . ., N

Auf die komprimierten Spektralenergien wird hier als Beispiel das RASTA-Verfahren angewendet. Die Grundidee besteht dabei, von den y_i (i = 1, N) den kanalabhängigen Mittelwert _i (i = 1, . . ., N) zu entfernen. Dies erfolgt z. B. mit einem Hoch paßfilter mit der Übertragungsfunktion:

Ein spezielles Hochpaßfilter bildet der Abzug des gleitenden Mittelwertes ₁ von den Spektralwerten y_i/3/.

Erfolgt die Bestimmung des gleitenden Mittelwertes _i zu jedem Sprachabschnitt n (n = 1, 2, . . . ) rekursiv nach der Bezie hung

₁(n) = a_i-1(n - 1) + (1 - a)_i(n) i = 1, . . ., N

so läßt sich zeigen, daß die Beseitigung des Mittelwertes von y₁ mit

_i(n) = y_i(n) - _i(n) i = 1, . . ., N

äquivalent zu dem Hochpaßfilter mit der Übertragungsfunktion

ist, wobei H(z) eine vereinfachte Variante zu Gleichung (1) darstellt.

Um in dem Mittelwert ₁ die Sprechereigenschaften besser berücksichtigen zu können, besteht die Möglichkeit, zur Bestimmung von _i nur solche Signalabschnitte Spr zu verwen den, bei denen keine Sprechpause vorliegt /3/.

Schließlich werden die kanalbereinigten Spektralenergien einer Nachverarbeitung unterzogen, wobei im wesentlichen durch eine lineare Operation die Anzahl der Spektralenergien y₁ (i = 1, . . ., N) auf wenige Merkmale m₁, . . ., m_M (z. B. M = 50 Werte) reduziert werden.

Fig. 3 gibt ein Beispiel für einen nach dem erfindungsgemä ßen Verfahren arbeitende Merkmalsextraktionsstufe eines Spracherkennungssystems an. Die Funktionsblöcke, welche gleich bezeichnet sind, führen auch dieselbe Operation wie jene Funktionsblöcke in Fig. 2 durch. Die Indizierung und die Bezeichnung ist äquivalent wie in Fig. 2 verwendet.

Zusätzlich zur Merkmalsextraktionsstufe nach Fig. 2 kommt hier fallweise bei einer Ausführungsform des erfindungsgemä ßen Verfahrens eine Irrelevanzreduktion Irr hinzu. Die Irrelevanzreduktion wird beispielsweise im unmittelbaren Anschluß an die spektrale Kurzzeitanalyse durchgeführt. Die aus der Kurzzeitanalyse erhaltenen Spektralenergien werden dabei mit Spektralenergien verglichen, die aus einem charak teristischen Störsignal ermittelt wurden. Falls die Spektral energien kleiner sind als jene des Störsignales des jeweili gen Frequenzbereiches, so wird dem jeweiligen Frequenzbereich die Störspektralenergie zugewiesen und mit dieser das Verfahren weiter durchgeführt.

Nach der Irrelevanzreduktion Irr erhält man die irrelevanzre duzierten Spektralenergien x₁′, . . ., x_N′. Zusätzlich zum in Fig. 2 beschriebenen Merkmalsextraktionsverfahren wird auf die komprimierten Spektralenergien y₁, . . ., y_N bevorzugt eine spektrale Glättung Gl angewendet. Diese spektrale Glättung Gl ist aus dem Stand der Technik bekannt, ist jedoch für das funktionieren des erfindungsgemäßen Verfahrens nicht von essentieller Bedeutung. Vielmehr wird durch die spektrale Glättung der Rechenaufwand für die nachfolgenden Verfahrens schritte reduziert. Man erhält geglättete Spektralenergien y₁, . . ., y_K. Ein weiterer Schritt des erfindungsgemäßen Verfah rens sieht eine kanaladaptive Kompensation der geglätteten Spektralenergien vor.

Die Filterkoeffizienten für diese Kompensation werden nach dem erfindungsgemäßen Verfahren zeitabhängig ermittelt.

Der Erfindung liegen dabei drei getrennte Ansätze zugrunde, die zum Ziel haben, die Variabilität der Merkmale weiter zu reduzieren. Sie werden als Verfahren vorgeschlagen, die effizient zu realisieren sind. Die Verfahren werden bei spielsweise in die Merkmalsextraktionsstufe integriert und können z. B. durch die in /4/ beschriebene Anordnung technisch realisiert werden. Ein Beispiel für eine erfindungsgemäße Merkmalsextraktionsstufe ist in Fig. 3 dargestellt.

Nach der Kurzzeitspektralanalyse wird vorteilhaft eine Irre levanzreduktion durchgeführt, die zum Ziel hat, die für die Spracherkennung irrelevanten von der Anwendung her bekannten Anteile zu entfernen. Solche Anteile sind z. B.:

- Quantisierungsrauschen der Codierer (z. B. A/D-D/A-Wandler zur Digitalisierung analoger Signale, Codierer für Mobilübertragung wie GSM)
- Störgeräusche außerhalb vom Nutzkanal (z. B. beim Telefonkanal Signale unter 300 Hz und über 3,4 KHz)
- konstante Arbeitsplatzgeräusche

Die Irrelevanzreduktion wird durch das Verfahren

realisiert, wobei die Schwellen e_i spektralspezifische Kon stanten darstellen. Die Schwellen können empirisch festgelegt werden, wobei i. A. die Schwellen um so höher angesetzt wer den, je stärker der irrelevante Anteil der Spektralenergie ist. Durch Anpassung der Schwellen e_i an die Sprachcodecs, die in ISDN-Übertragungskanälen eingesetzt werden, wurde experimentell eine Reduktion der Fehlerrate in der Spracher kennung erreicht.

Nach der Kompression wird zunächst beispielsweise eine spek trale Glättung der komprimierten Spektralenergien durchge führt, wie sie auch in /4/ beschrieben ist.

Diese Operation wird i. A. durch eine Matrixoperation er reicht:

Wie schon vorher erwähnt, haben sich die Werte N = 256 (Anzahl der Spektralenergien) und K = 24 (Anzahl der geglätteten Spek tralenergien) für Telefonanwendungen als günstig erwiesen, können aber durch andere Werte ersetzt werden. Die spektrale Glättung kann auch mit komprimierten Spektralenergien, die von mehreren Signalabschnitten n, n-1, . . . erzeugt wurden, durchgeführt werden:

Durch die spektrale Glättung wird erreicht, daß die Kanalkom pensation für weniger Spektren durchgeführt werden muß und daß diese auch nicht mehr die störenden Grundfrequenzanteile enthalten. Wie erkannt werden kann, stellt ein Merkmalsex traktionsverfahren mit spektraler Glättung lediglich eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens dar. Es sind auch andere Varianten der Erfindung denkbar, wo die Glättung keine Rolle spielt, da beispielsweise das Sprachsignal in anderer Form aufbereitet wird, oder der Rechenaufwand zur Spracherkennung eine untergeordnete Rolle spielt.

Eine adaptive Kanalkompression wie im RASTA-Verfahren hat den Nachteil, daß das Filter H(z) nur langsam einschwingt, wo durch am Anfang einer Äußerung die stationären Anteile der Spektren nur ungenügend entfernt werden und dort leicht Fehlerkennung auftritt. Um dies zu vermeiden, werden bei der Erfindung die Filterkoeffizienten zeitvariabel eingestellt, so daß ein schnelles Einschwingen des Kanaladaptionsfilters erreicht wird. Die Bestimmung der kompensierten Spektren _i erfolgt nach dem Algorithmus:

_i(n) = y′_i(n) - ′_i(n) mit i = 1, . . ., K

_i0, α_i0, β₀: Konstanten, die aus statistischen Untersuchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende Funktion

Die Konstanten _i0, α_i0, β₀ werden dabei beispielsweise durch statistische Untersuchungen an typischem Sprachmaterial festgelegt.

Im Einzelnen werden dazu beispielsweise Sprachstichproben von für die praktische Anwendung der Erfindung typischen Spre chern genommen. Hierbei benutzen diese Personen bevorzugte applikationsspezifische Übertragungskanäle, wie beispielswei se eine ISDN-Verbindung, so daß diese Sprachstichproben mit für einen jeweiligen Sprachübertragungskanal typischen Ka nalübertragungseigenschaften behaftet sind. Die Werte von _i0 (i = 1, . . ., K) lassen sich dann als Mittelwerte der Kanal energien _i′ der Sprachstichproben bestimmen. Die Werte von α_i0 werden bevorzugt durch den Quotienten

angenähert. Dabei gibt die Varianz der Mittelwerte _i0 an, wobei die Mittelwerte vorzugsweise für jede Sprachstichprobe eines jeweiligen Sprechers separat berechnet werden. σ_i ist die Varianz der Kanalwerte y′_i. Für den Fall, daß die Mittel werte _i0 der Sprachstichproben nur wenig schwanken, ist also klein und somit α_i0 groß zu wählen. Für Telefonanwendungen liegen günstige Werte von α_i0 in der Größenordnung von 10 bis 15.

Der Wert β₀ wird bevorzugt aus der statistischen Abhängigkeit seitlich benachbarter Kanalenergien y′_i(n), y′_i(n-1) bestimmt.

Ist die Statistische Abhängigkeit gering, so wird günstiger weise β₀ = 1 gesetzt. Mit zunehmender Statistischer Abhängig keit werden entsprechend der Abhängigkeit kleinere Werte von β₀ vorgegeben.

Die Funktion (n) ist eine mit n monoton steigende Funktion, die durch einen empirisch zu bestimmenden Wert Max begrenzt wird (siehe Fig. 4). Bis die Größe den Wert Max erreicht hat, kann z. B. proportional zu n gewählt werden. Die Stei gung der Kurve kann in einem Signalabschnitt n verkleinert werden, falls der Signalabschnitt eine Sprachpause darstellt. Für Telefonanwendungen hat sich für Max (siehe Fig. 4) ein Wert von 250 ms als günstig erwiesen. Während der Sprachpause kann auch β_n auf einen sehr kleinen Wert oder 0 gesetzt werden.

Die in den verschiedenen Verarbeitungsstufen der Merkmalsex traktionsstufe vorgegebenen Konstanten können über eine Steuerung Steu, welche von einer externen Einrichtung Infor mation über den Kanal oder die Art der Störung erhält, aktu ell eingestellt werden. Hier ein Beispiel solcher externen Information:
Ist eine Vermittlungsanlage mit einem Spracherkennungssystem ausgerüstet, so kann die Vermittlungsanlage detektieren, ob der Anrufer von einer ISDN-Telefonanlage, vom einem mobilen Telefon oder von einem analogen Telefon anruft. Je nach Telefonart ergeben sich andere Codierungs- und Störgeräusche, sowie andere Kanalübertragungscharakteristiken, für die spezifischen Konstanten optimale Erkennungsleistungen brin gen. Diese beispielsweise drei verschiedenen Sätze der Kon stanten sind in der Steuerungseinrichtung gespeichert und werden nach dem Aufbau der Verbindung je nach Telefonart in der Merkmalsextraktionsstufe der Spracherkennungseinrichtung aktiviert.

Fig. 4 zeigt ein Beispiel für eine Zeitbewertungsfunktion mit der die Filterkoeffizienten für den Hochpaßfilter zur Bestimmung der kompensierten Spektralenergien gewonnen wird. Dabei ist zu erkennen, daß die Funktion Fu eine Abhängigkeit von n und angibt. Eine waagerechte Stelle Wa ist für eine Sprachpause charakteristisch. Das heißt die bewertete Zeit steigt in diesem Bereich nicht an. Die Größe wird auf den Wert Max begrenzt, da sonst das Zeitfenster das betrachtet wird, zu groß würde, um einer langsamen Veränderung des Übertragungskanales folgen zu können.

Literatur

/1/ H. Hermansky, N. Morgan: "Towards Handling the Acoustic Environment in Spoken Language Processing", Proc. ICSLP92, pp. Tu.fPM.1.1
/2/ S.F. Boll: "A Spectral Subtraction Algorithm for Suppres sion of Acoustic Noise in Speech", Proc. IEEE-ICASSP, 1979, pp. 200-203
/3/ M. Wittmann, O. Schmidbauer, A. Aktas: "Online Channel Compensation for Robust Speech Recognition", Proc. Eurospeech 1993, pp. 1251-1254
/4/ A. Aktas, K. Zünkler: "Speaker Independent Continuous HMM-Based Recognition of Isolated Words on a Real-Time Multi- DSP-System", Proc. Eurospeech 91, 1991, pp. 1345-1348

Claims

1. Merkmalsextraktionsverfahren für ein Sprachsignal (Spr),

a) bei dem von dem Sprachsignal durch Kurzzeitspektralanalyse (FFT) dessen Spektralenergien (x₁, . . ., x_N) bestimmt werden,
b) bei dem daraus logarithmierte Spektralenergien (y₁, . . ., y_N) bestimmt werden,
c) und bei dem kanalbereinigte Spektralenergien (₁, . . ., _N) in folgender Form gebildet werden: _i0, α_i0, β₀: Konstanten, die aus statistischen Unter suchungen des Sprachsignales gewonnen werden
(n): mit n monoton steigende und nach oben beschränkte Funktion

2. Verfahren nach Anspruch 1,

a) bei dem von mindestens einem bekannten Störsignal, welches dem Sprachsignal überlagert ist dessen Spektralenergien als Störenergien (e_i) bestimmt werden,
b) und bei dem eine Irrelevanzreduktion (Irr) des Sprachsigna les (Spr) in der Form durchgeführt wird, daß mindestens eine Spektralenergie (x_i) mit der Störenergie (e_i) aus dem selben Frequenzband verglichen wird, und falls die Störenergie (e_i) einen größeren Betrag als die untersuchte Spektralenergie (x_i) hat, für eine Weiterverarbeitung des Sprachsignales die Störenergie anstatt der Spektralenergie (xi) verwendet wird.

3. Verfahren nach Anspruch 2, bei dem das Störsignal das Quantisierungsrauschen eines Sprachkodierers ist.

4. Verfahren nach Anspruch 2, bei dem als Störsignal Frequen zen definiert werden, welche sich außerhalb eines für das Sprachsignal definierten Bereiches befinden.

5. Verfahren nach Anspruch 2, bei dem das Störsignal von Hin tergrundgeräuschen beim Sprechen verwendet wird.

6. Verfahren nach einem der vorangehenden Ansprüche,

a) bei dem in einem ersten Schritt für mindestens zwei Sprachübertragungskanäle, auf denen das Sprachsignal über tragen wird, die für das Verfahren charakteristischen Parame ter ermittelt und gespeichert werden,
b) bei dem für die Sprachübertragungskanäle eine eindeutige Kennung vergeben wird,
c) und bei dem in einem weiteren Schritt die Merkmalsextrak tion sprachübertragungskanalabhängig mit den gespeicherten Parametern erfolgt.

7. Verfahren nach Anspruch 6, bei dem die Parameter für ISDN- Sprachübertragung verwendet werden.

8. Verfahren nach Anspruch 6, bei dem die Parameter für Mobiltelefon-Sprachübertragung verwendet werden.

9. Verfahren nach Anspruch 6, bei dem die Parameter für Ana logtelefon-Sprachübertragung verwendet werden.