DE4412309C2 - Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen - Google Patents

Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen

Info

Publication number
DE4412309C2
DE4412309C2 DE19944412309 DE4412309A DE4412309C2 DE 4412309 C2 DE4412309 C2 DE 4412309C2 DE 19944412309 DE19944412309 DE 19944412309 DE 4412309 A DE4412309 A DE 4412309A DE 4412309 C2 DE4412309 C2 DE 4412309C2
Authority
DE
Germany
Prior art keywords
speech
feature vectors
recognized
mwn
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19944412309
Other languages
English (en)
Other versions
DE4412309A1 (de
Inventor
Stephan Euler
Joachim Zinke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tenovis GmbH and Co KG
Original Assignee
Tenovis GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tenovis GmbH and Co KG filed Critical Tenovis GmbH and Co KG
Priority to DE19944412309 priority Critical patent/DE4412309C2/de
Publication of DE4412309A1 publication Critical patent/DE4412309A1/de
Application granted granted Critical
Publication of DE4412309C2 publication Critical patent/DE4412309C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen nach dem Oberbegriff des Patentanspruchs 1.
Ein Meßverfahren zum Beurteilen der Güte von Sprachcodierern und/oder Übertragungsstrecken ist beschrieben in der DE 37 08 002 A1. In der Beschreibungseinleitung (Spalte 2) ist angegeben, daß die Art des Codierverfahrens und auch die Be­ schaffenheit einer Übertragungsstrecke einen großen Einfluß haben auf die Sprachgüte und die Verständlichkeit der an einen Empfänger ankommenden Sprachinformation. In dieser Schrift wird ein Meßverfahren angegeben, wobei mit Hilfe eines Spracherken­ ners oder eines Sprechererkenners festgestellt wird, wie groß die Wahrscheinlichkeit ist, daß abgegebene Sprachäußerungen richtig erkannt werden. Hierbei werden verschiedene Sprach­ codierer oder Übertragungsstrecken in den Sprechweg einge­ schleift, so daß festgestellt werden kann, wie groß der Anteil der richtig erkannten Sprachäußerungen bei unterschiedlichen Codierverfahren ist. Mit einem derartigen Verfahren kann fest­ gestellt werden, welches der verschiedenen Codierverfahren für eine elektronische Spracherkennung am geeignetsten ist und bei welchen Codierverfahren eine mindere Qualität der Spracherken­ nung zu erwarten ist. Hierfür wird ein einziger Spracherkenner benutzt, der vorgegebene Sprachäußerungen übermittelt bekommt und diese erkennt. Dabei werden jeweils die vorher bekannten wahren Bedeutungen mit den erkannten Ergebnissen verglichen. Eine Anpassung des Spracherkenners an ein Codierverfahren findet nicht statt.
Aus der DE 43 25 404 A1 ist ein Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen bekannt. Damit soll er­ reicht werden, daß ein Spracherkenner optimal an ein erkanntes Störgeräusch angepaßt werden kann, um die Spracherkennung zu optimieren. Zu diesem Zweck sind sogenannte Codebuch-Speicher vorgesehen, welche die Referenzmuster der jeweils zu erkennen­ den Sprachäußerungen enthalten. Außer einem Standardcodebuch, in welchem die Referenzmuster der reinen Sprache enthalten sind, ist für jeden zu erkennenden Geräuschtyp ein eigenes Codebuch erforderlich. Diese Referenzmuster müssen zusammen mit dem jeweiligen Geräusch durch einen Trainingsvorgang erstellt werden. Eine zu erkennende Sprachäußerung wird einer Sprachana­ lyseeinheit angeboten, die Merkmalsvektoren bildet und die Häufigkeitsverteilungen, die aus einer Vektorquantisierung resultieren, ebenfalls ermittelt. Es müssen nun umfangreiche Vergleichsrechnungen stattfinden, um die abgelegten Indexdaten mit den aus der Vektorquantisierung der eingegebenen Sprach­ äußerung sich ergebenden Häufigkeitsverteilungen zu verglei­ chen. Der sich bei diesem Rechenvorgang ergebende Extremwert der Differenzen kennzeichnet einen gefundenen Störgeräuschtyp. Daraufhin wird dann dem Spracherkenner das zu diesem Störge­ räuschtyp passende Codebuch zugeschaltet, womit dann die Spracherkennung stattfinden kann.
Obwohl bei diesem Verfahren bereits gegenüber vorbekannten Anordnungen eine Reduzierung der Speicherkapazität und der Rechenleistung erreicht wurde, ist der Aufwand dennoch relativ hoch. Außerdem werden bei einem derartigen Verfahren Einflüsse von Codierverfahren, wie sie auf Übertragungsstrecken einge­ setzt werden, nicht berücksichtigt.
Die Aufgabe der Erfindung besteht darin, ein Verfahren anzuge­ ben, mit dem dasjenige von mehreren bekannten Codierverfahren ermittelt werden kann, welches bei einer zu erkennenden aktuel­ len Sprachäußerung angewendet worden ist. Daraufhin soll ein Spracherkenner eingesetzt werden, dessen zugehörige Referenzmu­ ster mit diesem Codierverfahren erstellt wurden, damit optimale Ergebnisse erreicht werden, wenn über ein Kommunikationsnetz übertragene Sprache erkannt werden soll.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese­ hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß ein Codierungs­ verfahren, welches bei einer über ein Kommunikationsnetz ankom­ menden, zu erkennenden Sprachäußerung angewendet wurde, schnell gefunden wird. Daraufhin wird derjenige Spracherkenner ange­ steuert, welcher für dieses Codierverfahren optimal ausgelegt ist. Somit ergibt sich eine hohe Qualität bei der Spracher­ kennung, die auch bei Codierverfahren mit niedriger Bitrate ausreichend ist.
Weiterbildung der Erfindung ergeben sich aus den Unteransprü­ chen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand einer Zeichnung näher erläutert. In der Zeichnung ist schema­ tisch dargestellt, wie eine von einem Mikrofon M aufgenommene sprachliche Äußerung über ein Kommunikationsnetz KN an den Ein­ gang E einer Sprachanalyse-Einrichtung SPA gelangt. Auf dem Übertragungsweg innerhalb des Kommunikationsnetzes KN sind üb­ licherweise Codiereinrichtungen CD vorgesehen. Es kann nicht unbedingt davon ausgegangen werden, daß die am Eingang E einer Sprachanalyse-Einrichtung SPA anstehende, zu erkennende sprach­ liche Äußerung immer mit dem gleichen Codierverfahren angeboten wird. Um eine hohe Qualität bei der Spracherkennung zu errei­ chen, soll zunächst herausgefunden werden, welches Codierver­ fahren innerhalb des Kommunikationsnetzes KN angewendet wurde.
In der Sprachanalyse-Einrichtung SPA wird eine zu erkennende Sprachäußerung, beispielsweise ein Wort, in zeitliche Abschnit­ te zerlegt, wovon in bekannter Weise Merkmalsvektoren MV errech­ net werden. Diese Merkmalsvektoren MV werden der Reihe nach in einem Merkmalsvektorspeicher MVSP abgelegt. Von dort aus werden sie einem Codeerkenner CE angeboten, welcher diese Merkmalsvektoren MV mit Mittelwerten MW1 bis MWn vergleicht, welche aus Merkmalsvektoren gebildet wurden, die beim Trainieren von Wort­ mustern entstanden sind. Jeder einzelne dieser Mittelwerte MW1 bis MWn stammt dabei aus Merkmalsvektoren, welche einem be­ stimmten Codierverfahren zugeordnet sind, das heißt, diese Merkmalsvektoren wurden von Sprachäußerungen gewonnen, die unter Einsatz des betreffenden Verfahrens codiert wurden. Beim Vergleichen der von einer aktuellen Sprachäußerung gewonnenen Merkmalsvektoren MV mit den im Codeerkenner CE abgelegten Mit­ telwerten MW1 bis MWn ergeben sich mehr oder weniger große Dif­ ferenzen. Dabei wird herausgefunden, bei welchem Mittelwert MW1 bis MWn sich die geringste Differenz ergibt.
Da derjenige Mittelwert, z. B. MW1, bei dem sich die geringste Differenz beim Vergleichen mit den Merkmalsvektoren MV der ak­ tuellen Sprachäußerung ergibt, einem Codierverfahren zugeordnet ist, ist dieses somit als dasjenige erkannt worden, welches in­ nerhalb des Kommunikationsnetzes KN angewendet wurde. Wenn der Codeerkenner CE ein derartiges Ergebnis, das heißt die gering­ ste Differenz, festgestellt hat, so wird ein Schaltmittel SM angesteuert, um einen von mehreren Spracherkennern SE1 bis SEn anzusteuern. Unter der Annahme, daß im Codeerkenner CE die ge­ ringste Differenz zwischen dem Mittelwert MW1 und den aus einer aktuellen Sprachäußerung ermittelten Merkmalsvektoren MV er­ kannt wird, wird über das Schaltmittel SM der Ausgang des Merk­ malvektorspeichers MVSP mit dem Eingang des Spracherkenners SE1 verbunden. Die in diesem Spracherkenner SE1 abgelegten Refe­ renzmuster für zu erkennende Worte sind in bekannter Weise wäh­ rend einer Trainingsphase entstanden, wobei das betreffende Co­ dierungsverfahren, beispielsweise ADPCM, angewendet wurde. Die­ ser Spracherkenner SE1 liefert deshalb bessere Ergebnisse als einer der anderen Spracherkenner SE2 bis SEn liefern würde. So­ mit erscheint am Ausgang A bei jedem Codierverfahren, für wel­ ches jeweils ein Spracherkenner SE1 bis SEn vorgesehen ist, ein optimales Erkennungsergebnis.
Die mit diesem Verfahren erzielbaren Ergebnisse können noch weiter gesteigert werden, wenn innerhalb des Codeerkenners CE nicht nur einzelne Mittelwerte MW1 bis MWn gespeichert sind, sondern auch die Kovarianzen, welche sich aus den beim Training erzeugten Merkmalsvektoren ergeben. Diese Kovarianzen sind dann in einem Speicher des Codeerkenners CE bezogen auf das jewei­ lige Codierverfahren abgelegt. In diesem Fall werden von den Merkmalsvektoren MV der aktuellen Sprachanalyse die Werte von Gaußschen Verteilungskurven produziert, so daß einzelne Dichte­ werte miteinander verglichen werden können. Mit diesem erhöhten Aufwand kann die Erkennungssicherheit wesentlich gesteigert werden.
Außerdem ist es möglich, mehrere aus ein und derselben Verbin­ dung stammende Sprachäußerungen im Codeerkenner CE nach der vorbeschriebenen Weise zu untersuchen, wobei jede sich bei einer einzelnen Sprachäußerung ergebende Differenz zwischen deren Merkmalsvektoren MV und den Mittelwerten MW1 bis MWn zwischengespeichert wird. Diese einzelnen Differenzwerte werden dann bezogen auf jeden einzelnen Mittelwert MW1 bis MWn ge­ trennt aufsummiert, so daß der dann sich ergebende geringste Summenwert das angewandte Codierverfahren genauer bestimmen kann. Somit kann einer der Spracherkenner SE1 bis SEn mit grö­ ßerer Sicherheit als der am besten passende ausgewählt werden.

Claims (4)

1. Verfahren zur Verbesserung der Spracherkennung unter Berück­ sichtigung verschiedener digitaler Codierbedingungen mit niedriger Bitrate, wobei durch Training mit mehreren Spre­ chern gewonnene Wortmodelle abgespeichert sind, die als Referenzmuster zum Vergleich mit zu erkennenden Worten die­ nen, damit die Vergleichsergebnisse mit einer hohen Erken­ nungswahrscheinlichkeit vorliegen, dadurch gekennzeichnet,
daß mehrere Spracherkenner (SE1 bis SEn) vorgesehen sind wovon jeder einzelne für ein ganz bestimmtes Codierverfah­ ren, z. B. PCM mit 64 kBit/s, ADPCM, CELP nach CCITT G728, zuständig ist, wobei die darin befindlichen Referenzmuster der Wortmodelle mit dem zugehörigen Codierverfahren erzeugt wurden,
daß eine zu erkennende Sprachäußerung zunächst einer Sprach­ analyse-Einrichtung (SPA) zugeführt wird, welche daraus Merkmalsvektoren (MV) erzeugt, die anschließend in einen Merkmalsvektorspeicher (MVSP) gelangen,
daß die Merkmalsvektoren (MV) einem Codeerkenner (CE) ange­ boten werden, in welchem für jedes Codierverfahren ein aus den Merkmalsvektoren der entsprechenden Referenzmuster errechneter Mittelwert (MW1 bis MWn) abgespeichert ist,
daß die Merkmalsvektoren (MV) der zu erkennenden Sprachäuße­ rung mit jedem dieser Mittelwerte (MW1 bis MWn) verglichen werden, wobei die geringste Differenz über alle Merkmals­ vektoren (MV) einer Sprachäußerung ermittelt wird, welche dann dasjenige Codierverfahren kennzeichnet, mit dem die zu erkennende Sprachäußerung codiert wurde,
und daß dann derjenige von mehreren Spracherkennern (SE1 bis SEn) mit dem Merkmalsvektorspeicher (MVSP) verbunden wird, der für das erkannte Codierverfahren zuständig ist, um die eigentliche Spracherkennung durchzuführen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Codeerkenner (CE) beim Vergleichen der Mittelwerte (MWl bis MWn) mit den Merkmalsvektoren (MV) auch deren Kovarianzen in Form einer Gauß-Verteilung berücksichtigt, indem einzelne Dichtewerte miteinander verglichen werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei mehreren untersuchten Sprachäußerungen die bei vorangegangenen Ermittlungen erkannten Differenzen berück­ sichtigt werden, indem die einzelnen sich ergebenden Diffe­ renzen zwischen den Merkmalsvektoren (MV) und den Mittel­ werten (MW1 bis MWn) für jedes Codierverfahren aufsummiert werden, wobei die geringste Summe das erkannte Codierver­ fahren kennzeichnet.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß elektronische Schaltmittel (SM) vorgesehen sind, womit der Merkmalsvektorspeicher (MVSP) mit dem entsprechenden Spracherkenner (z. B. SE1) verbindbar ist,
und daß diese Schaltmittel (SM) vom Codeerkenner (CE) direkt gesteuert werden.
DE19944412309 1994-04-09 1994-04-09 Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen Expired - Fee Related DE4412309C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19944412309 DE4412309C2 (de) 1994-04-09 1994-04-09 Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19944412309 DE4412309C2 (de) 1994-04-09 1994-04-09 Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen

Publications (2)

Publication Number Publication Date
DE4412309A1 DE4412309A1 (de) 1995-10-12
DE4412309C2 true DE4412309C2 (de) 2002-10-24

Family

ID=6515031

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19944412309 Expired - Fee Related DE4412309C2 (de) 1994-04-09 1994-04-09 Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen

Country Status (1)

Country Link
DE (1) DE4412309C2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3708002A1 (de) * 1987-03-12 1988-09-22 Telefonbau & Normalzeit Gmbh Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3708002A1 (de) * 1987-03-12 1988-09-22 Telefonbau & Normalzeit Gmbh Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen

Also Published As

Publication number Publication date
DE4412309A1 (de) 1995-10-12

Similar Documents

Publication Publication Date Title
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69814517T2 (de) Sprachkodierung
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE3853161T2 (de) Vektorquantisierungscodierer.
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
DE4320990A1 (de) Verfahren zur Redundanzreduktion
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE3711342A1 (de) Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE3708002C2 (de)
DE9218980U1 (de) Fehlerschutz für Mehrmoden-Sprachcoder
DE69830816T2 (de) Mehrstufige Audiodekodierung
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE69630177T2 (de) Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern
DE60109111T2 (de) Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen
DE4412309C2 (de) Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen
EP0658878B1 (de) System zum Übertragen eines Sprachsignals
DE3215868C2 (de)
DE3048107A1 (de) Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: ROBERT BOSCH GMBH, 70469 STUTTGART, DE

8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: TENOVIS GMBH & CO. KG, 60326 FRANKFURT, DE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee