DE4412309C2

DE4412309C2 - Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen

Info

Publication number: DE4412309C2
Application number: DE19944412309
Authority: DE
Inventors: Stephan Euler; Joachim Zinke
Original assignee: Tenovis GmbH and Co KG
Current assignee: Tenovis GmbH and Co KG
Priority date: 1994-04-09
Filing date: 1994-04-09
Publication date: 2002-10-24
Anticipated expiration: 2014-04-10
Also published as: DE4412309A1

Description

Die Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen nach dem Oberbegriff des Patentanspruchs 1.

Ein Meßverfahren zum Beurteilen der Güte von Sprachcodierern und/oder Übertragungsstrecken ist beschrieben in der DE 37 08 002 A1. In der Beschreibungseinleitung (Spalte 2) ist angegeben, daß die Art des Codierverfahrens und auch die Be schaffenheit einer Übertragungsstrecke einen großen Einfluß haben auf die Sprachgüte und die Verständlichkeit der an einen Empfänger ankommenden Sprachinformation. In dieser Schrift wird ein Meßverfahren angegeben, wobei mit Hilfe eines Spracherken ners oder eines Sprechererkenners festgestellt wird, wie groß die Wahrscheinlichkeit ist, daß abgegebene Sprachäußerungen richtig erkannt werden. Hierbei werden verschiedene Sprach codierer oder Übertragungsstrecken in den Sprechweg einge schleift, so daß festgestellt werden kann, wie groß der Anteil der richtig erkannten Sprachäußerungen bei unterschiedlichen Codierverfahren ist. Mit einem derartigen Verfahren kann fest gestellt werden, welches der verschiedenen Codierverfahren für eine elektronische Spracherkennung am geeignetsten ist und bei welchen Codierverfahren eine mindere Qualität der Spracherken nung zu erwarten ist. Hierfür wird ein einziger Spracherkenner benutzt, der vorgegebene Sprachäußerungen übermittelt bekommt und diese erkennt. Dabei werden jeweils die vorher bekannten wahren Bedeutungen mit den erkannten Ergebnissen verglichen. Eine Anpassung des Spracherkenners an ein Codierverfahren findet nicht statt.

Aus der DE 43 25 404 A1 ist ein Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen bekannt. Damit soll er reicht werden, daß ein Spracherkenner optimal an ein erkanntes Störgeräusch angepaßt werden kann, um die Spracherkennung zu optimieren. Zu diesem Zweck sind sogenannte Codebuch-Speicher vorgesehen, welche die Referenzmuster der jeweils zu erkennen den Sprachäußerungen enthalten. Außer einem Standardcodebuch, in welchem die Referenzmuster der reinen Sprache enthalten sind, ist für jeden zu erkennenden Geräuschtyp ein eigenes Codebuch erforderlich. Diese Referenzmuster müssen zusammen mit dem jeweiligen Geräusch durch einen Trainingsvorgang erstellt werden. Eine zu erkennende Sprachäußerung wird einer Sprachana lyseeinheit angeboten, die Merkmalsvektoren bildet und die Häufigkeitsverteilungen, die aus einer Vektorquantisierung resultieren, ebenfalls ermittelt. Es müssen nun umfangreiche Vergleichsrechnungen stattfinden, um die abgelegten Indexdaten mit den aus der Vektorquantisierung der eingegebenen Sprach äußerung sich ergebenden Häufigkeitsverteilungen zu verglei chen. Der sich bei diesem Rechenvorgang ergebende Extremwert der Differenzen kennzeichnet einen gefundenen Störgeräuschtyp. Daraufhin wird dann dem Spracherkenner das zu diesem Störge räuschtyp passende Codebuch zugeschaltet, womit dann die Spracherkennung stattfinden kann.

Obwohl bei diesem Verfahren bereits gegenüber vorbekannten Anordnungen eine Reduzierung der Speicherkapazität und der Rechenleistung erreicht wurde, ist der Aufwand dennoch relativ hoch. Außerdem werden bei einem derartigen Verfahren Einflüsse von Codierverfahren, wie sie auf Übertragungsstrecken einge setzt werden, nicht berücksichtigt.

Die Aufgabe der Erfindung besteht darin, ein Verfahren anzuge ben, mit dem dasjenige von mehreren bekannten Codierverfahren ermittelt werden kann, welches bei einer zu erkennenden aktuel len Sprachäußerung angewendet worden ist. Daraufhin soll ein Spracherkenner eingesetzt werden, dessen zugehörige Referenzmu ster mit diesem Codierverfahren erstellt wurden, damit optimale Ergebnisse erreicht werden, wenn über ein Kommunikationsnetz übertragene Sprache erkannt werden soll.

Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese hen, wie sie im Patentanspruch 1 angegeben ist.

Damit wird in vorteilhafter Weise erreicht, daß ein Codierungs verfahren, welches bei einer über ein Kommunikationsnetz ankom menden, zu erkennenden Sprachäußerung angewendet wurde, schnell gefunden wird. Daraufhin wird derjenige Spracherkenner ange steuert, welcher für dieses Codierverfahren optimal ausgelegt ist. Somit ergibt sich eine hohe Qualität bei der Spracher kennung, die auch bei Codierverfahren mit niedriger Bitrate ausreichend ist.

Weiterbildung der Erfindung ergeben sich aus den Unteransprü chen.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand einer Zeichnung näher erläutert. In der Zeichnung ist schema tisch dargestellt, wie eine von einem Mikrofon M aufgenommene sprachliche Äußerung über ein Kommunikationsnetz KN an den Ein gang E einer Sprachanalyse-Einrichtung SPA gelangt. Auf dem Übertragungsweg innerhalb des Kommunikationsnetzes KN sind üb licherweise Codiereinrichtungen CD vorgesehen. Es kann nicht unbedingt davon ausgegangen werden, daß die am Eingang E einer Sprachanalyse-Einrichtung SPA anstehende, zu erkennende sprach liche Äußerung immer mit dem gleichen Codierverfahren angeboten wird. Um eine hohe Qualität bei der Spracherkennung zu errei chen, soll zunächst herausgefunden werden, welches Codierver fahren innerhalb des Kommunikationsnetzes KN angewendet wurde.

In der Sprachanalyse-Einrichtung SPA wird eine zu erkennende Sprachäußerung, beispielsweise ein Wort, in zeitliche Abschnit te zerlegt, wovon in bekannter Weise Merkmalsvektoren MV errech net werden. Diese Merkmalsvektoren MV werden der Reihe nach in einem Merkmalsvektorspeicher MVSP abgelegt. Von dort aus werden sie einem Codeerkenner CE angeboten, welcher diese Merkmalsvektoren MV mit Mittelwerten MW1 bis MWn vergleicht, welche aus Merkmalsvektoren gebildet wurden, die beim Trainieren von Wort mustern entstanden sind. Jeder einzelne dieser Mittelwerte MW1 bis MWn stammt dabei aus Merkmalsvektoren, welche einem be stimmten Codierverfahren zugeordnet sind, das heißt, diese Merkmalsvektoren wurden von Sprachäußerungen gewonnen, die unter Einsatz des betreffenden Verfahrens codiert wurden. Beim Vergleichen der von einer aktuellen Sprachäußerung gewonnenen Merkmalsvektoren MV mit den im Codeerkenner CE abgelegten Mit telwerten MW1 bis MWn ergeben sich mehr oder weniger große Dif ferenzen. Dabei wird herausgefunden, bei welchem Mittelwert MW1 bis MWn sich die geringste Differenz ergibt.

Da derjenige Mittelwert, z. B. MW1, bei dem sich die geringste Differenz beim Vergleichen mit den Merkmalsvektoren MV der ak tuellen Sprachäußerung ergibt, einem Codierverfahren zugeordnet ist, ist dieses somit als dasjenige erkannt worden, welches in nerhalb des Kommunikationsnetzes KN angewendet wurde. Wenn der Codeerkenner CE ein derartiges Ergebnis, das heißt die gering ste Differenz, festgestellt hat, so wird ein Schaltmittel SM angesteuert, um einen von mehreren Spracherkennern SE1 bis SEn anzusteuern. Unter der Annahme, daß im Codeerkenner CE die ge ringste Differenz zwischen dem Mittelwert MW1 und den aus einer aktuellen Sprachäußerung ermittelten Merkmalsvektoren MV er kannt wird, wird über das Schaltmittel SM der Ausgang des Merk malvektorspeichers MVSP mit dem Eingang des Spracherkenners SE1 verbunden. Die in diesem Spracherkenner SE1 abgelegten Refe renzmuster für zu erkennende Worte sind in bekannter Weise wäh rend einer Trainingsphase entstanden, wobei das betreffende Co dierungsverfahren, beispielsweise ADPCM, angewendet wurde. Die ser Spracherkenner SE1 liefert deshalb bessere Ergebnisse als einer der anderen Spracherkenner SE2 bis SEn liefern würde. So mit erscheint am Ausgang A bei jedem Codierverfahren, für wel ches jeweils ein Spracherkenner SE1 bis SEn vorgesehen ist, ein optimales Erkennungsergebnis.

Die mit diesem Verfahren erzielbaren Ergebnisse können noch weiter gesteigert werden, wenn innerhalb des Codeerkenners CE nicht nur einzelne Mittelwerte MW1 bis MWn gespeichert sind, sondern auch die Kovarianzen, welche sich aus den beim Training erzeugten Merkmalsvektoren ergeben. Diese Kovarianzen sind dann in einem Speicher des Codeerkenners CE bezogen auf das jewei lige Codierverfahren abgelegt. In diesem Fall werden von den Merkmalsvektoren MV der aktuellen Sprachanalyse die Werte von Gaußschen Verteilungskurven produziert, so daß einzelne Dichte werte miteinander verglichen werden können. Mit diesem erhöhten Aufwand kann die Erkennungssicherheit wesentlich gesteigert werden.

Außerdem ist es möglich, mehrere aus ein und derselben Verbin dung stammende Sprachäußerungen im Codeerkenner CE nach der vorbeschriebenen Weise zu untersuchen, wobei jede sich bei einer einzelnen Sprachäußerung ergebende Differenz zwischen deren Merkmalsvektoren MV und den Mittelwerten MW1 bis MWn zwischengespeichert wird. Diese einzelnen Differenzwerte werden dann bezogen auf jeden einzelnen Mittelwert MW1 bis MWn ge trennt aufsummiert, so daß der dann sich ergebende geringste Summenwert das angewandte Codierverfahren genauer bestimmen kann. Somit kann einer der Spracherkenner SE1 bis SEn mit grö ßerer Sicherheit als der am besten passende ausgewählt werden.

Claims

1. Verfahren zur Verbesserung der Spracherkennung unter Berück sichtigung verschiedener digitaler Codierbedingungen mit niedriger Bitrate, wobei durch Training mit mehreren Spre chern gewonnene Wortmodelle abgespeichert sind, die als Referenzmuster zum Vergleich mit zu erkennenden Worten die nen, damit die Vergleichsergebnisse mit einer hohen Erken nungswahrscheinlichkeit vorliegen, dadurch gekennzeichnet,
daß mehrere Spracherkenner (SE1 bis SEn) vorgesehen sind wovon jeder einzelne für ein ganz bestimmtes Codierverfah ren, z. B. PCM mit 64 kBit/s, ADPCM, CELP nach CCITT G728, zuständig ist, wobei die darin befindlichen Referenzmuster der Wortmodelle mit dem zugehörigen Codierverfahren erzeugt wurden,
daß eine zu erkennende Sprachäußerung zunächst einer Sprach analyse-Einrichtung (SPA) zugeführt wird, welche daraus Merkmalsvektoren (MV) erzeugt, die anschließend in einen Merkmalsvektorspeicher (MVSP) gelangen,
daß die Merkmalsvektoren (MV) einem Codeerkenner (CE) ange boten werden, in welchem für jedes Codierverfahren ein aus den Merkmalsvektoren der entsprechenden Referenzmuster errechneter Mittelwert (MW1 bis MWn) abgespeichert ist,
daß die Merkmalsvektoren (MV) der zu erkennenden Sprachäuße rung mit jedem dieser Mittelwerte (MW1 bis MWn) verglichen werden, wobei die geringste Differenz über alle Merkmals vektoren (MV) einer Sprachäußerung ermittelt wird, welche dann dasjenige Codierverfahren kennzeichnet, mit dem die zu erkennende Sprachäußerung codiert wurde,
und daß dann derjenige von mehreren Spracherkennern (SE1 bis SEn) mit dem Merkmalsvektorspeicher (MVSP) verbunden wird, der für das erkannte Codierverfahren zuständig ist, um die eigentliche Spracherkennung durchzuführen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Codeerkenner (CE) beim Vergleichen der Mittelwerte (MWl bis MWn) mit den Merkmalsvektoren (MV) auch deren Kovarianzen in Form einer Gauß-Verteilung berücksichtigt, indem einzelne Dichtewerte miteinander verglichen werden.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei mehreren untersuchten Sprachäußerungen die bei vorangegangenen Ermittlungen erkannten Differenzen berück sichtigt werden, indem die einzelnen sich ergebenden Diffe renzen zwischen den Merkmalsvektoren (MV) und den Mittel werten (MW1 bis MWn) für jedes Codierverfahren aufsummiert werden, wobei die geringste Summe das erkannte Codierver fahren kennzeichnet.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß elektronische Schaltmittel (SM) vorgesehen sind, womit der Merkmalsvektorspeicher (MVSP) mit dem entsprechenden Spracherkenner (z. B. SE1) verbindbar ist,
und daß diese Schaltmittel (SM) vom Codeerkenner (CE) direkt gesteuert werden.