DE19939705A1

DE19939705A1 - Vorrichtung zur Spracherkennung

Info

Publication number: DE19939705A1
Application number: DE1999139705
Authority: DE
Inventors: Volkmar Naumburger; Frank Oberle
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 1999-08-18
Filing date: 1999-08-18
Publication date: 2001-03-08

Abstract

Eine Vorrichtung zur Spracherkennung enthält einen Merkmalsspeicher (4), in welchem während eines Trainingsbetriebs ausgewählte, von einer Person gesprochene Wörter gespeichert wurden, sowie einen Abstandsklassifikator (2), welcher in einem Erkennungsbetrieb in einem Sprachsignal enthaltene Wörter mit den gespeicherten Wörtern vergleicht und bei einer hinreichenden phonetischen Ähnlichkeit zwischen zwei Wörtern ein Erkennungssignal erzeugt und bei Fehlen einer hinreichenden phonetischen Ähnlichkeit die in dem Sprachsignal enthaltenen Wörter zurückweist. Zwischen den im Trainingsbetrieb gespeicherten Wörtern besteht ein großer phonetischer Abstand (hohe Rückweisungsschwelle beim Training). Weiterhin ist der phonetische Abstand zwischen den gespeicherten Wörtern und einem in dem Sprachsignal enthaltenen Wort für dessen Zurückweisung groß eingestellt (niedrige Rückweisungsschwelle beim Erkennen).

Description

Die Erfindung betrifft eine Vorrichtung nach dem Oberbegriff des Anspruchs 1.

Spracherkennende Einrichtungen können grob in zwei Gruppen untergliedert werden: die sprecherabhängigen Spracherkenner und die sprecherunabhängigen Spracherkenner. Die Benutzung von spracherkennenden Einrichtungen setzt voraus, daß diese in einem vorgelagerten Prozeß (Training) mit den zu erkennenden Wörtern geladen werden. In der Art des Trainings unterscheiden sich die beiden vorgenannten Gruppen von Spracherkennern.

Während die sprecherabhängigen Spracherkenner durch das von einer Person gesprochene Wort trainiert werden, werden die sprecherunabhängigen Spracherkenner in einer recht aufwendigen Prozedur mit sogenannten Wortmodellen, die z. B. aus einem phonetischen Lexikon abgeleitet werden, geladen. Die Verwendung eines phonetischen Lexikons ermöglicht die sprecherunabhängige Benutzung des Spracherkenners, d. h. von vielen Personen, da ein solches Lexikon aus Sprachproben von einer sehr großen Anzahl verschiedener Sprecher gewonnen wird. Infolge der großen Anzahl (ca. 1000) von Sprechern können lokale Unterschiede in der Aussprache oder stimmliche Unterschiede beim Geschlecht oder Alter der Sprecher berücksichtigt werden.

Das Training sprecherabhängiger Spracherkenner ist sehr einfach durchführbar. Jedoch haftet diesem Erkennertyp der Mangel an, daß nur die Sprache des trainierenden Sprechers ideal wiedererkannt wird. Andere Sprecher werden weniger gut verstanden. Hingegen ist die Erkennung von Wörtern bei der Benutzung eines sprecherunabhängigen Spracherkenners weitestgehend unabhängig vom konkreten Sprecher, aber die Prozedur zur Erstellung des zur Erkennung zu benutzenden Wortmodells ist sehr kompliziert und meist ohne zusätzliche Hilfsmittel wie etwa einem Personalcomputer nicht durchführbar. Zudem verlangt der Umgang mit phonetischen Lexika einige Übung seitens des Trainers.

Es ist daher die Aufgabe der vorliegenden Erfindung, eine Vorrichtung zur Spracherkennung mit einem Merkmalsspeicher, in welchem während eines Trainingsbetriebs ausgewählte, von einer Person gesprochene Wörter gespeichert werden, und einem Abstandsklassifikator, welcher in einem Erkennungsbetrieb in einem Sprachsignal enthaltene Wörter mit den gespeicherten Wörtern vergleicht und bei einer hinreichenden phonetischen Ähnlichkeit zwischen zwei Wörtern ein Erkennungssignal erzeugt, und bei Fehlen einer hinreichenden phonetischen Ähnlichkeit die in dem Sprachsignal enthaltenen Wörter zurückgewiesen werden, zu schaffen, welche trotz des Trainings wie bei einem sprecherabhängigen Spracherkenner, bei der Erkennung eine Wirkung wie bei einem sprecherunabhängigen Spracherkenner erzielt.

Diese Aufgabe wird erfindungsgemäß gelöst durch die im kennzeichnenden Teil des Anspruchs 1 angegebenen Merkmale. Vorteilhafte Weiterbildungen der erfindungsgemäßen Vorrichtung ergeben sich aus den Unteransprüchen.

Der erfindungsgemäße Gedanke beruht auf der Benutzung eines sprecherabhängig trainierten Spracherkenners für eine sprecherunabhängige Erkennung. Wie bereits erwähnt wurde, ist das sprecherabhängige Training sehr leicht durchzuführen; für die Erkennung ist daher der Nachteil der Sprecherabhängigkeit zu beseitigen. Hierzu bieten sich insbesondere die drei folgenden Möglichkeiten an:

1. Beschränkung des Wortschatzes auf relativ wenige Wörter, die untereinander einen geringen Grad der phonetischen Verwechselbarkeit aufweisen.
2. Geeignete Modifikation der Rückweisungsschwellen für den Trainings- und Erkennungsprozeß.
3. Eliminierung falscher Erkennungsergebnisse in einem interaktiven Benutzerdialog.

Spracherkenner arbeiten im Prinzip alle nach dem Verfahren der Abstandsklassifikation. Dies bedeutet, daß die zur Erkennung relevanten (physikalischen) Merkmale in einem Merkmalsraum angeordnet werden. Jeder Wortklasse ist in diesem Raum ein idealer Punkt, der sogenannte Repräsentant der Wortklasse, zugeordnet. Dieser Repräsentant wird durch das Training in seiner Lage im Merkmalsraum bestimmt. Beim Erkennungsprozeß wird der entstehende Merkmalsvektor des zu erkennenden Wortes im Merkmalsraum abgebildet. Die Klassifikation besteht in der Messung der Abstände dieses Merkmalsvektors zu allen Repräsentanten im Merkmalsraum. Dabei wird jener Repräsentant als Erkennungsergebnis ausgegeben, der den geringsten Abstand zum Merkmalsvektor hat. Jedoch sollten diejenigen Merkmalsvektoren, die zu keinem der Repräsentanten einen signifikant geringen Abstand haben, überhaupt nicht klassifiziert werden, da deren Zuordnungssicherheit sehr gering ist.

Solche Wörter werden zurückgewiesen; dementsprechend wird die Schwelle, unterhalb welcher Wörter zurückgewiesen werden, Rückweisungsschwelle genannt.

Das Trainieren, d. h. das Speichern von ausgewählten Wörtern im Merkmalsspeicher, erfolgt in ähnlicher Weise. Auch hier gibt es eine Zurückweisung, nämlich dann, wenn ein neu trainiertes Wort im Merkmalsraum wegen phonetischer Ähnlichkeit zu nahe an ein bereits trainiertes (gespeichertes) Wort herankommt. Dann wäre von vornherein mit einer hohen Verwechslungsrate zwischen diesen beiden Wörtern zu rechnen. Eine hohe Rückweisungsschwelle beim Training sorgt also automatisch dafür, daß nur solche Wörter in dem Erkenner speicherbar sind, die untereinander eine geringe phonetische Ähnlichkeit aufweisen.

Erfindungsgemäß werden somit die Rückweisungsschwellen für das Training relativ hoch und für die Erkennung hingegen relativ niedrig angesetzt. Dies hat zur Folge, daß

1. die trainierten Wörter untereinander wenig verwechselbar sind (hohe Rückweisungsschwelle beim Training);
2. sehr wenig Zurückweisungen beim Erkennungsprozeß auftreten (niedrige Rückweisungsschwelle beim Erkennen); und
3. relativ viele Verwechslungen auftreten (niedrige Zurückweisungsschwelle beim Erkennen).

Während die vorgenannten 1. und 2. durchweg erwünscht sind, kann der hierdurch in Kauf genommene und unter Punkt 3 genannte Mangel durch eine Rückfrage beim Benutzer beseitigt werden. Dieser Mangel wird dadurch relativiert, daß bereits beim Training durch die hohe Rückweisungsschwelle nur in geringem Maße verwechselbare Wörter zugelassen wurden. Jedoch ist bei der Dimensionierung der Rückweisungsschwellen darauf zu achten, daß die Rückweisungsschwelle für das Training nicht so hoch angesetzt ist, daß ein Training insgesamt unmöglich wird, und andererseits die Rückweisungsschwelle für die Erkennung so niedrig gesetzt wird, daß praktisch keine Zurückweisung mehr auftritt. Die absoluten Größen der Schwellen sind dem jeweiligen Anwendungsfall angepaßt experimentell zu bestimmen. Im späteren Einsatz brauchen sie nicht mehr verändert zu werden.

Die Akzente sind hierbei bewußt so zu setzen, daß eher Verwechslungen als Zurückweisungen auftreten, da in einem Verifikationsdialog Verwechslungen oft einfacher als Zurückweisungen aufzulösen sind. Da ein falsch erkanntes Wort als ein richtiges Ergebnis ausgeschlossen werden kann, kann es ohne Verlust aus der Menge der zu erkennenden Wörter entfernt werden. Wiederholt nun der Benutzer einen Erkennungsversuch, dann steht das zuvor als falsch erkannte Wort nicht mehr zur Auswahl und folglich steigt die Wahrscheinlichkeit, daß nunmehr das richtige Wort erkannt wird. Dieser Prozeß kann iterativ bis zum vollständigen Auflösen der Erkennungsaufgabe durchgeführt werden. Bei einem erneuten Start der Erkennungsprozedur muß dann selbstverständlich der vollständige Satz von zu erkennenden Wörtern wieder aktiviert werden.

Im Falle einer Falscherkennung kann die Rückfrage vorteilhaft mit einem Hilfsangebot des Spracherkenners verknüpft werden.

Die Erfindung wird nachfolgend anhand eines in den Figuren dargestellten Ausführungsbeispiels näher erläutert. Es zeigen:

Fig. 1 das Blockschaltbild eines Spracherkenners,

Fig. 2 ein Flußdiagramm zur Erläuterung des Trainingsprozesses, und

Fig. 3 ein Flußdiagramm zur Erläuterung des Erkennungsprozesses.

Der in Fig. 1 dargestellte Spracherkenner besteht in an sich bekannter Weise aus den Blöcken Merkmalsanalysevorrichtung 1, Abstandsklassifikator 2, Schwellwertspeicher 3 und Merkmalsspeicher 4. Die Besonderheit dieses Spracherkenners besteht darin, daß die separat einstellbaren Rückweisungsschwellen des Abstandsklassifikators 2 für den Trainingsprozeß hoch und für den Erkennungsprozeß niedrig eingestellt werden. Hierdurch ist es möglich, das der Spracherkenner sprecherabhängig trainiert und der Erkennungsvorgang sprecherunabhängig durchgeführt werden können.

Für das sprecherabhängige Training wird nach dem Sprechen eines für die Erkennung ausgewählten Wortes dem Abstandsklassifikator 2 ein entsprechender Merkmalsvektor von der Merkmalsanalysevorrichtung 1 zugeführt. Der Abstandsklassifikator 2 vergleicht den Abstand des neu hinzugekommenen Vektors mit den im Merkmalsspeicher 4 gespeicherten Repräsentanten anderer, bereits trainierter Wörter. Hierzu wird vom Schwellwertspeicher 3 die Rückweisungsschwelle für den Trainingsprozess ausgelesen und dem Vergleich zugrunde gelegt. Diese Schwelle ist relativ hoch, aber nicht zu hoch einzustellen. Eine zu hoch eingestellte Schwelle würde ein Training gänzlich unmöglich machen. Wird das neu trainierte Wort nicht zurückgewiesen, ist das Training für dieses Wort erfolgreich abgeschlossen, indem dessen Merkmalsvektor als Repräsentant für diese Wortklasse im Merkmalsspeicher 4 hinterlegt wird. Wenn das neue Wort jedoch wegen zu großer phonetischer Nähe zu einem bereits trainierten Wort zurückgewiesen wird, erfolgt keine Speicherung von dessen Merkmalsvektor, sondern es wird eine Meldung über eine Dialogeinheit 5 an den trainierenden Benutzer ausgegeben, daß das soeben trainierte Wort nicht in den gespeicherten Wortschatz aufgenommen wurde. Der Benutzer wird aufgefordert, ein sinngleiches, aber phonetisch anders klingendes Wort anstelle des zurückgewiesenen Wortes zu trainieren. In dieser Weise wird mit allen zum ausgewählten Wortschatz gehörenden Wörtern verfahren.

Beim Erkennungsvorgang wird dem Spracherkenner ein zu untersuchendes Sprachsignal von einem an sich beliebigen Sprecher zugeführt und in der Merkmalsanalysevorrichtung 1 erfolgt die Bildung eines entsprechenden Merkmalsvektors, der im Abstandsklassifikator 2 mit den im Merkmalsspeicher 4 vorhandenen repräsentativen Merkmalsvektoren verglichen wird. Hierfür wird der Rückweisungsschwellwert für die die Erkennung aus dem Schwellwertspeicher 3 herangezogen. Besteht der aus dem Sprachsignal abgeleitete Merkmalsvektor diesen Schwellwerttest nicht erfolgreich, dann liegt eine Zurückweisung vor und der Benutzer wird über die Dialogeinheit 5 zu einer erneuten Eingabe des gerade gesprochenen Wortes aufgefordert. Jedoch ist die Rückweisungsschwelle für den Erkennungsprozeß so tief einzustellen, daß praktisch keine Zurückweisung erfolgen kann. Wurde demgemäß ein Wort im Sprachsignal richtig erkannt, dann wird der Benutzer von der Dialogeinheit 5 aufgefordert, dieses durch eine JA/NEIN-Entscheidung zu bestätigen. Bei einer JA-Entscheidung ist der Erkennungsprozeß erfolgreich abgeschlossen. Wird hingegen ein falsches Wort erkannt, dann wird dieses vom Benutzer durch eine NEIN-Entscheidung verworfen. Der Benutzer wird dann zu einer erneuten Eingabe des Sprachsignals aufgefordert, wobei das falsch erkannte Wort für diesen wiederholten Erkennungsversuch aus der Menge der zu erkennenden Wörter ausgeschlossen wird. Diese Aufforderung kann von der Dialogeinheit 5 mit einem Hilfsangebot verknüpft werden, durch welches dem Benutzer alle verbleibenden Wortalternativen vorgelesen oder in anderer Weise angezeigt werden. Startet jedoch der Erkennungsprozeß von Neuem, dann müssen alle Wortalternativen wieder dem Abstandsklassifikator 2 zur Verfügung stehen. Die JA/NEIN- Entscheidung in der Dialogeinheit 5 wird von einem sprecherunabhängigen Spracherkenner übernommen, da diese Wortalternativen feststehend sind und mit einer sehr hohen Sicherheit erkannt werden müssen.

Claims

1. Vorrichtung zur Spracherkennung mit einem Merkmalsspeicher (4) in welchem während eines Trainingsbetriebs ausgewählte, von einer Person gesprochene Wörter gespeichert wurden, und einem Abstandsklassifikator (2), welcher in einem Erkennungsbetrieb in einem Sprachsignal enthaltene Wörter mit den gespeicherten Wörtern vergleicht und bei einer hinreichenden phonetischen Ähnlichkeit zwischen zwei Wörtern ein Erkennungssignal erzeugt und bei Fehlen einer hinreichenden phonetischen Ähnlichkeit die in dem Sprachsignal enthaltenen Wörter zurückweist, dadurch gekennzeichnet, daß zwischen den im Trainingsbetrieb gespeicherten Wörtern ein großer phonetischer Abstand besteht (hohe Rückweisungsschwelle beim Training) und der phonetische Abstand zwischen den gespeicherten Wörtern und einem in dem Sprachsignal enthaltenen Wort für dessen Zurückweisung groß eingestellt ist (niedrige Rückweisungsschwelle beim Erkennen).

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der phonetische Abstand zwischen den gespeicherten Wörtern und einem bei der Erkennung zurückzuweisenden Wort so groß eingestellt ist, daß Zurückweisungen nicht erkannter Wörter nahezu ausgeschlossen sind.

3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß der phonetische Abstand zwischen den beim Training gespeicherten Wörtern nur so groß ist, daß eine ausreichende Anzahl von Wörtern speicherbar ist.

4. Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß ein beim Training wegen zu geringen Abstandes zu einem bereits gespeicherten Wort von einer Speicherung ausgeschlossenen Wort anzeigbar ist.

5. Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Nichterkennung eines in dem Sprachsignal enthaltenen Wortes anzeigbar ist.

6. Vorrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Erkennung eines in dem Sprachsignal enthaltenen Wortes anzeigbar und durch eine Bedienungsperson betätigbar oder ablehnbar ist.

7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß ein bei einem Erkennungsversuch erkanntes, von der Bedienungsperson als falsch abgelehntes Wort bei einer ein- oder mehrmaligen Wiederholung des Erkennungsversuchs unberücksichtigt bleibt.