-
-
Verfahren zur sprecherunabhängigen Erkennung von
-
einzeln gesprochenen Worten in Fernmeldesystemen.
-
Die Erfindung betrifft ein Verfahren zur sprecherunabhängigen Erkennung
von einzeln gesprochenen Worten in Fernmeldesystemen mit beispielsweise einem Fernsprechapparat
zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem,
welches unter anderem aus einem die einzelnen in einer Lernphase eingegebenen Worte
in Parameterform als Referenzmuster enthaltenden Referenzmusterspeicher, aus einer
die in einer Lernphase und in der späteren Arbeitsphase eingesprochenen Worte in
einzelne wortcharakteristische Parameter zerlegenden Aufbereitungseinheit und einem
angeschlossenen die zu erkennenden Worte in Parameterform gespeichert enthaltenden
und als Quittung bei Erkennung eines Wortes das entsprechende Wort aus seinem Speicher
akustisch wiedergebenden elektronischen Sprachsynthesesystem besteht und wobei in
der Lernphase des Erkennungssystems das einzelne Wort zur Bildung des Referenzmusters
mehrmals von verschiedenen Personen eingesprochen wird.
-
Soll eine Spracherkennung durch ein obengenanntes System von der Person
des Sprechers unabhängig sein, dann ist es bereits bekannt, daß in der sogenannten
Lernphase, in der die Sprecher die einzelnen Worte in das Spracherkennungssystem
eingeben, jeder Sprecher- oder doch eine größere Anzahl der in Frage kommenden Sprecher
-möglichst mehrmals die gewünschten Worte und Befehle in das Sprecherkennungssystem
eingeben muß (Ruske, G.: Automatische Erkennung gesprochener Sprache Proc. DAG
A'80,
VDE-Verlag 1980, S. 61 - 72, Zwicker, E; Daxer, W.: Erkennung von 14 isoliert gesprochenen
Worten in einem kompakten Gerät mit Mikroprozessor a.a.O., S. 731 - 734).
-
Dabei werden die Worte in einzelne wortspezifische Parameter zerlegt.
-
Anschließend wird über die einzelnen so entstehenden Wortparametersätze
gemittelt und es entsteht ein Referenzmuster eines Wortes, welches in einem Referenzmusterspeicher
abgespeichert wird. In der Arbeitsphase wird dieser Referenzmustersatz mit dem aus
den Parametern des eingegebenen Wortes gebildeten Testmuster verglichen und auf
Ähnlichkeit geprüft. Es kann sich eine Mindestähnlichkeit des Testmusters mit einem
der abgespeicherten Referenzmuster ergeben, die zum Erkennen des eingesprochenen
Wortes führt. In dem Sprachsynthesesystem ist der gesamte verarbeitbare Wortschatz
in Form eines Parametersatzes je Wort enthalten. Dabei ist dieser Parametersatz
Jedoch nicht aufgrund einer Mittelung entstanden, sondern aus einem von einem geeigneten
Sprecher eingegebenen Wort. Im allgemeinen wird nach jeder Worteingabe und Worterkennung
aus diesem Speicher des Synthesesystems das entsprechende Wort ausgelesen und für
den Sprecher als Quittung hörbar gemacht.
-
Wird das Wort nicht erkannt, dann erfolgt eine Fehlermeldung. Mit
steigender Anzahl unterschiedlicher Sprecher werden sich bei der Mittelung zur-Erzeugung
eines Referenzmusters eine immer weniger scharfe Wortcharakteristik und damit immer
weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare Ähnlichkeitsgrenze
immer weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare
Ähnlichkeitsgrenze immer höher angesetzt werden muß: Dadurch werden immer mehr eingesprochene
Worte als Fehler" von dem Erkennungssystem zurückgewiesen.
-
Die Aufgabe der Erfindung soll nun darin bestehen, ein
einfaches
Verfahren zu finden, mit dem ohne größeren Aufwand bei einem sprecherunabhängigen
Spracherkennungssystem die Erkennungsrate für die eingesprochenen Worte erhöht werden
kann.
-
Die gestellte Aufgabe ist dadurch lösbar, daß in der Lernphase nach
jedem mehrmaligen Einsprechen des einzelnen Wortes durch die einzelnen Personen
eine Erkennungsrate jeder Person festgehalten wird und daß das eingesprochene Wort
der Person mit der höchsten Erkennungsrate in den Speicher des Synthesesystems eingegeben
und zur späteren akustischen Quittungsgabe benützt wird.
-
Da nach jedem eingesprochenen Wort in der späteren Erkennungsphase
als Quittung eines durch das Erkennungssystem erkannten Wortes das entsprechende
Wort aus dem Synthesespeicher ausgelesen und hörbar an die einsprechende Person
zurückgegeben wird, ergibt sich aus dem erfindungsgemäßen Verfahren der Vorteil,
daß die einsprechende Person ihr eingesprochenes Wort in der systemgünstigsten Sprache
zurückhört, woraus sich ein Angewöhnen und Nachahmen der Sprache mit der besten
Erkennungsrate ergibt.
-
Zum besseren Verständnis des erfindungsgemäßen Verfahrens soli nachstehend
eine kurze Beschreibung der Wirkungsweise eines die menschliche Sprache erkennenden
Systems erfolgen.
-
Ein elektronisches Spracherkennungssystem analysiert die akustischen
Parameter eines gesprochenen Wortes und vergleicht diese mit den Parametern von
vorher gelernten und in einem Referenzmusterspeicher abgespeicherten Worten. Es
ist also-ein Lernvorgang erforderlich, der eine Sprecherabhängigkeit beinhaltet.
-
Sprecherunabhängige Geräte erhalten ihren Referenzmustersatz entweder
durch Mittelung über die Sprechmuster einer Vielzahl von Sprechern - was für den
einzelnen Sprecher zu einem Absinken der Erkennungsrate führt - oder bei einer endlichen
Zahl von bekannten Sprechern durch Abspeicherung des Referenzmusters aller Sprecher,
wodurch vor allem bei einer großen Anzahl von zu erkennenden Worten ein großer Speicherplatz
benötigt wird. Die einzelnen Parameter eines Wortes werden aus dem Zeitverlauf des
von einem Mikrofon abgegebenen Signals abgeleitet. Dies erfolgt beispielsweise durch
eine Kurzzeitspektralanalyse und eine Anzahl weiterer Messungen, wie z.B. den Verlauf
der Grundfrequenz, der Bestimmung stimmhafter und stimmloser Intervalle, dem Pegelverlauf,
der Sprachpausen usw.
-
Zum "Laden" des Referenzmusterspeichers spricht jeder Sprecher jedes
gewünschte Wort einige Male in das Eingabegerät, Die Mittelung der gewonnenen Parameter
entweder über sämtliche Eingaben eines Sprechers oder über die Eingaben aller Sprecher
zusätzlich einer Zeitnormierung (Wortanfang und Wortende werden erkannt und damit
das Wort unabhängig von der Sprechweise in einen bestimmten Zeitrahmen gebracht)
ergibt dann das Referenzmuster dieses Wortes. Die Referenzmuster aller Worte bilden
den Referenzmustersatz. Im Erkennungsvorgang wird dann wiederum die bereits beschriebene
Ermittlung der Parameter des eingesprochenen Wortes und eine Wortanfangs- und Wortendeerkennung
vorgenommen.
-
Nach einer Zeitnormierung erfolgt ein Vergleich des aus dem eingesprochenen
Wort gewonnenen und zeitnormierten Parametersatzes (Testmuster) und den im Referenzmusterspeicher
vorliegenden Parametersätzen (Referenzmuster) aller Worte. Das dem ähnlichsten Referenzmuster
entsprechende Wort wird als erkanntes Wort ausgegeben, wo-
Wird
das Wort richtig erkannt, dann wird aus einem Synthesespeicher dieses Wort ausgegeben
und beim Sprecher hörbar gemacht. Ein solcher Synthesespeicher enthält alle mit
dem System verarbeitbaren "gelernten" Worte und zwar nicht in Form eines gemittelten
Parametersatzes wie z.B. dem entsprechenden Referenzmustersatz, sondern in Form
eines einer möglichst systemgünstigen Eingabesprache entsprechenden Parametersatzes.
-
Wird das eingesprochene Wort richtig erkannt und quittiert, dann erfolgt
die Auswertung desselben. Zum Beispiel kann die Nennung eines Namens die automatische
Wahl der zugehörigen Teilnehmernummer bewirken. Ist das Eingabegerät eine Lautsprechstation,
dann kann somit durch Einsprechen des Namens eine vollständige Telefonverbindung
aufgebaut und ein entsprechendes Gespräch geführt werden, ohne daß eine mechanische
Handhabung eines Gerätes notwendig war.
-
In dem dem erfindungsgemäßen Verfahren zugrundeliegenden Spracherkennungssystem
geht man davon aus, daß in dem Synthesespeicher und dem Referenzmusterspeicher noch
keinerlei Informationen abgespeichert sind, daß eine Vielzahl von Sprechern eingabeberechtigt
sein sollen und daß zum "Laden" des Spracherkennungssystems eine Lernphase notwendig
ist.
-
Das "Laden" erfolgt in der Weise, daß ein Sprecher wiederholt zur
Bildung eines Referenzmusterwortes das entsprechende Wort einspricht. Dabei wird
jeweils bei Erkennung des Wortes eine Quittierung in Form der Hörbarmachung dieses
Wortes am Eingabegerät gegeben. Danach wird ein weiterer Sprecher die Eingabe des
gleichen Wortes mehrmals vornehmen und auch hier werden mehr oder weniger Erkennungen
bzw. Fehler registriert werden.
-
Führt man dies mit einer Reihe von Sprechern durch, und registriert
dabei die Anzahl der Erkennungen, dann wird man einen Sprecher oder eine Gruppe
von Sprechern auslesen können, deren Worteingabe am meisten systemgünstig war, d.h.
bei deren Spracheingabe die meisten Erkennungsquittungen vorliegen. Wird man bei
diesem Sprechen oder der Gruppe von Sprechern auch noch verschiedene Sprechweisen
ausprobieren, dann wird man zu einer Optimalen Worteingabe kommen, mit der für dieses
Wort die hochste Erkennungsrate zu erwarten ist. Diese Worteingabe gibt man dann
als dem Wort zugeordnete fest eingespeicherte'Quittung" in den Synthesespeicher.
-
Bei jedem weiteren Einsprechen dieses Wortes durch einen beliebigen
Sprecher erhält dieser bei Erkennung durch das System aus dem Synthesespeicher akustisch
die optimale Wortaussprache, so daß es sich im Laufe der Zeit immer mehr an die
optimale Aussprache anpassen wird. Der eigentliche Referenzmuster-Parametersatz
wird wie oben beschrieben, durch die Mittelung der einzelnen Worteingaben einer
Anzahl von unterschiedlichen Sprechern erzeugt.
-
Aus dem Vorstehenden geht hervor, daß es nach dem erfindungsgemäßen
Verfahren in einfacher und wirtschaftlicher Weise möglich ist, bei einem sprecherunabhängigen
Spracherkennungssystem eine hohe Erkennungsrate zu erreichen.
-
1 Patentanspruch