DE3129320A1

DE3129320A1 - Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen

Info

Publication number: DE3129320A1
Application number: DE19813129320
Authority: DE
Inventors: Werner Dipl.-Ing. 8000 München Liegl
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1981-07-24
Filing date: 1981-07-24
Publication date: 1983-02-10

Description

Verfahren zur sprecherunabhängigen Erkennung von
einzeln gesprochenen Worten in Fernmeldesystemen.
Die Erfindung betrifft ein Verfahren zur sprecherunabhängigen Erkennung von einzeln gesprochenen Worten in Fernmeldesystemen mit beispielsweise einem Fernsprechapparat zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem, welches unter anderem aus einem die einzelnen in einer Lernphase eingegebenen Worte in Parameterform als Referenzmuster enthaltenden Referenzmusterspeicher, aus einer die in einer Lernphase und in der späteren Arbeitsphase eingesprochenen Worte in einzelne wortcharakteristische Parameter zerlegenden Aufbereitungseinheit und einem angeschlossenen die zu erkennenden Worte in Parameterform gespeichert enthaltenden und als Quittung bei Erkennung eines Wortes das entsprechende Wort aus seinem Speicher akustisch wiedergebenden elektronischen Sprachsynthesesystem besteht und wobei in der Lernphase des Erkennungssystems das einzelne Wort zur Bildung des Referenzmusters mehrmals von verschiedenen Personen eingesprochen wird.
Soll eine Spracherkennung durch ein obengenanntes System von der Person des Sprechers unabhängig sein, dann ist es bereits bekannt, daß in der sogenannten Lernphase, in der die Sprecher die einzelnen Worte in das Spracherkennungssystem eingeben, jeder Sprecher- oder doch eine größere Anzahl der in Frage kommenden Sprecher -möglichst mehrmals die gewünschten Worte und Befehle in das Sprecherkennungssystem eingeben muß (Ruske, G.: Automatische Erkennung gesprochener Sprache Proc. DAG A'80, VDE-Verlag 1980, S. 61 - 72, Zwicker, E; Daxer, W.: Erkennung von 14 isoliert gesprochenen Worten in einem kompakten Gerät mit Mikroprozessor a.a.O., S. 731 - 734).
Dabei werden die Worte in einzelne wortspezifische Parameter zerlegt.
Anschließend wird über die einzelnen so entstehenden Wortparametersätze gemittelt und es entsteht ein Referenzmuster eines Wortes, welches in einem Referenzmusterspeicher abgespeichert wird. In der Arbeitsphase wird dieser Referenzmustersatz mit dem aus den Parametern des eingegebenen Wortes gebildeten Testmuster verglichen und auf Ähnlichkeit geprüft. Es kann sich eine Mindestähnlichkeit des Testmusters mit einem der abgespeicherten Referenzmuster ergeben, die zum Erkennen des eingesprochenen Wortes führt. In dem Sprachsynthesesystem ist der gesamte verarbeitbare Wortschatz in Form eines Parametersatzes je Wort enthalten. Dabei ist dieser Parametersatz Jedoch nicht aufgrund einer Mittelung entstanden, sondern aus einem von einem geeigneten Sprecher eingegebenen Wort. Im allgemeinen wird nach jeder Worteingabe und Worterkennung aus diesem Speicher des Synthesesystems das entsprechende Wort ausgelesen und für den Sprecher als Quittung hörbar gemacht.
Wird das Wort nicht erkannt, dann erfolgt eine Fehlermeldung. Mit steigender Anzahl unterschiedlicher Sprecher werden sich bei der Mittelung zur-Erzeugung eines Referenzmusters eine immer weniger scharfe Wortcharakteristik und damit immer weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare Ähnlichkeitsgrenze immer weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare Ähnlichkeitsgrenze immer höher angesetzt werden muß: Dadurch werden immer mehr eingesprochene Worte als Fehler" von dem Erkennungssystem zurückgewiesen.
Die Aufgabe der Erfindung soll nun darin bestehen, ein einfaches Verfahren zu finden, mit dem ohne größeren Aufwand bei einem sprecherunabhängigen Spracherkennungssystem die Erkennungsrate für die eingesprochenen Worte erhöht werden kann.
Die gestellte Aufgabe ist dadurch lösbar, daß in der Lernphase nach jedem mehrmaligen Einsprechen des einzelnen Wortes durch die einzelnen Personen eine Erkennungsrate jeder Person festgehalten wird und daß das eingesprochene Wort der Person mit der höchsten Erkennungsrate in den Speicher des Synthesesystems eingegeben und zur späteren akustischen Quittungsgabe benützt wird.
Da nach jedem eingesprochenen Wort in der späteren Erkennungsphase als Quittung eines durch das Erkennungssystem erkannten Wortes das entsprechende Wort aus dem Synthesespeicher ausgelesen und hörbar an die einsprechende Person zurückgegeben wird, ergibt sich aus dem erfindungsgemäßen Verfahren der Vorteil, daß die einsprechende Person ihr eingesprochenes Wort in der systemgünstigsten Sprache zurückhört, woraus sich ein Angewöhnen und Nachahmen der Sprache mit der besten Erkennungsrate ergibt.
Zum besseren Verständnis des erfindungsgemäßen Verfahrens soli nachstehend eine kurze Beschreibung der Wirkungsweise eines die menschliche Sprache erkennenden Systems erfolgen.
Ein elektronisches Spracherkennungssystem analysiert die akustischen Parameter eines gesprochenen Wortes und vergleicht diese mit den Parametern von vorher gelernten und in einem Referenzmusterspeicher abgespeicherten Worten. Es ist also-ein Lernvorgang erforderlich, der eine Sprecherabhängigkeit beinhaltet.
Sprecherunabhängige Geräte erhalten ihren Referenzmustersatz entweder durch Mittelung über die Sprechmuster einer Vielzahl von Sprechern - was für den einzelnen Sprecher zu einem Absinken der Erkennungsrate führt - oder bei einer endlichen Zahl von bekannten Sprechern durch Abspeicherung des Referenzmusters aller Sprecher, wodurch vor allem bei einer großen Anzahl von zu erkennenden Worten ein großer Speicherplatz benötigt wird. Die einzelnen Parameter eines Wortes werden aus dem Zeitverlauf des von einem Mikrofon abgegebenen Signals abgeleitet. Dies erfolgt beispielsweise durch eine Kurzzeitspektralanalyse und eine Anzahl weiterer Messungen, wie z.B. den Verlauf der Grundfrequenz, der Bestimmung stimmhafter und stimmloser Intervalle, dem Pegelverlauf, der Sprachpausen usw.
Zum "Laden" des Referenzmusterspeichers spricht jeder Sprecher jedes gewünschte Wort einige Male in das Eingabegerät, Die Mittelung der gewonnenen Parameter entweder über sämtliche Eingaben eines Sprechers oder über die Eingaben aller Sprecher zusätzlich einer Zeitnormierung (Wortanfang und Wortende werden erkannt und damit das Wort unabhängig von der Sprechweise in einen bestimmten Zeitrahmen gebracht) ergibt dann das Referenzmuster dieses Wortes. Die Referenzmuster aller Worte bilden den Referenzmustersatz. Im Erkennungsvorgang wird dann wiederum die bereits beschriebene Ermittlung der Parameter des eingesprochenen Wortes und eine Wortanfangs- und Wortendeerkennung vorgenommen.
Nach einer Zeitnormierung erfolgt ein Vergleich des aus dem eingesprochenen Wort gewonnenen und zeitnormierten Parametersatzes (Testmuster) und den im Referenzmusterspeicher vorliegenden Parametersätzen (Referenzmuster) aller Worte. Das dem ähnlichsten Referenzmuster entsprechende Wort wird als erkanntes Wort ausgegeben, wo- Wird das Wort richtig erkannt, dann wird aus einem Synthesespeicher dieses Wort ausgegeben und beim Sprecher hörbar gemacht. Ein solcher Synthesespeicher enthält alle mit dem System verarbeitbaren "gelernten" Worte und zwar nicht in Form eines gemittelten Parametersatzes wie z.B. dem entsprechenden Referenzmustersatz, sondern in Form eines einer möglichst systemgünstigen Eingabesprache entsprechenden Parametersatzes.
Wird das eingesprochene Wort richtig erkannt und quittiert, dann erfolgt die Auswertung desselben. Zum Beispiel kann die Nennung eines Namens die automatische Wahl der zugehörigen Teilnehmernummer bewirken. Ist das Eingabegerät eine Lautsprechstation, dann kann somit durch Einsprechen des Namens eine vollständige Telefonverbindung aufgebaut und ein entsprechendes Gespräch geführt werden, ohne daß eine mechanische Handhabung eines Gerätes notwendig war.
In dem dem erfindungsgemäßen Verfahren zugrundeliegenden Spracherkennungssystem geht man davon aus, daß in dem Synthesespeicher und dem Referenzmusterspeicher noch keinerlei Informationen abgespeichert sind, daß eine Vielzahl von Sprechern eingabeberechtigt sein sollen und daß zum "Laden" des Spracherkennungssystems eine Lernphase notwendig ist.
Das "Laden" erfolgt in der Weise, daß ein Sprecher wiederholt zur Bildung eines Referenzmusterwortes das entsprechende Wort einspricht. Dabei wird jeweils bei Erkennung des Wortes eine Quittierung in Form der Hörbarmachung dieses Wortes am Eingabegerät gegeben. Danach wird ein weiterer Sprecher die Eingabe des gleichen Wortes mehrmals vornehmen und auch hier werden mehr oder weniger Erkennungen bzw. Fehler registriert werden.
Führt man dies mit einer Reihe von Sprechern durch, und registriert dabei die Anzahl der Erkennungen, dann wird man einen Sprecher oder eine Gruppe von Sprechern auslesen können, deren Worteingabe am meisten systemgünstig war, d.h. bei deren Spracheingabe die meisten Erkennungsquittungen vorliegen. Wird man bei diesem Sprechen oder der Gruppe von Sprechern auch noch verschiedene Sprechweisen ausprobieren, dann wird man zu einer Optimalen Worteingabe kommen, mit der für dieses Wort die hochste Erkennungsrate zu erwarten ist. Diese Worteingabe gibt man dann als dem Wort zugeordnete fest eingespeicherte'Quittung" in den Synthesespeicher.
Bei jedem weiteren Einsprechen dieses Wortes durch einen beliebigen Sprecher erhält dieser bei Erkennung durch das System aus dem Synthesespeicher akustisch die optimale Wortaussprache, so daß es sich im Laufe der Zeit immer mehr an die optimale Aussprache anpassen wird. Der eigentliche Referenzmuster-Parametersatz wird wie oben beschrieben, durch die Mittelung der einzelnen Worteingaben einer Anzahl von unterschiedlichen Sprechern erzeugt.
Aus dem Vorstehenden geht hervor, daß es nach dem erfindungsgemäßen Verfahren in einfacher und wirtschaftlicher Weise möglich ist, bei einem sprecherunabhängigen Spracherkennungssystem eine hohe Erkennungsrate zu erreichen.
1 Patentanspruch

Claims

Patentanspruch Verfahren zur sprecherunabhängigen Erkennung von einzeln gesprochenen Worten in Fernmeldesystemen mit beispielsweise einem Fernsprechapparat zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem, welches unter anderem aus einem die einzelnen in einer Lernphase eingegebenen Worte in Parameterform als Referenzmuster enthaltenden Referenzmusterspeicher, aus einer die in einer Lernphase und in der späteren Arbeitsphase eingesprochenen Worte in einzelne wortcharakteristische Parameter zerlegenden Aufbereitungseinheit und einem angeschlossenen die zu erkennenden Worte in Parameterform gespeichert enthaltenden und als Quittung bei Erkennung eines Wortes das entsprechende Wort aus seinem Speicher akustisch wiedergebenden elektronischen Sprachsynthesesystem besteht und wobei in der Lernphase des Erkennungssystems das einzelne Wort zur Bildung des Referenzmusters- mehrmals von verschiedenen Personen eingesprochen wird, d a d u r c h g e k e n n z e i c h n e t , daß in der Lernphase nach jedem mehrmaligen Einsprechen des einzelnen Wortes durch die einzelnen Personen eine Erkennungsrate jeder Person festgehalten wird und daß das eingesprochene Wort der Person mit der höchsten Erkennungsrate in den Speicher des Synthesesystems eingegeben und zur späteren akustischen Quittungsgabe benUtzt wird.