DE3129353A1

DE3129353A1 - Method for speaker-independent recognition of spoken words in telecommunications systems

Info

Publication number: DE3129353A1
Application number: DE19813129353
Authority: DE
Inventors: Werner Dipl.-Ing. 8000 München Liegl
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1981-07-24
Filing date: 1981-07-24
Publication date: 1983-02-10

Abstract

The invention relates to a method for speaker-independent recognition of individual words from a provided word set in telecommunications systems with the aid of an electronic speech recognition system which essentially comprises a synthesis system which reproduces the words, a processing unit which splits spoken words up into parameters and a reference pattern memory containing reference patterns allocated to the words, a specific number of the individual words being spoken by a plurality of persons in the so-called learning phase. The intended object of the invention is to keep the recognition rate of the recognition device as high as possible despite the largest possible number of different speaking persons. The object is achieved in that every word which is spoken by a trainee and recognised is replicated by the synthesis system and reproduced in the learning phase to form the reference pattern. This allows the trainee to get used to the "machine language" and to adapt his mode of speech to it, thereby enabling more frequent recognition of the words by the recognition system.

Description

Verfahren zur sprecherunabhängigen Erkennung vonMethod for speaker-independent recognition of

gesprochenen Worten in Fernmeldesystemen.spoken words in telecommunications systems.

Die Erfindung betrifft ein Verfahren zur sprecherunabhängigen Erkennung von einzelnen gesprochenen Worten aus einer vorgegebenen Wortmenge in Fernmeldesystemen mit einer Teilnehmervorrichtung zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem, welches unter anderem aus einem alle einzelnen Worte in Parameterform enthaltenden und diese Worte bei Abru-f einzeln hörbar abgebenden Synthesesystem, aus einer die in einer Lernphase eingesprochenen Worte in Parameter zerlegenden Aufbereitungseinheit und aus einem die-nach Abschluß der Lernphase gebildeten Referenzmuster der einzelnen Worte enthaltenden Referenzmusterspeicher besteht und wobei in der Lernphase jedes einzelne Wort zur Bildung des Referenzmusters in bestimmter Anzahl, aber immer von einer anderen Person eingesprochen wird.The invention relates to a method for speaker-independent recognition of individual spoken words from a given set of words in telecommunications systems with a subscriber device for entering the words to be recognized and a downstream device electronic speech recognition system, which, among other things, consists of an all individual Containing words in parametric form and emitting these words individually audibly on Abru-f Synthesis system, from one the words spoken in a learning phase into parameters decomposing processing unit and from one which is formed after the learning phase has been completed There is reference pattern of the reference pattern memory containing the individual words and whereby in the learning phase each individual word for the formation of the reference pattern in certain Number, but is always spoken by another person.

Soll eine Spracherkennung durch ein obengenanntes System von der Person des Sprechers unabhängig sein, dann muß in der Lernphase, in der die Sprecher die einzelnen Worte und Befehle in das Spracherkennungssystem eingeben; Jeder Sprecher einmal oder mehrmals das bestimmte Wort in das System eingeben, wobei dieses Wort in geeignet ausgewählte Parameter zerlegt wird. Anschließend wirdeüber die einzelnen Eingaben des Wortes gemittelt, so daß sich ein sprecherunabhängiges Referenzmuster ergibt. Die auf diese Weise erhaltenen Referenzmuster der zu erkennenden Worte werden in einem Referenzmusterspeicher abgespeichert.Should a speech recognition through an above-mentioned system from the person of the speaker must be independent, then in the learning phase, in which the speakers the enter individual words and commands into the speech recognition system; Any speaker Enter the specific word into the system one or more times, taking that word is broken down into suitably selected parameters. Then it will be about the individual Inputs of the word averaged, so that a speaker-independent reference pattern results. The reference patterns of the words to be recognized thus obtained become stored in a reference pattern memory.

In der Erkennungsphase wird ein gesprochenes Wort in Parameter zerlegt und das daraus gebildete Testmuster mit allen abgespeicherten Referenzmustern verglichen.In the recognition phase, a spoken word is broken down into parameters and the test pattern formed therefrom is compared with all stored reference patterns.

Uberschreitet ein als Ähnlichkeitsmaß für äedes.Referenzmuster gebildeter Zahlenwert eine vorgegebene Schwelle, so gilt das mit diesem Referenzmuster verbundene Wort als erkannt. Ist diese Schwelle bei allen Referenzmustern unterschritten, dann erfolgt eine Fehlermeldung (Nichterkennung) (Ruske, G.: Automatische Erkennung gesprochener Sprache Proc. DAG A"80, VDE-Verlag 1980, Seite 61 bis 72; Zwicker, E; Daxer, W.: Erkennung von 14 isoliert gesprochenen Worten in einem kompakten Gerät mit Mikroprozessor a.a.O, Seiten 731 bis 734).Exceeds a reference pattern formed as a measure of similarity for aeedes If a numerical value exceeds a predetermined threshold, then the one associated with this reference pattern applies Word recognized. If this threshold is not reached for all reference patterns, then an error message occurs (non-recognition) (Ruske, G .: Automatic recognition of spoken words Language proc. DAG A "80, VDE-Verlag 1980, pages 61 to 72; Zwicker, E; Daxer, W .: Recognition of 14 isolated spoken words in a compact device with a microprocessor loc. cit., pages 731 to 734).

Mit steigender Anzahl von unterschiedlichen Sprechern wird sich bei der Mitteilung ein Referenzmuster mit immer weniger scharfer Wortcharakteristik ergeben, so daß die nicht unterschreitbare Ähnlichkeitsschwelle immer höher angesetzt werden muß. Dadurch werden immer mehr eingesprochene Worte als nicht erkennbar von dem Erkennungssystem zurückgewiesen.As the number of different speakers increases, the communication a reference pattern with less and less sharp word characteristics result, so that the similarity threshold, which cannot be fallen below, is always set higher must become. As a result, more and more words are spoken as not recognizable by rejected by the detection system.

Die Aufgabe der Erfindung soll nun darin bestehen, ein einfaches Verfahren zu finden, mit dem ohne großen Aufwand bei einem sprecherunabhängigen System die Erkennungsrate angehoben werden kann.The object of the invention is now to be a simple method to find, with the without much effort in a speaker-independent system the Detection rate can be increased.

Dies erfolgt nach dem erfindungsgemäßen Verfahren dadurch, daß in der Lernphase zur Bildung des Referenzmusters eines jeden Wortes nach Einsprechen des entsprechenden Wortes durch eine Trainingsperson nach Erkennen des Wortes durch das Erkennungssystem das entsprechende vom Synthesesystem produzierte Wort hörbar ist.This is done according to the method according to the invention in that in the learning phase to form the reference pattern of each word after speaking of the corresponding word by a training person after recognizing the word the recognition system audibly the corresponding word produced by the synthesis system is.

Hieraus ergibt sich der Vorteil, daß sich, bedingt durch einen Lerneffekt, die einzelnen nachfolgenden das bestimmte Wort einsprechenden Personen in ihrer Sprechweise an die Sprechweise-des quittierenden Synthesesystems anpassen. Diese Synthesesprache bildet gewissermaßen ein 'tSprechnormal", das die Benutzer an eine für das Erkennungssystem günstige Sprechweise heranführt.This has the advantage that, due to a Learning effect, the individual subsequent people speaking the specific word adapt their speech to the speech of the acknowledging synthesis system. This synthesis language forms, so to speak, a 'speaking standard' that the user introduces a manner of speaking that is favorable for the recognition system.

Den größten Nutzen aus dem erfindungsgemäßen Verfahren zieht man dann, wenn man vor der Lernphase des Systems den Trainingssprechern die einzelnen Syntheseworte zu Gehör bringt und so dafür sorgt, daß ein Referenzmuster möglichst viel Ähnlichkeit" mit dem entsprechenden Synthesewort hat. Diese"Ähnlichkeit" erstreckt sich auf die von Sprecher zu Sprecher verschiedenen SprecheigentUmlichkeiten wie Betonung, Grundfrequenzverlauf, Sprechgeschwindigkeit-, Lautstärke, - Verschlucken von Vokalen und verschiedene (umgangssprachlich gefärbte) Aussprechmöglichkeiten.The greatest benefit from the process according to the invention is then obtained if you give the training speakers the individual synthesis words before the learning phase of the system to be heard and thus ensures that a reference pattern is as similar as possible " with the corresponding synthesis word. This "similarity" extends to the Different speech characteristics from speaker to speaker such as accentuation, fundamental frequency curve, Speech rate, volume, swallowing of vowels and various (colloquial colored) pronunciation options.

Zum besseren Verständnis des erfindungsgemäßen Verfahrens soll eine kurze Beschreibung eines die menschliche Sprache erkennenden Systems erfolgen.For a better understanding of the method according to the invention, a brief description of a system that recognizes human language.

Ein elektronisches Spracherkennungssystem analysiert die akustischen Parameter eines gesprochenen Wortes und vergleicht diese mit den Parametern von vorher "gelernten" und in einem Referenzmusterspeicher abgespeicherten Worten. Es ist also ein Lernvorgang erforderlich, der eine Sprecherabhängigkeit beinhaltet, Sprechunabhängige Geräte erhalten ihren Referenzmustersatz entweder durch Mitteilung über die Sprechmuster einer Vielzahl von Sprechern - was für den. einzelnen Sprecher zu einem Absinken der Erkennungsrate führt -oder bei einer endlichen Zahl von bekannten Sprechern durch Abspeicherung der Referenzmuster aller Sprecher, wodurch vor allem bei einer größeren Anzahl von zu erkennenden Worten ein großer Speicherplatz benötigt wird.An electronic speech recognition system analyzes the acoustic Parameters of a spoken word and compares them with the parameters of words previously "learned" and stored in a reference pattern memory. It So a learning process is required that includes speaker dependency, Speech-independent devices receive their reference pattern set either by notification about the speaking patterns of a multitude of speakers - what for. individual speaker leads to a decrease in the recognition rate -or with a finite number of known ones Speakers by storing the reference pattern of all speakers, which above all requires a large amount of storage space for a large number of words to be recognized will.

Die einzelnen Parameter eines Wortes werden aus dem Zeitverlauf des von einem Mikrophon abgegebenen Signals abgeleitet. Dies erfolgt beispielsweise durch eine Kurzzeitspektralanalyse und eine Anzahl weiterer Messungen, wie z.B. der Messung von Verlauf der Grundfrequenz, der Bestimmung stimmhafter und stimmloser Intervalle, dem Pegelverlauf und den Sprachpausen.The individual parameters of a word are taken from the time course of the derived from a microphone emitted signal. This is done for example by a short-term spectral analysis and a number of other measurements, e.g. the measurement of the course of the fundamental frequency, the determination of voiced and unvoiced Intervals, the level curve and the speech pauses.

Zum"Laden" des Referenzmusterspeichers spricht jeder Sprecher jedes gewünschte Wort einige Male in das Eingabegerät. Die Mitteilung der gewonnenen Parameter entweder über sämtliche Eingaben eines Sprechers oder über die Eingaben aller Sprecher zusätzlich einer Zeitnormierung (Wortanfang und Wortende werden erkannt und damit das Wort unabhängig von der Sprechweise in einen bestimmten Zeitrahmen gebracht) ergibt dann das Referenzmuster dieses Wortes. Die Referenzmuster aller Worte bilden den Referenzmustersatz. Im Erkennungsvorgang wird dann wiederum die bereits beschriebene Ermittelung der Parameter des eingesprochenen Wortes und eine Wortanfangs- und Wortendeerkennung vorgenommen.To "load" the reference pattern memory, each speaker speaks each other desired word a few times into the input device. Communication of the parameters obtained either via all inputs of a speaker or via the inputs of all speakers additionally a time standardization (beginning and end of word are recognized and thus brought the word into a certain time frame regardless of the way it is spoken) then gives the reference pattern of this word. Form the reference patterns of all words the reference sample set. The one already described is then used again in the recognition process Determination of the parameters of the spoken word and recognition of the beginning and end of a word performed.

Nach einer Zeitnormierung erfolgt ein Vergleich des aus dem eingesprochenen Wort gewonnenen und zeitnormierten Parametersatzes (Testmuster) mit den im Referenzmusterspeicher vorliegenden Parametersätzen (Referenzmuster) aller Worte. Das mit dem ähnlichsten Referenzmuster verbundene Wort wird als erkanntes Wort ausgegeben, wobei ein bestimmter Ähnlichkeitswert überschritten werden muß. Ist dies nicht möglich, dann wird auf "Fehler" erkannt. Bei Erkennen der Ausgabe "Fehler" kann dann der Sprecher das gewollte Wort erneut einsprechen. Wird das Wort richtig erkannt, dann erfolgt die Auswertung desselben. Zum Beispiel bewirkt die Nennung eines Namens die automatische Wahl der zugehörigen Teilnehmernummer. Ist das Eingabegerät eine Lautsprechstation, dann kann somit durch Einsprechen des Namens eine vollständige Telefonverbindung aufgebaut werden.After a time normalization, a comparison is made of the spoken word Word obtained and time-normalized parameter set (test pattern) with those in the reference pattern memory existing parameter sets (reference samples) of all words. The one with the closest Reference pattern linked word is output as a recognized word, with a certain Similarity value must be exceeded. If this is not possible, then it will open "Error found. If the output "error" is recognized, the speaker can then do what he wants Speak the word again. If the word is recognized correctly, the evaluation takes place same. For example, giving a name causes the automatic selection of the associated participant number. If the input device is a loudspeaker station, then A complete telephone connection can thus be established by speaking the name will.

In dem dem erfindungsgemäßen Verfahren zugrunde liegenden sprecherunabhängigen System geht man davon aus, daß es sich um ein System mit einem beispielsweise im Handel käufliches Synthesesystem handelt, in dem für einen ganz bestimmten Wortschatz die Parameter für die Synthese dieser Worte abgespeichert sind. Diese Worte sind über das Eingabegerät (Fernsprechapparat) abhörbar. In der auch hier notwendigen Lernphase wird von mehreren Sprechern das gewünschte Wort eingesprochen.In the speaker-independent on which the method according to the invention is based System is assumed to be a system with an im Trade commercial synthesis system, in which for a very specific vocabulary the parameters for the synthesis of these words are stored. These words are can be listened to via the input device (telephone). In the one that is also necessary here During the learning phase, several speakers speak the desired word.

Dabei wird beispielsweise nach dem ersten Einsprechen eines Sprechers und nach Erkennen des Wortes durch das System das gleiche Wort aus dem Systemspeicher angefordert. Dieses Wort ertönt in Systemsprache, so wie es ursprünglich bei der Fertigung als am klarsten erkennbar für das System eingegeben wurde. Die weiteren Sprecher können sich nach Mithören auf diese Sprache einstellen und sich in ihrer Ausdrucksweise angleichen.-Das Wort in der Systemsprache kann jeweils erneut abgehört werden. Wird -letztlich aus dem Einsprechen aller Sprecher und einer Mittelung im Referenzmusterspeicher der entsprechende Referenzmusterparametersatz abgespeichert, dann wird dieser weitgehend durch die Systemsprache beeinflußt und dem entsprechenden Parametersatz der Systemsprache angeglichen sein. Hieraus ergibt sich bei Beibehaltung der gelernten Sprechweise seitens der Sprecher eine systemgünstige Worteingabe und eine entsprechend hohe Erkennungsrate.For example, after a speaker has spoken for the first time and upon recognition of the word by the system, the same word from the system memory requested. This word sounds in system language, as it was originally with the Manufacturing was entered as most clearly recognizable to the system. The others After listening in, speakers can adjust to this language and feel in their Adjust wording.-The word in the system language can be listened to again each time will. Will ultimately result from the speaking of all speakers and averaging in the Reference pattern memory the corresponding reference pattern parameter set is stored, then this is largely influenced by the system language and the corresponding one The parameter set must be adapted to the system language. This results in retention the language learned on the part of the speaker a system-friendly word input and a correspondingly high recognition rate.

Aus dem Vorstehenden geht hervor, daß es nach dem erfindungsgemäßen Verfahren in einfacher und wirtschaftlicher Weise möglich ist, bei einem sprecherunabhängigen Spracherkennungssystem eine erhöhte Erkennungsrate zu erzielen.From the above it appears that it is according to the invention Procedure in a simple and economical way is possible with a speaker independent Speech recognition system to achieve an increased recognition rate.

1 Patentanspruch1 claim

Claims

Method for speaker-independent recognition of individuals spoken words from a given set of words in telecommunications system with a Subscriber device for entering the words to be recognized and a downstream electronic speech recognition system, which, among other things, consists of all individual Containing words in parameter form and emitting these words individually audibly when called up Synthesis system, from one the words spoken in a learning phase into parameters decomposing processing unit and from one the one formed after completion of the learning phase There is reference pattern of the reference pattern memory containing the individual words and whereby in the learning phase the individual word for the formation of the reference pattern in certain Number, but is always spoken by another person, d u r c h g e k e n n n z e i c h n e t that in the learning phase for the formation of the reference pattern of a each word after speaking the corresponding word. by a training person after the word has been recognized by the recognition system, the corresponding one from the synthesis system produced word is audible.