DD218969A1

DD218969A1 - ARRANGEMENT FOR FORMING SENSE GROUPS

Info

Publication number: DD218969A1
Application number: DD25118583A
Authority: DD
Inventors: Karl-Heinz Affa
Original assignee: Affa Karl Heinz
Priority date: 1983-05-24
Filing date: 1983-05-24
Publication date: 1985-02-20

Abstract

Anordnung zur Bildung von Sprechergruppen, insbesondere fuer automatische Spracherkennungssysteme, durch die Bildung von Mittelwertfunktionen. Die Aufgabe der Erfindung besteht darin, die zwischen den einzelnen Sprechern bestehenden unterschiedlichen Aehnlichkeitsbeziehungen zu nutzen, um Gruppen von Sprechern zu schaffen. Erfindungsgemaess wird die Aufgabe dadurch geloest, dass die Sprachsignale jedes Sprechers von einer Signalquelle, einem Mikrofon oder Magnetband ueber eine Kettenschaltung, bestehend aus einem Vorverstaerker, einem Preemphasis-Filter, einer aus einem System von Bandpaessen aufgebauten Filterbank, einem Analogmultiplexer und einem Analog-Digital-Umsetzer in Form eines 8 bit Datenwortes an den Digitalrechner uebertragen werden. Ueber einen definierten Zeitraum werden die Amplitudenwerte kanalweise aufsummiert und abschliessend auf die Anzahl der betrachteten Zeitfenster normiert. Das so entstandene Mittelwertspektrum wird in einem externen Speicher geladen. Aus den gespeicherten Mittelwertspektren von N untersuchten Sprechern wird eine Aehnlichkeitsmatrix ermittelt und dazu als Aehnlichkeitsmass die City-Block-Distanz, der Euklidische Abstand oder andere bekannte Abstandsmasse verwendet. Die Sprechergruppen werden in einer folgenden Stufe gebildet. Dazu wird zeilenweise jedes Abstandsmass in einer weiteren Stufe mit einer Aehnlichkeitsschwelle verglichen. Fig. 4Arrangement for forming speaker groups, in particular for automatic speech recognition systems, by forming mean value functions. The object of the invention is to use the different similarity relationships existing between the individual speakers in order to create groups of speakers. According to the invention, the object is achieved in that the speech signals of each speaker from a signal source, a microphone or magnetic tape via a chain circuit consisting of a preamplifier, a preemphasis filter, a built-up from a system of band pass filter bank, an analog multiplexer and an analog-digital Translators in the form of an 8-bit data word to be transferred to the digital computer. Over a defined period of time, the amplitude values are added up channel by channel and finally normalized to the number of time windows considered. The resulting mean value spectrum is loaded into an external memory. From the stored average spectra of N speakers examined, a similarity matrix is determined, using as a measure of similarity the city block distance, the Euclidean distance or other known distance mass. The speaker groups are formed in a subsequent stage. For this purpose, each distance measure is compared line by line in a further step with a similarity threshold. Fig. 4

Description

Anordnung zur Bildung von Sprechergruppen, insbesondere für automatische Spracherkennungssysteme, durch die Bildung von Mittelwertfunktionen.Arrangement for forming speaker groups, in particular for automatic speech recognition systems, by the formation of mean value functions.

Elemente der Erfindung können in Sprecheridentifikationssystemen und Sprecherverifikationssystemen verwendet werden.Elements of the invention may be used in speaker identification systems and speaker verification systems.

Characteristic of the known technical solutions

Die ersten Forschungen auf dem Gebiet der automatischen Spracherkennung gehen bis in die 50er Jahre zurück. Seit dieser Zeit sind eine Vielzahl von automatischen Erkennungssystemen bekannt geworden, die unter Heranziehung fast ebenso vieler Sprachmerkmale mehr oder weniger zuverlässige Erkennungsergebnisse erzielen.The first research in the field of automatic speech recognition date back to the 1950s. Since that time, a variety of automatic recognition systems have become known which achieve more or less reliable recognition results using nearly as many speech features.

(HOIMGREET, G.L.ι Speaker Recognition, Speech Charakteristics, Speech Evaluation and Modification of Speech Signals - A Selected Bibliography(HOIMGREET, G.L. Speaker Recognition, Speech Characteristics, Speech Evaluation and Modification of Speech Signals - A Selected Bibliography

in: IEEE Transactions of Audio and Electroacoustics, 1966, S. 32 - 39).in: IEEE Transactions of Audio and Electroacoustics, 1966, p. 32-39).

Dabei tritt die Individualität der menschlichen Sprache von Anfang an als Störfaktor in Erscheinung. Um diesem Sachverhalt Rechnung zu tragen, wurden bisher eine Reihe von Einschränkungen notwendig.At the same time, the individuality of human language appears as a disruptive factor from the beginning. In order to take this into account, a number of restrictions have been necessary so far.

Die gegenwärtig realisierten automatischen Spracherkennungssysteme verwenden vorwiegend Worte als kleinste zu erkennende Einheiten (Einzelworterkenner). Dabei existieren noch Systeme , deren kleinste zu erkennende Einheiten Silben oderThe currently implemented automatic speech recognition systems mainly use words as the smallest recognizable units (single word connoisseurs). There are still systems whose smallest units to recognize syllables or

Phoneme darstellen.Represent phonemes.

Die erwähnten Einschränkungen, die durch die Sprecherindividualität der menschlichen Sprache bedingt sind, führten bei der Entwicklung der Einzelwörterkenner zu zwei Grundrichtungen: . 'The limitations mentioned, which are due to the speaker individuality of the human language, led to the development of the individual word connoisseurs in two basic directions:. '

1. Pur jeden, das Spracherkennungssystem benutzenden Sprecher wird ein gesonderter Referenzdatensatz gebildet. Dabei ist es notwendig, daß für jeden Sprecher der vollständige Lernzyklus abgearbeitet werden muß. Bevor ein neuer Sprecher an das System herantritt, wird zuerst der1. Purely each speaker using the speech recognition system is formed a separate reference data set. It is necessary that for each speaker the complete learning cycle must be processed. Before a new speaker comes to the system, first the

; für ihn gültige Referenzdatensatz ausgewählt. Diese Referenzdatenwahl kann automatisch (über die automatische Sprechererkennung.) erfolgen oder sie kann dem Erkennungssystem über ein Bedienpult· mitgeteilt werden. Der Nachteil dieses Verfahrens besteht darin, daß für jeden das System benutzenden Sprecher ein vollständiger Referenzdatensatz ermittelt werden muß. Das erfordert einen relativ großen Aufwand, da der Rechenzeitbedarf für die Anlernphase in der Regel um ein Vielfaches höher liegt als für die Erkennungsphase.; selected for him reference record. This reference data selection can be done automatically (via the automatic speaker recognition.) Or it can be communicated to the recognition system via a control panel. The disadvantage of this method is that a complete reference data set must be determined for each speaker using the system. This requires a relatively large effort, since the computing time required for the learning phase is usually higher by a multiple than for the detection phase.

(US-PS 3261916 \(US-PS 3261916)

LIEK, W·: Die Erkennung von Sprache durch elektronische SystemeLIEK, W ·: The recognition of speech by electronic systems

in: Nachrichten-Elektronik, 1978, Heft 9).in: News Electronics, 1978, No. 9).

\ \

2. Bei diesem Verfahren wird ein gemeinsamer Referenzdatensatz für alle Sprecher gebildet· TJm die unterschiedlichen Sprechereigenarten berücksichtigen zu können, ist es deshalb notwendig, für jedes Wort mehrere Referenzmuster zu speichern. Dadurch vergrößert sich der Speicherplatzbedarf notwendigerweise um ein Vielfaches gegenüber dem ersten Verfahren. Um diesen Aufwand zumindest teilweise reduzieren zu können, werden mit Hilfe von Clusterverfahren Repräsentanten von Referenzworten mit gleicher Wortbedeutung gebildet. Der Speicherplatzbedarf bleibt jedoch weiterhin relativ hoch. Dadurch, daß die Anzahl der Referenzworte gegenüber dem ersten Verfahren um ein Vielfaches höher liegt, erhöht sich auch die Erkennungszeit.2. In this method, a common reference data set is formed for all speakers. In order to be able to take account of the different speaker types, it is therefore necessary to store a plurality of reference patterns for each word. As a result, the storage space requirement necessarily increases by a multiple compared to the first method. In order to be able to reduce this effort at least partially, representatives of reference words with the same meaning of words are formed with the aid of cluster methods. However, the storage space requirement remains relatively high. The fact that the number of reference words compared to the first method is many times higher, also increases the detection time.

(DE-OS 2240557(DE-OS 2240557

SCOTT, P.B.: VICI-A Speaker Independent Word Recognition System in: Int. Conf. on ASSP, 1976,. S. 210 - 213).SCOTT, P.B .: VICI-A Speaker Independent Word Recognition System in: Int. Conf. on ASSP, 1976 ,. Pp. 210-213).

Die Anzahl der zu verarbeitenden Worte und Sprecher wird durch den zur Verfügung stehenden Speicherplatz für die Speicherung der Referenzdaten bestimmt. Darüber hinaus muß noch die Möglichkeit bestehen, den eigentlichen Erkennungsprozeß in relativ kurzer Zeit (möglichst Echtzeit) durchzuführen. Das bedeutet also, daß ohne wesentliche Vergrößerung des Speicherplatzes eine Erhöhung der Sprecherzahl gleichzeitig eine Verringerung der Zahl der zu erkennenden Worte zur Folge hat. Ebenso zieht eine Erhöhung der Zahl der zu erkennenden Worte notgedrungen eine Verringerung der Sprecherzahl nach sich. Da der in einem Digitalrechner zur Verfugung stehende Speicherplatz derzeit noch sehr begrenzt und darüber hinaus auch noch relativ teuer ist, wirken sich die genannten Einschränkungen ungünstig auf eine breitere Anwendung aus. -The number of words and speakers to be processed is determined by the available memory space for storing the reference data. In addition, there must still be the possibility to perform the actual recognition process in a relatively short time (possibly real time). This means that without a significant increase in memory space, an increase in the number of speakers simultaneously results in a reduction in the number of words to be recognized. Likewise, an increase in the number of words to be recognized inevitably entails a reduction in the number of speakers. Since the storage space available in a digital computer is currently very limited and, moreover, relatively expensive, the limitations mentioned adversely affect a broader application. -

Bestrebungen, diese Fachteile durch eine geeignete Merkmalvektornormierung oder Merkmalvektortransformation zu kompensieren, stecken noch in den Anfängen und sind bisher von keinem Erfolg gekrönt.Attempts to compensate these specialized parts by means of a suitable feature vector normalization or feature vector transformation are still in their infancy and have hitherto been unsuccessful.

(VIHCZJUE, T.K·; KULIAS, Α·Ι.: Sadaca podstrojki,(VIHCZJUE, T.K ·; KULIAS, Α · Ι .: Sadaca podstrojki,

pod diktora pri raspoznavanii recipod diktora pri raspoznavanii reci

in: OBRABOTKA I RASPOZHAVAHIE SIGHAXOV, Kiew, 1975in: OBRABOTKA I RASPOZHAVAHIE SIGHAXOV, Kiev, 1975

RAMISHVILI, G.S.i Recevoj signal i individualnost golosa Isdatjelstwo "Mezniereba", Tbilissi, 1976).RAMISHVILI, G.S. Recevoj signal i individualnost golosa Isdatjelstvo "Mezniereba", Tbilisi, 1976).

Den bisherigen Lösungen haftet der Mangel an, daß bei konstanter Größe des Hauptspeichers eine Erhöhung der Sprechern -zahl nur durch eine Reduzierung der Anzahl der zu erkennenden Worte möglich ist. Zum anderen hat eine Vergrößerung der Zahl.der zu erkennenden Worte eine Verringerung der Sprecherzahl zur Folge.The previous solutions are liable to the deficiency that with a constant size of the main memory an increase in the number of speakers is possible only by reducing the number of words to be recognized. On the other hand, an increase in the number of words to be recognized results in a reduction in the number of speakers.

Object of the invention

Das Ziel der Erfindung ist es, daß ohne eine nennenswerte Vergrößerung des notwendigen Speicherplatzbedarfes des Hauptspeichers eine gpößei^e Anzahl von Sprechern mit dem auto"-The aim of the invention is that without a significant increase in the necessary storage space requirement of the main memory a gpossi ^ e number of speakers with the car "-

- 4 matischen Spracherkennungssystem arbeiten können.- 4 matic speech recognition system can work.

Darlegung des Wesens der, Erfindung Explanation of the essence of , invention

Die Aufgabe der Erfindung besteht darin, die zwischen den einzelnen Sprechern bestehenden unterschiedlichen Ähnlichkeitsbeziehungen zu nutzen, um Gruppen von Sprechern zu- schaffen, die sich dadurch auszeichnen, daß sich die Mitglieder einer Sprechergruppe hinsichtlich ihrer zur Sprecherkennung verwendeten Sprachmerkmale ähnlich sind. ' Erfindungsgemäß wird die Aufgabe dadurch gelöst, daß die Sprachsignale jedes Sprechers von einer Signalquelle, einem Mikrofon oder Magnetband über eine Kettenschaltung, bestehend aus einem Vorverstärker, einem Preemphasis-Filter, einer aus einem System von Bandpässen aufgebauten Filterbank, einem Analogmultiplexer und einem Analog-Digital-Umsetzer in Form eines 8 bit Datenwortes, an den Digitalrechner übertragen wer-/den. Über einen definierten Zeiträum,werden die Amplitudenwerte kanalweise aufsummiert und abschließend auf die Anzahl der betrachteten Zeitfenster normiert· Für das' so entstandene Mitte lwertspekt rum von IT untersuchten Sprechern wird eine Ähnlichkeitsmatrix ermittelt und dazu als Ähnlichkeitsmaß die City-Block-Distanz, der Euklidische Abstand oder andere bekannte Abstandsmaße verwendet. ,The object of the invention is to use the different similarity relationships existing between the individual speakers in order to create groups of speakers which are distinguished by the fact that the members of a speaker group are similar in their speech characteristics used for the speech recognition. According to the invention, the object is achieved in that the speech signals of each speaker from a signal source, a microphone or magnetic tape via a chain circuit consisting of a preamplifier, a preemphasis filter, a built-up of a system of bandpass filter bank, an analog multiplexer and an analogue Digital converter in the form of an 8-bit data word to which digital computers are transferred. Over a defined period of time, the amplitude values are added channel by channel and then normalized to the number of time windows considered. A similarity matrix is determined for the resulting center lumpsum of IT speakers and the city block distance, the Euclidean distance, as a similarity measure or other known pitch dimensions. .

Die Sprechergruppen werden in einer folgenden Stufe gebildet. Dazu wird zeilenweise ^edes Abstandsmaß in einer weiteren Stufe mit einer Ärmlichkeitsschwelle verglichen. Alle Indizes der Abstandsmaße, welche die Ähnlichkeitsschwelle unterschreiten, werden an eine Stufe zur Ausgabe der Sprechernummern der ermittelten Sprechergruppen weitergegeben, in aufsteigender Folge sortiert und ausgegeben. In automatischen Spracherkennungssystemen erfolgt in einer weiteren Stufe die Bildung eines MittelwertSpektrums zur Vorauswahl des zur Klassifikation verwendeten Referenzdatensatzes. In einem externen Speicher ist dazu eine Auswahl von Referenzdatensätzen unterschiedlicher Sprechertypen gespeichert. In die Mittelwertbildung, werden alle vorher gesprochenen Erkennungseinheiten einbezogen. Nach Jedem gesprochenen Wort wird überprüft, ob die getroffene Referenzdatenauswahl noch gültig ist. Ein neuer Re-The speaker groups are formed in a subsequent stage. For this purpose, each distance measure is compared in a further stage with a poor threshold. All indices of the distance measures which fall below the similarity threshold are passed on to a stage for outputting the speaker numbers of the determined speaker groups, sorted in ascending order and output. In automatic speech recognition systems, the formation of a mean value spectrum for pre-selection of the reference data set used for the classification takes place in a further stage. In an external memory, a selection of reference data sets of different speaker types is stored for this purpose. In averaging, all previously spoken recognition units are included. After each spoken word, it is checked whether the reference data selection made is still valid. A new review

ferenzdatensatz wird in den Hauptspeicher geladen, wenn dieser die Ähnlichkeitsbedingungen besser erfüllt.The reference data set is loaded into main memory if it better satisfies the similarity conditions.

Zur Bildung von Sprechergruppen werden als Sprachmerkiaale Merkmal vektorfolgen von Amplitudenhistogrannnen, liulldurch-' gangsfunktionen und LPC-Analysefunktiqnen verwendet.To form speaker groups, characteristic vector sequences of amplitude histograms, zero crossing functions and LPC analysis functions are used as speech features.

Bei der Benutzung eines automatischen Spracherkennungssysteins durch einen Premdsprecher wird aus vorliegenden Sätzen von Referenzdaten derjenige Datensatz zur Erkennung herangezogen, der mit hoher Sicherheit das'beste Erkennungsergebnis liefert.When an automatic speech recognition system is used by a first-grade speaker, the set of reference data that is used is that record which provides the best recognition result with high reliability.

Ausführungsbeispiel ' ..' '' Embodiment '..'''

Die Erfindung soll nachstehend an einem Ausführungsbeispiel näher erläutert werden. . . , The invention will be explained in more detail below using an exemplary embodiment. , , .

In der zugehörigen Zeichnung zeigen: , ^l , In the accompanying drawings:, ^l,

Pig. 1: Blockschaltbild der Anordnung zur Bildung . von SprechergruppenPig. 1: Block diagram of the arrangement for formation. of speaker groups

Pig. 2: Mittelwertspektrum eines weiblichen und eines männlichen Sprechers .Pig. 2: Mean spectrum of a female and a male speaker.

Pig.· 3'· - Prinzip der Sprechergruppenbildung allgemeinPig. · 3 '· - Principle of speaker group formation in general

Pig. 4: Prinzip der Sprechergruppenbildung in einem automatischen SpracherkennungssystemPig. 4: Principle of speaker group formation in an automatic speech recognition system

Den Ausgangspunkt für* die Bildung von Sprechergruppen bilden Mittelwertfunktionen von verschiedenen Sprechern. Diese Mittelwertfunktionen werden durch komponentenweise Mittelung von Parameterftmktlonen gebildet. Dabei müssen die Parameterfunktionen als Yektorfolgen konstanter Komponentenzahl darstellbar sein· Diese Bedingungen erfüllen ζ. B. Pilterspektren, Hulldurchgangsfunktionen, Amplituden- bzw. Pegelhistogramme und iPC-Koeffizienten.The starting point for * the formation of speaker groups form mean value functions of different speakers. These mean value functions are formed by component averaging of parameter terms. In this case, the parameter functions must be representable as Yektorfolgen constant number of components · These conditions meet ζ. B. Pilter spectra, Hulldurchgangsfunktionen, amplitude or level histograms and iPC coefficients.

Die Verwendung von Pilterspektren zur automatischen Spracherkennung ist sehr weit verbreitet. In diesem Pail werden Mittelwertspektren zur Ermittlung der Sprechergruppen herangezogen. In Pig. 1 wird eine Anordnung gezeigt, mit der Mittelwertspektren unterschiedlicher Sprecher gebildet werden können. Die Sprachsignale jedes Sprechers gelangen von einer Signalquelle 1 (Mikrofon^ Magnetband o. dgl.) über einen Vor-The use of patter spectra for automatic speech recognition is very widespread. In this Pail mean value spectra are used to determine the speaker groups. In Pig. 1, an arrangement is shown with which average value spectra of different speakers can be formed. The speech signals of each speaker come from a signal source 1 (microphone ^ magnetic tape o.

verstärker 2 ,auf ein Preemphasis-Filter 3· Dieses Filter bewirkt eine Höhenanhebung des Sprachsignals um etwa.6'- 12 dB pro Oktave, um dem bei der Sprache typischen Amplitudenabfall zu hohen Frequenzen hin entgegenzuwirken. Danach gelangt das Sprachsignal zur Parallelfilterbank 4· Diese Parallelfilterbank besteht aus einem System von Bandpässen. Die Untersuchungen wurden mit einer 20kanaligen Filterbank durchgeführt, die die nachfolgend angegebenen Grenzfrequenzen und Mittelfrequenzen besitzen. 'amplifier 2, to a pre-emphasis filter 3 · This filter raises the speech signal by about 6'-12 dB per octave, to counteract the amplitude drop typical of speech to high frequencies. Thereafter, the speech signal passes to the parallel filter bank 4 · This parallel filter bank consists of a system of bandpasses. The investigations were carried out with a 20-channel filter bank having the cutoff frequencies and center frequencies given below. '

iz (Hz) Bandbreite (Hz)iz (Hz) bandwidth (Hz)

70 - 170 170 - 270 . 270 -370 370 - 470 470 - 570 570 - 680 680 - 810 810 - 970 970 - 1170 . 1170-1400 1400 - 1680 1680 - 2000 2000 - 2400 2400 - 2880 2880 - 3460 3460 - 4150 4150 - 4980 . ' 4980 - 5980 5980 - 7170 7170 - 860070 - 170 170 - 270. 270-370 370 - 470 470 - 570 570 - 680 680 - 810 810 - 970 970 - 1170. 1170-1400 1400 - 1680 1680 - 2000 2000 - 2400 2400 - 2880 2880 - 3460 3460 - 4150 4150 - 4980. '4980 - 5980 5980 - 7170 7170 - 8600

Ein sich daran anschließender Analogmultiplexer 5 tastet alle 12,5 ms die Filterausgänge schrittweise ab. Die so entstandene analoge Funktion wird vom Analog-Digital-Umsetzer in ein 8 bit langes Datenwort umgewandelt. Diese 8 bit lassen eine Auflösung von 128 Amplitüdenstufen zu. Das entspricht einem Dynamikumfang von 48 dB. Die weitere Verarbeitung erfolgt rechentechnisch. Das digitalisierte Signal gelangt in den Rechner 7 (KRS 4201) und wird dort gemittelt.An adjoining analog multiplexer 5 samples the filter outputs step by step every 12.5 ms. The resulting analog function is converted by the analog-to-digital converter into an 8-bit long data word. These 8 bits allow a resolution of 128 amplitude levels. This corresponds to a dynamic range of 48 dB. The further processing is done by computer. The digitized signal enters the computer 7 (KRS 4201) and is averaged there.

Kanalnummer I Channel number I littenfreq·littenfreq · 11 109109 22 214214 • / 3 .• / 3. 316316 44 417417 .5.5 518518 6 6 623623 77 742742 aa 886886 99 10651065 1010 12801280 1111 15351535 1212 18331833 1313 21912191 1414 26292629 1515 31573157 1616 37893789 17'17 ' 45464546 1818 54575457 1919 65486548 2020 78537853

Das geschieht so, daß die Amplitudenwerte über den gesamten •zu betrachtenden-Zeitraum kanalw-ise aufsummiert und abschließend auf die Anzahl der befrachteten Zeitfenster normiert werden. Pausenabschnitte werden dabei nicht berücksichtigt. Das sogenannte Hittelwertspektrum kann in einem externen Speicher 8 (Magnetband, ,Magnetplatten o. dgl.) gespeichert und/oder z. B. von einer grafischen Ausgabeeinheit 9 (Plotter, XY-Sehreiber o. dgl.) gezeichnet werden.This happens in such a way that the amplitude values are summed over the entire period of time to be considered channel-wise and finally normalized to the number of time slots loaded. Break sections are not taken into account. The so-called Hittelwertspektrum can in an external memory 8 (magnetic tape, magnetic disks o. The like.) Stored and / or z. B. from a graphical output unit 9 (plotter, XY-vision or the like.) Are drawn.

Fig. 2 zeigt die Mittelwertspektren eines männlichen und eines weiblichen Sprechers. Den Punktionsverläufen liegt ein 30 Worte umfassender Sprechtext zugrunde. In der Regel hat sich nach einem '20 - 30 s langen Sprechtext ein stabiles Mittelwertspektrum herausgebildet, das unabhängig vom gesprochenen Text und charakteristisch für den jeweiligen Sprecher ist. Die sprechertypischen Maxima werden insbesondere durch die energiereichen Vokalanteile des Sprachmaterials bestimmt.. Die Vokale enthalten wesentliche sprecherbeschreibende Informationen. Die wortbedeutungstragende Information innerhalb des Sprachspektrums wird durch die Mittelung über einen längeren, aus verschiedenen Worten bestehenden Sprachtext abgeschwächt. Sprecher mit ähnlicher Gestalt der Mittenwertspektren haben demzufolge wesentliche Gemeinsamkeiten bezüglich der Artikulation» Pur solche Sprecher ist es möglich, einen gemeinsamen Referenzdatensatz für die automatische Spracherkennung zu verwenden. Sprecher mit einem derartigen gemeinsamen Referenzdatensatz bilden eine Sprechergruppe·Fig. 2 shows the mean value spectra of a male and a female speaker. The punctuation is based on a 30 words comprehensive speech. As a rule, a stable mean value spectrum has developed after a '20 - 30 s long speech, which is independent of the spoken text and characteristic for the respective speaker. The speaker-typical maxima are determined in particular by the high-energy vocal parts of the speech material. The vowels contain essential speaker-describing information. The word-meaningful information within the speech spectrum is attenuated by averaging over a longer, multi-word speech text. Speakers with a similar shape of the center value spectra therefore have substantial similarities with respect to articulation. "Such speakers can use a common reference data set for automatic speech recognition. Speakers with such a common reference record form a speaker group ·

Pig. 3 verdeutlicht das Prinzip der Sprechergruppenbildung. In einem Digitalrechner (z. B. ERS 4201) sind in geeigneter Weise die Mittelwertspektren von Έ untersuchten Sprechern 10 gespeichert. Anschließend erfolgt die Ermittlung einer Ähnlichkeitsmatrix 11. Als Ähnlichkeitsmaß eignet sich die City-Block-Distanz oder der Euklidische Abstand. Diese Ähnlichkeitsmaße sind zu einen rechentechnisch sehr gut handhabbar (einfache Rechenoperationen und damit verbunden geringe Rechenzeiten) und zum anderen physikalisch sehr gut interpretierbar. Darüber hinaus lassen sich eine Vielzahl anderer Abstandsmaße, deren Berechnung weitaus aufwendiger ist (Pischerkriterium, Mahalanobis-Distanz, Korrelationsmaß usw.), anwen-Pig. 3 illustrates the principle of speaker group formation. In a digital computer (eg ERS 4201), the mean value spectra of Έ examined speakers 10 are stored in a suitable manner. Subsequently, the determination of a similarity matrix 11 takes place. The measure of similarity is the city block distance or the Euclidean distance. These similarity measures are very computationally easy to handle (simple arithmetic operations and thus low calculation times) and on the other physically very well interpretable. In addition, a variety of other distance measures, the calculation of which is much more complex (Pischerkriterium, Mahalanobis distance, correlation measure, etc.), apply.

r-, r* um αr> r, n, .„ ^ π it * r-, r * by αr> r, n ,. "^ π it *

- 8 - - 8th -

den. ^; the. ^;

Die City-Block-Distanz läßt sich nach der BeziehungThe city block distance can be determined by the relationship

JL-JL

' ' ^CDij ⁼ 2_i ! ^Si⁽¹⁾ " ^Xj⁽¹⁾ 1=1'' ^CD ij ⁼ 2_i! ^S i ⁽¹⁾ " ^X j ⁽¹⁾ 1 = 1

und der Euklidische Abstand nach der Beziehungand the Euclidean distance after the relationship

I ' j'—-—^; —-~—,I 'j' --- ^; - ~ -,

• 1=1-• 1 = 1-

ermitteln. Dabei bezeichnet i und j das Sprecherpaar, für das der Abstand ermittelt wird. Die Komponente der Parameterfunktion wird durch 1 angegeben. L ist die Anzahl der Komponenten, aus denen sich der Parametervektor χ -zusammensetzt.determine. In this case, i and j denote the pair of speakers for which the distance is determined. The component of the parameter function is indicated by 1. L is the number of components that make up the parameter vector χ.

In der Stufe 13 erfolgt die Bildung der Sprechergruppen. Dabei wird so vorgegangen, daß zeilenweise jedes Abstandsmaß mit einer Ähnlichkeitsschwelle Stufe 12 verglichen wird. Die Ähnlichkeitsschwelle wird experimentell bestimmt. Sie sollte so gewählt werden, daß etwa 2-5 Sprecher einer Gruppe, zugeordnet werden. Hachdem die gesamte Zeile der Ähnlichkeitsmatrix abgearbeitet wurde, werden alle Indizes der Abstandsmaße, die die Ähnlichkeitsschwelle unterschreiten, an die Stufe 14 weitergegeben. Die Indizes der Abstandsmaße stimmen mit den Hämmern der betrachteten Sprecher überein. In der Stufe 14 werden die Sprechernummern, die nach Abarbeitung jeder Zeile der Ähnlichkeitsmatrix übermittelt werden, in aufsteigender Folge sortiert· Die so entstandenen Polgen werden verglichen, um Wiederholungen auszuschließen. Abschließend werden die Sprechernummern jeder Sprechergruppe ausgegeben.In stage 13, the formation of speaker groups takes place. In this case, the procedure is such that each distance measure is compared line by line with a similarity threshold level 12. The similarity threshold is determined experimentally. It should be chosen so that about 2-5 speakers are assigned to a group. After the entire line of the similarity matrix has been processed, all indices of the distance measures that fall below the similarity threshold are passed on to the level 14. The indices of the distance measures agree with the hammers of the considered speakers. In stage 14, the speaker numbers transmitted after processing each line of the similarity matrix are sorted in ascending order. The resulting polings are compared to exclude repetitions. Finally, the speaker numbers of each speaker group are output.

4 zeigt die Anordnung zur Sprechergruppenbildung in einem automatischen Spracherkennungssystem« Ein wesentlicher Vorteil des Systems ist die dynamische Sprecheranpassung. Dabei erfolgt eine ständige Aktualisierung der Referenzdaten. Für die Eingabe der Sprachdaten gilt das in bezug auf Fig. 1 Gesagte. Dies betrifft die Stufen 1-6.Figure 4 shows the arrangement for speaker group formation in an automatic speech recognition system. "A significant advantage of the system is the dynamic speaker adaptation. There is a constant updating of the reference data. For the input of the speech data, what has been said with reference to FIG. 1 applies. This concerns stages 1-6.

Während innerhalb des Rechners die eingegebene Vektorfolge zum einen zur Klassifikation verwendet wird, erfolgt zum anderen die Bildung eines Mittelwertspektrums zur VorauswahlWhile the input vector sequence is used for classification within the computer, on the other hand the formation of a mean value spectrum for the preselection takes place

^r - 9 - ^r - 9 -

des zur Klassifikation verwendeten Referenzdatensatzes in einer Stufe 15. Auf einem externen Speicher 16 (Digitalmagnetband, Digitalkassette, Magnetplatte ο. dgl.) sind in geeigneter Weise eine Auswahl von Referenzdatensätzen unterschiedlicher Sprechertypen gespeichert. Mit Hilfe des in Stufe 15 gebildeten Mittelwertspektrums wird der Referenzdatensatz ausgewählt, dessen Mittelwertspektrum (über den gesamten Referenzdatensatz gebildet) die größte Ähnlichkeit zu diesem neu ermittelten Mittelwertspektrum'besitzt. Dabei gehen alle vorher gesprochenen Srkennungseinhe.iten in die Mittelung ein. !lach jedem gesprochenen Wort wird überprüft, ob die getroffene ReferenzdatenausY/ahl17 noch gültig ist. Im anderen Fall wird ein anderer Referenzdatensatz, der die Ähnlichkeitsbedingung besser erfüllt, in den Hauptspeicher geladen. Dadurch wird erreicht, daß bei Sprecherwechsel eine Anpassung des Erkennungssystems an.den neuen Sprecher erreicht wird. Da die meisten Spracherkennungssysteme die Möglichkeit vorsehen, ein falsch erkanntes Wort Stufe 18 "zurückzuweisen, ist es sogar möglich, den ausgewählten Referenzdatensatz ständig zu aktualisieren. Immer wenn eine Erkennungseinheit richtig erkannt wurde, erfolgt die Ermittlung eines neuen Referenzdatenwortes, in dem der Mittelwert zwischen dem eben gesprochenen Text und dem bisherigen Referenzdatenwort berechnet wird Stufe 19. Damit wird erreicht, daß die während des normalen Sprechablaufs typischen Sprachveränderungen eines Sprechers Berücksichtigung finden. In der Stufe 20 erfolgt die durch die Spracheingabe bezweckte Reaktion des Erkennungssystems.of the reference data set used for the classification in a stage 15. An external memory 16 (digital magnetic tape, digital cassette, magnetic disk or the like) stores a selection of reference data records of different types of speakers in a suitable manner. With the aid of the mean value spectrum formed in step 15, the reference data record is selected whose mean value spectrum (formed over the entire reference data record) has the greatest similarity to this newly determined average value spectrum. All previously spoken identification units are included in the averaging. After each spoken word, a check is made as to whether the reference data from Y / ahl17 is still valid. Otherwise, another reference data set that better satisfies the similarity condition is loaded into main memory. As a result, an adaptation of the recognition system to the new speaker is achieved when the speaker changes. Since most speech recognition systems provide for the possibility of rejecting a misrecognized word level 18 ", it is even possible to constantly update the selected reference data set.Whenever a recognition unit has been recognized correctly, the determination of a new reference data word takes place in which the mean value between the Thus, it is achieved that the speech changes typical of a speaker are taken into account during the normal speech process. In step 20, the reaction of the recognition system intended by the speech input takes place.

Die Tabelle 1 enthält die Erkennungsergebnisse von 10 männlichen Sprechern. Es wurden insgesamt 30 unterschiedliche Worte verwendet, mit jeweils 7 Realisierungen pro Wort. Das ergibt einen Gesamtumfang von 210 Worten pro Sprecher.Table 1 contains the recognition results of 10 male speakers. A total of 30 different words were used, each with 7 implementations per word. This gives a total of 210 words per speaker.

Mit den in den Figuren 1 und 3 beschriebenen Anordnungen wurde die Ähnlichkeitsmatrix für diese Sprecher ermittelt. Als Abstandsmaß wurde die City-Block-Distanz verwendet. Die Ähnlichkeitsmatrix ist in Tabelle 2 enthalten. Die Ähnlichkeitsschwelle zur Sprechergruppenbildung wurde so gewählt, daß Gruppen von maximal zwei Sprechern gebildet werden. Für grössere Sprechergruppen ist eine höhere Sprecherzahl 'nötig. DieWith the arrangements described in FIGS. 1 and 3, the similarity matrix was determined for these speakers. The distance measure used was the city block distance. The similarity matrix is included in Table 2. The similarity threshold for speaker group formation was chosen so that groups of a maximum of two speakers are formed. For larger groups of speakers, a higher number of speakers is needed. The

Tabelle 3 enthält die Erkennungsergebnisse für zwei Sprechergruppen (Gruppe 1 aus Sprecher 2 und 8, Gruppe 2 aus Sprecher 5 und 7 gebildet).Table 3 contains the recognition results for two speaker groups (group 1 consisting of speakers 2 and 8, group 2 made up of speakers 5 and 7).

Die Erkennungsergebnisse der Sprecher innerhalb einer Sprechergruppe liegen über 90 %. Beim Erkennungsvorgang befindet sich jeweils nur der Referenzdatensatz für eine Sprechergruppe im Hauptspeicher. Welcher Referenzdatensatz das ist, wird während des laufenden Erkennungsproaesses entschieden, leben den Referenzsprachdaten der jeweiligen Sprechergruppe sind außerdem die Mittelwertspektren sämtlicher zur Verfügung stehenden Referenzdatensätze der unterschiedlichen Sprechergruppen gespeichert. -The recognition results of the speakers within a speaker group are over 90 %. During the recognition process, only the reference data set for a speaker group is in the main memory. Which reference data record this is, is decided during the current recognition process, live the reference speech data of the respective speaker group, the mean value spectra of all available reference data sets of the different speaker groups are also stored. -

Parallel zum Erkennungsprozeß, wird das Mittelwertspektrum des Nutzers ermittelt. Dabei gehen vorherliegende Sprachäußerungen in die Mittelung ein. Es wird bei jedem Erkennungsprozeß geprüft, zu welchem Mittelwertspektrum der Referenzdatensätze der Sprechergruppen die größte Ähnlichkeit besteht. Dieser Referenzdatensatz wird von einem Externspeicher (Magnetband, Magnetplatte, Magnetkassette o. ä.) in den Hauptspeicher geladen. Damit arbeitet das Erkennungssystem gewissermaßen 'sprecheranpassend. Bei Sprecherwechsel kann automatisch auf einen geeigneten Referenzdatensatz zurückgegriffen werden.Parallel to the recognition process, the average range of the user is determined. In this case, previous utterances are included in the averaging. In each recognition process it is checked to which average range of the reference data sets of the speaker groups the greatest similarity exists. This reference data set is loaded from an external memory (magnetic tape, magnetic disk, magnetic cassette or the like) in the main memory. Thus, the recognition system works to a certain extent 'speaker-adaptive. When changing the speaker, you can automatically access a suitable reference data record.

Anhand der Tabellen 1 und 2 soll verdeutlicht werden, wie bei Hutzung des automatischen Spracherkennungssystems durch einen Fremdsprecher verfahren wird. Als Referenzdatensätze stehen zum Beispiel Muster der Sprecher 1 -. 5 zur Verfügung· Im allgemeinen Pail können das auch Referenzdatensätze von Sprechergruppen sein. Die Sprecher 6-10 stellen Fremdsprecher dar. Damit gelten die ersten 5 Zeilen der Tabelle 1 und 2.It should be clarified with reference to Tables 1 and 2 how a foreign speaker uses the automatic speech recognition system. As reference data sets are for example patterns of speakers 1 -. 5 · In general, Pail may also be reference records of speaker groups. The speakers 6-10 represent foreign speakers. Thus, the first 5 lines of Table 1 and 2 apply.

Aus Tabelle 2 ist ersichtlich, daß zum Beispiel für Sprecher 10 (Fremdsprecher) der Sprecher 3 das geringste Abstandsmaß (0,81) liefert. Tabelle !zeigt, daß unter Verwendung des Referenzdatensatzes des Sprechers 3 für den Sprecher 10 das höchste Erkennungsergebnis (86,3 %) erzielt wird.From Table 2 it can be seen that, for example, for speaker 10 (speaker) the speaker 3 provides the smallest distance measure (0.81). Table 1 shows that using the speaker 3 reference record of speaker 10, the highest recognition score (86.3 %) is achieved.

Für Sprecher 8 liefert der Referenzdatensatz des Sprechers 2 (Abstandsmaß 0,73) das höchste Erkennungsergebnis (87,6 %)» Für Sprecher 7 wird demzufolge mit dem Referenzdatensatz desFor speaker 8, the reference data set of speaker 2 (distance measure 0.73) yields the highest recognition result (87.6 %). For speaker 7, the reference data set of speaker 2 is therefore used

Sprechers 5 (Abstandsmaß 0,78) das beste Erkennungsergebnis (90,4 SS)' erreicht.Speaker 5 (distance 0.78) reaches the best recognition result (90.4 SS) '.

ITutzerITutzer

11 11 22 33 44 55 66 7 7 88th 99 1010 22 96,296.2 81 ,881, 8 61,961.9 ,83,8, 83.8 91,991.9 85,285.2 78,078.0 83,383.3 54,754.7 50,450.4 33 81,981.9 99,099.0 78,178.1 77,477.4 84,484.4 79,579.5 79,479.4 87,687.6 72,472.4 70,070.0 Qj Λ O Qj Λ O •4• 4 74,374.3 74,274.2 99,099.0 82,482.4 85,285.2 72,972.9 74,274.2 86,486.4 67,567.5 86,386.3 φ U φ U 55 71.,971. 9 72,272.2 65,265.2 97,197.1 80,080.0 78,178.1 76,176.1 72,472.4 69,069.0 71,471.4 Pt coPt co 66 79,579.5 80,380.3 77,077.0 78,678.6 99,099.0 71,471.4 90,490.4 62,562.5 66,066.0 62,462.4 U φ U φ 77 72,172.1 71 ,271, 2 76,376.3 82,282.2 78,378.3 97,897.8 69,, 869 ,, 8 72,972.9 71,871.8 78,378.3 88th 60,960.9 65,365.3 63,263.2 >9,1> 9.1 86,386.3 67,367.3 98,198.1 72,172.1 66,366.3 62,162.1 φφ 99 63,263.2 75,375.3 69,169.1 68,268.2 62,162.1 64,164.1 62,762.7 97,397.3 73,273.2 77,377.3 ©© 1010 59,859.8 62,362.3 60,360.3 69,869.8 72,172.1 67,367.3 69,169.1 73,273.2 97,897.8 80,380.3 57,957.9 53,853.8 49,749.7 65,265.2 68,368.3 79,279.2 62,762.7 85,185.1 84,284.2 98,598.5

Tabelle 1 (Angaben in %) Table 1 (figures in %)

Sprecherspeaker

11 11 22 33 44 •5• 5 66 77 88th 99 1010 22 0,000.00 1 ,231, 23 1,691.69 1,191.19 1,221.22 1,411.41 1,391.39 1 ,101, 10 1,111.11 1 ,261, 26 33 1,231.23 0,000.00 1 ,161, 16 1 ,021, 02 0,930.93 1,321.32 1,021.02 0,730.73 1,221.22 1,331.33 44 1,691.69 1 ,161, 16 0,000.00 1 ,061, 06 0,990.99 1,001.00 1,341.34 0,930.93 1,141.14 0,810.81 UU 55 1,191.19 1 ,021, 02 1 ,061, 06 0,000.00 0,810.81 0,840.84 0,980.98 0,930.93 1 ,081, 08 0,990.99 £ }£} 66 1,221.22 0,930.93 0,990.99 0,810.81 0,000.00 1,031.03 0,780.78 1 ,021, 02 1 ,091, 09 1,121.12 W (S U W (S U 77 1,411.41 1,321.32 1,001.00 0,840.84 1,031.03 0,000.00 1,281.28 1,191.19 1,121.12 0,950.95 Oi Kl Oi Kl 88th 1,391.39 1,021.02 1,341.34 0,980.98 0,780.78 1 ,281, 28 0,000.00 1,311.31 1,361.36 1 ,471, 47 99 1 ,101, 10 0,730.73 0,930.93 0,930.93 1 ,021, 02 1,191.19 1,311.31 0,000.00 0,870.87 0,780.78 1010 1,111.11 1 ,221, 22 1,141.14 1 ,081, 08 1,091.09 1,121.12 1,361.36 0,870.87 0,000.00 0,950.95 1,261.26 1,331.33 0,810.81 0,990.99 1,121.12 0,950.95 1,471.47 0,780.78 0,950.95 0,000.00

Tabelle 2 (Angaben ohne Maßeinheit (normiert),)Table 2 (figures without unit of measurement (normalized),)

&& Ό⁴ ⁴ ΦΦ

ange. Spreattached. spreader Lernt pherLearn pher srsr vnvn roro er»he" 03 U)03 U) _i_i 0303 0303 95,'95, ' roro •Φ ro • Φ ro co ro VDco ro VD U)U) ω •φ ω • φ 0000 ω U)ω U) vnvn U?U? VDVD CP.CP. U)U) VJlVJL VD ·£-VD · £ - 0303 s s Toto oooo VD OVD O 0303 VDVD -J ro V» . f*v.-J ro V ». f * v. 03 vn03 vn VDVD VDVD 75,775.7 ι Oι O

φ H φ H

roro

Claims

Arrangement for forming speaker groups, in particular for automatic speech recognition systems, characterized by the formation of mean value functions characterized in that the speech signals of each speaker are from a signal source (1), a microphone or magnetic tape, via a chain circuit consisting of a preamplifier (2 ), a pre-emphasis filter (3), a filter bank (4) constructed from a system of band passports, an analog multiplexer (5) and an analog-to-digital converter (6) in the form of an 8-bit data word to the digital computer (7) be transferred over a defined period of time the amplitude values channel by channel and finally to the

, normalized time window, the resulting mean value spectrum is loaded into an external memory (8) and from the stored average value spectra (10) of IT. examined speakers, a similarity matrix (11) is determined and the city block distance is used as a measure of similarity, compared in a following stage (12) with a similarity threshold, all indices of the distance measures which fall below the similarity threshold are sent to a stage (14). in automatic speech recognition systems the averaging for pre-selection of the reference data set used for classification is carried out in one stage (15) »a selection of reference data sets of different speaker types is stored in an external memory (16 In the averaging, all previously spoken recognition units are included, after each spoken recognition unit. Word is checked whether the made reference data selection (17) is still valid '* and a new reference data set is loaded into the main memory, if it satisfies the similarity conditions better.

2. Arrangement for forming speaker groups according to item 1, characterized in that are used as language features feature vector sequences of amplitude histograms, ITulldurchgangsfunktionen and LPC analysis functions.

-H-

3 · Arrangement for the formation of speaker groups according to. Point 1 is characterized by the fact that the measure of similarity is the Euclidean distance, the degree of cross - correlation and. the Mahalanobis distance can be used.

4. Arrangement for the formation of speaker groups according to item 1, characterized in that when using an automatic speech recognition system by a foreign speaker from existing sets of reference data that record for detection · is used, which provides the best recognition result with high certainty.

For this 3 sheets of drawings.