DE2659083C2 - Verfahren und Vorrichtung zur Sprechererkennung - Google Patents

Verfahren und Vorrichtung zur Sprechererkennung

Info

Publication number
DE2659083C2
DE2659083C2 DE2659083A DE2659083A DE2659083C2 DE 2659083 C2 DE2659083 C2 DE 2659083C2 DE 2659083 A DE2659083 A DE 2659083A DE 2659083 A DE2659083 A DE 2659083A DE 2659083 C2 DE2659083 C2 DE 2659083C2
Authority
DE
Germany
Prior art keywords
signals
speaker
prediction parameters
signal
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2659083A
Other languages
English (en)
Other versions
DE2659083A1 (de
Inventor
Marvin Robert Dover N.J. Sambur
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE2659083A1 publication Critical patent/DE2659083A1/de
Application granted granted Critical
Publication of DE2659083C2 publication Critical patent/DE2659083C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprechererkennung gemäß Oberbegriff des Anspruchs 1 bzw. des Anspruchs 7. >·■
Es ist oft wichtig, die Identität einer Person aus den physikalischen Merkmalen ihrer Sprache zu bestätigen oder festzustellen. Ein solcher Vorgang ist erwünscht für telefonisch durchgeführte Transaktionen,· tür eine rasche Kreditbestätigung oder für Sicherheitseinrichtungen, wie der kontrollierte Zulaß zu gesicherten Bereichen. Bisher beruhter, automatische Sprechererkennungssysteme auf dem Vergleich ·■ einer vorbestimmten gesprochenen Nachricht mit einem zuvor gespeicherten Bezugswert derselben oder einer ähnlichen Nachricht, oder auf einem Vergleich zwischen ausgewählten Parametern spezieller Sprachproben der Person mit zuvor gespeicherten Parametern einer entsprechenden Sprachprobe. Solche Parameter können aus Spracheigenschaften abgeleitet werden, wie Tonhöhen, Intensität, eine bestimmte Frequenzformante oder deren Bandbreite oder irgendeine Eigenheit der Stimmritzenwelle.
Bei einem in der US-FS 34 66 394 beschriebenen System werden ausgewählte Maximal- und Minimalwerte der die Sprache bildenden Druckwelle einer jeden Höhenperiode verwendet, um charakteristische ■-> Parameter eines gesprochenen Eingangssignal eines unbekannten Sprechers zu erhalten. Diese Parameter werden selektiv mit einem oder mehreren zuvor gespeicherten Bezugsparameter verglichen. Als Ergebnis des Vergleichs wird eine Entscheidung hinsichtlich der
in Identität des unbekannten Sprechers getroffen. Diese Anordnung macht es jedoch erforderlich, daß die charakteristischen Parameter bezüglich der Lautstärke normiert werden, um Fehler zu verhindern, die dadurch auftreten können, daß die Person mit einer anderen
is Lautstärke, als bei der Gewinnung der Bezugsparameter, spricht
Bei einer anderen Anordnung, die in der US-PS 37 00 815 beschrieben ist, wird die charakteristische Weise, in der eine Person einen Testsatz ausspricht, mit einer zuvor gespeicherten Sprachweise desselben Satzes verglichen. Für diesen Vergleich ist jedoch eine zeitliche Ausrichtung der Test- und der Bezugssprachprobe erforderlich. Dementsprechend wird die Zeitskala der Testsprachprobe verschoben, um sie in zeitliche Übereinstimmung mit dem Bezugssatz zu bringen, bevor der Vergleich durchgeführt wird.
Diese und weitere bekannte Verfahren basieren auf Spracheigenschaften, die vom Inhalt der Sprachprobe abhängen. Ein besseres Verfahren spricht auf die beson-
jo deren Eigenschaften des Sprachapparates eines Sprechers an und nicht auf den Inhalt der Sprachprobe. So erzeugt eine Sprachanalyse, die auf der linearen Voraussagbarkeit der Sprachwellenform beruht, eine Gruppe von Eigenschaften, die für eine automatische Sprechererkennung erwünschtisind und im wesentlichen unabhängig von der Tonhöhen- und, Intensitätsinforinatiori sind. Eine Sprechererkennungsanordnung, die auf einemn;Vergleich liöeardr;..Voraussageeigenschaften eines nichtidentifizierten Sprechers-mit zuvor gespei* cherten: linearen Voraussageeigenschaften; bekannter Sprecher beruht ist nicht auf ausgewählte Sprachmerkmale, wie fbrinantehfifequenzen und die Stimmritzelnwelle, beschränkt. Folglich können die; linearen Vorausagecharäkteristika? eine bessere Grundlage für eine Sprechererkennung bilden j Die Verwendung linearer Vdraüssageeigerischaften 'für eine Sprechererkennung erfordörnijedoch 'genereif'eine Segmentierung oder Zeitnormierung, da die Eigenschaften sowohl linguistische als auch sprecherabhängige Information umso fassen. ■ ■■ ■■■'-■■' >v·
Bei einem bekannten Verfahren bzw. einer bekannten Vorrichtung dieser Art, von denen im Oberbegriff der Patentansprüche 1 und 7 ausgegangen'wird (Aufsatz von Sj Furui und F. Itabara »Talker Recognition by Statistical Features of Speech Sounds« in »Electronics and Communications in Japan«, Band 56-A, Nr. 11, Seiten 62-71) wird ein Sprachenerkennungssystem verwendet, bei dem eine Sprachprobe zur Gewinnung eines Bezugsvektors analysiert wird, der auf partiell orthogonalen Vektoren (PARCOR) und'den^Besonderhesiten dei*'Gfundfrequenz für die Sprachpröbe beruht. Die Spracherkennung erfolgt durch Messung der Differenz 'wischen dem Vektor, der den orthogonalen Koeffizienten und den Besonderheiten der Grundfrequenz
b5 eines unbekannten Sprechers entspricht, und dem Referenzvektor eines identifizierten Sprechers. Auch bei dem bekannten Verfahren ist die Abhängigkeit vom sprachlichen Inhalt der Sprachprobe noch verhältnis-
mäßig groß, und außerdem sind die erforderlichen Berechnungen zeitaufwendig. Der Erfindung liegt demgemäß die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Sprechererkennung verfügbar zu machen, die im wesentlichen unabhängig vom linguistischen Inhalt eines Sprachsignals sind und eine Identifizierung eines Sprechers in sehr kurzer Zeit ermöglicht. Die Lösung der Aufgabe ist in den Ansprüchen 1 bzw. 7 angegeben. Ausgestaltungen und Weiterbildungen sind Gegenstand der Unteransprüche.
Da der Referenzsatz von Koeffizienten auch bei der Erzeugung der zweiten Signale aus dem Testsatz von Voraussageparametern benutzt wird, brauchen die Koeffizienten für einen unbekannten Sprecher nicht berechnet zu werden. Daher kann die Identifizierung in sehr kurzer Zeit durchgeführt werden. Darüber hinaus ist der Vergjeich zwischen dem Satz erster und zweiter Signale sehr empfindlich, so daß eine sehr zuverlässige Identifizierung möglich ist.
Im folgenden wird die Erfindung anhand von Ausführungsformen näher erläutert. Dabei zeigt
Fig. 1 das Blockschaltbild eines Sprecherbestätigungssystems;
Fig. 2 das Blockschaltbild eines Sprechererkennungssystems;
Fig. 3 ein genaueres Blockschaltbild der Taktschaltungen in den Fig. 1 und 2;
Fig. 4 ein genaueres Blockschaltbild des Kovarianzrechners der Fig. 1 und 2;
Fig. 5 ein genaueres Blockschaltbild einer Einrichtung zur Erzeugung von Referenzparameter-Mittelwertsignalen gemäß Fig. 1 und 2;
Fig. 6 ein genaueres Blockschaltbild einer Einrichtung zur Erzeugung von orthogonalen Testparametern gemäß Fif;. I und 2;
Fig. 7 ein genaueres Blockschaltbild einer Einrichtung zur Erzeugung von Testmittelwert- und Varianzsignalen gemäß Fig. 1 und 2;
F i g. 8 ein genaueres Blockschaltbild einer Einrichtung zur Erzeugung von Abweichsignalen gemäß Fig. 1 und 2 und
Fig. 9 ein genaueres Blockschaltbild eines Detektors für Minimalabweichsignale gemäß Fig. 2.
Ein Sprecherbestätigungssystem ist in Fig. 1 gezeigt, in der eine Logikschaltung 132 für einen Sprecheridentifiziercode ein Codesignal WC entsprechend der angeblichen Identität des Sprechers erzeugt. Ein Signal wird einem Moduswähler 133 zugeführt, um zu bestimmen, ob eine Referenzinformation für den Sprecher gespeichert oder die Identität des Sprechers bestätigt werden soll. Der Moduswähler 133 gibt ein Signa! an eine Steuerlogik 134, um das System gemäß Fig. 1 in einen Referenzmodus oder einen Testmodus zu versetzen. Im Referenzmodus werden die Sprechproben des Sprechers, der durch den ZDC-Code von der Logikschaltung 132 identifiziert wurde, analysiert, und es werden Referenzsignale, Mittelwertsignale und noch zu erläuternde Varianzsignale entsprechend einer Voracssageanalyse der Sprechprobe auf Leitung lOLerzeugt und gespeichert. Im Testmodus werden orthogonale Parametersignale aus den gespeicherten Referenzsignalen des angeblichen Sprechers und den Voraussageparameter des unbekannten Testsprechers erzeugt Die Referenz-, Mittelwert- und Varianzsignale für den Testsprecher werden erzeugt und mit den gespeicherten Referenz-, Mittelwert- und Varianzsignalen der angeblichen Identität verglichen.
Zu Erläuterungszwecken sei angenommen, daß die Steuerlogik 134 das System der Fig. 1 durch Erzeugen von Ausgangssignalen REF und S und G in den Referenzmodus versetzt. Das Sprachsignal des Referenzsprechers wird einer Abtastschaltung 102 über die Leitung 101 zugeführt. Diese kann beispielsweise eine Telefonleitung sein. Das Durchlaßband des Eingangssprachsignals wird auf den Bereich zwischen 100 Hz und 4 kHz begrenzt und das bandbegrenzte Signal wird unter der Steuerung eines Taktgebers 103 mit einer
ίο Folgefrequenz von 10 kHz abgetastet. Es können auch andere Frequenzbereiche und andere Abtastfrequenzen verwendet werden. Ein sogenannter Endpunktdetektor 109 empfängt das Ausgangssignal der Schaltung 102. Auf der Basis des Energiegehaltes des Sprach- -; signals, der von einer Summierung der absoluten Werte der abgetasteten Ausgangssignale erhalten worden ist, wird das Ende des Sprachausdrucks festgestellt, so daß der Taktgeber 103 über ein Gatter 140 abgeschaltet werden kann. Beim Beginn eines jeden neuen Sprachausdrucks schaltet ein Signal vom Detektor 109 den Taktgeber 103 ein. Eine zur Verwendung in F i g. 1 geeignete Endpunktdetektoranordnung ist in der US-PS 39 09 532 beschrieben.
Der in F i g. 3 gezeigte Taktgeber 103 umfaßt einen Abtastimpulsgenerator 301, der gleichen Abstand aufweisende Impulse SP für die Abtastfrequenz von 10 kHz erzeugt. Die SP-Impulse werden der Abtastschaltung 102 zugeführt, in der kodierte Abtastwerte des Sprachsignals erhalten werden. Das Ausgangssignal des Generators 301 wird außerdem einem Impulsgenerator 303 zugeführt. Die SP-Impulse vom Generator 301 synchronisieren den Generator 303, der während eines jeden Rahmens aus 200 Sf-Abtastimpulsen vom Generator 301 gleichen Abstand aufweisende AS-Impulse erzeugt. Die ^S-Impulse werden einem Zähler 305 zugeführt, der für jeden zwölften yiS-Impuls einen Ausgangsimpuls BS erzeugt. Folglich werden während eines jeden Rahmens von 144 /iS-Impulsen gleichen Abstand aufweisende SS-Impulse erzeugt. Der Stand des Zählers A erscheint auf Leitung 330. Ein Zähler 307 spricht auf die SS-Impulse an, die am Ausgang des Zählers 305 erscheinen, und der Stand des Zählers B erscheint auf Leitung 331. Der Zähler A wird bei jedem zwölften /IS-Impuls und der Zähler B wird bei jedem zwölften ßS-Impuls zurückgesetzt. Die AS- und 5S-Impulse und die anderen Taktsignale werden über die Leitung A auf die anderen Abschnitte der Fig. 1 verteilt, um die Zeitsteuerung der Operationen dieser anderen Abschnitte zu bewirken.
Die Ausgangssignale der Zähler 305 und 307 auf den Leitungen 330 und 331 werden außerdem einem Rahmenanfangsdetektor 309 zugeführt, der beim Stand Null beider Zähler A und B einen Impuls erzeugt. Dieser Impuls definiert den Beginn eines jeden Rahmens von 200 SP-Abtastimpulsen, während welchem 144 AS-Impulse und 12 ßS-Impulse auftreten. Das Ausgangssignal des Detektors 309 wird einem Rahmenzähler 317 zugeführt, der die Rahmenzahl in einem jeden Sprachausdruck der Sprechprobe, die dem Abtaster 102 zugeführt wird, zählt Ein Detektor 313 für das Ende von Sprachausdrücken spricht auf den Fall an, daß sich beide Zähler A und B in ihrem zwölften Zustand befinden, und auf ein Signal vom Ausgang des Endpunktdetektors 109, um Sprachausdruck-Ende-Signale EU und £Z7zu erzeugea Das Signal EUwM über eine Verzögerungseinrichtung 335 dem Zähler 317 zugeführt, um diesen am Ende eines jeden Sprachausdrucks zurückzusetzen, und es wird direkt einem Sprachausdruck-
zähler 319 zugeführt, der die Anzahl der Sprachausdrücke in der Sprachprobe zählt.
Ein Detektor 315 für das Ende einer Probe spricht auf die Zustände der Zähler 305 und 307, auf den Endpunktdetektor 109_und einen Schweigen-Detektor 107 an, um ES- und £S-(Probenende-)Signale am Ende der Sprachprobe zu erzeugen. Das Signal ES stellt über eine Verzögerungseinrichtung 333 am Ende der Sprachprobe den Sprachausdruckzähler 319 zurück. Die Feststellung einer Endpunktübereinstimmung mit einem Schweigen-Intervall am Ende eines Rahmens erzeugt die ES- und E?-Signale.
Zum Zweck der Berechnung der Mittelwerte und Varianzen der Orthogonalparameter im System der Fig. 1 ist es erforderlich, die Anzahl der Rahmen verfügbar zu haben, die in jedem Sprachausdruck auftreten, und die Anzahl der Sprachausdrücke in der Sprachprobe. Die Anzahl ./V der Rahmen, die sich von Sprachausdruck zu Sprachausdruck ändert, ist am Ausgang des Rahmenzählers 317 verfügbar. Dieses Ausgangssignal wird im Gatter 323 beim Auftreten des EU-Signals am Ende eines jeden Sprachausdrucks abgetastet. Der Ausgang des Gatters 323 erzeugt ein kodiertes Signal N, das der Rahmenzahl im gerade beendeten Sprachausdruck entspricht. Ein Gatter 325 tastet den Zustand des Sprachausdruckzählers 319 am Ende der im Detektor 315 festgestellten Sprachprobe ab, so daß ein codiertes Signal L entsprechend der Anzahl der Sprachausdrücke oder Wörter in der Sprachprobe am Ende einer jeden Sprachprobe verfügbar ist.
Die Abtastsignalfolge mit der Folgefrequenz von 10 kHz wird vom Ausgang der Abtastschaltung 102 an einen Rechner 105 zur Berechnung von linearen Voraussagekoeffizienten gegeben, in dem die Abtastwerte s„, in Blöcken oder Rahmen aus 200 codierten Signalen si bis J2OO gespeichert werden. Es können natürlich andere Rahmenanordnungen verwendet werden. Eine lineare Voraussageanalyse des abgetasteten Sprachsignals wird durchgeführt in Übereinstimmung mit
P Sm = Σ diSm - i
i ' 1
mit m = 1, 2 200
(D
ρ ist die Anzahl der Pole des Voraussageanalysemodells. Die lineare Voraussageanalyse basiert auf einem Voraussagefilter, bei dem alle Pole linear sind, wie es bekannt und beschrieben ist in »Speech Analysis and Synthesis by Linear Prediction of the Speech Wave« von B. S. Atal und S. L. Hanauer, Journal of Acoustic Society of America, Vol. 50, S. 637-655, 1951. Zum Zweck der Sprechererkennung hat sich ein 12-Pol-Filter als angemessen herausgestellt. Es können jedoch Anordnungen mit anderer Polzahl verwendet werden. Die linearen Voraussagekoeffizienten α, sind die Koeffizienten der abgetasteten Sprachsignale sm entsprechend der Darstellung der Gleichung (1). Für das in Fig. 1 verwendete 12-Pol-Filter werden die Koeffizienten a\ bis a12 im Koeffizientenrechner 105 injedem Rahmen der 200 Abtastwerte durch die Korrelation der abgetasteten Sprachsignale Sn, entsprechend Gleichungen (2) und (3) erzeugt
Υ*~Σ
n, Ar= 1,2...
= Σ a,Y\,.k\, k-l,2...
(2)
(3)
Dabei ist A/die Anzahl der Abtastwerte injedem Rahmen (A/ = 200) und ρ = 12.
Bekanntlich werden die linearen Voraussagekoeffizienten α, der Gleichung (1) so gewählt, daß der mittlere quadratische Voraussagefehler entsprechend Gleichungen (2) und (3) minimiert wird. Gemäß Gleichung (2) wird dies durchgeführt durch eine Korrelationsanalyse des Blocks der Probensignale sm bis sm+M. Die resultierenden linearen Voraussagekoeffizienten α, bis a12
ίο werden für jeden Rahmen aus M Sprachabtastungen (Λ/ = 200) erhalten.
Beim Rechner 105 kann es sich um einen Rechner handeln, der in der US-PS 36 31 520 beschrieben ist. Dieser Rechner erzeugt lineare Voraussageparameter entsprechend der bekannten Kovarianzmethode. Alternativ kann jeder Rechner verwendet werden, wie der PDP11 oder Nova 800, der das Fortranprogramm gemäß Anhang A der Literaturstelle »Formant Trajectory Estimation from a Linear Least-Squares inverse Filter Formulation« von John D. Markel, Speech Communications Research Laboratory, Inc., Monographie Nr. 7, Oktober 1971, verarbeiten kann. Dieses Fortranprogramm basiert auf der bekannten Korrelationsmethode. Jeder Rahmen hat eine Dauer von 20 ms und, wie man leicht erkennt, sind die Koeffizienten a, bis α, 2 des Rahmens am Ende des den Abtastwerten i, bis ijoo entsprechenden Rahmens auf der Ausgangsleitung 136 verfügbar. Bei der Anordnung der Fig. 1 können die Koeffizienten O1 bis a12 entweder mit der Kovarianz- oder der Korrelationsmethode abgeleitet werden.
Es können zwar die linearen Voraussagekoeffizienten a, direkt zur Erzeugung einer Gruppe von orthogonalen Parametern verwendet werden, aber es hat sich als vorteilhaft erwiesen, statt dessen andere bekannte Voraussagekoeffizienten zu verwenden, wie Parcor- oder logarithmische Bereichskoeffizienten. Die Parcor-Koeffizienten sind direkt aus den linearen Voraussagekoeffizienten des Rechners 105 ableitbar. Die Parcor-Koeffizienten stehen in Beziehung zu der Kennzeichnung des Allpolfilters in Form eines nichtgleichförmigen akustischen Rohres, das durch Kaskadieren von ρ gleichförmigen zylindrischen Abschnitten gleicher Länge gebildet ist. Die Parcor-Koeffizienten entsprechen den Reflexionseigenschaften der Abschnitte des akustischen Rohres und stehen zu den linearen Voraussagekoeffizienten entsprechend Gleichung (4 a) in Beziehung:
(4a)
Dabei ist K, der /-te Parcor-Koeffizient, mit / = 1, 2,... ρ, und ep' ist der /-te lineare Voraussagekoeffizient für einy-Pol-Linearvoraussagemodell O = 1, 2,..., p). Die logarithmischen Bereichskoeffizienten stehen gleichermaßen in Beziehung zum Modell eines nichtgleichförmigen akustischen Rohres und sind eindeutig ableitbar vom linearen Voraussagekoeffizienten, der vom Rechner 105 entsprechend Gleichung (4 b) erhalten worden ist:
α, = log
Α+ΑΓΛ
VT1V"
(4b)
Ein Koefiizientenumsetzrechner 117 erzeugt eine Gruppe von Voraussageparametern, wie die Parcor-Parameter, aus den linearen Voraussagekoeffizienten α, und umfaßt eine arithmetische Schaltungsanordnung, die entsprechend Gleichungen (4 a) oder (4 b) arbeitet
oder ein Rechner sein kann, wie der PDPIl oder Nova 800, bei dem das Fortranprogramm gemäß Seite 128 von »Linear Prediction of Speech-Theory and Practice« von J. D. Markel, A. H. Greag, Jr. und H. Wakita, Speech Communications Research Laboratory, Inc., Monograph Nr. 10, September 1973, verwendet werden kann.
Die vom Umsatzrechner 117 erhaltenen Voraussagekoeffizienten x, werden einem Gatter 148 zugeführt. Das Gatter 148 gibt während eines jeden Rahmens des Bezugsmodus unter der Steuerung eines Signals BS 4 vom Steuergenerator 450 die Voraussagekoeffizientensignale X1, ... X12 des Rahmens in einen Kovarianzrechner 111, und zwar während desselben Rahmens und mit der ÄS-Folgefrequenz (12 pro Rahmen). Der Schweigen-Detektor 107 spricht auf die erzeugten Sprachabtastwerte sm im Rechner 105 an und schaltet den Takt 103 während der Rahmen, während welcher Schweigen herrscht, über das Gatter 350 sowie am Ende eines Rahmens ab. Beim Schweigen-Detektor 107 kann es sich um irgendeinen der bekannten Detektoren handeln, die auf die Energie oder spektrale Eigenschaften des Sprachsignals ansprechen, und die beispielsweise in der US-PS 40 15 088 beschrieben sind. Der Detektor 107 gibt über die Leitung 198 ein Signal an das Gatter 350 des Taktgebers 103, das die Erzeugung von Voraussageparametersignalen während der als Schweigen gekennzeichneten Rahmen verhindert.
Der Kovarianzrechner 111 erzeugt mehrere Signale, die der Mittelwert-Kovarianzmatrix It entsprechen, welche von den Voraussageparametersignalen erhalten worden sind, die dem Rechner 111 während der Sprachprobe zugeführt worden sind. Bekanntlich wird die Kovarianzmatrix aus einer statistischen Analyse der Abweichung der Voraussageparameter von ausgewählten Mittelwerten der Parameter abgeleitet. Der Kovarianzrechner 111 erzeugt ausgewählte Mittelwerte der Voraussagekoeffizienten x, entsprechend Gleichung (5):
- ι N
x, = — Σ x,n, ι = 1, 2 .. .,ρ (ρ = 12).
Dabei ist N die Anzahl der Rahmen im Sprachausdruck und xln ist der /-te Voraussageparameter des n-ten Rahmens. Bekanntlich umfaßt die Kovarianzmatrix R Elemente r,h die in Gleichung (6) definiert sind.
1 N
r,k = — Σ (x,„ - Xj) (Xfc, - χ*)
J* π = 1
- -^ Σ [X1nXj - χ, χ*
A = {rik}, i, k =1,2... p.
Die Kovarianzmatrix R ist eine p-mal-/»-Matrix, die für ρ = 12144 Elemente aufweist Die Kovarianzmatrix Ri bezeichnet diejenige Kovarianzmatrix, die für den /-ten Sprachausdruck eines gegebenen Sprechers berechnet worden ist Die Mittelwert-Kovarianzmatrix Rfür alle Sprachausdrücke des identifizierten Sprechers erhält man durch Mitteln entsprechend Gleichung (7):
^-Σ Rl.
L ;_l~
Dabei ist L die Anzahl der Sprachausdrücke in einer Sprechprobe eines gegebenen Sprechers. Gleichung (7) ist beispielsweise gegeben. Für die Berechnung von j können andere bekannte Formulierungen benutzt werden. Somit repräsentiert die Mittelwert-Kovarian·*.-matrix It die statistische Analyse der Sprachausdrücke oder Wörter der Sprechprobe des identifizierten Sprechers, von welcher im Orthogonalparameterrechner 112 während des Referenzmodus Referenzorthogonalparameter erzeugt werden sollen.
Der Kovarianzrechner 111 umfaßt mehrere arithmetische Einheiten, die Signale entsprechend den spezifizierten Mittelwerten der Voraussageparameter x, und kodierte Signale entsprechend den Elementen der Mittelwert-Kovarianzmatrix jRT zu erzeugen vermögen. Eine Anordnung zur Erzeugung codierter Signale entsprechend den Elementen der Mittelwert-Kovarianzmatrix K ist in Fig. 4 gezeigt. Gemäß Fig. 4 erzeugen ein Schieberegister 401, ein Addierer 410 und ein Schieberegister 421 zusammenwirkend Signale entsprechend den Mittelwerten X1 der Gleichung (5). Das Schieberegister 401 weist 24 Stufen auf und vermag die Voraussagekoeffizienten X1,..., X12 während eines jeden Rahmens von 200 Sprachabtastwerten über das Gatter 148 vom Umsetzrechner 117 zu empfangen. Der Steuergenerator 450 reagiert auf Signale vom Taktgeber 103 und auf Signale von der Logik 134 und erzeugt eine Gruppe von Steuersignalen zum Betreiben der Schaltung gemäß Fig. 4, einschließlich eines Freigabeimpulses ÖS 4 für jeden Rahmen, in dem x,-Signale über Gatter 148 der Fig. 1 in das Register 401 zu übertragen sind. Die 12 ÄS4-Impulse werden während dieses Intervalls ebenfalls dem Register 401 zugeführt, um dessen Verschiebefrequenz zu steuern. Die BSAA-Impulse, die nach dem Füllen des Registers 401 vom Generator 450 erhalten worden sind, bewirken, daß die 12 niedrigstwertigen x,-Signale im Register 401 an einen Eingang eines Addierers 410 gegeben werden.
Entsprechend Gleichung (5) werden die χ,-Ausgangssignale des Schieberegister 401 über ein Gatter 411 der Reihe nach an einen Addierer 410 gegeben. Im (5) Addierer 410 wird jeder Vorraussageparameter x, zum
entsprechenden Voraussageparameter x, des vom Schieberegister 412 erhaltenen vorausgehenden Rahmens addiert. Der Inhalt des Registers 412 wird unter Steuerung der Schiebeimpulse BS 4 A vom Generator 450 verschoben. Das Ausgangssignal des Addierers 410 wird unter Steuerung der BS 4 Λ-Impulse sukzessiv in das Register 412 geschoben. Am Ende eines Ausspruchs enthält das Schieberegister 412 die akkumulierten Summen der Voraussageparameter der Aussprüche oder Wörter Σ*ι, ■·· Σχϋ· Jede Summe ist proportional zum Mittelwert des vorausgehenden der zwölf Voraussageparameter.
Zu Beginn eines jeden Rahmens werden die im Register 401 gespeicherten niedrigstwertigen 12 Parameter in Parallelfonn über Gatter 407 und 409 zu Schieberegistern 403 bzw. 405 übertragen. Dies wird durchgeführt unter Steuerung des SF4-Signals vom Generator 450, das beim Beginn eines jeden Rahmens, für den Voraussageparameter x,- verfügbar sind, auftritt Das Schieberegister 405 gibt die Vöraussageparameter des Rahmens X1,... X12 über ein Gatter 404 der Reihe nach an einen Eingang eines Multiplizierers 420, und zwar mit der Folgefrequenz von 12 Verschiebungen pro Rahmen unter Steuerung der BS 4 Λ-Impulse vom Generator (7) 450.
Beim Schieberegister 403 handelt es sich um ein
(6)
(6a)
(6b)
Umlaufschieberegister, das die gespeicherten Voraussageparameter der Reihe nach an den anderen Eingang des Multiplizierers 420 gibt und außerdem den Ausgangsparameter wieder zum Eingang des Schieberegisters zurückfuhrt. Der Inhalt des Registers 403 wird unter Steuerung der AS4,4-Impulse mit einer Folgefrequenz von 144 Verschiebungen pro Rahmen verschoben, während der Inhalt des Registers 405 unter Steuerung der BS 4 ^-Impulse vom Generator 450 mit einer Folgefrequenz von 12 Verschiebungen pro Rahmen verschoben wird. Während des Intervalls zweier aufeinanderfolgender &S4yl-Impulse treten 12 einen Abstand aufweisende Verschiebungssteuerimpulse AS 4 A auf, wodurch pro Verschiebung des Inhalts des Registers 405 12 aufeinanderfolgende Verschiebungen des Inhalts des Registers 403 auftreten. Auf diese Weise erzeugt der Multiplizierer 420 12 aufeinanderfolgende Produkte für jedes x^-Ausgangssignal des Schieberegisters 405, um 12 Produkte λγ,,,χ^, zu erhalten; für jede Verschiebung des Inhalts des Registers 405 entsprechend den Anforderungen der Gleichung (6 a).
Das Ausgangssignal des Multiplizierers 420 wird einem Addierer 421 zugeführt, in dem das laufend erzeugte Produkt zur Summe des entsprechenden Produkts der vorausgehenden Rahmen addiert wird. Das resultierende Ausgangssignal des Addierers 421 wird unter Steuerung der Verschiebeimpulse ASAA einem Schieberegister 423 zugeführt. Das Schieberegister 423, das unter Steuerung der AS4 Λ-Impulse mit einer Folgefrequenz von 144 Verschiebungen pro Rahmen arbeitet, speichert die laufend akkumulierte Summe eines jeden der 144 Produktausgangssignale des Multiplizierers 420 am Ende eines jeden Rahmens.
Am Ende eines jeden Wortes enthält das Schieberegister 412 12 kodierte Signale entsprechend den Mittelwerten X1(i = 1,2,..., 12) der Gleichung (5), und das Schieberegister 423 speichert die summierten 144 Produkte
Σ Xjnxkn
entsprechend Gleichung (6 a). Am Ende eines jeden Wortes ist das Gatter 413 unter der Steuerung eines Signals EU geöffnet, das im Impulsgenerator 450 in Abhängigkeit von dem über Leitung A kommenden Wortendesignal EU von Fig. 3 erzeugt worden ist. Das Signal EU4 weist die Dauer eines Rahmens auf. Die codierten Signale für X1, ..., 3c12 werden unter Steuerung des vom Generator 450 erzeugten Verschiebesignals AS 4 B (144 Impulse pro Rahmen) der Reihe nach in das Schieberegister 430 geschoben.
Wenn das Schieberegister 430 gefüllt ist, wird ein Gatter 431 durch das Signal BF4 A vom Generator 450 geöffnet, und die zwölf Signale im Register 430 werden in Parallelform in das Schieberegister 432 übertragen. Der Inhalt des Registers 438 wird nun unter Steuerung des Signals BS 4 B verschoben. Beim Register 432 handelt es sich um ein Umlaufregister, das unter Steuerung des Schiebesignals AS 4 B vom Generator 450 betrieben wird, wodurch die 12 Signale im Register 432 der Reihe nach an einem Eingang eines Multiplizierers 434 erscheinen, während ein Signal vom Register 430 am anderen Eingang des Multiplizierers 434 erscheint. Auf diese Weise erhält man am Ausgang des Multiplizierers 434 sequentiell 144 Produkte.
Am Ende eines jeden der aufeinanderfolgenden Wörter werden die Inhalte des Schieberegisters 423 unter Steuerung des Verschiebungssignals AS 4 A (mit einer Folgefrequenz von 144 Codes pro Rahmen) seriell in ein Verzögerungsschieberegister 435 verschoben, und zwar über ein Gatter 427, das auf das Signal EU4 anspricht. Während dieser Übertragung wird ein Gatter 425 mit einem Signal EU4 beaufschlagt, um das Schieberegister 423 freizumachen. Das Schieberegister 435 verzögert das Erscheinen der £ x,nXfa,-kodierten Signale während des Intervalls, in dem die Schieberegister 430 und 432 gefüllt sind. Auf diese Weise werden die über Gatter 460 und 4il kommenden Eingangssignale für einen Subtrahierer 437 entsprechend Gleichung (6 a) ausgerichtet, so daß das Ausgangssignal des Subtrahieren 437 der Gleichung (6 a) entspricht. Das Ausgangssignal des Subtrahierers 437 wird durch ein vom Gatter 323 in Fig. 3 erhaltenes Signal N in einer durch N teilenden Schaltung 450 geteilt, um die /-,^-Elemente der Matrix R zu erzeugen. .
Am Ende einer jeden Äußerung erzeugt der Impulsgenerator 450 ein Signal EU4 A, in Abhängigkeit von dem der Inhalt eines Schieberegisters 441 mit der y4S-Folgefrequenz (144 Verschiebungen pro Rahmen) nach rechts verschoben wird. Das Schieberegister 441 speichert die aufeinanderfolgenden /^-Summenelemente von den Äußerungen der Sprachprobe, so daß die gespeicherten ^-Summenelemente zu den rik-E\ementen von einem Teiler 450' im Addierer 439 addiert werden. Die resultierende akkumulierte Summe wird dann im Schieberegister 441 gespeichert.
Am Ende der gesamten Sprachprobe enthält das Schieberegister 441 die /;t-Summenelemente für die Mittelwert-Kovarianzmatrix I[ entsprechend Gleichung (6 b). Die Elemente der ^-Matrix werden unter Steuerung des Verschiebungssignals Es 4 vom Generator 450 aus dem Register 441 geschoben. Während dieses Verschiebevorgangs spricht ein Gatter 443 auf ein Signal ES 4 vom Generator 450 an, um zu verhindern, daß das Ausgangssignal des Registers 441 dem Addierer 439 zugeführt wird, wodurch das Register 441 freigemacht wird. Das Ausgangssignal des Registers 441 wird unter Steuerung des am Ende der Sprachprobe auftretenden Signals ES 4 einem Teiler oder Dividierer 445 zugeführt, wodurch jedes Σ /^-Element durch L geteilt wird, das vom Zähler 319 über das Gatter 325 in Fig. 3 erhalten worden ist. Das Ausgangssignal des Teilers 445 gelangt unter Steuerung des Signals ES 4 durch das Gatter 160 in Fig. 1 und wird in der Einrichtung 112 zur Erzeugung von Orthogonalparametern benutzt.
so Alternativ dazu kann ein Allzweckrechner, wie der PDP11 oder Nova 800, zur Erzeugung von R verwendet werden. Der Rechner ist dabei so programmiert, daß er die Elemente der Mittelwert-Kovarianzmatrix 7? erzeugt. Ein Fortranprogramm für diesen Zweck ist beschrieben auf den Seiten 32 und 33 von »System/360 Scientific Subroutine Package Version ΠΙ — Programmer's Manual«, Program Number 360 A-CM-03 X, 5. Ausgabe (August 1970), Copyright International Business Machines Corporation 1966,1967,1968. Das Ausgangssignal #des Kovarianzrechners 111 wird unter Steuerung des Signals ES 4 vom Steuerimpulsgenerator 450 während des Bezugsmodusbetriebs über das Gatter IW einem Orthogonalparameterrecnner 112 zugeführt.
Der Rechner 112 erzeugt codierte Signale entsprechend einem vorgeschriebenen Satz orthogonaler Parameter auf der Grundlage der Statistik der Sprachprobe des identifizierten Sprechers. Die orthogonalen Para-
meter sind statistisch unabhängig, und jeder orthogonale Parameter repräsentiert eine Drehung der Koordinaten der Voraussageparameter, die man vom Umsetzrecliner 117 erbalten hat Mit diesem Verfahren erhält man einen Satz sprecherabhängiger, jedoch linguistisch unabhängiger Charakteristika, die die Basis des Sprecherbestätigungssystems gemäß Fig. 1 bilden.
Die Orthogonalparametersignale werden erzeugt durch eine; Eigenvektoranalyse der Voraussageparameter je,· in Abhängigkeit von den vom Rechner 111 erhaltenen Mittelwert-Kovarianzmatrix-Signalen Tf. Die Eigenwerte v, (/ = 1, ..., p), welche die Varianz der Orthogonalparameter über die Äußerung des identifizierten Sprechers repräsentieren, werden entsprechend Gleichung (8) erhalten:
\R - v/1 = 0.
(8)
Dabei repräsentiert ν die Eigenwerte (Varianz) der Orthogonalparameter und _/_ ist die Identitätsmatrix. Auf der Grundlage der Gleichung (8) wird eine Gruppe von Referenzvektorsignalen u^, mit je ρ (12) Elementen aus Gleichung (9) erhalten: ~
(9)
12.
Vj ist der Eigenwert des /-ten Orthogonalparameters. Jeder Orthogonalparameter weist eine eindeutige Beziehung; zu den Voraussagekoeffizienten x, entsprechend Gleichung (10) auf.
ι- 1
(10)
Dabei repräsentiert % das i'-te Element des /c-ten Referenzvektorsignals. Somit erhält man vom Rechner 112 einen Satz von 12 Varianzgrößen (Eigenwerten) V1, ..., V12, und einen Satz von 144 Referenzsignalen «i,i, ··· «12,12· D'e Referenzsignale juw] entsprechen Umsetzkoeffizienten, welche die Voraussageparameter x, in die Orthogonalparameterkoordinaten transformieren. Der Satz der den ufc entsprechenden Bezugssignale kann dann verwendet werden, um einen Satz von Orthogonalparametern für einen Testsprecher aus Voraussageparametern des Testsprechers zu erzeugen. Der Koeffizientensatz >«fe-j wird in einem Speicher 115 b gespeichert, der während des Referenzbetriebs durch ein Identifiziercodesignal IDC von der Sprecheridentifizierlogik 132 addressiert ist. Auf diese V/eise ist für jeden identifizierten Sprecher in einem vorbestimmten Platz des Speichers 115 ein Satz von Referenzsignalen verfügbar. Die Varianz-(Eigenwerte)Signaiie vi, ... V12 werden ähnlich im Speicher 115 agespeichert, der durch ein Sprecheridentifiziercodesignal ZD adressiert ist, wenn das System der Fig. 1 im Referenzbetrieb arbeitet.
Beim Orthogonalparameterrechner 112 kann es sich um einen Allzweckrechner, wie den PDPl 1 oder den Nova 800 handeln, der durch ein oder mehrere Programme die Eigenwerte und die entsprechenden Eigenvektoren der Gleichungen (8) und (9) zu berechnen vermag. Ein Fortranprogramm für die Erzeugung der Eigenwerte v, und die Umsetzkoeffizienten ;«w;, das für diesen Zweck geeigriet ist, kann man im zuvor erwähnten IBM Programmers Manual auf Seite 164
finden.
Die Signale w, (/ = 1,2,..., 12) entsprechend den im Rechner 112 erzeugten Orthogonalparametern werden über ein Gatter 154 einer Einrichtung 113 zur Erzeugung eines Bezugsmittelwertes zugeführt. Die Einrichtung 113 umfaßt arithmetische Schaltungen, die den Mittelwert für jedes Orthogonalparametersignal w, zu erzeugen vermögen, das vom Rechner 112 entsprechend Gleichung (11) erhalten worden ist:
1 L 1 '
W, = Σ — Σ
w„
OD
Dabei ist m>,„ das /-te Orthogonalparametersignal, das im Rahmen η auftritt; JV, die Anzahl der Rahmen in der /-ten Sprachäußerung des identifizierten Sprechers; und L die Gesamtzahl der Äußerungen in der Sprachprobe des identifizierten Sprechers. Gleichung (11) ist beispielsweise gegeben. Es versteht sich, daß andere Formulierungen für vc ebenfalls verwendet werden können. Entsprechend Gleichung (11) kann die Einrichtung 113 eine summierende Logikschaltungsanordnung aufweisen, die unter einer Zählersteuerung codierte Signale verarbeitet.
Fig. 5 zeigt eine Anordnung zur Erzeugung des Satzes von Orthogonalparametermittelwerten W1, ..., wn entsprechend Gleichung (11). Die Signale W1,..., W12 werden während eines jeden Rahmens des Referenzmodus, wenn der Rechner 112 Orthogonalvoraussageparametersignale liefert, unter Steuerung des Signals ES 4 der Reihe nach vom Gatter 156 einem Eingang eines Addierers 502 in Fig. 5 zugeführt. Während des ersten Rahmenausgangssignals des Rechners 112 gelangen die 12 wrSignale des ersten Rahmens zum Addierer 502 und werden der Reihe nach in einem Schieberegister 504 gespeichert, und zwar unter Steuerung von BS 5-Verschiebesignalen von einem Steuergenerator 540. Das Auftreten der BS 5-Verschiebungsimpulse sowie der anderen Steuersignale für den Betrieb der Schaltung nach Fig. 5 wird durch den Generator 540 in Abhängigkeit von Signalen auf den Leitungen A und G vom Taktgeber 103 bzw. der Logiksteuerung 134 gesteuert. Während eines jeden nachfolgenden Rahmens einer Äußerung werden die H',-Signalausgänge dieses Rahmens von der Einrichtung 112 zu den entsprechenden zuvor gespeicherten Werten in einem Register 504 addiert, wie in Gleichung (11) indiziert ist, und die resultierende Summe wird im Register 504 gespeichert. ÄS5-Schiebesignale steuern
so den Betrieb des Registers 504 während der Summierung.
Am Ende der Äußerung wird ein Gatter 508 untei Steuerung von £l/5-Impulsen vom Generator 540 geöffnet, wodurch die Signale vom Register 504 der Reihe nach auf den Eingang einer durch N teilenden Schaltung 510 gegeben werden. Ein Signal, das der Anzah der Rahmen in der Äußerung entspricht, wird vorr Gatter 323 der Fig. 3 dem anderen Eingang der durcl N teilenden Schaltung 510 zugeführt. Demzufolge sine die Ausgangssignale der Schaltung 510 die Mittelwert« der Orthogonalparameter w, über die Äußerung
1 N
Η", = - Σ W,„.
" n- 1
Das Schieberegister 514 enthält die Orthogonalpara meter, die über die vorausgehenden Äußerungen in de Sprechprobe gemittelt sind. Ein Addierer 512 addiei
sukzessiv die Mittelwerte der Orthogonalparameter von der durch N teilenden Schaltung 510 zu der entsprechenden zuvor gespeicherten Summe der Mittelwerte in einem Schieberegister 514. Am Ende der Sprachprobe wird ein Gatter 517 unter der Steuerung eines ES 5-Signals vom Generator 540 geöffnet und die Ausgangssignale des Registers 514 werden der Reihe nach einer durch L teilenden Schaltung 521 mit der BS-Folgefrequenz (12 Verschiebungen pro Rahmen) zugeführt. Das andere Eingangssignal für die Schaltung 521 erhält man über Gatter325 in Fig. 3 vom Äußerungszähler 319, so daß die Ausgangssignale der Schaltung 521 die Mittelwerte für die 12 Orthogonalparameter über die Sprechprobe sind. Diese entsprechend Gleichung (11) erzeugten Mittelwertsignale W1 werden der Reihe nach in ein Schieberegister 523 eingegeben, aus dem Register 523 in Parallelform ausgelesen und über ein Gatter 175 in einen Speicher 115ceingegeben. Das Gatter 175 wird von einem Signal ESSA vom Generator 540 gesteuert
Eine dem Speicher 115 c zugeordnete Adressenlogik 115 rf plaziert die Mittelwerte der Orthogonalparametersignale der Sprechprobe während des durch die Steuerlogik 134 bestimmten Referenzbetriebs unter Steuerung des Adressencodes ZDC von der Sprecheridentifizierlogik 132 in einer ausgewählten Stelle.
Am Ende des Referenzbetriebs enthalten die Speicher 115 a, 115* und 115 c für einen gegebenen identifizierten Sprecher einen Satz von Signalen entsprechend den Varianzen v, der 12 Orthogonalparameter, einen Satz von Signalen entsprechend den Referenzkoeffizienten uto, welche später erhaltene Testvoraussageparametersignale in den vorgeschriebenen Satz von Testorthogonalparametersignalen umzusetzen vermögen, und einen Satz von Signalen entsprechend den Mittelwerten IP,-der 12 Orthogonalparameter. Jeder Satz ist entsprechend dem Sprecheridentifiziercode ZZXT adressierbar. Der Referenzbetrieb gemäß Fig. 1 ist nun für den identifizierten Sprecher beendet. Nachdem der Speicher 115 durch wiederholte Operationen mit Referenzsignalen entsprechend einer Vielzahl identifizierter Sprecher gefüllt ist, kann das System gemäß Fig. 1 verwendet werden, um die Identität eines unbekannten Testsprechers zu überprüfen.
Es sei zu Erläuterungszwecken angenommen, daß der Abtastschaltung 102 von Leitung 101 ein Sprachsignal von einem unbekannten Testsprecher zugeführt wird, nachdem die Referenzsignale entsprechend einer Vielzahl identifizierter Sprecher gespeichert sind. Die Sprecheridentifiziercodeschaltung 132 wird auf einen Code entsprechend der angeblichen Identität des Testsprechers eingestellt. Der Moduswähler 133 wird auf den Testmodus eingestellt und von der Logik 134 werden die Signale TEST und 5 aktiviert.
Unter Steuerung der Signale TEST und S wird das Testsprachsignal in der Abtastschaltung 102 abgetastet, und die codierten Abtastwerte des Testsprachsignals werden der Reihe nach dem linearen Voraussagekoeffizientenrechner 105 zugeführt. Wie zuvor erwähnt, erzeugt der Rechner 105 während eines jeden Rahmens einen Satz von 12 linearen Voraussagekoeffizienten α,,... a,2 mit der ßS-Signalfolgefrequenz, die durch den Zänler305 in Fig. 3 bestimmt ist. Jeder Rahmen weist 200 Sprachabtastwerte i,, ... si00 auf. Die Koeffizienten a,, ... a]2 werden durch den Umsetzrechner 117 in eine andere Darstellung, beispielsweise die Parcor-Darstellung, transformiert, wodurch ein Satz von Voraussageparametern x, entsprechend dem Testsprecher erzeugt und verfügbar gemacht wird.
Die Voraussageparametersignale x, werden über Gatter 163 einer Einrichtung 119 zur Erzeugung von Testsprecher-Orthogonalparametern zugeführt Gleichlaufend wird der Speicher 115 b unter der Adresse der behaupteten Identifikation abgefragt, so daß die Referenzkoeffizientensignale Hj11, ..., ι/η,ΐ2 entsprechend der angeblichen Identität über Gatter Ii5 in die Einrichtung 119 gegeben werden. In Abhängigkeit von den
ίο Voraussageparametem des Testsprechers vom Umsetzrechner 117 und den Bezugskoeffizientensignalen der angeblichen Identität vom Speicher 115 erzeugt die Einrichtung 119 für jeden Rahmen entsprechend Gleichung (12) einen Satz von orthogonalen Testvoraussageparametern Z],... Z12.
uux„
(12)
X1 sind die Testvoraussageparameter des unbekannten Sprechers. Die Einrichtung 119 umfaßt eine Produktbildungsvorrichtung und Schaltungen zum Summieren der Produkte entsprechend den Indizes der Gleichung (12).
Fig. 6 zeigt eine Anordnung, die eine Gruppe von orthogonalen Testparametern für jeden Rahmen von den gespeicherten Referenzsignalen, die man von der Sprachprobe der angeblichen Identität erhalten hat, und die Voraussageparameter, die man für den Testspreeher vom Umsetzrechner 117 während des Testmodus erhalten hat, zu erzeugen vermag. Beim Beginn des Testmodus wird der Speicher 115 b abgefragt, wozu er durch den ZDC-Kode der angeblichen Identität adressiert wird.
Die Referenzsignale für die angebliche Identität vom Speicher 1156 werden über Gatter 165 in Parallelform an ein Schieberegister Ml gegeben. Am Ende der Übertragung sind 144 Koeffizienten uh im Register 601 untergebracht. Während eines jeden Rahmens des Testmodus werden die 12 Voraussageparameter vom Gatter 163 der Reihe nach in ein Schieberegister 602 gegeben. Nachdem 12 Parameterxu...xn entsprechend einem Rahmen in die 12 niedrigstwertigen Positionen des Registers 602 geschoben worden sind, werden diese Parameter in Parallelform aus dem Register 602 ausgelesen und unter Steuerung eines Signals BF6 von einem Steuerimpulsgenerator 620 vom Register 602 über ein Gatter 609 einem Schieberegister 607 zugeführt.
so Die Schieberegister 601 und 607 sind Umlaufschieberegister. Das Schieberegister 601 arbeitet unter Steuerung eines Signals AS 6 vom Generator 620 mit der schnellen ^5-Folgefrequenz (144 Verschiebungen pro Rahmen). Der Inhalt des Schieberegisters 607 läuft unter Steuerung des Signals AS 6 bei jedem Umlauf des Inhalts des Schieberegisters 601 12mal um. Die Ausgangssignale der Register 601 und 607 werden über Gatter 6*3 und 605 auf einen Multiplizierer 611 geführt, in dem die Produkte uux, gebildet werden. Somit werden für jeden Satz aus 12 Voraussageparametem 144 Produkte vom Multiplizierer 611 erhalten. Die Summe eines jeden nachfolgenden Satzes aus 12 Produkten wird in einem Addierer 610 gebildet, dessen Ausgangssignal über einen um eine Ziffer verzögemden Speicher 612 und ein Gatter 613 zurückgeführt wird. Der Multiplizierer 611 und der Addierer 610 arbeiten bei derv4S-(144 Parameter pro Rahmen)Folgefrequenz. Am Ende von 12 /IS-Signalen öffnet das
ÄS6-Signal vom Generator 62· ein Gatter 1S5 und die orthogonalen Parameter
Z*= Σ UuXi
/= 1
entsprechend Gleichung (12) werden über Gatter 185 an eine Einrichtung 123 zur Erzeugung von Testmittelwerten und Varianzen übertragen. Während der Übertragung eines Orthogonalparametersignals ist das Gatter (13 durch ein Signal BS 6 vom Generator 620 gesperrt, so daß die Bildung des nächsten Orthogonalparameters begonnen wird. Am Ende des Rahmens, während welchem -12 Orthogonalparameter in der Schaltung der Fig. 6 erzeugt worden sind, wird der nächste Satz von Voraussageparametern entsprechend dem nachfolgenden Rahmen vom Register 652 zum Register 607 übertragen, um die Orthogonalparameter entsprechend dieses nachfolgenden Rahmens zu bilden.
Die von der Einrichtung 119 erhaltenen Orthogonalparameter Z1,... Z12 für den Testsprecher werden während des Testbetriebs unter Steuerung des Signals BS 6 vom Generator 620 der Einrichtung 123 zugeführt Diese erzeugt ein Signal entsprechend dem Mittelwert Zj eines jeden Orthogonalparameters des Testsprechers und ein Signal entsprechend der Varianz V1 eines jeden Testsprecher-Orthogonalparameters entsprechend Gleichungen (13) und (14).
(14a)
Die Einrichtung 123 umfaßt arithmetische Schaltungen, welche die geforderte Summierung und Mittelwertbildung zu erzeugen vermögen. Fig. 7 zeigt eine Anordnung arithmetischer Einheiten, die Signale entsprechend den Mittelwerten Z1 der Orthogonalparametersignale über die Sprachprobe des Testsprechers, wie man sie aus F i g. 6 erhalten hat, und ein Varianzsignal V, für jeden Orthogonalparameter entsprechend Gleichung (14 a) erzeugt. Die Orthogonalparametersignale Z1, ... Z12 vom Gatter 185 werden sukzessiv einem Addierer 702 in Schaltung 123 zugeführt, und zwar mit der ÄS-Folgefrequenz (12 Parameter pro Rahmen). Ein Schieberegister 704 speichert die Summe der Orthogonalparameter ^z„.. .^z12. Während eines jeden BS 6-Impulses vom Steuergenerator 620 wird ein Orthogonalparameter-Ausgangssignal des Registers 704 zum entsprechenden Orthogonalparameter vom Gatter 185 addiert, und das Resultat wird in das Register 7*4 eingegeben. Am Ende einer Äußerung wird der Inhalt des Registers 704 unter Steuerung des Signals EUl von einem Generator 72· über ein Gatter 705 der Reihe nach einer durch N teilenden Schaltung 7W zugeführt. Zur selben Zeit wird das Ausgangssignal des Registers 704 zur Vorbereitung für die nächste Äußerung durch ein auf ein Signal EUT ansprechendes Gatter 706 gelöscht. Das andere Eingangssignal erhält die durch /Vteilende Schaltung 709 vom Rahmenzähler 317 des Taktgebers 103 in Fig. 3 über das Gatter 323, und die Ausgangssignale der Schaltung 709 sind die Mittelwert-Testparametersignale Z1 der Äußerung entsprechend Gleichung (13).
Diese Mittelwertsignale werden einer Quadrierschfcltung 711 zugeführt, um codierte Signale (Z,)2 zu bilden, die einem Eingang eines Subtrahierers 715 zugeführt werden. Die aufeinanderfolgenden Ausgangssignale des Schieberegisters 704 werden zu dieser Zeit über
ίο das Gatter 705 auch einer Quadrierschaltung 712 zugeführt. Die Quadrierschaltung 712 erzeugt (Z,)2-Signale. Diese Signale werden einem Eingang einer durch N1 teilenden Schaltung 714 zugeführt, so daß die Mittelwerte der (Z,)2-Signale von der Quadrierschaltung 714
is dem anderen Eingang des Subtrahierers 715 zugeführt werden. Die Ausgangssignale des Subtrahierers 715 werden entsprechend (14 a) auf eine durch TV teilende Schaltung 717 gegeben, so daß Varianzsignale V1 gebildet werden. Auf diese Weise werden die Mittelwertsignale Z1 und die Varianzsignale V1 der Testorthogonalparameter entsprechend dem unbekannten Testsprecher zur Verwendung in einer Einrichtung 127 zur Erzeugung von Abweichsignalen gebildet. Die Z1- und Pi-Signale werden nicht von einer unabhängigen Eigenvektoranalyse der Voraussageparameter des Testsprechers erzeugt, sondern von den gespeicherten Bezugssignaien {u^} der angeblichen Identität und den Voraussageparametern für den Testsprecher.
Die Ausgangssignale der Einrichtung 123, der Mittelwert Z, und das Varianzsignal V( für jeden der Testorthogonalparameter werden unter Steuerung von Signalen BSSA von einem Generator 870 (Fig. 8) über Gatter 187 bzw. 189 der Einrichtung 127 zugeführt. Gleichermaßen werden die Mittelwert W1 der Bezugsorthogonalparameter der behaupteten Identität und die Varianz V, eines jeden der orthogonalen Referenzparameter der Einrichtung 127 von den Speichern 115 a bzw. 115 c über Gatter 179 bzw. 181 zugeführt. Das Abweichsignal entsprechend der charakteristischen Differenz zwisehen den Orthogonalparametern des Testsprechers und den gespeicherten orthogonalen Referenzparametern der angeblichen Identität wird entsprechend Gleichung (15) entwickelt.
1 p
■J?..
05,
Ein Abweichsignal kann man auch aus den Differenzen der Mittelwerte lediglich entsprechend dem ersten Term der Gleichung (15) erhalten. Wie man leicht aus Gleichung (15) ersieht, erhält man die Abweichsignalkomponente für jeden Orthogonalparameter aus der Differenz zwischen dem Referenzparametermittelwert W/, der abgeleitet worden ist von der Voraussageanalyse des Referenzsprechers, dessen Identität angenommen worden ist, und dem Testparametermittelwert Z1, der aus der Kombination der Voraussageparameter des Testsprechers und der Referenzkoeffizientensignale der angeblichen Identität erzeugt worden ist. Das Quadrat
der Differenz der Mittelwerte (iv, - Z1)2 wird durch die Varianz v, des orthogonalen Referenzparameters und (Vj- v,)2 wird durch vj geteilt, so daß den Orthogonalparametern, die über die Sprachproben relativ konstant sind (kleine Varianz), ein größeres Gewicht gegeben wird und ein wesentlich kleineres Gewicht den Orthogonalparametern mit großer Änderung. Somit ist das Abweichsignal effektiv eine Funktion jener Orthogonalparameter, die über die Sprechproben betrachtet
relativ konstant sind. Auf diese Weise entspricht das Abweichsignal den Differenzen zwischen jenen Orthogonalparametern, welche linguistisch unabhängig sind, und jenen, die stark vom Sprecher abhängig sind.
Die Einrichtung 127 umfaßt arithmetische Einheiten, welche die erforderlichen Quotienten und die Summierung der Quotienten über die Indizes der Gleichung (15) zu bilden vermögen. Fig. 8 zeigt eine Anordnung zur Erzeugung des Abweichsignals d entsprechend Gleichung (15). Bei Beginn des Testmodus werden die gespeicherten Mittelwerte der orthogonalen Referenzparameter W1 bis W12 der angeblichen Identität vom Speicher 115 c über Gatter 181 in ein Schieberegister 8*1 übertragen. Gleichermaßen werden die gespeicherten Referenzvarianzsignale V1 bis v,2 der angeblichen Identität vom Speicher 115 a über Gatter 179 in ein Schieberegister 805 übertragen. Am Ende der Sprachprobe des Testsprechers werden die Signale entsprechend den Mittelwerten djr Testorthogonalparameter Z1 bis Z12 unter Steuerung des Signals BS % A von der Einrichtung 123 über Gatter 187 in ein Schieberegister 803 übertragen, und die Varianzsignale V1 bis Vn des Testsprechers werden unter Steuerung des Signals BSiA von der Einrichtung 123 über Gatter 189 in ein Schieberegister 807 übertragen. Nach Vollendung der Übertragungen in die Register 805 und 809 werden Gatter 810, 812, 814 und 816 durch ein Signal BSiB vom Generator 870 geöffnet, so daß die gespeicherten codierten Signale in den Registern 801, 803, 805 und 807 unter Steuerung des 5585-Signals sequentiell mit der ÄS-Folgefrequenz (12 Signale pro Rahmen) ausgelesen werden.
Ein Subtrahierer 820 subtrahiert die der Reihe nach erscheinenden Z,-Signale von den entsprechenden RfrSignalen, um (W,-Z,)-Signale zu bilden. Das Ausgangssignal des Subtrahieren 820 gelangt auf einen Eingang eines Teilers 822, nachdem es in einer Quadrierschaltung 823 verarbeitet worden ist, und das Ausgangssignal des Schieberegisters 805 wird auf den anderen Eingang des Teilers 822 gegeben, wodurch der Teiler 822 Signale
(\ü — 7\2
erzeugt. Das Ausgangssignal der Teilerschaltung 822 gelangt auf einen Eingang eines Addierers 825, dem ein zweites Eingangssignal zugeführt wird, das von einer Rückkopplungsschleife stammt, die eine Verzögerungseinrichtung 827 und ein Gatter 829 umfaßt. Der so Addierer 825 summiert die zwölf aufeinanderfolgenden Ausgangssignale der Quadrierschaltung 823 und das daraus resultierende Signal ist
12
ty», -
55
V/
am Ende der Periode, in welcher die Summierung geschieht. Nach der Summierung wird das Gatter 829 durch ein Signal £7Tgesperrt, und das Summensignal gelangt unter Steuerung eines Signals EFi durch ein Gatter 851.
Ein Subtrahierer 831 subtrahiert die vom Register 805 erhaltenen Referenzvarianzsignale v, von den entsprechenden Testsprechervarianzsignalen V1 des Registers 807. Das Ausgangssignal des Subtrahierers 831 wird einem Teiler 835 zugeführt, der einen zweiten Eingang aufweist, der vom Register 865 über einen Wurzel-aus-Zwei-Multiplizierer 833 gespeist wird. Auf diese Weise wird ein Signal entsprechend
erzeugt Eine Quadrierschaltung 837 multipliziert das Ausgangssignal des Teilers 835 mit sicL selbst und gibt das resultierende Signal auf einen Addierer 839. Der Addierer 839 erzeugt ein Signal entsprechend
12 .
£1 2 V v,
- «V
und weist ein Eingangssignal auf, das von einer Rückkopplungsschleife mit einer Verzögerungseinrichtung 84· und einem Gatter 842 stammt Nach der Summierung der zwölf Signale im Addierer 83t wird das Gatter 842 durch ein Signal £FS gesperrt und Gatter 850 wird durch ein Signal EFi vom Generator 870 geöffnet. Die Ausgangssignale der Addierer 825 und 839 werden dann über Gatter 850 und 851 auf einen Addierer 843 geführt, in dem das codierte Abweichsignal entsprechend Gleichung (15) erzeugt wird.
Das Ausgangssignal der Einrichtung 127 ist ein einziges Signal d, das die Differenz zwischen den Testsprechereigenschaften und den Eigenschaften des angeblichen, zuvor identifizierten Sprechers angibt. Dieses Signal wird über ein Gatter 190 unter Steuerung des Signals EFi vom Generator 87Θ einem Eingang eines !Comparators 129 zugeführt. Dem anderen Eingang des !Comparators 129 wird ein codiertes Schwellenwertsignal vorbestimmter Größe zugeleitet, das der maximal akzeptablen Abweichung für eine Bestätigung des Testsprechers entspricht. Wenn das Abweichsignal von der Einrichtung 127 größer als dieser Schwellenwert ist, wird ein erster Ausgang des Komparators 129 aktiviert, um die Zurückweisung der angeblichen Identität des Testsprechers anzuzeigen. Wenn das Abweichsignal d vom Generator 127 gleich oder kleiner als der dem Komparator 129 zugeführte Schwellenwertcode ist, sind die Unterschiede zwischen den Testsprechereigenschaften und den im Speicher 115 gespeicherten Referenzeigenschaften derart, daß die Identität des Sprechers akzeptiert wird.
Vorteilhafterweise ergibt der Vergleich der Orthogonalparameter Eigenschaften, die stark sprecherabhängig und im wesentlichen unabhängig von der Linguistik sind. Die Anordnung des Systems gemäß Fig. 1 erfordert lediglich, daß die Refere.nzkoeffizientensignale und die Orthogonalparametersigiiale zur Speicherung während des Referenzbetriebs erzeugt werden. Da die Orthogonalparameter des Testsprechers nicht unabhängig erzeugt werden, sondern von den Referenzkoeßlzientensignalen und den Voraussageparametern des Testsprechers, ist das während des Testbetriebs erhaltene Abweichsignal viel empfindlicher gegenüber Unterschieden zwischen den Referenzeigenschaften und den Testeigenschaften, wie man sie vom System nach Fig. 1 erhalten hat. Ferner kann die Erzeugung der orthogonalen Testparameter in einer viel kürzeren Zeit durchgeführt werden, wodurch eine On-Line-Kontrolle, d. h., eine schritthaltende Kontrolle, erleichtert ist.
Das System nach Fig. 1 kann gemäß Fig. 2 modifiziert werden, um die Identität eines unbekannten Sprechers als einen von vielen zuvor identifizierten
Sprechern festzustellen. Die Identifizierung des unbekannten Sprechers erfordert einen Vergleich der abgeleiteten orthogonalen Parametereigenschaften des unbekannten Sprechers mit entsprechenden Eigenschaften eines jeden zuvor identifizierten Sprechers und die Auswahl der am besten passenden Orthogonalparameter von zuvor identifizierten Sprecheirn. Somit werden sowohl der Referenz- als auch der Testbetrieb benötigt.
Im Referenzbetrieb werden Kotsffizientensignale, Mittelwertsignale und Varianzsignale für jeden identifizierten Sprecher erzeugt und gespeichert, und zwar auf der Basis des vorgeschriebenen Satzes von orthogonalen Parametersignalen, die von einer Voraassageanalyse der Sprechprobe des identifizierten Sprechers stammen. Der Referenzbetrieb für die Sprecheridentifizierung ist im wesentlichen identisch mit dem im Zusammenhang mit Fig. 1 beschriebenen Referenzbetrieb.
Im Testbetrieb für die Sprecheridentifizierung wird eine Voraussageanalyse für die Äußerungen des unbekannten Sprechers durchgeführt, und es werden entsprechende Voraussageparameter erhalten und gespeichert. Die Koeffizientensignale für den ersten identifizierten Sprecher werden aus dem Speicher wieder hervorgeholt und mit den Voraussagesignalen des unbekannten Sprechers kombiniert, um einen Satz von orthogonalen Testvoraussageparametern zu bilden. Die Mittelwerte und Varianzen dieser Parameter werden erzeugt und mit den gespeicherten Referenzmittelwerten und Varianzen für den ersten identifizierten Sprecher verglichen. Das als Ergebnis des Vergleichs erhaltene Abweichsignal wird dann zusammen mit dem Identitätscode des ersten identifizierten Sprechers einem Detektor für ein Minimumabweichsignal zugeführt. Der Testvorgang wird für jeden identifizierten Sprecher der Reihe nach wiederholt, und das Minimumabweichsignal wird festgestellt und zusammen mit der entsprechenden Identität gespeichert. Das Minimumubweichsignal von allen Testoperationen wird denjenigen Eigenschaften eines identifizierten Sprechers zugeordnet, die am besten zu jenen passen, die für den unbekannten Sprecher abgeleitet worden sind, so daß die Identität des unbekannten Sprechers bestimmt wird.
Ein Auiiführungsbeispiel für ein Sprecheridentifiziersystems ist in Fig. 2 gezeigt. Die Anordnung der Fig. 2 ist im wesentlichen gleich dem System der Fig. 1 mit der Ausnahme, daß ein Sprecheridentifizierzähler 210 die Folge der benötigten Testoperationen steuert, um die abgeleiteten orthogonalen Voraussageeigenschaften für den unbekannten Sprecher mit den entsprechenden gespeicherten Eigenschaften der vielen identifizierten Sprecher zu vergleichen. Es ist ein Voraussageparameterspeicher 215 als Quelle für die Voraussageparameter des unbekannten Sprechers bei der Folge von Testoperationen vorgesehen, und außerdem ist ein Detektor 230 hinzugefügt, der das Minimumabweichsisnal berechnet und die diesem Minimumabweichsignal entsprechende Identität speichert
Gemäß Fig. 2 werden von der Steueilogik 134 während des Referenzbetriebs Signale REF und S geliefert In Abhängigkeit von der Identität eines bekannten Sprechers erzeugt die Logik 132 einen Bezugsidentifiziercode RID, welcher der Adressenlogik 115 d zugeführt wird, um Zugriff zu den Speicherplätzen zu erhalten, in denen die Referenzkoeffizienten, Mittelwerte und Varianzsignale des identifizierten Sprechers unterzubringen sind. Die Äußerungen des identifizierten Sprechers werden in der Abtastschaltung 102 abgetastet und die resultierenden Abtastwerte werden Rahmen für Rahmen dem Rechner 105 zugeführt, wie es im Zusammenhang mit Fig. 1 beschrieben worden ist. Die im Rechner 105 erzeugten linearen Voraussagekoeffizienten werden im Umsetzrechner 117 in ausgewählte Voraussageparameter, beispielsweise PARCOR-Parameter, transformiert, und diese werden dann zum Kovarianzrechner 111 gegeben. Die orthogonalen Parameterkoeffizientensignale und Varianzsignale vom Rechner 112 werden gemäß Adressierung durch die Logik 115 rf in den Speichern 115 a bzw. 115 ö untergebracht, und die vor der Einrichtung 113 erzeugten orthogonalen Parametermitteiwerte werden gleichermaßen im Speicher 115 cgespeichert. Der Referenzbetrieb der Fig. 2 ist im wesentlichen dem im Zusammenhang mit Fig. 1 beschriebenen gleich.
Beim Beginn des Testbetriebs, bei dem die Äußerungen eines unbekannten Sprechers der Abtastschaltung 102 zugeführt werden, wird der Sprecheridentifizierzähler 210 anfangs so eingestellt, daß der von ihm stammende Adressencode IDC dem ersten identifizierten Sprecher entspricht. Die Voraussageparameter vom Umsetzrechner 117 entsprechend den Äußerungen des unbekannten Sprechers werden über Gatter 148 in den Voraussageparameterspeicher 215 gebracht und von dort über das Gatter 163 zur Einrichtung 119 für die Erzeugung von orthogonalen Testparametern übertragen. Die gespeicherten Referenzkoeffizientensignale, die durch den /DC-Kode des ersten identifizierten Sprechers adressiert worden sind, werden aus dem Speicher 115 b ausgelesen und über Gatter 165 der Einrichtung 119 zugeleitet. Wie im Zusammenhang mit Fig. 1 erwähnt, bildet die Einrichtung 119 einen vorgeschriebenen Satz von orthogonalen Voraussageparametersignalen in Abhängigkeit von den gespeicherten Referenzkoeffizientensignalen eines identifizierten Sprechers und den Voraussageparametern des unbekannten Sprechers. Diese Voraussageparametersignale werden zur Einrichtung 123 für die Erzeugung von Testmittelwert- und -varianzsignalen übertragen, in dem die Parametermittelwert- und -varianzsignale gebildet werden, wie es bei Fig. 1 beschrieben worden ist.
Die Referenzmittelwert- und -varianzsignale für den ersten identifizierten Sprecher werden aus den Speichern 115 α bzw. 115 cgelesen und über Gatter 179 und
so 181 der Einrichtung 127 zugeführt. In Abhängigkeit von den Testmittelwert- und -varianzsignalen aus der Einrichtung 123 und den Referenzmitteiwert- und -varianzsignalen von den Speichern 115 β und 115 c wird in der Einrichtung 127 ein codiertes Abweichsignal gebildet, das für die Differenzen zwischen den Referenz- und Testeigenschaften repräsentativ ist Dieses Abweichsignal wird an den Detektor 230 übertragen und der Zählwert des Zählers 210 wird so erhöht, daß der nächste identifizierte Sprecher adressiert ist
ω Die Testoperation wird für jeden identifizierten Sprecher wiederholt und der Detektor 230 zeichnet das Minimumabweichsignal auf. Wenn die Testoperation für den letzten identifizierten Sprecher durchgeführt ist, enthält der Detektor 230 das Minimumabweichsignal.
Dieses wird ausgelesen, um die Identität des unbekannten Sprechers zu liefern.
Fig. 9 zeigt eine Logikanordnung, die als Detektor 230 geeignet ist In Fig. 9 speichert ein Schieberegi-
ster 903 das Minimumabweichsignal, das bei einem Vergleich des Registers 903 mit einem Register 9#5, das das Abweichsignal von der Einrichtung 127 speichert, bestimmt worden ist. Ein Schieberegister 901 speichert den Identifiziercode IDC des Minimumabweichsignals. Das Register 90S speichert das laufende Abweichsignal und Schieberegister 907 speichert den /DC-Kode entsprechend dem laufenden Abweichsignal. Am Anfang wird das Schieberegister 903, welches das Minimumabweichsignal speichert, auf seinen höchstmöglichen Wert eingestellt. Der erste Abweichsignalcode, der von der Einrichtung 127 am Ende der ersten Testoperation erhalten worden ist, wird im Register 905 untergebracht, und der entsprechende /DC-Code wird in das Register 907 gegeben. Der Abweichsignalcode vom Register 903 wird über ein Gatter 934 unter Steuerung eines öS-Schiebesignals von einem Steuergenerator 940 auf einen Eingang eines !Comparators 913 und über eine Verzögerungseinrichtung 911 außerdem an einen Eingang eines Gatters 922 gegeben. Der Abweichsignalcode vom Register 905 wird über ein Gatter 93i dem anderen Eingang des !Comparators 913 und außerdem über eine Verzögerungseinrichtung 915 einem Gatter 924 zugeführt. Da der Code im Register 905 während der ersten Testoperation kleiner als der Höchstwertcode im Register 903 ist, wird der Komparator 913, der feststellt, welcher der beiden Abweichsignalcodes kleiner ist, so eingestellt, daß er das Gatter S24 beim Auftreten eines US2-Signals vom Steuergenerator 940 öffnet, und der Code vom Register 905 wird über ein Puffergatter 930 in das Register 903 gegeben. Gleichlaufend wird der Identifikationscode IDC im Register 907 über ein Gatter 926 an das Register 9*1 übertragen. Die Verzögerungseinrichtungen 9#9,911,915 und 917 verzögern ausreichend lange, um ausgewählte Gatter der Gatter 920,922, 924 und 92S zu betätigen, nachdem der Vergleich im Komparator 913 durchgeführt ist.
Am Ende der nächsten Testoperation ist der vom Generator 127 erhaltene zweite Abweichsignalcode in
ίο das Register 905 eingegeben, und dieser Abweichcode wird mit dem Abweichcode im Register 903 verglichen. Der Code im Register 903 entspricht dem zuvor erhaltenen Minimumabweichcode. Der Komparator 913 erlaubt die Eingabe des kleineren der Codes in den Registern 903 und 905 in das Register 903 und er läßt auch die Übertragung desjenigen Ideniiiikationscodes zu, der dem kleineren Abweichsignal im Register 901 entspricht. Auf diese Weise ist am Ende einer jeden Testoperation der kleinere Abweichsignalcode durch den Komparator 913 ausgewählt und im Register 903 gespeichert. Am Ende der letzten Testoperation ist das von den Testoperationen stammende Minimumabweichsignal im Register 903 gespeichert und der entsprechende Identifikationscode ist im Register 901 gespeichert. Der Identifikationscode im Register 901 ist zu dieser Zeit der jenes identifizierten Sprechers, dessen Orthogonalparametercharakteristika am besten zu den Orthogonalparametercharakteristika des unbekannten Sprechers passen. Der unbekannte Sprecher ist damit identifiziert.
Hierzu 7 Blatt Zeichnungen

Claims (14)

10 15 25 30 Patentansprüche:
1. Verfahren zur Erkennung der Identität eines unbekannten Sprechers, bei dem ein Referenzsatz von Voraussageparametern durch Analyse einer Sprachprobe eines identifizierten Sprechers gebildet, ein Satz erster Signale, die für dis Identität des identifizierten Sprechers repräsentativ sind, von dem Referenzsatz von Voraussageparametern erzeugt, ein Testsatz von Voraussageparametern durch Analyse einer Sprachprobe des unbekannten Sprechers gebildet, ein Satz zweiter Signale von dem Testsatz von Voraussageparametern erzeugt wird und die ersten Signale mit den zweiten Signalen zur Feststellung einer angenommenen Identität des unbeVannten Sprechers verglichen werden, dadurchgekennz e i c h η e t, daß die Erzeugung des Satzes erster Signale (W1) eine Multiplikation des Referenzsatzes von Voraussageparametern (x,) mit einem Referenzsatz von Koeffizienten (uw), die vom Referenzsatz von Voraussageparametern (x,) abgeleitet sind, beinhaltet, und daß die Erzeugung des Satzes zweiter Signale (Z,) eine Multiplikation des Testsatzes von Voraussageparametern mit dem Referenzsatz von Koeffizienten (ufa) beinhaltet
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Referenzsatz von Voraussageparametern (x,) durch Multiplikation mit dem Referenzsatz von Koeffizienten (ufe) in einen Referenzsatz von orthogonalen Voraussageparametern (wk) transformiert wird, daß der Satz von ersten Signalen (W,) die Mittelwerte des Referenzsatzes von orthogonalen Voraussageparametern (wk) darstellt, daß der Testsatz von Voraussageparametern durch Multiplikation mit dem Referenzsatz von Koeffizienten (1^) in einen Testsatz von orthogonalen Voraussageparametern (Zk) transformiert wird und daß der Satz zweiter Signale (Z,) die Mittelwerte des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Satz erster Signale (W1) einen Satz von Signalen (V) enthält, die die Varianzen des Referenzsatzes von orthogonalen Voraussageparametern (wk) darstellen, und daß der Satz zweiter Signale (Z1) einen Satz von Signalen (V,) enthält, die die Varianzen des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellen.
4. Verfahren nach einem der Ansprüche 1-3, dadurch gekennzeichnet, daß ein Referenzsatz von Voraussageparametern (x,) aus einer Voraussageanalyse einer Sprachprobe jedes von vielen identifizierten Sprechern gebildet wird, daß der Satz erster Signale (iv,) und der Referenzsatz von Koeffizienten (Ui0) für jeden der identifizierten Sprecher erzeugt wird, daß ein Satz zweiter Signale (Z,) entsprechend jedem identifizierten Sprecher aus dem Testsatz von Voraussageparametern eines unbekannten Sprechers und dem Referenzsatz von Koeffizienten (uu) eines jeden identifizierten Sprechers erzeugt wird, und daß der Satz erster Signale (W1-) eines jeden identifizierten Sprechers mit dem entsprechenden Satz zweiter Signale (Z,) verglichen wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß beim Vergleich des Satzes erster Signale (W,) eines jeden identifizierten Sprechers mit dem entsprechenden Satz zweiter Signale (Z,) ein
40
45
50
60
65 drittes Signal (d) gebildet wird, das die Differenzen zwischen dem Satz erster Signale (W,) eines jeden identifizierten Sprechers und dem entsprechenden Satz zweiter Signale (Z,) darstellt, und daß das minimale dritte Signal (d) festgestellt wird, um die Identität des unbekannten Sprechers zu bestimmen.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das dritte Signal (d) mit einem Schwellenwert verglichen wird, um die Identität des unbekannten Sprechers zu bestätigen bzw. zu verneinen.
7. Sprechererkennungsvorrichtung zur Durchführung des Verfahrens nach Anspruch 1, mit einer Einrichtung zur Bildung eines Referenzsatz.es von Voraussageparametern durch Analyse einer Sprachprobe eines identifizierten Sprechers, einer auf den Referenzsatz von Voraussageparametern ansprechenden Einrichtung zur Erzeugung eines Satzes von ersten Signalen, die für die Identität des Sprechers repräsentativ sind, einer Einrichtung zur Bildung eines Testsatzes von Voraussageparametern durch Analyse einer Sprachprobe eines unbekannten Sprechers, einer Einrichtung zur Erzeugung eines Satzes von zweiten Signalen vom Testsatz von Voraussageparametern und mit einer Einrichtung zum Vergleichen des Satzes von ersten Signalen mit dem Satz von zweiten Signalen, um eine angenommene Identität des unbekannten Sprechers festzustellen, dadurch gekennzeichnet, daß die Einrichtung zur Bildung des Satzes von ersten Signalen (W,) eine Einrichtung (112) zur Multiplikation des Satzes von Voraussageparametern (x,) mit einem Bezugssatz von Koeffizienten (ufe), die vom Referenzsatz von Voraussageparametern (x,) abgeleitet sind, aufweist, und daß die Einrichtung zur Erzeugung eines Satzes zweiter Signale (Z,) eine Einrichtung (119) zur Multiplikation des Testsatzes von Voraussageparametern mit dem Referenzsatz von Koeffizienten (uu) aufweist.
8. Sprechererkennungsvorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung des Satzes erster Signale (W1) eine Einrichtung (112) zur Erzeugung eines Referenzsatzes orthogonaler Voraussageparameter (wk), die im wesentlichen unabhängig vom Sprachinhalt der Sprachprobe des identifizierten Sprechers sind, umfaßt, sowie eine auf den Referenzsatz orthogonaler Voraussageparameter (wk) ansprechende Einrichtung (115) zur Erzeugung des Satzes erster Signale (W1), die die Mittelwerte des Referenzwertes orthonaler Voraussageparameter (wk) darstellen.
9. Sprechererkennungsvorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung des Satzes zweiter Signale (Z1) eine auf den Referenzsatz von Koeffizienten («w) und den Testsatz von Voraussageparametern ansprechende Einrichtung (119) zur Bildung eines Testsatzes von orthogonalen Voraussageparametern (Zk) umfaßt, sowie eine auf diesen Testsatz ansprechende Einrichtung (123) zur Erzeugung des Satzes zweiter Signale (Z,), die die Mittelwerte des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellen, und daß die Vergleichseinrichtung eine Einrichtung (127) zum Vergleichen des Satzes erster Signale (W1-) mit dem Satz zweiter Signale (Z,) aufweist.
10. Sprechererkennungsvorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die Ver-
gleichseinrichtung (127) eine Einrichtung zur Erzeugung eines dritten Signals (d) aufweist, das die Differenz zwischen dem Satz erster Signale (Sv,) und dem Satz zweiter Signale (Z,) darstellt
11. Sprechererkennungsvorrichtung .nach Anspruch 10, gekennzeichnet durch eine Einrichtung zur Erzeugung eines Schwellenwertsignals, das die zulässige Differenz zwischen dem Satz erster Signale (Wj) und dem Satz zweiter Signale (Z1) darstellt, und eine Einrichtung (129) zum Vergleichen des dritten Signals (d; mit dem Schwellenwertsignal.
12. Sprechererkennungsvorrichtung nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, daß eine Einrichtung (115) vorgesehen ist, die einen Satz erster Signale (W1), die jeden der Vielzahl von identifizierten Sprechern darstellen, und einen Referenzsatz von Koeffizienten (ufe) entsprechend jedem identifizierten Sprecher speichert, daß eine Einrichtung (119,123) für jeden identifizierten Sprecher einen Satz zweiter Signale (Z1) erzeugt, der eine angenommene Identität des unbekannten Sprechers darstellt, und daß die Vergleichseinrichtung (127) für jeden identifizierten Sprecher den Satz erster Signale (W/) mit dem Satz zweiter Signale (Z/) vergleicht.
13. Sprechererkennungsvorrichtung nach Anspruch 10 und 12, gekennzeichnet durch eine Einrichtung (230), die auf die von der Vergleichseinrichtung (127) für jeden identifizierten Sprecher erzeugten dritten Signale (d) anspricht und das Minimum der dritten Signale feststellt, wobei diesem Minimum des dritten Signals (d) die beste Übereinstimmung zwischen dem Satz erster Signale (,W1) der identifizierten Sprecher und dem entsprechenden Satz zweiter Signale (Z1) darstellt, und eine Einrichtung zur Erzeugung eines Identifizierurigssignals entsprechend demjenigen identifizierten Sprecher, für den das minimale dritte Signal (d) erzeugt worden ist. ι , .-.·! ι '.ι:· ' :■ ; -'
14. Sprechererkennungsvorrichtung nach einem der Ansprüche! 7 bis 13, dadurch gekennzeichnet; daß der Referenzsatz von Voraussageparamefern (jc,) einen Satz orthogonaler. Parameter einer linearen Voraussageanalyse der Sprachproben aufweist.
DE2659083A 1975-12-31 1976-12-27 Verfahren und Vorrichtung zur Sprechererkennung Expired DE2659083C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/645,520 US4032711A (en) 1975-12-31 1975-12-31 Speaker recognition arrangement

Publications (2)

Publication Number Publication Date
DE2659083A1 DE2659083A1 (de) 1977-07-14
DE2659083C2 true DE2659083C2 (de) 1984-04-12

Family

ID=24589348

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2659083A Expired DE2659083C2 (de) 1975-12-31 1976-12-27 Verfahren und Vorrichtung zur Sprechererkennung

Country Status (4)

Country Link
US (1) US4032711A (de)
JP (1) JPS5941600B2 (de)
DE (1) DE2659083C2 (de)
GB (1) GB1556218A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10144087B4 (de) * 2001-09-08 2008-10-30 Promediascan Ag Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
JPS57500901A (de) * 1980-05-19 1982-05-20
JPS58196595A (ja) * 1982-05-12 1983-11-16 日本電気株式会社 パタ−ン特徴抽出装置
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
WO1987000332A1 (en) * 1985-07-01 1987-01-15 Ecco Industries, Inc. Speaker verification system
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
EP0530645B1 (de) * 1991-08-30 1999-07-14 Texas Instruments Incorporated Telefonsignalklassifizierung und Verfahren und System zur Telefonnachrichtenablieferung
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5623539A (en) * 1994-01-27 1997-04-22 Lucent Technologies Inc. Using voice signal analysis to identify authorized users of a telephone system
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
DE102006047982A1 (de) * 2006-10-10 2008-04-24 Siemens Audiologische Technik Gmbh Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe
CN107527620B (zh) 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN109470389A (zh) * 2018-11-27 2019-03-15 上海应用技术大学 应变式扭矩测量系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10144087B4 (de) * 2001-09-08 2008-10-30 Promediascan Ag Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen

Also Published As

Publication number Publication date
JPS5941600B2 (ja) 1984-10-08
DE2659083A1 (de) 1977-07-14
US4032711A (en) 1977-06-28
JPS5293207A (en) 1977-08-05
GB1556218A (en) 1979-11-21

Similar Documents

Publication Publication Date Title
DE2659083C2 (de) Verfahren und Vorrichtung zur Sprechererkennung
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2659096C2 (de)
DE3306730C2 (de)
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE3244476C2 (de)
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE2953262C2 (de)
DE3339288C2 (de)
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE2613258A1 (de) System zur automatischen spracherkennung
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE4031638C2 (de)
DE10047723A1 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE4433772A1 (de) Sensoranordnung und Verfahren zur Meßwerterfassung mit der Sensoranordnung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3018508A1 (de) Sprachanalysiervorrichtung
DE2949582A1 (de) Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
DE2730662A1 (de) Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE2758505B2 (de) Spezialisierter Digitalrechner zur statistischen Informationsverarbeitung

Legal Events

Date Code Title Description
OD Request for examination
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee