DE2659083C2 - Verfahren und Vorrichtung zur Sprechererkennung - Google Patents
Verfahren und Vorrichtung zur SprechererkennungInfo
- Publication number
- DE2659083C2 DE2659083C2 DE2659083A DE2659083A DE2659083C2 DE 2659083 C2 DE2659083 C2 DE 2659083C2 DE 2659083 A DE2659083 A DE 2659083A DE 2659083 A DE2659083 A DE 2659083A DE 2659083 C2 DE2659083 C2 DE 2659083C2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- speaker
- prediction parameters
- signal
- orthogonal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprechererkennung gemäß Oberbegriff des
Anspruchs 1 bzw. des Anspruchs 7. >·■
Es ist oft wichtig, die Identität einer Person aus den physikalischen Merkmalen ihrer Sprache zu bestätigen
oder festzustellen. Ein solcher Vorgang ist erwünscht für telefonisch durchgeführte Transaktionen,· tür eine
rasche Kreditbestätigung oder für Sicherheitseinrichtungen, wie der kontrollierte Zulaß zu gesicherten
Bereichen. Bisher beruhter, automatische Sprechererkennungssysteme
auf dem Vergleich ·■ einer vorbestimmten gesprochenen Nachricht mit einem zuvor
gespeicherten Bezugswert derselben oder einer ähnlichen Nachricht, oder auf einem Vergleich zwischen
ausgewählten Parametern spezieller Sprachproben der Person mit zuvor gespeicherten Parametern einer entsprechenden
Sprachprobe. Solche Parameter können aus Spracheigenschaften abgeleitet werden, wie Tonhöhen,
Intensität, eine bestimmte Frequenzformante oder deren Bandbreite oder irgendeine Eigenheit der
Stimmritzenwelle.
Bei einem in der US-FS 34 66 394 beschriebenen System werden ausgewählte Maximal- und Minimalwerte der die Sprache bildenden Druckwelle einer
jeden Höhenperiode verwendet, um charakteristische ■->
Parameter eines gesprochenen Eingangssignal eines
unbekannten Sprechers zu erhalten. Diese Parameter werden selektiv mit einem oder mehreren zuvor gespeicherten
Bezugsparameter verglichen. Als Ergebnis des Vergleichs wird eine Entscheidung hinsichtlich der
in Identität des unbekannten Sprechers getroffen. Diese
Anordnung macht es jedoch erforderlich, daß die charakteristischen Parameter bezüglich der Lautstärke
normiert werden, um Fehler zu verhindern, die dadurch
auftreten können, daß die Person mit einer anderen
is Lautstärke, als bei der Gewinnung der Bezugsparameter,
spricht
Bei einer anderen Anordnung, die in der US-PS 37 00 815 beschrieben ist, wird die charakteristische
Weise, in der eine Person einen Testsatz ausspricht, mit einer zuvor gespeicherten Sprachweise desselben Satzes
verglichen. Für diesen Vergleich ist jedoch eine zeitliche Ausrichtung der Test- und der Bezugssprachprobe
erforderlich. Dementsprechend wird die Zeitskala der Testsprachprobe verschoben, um sie in zeitliche Übereinstimmung
mit dem Bezugssatz zu bringen, bevor der Vergleich durchgeführt wird.
Diese und weitere bekannte Verfahren basieren auf Spracheigenschaften, die vom Inhalt der Sprachprobe
abhängen. Ein besseres Verfahren spricht auf die beson-
jo deren Eigenschaften des Sprachapparates eines Sprechers
an und nicht auf den Inhalt der Sprachprobe. So erzeugt eine Sprachanalyse, die auf der linearen Voraussagbarkeit
der Sprachwellenform beruht, eine Gruppe von Eigenschaften, die für eine automatische Sprechererkennung
erwünschtisind und im wesentlichen unabhängig von der Tonhöhen- und, Intensitätsinforinatiori
sind. Eine Sprechererkennungsanordnung, die auf einemn;Vergleich liöeardr;..Voraussageeigenschaften
eines nichtidentifizierten Sprechers-mit zuvor gespei*
cherten: linearen Voraussageeigenschaften; bekannter
Sprecher beruht ist nicht auf ausgewählte Sprachmerkmale, wie fbrinantehfifequenzen und die Stimmritzelnwelle,
beschränkt. Folglich können die; linearen Vorausagecharäkteristika?
eine bessere Grundlage für eine Sprechererkennung bilden j Die Verwendung linearer
Vdraüssageeigerischaften 'für eine Sprechererkennung
erfordörnijedoch 'genereif'eine Segmentierung oder
Zeitnormierung, da die Eigenschaften sowohl linguistische als auch sprecherabhängige Information umso
fassen. ■ ■■ ■■■'-■■' >v·
Bei einem bekannten Verfahren bzw. einer bekannten Vorrichtung dieser Art, von denen im Oberbegriff der
Patentansprüche 1 und 7 ausgegangen'wird (Aufsatz von Sj Furui und F. Itabara »Talker Recognition by
Statistical Features of Speech Sounds« in »Electronics and Communications in Japan«, Band 56-A, Nr. 11,
Seiten 62-71) wird ein Sprachenerkennungssystem verwendet, bei dem eine Sprachprobe zur Gewinnung
eines Bezugsvektors analysiert wird, der auf partiell orthogonalen Vektoren (PARCOR) und'den^Besonderhesiten
dei*'Gfundfrequenz für die Sprachpröbe beruht.
Die Spracherkennung erfolgt durch Messung der Differenz
'wischen dem Vektor, der den orthogonalen Koeffizienten und den Besonderheiten der Grundfrequenz
b5 eines unbekannten Sprechers entspricht, und dem
Referenzvektor eines identifizierten Sprechers. Auch bei dem bekannten Verfahren ist die Abhängigkeit vom
sprachlichen Inhalt der Sprachprobe noch verhältnis-
mäßig groß, und außerdem sind die erforderlichen Berechnungen zeitaufwendig. Der Erfindung liegt demgemäß
die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Sprechererkennung verfügbar zu
machen, die im wesentlichen unabhängig vom linguistischen Inhalt eines Sprachsignals sind und eine Identifizierung
eines Sprechers in sehr kurzer Zeit ermöglicht. Die Lösung der Aufgabe ist in den Ansprüchen 1
bzw. 7 angegeben. Ausgestaltungen und Weiterbildungen
sind Gegenstand der Unteransprüche.
Da der Referenzsatz von Koeffizienten auch bei der Erzeugung der zweiten Signale aus dem Testsatz von
Voraussageparametern benutzt wird, brauchen die Koeffizienten für einen unbekannten Sprecher nicht
berechnet zu werden. Daher kann die Identifizierung in sehr kurzer Zeit durchgeführt werden. Darüber hinaus
ist der Vergjeich zwischen dem Satz erster und zweiter Signale sehr empfindlich, so daß eine sehr zuverlässige
Identifizierung möglich ist.
Im folgenden wird die Erfindung anhand von Ausführungsformen näher erläutert. Dabei zeigt
Fig. 1 das Blockschaltbild eines Sprecherbestätigungssystems;
Fig. 2 das Blockschaltbild eines Sprechererkennungssystems;
Fig. 3 ein genaueres Blockschaltbild der Taktschaltungen
in den Fig. 1 und 2;
Fig. 4 ein genaueres Blockschaltbild des Kovarianzrechners
der Fig. 1 und 2;
Fig. 5 ein genaueres Blockschaltbild einer Einrichtung
zur Erzeugung von Referenzparameter-Mittelwertsignalen gemäß Fig. 1 und 2;
Fig. 6 ein genaueres Blockschaltbild einer Einrichtung
zur Erzeugung von orthogonalen Testparametern gemäß Fif;. I und 2;
Fig. 7 ein genaueres Blockschaltbild einer Einrichtung
zur Erzeugung von Testmittelwert- und Varianzsignalen gemäß Fig. 1 und 2;
F i g. 8 ein genaueres Blockschaltbild einer Einrichtung zur Erzeugung von Abweichsignalen gemäß
Fig. 1 und 2 und
Fig. 9 ein genaueres Blockschaltbild eines Detektors
für Minimalabweichsignale gemäß Fig. 2.
Ein Sprecherbestätigungssystem ist in Fig. 1 gezeigt,
in der eine Logikschaltung 132 für einen Sprecheridentifiziercode ein Codesignal WC entsprechend
der angeblichen Identität des Sprechers erzeugt. Ein Signal wird einem Moduswähler 133 zugeführt, um zu
bestimmen, ob eine Referenzinformation für den Sprecher gespeichert oder die Identität des Sprechers bestätigt
werden soll. Der Moduswähler 133 gibt ein Signa! an eine Steuerlogik 134, um das System gemäß Fig. 1
in einen Referenzmodus oder einen Testmodus zu versetzen. Im Referenzmodus werden die Sprechproben
des Sprechers, der durch den ZDC-Code von der Logikschaltung
132 identifiziert wurde, analysiert, und es werden Referenzsignale, Mittelwertsignale und noch zu
erläuternde Varianzsignale entsprechend einer Voracssageanalyse der Sprechprobe auf Leitung lOLerzeugt
und gespeichert. Im Testmodus werden orthogonale Parametersignale aus den gespeicherten Referenzsignalen
des angeblichen Sprechers und den Voraussageparameter des unbekannten Testsprechers erzeugt
Die Referenz-, Mittelwert- und Varianzsignale für den Testsprecher werden erzeugt und mit den gespeicherten
Referenz-, Mittelwert- und Varianzsignalen der angeblichen Identität verglichen.
Zu Erläuterungszwecken sei angenommen, daß die
Steuerlogik 134 das System der Fig. 1 durch Erzeugen
von Ausgangssignalen REF und S und G in den Referenzmodus versetzt. Das Sprachsignal des Referenzsprechers
wird einer Abtastschaltung 102 über die Leitung 101 zugeführt. Diese kann beispielsweise eine
Telefonleitung sein. Das Durchlaßband des Eingangssprachsignals wird auf den Bereich zwischen 100 Hz
und 4 kHz begrenzt und das bandbegrenzte Signal wird unter der Steuerung eines Taktgebers 103 mit einer
ίο Folgefrequenz von 10 kHz abgetastet. Es können auch
andere Frequenzbereiche und andere Abtastfrequenzen verwendet werden. Ein sogenannter Endpunktdetektor
109 empfängt das Ausgangssignal der Schaltung 102. Auf der Basis des Energiegehaltes des Sprach-
-; signals, der von einer Summierung der absoluten Werte
der abgetasteten Ausgangssignale erhalten worden ist, wird das Ende des Sprachausdrucks festgestellt, so daß
der Taktgeber 103 über ein Gatter 140 abgeschaltet werden kann. Beim Beginn eines jeden neuen Sprachausdrucks
schaltet ein Signal vom Detektor 109 den Taktgeber 103 ein. Eine zur Verwendung in F i g. 1 geeignete
Endpunktdetektoranordnung ist in der US-PS 39 09 532 beschrieben.
Der in F i g. 3 gezeigte Taktgeber 103 umfaßt einen Abtastimpulsgenerator 301, der gleichen Abstand aufweisende Impulse SP für die Abtastfrequenz von 10 kHz erzeugt. Die SP-Impulse werden der Abtastschaltung 102 zugeführt, in der kodierte Abtastwerte des Sprachsignals erhalten werden. Das Ausgangssignal des Generators 301 wird außerdem einem Impulsgenerator 303 zugeführt. Die SP-Impulse vom Generator 301 synchronisieren den Generator 303, der während eines jeden Rahmens aus 200 Sf-Abtastimpulsen vom Generator 301 gleichen Abstand aufweisende AS-Impulse erzeugt. Die ^S-Impulse werden einem Zähler 305 zugeführt, der für jeden zwölften yiS-Impuls einen Ausgangsimpuls BS erzeugt. Folglich werden während eines jeden Rahmens von 144 /iS-Impulsen gleichen Abstand aufweisende SS-Impulse erzeugt. Der Stand des Zählers A erscheint auf Leitung 330. Ein Zähler 307 spricht auf die SS-Impulse an, die am Ausgang des Zählers 305 erscheinen, und der Stand des Zählers B erscheint auf Leitung 331. Der Zähler A wird bei jedem zwölften /IS-Impuls und der Zähler B wird bei jedem zwölften ßS-Impuls zurückgesetzt. Die AS- und 5S-Impulse und die anderen Taktsignale werden über die Leitung A auf die anderen Abschnitte der Fig. 1 verteilt, um die Zeitsteuerung der Operationen dieser anderen Abschnitte zu bewirken.
Der in F i g. 3 gezeigte Taktgeber 103 umfaßt einen Abtastimpulsgenerator 301, der gleichen Abstand aufweisende Impulse SP für die Abtastfrequenz von 10 kHz erzeugt. Die SP-Impulse werden der Abtastschaltung 102 zugeführt, in der kodierte Abtastwerte des Sprachsignals erhalten werden. Das Ausgangssignal des Generators 301 wird außerdem einem Impulsgenerator 303 zugeführt. Die SP-Impulse vom Generator 301 synchronisieren den Generator 303, der während eines jeden Rahmens aus 200 Sf-Abtastimpulsen vom Generator 301 gleichen Abstand aufweisende AS-Impulse erzeugt. Die ^S-Impulse werden einem Zähler 305 zugeführt, der für jeden zwölften yiS-Impuls einen Ausgangsimpuls BS erzeugt. Folglich werden während eines jeden Rahmens von 144 /iS-Impulsen gleichen Abstand aufweisende SS-Impulse erzeugt. Der Stand des Zählers A erscheint auf Leitung 330. Ein Zähler 307 spricht auf die SS-Impulse an, die am Ausgang des Zählers 305 erscheinen, und der Stand des Zählers B erscheint auf Leitung 331. Der Zähler A wird bei jedem zwölften /IS-Impuls und der Zähler B wird bei jedem zwölften ßS-Impuls zurückgesetzt. Die AS- und 5S-Impulse und die anderen Taktsignale werden über die Leitung A auf die anderen Abschnitte der Fig. 1 verteilt, um die Zeitsteuerung der Operationen dieser anderen Abschnitte zu bewirken.
Die Ausgangssignale der Zähler 305 und 307 auf den Leitungen 330 und 331 werden außerdem einem Rahmenanfangsdetektor
309 zugeführt, der beim Stand Null beider Zähler A und B einen Impuls erzeugt. Dieser
Impuls definiert den Beginn eines jeden Rahmens von 200 SP-Abtastimpulsen, während welchem 144 AS-Impulse
und 12 ßS-Impulse auftreten. Das Ausgangssignal
des Detektors 309 wird einem Rahmenzähler 317 zugeführt, der die Rahmenzahl in einem jeden
Sprachausdruck der Sprechprobe, die dem Abtaster 102 zugeführt wird, zählt Ein Detektor 313 für das Ende von
Sprachausdrücken spricht auf den Fall an, daß sich beide Zähler A und B in ihrem zwölften Zustand befinden,
und auf ein Signal vom Ausgang des Endpunktdetektors 109, um Sprachausdruck-Ende-Signale EU und
£Z7zu erzeugea Das Signal EUwM über eine Verzögerungseinrichtung
335 dem Zähler 317 zugeführt, um diesen am Ende eines jeden Sprachausdrucks zurückzusetzen,
und es wird direkt einem Sprachausdruck-
zähler 319 zugeführt, der die Anzahl der Sprachausdrücke in der Sprachprobe zählt.
Ein Detektor 315 für das Ende einer Probe spricht auf die Zustände der Zähler 305 und 307, auf den Endpunktdetektor
109_und einen Schweigen-Detektor 107 an, um ES- und £S-(Probenende-)Signale am Ende der
Sprachprobe zu erzeugen. Das Signal ES stellt über eine Verzögerungseinrichtung 333 am Ende der Sprachprobe
den Sprachausdruckzähler 319 zurück. Die Feststellung einer Endpunktübereinstimmung mit einem Schweigen-Intervall
am Ende eines Rahmens erzeugt die ES- und E?-Signale.
Zum Zweck der Berechnung der Mittelwerte und Varianzen der Orthogonalparameter im System der
Fig. 1 ist es erforderlich, die Anzahl der Rahmen verfügbar zu haben, die in jedem Sprachausdruck auftreten,
und die Anzahl der Sprachausdrücke in der Sprachprobe. Die Anzahl ./V der Rahmen, die sich von
Sprachausdruck zu Sprachausdruck ändert, ist am Ausgang des Rahmenzählers 317 verfügbar. Dieses Ausgangssignal
wird im Gatter 323 beim Auftreten des EU-Signals am Ende eines jeden Sprachausdrucks abgetastet.
Der Ausgang des Gatters 323 erzeugt ein kodiertes Signal N, das der Rahmenzahl im gerade beendeten
Sprachausdruck entspricht. Ein Gatter 325 tastet den Zustand des Sprachausdruckzählers 319 am Ende der
im Detektor 315 festgestellten Sprachprobe ab, so daß ein codiertes Signal L entsprechend der Anzahl der
Sprachausdrücke oder Wörter in der Sprachprobe am Ende einer jeden Sprachprobe verfügbar ist.
Die Abtastsignalfolge mit der Folgefrequenz von 10 kHz wird vom Ausgang der Abtastschaltung 102 an
einen Rechner 105 zur Berechnung von linearen Voraussagekoeffizienten gegeben, in dem die Abtastwerte
s„, in Blöcken oder Rahmen aus 200 codierten Signalen
si bis J2OO gespeichert werden. Es können natürlich
andere Rahmenanordnungen verwendet werden. Eine lineare Voraussageanalyse des abgetasteten Sprachsignals
wird durchgeführt in Übereinstimmung mit
P Sm = Σ diSm - i
i ' 1
mit m = 1, 2 200
(D
ρ ist die Anzahl der Pole des Voraussageanalysemodells.
Die lineare Voraussageanalyse basiert auf einem Voraussagefilter, bei dem alle Pole linear sind, wie es
bekannt und beschrieben ist in »Speech Analysis and Synthesis by Linear Prediction of the Speech Wave«
von B. S. Atal und S. L. Hanauer, Journal of Acoustic Society of America, Vol. 50, S. 637-655, 1951. Zum
Zweck der Sprechererkennung hat sich ein 12-Pol-Filter
als angemessen herausgestellt. Es können jedoch Anordnungen mit anderer Polzahl verwendet werden.
Die linearen Voraussagekoeffizienten α, sind die Koeffizienten
der abgetasteten Sprachsignale sm entsprechend der Darstellung der Gleichung (1). Für das in
Fig. 1 verwendete 12-Pol-Filter werden die Koeffizienten
a\ bis a12 im Koeffizientenrechner 105 injedem
Rahmen der 200 Abtastwerte durch die Korrelation der abgetasteten Sprachsignale Sn, entsprechend Gleichungen
(2) und (3) erzeugt
Υ*~Σ
n, Ar= 1,2...
= Σ a,Y\,.k\, k-l,2...
(2)
(3)
Dabei ist A/die Anzahl der Abtastwerte injedem Rahmen
(A/ = 200) und ρ = 12.
Bekanntlich werden die linearen Voraussagekoeffizienten α, der Gleichung (1) so gewählt, daß der mittlere
quadratische Voraussagefehler entsprechend Gleichungen (2) und (3) minimiert wird. Gemäß Gleichung (2)
wird dies durchgeführt durch eine Korrelationsanalyse des Blocks der Probensignale sm bis sm+M. Die resultierenden
linearen Voraussagekoeffizienten α, bis a12
ίο werden für jeden Rahmen aus M Sprachabtastungen
(Λ/ = 200) erhalten.
Beim Rechner 105 kann es sich um einen Rechner handeln, der in der US-PS 36 31 520 beschrieben ist.
Dieser Rechner erzeugt lineare Voraussageparameter entsprechend der bekannten Kovarianzmethode. Alternativ
kann jeder Rechner verwendet werden, wie der PDP11 oder Nova 800, der das Fortranprogramm
gemäß Anhang A der Literaturstelle »Formant Trajectory Estimation from a Linear Least-Squares inverse
Filter Formulation« von John D. Markel, Speech Communications Research Laboratory, Inc., Monographie
Nr. 7, Oktober 1971, verarbeiten kann. Dieses Fortranprogramm basiert auf der bekannten Korrelationsmethode.
Jeder Rahmen hat eine Dauer von 20 ms und, wie man leicht erkennt, sind die Koeffizienten a, bis
α, 2 des Rahmens am Ende des den Abtastwerten i, bis
ijoo entsprechenden Rahmens auf der Ausgangsleitung
136 verfügbar. Bei der Anordnung der Fig. 1 können die Koeffizienten O1 bis a12 entweder mit der Kovarianz-
oder der Korrelationsmethode abgeleitet werden.
Es können zwar die linearen Voraussagekoeffizienten a, direkt zur Erzeugung einer Gruppe von orthogonalen
Parametern verwendet werden, aber es hat sich als vorteilhaft erwiesen, statt dessen andere bekannte Voraussagekoeffizienten
zu verwenden, wie Parcor- oder logarithmische Bereichskoeffizienten. Die Parcor-Koeffizienten
sind direkt aus den linearen Voraussagekoeffizienten des Rechners 105 ableitbar. Die Parcor-Koeffizienten
stehen in Beziehung zu der Kennzeichnung des Allpolfilters in Form eines nichtgleichförmigen akustischen
Rohres, das durch Kaskadieren von ρ gleichförmigen zylindrischen Abschnitten gleicher Länge
gebildet ist. Die Parcor-Koeffizienten entsprechen den Reflexionseigenschaften der Abschnitte des akustischen
Rohres und stehen zu den linearen Voraussagekoeffizienten entsprechend Gleichung (4 a) in
Beziehung:
(4a)
Dabei ist K, der /-te Parcor-Koeffizient, mit / = 1,
2,... ρ, und ep' ist der /-te lineare Voraussagekoeffizient
für einy-Pol-Linearvoraussagemodell O = 1, 2,..., p).
Die logarithmischen Bereichskoeffizienten stehen gleichermaßen in Beziehung zum Modell eines nichtgleichförmigen
akustischen Rohres und sind eindeutig ableitbar vom linearen Voraussagekoeffizienten, der vom
Rechner 105 entsprechend Gleichung (4 b) erhalten worden ist:
α, = log
Α+ΑΓΛ
VT1V"
VT1V"
(4b)
Ein Koefiizientenumsetzrechner 117 erzeugt eine Gruppe von Voraussageparametern, wie die Parcor-Parameter,
aus den linearen Voraussagekoeffizienten α,
und umfaßt eine arithmetische Schaltungsanordnung, die entsprechend Gleichungen (4 a) oder (4 b) arbeitet
oder ein Rechner sein kann, wie der PDPIl oder
Nova 800, bei dem das Fortranprogramm gemäß Seite 128 von »Linear Prediction of Speech-Theory and
Practice« von J. D. Markel, A. H. Greag, Jr. und H. Wakita, Speech Communications Research Laboratory,
Inc., Monograph Nr. 10, September 1973, verwendet werden kann.
Die vom Umsatzrechner 117 erhaltenen Voraussagekoeffizienten
x, werden einem Gatter 148 zugeführt. Das Gatter 148 gibt während eines jeden Rahmens des
Bezugsmodus unter der Steuerung eines Signals BS 4 vom Steuergenerator 450 die Voraussagekoeffizientensignale
X1, ... X12 des Rahmens in einen Kovarianzrechner
111, und zwar während desselben Rahmens und mit der ÄS-Folgefrequenz (12 pro Rahmen). Der
Schweigen-Detektor 107 spricht auf die erzeugten Sprachabtastwerte sm im Rechner 105 an und schaltet
den Takt 103 während der Rahmen, während welcher Schweigen herrscht, über das Gatter 350 sowie am Ende
eines Rahmens ab. Beim Schweigen-Detektor 107 kann es sich um irgendeinen der bekannten Detektoren handeln,
die auf die Energie oder spektrale Eigenschaften des Sprachsignals ansprechen, und die beispielsweise
in der US-PS 40 15 088 beschrieben sind. Der Detektor 107 gibt über die Leitung 198 ein Signal an das Gatter
350 des Taktgebers 103, das die Erzeugung von Voraussageparametersignalen
während der als Schweigen gekennzeichneten Rahmen verhindert.
Der Kovarianzrechner 111 erzeugt mehrere Signale, die der Mittelwert-Kovarianzmatrix It entsprechen,
welche von den Voraussageparametersignalen erhalten worden sind, die dem Rechner 111 während der Sprachprobe
zugeführt worden sind. Bekanntlich wird die Kovarianzmatrix aus einer statistischen Analyse der
Abweichung der Voraussageparameter von ausgewählten Mittelwerten der Parameter abgeleitet. Der Kovarianzrechner
111 erzeugt ausgewählte Mittelwerte der Voraussagekoeffizienten x, entsprechend Gleichung
(5):
- ι N
x, = — Σ x,n, ι = 1, 2 .. .,ρ (ρ = 12).
Dabei ist N die Anzahl der Rahmen im Sprachausdruck und xln ist der /-te Voraussageparameter des n-ten
Rahmens. Bekanntlich umfaßt die Kovarianzmatrix R Elemente r,h die in Gleichung (6) definiert sind.
1 N
r,k = — Σ (x,„ - Xj) (Xfc, - χ*)
r,k = — Σ (x,„ - Xj) (Xfc, - χ*)
J* π = 1
- -^ Σ [X1nXj - χ, χ*
A = {rik}, i, k =1,2... p.
Die Kovarianzmatrix R ist eine p-mal-/»-Matrix, die
für ρ = 12144 Elemente aufweist Die Kovarianzmatrix
Ri bezeichnet diejenige Kovarianzmatrix, die für den
/-ten Sprachausdruck eines gegebenen Sprechers berechnet worden ist Die Mittelwert-Kovarianzmatrix
Rfür alle Sprachausdrücke des identifizierten Sprechers
erhält man durch Mitteln entsprechend Gleichung (7):
^-Σ Rl.
L ;_l~
Dabei ist L die Anzahl der Sprachausdrücke in einer Sprechprobe eines gegebenen Sprechers. Gleichung (7)
ist beispielsweise gegeben. Für die Berechnung von j können andere bekannte Formulierungen benutzt
werden. Somit repräsentiert die Mittelwert-Kovarian·*.-matrix
It die statistische Analyse der Sprachausdrücke oder Wörter der Sprechprobe des identifizierten Sprechers,
von welcher im Orthogonalparameterrechner 112 während des Referenzmodus Referenzorthogonalparameter
erzeugt werden sollen.
Der Kovarianzrechner 111 umfaßt mehrere arithmetische Einheiten, die Signale entsprechend den spezifizierten
Mittelwerten der Voraussageparameter x, und kodierte Signale entsprechend den Elementen der Mittelwert-Kovarianzmatrix
jRT zu erzeugen vermögen. Eine Anordnung zur Erzeugung codierter Signale entsprechend
den Elementen der Mittelwert-Kovarianzmatrix K ist in Fig. 4 gezeigt. Gemäß Fig. 4 erzeugen ein
Schieberegister 401, ein Addierer 410 und ein Schieberegister 421 zusammenwirkend Signale entsprechend
den Mittelwerten X1 der Gleichung (5). Das Schieberegister
401 weist 24 Stufen auf und vermag die Voraussagekoeffizienten X1,..., X12 während eines jeden Rahmens
von 200 Sprachabtastwerten über das Gatter 148 vom Umsetzrechner 117 zu empfangen. Der Steuergenerator
450 reagiert auf Signale vom Taktgeber 103 und auf Signale von der Logik 134 und erzeugt eine
Gruppe von Steuersignalen zum Betreiben der Schaltung gemäß Fig. 4, einschließlich eines Freigabeimpulses
ÖS 4 für jeden Rahmen, in dem x,-Signale über Gatter 148 der Fig. 1 in das Register 401 zu übertragen
sind. Die 12 ÄS4-Impulse werden während dieses Intervalls ebenfalls dem Register 401 zugeführt, um dessen
Verschiebefrequenz zu steuern. Die BSAA-Impulse,
die nach dem Füllen des Registers 401 vom Generator 450 erhalten worden sind, bewirken, daß die
12 niedrigstwertigen x,-Signale im Register 401 an einen Eingang eines Addierers 410 gegeben werden.
Entsprechend Gleichung (5) werden die χ,-Ausgangssignale des Schieberegister 401 über ein Gatter 411 der Reihe nach an einen Addierer 410 gegeben. Im (5) Addierer 410 wird jeder Vorraussageparameter x, zum
Entsprechend Gleichung (5) werden die χ,-Ausgangssignale des Schieberegister 401 über ein Gatter 411 der Reihe nach an einen Addierer 410 gegeben. Im (5) Addierer 410 wird jeder Vorraussageparameter x, zum
entsprechenden Voraussageparameter x, des vom Schieberegister 412 erhaltenen vorausgehenden Rahmens
addiert. Der Inhalt des Registers 412 wird unter Steuerung der Schiebeimpulse BS 4 A vom Generator
450 verschoben. Das Ausgangssignal des Addierers 410 wird unter Steuerung der BS 4 Λ-Impulse sukzessiv in
das Register 412 geschoben. Am Ende eines Ausspruchs enthält das Schieberegister 412 die akkumulierten
Summen der Voraussageparameter der Aussprüche oder Wörter Σ*ι, ■·· Σχϋ· Jede Summe ist proportional
zum Mittelwert des vorausgehenden der zwölf Voraussageparameter.
Zu Beginn eines jeden Rahmens werden die im Register 401 gespeicherten niedrigstwertigen 12 Parameter
in Parallelfonn über Gatter 407 und 409 zu Schieberegistern
403 bzw. 405 übertragen. Dies wird durchgeführt unter Steuerung des SF4-Signals vom Generator 450,
das beim Beginn eines jeden Rahmens, für den Voraussageparameter x,- verfügbar sind, auftritt Das Schieberegister
405 gibt die Vöraussageparameter des Rahmens
X1,... X12 über ein Gatter 404 der Reihe nach an einen
Eingang eines Multiplizierers 420, und zwar mit der Folgefrequenz von 12 Verschiebungen pro Rahmen
unter Steuerung der BS 4 Λ-Impulse vom Generator
(7) 450.
Beim Schieberegister 403 handelt es sich um ein
(6)
(6a)
(6b)
(6b)
Umlaufschieberegister, das die gespeicherten Voraussageparameter der Reihe nach an den anderen Eingang
des Multiplizierers 420 gibt und außerdem den Ausgangsparameter wieder zum Eingang des Schieberegisters
zurückfuhrt. Der Inhalt des Registers 403 wird unter Steuerung der AS4,4-Impulse mit einer Folgefrequenz
von 144 Verschiebungen pro Rahmen verschoben, während der Inhalt des Registers 405 unter
Steuerung der BS 4 ^-Impulse vom Generator 450 mit einer Folgefrequenz von 12 Verschiebungen pro Rahmen
verschoben wird. Während des Intervalls zweier aufeinanderfolgender &S4yl-Impulse treten 12 einen
Abstand aufweisende Verschiebungssteuerimpulse AS 4 A auf, wodurch pro Verschiebung des Inhalts des
Registers 405 12 aufeinanderfolgende Verschiebungen des Inhalts des Registers 403 auftreten. Auf diese Weise
erzeugt der Multiplizierer 420 12 aufeinanderfolgende Produkte für jedes x^-Ausgangssignal des Schieberegisters
405, um 12 Produkte λγ,,,χ^, zu erhalten; für
jede Verschiebung des Inhalts des Registers 405 entsprechend den Anforderungen der Gleichung (6 a).
Das Ausgangssignal des Multiplizierers 420 wird einem Addierer 421 zugeführt, in dem das laufend
erzeugte Produkt zur Summe des entsprechenden Produkts der vorausgehenden Rahmen addiert wird. Das
resultierende Ausgangssignal des Addierers 421 wird unter Steuerung der Verschiebeimpulse ASAA einem
Schieberegister 423 zugeführt. Das Schieberegister 423, das unter Steuerung der AS4 Λ-Impulse mit einer
Folgefrequenz von 144 Verschiebungen pro Rahmen arbeitet, speichert die laufend akkumulierte Summe
eines jeden der 144 Produktausgangssignale des Multiplizierers 420 am Ende eines jeden Rahmens.
Am Ende eines jeden Wortes enthält das Schieberegister 412 12 kodierte Signale entsprechend den Mittelwerten
X1(i = 1,2,..., 12) der Gleichung (5), und das
Schieberegister 423 speichert die summierten 144 Produkte
Σ Xjnxkn
entsprechend Gleichung (6 a). Am Ende eines jeden Wortes ist das Gatter 413 unter der Steuerung eines
Signals EU geöffnet, das im Impulsgenerator 450 in Abhängigkeit von dem über Leitung A kommenden
Wortendesignal EU von Fig. 3 erzeugt worden ist. Das Signal EU4 weist die Dauer eines Rahmens auf.
Die codierten Signale für X1, ..., 3c12 werden unter
Steuerung des vom Generator 450 erzeugten Verschiebesignals AS 4 B (144 Impulse pro Rahmen) der
Reihe nach in das Schieberegister 430 geschoben.
Wenn das Schieberegister 430 gefüllt ist, wird ein Gatter 431 durch das Signal BF4 A vom Generator 450
geöffnet, und die zwölf Signale im Register 430 werden in Parallelform in das Schieberegister 432 übertragen.
Der Inhalt des Registers 438 wird nun unter Steuerung
des Signals BS 4 B verschoben. Beim Register 432 handelt es sich um ein Umlaufregister, das unter Steuerung
des Schiebesignals AS 4 B vom Generator 450 betrieben wird, wodurch die 12 Signale im Register 432
der Reihe nach an einem Eingang eines Multiplizierers 434 erscheinen, während ein Signal vom Register 430
am anderen Eingang des Multiplizierers 434 erscheint. Auf diese Weise erhält man am Ausgang des Multiplizierers
434 sequentiell 144 Produkte.
Am Ende eines jeden der aufeinanderfolgenden Wörter werden die Inhalte des Schieberegisters 423
unter Steuerung des Verschiebungssignals AS 4 A (mit einer Folgefrequenz von 144 Codes pro Rahmen) seriell
in ein Verzögerungsschieberegister 435 verschoben, und zwar über ein Gatter 427, das auf das Signal EU4
anspricht. Während dieser Übertragung wird ein Gatter 425 mit einem Signal EU4 beaufschlagt, um das
Schieberegister 423 freizumachen. Das Schieberegister 435 verzögert das Erscheinen der £ x,nXfa,-kodierten
Signale während des Intervalls, in dem die Schieberegister 430 und 432 gefüllt sind. Auf diese Weise
werden die über Gatter 460 und 4il kommenden Eingangssignale
für einen Subtrahierer 437 entsprechend Gleichung (6 a) ausgerichtet, so daß das Ausgangssignal
des Subtrahieren 437 der Gleichung (6 a) entspricht. Das Ausgangssignal des Subtrahierers 437 wird durch
ein vom Gatter 323 in Fig. 3 erhaltenes Signal N in einer durch N teilenden Schaltung 450 geteilt, um die
/-,^-Elemente der Matrix R zu erzeugen. .
Am Ende einer jeden Äußerung erzeugt der Impulsgenerator
450 ein Signal EU4 A, in Abhängigkeit von dem der Inhalt eines Schieberegisters 441 mit der
y4S-Folgefrequenz (144 Verschiebungen pro Rahmen)
nach rechts verschoben wird. Das Schieberegister 441 speichert die aufeinanderfolgenden /^-Summenelemente
von den Äußerungen der Sprachprobe, so daß die gespeicherten ^-Summenelemente zu den rik-E\ementen
von einem Teiler 450' im Addierer 439 addiert werden. Die resultierende akkumulierte Summe wird
dann im Schieberegister 441 gespeichert.
Am Ende der gesamten Sprachprobe enthält das Schieberegister 441 die /;t-Summenelemente für die Mittelwert-Kovarianzmatrix I[ entsprechend Gleichung (6 b). Die Elemente der ^-Matrix werden unter Steuerung des Verschiebungssignals Es 4 vom Generator 450 aus dem Register 441 geschoben. Während dieses Verschiebevorgangs spricht ein Gatter 443 auf ein Signal ES 4 vom Generator 450 an, um zu verhindern, daß das Ausgangssignal des Registers 441 dem Addierer 439 zugeführt wird, wodurch das Register 441 freigemacht wird. Das Ausgangssignal des Registers 441 wird unter Steuerung des am Ende der Sprachprobe auftretenden Signals ES 4 einem Teiler oder Dividierer 445 zugeführt, wodurch jedes Σ /^-Element durch L geteilt wird, das vom Zähler 319 über das Gatter 325 in Fig. 3 erhalten worden ist. Das Ausgangssignal des Teilers 445 gelangt unter Steuerung des Signals ES 4 durch das Gatter 160 in Fig. 1 und wird in der Einrichtung 112 zur Erzeugung von Orthogonalparametern benutzt.
Am Ende der gesamten Sprachprobe enthält das Schieberegister 441 die /;t-Summenelemente für die Mittelwert-Kovarianzmatrix I[ entsprechend Gleichung (6 b). Die Elemente der ^-Matrix werden unter Steuerung des Verschiebungssignals Es 4 vom Generator 450 aus dem Register 441 geschoben. Während dieses Verschiebevorgangs spricht ein Gatter 443 auf ein Signal ES 4 vom Generator 450 an, um zu verhindern, daß das Ausgangssignal des Registers 441 dem Addierer 439 zugeführt wird, wodurch das Register 441 freigemacht wird. Das Ausgangssignal des Registers 441 wird unter Steuerung des am Ende der Sprachprobe auftretenden Signals ES 4 einem Teiler oder Dividierer 445 zugeführt, wodurch jedes Σ /^-Element durch L geteilt wird, das vom Zähler 319 über das Gatter 325 in Fig. 3 erhalten worden ist. Das Ausgangssignal des Teilers 445 gelangt unter Steuerung des Signals ES 4 durch das Gatter 160 in Fig. 1 und wird in der Einrichtung 112 zur Erzeugung von Orthogonalparametern benutzt.
so Alternativ dazu kann ein Allzweckrechner, wie der PDP11 oder Nova 800, zur Erzeugung von R verwendet
werden. Der Rechner ist dabei so programmiert, daß er die Elemente der Mittelwert-Kovarianzmatrix 7?
erzeugt. Ein Fortranprogramm für diesen Zweck ist beschrieben auf den Seiten 32 und 33 von »System/360
Scientific Subroutine Package Version ΠΙ — Programmer's Manual«, Program Number 360 A-CM-03 X,
5. Ausgabe (August 1970), Copyright International Business Machines Corporation 1966,1967,1968. Das
Ausgangssignal #des Kovarianzrechners 111 wird unter
Steuerung des Signals ES 4 vom Steuerimpulsgenerator 450 während des Bezugsmodusbetriebs über das Gatter
IW einem Orthogonalparameterrecnner 112 zugeführt.
Der Rechner 112 erzeugt codierte Signale entsprechend einem vorgeschriebenen Satz orthogonaler Parameter
auf der Grundlage der Statistik der Sprachprobe des identifizierten Sprechers. Die orthogonalen Para-
meter sind statistisch unabhängig, und jeder orthogonale Parameter repräsentiert eine Drehung der
Koordinaten der Voraussageparameter, die man vom Umsetzrecliner 117 erbalten hat Mit diesem Verfahren
erhält man einen Satz sprecherabhängiger, jedoch linguistisch unabhängiger Charakteristika, die die Basis
des Sprecherbestätigungssystems gemäß Fig. 1 bilden.
Die Orthogonalparametersignale werden erzeugt durch eine; Eigenvektoranalyse der Voraussageparameter
je,· in Abhängigkeit von den vom Rechner 111
erhaltenen Mittelwert-Kovarianzmatrix-Signalen Tf.
Die Eigenwerte v, (/ = 1, ..., p), welche die Varianz
der Orthogonalparameter über die Äußerung des identifizierten Sprechers repräsentieren, werden entsprechend
Gleichung (8) erhalten:
\R - v/1 = 0.
(8)
Dabei repräsentiert ν die Eigenwerte (Varianz) der Orthogonalparameter und _/_ ist die Identitätsmatrix.
Auf der Grundlage der Gleichung (8) wird eine Gruppe von Referenzvektorsignalen u^, mit je ρ (12) Elementen
aus Gleichung (9) erhalten: ~
(9)
12.
Vj ist der Eigenwert des /-ten Orthogonalparameters.
Jeder Orthogonalparameter weist eine eindeutige Beziehung; zu den Voraussagekoeffizienten x, entsprechend
Gleichung (10) auf.
ι- 1
(10)
Dabei repräsentiert % das i'-te Element des /c-ten
Referenzvektorsignals. Somit erhält man vom Rechner 112 einen Satz von 12 Varianzgrößen (Eigenwerten)
V1, ..., V12, und einen Satz von 144 Referenzsignalen
«i,i, ··· «12,12· D'e Referenzsignale juw] entsprechen
Umsetzkoeffizienten, welche die Voraussageparameter x, in die Orthogonalparameterkoordinaten transformieren.
Der Satz der den ufc entsprechenden Bezugssignale kann dann verwendet werden, um einen Satz
von Orthogonalparametern für einen Testsprecher aus Voraussageparametern des Testsprechers zu erzeugen.
Der Koeffizientensatz >«fe-j wird in einem Speicher 115 b
gespeichert, der während des Referenzbetriebs durch ein Identifiziercodesignal IDC von der Sprecheridentifizierlogik
132 addressiert ist. Auf diese V/eise ist für jeden identifizierten Sprecher in einem vorbestimmten
Platz des Speichers 115 ein Satz von Referenzsignalen verfügbar. Die Varianz-(Eigenwerte)Signaiie vi, ... V12
werden ähnlich im Speicher 115 agespeichert, der durch ein Sprecheridentifiziercodesignal ZD adressiert ist,
wenn das System der Fig. 1 im Referenzbetrieb arbeitet.
Beim Orthogonalparameterrechner 112 kann es sich um einen Allzweckrechner, wie den PDPl 1 oder den
Nova 800 handeln, der durch ein oder mehrere Programme die Eigenwerte und die entsprechenden Eigenvektoren
der Gleichungen (8) und (9) zu berechnen vermag. Ein Fortranprogramm für die Erzeugung der
Eigenwerte v, und die Umsetzkoeffizienten ;«w;, das für
diesen Zweck geeigriet ist, kann man im zuvor erwähnten IBM Programmers Manual auf Seite 164
finden.
Die Signale w, (/ = 1,2,..., 12) entsprechend den im
Rechner 112 erzeugten Orthogonalparametern werden über ein Gatter 154 einer Einrichtung 113 zur Erzeugung
eines Bezugsmittelwertes zugeführt. Die Einrichtung 113 umfaßt arithmetische Schaltungen, die den
Mittelwert für jedes Orthogonalparametersignal w, zu
erzeugen vermögen, das vom Rechner 112 entsprechend Gleichung (11) erhalten worden ist:
1 L 1 '
W, = -γ Σ — Σ
w„
OD
Dabei ist m>,„ das /-te Orthogonalparametersignal, das
im Rahmen η auftritt; JV, die Anzahl der Rahmen in der
/-ten Sprachäußerung des identifizierten Sprechers; und L die Gesamtzahl der Äußerungen in der Sprachprobe
des identifizierten Sprechers. Gleichung (11) ist beispielsweise gegeben. Es versteht sich, daß andere
Formulierungen für vc ebenfalls verwendet werden
können. Entsprechend Gleichung (11) kann die Einrichtung 113 eine summierende Logikschaltungsanordnung
aufweisen, die unter einer Zählersteuerung codierte Signale verarbeitet.
Fig. 5 zeigt eine Anordnung zur Erzeugung des Satzes von Orthogonalparametermittelwerten W1, ...,
wn entsprechend Gleichung (11). Die Signale W1,...,
W12 werden während eines jeden Rahmens des Referenzmodus,
wenn der Rechner 112 Orthogonalvoraussageparametersignale liefert, unter Steuerung des
Signals ES 4 der Reihe nach vom Gatter 156 einem Eingang eines Addierers 502 in Fig. 5 zugeführt.
Während des ersten Rahmenausgangssignals des Rechners 112 gelangen die 12 wrSignale des ersten
Rahmens zum Addierer 502 und werden der Reihe nach in einem Schieberegister 504 gespeichert, und
zwar unter Steuerung von BS 5-Verschiebesignalen von einem Steuergenerator 540. Das Auftreten der BS 5-Verschiebungsimpulse
sowie der anderen Steuersignale für den Betrieb der Schaltung nach Fig. 5 wird durch
den Generator 540 in Abhängigkeit von Signalen auf den Leitungen A und G vom Taktgeber 103 bzw. der
Logiksteuerung 134 gesteuert. Während eines jeden nachfolgenden Rahmens einer Äußerung werden die
H',-Signalausgänge dieses Rahmens von der Einrichtung
112 zu den entsprechenden zuvor gespeicherten Werten in einem Register 504 addiert, wie in Gleichung (11)
indiziert ist, und die resultierende Summe wird im Register 504 gespeichert. ÄS5-Schiebesignale steuern
so den Betrieb des Registers 504 während der Summierung.
Am Ende der Äußerung wird ein Gatter 508 untei Steuerung von £l/5-Impulsen vom Generator 540 geöffnet,
wodurch die Signale vom Register 504 der Reihe nach auf den Eingang einer durch N teilenden Schaltung
510 gegeben werden. Ein Signal, das der Anzah der Rahmen in der Äußerung entspricht, wird vorr
Gatter 323 der Fig. 3 dem anderen Eingang der durcl N teilenden Schaltung 510 zugeführt. Demzufolge sine
die Ausgangssignale der Schaltung 510 die Mittelwert« der Orthogonalparameter w, über die Äußerung
1 N
Η", = - Σ W,„.
" n- 1
" n- 1
Das Schieberegister 514 enthält die Orthogonalpara meter, die über die vorausgehenden Äußerungen in de
Sprechprobe gemittelt sind. Ein Addierer 512 addiei
sukzessiv die Mittelwerte der Orthogonalparameter von der durch N teilenden Schaltung 510 zu der entsprechenden
zuvor gespeicherten Summe der Mittelwerte in einem Schieberegister 514. Am Ende der Sprachprobe
wird ein Gatter 517 unter der Steuerung eines ES 5-Signals vom Generator 540 geöffnet und die Ausgangssignale
des Registers 514 werden der Reihe nach einer durch L teilenden Schaltung 521 mit der BS-Folgefrequenz
(12 Verschiebungen pro Rahmen) zugeführt. Das andere Eingangssignal für die Schaltung 521
erhält man über Gatter325 in Fig. 3 vom Äußerungszähler 319, so daß die Ausgangssignale der Schaltung
521 die Mittelwerte für die 12 Orthogonalparameter über die Sprechprobe sind. Diese entsprechend
Gleichung (11) erzeugten Mittelwertsignale W1 werden
der Reihe nach in ein Schieberegister 523 eingegeben, aus dem Register 523 in Parallelform ausgelesen und
über ein Gatter 175 in einen Speicher 115ceingegeben.
Das Gatter 175 wird von einem Signal ESSA vom Generator
540 gesteuert
Eine dem Speicher 115 c zugeordnete Adressenlogik 115 rf plaziert die Mittelwerte der Orthogonalparametersignale
der Sprechprobe während des durch die Steuerlogik 134 bestimmten Referenzbetriebs unter
Steuerung des Adressencodes ZDC von der Sprecheridentifizierlogik 132 in einer ausgewählten Stelle.
Am Ende des Referenzbetriebs enthalten die Speicher 115 a, 115* und 115 c für einen gegebenen identifizierten
Sprecher einen Satz von Signalen entsprechend den Varianzen v, der 12 Orthogonalparameter,
einen Satz von Signalen entsprechend den Referenzkoeffizienten uto, welche später erhaltene Testvoraussageparametersignale
in den vorgeschriebenen Satz von Testorthogonalparametersignalen umzusetzen vermögen,
und einen Satz von Signalen entsprechend den Mittelwerten IP,-der 12 Orthogonalparameter. Jeder Satz
ist entsprechend dem Sprecheridentifiziercode ZZXT adressierbar. Der Referenzbetrieb gemäß Fig. 1 ist
nun für den identifizierten Sprecher beendet. Nachdem der Speicher 115 durch wiederholte Operationen mit
Referenzsignalen entsprechend einer Vielzahl identifizierter Sprecher gefüllt ist, kann das System gemäß
Fig. 1 verwendet werden, um die Identität eines unbekannten Testsprechers zu überprüfen.
Es sei zu Erläuterungszwecken angenommen, daß der Abtastschaltung 102 von Leitung 101 ein Sprachsignal
von einem unbekannten Testsprecher zugeführt wird, nachdem die Referenzsignale entsprechend einer
Vielzahl identifizierter Sprecher gespeichert sind. Die Sprecheridentifiziercodeschaltung 132 wird auf einen
Code entsprechend der angeblichen Identität des Testsprechers eingestellt. Der Moduswähler 133 wird auf
den Testmodus eingestellt und von der Logik 134 werden die Signale TEST und 5 aktiviert.
Unter Steuerung der Signale TEST und S wird das Testsprachsignal in der Abtastschaltung 102 abgetastet,
und die codierten Abtastwerte des Testsprachsignals werden der Reihe nach dem linearen Voraussagekoeffizientenrechner
105 zugeführt. Wie zuvor erwähnt, erzeugt der Rechner 105 während eines jeden Rahmens
einen Satz von 12 linearen Voraussagekoeffizienten α,,... a,2 mit der ßS-Signalfolgefrequenz, die durch den
Zänler305 in Fig. 3 bestimmt ist. Jeder Rahmen weist 200 Sprachabtastwerte i,, ... si00 auf. Die Koeffizienten
a,, ... a]2 werden durch den Umsetzrechner
117 in eine andere Darstellung, beispielsweise die Parcor-Darstellung, transformiert, wodurch ein Satz
von Voraussageparametern x, entsprechend dem Testsprecher erzeugt und verfügbar gemacht wird.
Die Voraussageparametersignale x, werden über Gatter
163 einer Einrichtung 119 zur Erzeugung von Testsprecher-Orthogonalparametern
zugeführt Gleichlaufend wird der Speicher 115 b unter der Adresse der
behaupteten Identifikation abgefragt, so daß die Referenzkoeffizientensignale
Hj11, ..., ι/η,ΐ2 entsprechend
der angeblichen Identität über Gatter Ii5 in die Einrichtung
119 gegeben werden. In Abhängigkeit von den
ίο Voraussageparametem des Testsprechers vom Umsetzrechner
117 und den Bezugskoeffizientensignalen der angeblichen Identität vom Speicher 115 erzeugt die
Einrichtung 119 für jeden Rahmen entsprechend Gleichung (12) einen Satz von orthogonalen Testvoraussageparametern
Z],... Z12.
uux„
(12)
X1 sind die Testvoraussageparameter des unbekannten
Sprechers. Die Einrichtung 119 umfaßt eine Produktbildungsvorrichtung und Schaltungen zum Summieren
der Produkte entsprechend den Indizes der Gleichung (12).
Fig. 6 zeigt eine Anordnung, die eine Gruppe von
orthogonalen Testparametern für jeden Rahmen von den gespeicherten Referenzsignalen, die man von der
Sprachprobe der angeblichen Identität erhalten hat, und die Voraussageparameter, die man für den Testspreeher
vom Umsetzrechner 117 während des Testmodus erhalten hat, zu erzeugen vermag. Beim Beginn des
Testmodus wird der Speicher 115 b abgefragt, wozu er durch den ZDC-Kode der angeblichen Identität adressiert
wird.
Die Referenzsignale für die angebliche Identität vom Speicher 1156 werden über Gatter 165 in Parallelform
an ein Schieberegister Ml gegeben. Am Ende der Übertragung sind 144 Koeffizienten uh im Register 601
untergebracht. Während eines jeden Rahmens des Testmodus werden die 12 Voraussageparameter vom Gatter
163 der Reihe nach in ein Schieberegister 602 gegeben. Nachdem 12 Parameterxu...xn entsprechend einem
Rahmen in die 12 niedrigstwertigen Positionen des Registers 602 geschoben worden sind, werden diese
Parameter in Parallelform aus dem Register 602 ausgelesen und unter Steuerung eines Signals BF6 von
einem Steuerimpulsgenerator 620 vom Register 602 über ein Gatter 609 einem Schieberegister 607 zugeführt.
so Die Schieberegister 601 und 607 sind Umlaufschieberegister. Das Schieberegister 601 arbeitet unter Steuerung
eines Signals AS 6 vom Generator 620 mit der schnellen ^5-Folgefrequenz (144 Verschiebungen pro
Rahmen). Der Inhalt des Schieberegisters 607 läuft unter Steuerung des Signals AS 6 bei jedem Umlauf des
Inhalts des Schieberegisters 601 12mal um. Die Ausgangssignale
der Register 601 und 607 werden über Gatter 6*3 und 605 auf einen Multiplizierer 611 geführt,
in dem die Produkte uux, gebildet werden. Somit werden für jeden Satz aus 12 Voraussageparametem
144 Produkte vom Multiplizierer 611 erhalten. Die Summe eines jeden nachfolgenden Satzes aus 12 Produkten
wird in einem Addierer 610 gebildet, dessen Ausgangssignal über einen um eine Ziffer verzögemden
Speicher 612 und ein Gatter 613 zurückgeführt wird. Der Multiplizierer 611 und der Addierer 610
arbeiten bei derv4S-(144 Parameter pro Rahmen)Folgefrequenz.
Am Ende von 12 /IS-Signalen öffnet das
ÄS6-Signal vom Generator 62· ein Gatter 1S5 und die
orthogonalen Parameter
Z*= Σ UuXi
/= 1
entsprechend Gleichung (12) werden über Gatter 185 an eine Einrichtung 123 zur Erzeugung von Testmittelwerten
und Varianzen übertragen. Während der Übertragung eines Orthogonalparametersignals ist das
Gatter (13 durch ein Signal BS 6 vom Generator 620
gesperrt, so daß die Bildung des nächsten Orthogonalparameters begonnen wird. Am Ende des Rahmens,
während welchem -12 Orthogonalparameter in der Schaltung der Fig. 6 erzeugt worden sind, wird der
nächste Satz von Voraussageparametern entsprechend dem nachfolgenden Rahmen vom Register 652 zum
Register 607 übertragen, um die Orthogonalparameter entsprechend dieses nachfolgenden Rahmens zu bilden.
Die von der Einrichtung 119 erhaltenen Orthogonalparameter Z1,... Z12 für den Testsprecher werden während
des Testbetriebs unter Steuerung des Signals BS 6 vom Generator 620 der Einrichtung 123 zugeführt
Diese erzeugt ein Signal entsprechend dem Mittelwert Zj eines jeden Orthogonalparameters des Testsprechers
und ein Signal entsprechend der Varianz V1 eines jeden Testsprecher-Orthogonalparameters entsprechend
Gleichungen (13) und (14).
(14a)
Die Einrichtung 123 umfaßt arithmetische Schaltungen, welche die geforderte Summierung und Mittelwertbildung
zu erzeugen vermögen. Fig. 7 zeigt eine Anordnung arithmetischer Einheiten, die Signale entsprechend
den Mittelwerten Z1 der Orthogonalparametersignale
über die Sprachprobe des Testsprechers, wie man sie aus F i g. 6 erhalten hat, und ein Varianzsignal
V, für jeden Orthogonalparameter entsprechend Gleichung (14 a) erzeugt. Die Orthogonalparametersignale
Z1, ... Z12 vom Gatter 185 werden sukzessiv
einem Addierer 702 in Schaltung 123 zugeführt, und zwar mit der ÄS-Folgefrequenz (12 Parameter pro Rahmen).
Ein Schieberegister 704 speichert die Summe der Orthogonalparameter ^z„.. .^z12. Während eines
jeden BS 6-Impulses vom Steuergenerator 620 wird
ein Orthogonalparameter-Ausgangssignal des Registers 704 zum entsprechenden Orthogonalparameter vom
Gatter 185 addiert, und das Resultat wird in das Register 7*4 eingegeben. Am Ende einer Äußerung wird der
Inhalt des Registers 704 unter Steuerung des Signals EUl von einem Generator 72· über ein Gatter 705 der
Reihe nach einer durch N teilenden Schaltung 7W zugeführt. Zur selben Zeit wird das Ausgangssignal des
Registers 704 zur Vorbereitung für die nächste Äußerung durch ein auf ein Signal EUT ansprechendes
Gatter 706 gelöscht. Das andere Eingangssignal erhält die durch /Vteilende Schaltung 709 vom Rahmenzähler
317 des Taktgebers 103 in Fig. 3 über das Gatter 323, und die Ausgangssignale der Schaltung 709 sind die
Mittelwert-Testparametersignale Z1 der Äußerung entsprechend
Gleichung (13).
Diese Mittelwertsignale werden einer Quadrierschfcltung
711 zugeführt, um codierte Signale (Z,)2 zu bilden,
die einem Eingang eines Subtrahierers 715 zugeführt werden. Die aufeinanderfolgenden Ausgangssignale
des Schieberegisters 704 werden zu dieser Zeit über
ίο das Gatter 705 auch einer Quadrierschaltung 712 zugeführt.
Die Quadrierschaltung 712 erzeugt (Z,)2-Signale. Diese Signale werden einem Eingang einer durch N1
teilenden Schaltung 714 zugeführt, so daß die Mittelwerte der (Z,)2-Signale von der Quadrierschaltung 714
is dem anderen Eingang des Subtrahierers 715 zugeführt
werden. Die Ausgangssignale des Subtrahierers 715 werden entsprechend (14 a) auf eine durch TV teilende
Schaltung 717 gegeben, so daß Varianzsignale V1 gebildet werden. Auf diese Weise werden die Mittelwertsignale
Z1 und die Varianzsignale V1 der Testorthogonalparameter
entsprechend dem unbekannten Testsprecher zur Verwendung in einer Einrichtung 127 zur
Erzeugung von Abweichsignalen gebildet. Die Z1- und
Pi-Signale werden nicht von einer unabhängigen Eigenvektoranalyse
der Voraussageparameter des Testsprechers erzeugt, sondern von den gespeicherten Bezugssignaien
{u^} der angeblichen Identität und den Voraussageparametern
für den Testsprecher.
Die Ausgangssignale der Einrichtung 123, der Mittelwert Z, und das Varianzsignal V( für jeden der Testorthogonalparameter werden unter Steuerung von Signalen BSSA von einem Generator 870 (Fig. 8) über Gatter 187 bzw. 189 der Einrichtung 127 zugeführt. Gleichermaßen werden die Mittelwert W1 der Bezugsorthogonalparameter der behaupteten Identität und die Varianz V, eines jeden der orthogonalen Referenzparameter der Einrichtung 127 von den Speichern 115 a bzw. 115 c über Gatter 179 bzw. 181 zugeführt. Das Abweichsignal entsprechend der charakteristischen Differenz zwisehen den Orthogonalparametern des Testsprechers und den gespeicherten orthogonalen Referenzparametern der angeblichen Identität wird entsprechend Gleichung (15) entwickelt.
Die Ausgangssignale der Einrichtung 123, der Mittelwert Z, und das Varianzsignal V( für jeden der Testorthogonalparameter werden unter Steuerung von Signalen BSSA von einem Generator 870 (Fig. 8) über Gatter 187 bzw. 189 der Einrichtung 127 zugeführt. Gleichermaßen werden die Mittelwert W1 der Bezugsorthogonalparameter der behaupteten Identität und die Varianz V, eines jeden der orthogonalen Referenzparameter der Einrichtung 127 von den Speichern 115 a bzw. 115 c über Gatter 179 bzw. 181 zugeführt. Das Abweichsignal entsprechend der charakteristischen Differenz zwisehen den Orthogonalparametern des Testsprechers und den gespeicherten orthogonalen Referenzparametern der angeblichen Identität wird entsprechend Gleichung (15) entwickelt.
1 p
■J?..
05,
Ein Abweichsignal kann man auch aus den Differenzen der Mittelwerte lediglich entsprechend dem ersten
Term der Gleichung (15) erhalten. Wie man leicht aus Gleichung (15) ersieht, erhält man die Abweichsignalkomponente
für jeden Orthogonalparameter aus der Differenz zwischen dem Referenzparametermittelwert
W/, der abgeleitet worden ist von der Voraussageanalyse
des Referenzsprechers, dessen Identität angenommen worden ist, und dem Testparametermittelwert Z1, der
aus der Kombination der Voraussageparameter des Testsprechers und der Referenzkoeffizientensignale der
angeblichen Identität erzeugt worden ist. Das Quadrat
der Differenz der Mittelwerte (iv, - Z1)2 wird durch die
Varianz v, des orthogonalen Referenzparameters und (Vj- v,)2 wird durch vj geteilt, so daß den Orthogonalparametern,
die über die Sprachproben relativ konstant sind (kleine Varianz), ein größeres Gewicht
gegeben wird und ein wesentlich kleineres Gewicht den Orthogonalparametern mit großer Änderung. Somit ist
das Abweichsignal effektiv eine Funktion jener Orthogonalparameter, die über die Sprechproben betrachtet
relativ konstant sind. Auf diese Weise entspricht das
Abweichsignal den Differenzen zwischen jenen Orthogonalparametern, welche linguistisch unabhängig sind,
und jenen, die stark vom Sprecher abhängig sind.
Die Einrichtung 127 umfaßt arithmetische Einheiten, welche die erforderlichen Quotienten und die
Summierung der Quotienten über die Indizes der Gleichung (15) zu bilden vermögen. Fig. 8 zeigt
eine Anordnung zur Erzeugung des Abweichsignals d entsprechend Gleichung (15). Bei Beginn des Testmodus
werden die gespeicherten Mittelwerte der orthogonalen Referenzparameter W1 bis W12 der angeblichen
Identität vom Speicher 115 c über Gatter 181 in ein Schieberegister 8*1 übertragen. Gleichermaßen
werden die gespeicherten Referenzvarianzsignale V1 bis v,2 der angeblichen Identität vom Speicher 115 a über
Gatter 179 in ein Schieberegister 805 übertragen. Am Ende der Sprachprobe des Testsprechers werden die
Signale entsprechend den Mittelwerten djr Testorthogonalparameter Z1 bis Z12 unter Steuerung des Signals
BS % A von der Einrichtung 123 über Gatter 187 in ein Schieberegister 803 übertragen, und die Varianzsignale
V1 bis Vn des Testsprechers werden unter Steuerung
des Signals BSiA von der Einrichtung 123 über Gatter
189 in ein Schieberegister 807 übertragen. Nach Vollendung der Übertragungen in die Register 805 und
809 werden Gatter 810, 812, 814 und 816 durch ein Signal BSiB vom Generator 870 geöffnet, so daß die
gespeicherten codierten Signale in den Registern 801, 803, 805 und 807 unter Steuerung des 5585-Signals
sequentiell mit der ÄS-Folgefrequenz (12 Signale pro
Rahmen) ausgelesen werden.
Ein Subtrahierer 820 subtrahiert die der Reihe nach erscheinenden Z,-Signale von den entsprechenden
RfrSignalen, um (W,-Z,)-Signale zu bilden. Das Ausgangssignal
des Subtrahieren 820 gelangt auf einen Eingang eines Teilers 822, nachdem es in einer Quadrierschaltung
823 verarbeitet worden ist, und das Ausgangssignal des Schieberegisters 805 wird auf den
anderen Eingang des Teilers 822 gegeben, wodurch der Teiler 822 Signale
(\ü — 7\2
erzeugt. Das Ausgangssignal der Teilerschaltung 822 gelangt auf einen Eingang eines Addierers 825, dem
ein zweites Eingangssignal zugeführt wird, das von einer Rückkopplungsschleife stammt, die eine Verzögerungseinrichtung
827 und ein Gatter 829 umfaßt. Der so Addierer 825 summiert die zwölf aufeinanderfolgenden
Ausgangssignale der Quadrierschaltung 823 und das daraus resultierende Signal ist
12
ty», -
55
V/
am Ende der Periode, in welcher die Summierung geschieht. Nach der Summierung wird das Gatter 829
durch ein Signal £7Tgesperrt, und das Summensignal
gelangt unter Steuerung eines Signals EFi durch ein Gatter 851.
Ein Subtrahierer 831 subtrahiert die vom Register 805 erhaltenen Referenzvarianzsignale v, von den entsprechenden
Testsprechervarianzsignalen V1 des Registers 807. Das Ausgangssignal des Subtrahierers 831
wird einem Teiler 835 zugeführt, der einen zweiten Eingang aufweist, der vom Register 865 über einen
Wurzel-aus-Zwei-Multiplizierer 833 gespeist wird. Auf
diese Weise wird ein Signal entsprechend
erzeugt Eine Quadrierschaltung 837 multipliziert das Ausgangssignal des Teilers 835 mit sicL selbst und gibt
das resultierende Signal auf einen Addierer 839. Der Addierer 839 erzeugt ein Signal entsprechend
12 .
£1 2 V v,
- «V
und weist ein Eingangssignal auf, das von einer Rückkopplungsschleife
mit einer Verzögerungseinrichtung 84· und einem Gatter 842 stammt Nach der Summierung
der zwölf Signale im Addierer 83t wird das Gatter 842 durch ein Signal £FS gesperrt und Gatter 850
wird durch ein Signal EFi vom Generator 870 geöffnet. Die Ausgangssignale der Addierer 825 und 839
werden dann über Gatter 850 und 851 auf einen Addierer 843 geführt, in dem das codierte Abweichsignal
entsprechend Gleichung (15) erzeugt wird.
Das Ausgangssignal der Einrichtung 127 ist ein einziges Signal d, das die Differenz zwischen den Testsprechereigenschaften
und den Eigenschaften des angeblichen, zuvor identifizierten Sprechers angibt. Dieses
Signal wird über ein Gatter 190 unter Steuerung des Signals EFi vom Generator 87Θ einem Eingang eines
!Comparators 129 zugeführt. Dem anderen Eingang des !Comparators 129 wird ein codiertes Schwellenwertsignal
vorbestimmter Größe zugeleitet, das der maximal akzeptablen Abweichung für eine Bestätigung des
Testsprechers entspricht. Wenn das Abweichsignal von der Einrichtung 127 größer als dieser Schwellenwert ist,
wird ein erster Ausgang des Komparators 129 aktiviert, um die Zurückweisung der angeblichen Identität des
Testsprechers anzuzeigen. Wenn das Abweichsignal d vom Generator 127 gleich oder kleiner als der dem
Komparator 129 zugeführte Schwellenwertcode ist, sind die Unterschiede zwischen den Testsprechereigenschaften
und den im Speicher 115 gespeicherten Referenzeigenschaften derart, daß die Identität des Sprechers
akzeptiert wird.
Vorteilhafterweise ergibt der Vergleich der Orthogonalparameter Eigenschaften, die stark sprecherabhängig
und im wesentlichen unabhängig von der Linguistik sind. Die Anordnung des Systems gemäß Fig. 1
erfordert lediglich, daß die Refere.nzkoeffizientensignale und die Orthogonalparametersigiiale zur Speicherung
während des Referenzbetriebs erzeugt werden. Da die Orthogonalparameter des Testsprechers nicht
unabhängig erzeugt werden, sondern von den Referenzkoeßlzientensignalen
und den Voraussageparametern des Testsprechers, ist das während des Testbetriebs
erhaltene Abweichsignal viel empfindlicher gegenüber Unterschieden zwischen den Referenzeigenschaften
und den Testeigenschaften, wie man sie vom System nach Fig. 1 erhalten hat. Ferner kann die Erzeugung
der orthogonalen Testparameter in einer viel kürzeren Zeit durchgeführt werden, wodurch eine On-Line-Kontrolle,
d. h., eine schritthaltende Kontrolle, erleichtert ist.
Das System nach Fig. 1 kann gemäß Fig. 2 modifiziert werden, um die Identität eines unbekannten
Sprechers als einen von vielen zuvor identifizierten
Sprechern festzustellen. Die Identifizierung des unbekannten Sprechers erfordert einen Vergleich der abgeleiteten
orthogonalen Parametereigenschaften des unbekannten Sprechers mit entsprechenden Eigenschaften
eines jeden zuvor identifizierten Sprechers und die Auswahl der am besten passenden Orthogonalparameter
von zuvor identifizierten Sprecheirn. Somit werden sowohl der Referenz- als auch der Testbetrieb
benötigt.
Im Referenzbetrieb werden Kotsffizientensignale,
Mittelwertsignale und Varianzsignale für jeden identifizierten Sprecher erzeugt und gespeichert, und zwar auf
der Basis des vorgeschriebenen Satzes von orthogonalen Parametersignalen, die von einer Voraassageanalyse
der Sprechprobe des identifizierten Sprechers stammen. Der Referenzbetrieb für die Sprecheridentifizierung
ist im wesentlichen identisch mit dem im Zusammenhang mit Fig. 1 beschriebenen Referenzbetrieb.
Im Testbetrieb für die Sprecheridentifizierung wird eine Voraussageanalyse für die Äußerungen des unbekannten
Sprechers durchgeführt, und es werden entsprechende Voraussageparameter erhalten und gespeichert.
Die Koeffizientensignale für den ersten identifizierten Sprecher werden aus dem Speicher wieder
hervorgeholt und mit den Voraussagesignalen des unbekannten Sprechers kombiniert, um einen Satz
von orthogonalen Testvoraussageparametern zu bilden. Die Mittelwerte und Varianzen dieser Parameter werden
erzeugt und mit den gespeicherten Referenzmittelwerten und Varianzen für den ersten identifizierten
Sprecher verglichen. Das als Ergebnis des Vergleichs erhaltene Abweichsignal wird dann zusammen mit dem
Identitätscode des ersten identifizierten Sprechers einem Detektor für ein Minimumabweichsignal zugeführt.
Der Testvorgang wird für jeden identifizierten Sprecher der Reihe nach wiederholt, und das Minimumabweichsignal
wird festgestellt und zusammen mit der entsprechenden Identität gespeichert. Das
Minimumubweichsignal von allen Testoperationen wird denjenigen Eigenschaften eines identifizierten
Sprechers zugeordnet, die am besten zu jenen passen, die für den unbekannten Sprecher abgeleitet worden
sind, so daß die Identität des unbekannten Sprechers bestimmt wird.
Ein Auiiführungsbeispiel für ein Sprecheridentifiziersystems
ist in Fig. 2 gezeigt. Die Anordnung der Fig. 2 ist im wesentlichen gleich dem System
der Fig. 1 mit der Ausnahme, daß ein Sprecheridentifizierzähler 210 die Folge der benötigten Testoperationen
steuert, um die abgeleiteten orthogonalen Voraussageeigenschaften
für den unbekannten Sprecher mit den entsprechenden gespeicherten Eigenschaften der vielen identifizierten Sprecher zu vergleichen. Es
ist ein Voraussageparameterspeicher 215 als Quelle für die Voraussageparameter des unbekannten Sprechers
bei der Folge von Testoperationen vorgesehen, und außerdem ist ein Detektor 230 hinzugefügt, der das
Minimumabweichsisnal berechnet und die diesem Minimumabweichsignal entsprechende Identität speichert
Gemäß Fig. 2 werden von der Steueilogik 134 während des Referenzbetriebs Signale REF und S geliefert
In Abhängigkeit von der Identität eines bekannten Sprechers erzeugt die Logik 132 einen Bezugsidentifiziercode
RID, welcher der Adressenlogik 115 d zugeführt wird, um Zugriff zu den Speicherplätzen zu
erhalten, in denen die Referenzkoeffizienten, Mittelwerte
und Varianzsignale des identifizierten Sprechers unterzubringen sind. Die Äußerungen des identifizierten
Sprechers werden in der Abtastschaltung 102 abgetastet und die resultierenden Abtastwerte werden
Rahmen für Rahmen dem Rechner 105 zugeführt, wie es im Zusammenhang mit Fig. 1 beschrieben worden
ist. Die im Rechner 105 erzeugten linearen Voraussagekoeffizienten werden im Umsetzrechner 117
in ausgewählte Voraussageparameter, beispielsweise PARCOR-Parameter, transformiert, und diese werden
dann zum Kovarianzrechner 111 gegeben. Die orthogonalen Parameterkoeffizientensignale und Varianzsignale
vom Rechner 112 werden gemäß Adressierung durch die Logik 115 rf in den Speichern 115 a bzw.
115 ö untergebracht, und die vor der Einrichtung 113 erzeugten orthogonalen Parametermitteiwerte werden
gleichermaßen im Speicher 115 cgespeichert. Der Referenzbetrieb der Fig. 2 ist im wesentlichen dem im
Zusammenhang mit Fig. 1 beschriebenen gleich.
Beim Beginn des Testbetriebs, bei dem die Äußerungen eines unbekannten Sprechers der Abtastschaltung
102 zugeführt werden, wird der Sprecheridentifizierzähler 210 anfangs so eingestellt, daß der von ihm
stammende Adressencode IDC dem ersten identifizierten Sprecher entspricht. Die Voraussageparameter vom
Umsetzrechner 117 entsprechend den Äußerungen des unbekannten Sprechers werden über Gatter 148 in den
Voraussageparameterspeicher 215 gebracht und von dort über das Gatter 163 zur Einrichtung 119 für die
Erzeugung von orthogonalen Testparametern übertragen. Die gespeicherten Referenzkoeffizientensignale,
die durch den /DC-Kode des ersten identifizierten Sprechers adressiert worden sind, werden aus dem
Speicher 115 b ausgelesen und über Gatter 165 der Einrichtung 119 zugeleitet. Wie im Zusammenhang mit
Fig. 1 erwähnt, bildet die Einrichtung 119 einen vorgeschriebenen Satz von orthogonalen Voraussageparametersignalen
in Abhängigkeit von den gespeicherten Referenzkoeffizientensignalen eines identifizierten
Sprechers und den Voraussageparametern des unbekannten Sprechers. Diese Voraussageparametersignale
werden zur Einrichtung 123 für die Erzeugung von Testmittelwert- und -varianzsignalen übertragen, in
dem die Parametermittelwert- und -varianzsignale gebildet werden, wie es bei Fig. 1 beschrieben worden
ist.
Die Referenzmittelwert- und -varianzsignale für den ersten identifizierten Sprecher werden aus den Speichern
115 α bzw. 115 cgelesen und über Gatter 179 und
so 181 der Einrichtung 127 zugeführt. In Abhängigkeit von den Testmittelwert- und -varianzsignalen aus der
Einrichtung 123 und den Referenzmitteiwert- und -varianzsignalen von den Speichern 115 β und 115 c
wird in der Einrichtung 127 ein codiertes Abweichsignal gebildet, das für die Differenzen zwischen den
Referenz- und Testeigenschaften repräsentativ ist Dieses Abweichsignal wird an den Detektor 230 übertragen
und der Zählwert des Zählers 210 wird so erhöht, daß der nächste identifizierte Sprecher adressiert ist
ω Die Testoperation wird für jeden identifizierten Sprecher
wiederholt und der Detektor 230 zeichnet das Minimumabweichsignal auf. Wenn die Testoperation
für den letzten identifizierten Sprecher durchgeführt ist,
enthält der Detektor 230 das Minimumabweichsignal.
Dieses wird ausgelesen, um die Identität des unbekannten
Sprechers zu liefern.
Fig. 9 zeigt eine Logikanordnung, die als Detektor
230 geeignet ist In Fig. 9 speichert ein Schieberegi-
ster 903 das Minimumabweichsignal, das bei einem Vergleich des Registers 903 mit einem Register 9#5,
das das Abweichsignal von der Einrichtung 127 speichert, bestimmt worden ist. Ein Schieberegister 901
speichert den Identifiziercode IDC des Minimumabweichsignals. Das Register 90S speichert das laufende
Abweichsignal und Schieberegister 907 speichert den /DC-Kode entsprechend dem laufenden Abweichsignal.
Am Anfang wird das Schieberegister 903, welches das Minimumabweichsignal speichert, auf seinen
höchstmöglichen Wert eingestellt. Der erste Abweichsignalcode, der von der Einrichtung 127 am Ende der
ersten Testoperation erhalten worden ist, wird im Register 905 untergebracht, und der entsprechende
/DC-Code wird in das Register 907 gegeben. Der Abweichsignalcode vom Register 903 wird über ein
Gatter 934 unter Steuerung eines öS-Schiebesignals von einem Steuergenerator 940 auf einen Eingang
eines !Comparators 913 und über eine Verzögerungseinrichtung 911 außerdem an einen Eingang eines
Gatters 922 gegeben. Der Abweichsignalcode vom Register 905 wird über ein Gatter 93i dem anderen
Eingang des !Comparators 913 und außerdem über eine Verzögerungseinrichtung 915 einem Gatter 924 zugeführt.
Da der Code im Register 905 während der ersten Testoperation kleiner als der Höchstwertcode im Register
903 ist, wird der Komparator 913, der feststellt, welcher der beiden Abweichsignalcodes kleiner ist, so
eingestellt, daß er das Gatter S24 beim Auftreten eines US2-Signals vom Steuergenerator 940 öffnet, und der
Code vom Register 905 wird über ein Puffergatter 930 in das Register 903 gegeben. Gleichlaufend wird der Identifikationscode
IDC im Register 907 über ein Gatter 926 an das Register 9*1 übertragen. Die Verzögerungseinrichtungen
9#9,911,915 und 917 verzögern ausreichend
lange, um ausgewählte Gatter der Gatter 920,922, 924 und 92S zu betätigen, nachdem der Vergleich im Komparator
913 durchgeführt ist.
Am Ende der nächsten Testoperation ist der vom Generator 127 erhaltene zweite Abweichsignalcode in
ίο das Register 905 eingegeben, und dieser Abweichcode
wird mit dem Abweichcode im Register 903 verglichen. Der Code im Register 903 entspricht dem zuvor erhaltenen
Minimumabweichcode. Der Komparator 913 erlaubt die Eingabe des kleineren der Codes in den
Registern 903 und 905 in das Register 903 und er läßt auch die Übertragung desjenigen Ideniiiikationscodes
zu, der dem kleineren Abweichsignal im Register 901 entspricht. Auf diese Weise ist am Ende einer jeden
Testoperation der kleinere Abweichsignalcode durch den Komparator 913 ausgewählt und im Register 903
gespeichert. Am Ende der letzten Testoperation ist das von den Testoperationen stammende Minimumabweichsignal
im Register 903 gespeichert und der entsprechende Identifikationscode ist im Register 901 gespeichert.
Der Identifikationscode im Register 901 ist zu dieser Zeit der jenes identifizierten Sprechers, dessen
Orthogonalparametercharakteristika am besten zu den Orthogonalparametercharakteristika des unbekannten
Sprechers passen. Der unbekannte Sprecher ist damit identifiziert.
Hierzu 7 Blatt Zeichnungen
Claims (14)
1. Verfahren zur Erkennung der Identität eines unbekannten
Sprechers, bei dem ein Referenzsatz von Voraussageparametern durch Analyse einer Sprachprobe
eines identifizierten Sprechers gebildet, ein Satz erster Signale, die für dis Identität des identifizierten
Sprechers repräsentativ sind, von dem Referenzsatz von Voraussageparametern erzeugt, ein
Testsatz von Voraussageparametern durch Analyse einer Sprachprobe des unbekannten Sprechers gebildet,
ein Satz zweiter Signale von dem Testsatz von Voraussageparametern erzeugt wird und die ersten
Signale mit den zweiten Signalen zur Feststellung einer angenommenen Identität des unbeVannten
Sprechers verglichen werden, dadurchgekennz e i c h η e t, daß die Erzeugung des Satzes erster Signale
(W1) eine Multiplikation des Referenzsatzes von Voraussageparametern (x,) mit einem Referenzsatz
von Koeffizienten (uw), die vom Referenzsatz
von Voraussageparametern (x,) abgeleitet sind, beinhaltet, und daß die Erzeugung des Satzes zweiter
Signale (Z,) eine Multiplikation des Testsatzes von Voraussageparametern mit dem Referenzsatz von
Koeffizienten (ufa) beinhaltet
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Referenzsatz von Voraussageparametern
(x,) durch Multiplikation mit dem Referenzsatz von Koeffizienten (ufe) in einen Referenzsatz
von orthogonalen Voraussageparametern (wk) transformiert
wird, daß der Satz von ersten Signalen (W,) die Mittelwerte des Referenzsatzes von orthogonalen
Voraussageparametern (wk) darstellt, daß der
Testsatz von Voraussageparametern durch Multiplikation mit dem Referenzsatz von Koeffizienten (1^)
in einen Testsatz von orthogonalen Voraussageparametern (Zk) transformiert wird und daß der Satz
zweiter Signale (Z,) die Mittelwerte des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Satz erster Signale (W1) einen Satz
von Signalen (V) enthält, die die Varianzen des Referenzsatzes von orthogonalen Voraussageparametern
(wk) darstellen, und daß der Satz zweiter Signale
(Z1) einen Satz von Signalen (V,) enthält, die die Varianzen
des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellen.
4. Verfahren nach einem der Ansprüche 1-3, dadurch gekennzeichnet, daß ein Referenzsatz von
Voraussageparametern (x,) aus einer Voraussageanalyse einer Sprachprobe jedes von vielen identifizierten
Sprechern gebildet wird, daß der Satz erster Signale (iv,) und der Referenzsatz von Koeffizienten
(Ui0) für jeden der identifizierten Sprecher erzeugt
wird, daß ein Satz zweiter Signale (Z,) entsprechend jedem identifizierten Sprecher aus dem Testsatz von
Voraussageparametern eines unbekannten Sprechers und dem Referenzsatz von Koeffizienten (uu)
eines jeden identifizierten Sprechers erzeugt wird, und daß der Satz erster Signale (W1-) eines jeden identifizierten
Sprechers mit dem entsprechenden Satz zweiter Signale (Z,) verglichen wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß beim Vergleich des Satzes erster Signale
(W,) eines jeden identifizierten Sprechers mit dem entsprechenden Satz zweiter Signale (Z,) ein
40
45
50
60
65 drittes Signal (d) gebildet wird, das die Differenzen
zwischen dem Satz erster Signale (W,) eines jeden identifizierten Sprechers und dem entsprechenden
Satz zweiter Signale (Z,) darstellt, und daß das minimale
dritte Signal (d) festgestellt wird, um die Identität
des unbekannten Sprechers zu bestimmen.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das dritte Signal (d) mit einem Schwellenwert
verglichen wird, um die Identität des unbekannten Sprechers zu bestätigen bzw. zu verneinen.
7. Sprechererkennungsvorrichtung zur Durchführung des Verfahrens nach Anspruch 1, mit einer
Einrichtung zur Bildung eines Referenzsatz.es von Voraussageparametern durch Analyse einer Sprachprobe
eines identifizierten Sprechers, einer auf den Referenzsatz von Voraussageparametern ansprechenden
Einrichtung zur Erzeugung eines Satzes von ersten Signalen, die für die Identität des Sprechers
repräsentativ sind, einer Einrichtung zur Bildung eines Testsatzes von Voraussageparametern
durch Analyse einer Sprachprobe eines unbekannten Sprechers, einer Einrichtung zur Erzeugung
eines Satzes von zweiten Signalen vom Testsatz von Voraussageparametern und mit einer
Einrichtung zum Vergleichen des Satzes von ersten Signalen mit dem Satz von zweiten Signalen, um
eine angenommene Identität des unbekannten Sprechers festzustellen, dadurch gekennzeichnet, daß
die Einrichtung zur Bildung des Satzes von ersten Signalen (W,) eine Einrichtung (112) zur Multiplikation
des Satzes von Voraussageparametern (x,) mit einem Bezugssatz von Koeffizienten (ufe), die vom
Referenzsatz von Voraussageparametern (x,) abgeleitet sind, aufweist, und daß die Einrichtung zur
Erzeugung eines Satzes zweiter Signale (Z,) eine Einrichtung (119) zur Multiplikation des Testsatzes
von Voraussageparametern mit dem Referenzsatz von Koeffizienten (uu) aufweist.
8. Sprechererkennungsvorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Einrichtung
zur Erzeugung des Satzes erster Signale (W1) eine Einrichtung (112) zur Erzeugung eines Referenzsatzes
orthogonaler Voraussageparameter (wk),
die im wesentlichen unabhängig vom Sprachinhalt der Sprachprobe des identifizierten Sprechers sind,
umfaßt, sowie eine auf den Referenzsatz orthogonaler Voraussageparameter (wk) ansprechende Einrichtung
(115) zur Erzeugung des Satzes erster Signale (W1), die die Mittelwerte des Referenzwertes
orthonaler Voraussageparameter (wk) darstellen.
9. Sprechererkennungsvorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die Einrichtung
zur Erzeugung des Satzes zweiter Signale (Z1) eine auf den Referenzsatz von Koeffizienten («w)
und den Testsatz von Voraussageparametern ansprechende Einrichtung (119) zur Bildung eines Testsatzes
von orthogonalen Voraussageparametern (Zk)
umfaßt, sowie eine auf diesen Testsatz ansprechende Einrichtung (123) zur Erzeugung des Satzes zweiter
Signale (Z,), die die Mittelwerte des Testsatzes von orthogonalen Voraussageparametern (Zk) darstellen,
und daß die Vergleichseinrichtung eine Einrichtung (127) zum Vergleichen des Satzes erster Signale
(W1-) mit dem Satz zweiter Signale (Z,) aufweist.
10. Sprechererkennungsvorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die Ver-
gleichseinrichtung (127) eine Einrichtung zur Erzeugung eines dritten Signals (d) aufweist, das die
Differenz zwischen dem Satz erster Signale (Sv,) und dem Satz zweiter Signale (Z,) darstellt
11. Sprechererkennungsvorrichtung .nach Anspruch 10, gekennzeichnet durch eine Einrichtung
zur Erzeugung eines Schwellenwertsignals, das die zulässige Differenz zwischen dem Satz erster Signale
(Wj) und dem Satz zweiter Signale (Z1) darstellt, und
eine Einrichtung (129) zum Vergleichen des dritten Signals (d; mit dem Schwellenwertsignal.
12. Sprechererkennungsvorrichtung nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet,
daß eine Einrichtung (115) vorgesehen ist, die einen Satz erster Signale (W1), die jeden der Vielzahl von
identifizierten Sprechern darstellen, und einen Referenzsatz von Koeffizienten (ufe) entsprechend
jedem identifizierten Sprecher speichert, daß eine Einrichtung (119,123) für jeden identifizierten Sprecher
einen Satz zweiter Signale (Z1) erzeugt, der eine
angenommene Identität des unbekannten Sprechers darstellt, und daß die Vergleichseinrichtung (127)
für jeden identifizierten Sprecher den Satz erster Signale (W/) mit dem Satz zweiter Signale (Z/) vergleicht.
13. Sprechererkennungsvorrichtung nach Anspruch 10 und 12, gekennzeichnet durch eine Einrichtung
(230), die auf die von der Vergleichseinrichtung (127) für jeden identifizierten Sprecher
erzeugten dritten Signale (d) anspricht und das Minimum der dritten Signale feststellt, wobei diesem
Minimum des dritten Signals (d) die beste Übereinstimmung zwischen dem Satz erster Signale (,W1) der
identifizierten Sprecher und dem entsprechenden Satz zweiter Signale (Z1) darstellt, und eine Einrichtung
zur Erzeugung eines Identifizierurigssignals entsprechend demjenigen identifizierten Sprecher,
für den das minimale dritte Signal (d) erzeugt worden ist. ι , .-.·! ι '.ι:· ' :■ ; -'
14. Sprechererkennungsvorrichtung nach einem der Ansprüche! 7 bis 13, dadurch gekennzeichnet;
daß der Referenzsatz von Voraussageparamefern (jc,)
einen Satz orthogonaler. Parameter einer linearen Voraussageanalyse der Sprachproben aufweist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/645,520 US4032711A (en) | 1975-12-31 | 1975-12-31 | Speaker recognition arrangement |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2659083A1 DE2659083A1 (de) | 1977-07-14 |
DE2659083C2 true DE2659083C2 (de) | 1984-04-12 |
Family
ID=24589348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2659083A Expired DE2659083C2 (de) | 1975-12-31 | 1976-12-27 | Verfahren und Vorrichtung zur Sprechererkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US4032711A (de) |
JP (1) | JPS5941600B2 (de) |
DE (1) | DE2659083C2 (de) |
GB (1) | GB1556218A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10144087B4 (de) * | 2001-09-08 | 2008-10-30 | Promediascan Ag | Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2720666A1 (de) * | 1977-05-07 | 1978-11-09 | Philips Patentverwaltung | Verfahren und anordnung zur geraeuschanalyse |
JPS57500901A (de) * | 1980-05-19 | 1982-05-20 | ||
JPS58196595A (ja) * | 1982-05-12 | 1983-11-16 | 日本電気株式会社 | パタ−ン特徴抽出装置 |
GB2139389A (en) * | 1983-04-29 | 1984-11-07 | Voice Electronic Technology Li | Identification apparatus |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
WO1987000332A1 (en) * | 1985-07-01 | 1987-01-15 | Ecco Industries, Inc. | Speaker verification system |
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5345535A (en) * | 1990-04-04 | 1994-09-06 | Doddington George R | Speech analysis method and apparatus |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
EP0530645B1 (de) * | 1991-08-30 | 1999-07-14 | Texas Instruments Incorporated | Telefonsignalklassifizierung und Verfahren und System zur Telefonnachrichtenablieferung |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5623539A (en) * | 1994-01-27 | 1997-04-22 | Lucent Technologies Inc. | Using voice signal analysis to identify authorized users of a telephone system |
US6480823B1 (en) | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US7194752B1 (en) * | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
FR2842643B1 (fr) * | 2002-07-22 | 2004-09-03 | France Telecom | Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur |
US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
FR2881867A1 (fr) * | 2005-02-04 | 2006-08-11 | France Telecom | Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole |
DE102006047982A1 (de) * | 2006-10-10 | 2008-04-24 | Siemens Audiologische Technik Gmbh | Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe |
CN107527620B (zh) | 2017-07-25 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN109470389A (zh) * | 2018-11-27 | 2019-03-15 | 上海应用技术大学 | 应变式扭矩测量系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3466394A (en) * | 1966-05-02 | 1969-09-09 | Ibm | Voice verification system |
US3509280A (en) * | 1968-11-01 | 1970-04-28 | Itt | Adaptive speech pattern recognition system |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
-
1975
- 1975-12-31 US US05/645,520 patent/US4032711A/en not_active Expired - Lifetime
-
1976
- 1976-11-30 GB GB49967/76A patent/GB1556218A/en not_active Expired
- 1976-12-27 DE DE2659083A patent/DE2659083C2/de not_active Expired
- 1976-12-28 JP JP51157680A patent/JPS5941600B2/ja not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10144087B4 (de) * | 2001-09-08 | 2008-10-30 | Promediascan Ag | Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen |
Also Published As
Publication number | Publication date |
---|---|
JPS5941600B2 (ja) | 1984-10-08 |
DE2659083A1 (de) | 1977-07-14 |
US4032711A (en) | 1977-06-28 |
JPS5293207A (en) | 1977-08-05 |
GB1556218A (en) | 1979-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2659083C2 (de) | Verfahren und Vorrichtung zur Sprechererkennung | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2659096C2 (de) | ||
DE3306730C2 (de) | ||
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE3244476C2 (de) | ||
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2953262C2 (de) | ||
DE3339288C2 (de) | ||
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2613258A1 (de) | System zur automatischen spracherkennung | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE4031638C2 (de) | ||
DE10047723A1 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE4433772A1 (de) | Sensoranordnung und Verfahren zur Meßwerterfassung mit der Sensoranordnung | |
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3018508A1 (de) | Sprachanalysiervorrichtung | |
DE2949582A1 (de) | Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache | |
DE2730662A1 (de) | Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE2758505B2 (de) | Spezialisierter Digitalrechner zur statistischen Informationsverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |