-
Verfahren zum Identifizieren von Schallereignissen Die Erfindung betrifft
ein Verfahren zum Identifizieren von Schallereignissen, nach deren Umwandlungen
in elektrische Signale. Aus diesen elektrischen Signalen werden Frequenzkomponenten
gebildet. Unter einem Schallereignis ist dabei vorzugsweise -wenn auch nicht ausschließlich
- die menschliche Sprache verstanden. Das dem Schallereignis entsprechende elektrische
Signal ist im allgemeinen von komplizierter Form, und es ist bekannt, die Identifizierung
dadurch zu erleichtern, daß man das Signal in eine Reihe von Frequenzbändern aufteilt.
Die Leistung in den einzelnen Frequenzbändern wird dann bestimmt und mit Standardwerten
verglichen. Da jedoch die menschliche Sprache abhängig vom Sprecher eine große Anzahl
variabler Merkmale enthält, worunter Sprechgeschwindigkeit, Tonhöhe, Betonung und
sonstige Unregelmäßigkeiten fallen, begegnet ein solches Verfahren großen Schwierigkeiten.
-
Diesen Schwierigkeiten begegnet die Erfindung dadurch, daß sie bezeichnende
Lautänderungen des Schallereignisses analysiert, während sie andere Merkmale vernachlässigt.
Erfindungsgemäß werden aus den Signalkomponenten durch Approximationsschaltungen
zeitabhängige Näherungsfunktionen n-ter Ordnung gebildet und Diskriminatorschaltungen
zur Identifizierung zugeführt.
-
Als solche Näherungsfunktionen sind die Polynomialkoeffizienten brauchbar,
und das Ausführungsbeispiel benutzt solche bis zur zweiten Ordnung. Es wurde damit
ein hoher Grad von Unterscheidungssicherheit erreicht. Für die zehn (englischen)
Zahlwörter ergaben sich 94 °/o richtige Angaben bei 10/,
Fehlanzeige und nur
5 °/o Falschanzeige. Die beim Test mitwirkenden Sprecher waren dabei andere als
diejenigen, mit denen die im Ausführungsbeispiel verwendeten Standardwerte ermittelt
wurden.
-
Außer dem im Ausführungsbeispiel gezeigten Identifizieren von gesprochenen
Wörtern lassen sich auch noch andere Anwendungsmöglichkeiten denken. Beispiele sind
der Herzschlag, Erdbeben oder enzephalographische Aufnahmen.
-
Das nachfolgende Ausführungsbeispiel ist auf das Erkennen der zehn
englischen Zahlwörter abgestellt. Es wird durch Zeichnungen erläutert.
-
F i g. 1 ist ein Blockdiagramm der Ausführungsform der Erfindung;
F i g. 2a bis 2d sind Diagramme der Zahlwörter 1 (one) und 2 (two); F i g. 3a bis
3d zeigen ein ausführliches Schaltbild des Ausführungsbeispiels; F i g. 3 gibt die
gegenseitige Lage dieser Figuren an. F i g. 4a und 4b sind eine Tabelle über Widerstandswerte;
F i g. 5, 5 a und 5 b zeigen eine in F i g. 3 verwendete Matrix; F i g. 6 und 7
sind in F i g. 3 benutzte Verstärker mit besonderen Eigenschaften; F i g. 8 ist
eine Schaltung zur Erzeugung von Polynomialkoeffizienten, und F i g. 9 ist eine
Zeitschaltung.
-
Als Ausführungsbeispiel für ein Verfahren zum Identifizieren von Signalen
unter Benutzung einer Näherungsmethode für Polynome wurde eine Anordnung gewählt,
mit der die gesprochenen (englischen) Zahlwörter Null bis Neun unterschieden werden
können (F i g. 1). Aus dem Schallereignis wird vom Mikrophon 2 ein elektrisches
Signal gebildet. Eine Reihe von Schaltungen 4, jede enthaltend ein oder mehrere
Filter und Detektorschaltungen 6 und Polynomial-Approximatoren 8 bilden aus dem
Ausgangssignal des Mikrophons Identifizierungswerte und geben sie auf den Leitungen
10 weiter. Jede Schaltung 6 liefert ein Ausgangssignal, das ein Maß ist für
die Leistung in dem bestimmten durch das Filter festgelegten Frequenzband. In mehreren
Schaltungen 4 erhalten die Approximatoren 8 ein zweites Eingangssignal, das der
Gesamtleistung des Schallereignisses entspricht und das von dem Gesamtleistungsanzeiger
11 geliefert
wird. Bei einer Schaltung 4 wird von dem Gesamtleistungs-Signal
Ptot kein Gebrauch gemacht; diese Schaltung (Band A- ) enthält vielmehr zwei
Filter und Detektorschaltungen, da es sich herausgestellt hat, daß das Leistungsverhältnis
in manchen Frequenzbandpaaren für die Sprachidentifizierung hohe Unterscheidungskraft
besitzt. Die Polynomial-Approximatoren 8 führen folgende Operationen mit
ihren Eingangssignalen durch: Zunächst -wird das Verhältnis des einen zum anderen
Eingangssignal bestimmt; dann wird der natürliche Logarithmus dieses Verhältnisses
gebildet; schließlich werden Ausgangssignale entsprechend dem Polynom zweiter Ordnung
gebildet, das dem Logarithmus des Eingangssignal-Verhältnisses am nächsten kommt.
-
Eine Vokal-Konsonant-Schaltung 12 mit zwei Filtern und Detektorschaltungen
6 liefert Ausgangssignale, die der Vokal- bzw. Konsonantleistung des Schallereignisses
entsprechen. Das geschieht durch Leistungsmessung bei verhältnismäßig tiefen (Vokal-)
bzw. verhältnismäßig hohen (Konsonant-) Frequenzen. Diese beiden Signale und das
Signal für die Gesamtleistung Ptot wird einer Zeitschaltung 20 zugeführt,
die daraus mehrere Ausgangssignale bildet (dargestellt durch den Leiter
13); die Ausgangssignale werden jedem Polynomial-Approximator 8 zugeführt.
Diese Signale hängen von der Dauer des Vokalanteils des Schallereignisses ab. Es
hat sich gezeigt, daß die Benutzung nur des Vokalteiles des Schallereignisses zur
Identifizierung ausreichend ist.
-
Alle Ausgänge der Approximatoren 8 gelangen zu jedem von mehreren
Diskriminatoren 14. Dort werden die Signale linear kombiniert (gewichtet
und addiert) und erzeugen ein binäres Ausgangssignal auf einer Leitung
18. Die Gewichte, die im Diskriminator jedem Eingangssignal zugemessen werden,
sind von den beiden Bezugswerten bestimmt, zwischen denen die Schaltung zu unterscheiden
hat. Es entsteht dann ein binäres Ausgangssignal, welches die Ziffer bezeichnet,
die dem Schallereignis am nächsten kommt. Der »8«-«9»-Diskriminator liefert z. B.
ein Ausgangssignal, aus dem zu entnehmen ist, ob das Schallereignis der »8« oder
der »9« näher liegt. Diese Entscheidung wird von dem »8«-»9«-Diskriminator selbst
dann getroffen, wenn das Schallereignis weder »8« noch »9« darstellt. Es sind fünfundvierzig
Diskriminatoren im Ausführungsbeispiel vorgesehen, um bezüglich jedes Ziffernpaares
innerhalb der zehn Ziffern eine Unterscheidung treffen zu können.
-
Die Binärsignale auf den Leitungen 18 gelangen zu einer Entschlüsselermatrix
16, die beim Vorliegen eines Signals auf Leitung 15 von der Zeitschaltung
20 die Identität des Schallereignisses anzeigt.
-
Das dem Ausführungsbeispiel zugrunde liegende Konzept soll nachfolgend
bezüglich der besprochenen (englischen) Ziffernworte one (1) und two (2) behandelt
werden. Dabei sollen die mathematischen Grundlagen für die benutzte Technik und
die Methode zur Bestimmung der Gewichte gezeigt werden, die den Diskriminatoren
beigegeben wurden. Die dabei genannten Bauelementewerte hängen von den zu identifizierenden
Wörtern ab; sie wären zu ändern, wenn andere Wörter zu erkennen wären oder wenn
die Sprechweise des Sprechers grundsätzlich verschieden wäre von derjenigen der
Sprechergruppe, die zur Bestimmung der Parameter (Diskriminatorgewichte) herangezogen
waren. Die F i g. 2a und 2b zeigen Zeitspektrogramme der gesprochenen Silben one
und two. Über der Zeit als Abszisse ist durch unterschiedliche Schwärzung der Leistungsinhalt
des Schallereignisses für die durch die Ordinatenwerte angegebenen Frequenzen dargestellt.
Stärkere Schwärzung ist Anzeichen für höhere Leistung. Zur Orientierung sind die
Frequenzbereiche der Bänder 8 und 9 aus F i g. 1 eingetragen. Die folgenden Berechnungen
beziehen sich auch auf die Schaltungen für diese beiden Bänder. Die gestrichelten
vertikalen Linien in F i g. 2a schließen den Zeitabschnitt ein, während dessen die
Laute vorwiegend als Vokale zu betrachten sind. Die F i g. 2c und 2d entsprechen
den F i g. 2a und 2d und der dort durch die gestrichelten Linien eingegrenzten Zeitspanne.
Die F i g. 2c und 2d stellen eine graphische Darstellung der relativen Leistungen
P8 und P9 in zwei Frequenzbändern während des Vokalcharakters des Schallereignisses
dar.
-
Die Identifizierung des Schallereignisses wird erleichtert durch den
Gebrauch von Näherungsfunktionen einer solchen Art, daß der unterscheidende Bestandteil
des Ereignisses erhalten bleibt, während andere Charakteristika, wie Sprachunregelmäßigkeiten,
Sprechgeschwindigkeit oder Lautstärke u. ä., vernachlässigt werden.
-
Funktionen des Typs
können die sie verursachenden Sprachlaute beschreiben und sind bei einem Identifizierungssystem
brauchbar. Experimente zeigten, daß bei dem vorliegenden Ausführungsbeispiel logarithmische
Funktionen dieses Leistungsverhältnisses größere Unterscheidungskraft besitzen als
das Leistungsverhältnis selbst. Aus diesem Grunde wurde für den Koordinatenmaßstab
der F i g. 2c und 2d die logarithmische Funktion
gewählt. Der Betrag »l« wurde addiert, um sicherzustellen, daß alle Logarithmen
positiv sind. Der Faktor »1000« ist benutzt, um die Wirkung der addierten »1« vernachlässigen
zu können.
-
Da der phonetische Inhalt eines Sprachlautes nicht nur von der momentanen
Lautcharakteristik abhängt, sondern auch von der Art der Lautänderung, ist abzusehen,
daß Zeitableitungen dieser Funktionen für die Identifizierung nützlich sein werden.
Außer den bezeichneten Lautänderungen (die das menschliche Ohr hört) gibt es viele
kleine Unregelmäßigkeiten, welche den Momentanwert der Zeitableitung (der Funktion)
unzulänglich werden lassen. Es wurde dazu die F i g. 2d betrachtet. Die allgemeine
Tendenz der Funktion ist ein Anwachsen mit der Zeit entsprechend der Wandlung des
U-Lautes, wenn sich die Zunge allmählich aus der Lage entfernt, die sie beim Aussprechen
des »t« einnahm. Für kurze Zeitabschnitte jedoch hat die Funktion tatsächlich abnehmende
Werte. Diese kurzfristigen Änderungen scheinen jedoch für die Identifizierung von
geringerer Bedeutung. Aus diesem Grunde ist es nützlich, die tatsächliche Funktion
durch Annäherungswerte zu ersetzen und diese Funktionen zur Identifizierung heranzuziehen.
-
In den F i g. 2c und 2d sind drei Annäherungsfunktionen gezeigt. Die
Funktion nullter Ordnung ist eine horizontale Linie entsprechend dem Polynomial-
Ausdruck
P = C, wo C eine Konstante ist. Die Näherungs-Funktion erster Ordnung ist eine gerade
Linie entsprechend dem Polynomialausdruck P = Cl t + C2. Die Näherungsfunktion
zweiter Ordnung ist eine Parabel entsprechend dem Ausdruck P = Cl t2 .+ Cz
t + Ca. Eine wohlbekannte Methode Funktionen anzunähern, besteht darin, sie in eine
Reihe orthogonaler Funktionen aufzulösen und diese Reihe nach wenigen Gliedern abzubrechen.
Es möge ipi (x) mit i = 1, 2... eine Reihe orthogonaler Funktionen sein.
Dann kann im Bereich (x1, x2) eine Funktion f (x) angenähert werden durch
ist. Die besonderen orthogonalen Funktionen, die im vorliegenden Ausführungsbeispiel
benutzt werden, sind Polynome, die über das Intervall (0, 1) orthogonal sind. Die
ersten drei dieser Funktionen lauten
Da nicht immer alle Sprecher mit derselben Geschwindigkeit sprechen, kann ein Satz
von Funktionen die für die Dauer einer Wortwiedergabe orthogonal sind, für eine
andere Wortwiedergabe mit abweichender Dauer nicht passend sein. Aus diesem Grunde
wurde die tatsächliche Dauer t nicht als Argument für die orthogonalen Funktionen
benutzt, sondern eine normalisierte Zeit x. Die Beziehung zwischen x und t lautet:
wo t1 der Wert von t beim Beginn des Schallereignisses ist und t2 der Wert am Ende
desselben. Dadurch liegt x immer zwischen den Werten 0 und 1, wie es für die Funktionen
unter (3) erforderlich ist.
-
Die Koeffizienten ai lassen sich nun errechnen, indem die Werte von
Vi aus Gleichung (3) in Gleichung (2) eingesetzt werden. Es ergibt sich
Wenn diese Werte (a0, a1 und a2) in die Gleichung (1) eingesetzt werden, so gibt
diese Gleichung die Annäherungskurven 2c und 2d wieder, für die
ist. Die Funktionen ai liefern also Informationen über die grobe Charakteristik
der ursprünglichen Funktionen f(x), während die für die Auswertung weniger bedeutenden
Unregelmäßigkeiten vernachlässigt werden. Im einzelnen läßt sich sagen: a, ist der
Mittelwert der Funktion (Näherungsfunktion nullter Ordnung); a1 bezieht sich auf
die Neigung der Funktion, genauer gesagt auf die Neigung einer Geraden, welche die
Funktion annähert (Näherungsfunktion erster Ordnung); a2 bezieht sich auf die Krümmung
einer Parabel, welche die Funktion annähert (Näherungsfunktion zweiter Ordnung).
-
Nachdem die polynormalen Approximatoren 8 der F i g. 1 die Funktionen
ai gebildet hatten, bestünde das einzige mathematische Problem darin, die Gewichte
oci zu bestimmen, die in jedem Diskriminator 14 für jede Funktion ai zu benutzen
wären. Die Approximatoren bilden jedoch Funktionen der Funktionen ai und nicht diese
Funktionen selbst. Das geschieht zum Zwecke der Vereinfachung des Aufbaues der Approximatoren
und geschieht auf Kosten der Kompliziertheit in der Berechnung der Gewichte. Jeder
polynomiale Approximator bildet die folgenden drei Funktionen 1i:
ist. Diese Funktionen Ii sind mit den Funktionen a1 der Gleichung (5) insoweit verwandt,
als jede Funktion ai aus einer linearen Kombination einer oder mehrerer
Funktionen
1i besteht. Diese Verwandschaft wird augenscheinlicher, wenn die Gleichungen (5)
erweitert und x gemäß Gleichung (4) durch t ausgedrückt wird. Es ergibt sich:
Die Linearkombinationen der Funktionen 1i zur Bildung der Funktionen ai sind folgende:
Da es ein Zweck der Diskriminatoren ist, Linearkombinationen seiner Eingangssignale
zu bilden, wird sein Aufbau komplexer, wenn statt der Zufuhr der Funktionen ai die
Funktionen Ii zugeführt werden. Diese Substitution berührt lediglich die relativen
Gewichte, die den Diskriminator-Eingangswerten zuzuordnen sind, und hat den Vorteil,
daß einfache Polynomial-Approximatoren verwendbar werden.
-
Bei der folgenden theoretischen Betrachtung und beim numerischen Beispiel
werden theoretische Gewichte ai berechnet. Diese Gewichte werden für die Diskriminatoren
brauchbar, wenn durch die polynomialen Approximatoren die Funktionen ai erzeugt
werden. Die wirklichen Diskriminatorgewichte qi (den Funktionen 1i zuzuordnen) werden
dann aus den theoretischen Gewichten errechnet. Dieses Verfahren wird deshalb eingeschlagen,
weil die Funktionen ai eher als unabhängige Zufallsvariable betrachtet werden können
als die Funktionen 1i und weil die Berechnung für unabhängige Variable einfacher
ist (der hierher gehörige Begriff der Unabhängigkeit ist definiert auf den Seiten
204 und 205 des Buches »An Introduction to probability Theory and Its Applications«,
Bd. 1, von William F e 11 e r, 1957, Verlag John Wiley & Sons).
-
Jede der acht Schaltungen 4 (F i g. 1) liefert drei Ausgangssignale.
Jedes der vierundzwanzig Signale wird jedem Diskriminator 14 zugeführt; die
Gewichte für die einzelnen Signale aus einer Schaltung 4 sind jedoch unabhängig
von den Gewichten für die Signale einer anderen Schaltung 4. Diese Unabhängigkeit
beruht auf der Tatsache, daß von jeder Gruppe von drei Signalen getrennte Polynome
definiert werden. Wie schon gesagt, sollen sich die folgenden Überlegungen auf die
Bestimmung der relativen Gewichte für eine einzige Gruppe von drei Signalen beschränken,
die aus dem Band P8 P9 herrühren und zum Diskriminator 1-2 laufen. Für die übrigen
Eingangswerte gelten ähnliche Überlegungen.
-
Es soll also zunächst eine Methode gefunden werden, um die Gewichte
ai zu bestimmen, die von den Diskriminatoren zu benutzen wären, wenn die Approximatoren
Ausgangswerte für die Funktion ai entsprechend Gleichung (8) lieferten.
-
Das Ausgangssignal D (s-r) des Diskriminators, der das Schallereignis
hinsichtlich der zwei Bezugszeichen »s« und »r« unterscheidet, soll definiert sein
als
Die Gewichte ai werden aus einer Reihe von Wiedergaben der Bezugswerte s und r bestimmt.
Eine einfache aus zahlreichen verfügbaren Techniken beruht auf der folgenden Annahme
bezüglich der genannten Reihe von Wiedergaben der Bezugswerte s und r. Es werde
angenommen, daß aix (s) und aix (r) die Funktionen ai sind, welche aus der
k-ten Wiedergabe der Bezugswerte s und r gebildet wurden. Es sei weiter
vorausgesetzt, daß für jede der drei Werte von i die Funktionen ai (s) und ai
(r) Zufallsvariable mit normaler (Gaußscher) Verteilung sind mit den Mittelwerten
#ti (s) und ,ui (r) und mit der Standardabweichung ori (s)
und ßi (r).
Schließlich sei angenommen, daß die Verteilungen für verschiedene Werte von i unabhängig
voneinander sind. Dann bestehen für jedes i geschätzte Mittelwerte ;ui
(s) und ,üi (r) und geschätzte Standardabweichungen &i
(s) und äi (r), die aus den Meßwerten errechnet werden durch die Gleichungen
wo n, und n, die Kurse der Meßreihen für die Werte s und r darstellen. Die Schätzung
von Mittelwerten wird behandelt in Kapitel 8 des Buches »Statistical Theory in Research«
von R. L. A n d e r s o n und T. A. B a n c r o f t aus dem Verlag McGraw Hill Book
Co., 1952. Die Schätzung von Standardabweichungen wird auf S. 227 des früher genannten
Buches von F e 11 e r behandelt.
-
Der Wert ai muß so berechnet werden, daß der Betrag D (s-r)
aus Gleichung (10) sich für die Begriffe s und r unterscheidet. Die
Funktion D (s-r) hat zwei Verteilungen, eine dem Eingangswert s und die andere
dem Eingangswert r entsprechend. Sie sind charakterisiert durch die Mittelwerte
,up (s) und ,up (r)
und Standardabweichungen au (s) und 6D (r). Da
voraussetzungsgemäß
ai unabhängige Variable sind, gelten die folgenden
Formeln (die auch in Kapitel IX des früher erwähnten Feller-Buches enthalten sind):
Die mit den Gleichungen (13) und (14) definierten Charakteristiken werden dazu benutzt,
at so zu bestimmen, daß die Wahrscheinlichkeit am größten wird dafür, daß der Betrag
D (s-r) in Gleichung (10) größer ist als ein Schwellwert B bei einem Eingangs-Bezugswert
r und kleiner als B bei einem Wert r. Die Gleichung (10) kann in folgende Form übergeführt
werden:
In diesem Falle besteht das Problem darin, die Wahrscheinlichkeit dafür am größten
werden zu lassen, daß D (s-r) positiv für s und negativ für r wird.
Statt diese Wahrscheinlichkeit auf einen Größtwert zu bringen, ist es ausreichend,
eine monotone Funktion der Wahrscheinlichkeit auf einen Größtwert zu bringen. Eine
solche monotone Funktion ist der Abstand vom Schwellwert B zu den Mittelwerten
YD (s) und ,uD (r)
geteilt durch die Standardabweichungen aD
(s) und ßD (r). Diese Abstände oder Differenzen R (s) und
R (r)
sind also:
Es ist erwünscht, daß die Wahrscheinlichkeit für einen Wert s, der fälschlicherweise
als ein Wert r
identifiziert wird, gleich sei der Wahrscheinlichkeit eines
Wertes r, der fälschlicherweise als ein Wert s identifiziert wird. Da R (s) und
R (r) monotone Funktionen dieser Wahrscheinlichkeiten sind, sind die Wahrscheinlichkeiten
gleich, wenn R (s) = R (r) sind. Das läßt sich erreichen, wenn B folgendermaßen
gewählt wird.
Wenn das so gewählte B in die Gleichungen (16) substituiert wird, ergibt sich:
Diese Gleichungen lassen sich vereinfachen und ergeben dann:
Wenn also B nach Gleichung (17) gewählt wird, dann ist R (s) = R (r), und
die Wahrscheinlichkeiten für falsche Identifizierung bezüglich der zwei Werte bezüglich
s und r sind gleich.
-
Es ist nun erforderlich, entweder
R (s) oder
R (r) auf
einen Größtwert zu bringen. Dieses Problem ist schwer genau zu lösen. Mit der Annahme
wo
k eine Konstante für alle
i ist, ist jedoch eine Vereinfachung
möglich. Mittels der Gleichungen (13), (14), (19) und (20) läßt sich zeigen, daß
Daraus ergibt sich:
Diejenigen Werte von ai, die
R (s) den Höchstwert annehmen lassen, bringen
zum Verschwinden. Das bedeutet, daß der Zähler auf der rechten Seite (22) verschwinden
muß. Durch Umformung entsteht dadurch die folgende Gleichung:
Jetzt kann der Faktor |
zai,a oi,s(r) |
Eai' (gi'(s) - Auv(r)1 |
f' |
willkürlich gewählt werden, weil die Multiplikation aller ai mit einem konstanten
Faktor den Wert R nicht beeinflußt, da. sich aus der Gleichung (21) entnehmen läßt,
daß R (s) eine homogene Funktion vom Grad 0 von ai ist. Der Einfachheit halber wird
also gewählt:
i i () 1 |
_ 1 #- k2 ' (24) |
ai' (fit#(s) - Pi'(rA |
Durch Einsetzen der Gleichung (24) in die Glei- |
chung (23) ergibt sich |
ai = Ws) - pi (r) - ,ui (s) -,ui(r) .(25) |
°'i2(r) (1 + k2) je -(r) + [ k ai(r)]
2 |
Durch Einsetzen der Gleichung (20) in die Glei- |
chung (25) ergibt sich |
at = ßi(s) - Jii(r) (26) |
Qi2(r) + aia(s) . |
Da der wirkliche Wert von ,ui
(s) und ,ut (r) nicht bekannt ist, werden die
geschätzten Werte aus den Gleichungen (11) und (12) benutzt. ai wird also berechnet
aus ai
= Ai(s) -Ai(r)
(27)
c'i2 (s) + &12(r) Die vorstehende theoretische
Untersuchung bildet die Grundlage für das numerische Beispiel der Berechnung von
ai aus den folgenden Werten von ai, die durch Versuche für die Ziffern 1 und 2 gefunden
wurden, wobei sich s auf die Ziffer 1 und r auf die Ziffer 2 bezieht.
a1 (1) = -1,74000; -1,57404; -1,50417. |
a1 (2) = 1,22343; 1,75329; 0,69216. |
Daraus errechnet sich mit den Gleichungen (11) |
und (12) |
- -1,74000 -1,57404 -1,50417 = 1,60607. |
1 3 |
l (2) - 1,22343 41,75329 -I- 0,69126--
= 122266. |
3 |
Durch Einsetzen in die Gleichung (27) ergibt sich: |
_ -1,60607 -1,22266 |
al 0,0147 -I- 0,282-_- _ -9,53 . |
Man sieht, daß bei der Berechnung der Musterwerte nur drei Wiedergaben für jede
Ziffer in Betracht gezogen werden. Beim Entwurf des Ausführungsbeispiels wurde eine
Serie von zehn Wiedergaben für jede Ziffer benutzt. Mit diesen größeren Meßwertreihen
ergab sich für a1 = -5,1'i, a, = 3,40 und a$ = 0,617.
-
Wie gesagt, wurde angenommen, daß die polynomialen Approximatoren
8 als Ausgangswerte die Funktion ai lieferten und daß diese Ausgangswerte
mit entsprechenden Faktoren ai gewichtet und im Diskriminator
14 entsprechend
der Gleichung (10) aufsummiert würden. Die Approximatoren
8 sind aber zur
Vereinfachung so entworfen, daß sie Funktionen Ii bilden, welche über die Gleichungen
(9) mit den Funktionen ai verbunden sind. Aus diesem Grunde ist ein Verfahren erforderlich,
um die wirklichen Diskriminatorgewichte qi aus den theoretischen Gewichten ai
zu bestimmen. Die folgende Gleichung (28) bestimmt die Beziehung zwischen
ai und qi.
Durch Einsetzen der Gleichung (9) in die Gleichung (28) erhält man
aoIo+al(-310+6Il)+a2(510-30h+3012)=qo1o+q111+q212. (29) |
Diese Gleichung (29) kann umgeschrieben werden in die Form: |
(a0 -3a1 +5 a2)Io+(6x1-30a2)I1+30a212=q0I0+qlIi+q212# (30) |
Infolgedessen steht q1 mit ai in der folgenden Be- |
ziehung: |
qo=ao-3a1+5a2, |
q1 = 6 a1 - 30 a2 , (31) |
q$ = 30 a$ . |
Das numerische Beispiel kann nun fortgesetzt werden, |
um aus at mittels der Gleichungen (31) qi zu bestimmen |
ao = 3,4 0, |
a1 = -5,17, |
a$=0,617, |
qo = 3,40 - 3 (- 5,17) + 5 (0,617) = 22,0, |
q1 = 6 (- 5,17) - 30 (0,617) = -49,5, |
q2 = 30 (0,617) = 18,5. |
Diese Gewichte qi gehören nur zu den Eingangssignalen des 1-2-Diskriminators
14, die von der Schaltung 4 mit dem Band PB erzeugt wurden. Da im Ausführungsbeispiel
fünfundvierzig Diskriminatoren benutzt wurden und da jeder Diskriminator vierundzwanzig
Eingangssignale enthält, sind insgesamt 1080 Werte von qi zu berechnen.
-
Im Ausführungsbeispiel wurde eine Ausnahme gemacht. Der dritte Ausgang
(1z) der Schaltung mit dem Band P' wird nicht benutzt, da es sich herausstellte,
daß dieses Signal wenig zur Unterscheidung der Sprachsignale beiträgt. Da also nur
I0 und Il erzeugt
werden, brauchen nur die Gewichte a, al und berechnet
zu werden, und die Gleichungen (31) werden ersetzt durch die folgenden:
Ein zusätzliches Eingangssignal t, welches die Dauer des Vokalteils des Schallereignisses
darstellt, wird den Diskriminatoren zugeführt. Dieses Signal kann als a, oder I,
betrachtet werden, da beide gleich sind. a. ist das einzige Gewicht, das berechnet
wird und a. ist = qo. Dieses zusätzliche Eingangssignal hat sich zur Unterscheidung
zwischen bestimmten Schallereignissen als wertvolles Hilfsmittel erwiesen.
-
An Hand der F i g. 3 sollen nun auch Einzelheiten des Ausführungsbeispiels
besprochen werden. Das Ausgangssignal eines Mikrophons 2 wird über einen Verstärker
101 einer Reihe von Schaltungen 4 zugeführt. Jede dieser Schaltungen enthält
einen oder zwei Bandpässe 102. Die nachgeschaltete als Detektor bezeichnete Einrichtung
104 liefert eine Ausgangsspannung, die das Quadrat der zugeführten Eingangsspannung
(nur für eine Polarität) bildet. Da die Leistung proportional dem Quadrat der Spannung
ist, zeigt der Detektor die Leistung des ihm zugeführten Frequenzbandes an. Das
anschließende Tiefpaßfilter
106 glättet die Ausgangsspannung des Detektor
104.
Eine der Schaltungen
104, nämlich die für das Band -
(F i g. 3 b), enthält zwei Bandpässe 102, zwei Detektoren
104 und zwei Tiefpaßfilter
106. An die Tiefpaßfilter schließt sich in jeder Schaltung 104 ein Verhältnisbildner
nach 108 an. Dieser liefert das Verhältnis der Leistung des betreffenden Frequenzbandes
zur gesamten zugeführten Leistung; nur bei dem vorerwähnten Frequenzband
wird das Verhältnis der Leistungen in den Frequenzbändern gebildet. Durch die beiden
letztgenannten Frequenzbänder
sollen Vorder- und Rückflanke des Vokalteils des Schallereignisses unterschieden
werden können. Die nachstehende Tabelle gibt die Frequenzbänder der einzelnen Filter
wieder:
Filter Frequenz |
HZ |
1 0 bis 200 |
2 200 bis 400 |
3 400 bis 800 |
4 800 bis 1200 |
5 1200 bis 1800 |
6 1800 bis 2600 |
7 2600 bis 4000 |
8 200 bis 1400 |
9 1500 bis 6000 |
Vokal 0 bis 800 |
Konsonant 7000 bis 8000 |
Die Schaltung 11 für die Gesamtleistung enthält nur einen Detektor
104 und
ein Tiefpaßfilter
106; der Ausgangs des Tiefpaßfilters geht unter anderem
zu allen Schaltungen 108, die das Verhältnis von Bandleistung zur Gesamtleistung
bilden sollen. Außerdem geht das Ausgangssignal der Schaltung
11 noch zur
Zeitschaltung 20.
-
Die Vokal-Konsonant-Schaltung 12 ist ähnlich aufgebaut wie eine Schaltung
4; sie enthält auch Bandpässe 102, Detektoren 104 und Tiefpässe
106. Die beiden Ausgänge sind bezeichnend für die Leistung im Vokal- und
Konsonantbereich des Schallereignisses. Dabei sollen die Begriffe Vokal und Konsonant
lediglich auf den unteren bzw. oberenFrequenzbereich hinweisen.
-
Die Zeitschaltung 20 erhält die Signale für die Gesamtleistung, die
Vokalleistung und die Konsonant Leistung und liefert fünf Ausgänge: Ein Rückstellsignal
für die Approximatoren 112, Signale t, t2 und t3 betreffend die Dauer des Vokalteils
und einen Ausblendimpuls für die Entschlüsselungsmatrix 16.
-
Die Ausgänge der Verhältnisbildner 108 speisen logarithmische
Generatoren 110, die Signale entsprechend
liefern, wo Pi und Pj die Leistung in den Bändern i und j und wo C = 1000
ist. Mit log ist der natürliche Logarithmus zur Basis e gemeint. Diese Signale werden
den Approximatoren 112 zugeführt, welche die folgenden Signale abgegeben:
Dabei sind t1 und t2 die Werte von t am Beginn und Ende des Vokalteils des Schallereignisses.
Diese Ausgänge gelten allgemein für alle Werte von t1 und t2. Um in den Zeichnungen
die Ausdrücke zu vereinfachen, sind sie für ti = 0 angeschrieben.
-
Die Ausgänge der Approximatoren 112 gelangen direkt oder über
Umkehrstufen zu Diskriminatoren 14, die einen Summenverstärker 114 und eine Reihe
von Eingangswiderständen enthalten. Die Größe dieser Eingangswiderstände hängt ab
von den Charakteristiken des Bezugs-Sschallereignisses, mit denen das zu identifizierende
Schallereignis verglichen werden soll, und sie bilden die Gewichte für die Ausgänge
der Approximatoren. Das Ausgangssignal jedes Summenverstärkers 114 ist proportional
der Amplitude des zugeführten Eingangssignals, geteilt durch den Eingangswiderstand,
hinter welchem es zugeführt wird. Das heißt mit anderen Worten, daß ein Eingangssignal,
das über einen hohen Eingangswiderstand zugeführt wird, auf den Ausgangswert weniger
Einfluß hat als ein über einen kleinen Widerstand zugeführtes Eingangssignal. In
den F i g. 4a und 4b sind praktische
Werte für die Eingangswiderstände
der Summenverstärker wiedergegeben. Diese Werte werden als Kehrwert von qs erhalten;
letztere wurden mit dem früher genannten Verfahren bestimmt. Zum Beispiel wurden
qo, q1 und q$ für die Eingänge des 1-2-Diskriminators aus dem Band
ermittelt zu 22,0 -49,5 und 18,5.
Dann sind die entsprechenden Widerstände
proportional
oder 0,045, - 0,020 und 0,054. Diese Zahlen sind proportional den Werten, die in
der F i g. 4a mit starken Linien eingerahmt sind. Die Tabelle der F i g. 4 trägt
am Kopf die Bezeichnung des zugehörigen Summenverstärkers. Ein Beispiel: Die Spalte
-
im mittleren Drittel der F i g. 4 gibt die Eingangswiderstände für die Eingangssignale
an, die aus dem mittleren Ausgangskanal (h) des Approximators 112 für das
Band -
herkommen. Die letzte Spalte der Tabelle enthält die Eingangswiderstände der Summenverstärker
für die Zufuhr des Ausgangssignals t der Zeitschaltung 20. Wenn in F i g.
4 ein negativer Widerstand angegeben ist, so bedeutet dies die Benutzung der invertierten
Ausgangsspannung des Approximators. Die Inversion durch den Summenverstärker ist
hierbei berücksichtigt; aus diesem Grunde unterscheiden sich die oben berechneten
Werte durch das Vorzeichen von den Tabellenwerten. Jeder Summenverstärker (F i g.
3 d) hat eine zusätzliche Eingangsspannung aus einem Potentiometer 116, mit dem
vor Arbeitsbeginn der richtige Bezugspegel vor den Summenverstärker eingestellt
wird. Bei Einstellung dieses Bezugspegels wird dem Mikrophon ein Standard-Schallereignis
zugeführt.
-
Der Entschlüsselungsmatrix 16 werden die Ausgänge der Summenverstärker
direkt und nach Inversion zugeführt. Die Matrix besteht aus einer Gruppe von Und-Schaltungen,
die auf einer von zehn Ausgangsleitungen 117 ein Identifizierungssignal abgibt.
Dieses Signal entsteht nur beim Vorliegen eines Ausblendimpulses von der Zeitschaltung
20. Die F i g. 5 a und 5 b geben diese Entschlüsselungsmatrix mit größerer
Ausführlichkeit wieder. Es zeigt sich aus dieser Darstellung, daß zu jeder Leitung
17 eine UND-Schaltung mit neun Eingängen (neun Dioden) gehört, so daß ein Signal
auf einer Leitung 117 nur entstehen kann, wenn alle zugeordneten neun Eingänge
mit Signalen versorgt sind. Bei der Bezeichnung der Summenverstärker bezieht sich
die erste Ziffer auf die horizontale Leitung 117, welcher das nichtinvertierte
Ausgangssignal des Summenverstärkers zugeht, und die zweite Ziffer bezeichnet jene
horizontale Leitung 117, der das invertierte Ausgangssignal zugeleitet wird. Beispiel:
Der Summenverstärkerausgang »0-2« ist unmittelbar mit der Leitung 117 zero
und invertiert mit der Leitung two verbunden.
-
Ein Signal »Fehlanzeige« entsteht auf der Leitung 118
(F i g.
3d), wenn die Matrix kein Signal liefert, denn in diesem Falle hat die ODER-Schaltung
120 keine Ausgangsspannung, so daß der Inverter 122 die UND-Schaltung
124 vorbereitet. Die Verzögerungseinrichtung 125 bringt dieselbe Verzögerung
wie die Matrix und die nachgeschalteten Torschaltungen.
-
Die in den F i g. 3 gezeigten Bandpässe und Tiefpässe sind von konventioneller
Art. Eine mögliche Ausführungsform der in F i g. 3 mit dem Bezugszeichen
110 versehenen logarithmischen Generatoren ist in F i g. 6 zusammen mit einer
Kennlinie für die Arbeitsweise eines solchen Generators dargestellt. Der Generator
besteht aus einem Verstärker 202 und einer Reihe von Rückkopplungspfaden, die aus
Widerständen oder aus der Reihenschaltung von Widerständen, Dioden und Batterien
bestehen. Die Zahl der Rückkopplungspfade hängt in gewissem Umfang von der Amplitude
der Eingangsspannung ab. Der Verstärker 202 ist ein Gleichstromverstärker bekannter
Art. Die Form des Ausgangssignals hängt von der Form des Eingangssignals, von den
Spannungen El, E2... En (Batterien 208) und von den Widerständen 204
der Rückkopplungszweige ab. Durch Benutzung einer großen Zahl von Rückkopplungspfaden
kann eine gewünschte Ausgangssignalform durch eine ebenso große Zahl von geraden
Linien angenähert werden. Es läßt sich auf diese Weise auch erreichen, daß das Ausgangssignal
den Logarithmus des Eingangssignals darstellt.
-
Die in den F i g. 3 mit dem Bezugszeichen 104 bezeichnete Schaltung
zur Bildung des Quadrates der Eingangsspannung läßt sich realisieren durch die in
F i g. 7 dargestellte Schaltung. Sie enthält einen Generator ähnlich dem mit in
F i g. 6 gezeigten, jedoch mit anderer Bemessung der Rückkopplungspfade. An ihrem
Eingang liegt eine Diode 222, welche die negativen Halbwellen des Eingangssignals
unterdrückt. Am Ausgang erscheinen nur die Quadrate der positiven Halbwellen des
Eingangssignals mit umgekehrter Polarität, wie es das Diagramm rechts in F i g.
7 zeigt.
-
Die F i g. 8 zeigt eine Ausführungsform für den in den F i g. 3 mit
112 bezeichneten Approximator. Der Zweck dieser Schaltung ist die Erzeugung
der früher besprochenen Signale 1o, Il und 12 entsprechend der Definition durch
die Gleichung (33). Die Schaltung hat fünf Eingänge: Eine Funktion F(t) und vier
Signale gleich der Zeitschaltung, nämlich t, t2, t3 und ein Rückstellsignal.
-
Die Integrationsvariable ist hier mit -r bezeichnet, um sie von derjenigen
der vorhergehenden Kreise zu unterscheiden. Zur Zeit t = t2 haben die Ausgangssignale
den Wert Io, Il und 12. Das Eingangssignal f (t) auf der Leitung 240 (F i
g. 8) wird zunächst invertiert, um die Inversion durch die Schaltung auszugleichen.
Anschließend wird das Signal von der Schaltung 242
über die Zeit integriert.
Diese Integrierschaltung 242
enthält einen Gleichstromverstärker
244 mit einem Rückkopplungskondensator 246. Der Ausgangswert wird
in der Schaltung 248 durch 12 dividiert; es entsteht ein erstes Ausgangssignal
auf der Leitung 250. Ein zweites Ausgangssignal wird gebildet durch Multiplikation
des Eingangssignals mit t in der Schaltung 252. Das Ergebnis wird in der
Schaltung 254 integriert und in der Schaltung 256 durch t2 dividiert. Dieses zweite
Ausgangssignal steht auf Leitung 258 zur Verfügung. Das dritte Signal des Approximators
entsteht, indem zunächst das Eingangssignal mit t2 multipliziert, das Ergebnis in
der Schaltung 262 integriert und schließlich die Division mit t3 in der Schaltung
264 durchgeführt wird. Das dritte Signal steht auf der Leitung 266 zur Verfügung.
Die Schaltungen 252 und 260 bzw. 248, 256 und 264 sind untereinander gleich und
an sich bekannt. Durch ein Signal auf Leitung 268 kann das Relais 270 erregt werden.
Kontakte dieses Relais schließen die Rückkopplungskondensatoren der Integrierschaltungen
242, 254 und
262 kurz. Auf diese Weise läßt sich erreichen,
daß die Integrierschaltungen nur während (und kurze Zeit nach) der Zeit arbeiten,
während welcher das Schallereignis analysiert wird (Vokalzeit).
-
Einzelheiten der Zeitschaltung 20 aus den F i g. 1 und 3 b sind in
F i g. 9 wiedergegeben. Diese Schaltung liefert fünf Ausgangswerte: t, t2,
t3, ein Rückstellsignal zum Approximator und einen Ausblendimpuls für die Entschlüsselungsmatrix
16. Die Zeit t ist hier variabel zwischen t = 0 und t = t2, welches
die Grenzen für den Vokalteil des Schallereignisses sind. Die Eingangssignale zur
Zeitschaltung sind die Gesamtleistung, die Vokalleistung und die Konsonantenleistung.
Das Signal für die Vokalleistung wird über einen Inverter 278 dem Summenverstärker
280
zugeführt. Die Konsonantenleistung wird mit dem Faktor 44,5 (entsprechend
dem ungefähren Leistungsverhältnis zwischen Konsonanten und Vokalen) im Summenverstärker
280 wirksam. Der Ausgang des Verstärkers liefert einen Wert entsprechend dem Ausdruck
Pvott -44,S PxonB. Durch den Begrenzer 282 wird das Ausgangssignal in positiver
Richtung begrenzt und der UND-Schaltung 284 zugeführt. Zur Bildung des zweiten
Eingangssignals für diese UND-Schaltung wird das Signal für die Gesamtleistung über
einen Inverter 286 dem Summenverstärker 288 mit einer Konstanten (entgegengesetzten
Vorzeichens) vereinigt, die durch Einstellung des Potentiometers 290 definiert ist.
Der Summenwert Ptot-C durchläuft den Begrenzer 292, bevor er zur UND-Schaltung 284
gelangt. Diese liefert demnach ein Ausgangssignal, wenn die Vokalleistung die Konsonantenleistung
ausreichend übersteigt und wenn außerdem genügend Gesamtleistung vorliegt. Durch
Integration werden daraus drei Signale gewonnen: -t, t2 und 13. Dabei
müssen die Signale t und t3 über Inverter 294 bzw. 296 geführt werden, um den Polaritätswechsel
durch die Integratorschaltungen auszugleichen. Das Ausgangssignal t auf Leitung
302 hat Sägezahnform mit der Eigenschaft, daß es während jeder 1/10o Sekunde sich
um denselben Betrag ändert, um den sich der Ausgang des logarithmischen Integrators
110 (F i g. 3 a, 3 b und 8) ändert, wenn dessen Eingangssignal mit e (e = 2,718,
Basis des natürlichen Logarithmus) multipliziert wird. Die Werte der Eingangswiderstände
für die Summenverstärker, die in Spalte t der Tabellen von F i g. 4a und 4b erscheinen,
basieren auf dieser Beziehung. Die Ausgangssignale auf Leitung 304 (entsprechend
t2) und auf Leitung 306 (entsprechend t3) sind durch Integration des Signals der
Leitung 302 gewonnen.
-
Die Zeitschaltung liefert außerdem ein Rückstellsignal und ein Ausblendsignal
auf den Leitungen 268
bzw. 310. Dazu wird vom Ausgang der UND-Schaltung 284
von dem Differenzierglied 312, 314 jeweils bei Beginn des Vokalteils zur Zeit t1
= 0 ein positiver und am Ende des Vokalteils zur Zeit t2 ein negativer spitzer Impuls
gewonnen. Letzterer passiert die Diode 316 und stößt den Impulsgenerator 318 an,
der seinerseits den Ausblendimpuls auf Leitung 310 liefert. Letzterer gelangt über
die Verzögerung 320 auch zur bistabilen Schaltung 322, welche über die Leitung 324
und den Verstärker 326 das Relais 328 betätigt. Kontakte dieses Relais überbrücken
die Rückkopplungskondensatoren in den Integratorschaltungen und legen Erdpotential
auf die Rückstelleitung 268 (s. auch F i g. 8). Die bistabile Schaltung 322 wird
zu Beginn der Vokalzeit eingestellt, die Überbrückung der Kondensatoren wird für
diese Zeit beseitigt, so daß die Zeitschaltung (F i g. 9) und die Approximatoren
(F i g. 8) arbeiten können. Wegen der unvermeidlichen Verzögerung des Relais 328
bleiben die Integratoren nach dem Ende der Vokalzeit noch so lange wirksam, daß
der Ausblendimpuls auf Leitung 310 in der Matrix 16 (F i g. 3 d) wirksam werden
kann.