DE1572454A1 - Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte - Google Patents
Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer KennwerteInfo
- Publication number
- DE1572454A1 DE1572454A1 DE19671572454 DE1572454A DE1572454A1 DE 1572454 A1 DE1572454 A1 DE 1572454A1 DE 19671572454 DE19671572454 DE 19671572454 DE 1572454 A DE1572454 A DE 1572454A DE 1572454 A1 DE1572454 A1 DE 1572454A1
- Authority
- DE
- Germany
- Prior art keywords
- circuit
- ring
- frequency
- pulse
- harmonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims 2
- WCZDQPXNBJTKPI-UHFFFAOYSA-O Cyanidin 7-glucoside Chemical compound OC1C(O)C(O)C(CO)OC1OC1=CC(O)=C(C=C(O)C(=[O+]2)C=3C=C(O)C(O)=CC=3)C2=C1 WCZDQPXNBJTKPI-UHFFFAOYSA-O 0.000 abstract description 2
- 101000953492 Homo sapiens Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 1 Proteins 0.000 abstract description 2
- 102100023727 Mitochondrial antiviral-signaling protein Human genes 0.000 abstract description 2
- 230000001934 delay Effects 0.000 abstract 2
- 102100036881 Inositol-3-phosphate synthase 1 Human genes 0.000 abstract 1
- 101710090028 Inositol-3-phosphate synthase 1 Proteins 0.000 abstract 1
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 abstract 1
- 230000004913 activation Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 abstract 1
- 239000003990 capacitor Substances 0.000 description 7
- 238000005259 measurement Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- MDAXKAUIABOHTD-UHFFFAOYSA-N 1,4,8,11-tetraazacyclotetradecane Chemical compound C1CNCCNCCCNCCNC1 MDAXKAUIABOHTD-UHFFFAOYSA-N 0.000 description 2
- 101100072643 Arabidopsis thaliana IPS2 gene Proteins 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electric Clocks (AREA)
- Devices For Supply Of Signal Current (AREA)
- Electronic Switches (AREA)
Description
IBM Deutschland
Internationale Büro-Maschinen Gesellschaft mbH
Böblingen, 21. Dezember 1967 bi-oc
Anmelderin: International Business Machines
Corporation, Armonk, N. Y. 10 504
Amtliches Aktenzeichen: Neuanmeldung
Aktenzeichen der Anmelderin: Docket 6720
Verfahren und Einrichtung zur Gewinnung digitaler, für
Sprachlaute charakteristischer Kennwerte
Sprachlaute charakteristischer Kennwerte
Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Gewinnung
digitaler, für Sprachlaute charakteristischer Kennwerte unmittelbar aus
einem elektrischen, dem Sprachlaut äquivalenten Signal. Dabei werden
in jeder Grundtonperiode des Sprachlautes die Harmonischen lokalisiert.
in jeder Grundtonperiode des Sprachlautes die Harmonischen lokalisiert.
Bekannte Verfahren oder Einrichtungen zur Sprachanalyse benutzen entweder
Sätze von Bandfiltern, die den Frequenzbereich des Sprachlautes
überdecken (z. B. DBP 1 189 745) oder machen von dem Zählen der Null-Durchgänge
als Ausgangswert für die Analyse Gebrauch (z.B. The Journal of the Acoustical Society of America, Vol. 32, Nr. 4, April 1960, Seiten
441 bis 450), Beide Verfahren haben den Nachteil beträchtlichen Kosten-
009016/0747
BAD QRiOiNAl
.-»-
J572454
aufwandes. Das erstgenannte erfordert teure Filter, die zudem beträchtlichen
Platzbedarf haben. Das zweite Verfahren stellt hohe Anforderungen an die Toleranzen der Bausteine, wenn es verläßlich
arbeiten soll.
Die Erfindung geht einen anderen Weg. -Der Stimmritzen-Impuls jedes
ersten lokalen Maximums eines Sprachlautes dient als Anfangspunkt einer Zeitmessung, welche die Lage der im Sprachlaut enthaltenen
Harmonischen bestimmt. Statt der Ermittlung von Frequenzanteilen wird eine Zeitmessung vorgenommen; dies ist möglich infolge der Beziehung
F = —, wobei F die Frequenz in kHz und T die Zeit in ms darstellt. Wegen der starken Dämpfung im menschlichen Vokaltrakt
ist das erste Maximum als Anfangspunkt der Zählung gegenüber den folgenden lokalen Maxima eindeutig bestimmbar. Infolge der Benutzung
einer Zeitmessung ist das Verfahren anpassungsfähiger als mit einer
Frequenzmessung,
Gegenstand der Erfindung ist demnach ein Verfahren zur Gewinnung digitaler, für Sprachlaute charakteristischer Kennwerte mit Aufteilung
des den Sprachlauten äquivalenten elektrischen Signals in einen niederfrequenten,
einen mittelfrequenten und einen hochfrequenten Teil, mit dem Merkmal, daß aus dem mittelfrequenten Signalteil impulsförmige, den
auftretenden Harmonischen entsprechende Signale gewonnen werden, daß
aus dem niederfrequenten Signalteil ein Auswerte-Startsignal beim Auf«
009816/0747
treten eines stimmhaften Anfangslautes abgeleitet wird und daß vom
BADOBiQINAL
-■*- J572454
Auswerte-Startsignal angestoßene Impulsverteiler das Einschreiben der den Harmonischen entsprechenden Signale in eine Speichermatrix
steuern.
Es hat sich als vorteilhaft erwiesen, für stimmlose Laute charakteristische Signale aus dem hochfrequenten Signalteil auf gleiche Weise
abzuleiten und in die Speichermatrix einzutragen.
Die erfindungsgemäße Einrichtung zur Durchführung dieses Verfahrens
besteht aus einer Schaltung zur Bestimmung von Reibelauten, die eine
Zeile der Speichermatrix speist, aus einer Schaltung zur Bestimmung
von Harmonischen, von der die übrigen Zeilen der Speichermatrix über integrierende Koinzidenzschaltungen gespeist werden und aus einer
Schaltung zur Bestimmung der Einhüllenden, die das Startsignal für zwei Ringe liefert, die einerseits an die Koinzidenzschaltungen der Zeilen
Impulse liefert und andererseits die Spalten der Speichermatrix erregt.
Die nachfolgende Beschreibung des Verfahrens und eines Ausführungsbeispiels .der Einrichtung wird durch Zeichnungen erläutert.
6720
009816/0747 __
BAD-ORiCHNAL.
Fig. 1 ist ein Blockschaltbild zur Erläuterung des Erfindungsgedankens;
Fig. 2a, 2b, nach Fig. 2 zusammengesetzt, zeigen eine ausführlichere
2c und 2d,
Darstellung der erfindungsgemäßen Anordnung;
Fig. 3 zeigt die Schaltung zur Bestimmung von Harmonischen;
Fig. 4 u. 5 sind Spannungsverläufe und deren Harmonische für die Vokallaute "aw" und "oh";
Fig. 6 zeigt eine Schaltung zur Bestimmung der Einhüllenden
und
Fig. 7 zeigt eine Schaltung zur Selektion von Reibelauten.
In Fig. 1 nimmt das Mikrophon 1 Sprachlaute auf und verwandelt sie
in elektrische Signale, die vom pegel-geregelten Vorverstärker PA
verstärkt werden. DieserVerstärker liefert an drei Ausgangsklemmen drei verschiedene Ausgangssignale: Ein hochfrequentes Ausgangssignal
mit Rauschanteilen über Leitung 23 zu einer Schaltung zur Selektion von Reibelauten FR; ein mittelfrequentes Signal im Bereich von 2 50 bis
3000Hz über Leitung 24 zur Schaltung zur Bestimmung von Harmonischen
HL; ein niederfrequentes Signal über Leitung 25 zur Schaltung zur
0098 16/0747
Bestimmung der Einhüllenden EPD, Aus letzterer Schaltung EPD wird
über Leitung 26 ein Regelsignal zur Verstärkungsregelung zum Vorverstärker
PA zurückgeführt. Das Blockschaltbild enthält weiter eine Speichermatrix
SM für Koinzidenz-Betrieb, deren Steuersignale von einem. Abtast- /
ring SCR und von einem Takt ring TBR beeinflußt werden. Diese Matrix
dient zur Speicherung der mit vorliegender Erfindung aus den drei obengenannten Signalen abgeleiteten Laut-Merkmale^. Die Speicherwerte
definieren den Aufbau der Sprachlaute. -
Jeder der beiden Ringe ist mit Mitteln zum Beginnen und zum Steuern
der Fortschaltung versehen. Beim Auftreten stimmhafter Laute am
Anfang eines gesprochenen Wortes werden beide Ringe SCR und TBR
von der Schaltung zur Bestimmung der Einhüllenden EPD angeregt, der Ring SCR über die Leitung 83 und der Ring TBR über die Leitungen 83,
83», die Oder-Schaltung 260 und die Leitung 263, die zur ersten Stufe
des Taktringes TBR führt. Andererseits verursacht das Auftreten eines
Reibelautes am Anfang eines gesprochenen Wortes nur die Aktivierung
des Taktringes TBR und zwar über den Weg der Leitung 144b, Ringtreiber RDl, Leitung 226a, Oder-Schaltung 260 und Leitung 263.
Die Fortschaltgeschwindigkeit der Ringe wird durch Verzögerungsschaltungen, Multivibratoren und Ringtreiber gesteuert. Die Fortschaltung
des Abtast ringe s SCR erfolgt durch Signale aus dem Multivibrator GMVl
über die Leitung 205a den Treiber RD2 und die Leitung 226b« Der Multivibrator
GMVl wird seinerseits von der Verzögerungseinrichtung ADl
8ADt)RlQJNAL
oder vom Ausgang des Inverters 270a gesteuert, die beiden an den
Eingängen der Oder-Schaltung 260a liegen; letztere ist mit dem Steuereingang des Multivibrators GMVl verbunden.
Die Fortschaltung des Taktringes TBR wird vom Multivibrator GMV
über Leitung 205, den Ringtreiber RD und Leitung 226 gesteuert. Die
Steuerung des Multivibrators GMV geschieht über die Leitung 184 vom
Ausgang der Verzögerungseinrichtung AD, deren Eingang über die Leitung 164 mit der ersten Stufe des Taktringes TBR verbunden ist.
Die Erregung und das Fortschalten des Taktringes TBR versorgt die Speichermatrix SM mit Steuersignalen auf den Leitung ti bis t7. Die
Erregung und Fortschaltung des Abtastringes SCR verursacht Steuersignale auf den Leitungen A2 bis A8, welche bei Koinzidenz mit den
Ausgangssignalen der Schaltung zur Bestimmung von Harmonischen HL auf Leitung 48 nacheinander die integrierenden Impulserzeuger
IPS2 bis IPS8 erregen. Die Ausgänge dieser Impulserzeuger gelangen
über die Leitungen 144c bis 144i zur Speichermatrix SM; solche Signale
treten auf, wenn das gesprochene Wort mit einem stimmhaften Laut beginnt. Wenn jedoch der Anfangslaut ein Reibelaut ist, so wird nur
der Taktring TBR über die Leitungen ti bis t7 Signale zur Speichermatrix
SM liefern. In diesem Falle dienen nur die Signale auf den
en
Leitung/tl bis t7 und das Signal des integrierenden Impulserzeugers
Leitung/tl bis t7 und das Signal des integrierenden Impulserzeugers
6720 .. 00 9816/074
■IP-Si über Leitung 144a zur Erzeugung von Speichersignalen, die für
einen Eingangs-Reibelaut charakteristisch sind.
Vor der eingehenderen Beschreibung der Erfindung sollen zunächst einige oben kurz erwähnte Bausteine des Blockschaltbilds von Fig, I
etwas näher beschrieben werden. Die Schaltung zum Bestimmen von Harmonischen der Sprachlaute ist in Fig. 3 wiedergegeben. Sie besteht
aus dem Spitzendetektor 28 und der monostabilen Kippschaltung 39. Rrstere dient zur Feststellung von Amplitudenhöchstwerten und letztere
zur Normierung der Ausgangsimpulse. Der Spitzendetektor 28 besteht
aus den Transistoren 30 und 37. Das Eingangssignal auf Leitung 24,
das über den Widerstand 29 zur Basis des Transistors gelangt, ist
'auf einen Amplitudenhöchstwert von etwa 2 Volt begrenzt. Beim ersten
großen positiven Spitzenwert der Grundtonperiode, welche die Grunderregung
darstellt, wirkt der Transistor 30 als i~mitterverstärker und
lädt den Kondensator 32 über die Diode 33 auf. Der Punkt A der Schaltung
erreicht dabei seinen positiven Höchstwert von etwa -2 V. Der Punkt B
der Schaltung wird gleichzeitig-auf etwa den gleichen Spannungswert gebracht.
Zwischen den Punkten A und B besieht also während des Anstiegs
/.um positiven Teil der Sprachwellenform keine merkliche Spannungsdifferenz;
der Transistor 37 bleibt nichtleitend und die Punkt C und D der Schaltung bleiben bei etwa -12 X; der Transistor 40 ist gesperrt,
Punkt E steht bei +6 'V und Punkt F bei etwa -6 Y. Über das der Bereichs-
6720 .00 9816/ 07 4-7
einstellung dienende Potentiometer 44 fließt durch den mit Leitung
verbundenen Widerstand ein Strom zur Basis des Transistors 45, der
so daß er
dadurch gutleitend gehalten wird^e Ausgangsklemme auf etwa -12 V halt. Bei voller Leitfähigkeit des Transistors 45 und angeschlossener Last kann die Leitung 48 eine Spannung von -10 V annehmen.
dadurch gutleitend gehalten wird^e Ausgangsklemme auf etwa -12 V halt. Bei voller Leitfähigkeit des Transistors 45 und angeschlossener Last kann die Leitung 48 eine Spannung von -10 V annehmen.
Unter der Annahme der ungünstigsten Bedingung wird während des Ladevorgangs durch den ersten hohen positiven Spannungsanstieg der
Punkt B geringfügig höhere Spannung haben als der Punkt A, da durch die Diode 33 ein geringerer Strom fließt als durch die Diode 34; der
Sperrzustand des Transistors 37 ist also sichergestellt. Sobald der
Gipfel erreicht ist, kehren sich die Spannungszustände um, da nun die
Diode 34 mehr Strom führt als die Diode 33 und hinter dem Spannungsspitzenwert wird die Diode 33 umgekehrt polarisiert, so daß der Punkt
B niedrigere Spannung hat als A; der Transistor 37 wird leitend und
die Punkte C und D gelangen rasch zu -6 V. Dabei wird der Punkt C
infolge des Stromflusses vom Kondensator 32 über den Transistor 37 und den in Reihe liegenden Widerstand 38e zur Basis des Transistors
40 leicht über der Spannung des Punktes D liegen. Die Folge ist ein scharfer Abfall der Spannung am Punkt E von +6 V zu -6 V. Der Spannungsabfall
wird vom Kondensator 42 zum Punkt F übertragen, der infolgedessen rasch von -10 V nach -20 V abfällt und die früher leitenden
Transistor 45 sperrt. Der Spannungsanstieg der Ausgangsklemme in positiver Richtung wird über Leitung 50 und den Widerstand 51 zum
00 9816/074 7
Punkt D rückübertragen, um sicherzustellen, daß der Transistor 40
während der vollen Dauer des Ausgangsimpulses leitend bleibt. Die Dauer ist durch das RC-Produkt des Kondensators 42 und des Widerstandes
5* sowie durch die Einstellung des Potentiometers 44 bestimmt.
Die Impulsbreite mit der Schaltung ist zwischen 150 und 450 μ sec.
veränderbar.
Im allgemeinen wird das Impulsende im Transistor 40 nicht abschalten,
da die abfallende Flanke den Transistor 37 noch eingeschaltet hält; der
Transistor 40 wird also nach dem Impulsende bis zum Erreichen des
"Tals" leitend bleiben. Dann beginnt der Transistor 30 wieder den
Kondensator 32 aufzuladen, der Transistor 37 sperrt und die Punkte
C und D gehen auf einen niedrigeren Pegel und schalten den Transistor 40 ab. Der Punkt E steigt jetzt auf + 6 V an und lädt den Kondensator
als Vorbereitung für den nächsten Ausgangsimpuls, Jeder solche Ausgangsimpuls markiert das Auftreten der amplitudenstärksten Harmonischen
in der komplexen Sprachsehwingung und ihre zeitliche Lage,
Die Impulsdiagramme der Fig, 5 und 6 zeigen die Differenz zwischen
den Vokalen "aw" und "oh" (jeweils in englischer Aussprache). Es zeigt
sich, daß der Vokal "aw" die achte, dritte und zweite Harmonische
enthält] der Vokal "oh" enthält nur die vierte und zweite Harmonische, Für den Vokal "aw" entsteht infolgedessen während der Zeiten 2, 5 und
6720 009816/ 074?
■ BAD
ein Au s gangs signal, beim Vokal "oh" während der Zeiten 4 und 7. Die
links an Fig. 4 angeschriebenen Bezeichnungen (24, 48; A bis F) bezeichnen Schaltungspunkte der Fig» 3 an denen diese Spannungen auftreten.
Für stimmhafte Sprachlaute werden auf diese Weise unterschiedliche Schlüsselzeichen erzeugt. Davon sind Vokale und stimmhafte Konsonanten
betroffen. Stimmlose Konsonanten werden von der Schaltung nicht erfaßt; sie sind auf andere Weise feststellbar.
Für die Schaltung zur Bestimmung der Einhüllenden EPD, genauer gesagt für die Bestimmung des Spitzenwertes der Einhüllenden, gibt
die Fig. 7 ein Beispiel, Die Schaltung besteht im wesentlichen aus den
drei Transistoren 75, 78 und 82. Der Transistor 75 dient zur Überwachung
der negativen Spitzenwerte, die während des negativen Signalteils
im Netzwerk 71 auftreten; er liefert, infolge Invertierung, über die Leitungen 76 und 84 ein Signal auf die Ausgangsleitung 83. Die
Transistoren 78 und 82 überwachen die positiven, während des positiven Signalteils auftretenden Spitzen; die Aus gangs signale werden ebenfalls
auf die Leitung 83 übertragen. Diese positiven Spitzenspannungen liefern die Grundfrequenz, die zur Steuerung des Abtastringes SCR
und des Taktringes TBR benutzt werden.
Die Transistoren 85 und 91 dienen zur Bildung der Regelspannung für
den Vorverstärker PA. Die Steuerspannung für die Regeleinrichtung
6720 00 9816/074
0X, ·
kommt von der Leitung 76. Die Transistoren 85 und 91 arbeiten als
Verstärker für die Regelspannung, deren Zeitkonstante durch die RC-Glieder
86r, 86c und 94, 95 bestimmt wird. Über Leitung 26 gelangt diese Regelspannung zum Vorverstärker PA.
Für die Schaltung zur Selektion von Reibelauten ist mit Pig. 7 ein
Beispiel gegeben."Wesentliche Bestandteile sind die drei Transistoren
100, 106 und 108 und ein LC-Netzwerk 103. Die vom Verstärker PA
gelieferten hochfrequenten Anteile des Sprachsignals werden über Leitung 23 eingegeben.Der Transistor 100 dient als Treiber, die Transistoren
106 und 108 arbeiten al& Differenzverstärker, wobei das Netzwerk
103 eine Verzögerung bewirkt. Das Ausgangssignal (auf Leitung 110) besteht aus hochfrequenten Schwingungen oberhalb 4 kHz. Das über
den Kondensator 111 angeschlossene Gleichrichternetzwerk 113 und der Transistor 116 schaffen einen Gleichstrompegel, der dem Spitze-Spitze-Wert
des auf Leitung 110 einlaufenden Signals proportional ist.
Die in Fig. 1 mit den Bezugszeichen AD, ADl und AD2 versehenen Verzögerungseinrichtungen
liefern ein verzögertes Rechtecksignal, das einen sauberen Start der nachgeschalteten Einrichtung bewirkt und Fehlstarts
durch Störsignale vermindert. Die Verzögerung liegt in der Größenordnung von 3 ms.
Die in Fig. 1 mit der Bezeichnung RD, RDl und RD2 versehenen Tr eiber
009816/074?
6720 < BAD OFHGiNAL
und Ringtreiber dienen zur Erzeugung von Impulsen fester Länge.
Im wesentlichen bestehen sie aus einer monostabilen Kippschaltung mit nachgeschaltetem Verstärker. Der Pegel der Ausgangssignale
liegt zwischen -6 V und +6 V; die Impulsdauer ist etwa 130 us.
Der Abtastring SCR und der Taktring TBR enthält in jeder Stufe, SO
bis S8 und TO bis T8, zwei Transistoren, Der Ein-Zustand einer Stufe
ist durch die Leitfähigkeit beider Transistoren gekennzeichnet; über die Fortschaltleitungen 226 bzw, 226b wird bewirkt, daß die jeweils
folgende Stufe in den Ein-Zustand versetzt wird und die in diesem Zustand befindliche in den Aus-Zustand rückversetzt wird. Die mit den
Ringen zusammenarbeitenden Verzögerungseinrichtungen und Multivibratoren sind so bemessen, daß der Taktring eine andereFortschaltgeschwindigkeit
hat als der Abtastring.
Eine ausführlichere Darstellung des Erfindungsgedankens soll anhand
der Fig. 2a bis 2d gegeben werden. Die Sprachlaute treten wieder über
das Mikrophon 1 ein und gelangen über die Leitungen 2 und 3 zum Vorverstärker
PA, wo sie unter dem Einfluß der auf Leitung 26 aus der Schaltung zur Bestimmung der Einhüllenden EPD zugeführten Regel-
spannung verstärkt werden. Am Potentiometer 5 kann die Empfindlichkeit
des Verstärkers den Umweltbedingungen angepaßt werden. Aus dem Verstärker tretenauf den Leitungen 23, 24 und 25 hochfrequente Ausgangs·
signale für die Speisung der Schaltung zur Selektion von Reibelauten FS, mittelfrequente Signale zwischen 250 und 3000 Hz zur Speisung der
Schaltung zur Bestimmung von Harmonischen HL sowie niederfrequente
Signale zur Speisung der Schaltung zur Bestimmung der Einhüllenden
EPD aus. Das Ausgangssignal der Schaltung zur Selektion von Reibelauten
gelangt über den integrierenden Impulserzeuger IPSl, die
Leitung 144 a., 144 b zum Ringtreiber RDl, der über Leitung 226a
und die Oder-Schaltung 260 die erste Stufe des Taktringes TBR anstößt. Die Leitung 144a führt außerdem zur Speichermatrix SM (Fig. 2b).
Die Speie her matrix SM besteht aus einer Vielzahl von Verriegelungsschaltungen MLl bis ML 56, die in Zeilen und Spalten für koinzidente
Ansteuerung angebracht sind. Jede Schaltung ML kann ein Bit für eine Information über den Sprachlaut speichern. Wenn z.B. in einem Sprachlaut die erste Äußerung Reibelaut-Charakter hat, so werden in einer
oder mehreren der Schaltungen MLl, ML9, ML 17, ML25, ML33, ML41
und ML49 Speicherwerte eingegeben. Diese Schaltungen werden durch
die Koinzidenz von Signalen auf der Leitung 41a und den Leitungen ti bis
t-7 erregt; die Signale auf den Leitungen ti bis t7 stammen vom Taktring
TBR der Fig. 2d. Die Schaltungen ML der Matrixzeilen 2 ff. der Fig. 2b
dienen zur Speicherung von Informationsbits, die für mit einem stimmhaften
Laut beginnende Sprachlaute charakteristisch sind. Die Erregung
dieser Schaltungen in den Zeilen 2 und folgende erfolgt durch koinzidente Signale auf den Leitung ti bis t7 des Taktringes TBR und auf den Leitungen
144c bis 144i aus den zugeordneten integrierenden Impulserzeugern
IPSl bis IPS8* Letztere werden wiederum durch den Abtastring SCR über
009816/0747
BAD ORIGINAL
die Leitungen A2 bis A8 erregt, falls gleichzeitig an ihnen ein Signal
aus der Schaltung zur Bestimmung von Harmonischen HL auf Leitung 48 ansteht. Diese Leitung 48 überdeckt den Frequenzbereich zwischen
250 und 3000 Hz.
Aus Fig. 3 ist es bekannt, daß die Integrations zeit der Schaltung zur
Bestimmung von Harmonischen HL veränderlich ist. Andererseits ist die Fortschaltgeschwindigkeit der Ringe gesteuert. Es läßt sich damit
erreichen, daß die Schaltung zur Bestimmun g von Harmonischen HL
während eines Ringumlaufes fünf Zyklen durchlauft, vorausgesetzt, daß ein vollständiger Speicherzyklus der Speichermatrix SM von 40 ms
möglich ist. Ein solches Auflösungsvermögen ist ausreichend für die Abspeicherung aller von dem System für eine männliche Stimme mit
einer Grundfrequenz von 125 Hz (Periodendauer 8 ms) erzeugten charakteristischen
Bits. Unter gewissen Bedingungen kann es vorteilhafter sein, die Ausgangs signale der Schaltung zur· Bestimmung von Harmonischen HL unmittelbar und unter Umgehung der integrierenden Impulserzeuger
in die Spei eher matrix einzugeben. Dabei ist aber zu beachten,
daß mit der Integration ein viel ausgeglicheneres Sprachbild erzeugt wird, das praktisch identisch mit dem Formant-Bild ist. Außerdem
"gleitet" das Ausgangssignal der Schaltung HL in Abhängigkeit von der
Zeit und es muß quantisiert werden, wenn man es digital speichern und
ein von wirtschaftlichen und praktischen Überlegungen bestimmtes Auflösungsvermögen
haben will.
009816/0747
Aus den Fig. 2c und 2d ist zu entnehmen, wie die Verzögerungeinrichtungen
AD, ADl und AD2 zur Steuerung der Ringe SCR und TBR benutzt
werden. Durch die genannten Verzögerungseinrichtungen soll die Taktzeit für die erste Stufe ebenso groß gemacht werden wie für jede andere
Stufe der Ringe, Die Fortschaltgeschwindigkeit der Ringe kann durch
die Potentiometer 176 und 176* variiert werden. Das Potentiometer 176·
kann auch als "Sprechgeschwindigkeits"-Potentiometer bezeichnet werden;
es beeinflußt die Verzögerungseinrichtung AD und die Schaltgeschwindigkeit
des Multivibrator GMV, der für eine Verzögerung von einer halben
Periode ausgelegt ist. Die Verzögerungseinrichtung AD ist für eine Verzögerung von einer halben Periode ausgelegt, so daß eine Verzögerung von einer ganzen Periode resultiert und zwar unabhängig von der
Einstellung des Potentiometers 176*,
Das Auslösesignal für den Taktring TBR beim Auftreten eines einleitenden
Reibelautes geschieht über Leitung 144b (von IPSl, Fig. 2a), den Ringtreiber RDl, Leitung 226a, die Oder-Schaltung 260 und die
Leitung 263 zur Stuf ς TO; diese wird dadurch ausgeschaltet. Dadurch
entsteht ein Signal auf Leitung 164 zur Anregung der Verzögerungseinrichtung
AD, die ihrerseits den Multivibrator GMV zur Abgabe eines Impulses an den Ringtreiber RD veranlaßt; dieser liefert über Leitung
226 Fortschaltimpulse für den Takt ring TBR, so daß nacheinander die
aufeinanderfolgenden Spalten der Speichermatrix SM erregt werden und
die Eintragung von Speicherbits möglich machen. Sobald der Ring sich
009816/0747 - '— —.«
BAD ORIGINAL 6720 '
.**.. 157245«
Uo
auf der Stufe T8 befindet, -wird eine bistabile Schaltung MLO und eine
Anzeigevorrichtung 157 zur Markierung des Endes eines Speicherzyklus
angeschaltet,
Durck Druck auf die Taste 281 wird ein neuer Speicherzyklus eingeleitet,
indem dadurch.über die Leitung 256, 257, den Inverter 270 und die Leitung 273 die Stufe TO des Ringes TBR eingeschaltet wird. Falls durch
einen Reibelaut oder einen stimmhaften Laut am Eingang eines Sprachsignals
ein neuer Zyklus beginnen kann, wird die Stufe TO aus und die Stufe Tl eingeschaltet. Dann erfolgt die Fortschaltung des Ringes wieder
in der beschriebenen Weise durch Treiberimpulse auf die Leitung 226.
Wenn der Abtastring SCR die letzte Stufe S8 erreicht, so wird die Eingangsstufe
SO nach einer Verzögerung eingeschaltet und zwar über einen Strompfad von der Stufe S8 über die Leitung 256 die Verzögerungseinrichtung
AD2 und die Leitung 184b. Die Stufe SO kann aber auch durch die Taste 281 über die Leitungen 256 und 258, den Inverter 270a und die
Leitung 273a eingeschaltet werden.
Wenn ein stimmhafter Laut auftritt, werden beide Ringe SCR und TBR
in Tätigkeit gesetzt, der Ring TBR über die Leitungen 83 und 83', die Oder Schaltung 260 und die Leitung 263, die zur Stufe TO führt; die
Stufe SO (von SCR) wird ebenfalls über Leitung 83 in Gang gesetzt. Wenn die Stufe SO des Abtastringes SCR eingeschaltet ist, gelangt ein Signal
009816/07A7 . -
über Leitung 163, die Verzögerungseinrichtung ADl, die Leitung 184a,
die Oder-Schaltung 260a, die Leitung 263a, den Multivibrator GMVl, die Leitung 205a, den Treiber RD2 und die Leitung 226b zu allen Stufen
desRinges, Sobald der Ring zur Stufe S8 fortgeschaltet ist, erscheint auf Leitung 256 ein Signal, das über die Verzögerungseinrichtung AD2
und die Leitung 184b die Stufe SO wieder einschaltet. Die Verzögerung
ist zwischengeschaltet, um die Ausgangssignale des Rings bis zum Ende
der Grundfrequenz der Schaltung zur Bestimmung von Harmonischen HL
zu verzögern.
Wenn der Taktring TBR einmal eingeschaltet ist, erregt er nacheinander
die Spalten der Speichermatrix mit einer Geschwindigkeit, die vom Potentiometer 176* für die Anpassung an die Sprechgeschwindigkeit
bestimmt wird. Und der Abtastring SCR erregt beim Vorrücken nach»
einander die integrierenden Impulserzeuger IPS2 bis IPS8; diese erregen
ihrerseits Zeilen der Matrix. Die koittzidente Erregung der Zeilen und
Spalten der Speichermatrix SM veranlaßt dann also die Verriegelungsschaltungen ML zur Speicherung des Signalmusters, welches die Laut»
merkmale des gesprochenen Wortes darstellt.
Die nachfolgende Tabelle soll zeigen, wie die Benutzung gleicher Zeit«»
Intervalle das Frequenzband des Sprachereignisses teilt. Die unteren
Frequenzbereiche sind sehr viel enger als die oberen. Wenn die Zeit»
verzögerung gegenüber der Grundfrequenz 0, 3 ms und wenn das Zeitintervall für den Abtastring 0, 6 ms beträgt, so sind die entsprechenden
BAD ORIGINAL
Frequenzbänder die folgenden:
T (ms) f (Hz)
0.3-0.9 1100 - 3300
0.9-1.5 666 - 1100
1.5-2.1 475 - 666
2.1 - 2. 7 370 - 475
2. 7 - 3. 3 300 - 370
3. 3 - 3. 9 255 - 300 3. 9 - 4. 5 222 - 255
Bei der Beobachtung des Verlaufs der 4.usgangsspanniHig der Schaltung
zur Bestimmung von Harmonischen während des "Gleitens" von Vokalen
ergibt sich, daß dieser Verlauf über den Formant ^Bereich gleichförmig
ist. Diese Gleichförmigkeit des Ausgangssignals unterstützt die Vorstellung,
daß die vorliegende Erfindung und das Konzept der Zeitabschnitte für die Frequenzmessung eine Ähnlichkeit aufweist mit der Vorstellung
von der Gehirntätigkeit bei der Analyse von. Sprache.
009816/0747
Claims (3)
1. Verfahren zur Gewinnung digitaler, für Sprachlaute charakteristischer
Kennwerte mit Aufteilung des den Sprachlauten äquivalenten elektrischen
Signals in einen niederfrequenten, einen mittelfrequenten und
einen hochfrequenten Teil, dadurch gekennzeichnet, daß aus dem mittelfrequenten Signalteil impulsförmige, den auftretenden Harmonischen
entsprechende Signale gewonnen werden, daß aus dem niederfrequenten Signalteil ein Auswerte-Startsignal beim Auftreten eines
stimmhaften Anfangslautes abgeleitet wird und daß vom Auswerte-Startsignal angestoßene Impulsverteiler das Einschreiben der den
Harmonischen entsprechenden Signale in eine Speichermatrix steuern.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß aus dem
hochfrequenten Signalteil impulsförmige, den lokalen Höchstwerten entsprechende Signale abgeleitet werden und/hß ein vom ersten derartigen
Signal angestoßener Impulsverteiler das Einschreiben der nachfolgenden Signale in eine Speichermatrix steuert.
3. Schaltungseinrichtung zur Durchführung das Verfahrens nach den Ansprüchen 1 und 2, gekennzeichnet durch eine vom hochfrequenten
Signalteil gespeiste Schaltung zur Bestimmung von Reibelauten (FS),
6< . 009816/0747
/Z
IO
deren Aus gangs signale einer Zeile der Speichermatrix (SM) zugeführt
werden, durch eine vom mittelfrequenten Signalteil gespeiste Schaltung zur Bestimmung von. Harmonischen (HL), deren Ausgangssignale
den übrigen Zeilen der Speichermatrix (SM) über integrierende Koinzidenz schaltungen (IPS) zugeführt werden und durch eine vom
niederfrequenten Signalteil gespeiste Schaltung zur Bestimmung der Einhüllenden (EPD), die einen mit den Koinzidenzschaltungen (IPS)
verbundenen Abtastring (SCR) und einen mit den Spaltenleitungen der Matrix (SM) verbundenen Taktring (TBR) starten.
0 09 8 16/ 0 7U 7
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US60564666A | 1966-12-29 | 1966-12-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE1572454A1 true DE1572454A1 (de) | 1970-04-16 |
Family
ID=24424588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19671572454 Pending DE1572454A1 (de) | 1966-12-29 | 1967-12-27 | Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte |
Country Status (4)
Country | Link |
---|---|
US (1) | US3479460A (de) |
DE (1) | DE1572454A1 (de) |
FR (1) | FR1543791A (de) |
GB (1) | GB1154129A (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2145864B (en) * | 1983-09-01 | 1987-09-03 | King Reginald Alfred | Voice recognition |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US11120821B2 (en) * | 2016-08-08 | 2021-09-14 | Plantronics, Inc. | Vowel sensing voice activity detector |
-
0
- FR FR1543791D patent/FR1543791A/fr active Active
-
1966
- 1966-12-29 US US605646A patent/US3479460A/en not_active Expired - Lifetime
-
1967
- 1967-12-20 GB GB57991/67A patent/GB1154129A/en not_active Expired
- 1967-12-27 DE DE19671572454 patent/DE1572454A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
GB1154129A (en) | 1969-06-04 |
FR1543791A (fr) | |
US3479460A (en) | 1969-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE1912289C3 (de) | Tintentropfenschreiber | |
DE1524456C3 (de) | Schaltung zum Erkennen von auf einem Aufzeichnungsträger aufgedruckten Zeichen und Umwandeln derselben in entsprechende Digitalsignale | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE2805478C2 (de) | Schaltungsanordnung zur Diskriminierung von Sprachsignalen | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
DE1937464C3 (de) | Sprachanalysiergerät | |
DE2021126A1 (de) | Spracherkennungsvorrichtung | |
DE1572454A1 (de) | Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte | |
DE2431458C2 (de) | Verfahren und Anordnung zur automatischen Sprechererkennung | |
DE2535730A1 (de) | Verfahren und vorrichtung zur feststellung vielfrequenter toene | |
DE3009574C2 (de) | ||
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
DE1802502A1 (de) | Schaltungsanordnung zur Festellung der Anwesenheit von Sprachlauten | |
DE1816736A1 (de) | Verfahren zum selbsttaetigen Anhalten und Wiederfreigeben des Tontraeger-Transports bei einem Schallaufzeichnungs- insbesondere Diktier-Geraet sowie Vorrichtung zur Ausuebung dieses Verfahrens | |
DE1772633A1 (de) | Verfahren zur Spracherkennung | |
DE2912566A1 (de) | Ton-decodierschaltung | |
DE1547027A1 (de) | Verfahren und Anordnung zur Analyse von Sprachsignalen | |
DE1202517B (de) | Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern | |
DE1547029A1 (de) | Spracherkennungsgeraet | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE1122274B (de) | Verfahren und Anordnung zur automatischen Erkennung von Sprache | |
DE2027040C (de) | Verfahren und Vorrichtung zum Integne ren eines Signals | |
DE742685C (de) | Verfahren zur Aufzeichnung von Tonhoehenschwankungen oder kleiner Frequenzschwankungen beliebiger anderer Frequenzvorgaenge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OHJ | Non-payment of the annual fee |