DE1572454A1 - Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte - Google Patents

Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte

Info

Publication number
DE1572454A1
DE1572454A1 DE19671572454 DE1572454A DE1572454A1 DE 1572454 A1 DE1572454 A1 DE 1572454A1 DE 19671572454 DE19671572454 DE 19671572454 DE 1572454 A DE1572454 A DE 1572454A DE 1572454 A1 DE1572454 A1 DE 1572454A1
Authority
DE
Germany
Prior art keywords
circuit
ring
frequency
pulse
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19671572454
Other languages
English (en)
Inventor
Clapper Genung Leland
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1572454A1 publication Critical patent/DE1572454A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electric Clocks (AREA)
  • Devices For Supply Of Signal Current (AREA)
  • Electronic Switches (AREA)

Description

IBM Deutschland Internationale Büro-Maschinen Gesellschaft mbH
Böblingen, 21. Dezember 1967 bi-oc
Anmelderin: International Business Machines
Corporation, Armonk, N. Y. 10 504
Amtliches Aktenzeichen: Neuanmeldung
Aktenzeichen der Anmelderin: Docket 6720
Verfahren und Einrichtung zur Gewinnung digitaler, für
Sprachlaute charakteristischer Kennwerte
Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Gewinnung digitaler, für Sprachlaute charakteristischer Kennwerte unmittelbar aus einem elektrischen, dem Sprachlaut äquivalenten Signal. Dabei werden
in jeder Grundtonperiode des Sprachlautes die Harmonischen lokalisiert.
Bekannte Verfahren oder Einrichtungen zur Sprachanalyse benutzen entweder Sätze von Bandfiltern, die den Frequenzbereich des Sprachlautes überdecken (z. B. DBP 1 189 745) oder machen von dem Zählen der Null-Durchgänge als Ausgangswert für die Analyse Gebrauch (z.B. The Journal of the Acoustical Society of America, Vol. 32, Nr. 4, April 1960, Seiten 441 bis 450), Beide Verfahren haben den Nachteil beträchtlichen Kosten-
009016/0747
BAD QRiOiNAl
.-»- J572454
aufwandes. Das erstgenannte erfordert teure Filter, die zudem beträchtlichen Platzbedarf haben. Das zweite Verfahren stellt hohe Anforderungen an die Toleranzen der Bausteine, wenn es verläßlich arbeiten soll.
Die Erfindung geht einen anderen Weg. -Der Stimmritzen-Impuls jedes ersten lokalen Maximums eines Sprachlautes dient als Anfangspunkt einer Zeitmessung, welche die Lage der im Sprachlaut enthaltenen Harmonischen bestimmt. Statt der Ermittlung von Frequenzanteilen wird eine Zeitmessung vorgenommen; dies ist möglich infolge der Beziehung F = —, wobei F die Frequenz in kHz und T die Zeit in ms darstellt. Wegen der starken Dämpfung im menschlichen Vokaltrakt ist das erste Maximum als Anfangspunkt der Zählung gegenüber den folgenden lokalen Maxima eindeutig bestimmbar. Infolge der Benutzung einer Zeitmessung ist das Verfahren anpassungsfähiger als mit einer Frequenzmessung,
Gegenstand der Erfindung ist demnach ein Verfahren zur Gewinnung digitaler, für Sprachlaute charakteristischer Kennwerte mit Aufteilung des den Sprachlauten äquivalenten elektrischen Signals in einen niederfrequenten, einen mittelfrequenten und einen hochfrequenten Teil, mit dem Merkmal, daß aus dem mittelfrequenten Signalteil impulsförmige, den auftretenden Harmonischen entsprechende Signale gewonnen werden, daß aus dem niederfrequenten Signalteil ein Auswerte-Startsignal beim Auf«
009816/0747
treten eines stimmhaften Anfangslautes abgeleitet wird und daß vom
BADOBiQINAL
-■*- J572454
Auswerte-Startsignal angestoßene Impulsverteiler das Einschreiben der den Harmonischen entsprechenden Signale in eine Speichermatrix steuern.
Es hat sich als vorteilhaft erwiesen, für stimmlose Laute charakteristische Signale aus dem hochfrequenten Signalteil auf gleiche Weise abzuleiten und in die Speichermatrix einzutragen.
Die erfindungsgemäße Einrichtung zur Durchführung dieses Verfahrens besteht aus einer Schaltung zur Bestimmung von Reibelauten, die eine Zeile der Speichermatrix speist, aus einer Schaltung zur Bestimmung von Harmonischen, von der die übrigen Zeilen der Speichermatrix über integrierende Koinzidenzschaltungen gespeist werden und aus einer Schaltung zur Bestimmung der Einhüllenden, die das Startsignal für zwei Ringe liefert, die einerseits an die Koinzidenzschaltungen der Zeilen Impulse liefert und andererseits die Spalten der Speichermatrix erregt.
Die nachfolgende Beschreibung des Verfahrens und eines Ausführungsbeispiels .der Einrichtung wird durch Zeichnungen erläutert.
6720
009816/0747 __
BAD-ORiCHNAL.
Fig. 1 ist ein Blockschaltbild zur Erläuterung des Erfindungsgedankens;
Fig. 2a, 2b, nach Fig. 2 zusammengesetzt, zeigen eine ausführlichere 2c und 2d,
Darstellung der erfindungsgemäßen Anordnung;
Fig. 3 zeigt die Schaltung zur Bestimmung von Harmonischen;
Fig. 4 u. 5 sind Spannungsverläufe und deren Harmonische für die Vokallaute "aw" und "oh";
Fig. 6 zeigt eine Schaltung zur Bestimmung der Einhüllenden
und
Fig. 7 zeigt eine Schaltung zur Selektion von Reibelauten.
In Fig. 1 nimmt das Mikrophon 1 Sprachlaute auf und verwandelt sie in elektrische Signale, die vom pegel-geregelten Vorverstärker PA verstärkt werden. DieserVerstärker liefert an drei Ausgangsklemmen drei verschiedene Ausgangssignale: Ein hochfrequentes Ausgangssignal mit Rauschanteilen über Leitung 23 zu einer Schaltung zur Selektion von Reibelauten FR; ein mittelfrequentes Signal im Bereich von 2 50 bis 3000Hz über Leitung 24 zur Schaltung zur Bestimmung von Harmonischen HL; ein niederfrequentes Signal über Leitung 25 zur Schaltung zur
0098 16/0747
Bestimmung der Einhüllenden EPD, Aus letzterer Schaltung EPD wird über Leitung 26 ein Regelsignal zur Verstärkungsregelung zum Vorverstärker PA zurückgeführt. Das Blockschaltbild enthält weiter eine Speichermatrix SM für Koinzidenz-Betrieb, deren Steuersignale von einem. Abtast- / ring SCR und von einem Takt ring TBR beeinflußt werden. Diese Matrix dient zur Speicherung der mit vorliegender Erfindung aus den drei obengenannten Signalen abgeleiteten Laut-Merkmale^. Die Speicherwerte definieren den Aufbau der Sprachlaute. -
Jeder der beiden Ringe ist mit Mitteln zum Beginnen und zum Steuern der Fortschaltung versehen. Beim Auftreten stimmhafter Laute am Anfang eines gesprochenen Wortes werden beide Ringe SCR und TBR von der Schaltung zur Bestimmung der Einhüllenden EPD angeregt, der Ring SCR über die Leitung 83 und der Ring TBR über die Leitungen 83, 83», die Oder-Schaltung 260 und die Leitung 263, die zur ersten Stufe des Taktringes TBR führt. Andererseits verursacht das Auftreten eines Reibelautes am Anfang eines gesprochenen Wortes nur die Aktivierung des Taktringes TBR und zwar über den Weg der Leitung 144b, Ringtreiber RDl, Leitung 226a, Oder-Schaltung 260 und Leitung 263.
Die Fortschaltgeschwindigkeit der Ringe wird durch Verzögerungsschaltungen, Multivibratoren und Ringtreiber gesteuert. Die Fortschaltung des Abtast ringe s SCR erfolgt durch Signale aus dem Multivibrator GMVl über die Leitung 205a den Treiber RD2 und die Leitung 226b« Der Multivibrator GMVl wird seinerseits von der Verzögerungseinrichtung ADl
8ADt)RlQJNAL
oder vom Ausgang des Inverters 270a gesteuert, die beiden an den Eingängen der Oder-Schaltung 260a liegen; letztere ist mit dem Steuereingang des Multivibrators GMVl verbunden.
Die Fortschaltung des Taktringes TBR wird vom Multivibrator GMV über Leitung 205, den Ringtreiber RD und Leitung 226 gesteuert. Die Steuerung des Multivibrators GMV geschieht über die Leitung 184 vom Ausgang der Verzögerungseinrichtung AD, deren Eingang über die Leitung 164 mit der ersten Stufe des Taktringes TBR verbunden ist.
Die Erregung und das Fortschalten des Taktringes TBR versorgt die Speichermatrix SM mit Steuersignalen auf den Leitung ti bis t7. Die Erregung und Fortschaltung des Abtastringes SCR verursacht Steuersignale auf den Leitungen A2 bis A8, welche bei Koinzidenz mit den Ausgangssignalen der Schaltung zur Bestimmung von Harmonischen HL auf Leitung 48 nacheinander die integrierenden Impulserzeuger IPS2 bis IPS8 erregen. Die Ausgänge dieser Impulserzeuger gelangen über die Leitungen 144c bis 144i zur Speichermatrix SM; solche Signale treten auf, wenn das gesprochene Wort mit einem stimmhaften Laut beginnt. Wenn jedoch der Anfangslaut ein Reibelaut ist, so wird nur der Taktring TBR über die Leitungen ti bis t7 Signale zur Speichermatrix SM liefern. In diesem Falle dienen nur die Signale auf den
en
Leitung/tl bis t7 und das Signal des integrierenden Impulserzeugers
6720 .. 00 9816/074
■IP-Si über Leitung 144a zur Erzeugung von Speichersignalen, die für einen Eingangs-Reibelaut charakteristisch sind.
Vor der eingehenderen Beschreibung der Erfindung sollen zunächst einige oben kurz erwähnte Bausteine des Blockschaltbilds von Fig, I etwas näher beschrieben werden. Die Schaltung zum Bestimmen von Harmonischen der Sprachlaute ist in Fig. 3 wiedergegeben. Sie besteht aus dem Spitzendetektor 28 und der monostabilen Kippschaltung 39. Rrstere dient zur Feststellung von Amplitudenhöchstwerten und letztere zur Normierung der Ausgangsimpulse. Der Spitzendetektor 28 besteht aus den Transistoren 30 und 37. Das Eingangssignal auf Leitung 24, das über den Widerstand 29 zur Basis des Transistors gelangt, ist
'auf einen Amplitudenhöchstwert von etwa 2 Volt begrenzt. Beim ersten großen positiven Spitzenwert der Grundtonperiode, welche die Grunderregung darstellt, wirkt der Transistor 30 als i~mitterverstärker und lädt den Kondensator 32 über die Diode 33 auf. Der Punkt A der Schaltung erreicht dabei seinen positiven Höchstwert von etwa -2 V. Der Punkt B der Schaltung wird gleichzeitig-auf etwa den gleichen Spannungswert gebracht. Zwischen den Punkten A und B besieht also während des Anstiegs /.um positiven Teil der Sprachwellenform keine merkliche Spannungsdifferenz; der Transistor 37 bleibt nichtleitend und die Punkt C und D der Schaltung bleiben bei etwa -12 X; der Transistor 40 ist gesperrt, Punkt E steht bei +6 'V und Punkt F bei etwa -6 Y. Über das der Bereichs-
6720 .00 9816/ 07 4-7
einstellung dienende Potentiometer 44 fließt durch den mit Leitung verbundenen Widerstand ein Strom zur Basis des Transistors 45, der
so daß er
dadurch gutleitend gehalten wird^e Ausgangsklemme auf etwa -12 V halt. Bei voller Leitfähigkeit des Transistors 45 und angeschlossener Last kann die Leitung 48 eine Spannung von -10 V annehmen.
Unter der Annahme der ungünstigsten Bedingung wird während des Ladevorgangs durch den ersten hohen positiven Spannungsanstieg der Punkt B geringfügig höhere Spannung haben als der Punkt A, da durch die Diode 33 ein geringerer Strom fließt als durch die Diode 34; der Sperrzustand des Transistors 37 ist also sichergestellt. Sobald der Gipfel erreicht ist, kehren sich die Spannungszustände um, da nun die Diode 34 mehr Strom führt als die Diode 33 und hinter dem Spannungsspitzenwert wird die Diode 33 umgekehrt polarisiert, so daß der Punkt B niedrigere Spannung hat als A; der Transistor 37 wird leitend und die Punkte C und D gelangen rasch zu -6 V. Dabei wird der Punkt C infolge des Stromflusses vom Kondensator 32 über den Transistor 37 und den in Reihe liegenden Widerstand 38e zur Basis des Transistors 40 leicht über der Spannung des Punktes D liegen. Die Folge ist ein scharfer Abfall der Spannung am Punkt E von +6 V zu -6 V. Der Spannungsabfall wird vom Kondensator 42 zum Punkt F übertragen, der infolgedessen rasch von -10 V nach -20 V abfällt und die früher leitenden Transistor 45 sperrt. Der Spannungsanstieg der Ausgangsklemme in positiver Richtung wird über Leitung 50 und den Widerstand 51 zum
00 9816/074 7
Punkt D rückübertragen, um sicherzustellen, daß der Transistor 40 während der vollen Dauer des Ausgangsimpulses leitend bleibt. Die Dauer ist durch das RC-Produkt des Kondensators 42 und des Widerstandes 5* sowie durch die Einstellung des Potentiometers 44 bestimmt. Die Impulsbreite mit der Schaltung ist zwischen 150 und 450 μ sec. veränderbar.
Im allgemeinen wird das Impulsende im Transistor 40 nicht abschalten, da die abfallende Flanke den Transistor 37 noch eingeschaltet hält; der Transistor 40 wird also nach dem Impulsende bis zum Erreichen des "Tals" leitend bleiben. Dann beginnt der Transistor 30 wieder den Kondensator 32 aufzuladen, der Transistor 37 sperrt und die Punkte C und D gehen auf einen niedrigeren Pegel und schalten den Transistor 40 ab. Der Punkt E steigt jetzt auf + 6 V an und lädt den Kondensator als Vorbereitung für den nächsten Ausgangsimpuls, Jeder solche Ausgangsimpuls markiert das Auftreten der amplitudenstärksten Harmonischen in der komplexen Sprachsehwingung und ihre zeitliche Lage,
Die Impulsdiagramme der Fig, 5 und 6 zeigen die Differenz zwischen den Vokalen "aw" und "oh" (jeweils in englischer Aussprache). Es zeigt sich, daß der Vokal "aw" die achte, dritte und zweite Harmonische enthält] der Vokal "oh" enthält nur die vierte und zweite Harmonische, Für den Vokal "aw" entsteht infolgedessen während der Zeiten 2, 5 und
6720 009816/ 074?
■ BAD
ein Au s gangs signal, beim Vokal "oh" während der Zeiten 4 und 7. Die links an Fig. 4 angeschriebenen Bezeichnungen (24, 48; A bis F) bezeichnen Schaltungspunkte der Fig» 3 an denen diese Spannungen auftreten. Für stimmhafte Sprachlaute werden auf diese Weise unterschiedliche Schlüsselzeichen erzeugt. Davon sind Vokale und stimmhafte Konsonanten betroffen. Stimmlose Konsonanten werden von der Schaltung nicht erfaßt; sie sind auf andere Weise feststellbar.
Für die Schaltung zur Bestimmung der Einhüllenden EPD, genauer gesagt für die Bestimmung des Spitzenwertes der Einhüllenden, gibt die Fig. 7 ein Beispiel, Die Schaltung besteht im wesentlichen aus den drei Transistoren 75, 78 und 82. Der Transistor 75 dient zur Überwachung der negativen Spitzenwerte, die während des negativen Signalteils im Netzwerk 71 auftreten; er liefert, infolge Invertierung, über die Leitungen 76 und 84 ein Signal auf die Ausgangsleitung 83. Die Transistoren 78 und 82 überwachen die positiven, während des positiven Signalteils auftretenden Spitzen; die Aus gangs signale werden ebenfalls auf die Leitung 83 übertragen. Diese positiven Spitzenspannungen liefern die Grundfrequenz, die zur Steuerung des Abtastringes SCR und des Taktringes TBR benutzt werden.
Die Transistoren 85 und 91 dienen zur Bildung der Regelspannung für den Vorverstärker PA. Die Steuerspannung für die Regeleinrichtung
6720 00 9816/074
0X, ·
kommt von der Leitung 76. Die Transistoren 85 und 91 arbeiten als Verstärker für die Regelspannung, deren Zeitkonstante durch die RC-Glieder 86r, 86c und 94, 95 bestimmt wird. Über Leitung 26 gelangt diese Regelspannung zum Vorverstärker PA.
Für die Schaltung zur Selektion von Reibelauten ist mit Pig. 7 ein Beispiel gegeben."Wesentliche Bestandteile sind die drei Transistoren 100, 106 und 108 und ein LC-Netzwerk 103. Die vom Verstärker PA gelieferten hochfrequenten Anteile des Sprachsignals werden über Leitung 23 eingegeben.Der Transistor 100 dient als Treiber, die Transistoren 106 und 108 arbeiten al& Differenzverstärker, wobei das Netzwerk 103 eine Verzögerung bewirkt. Das Ausgangssignal (auf Leitung 110) besteht aus hochfrequenten Schwingungen oberhalb 4 kHz. Das über den Kondensator 111 angeschlossene Gleichrichternetzwerk 113 und der Transistor 116 schaffen einen Gleichstrompegel, der dem Spitze-Spitze-Wert des auf Leitung 110 einlaufenden Signals proportional ist.
Die in Fig. 1 mit den Bezugszeichen AD, ADl und AD2 versehenen Verzögerungseinrichtungen liefern ein verzögertes Rechtecksignal, das einen sauberen Start der nachgeschalteten Einrichtung bewirkt und Fehlstarts durch Störsignale vermindert. Die Verzögerung liegt in der Größenordnung von 3 ms.
Die in Fig. 1 mit der Bezeichnung RD, RDl und RD2 versehenen Tr eiber
009816/074?
6720 < BAD OFHGiNAL
und Ringtreiber dienen zur Erzeugung von Impulsen fester Länge. Im wesentlichen bestehen sie aus einer monostabilen Kippschaltung mit nachgeschaltetem Verstärker. Der Pegel der Ausgangssignale liegt zwischen -6 V und +6 V; die Impulsdauer ist etwa 130 us.
Der Abtastring SCR und der Taktring TBR enthält in jeder Stufe, SO bis S8 und TO bis T8, zwei Transistoren, Der Ein-Zustand einer Stufe ist durch die Leitfähigkeit beider Transistoren gekennzeichnet; über die Fortschaltleitungen 226 bzw, 226b wird bewirkt, daß die jeweils folgende Stufe in den Ein-Zustand versetzt wird und die in diesem Zustand befindliche in den Aus-Zustand rückversetzt wird. Die mit den Ringen zusammenarbeitenden Verzögerungseinrichtungen und Multivibratoren sind so bemessen, daß der Taktring eine andereFortschaltgeschwindigkeit hat als der Abtastring.
Eine ausführlichere Darstellung des Erfindungsgedankens soll anhand der Fig. 2a bis 2d gegeben werden. Die Sprachlaute treten wieder über das Mikrophon 1 ein und gelangen über die Leitungen 2 und 3 zum Vorverstärker PA, wo sie unter dem Einfluß der auf Leitung 26 aus der Schaltung zur Bestimmung der Einhüllenden EPD zugeführten Regel-
spannung verstärkt werden. Am Potentiometer 5 kann die Empfindlichkeit des Verstärkers den Umweltbedingungen angepaßt werden. Aus dem Verstärker tretenauf den Leitungen 23, 24 und 25 hochfrequente Ausgangs· signale für die Speisung der Schaltung zur Selektion von Reibelauten FS, mittelfrequente Signale zwischen 250 und 3000 Hz zur Speisung der Schaltung zur Bestimmung von Harmonischen HL sowie niederfrequente
Signale zur Speisung der Schaltung zur Bestimmung der Einhüllenden EPD aus. Das Ausgangssignal der Schaltung zur Selektion von Reibelauten gelangt über den integrierenden Impulserzeuger IPSl, die Leitung 144 a., 144 b zum Ringtreiber RDl, der über Leitung 226a und die Oder-Schaltung 260 die erste Stufe des Taktringes TBR anstößt. Die Leitung 144a führt außerdem zur Speichermatrix SM (Fig. 2b).
Die Speie her matrix SM besteht aus einer Vielzahl von Verriegelungsschaltungen MLl bis ML 56, die in Zeilen und Spalten für koinzidente Ansteuerung angebracht sind. Jede Schaltung ML kann ein Bit für eine Information über den Sprachlaut speichern. Wenn z.B. in einem Sprachlaut die erste Äußerung Reibelaut-Charakter hat, so werden in einer oder mehreren der Schaltungen MLl, ML9, ML 17, ML25, ML33, ML41 und ML49 Speicherwerte eingegeben. Diese Schaltungen werden durch die Koinzidenz von Signalen auf der Leitung 41a und den Leitungen ti bis t-7 erregt; die Signale auf den Leitungen ti bis t7 stammen vom Taktring TBR der Fig. 2d. Die Schaltungen ML der Matrixzeilen 2 ff. der Fig. 2b dienen zur Speicherung von Informationsbits, die für mit einem stimmhaften Laut beginnende Sprachlaute charakteristisch sind. Die Erregung dieser Schaltungen in den Zeilen 2 und folgende erfolgt durch koinzidente Signale auf den Leitung ti bis t7 des Taktringes TBR und auf den Leitungen 144c bis 144i aus den zugeordneten integrierenden Impulserzeugern IPSl bis IPS8* Letztere werden wiederum durch den Abtastring SCR über
009816/0747
BAD ORIGINAL
die Leitungen A2 bis A8 erregt, falls gleichzeitig an ihnen ein Signal aus der Schaltung zur Bestimmung von Harmonischen HL auf Leitung 48 ansteht. Diese Leitung 48 überdeckt den Frequenzbereich zwischen 250 und 3000 Hz.
Aus Fig. 3 ist es bekannt, daß die Integrations zeit der Schaltung zur Bestimmung von Harmonischen HL veränderlich ist. Andererseits ist die Fortschaltgeschwindigkeit der Ringe gesteuert. Es läßt sich damit erreichen, daß die Schaltung zur Bestimmun g von Harmonischen HL während eines Ringumlaufes fünf Zyklen durchlauft, vorausgesetzt, daß ein vollständiger Speicherzyklus der Speichermatrix SM von 40 ms möglich ist. Ein solches Auflösungsvermögen ist ausreichend für die Abspeicherung aller von dem System für eine männliche Stimme mit einer Grundfrequenz von 125 Hz (Periodendauer 8 ms) erzeugten charakteristischen Bits. Unter gewissen Bedingungen kann es vorteilhafter sein, die Ausgangs signale der Schaltung zur· Bestimmung von Harmonischen HL unmittelbar und unter Umgehung der integrierenden Impulserzeuger in die Spei eher matrix einzugeben. Dabei ist aber zu beachten, daß mit der Integration ein viel ausgeglicheneres Sprachbild erzeugt wird, das praktisch identisch mit dem Formant-Bild ist. Außerdem "gleitet" das Ausgangssignal der Schaltung HL in Abhängigkeit von der Zeit und es muß quantisiert werden, wenn man es digital speichern und ein von wirtschaftlichen und praktischen Überlegungen bestimmtes Auflösungsvermögen haben will.
009816/0747
Aus den Fig. 2c und 2d ist zu entnehmen, wie die Verzögerungeinrichtungen AD, ADl und AD2 zur Steuerung der Ringe SCR und TBR benutzt werden. Durch die genannten Verzögerungseinrichtungen soll die Taktzeit für die erste Stufe ebenso groß gemacht werden wie für jede andere Stufe der Ringe, Die Fortschaltgeschwindigkeit der Ringe kann durch die Potentiometer 176 und 176* variiert werden. Das Potentiometer 176· kann auch als "Sprechgeschwindigkeits"-Potentiometer bezeichnet werden; es beeinflußt die Verzögerungseinrichtung AD und die Schaltgeschwindigkeit des Multivibrator GMV, der für eine Verzögerung von einer halben Periode ausgelegt ist. Die Verzögerungseinrichtung AD ist für eine Verzögerung von einer halben Periode ausgelegt, so daß eine Verzögerung von einer ganzen Periode resultiert und zwar unabhängig von der Einstellung des Potentiometers 176*,
Das Auslösesignal für den Taktring TBR beim Auftreten eines einleitenden Reibelautes geschieht über Leitung 144b (von IPSl, Fig. 2a), den Ringtreiber RDl, Leitung 226a, die Oder-Schaltung 260 und die Leitung 263 zur Stuf ς TO; diese wird dadurch ausgeschaltet. Dadurch entsteht ein Signal auf Leitung 164 zur Anregung der Verzögerungseinrichtung AD, die ihrerseits den Multivibrator GMV zur Abgabe eines Impulses an den Ringtreiber RD veranlaßt; dieser liefert über Leitung 226 Fortschaltimpulse für den Takt ring TBR, so daß nacheinander die aufeinanderfolgenden Spalten der Speichermatrix SM erregt werden und die Eintragung von Speicherbits möglich machen. Sobald der Ring sich
009816/0747 - '— —.«
BAD ORIGINAL 6720 '
.**.. 157245«
Uo
auf der Stufe T8 befindet, -wird eine bistabile Schaltung MLO und eine Anzeigevorrichtung 157 zur Markierung des Endes eines Speicherzyklus angeschaltet,
Durck Druck auf die Taste 281 wird ein neuer Speicherzyklus eingeleitet, indem dadurch.über die Leitung 256, 257, den Inverter 270 und die Leitung 273 die Stufe TO des Ringes TBR eingeschaltet wird. Falls durch einen Reibelaut oder einen stimmhaften Laut am Eingang eines Sprachsignals ein neuer Zyklus beginnen kann, wird die Stufe TO aus und die Stufe Tl eingeschaltet. Dann erfolgt die Fortschaltung des Ringes wieder in der beschriebenen Weise durch Treiberimpulse auf die Leitung 226.
Wenn der Abtastring SCR die letzte Stufe S8 erreicht, so wird die Eingangsstufe SO nach einer Verzögerung eingeschaltet und zwar über einen Strompfad von der Stufe S8 über die Leitung 256 die Verzögerungseinrichtung AD2 und die Leitung 184b. Die Stufe SO kann aber auch durch die Taste 281 über die Leitungen 256 und 258, den Inverter 270a und die Leitung 273a eingeschaltet werden.
Wenn ein stimmhafter Laut auftritt, werden beide Ringe SCR und TBR in Tätigkeit gesetzt, der Ring TBR über die Leitungen 83 und 83', die Oder Schaltung 260 und die Leitung 263, die zur Stufe TO führt; die Stufe SO (von SCR) wird ebenfalls über Leitung 83 in Gang gesetzt. Wenn die Stufe SO des Abtastringes SCR eingeschaltet ist, gelangt ein Signal
009816/07A7 . -
über Leitung 163, die Verzögerungseinrichtung ADl, die Leitung 184a, die Oder-Schaltung 260a, die Leitung 263a, den Multivibrator GMVl, die Leitung 205a, den Treiber RD2 und die Leitung 226b zu allen Stufen desRinges, Sobald der Ring zur Stufe S8 fortgeschaltet ist, erscheint auf Leitung 256 ein Signal, das über die Verzögerungseinrichtung AD2 und die Leitung 184b die Stufe SO wieder einschaltet. Die Verzögerung ist zwischengeschaltet, um die Ausgangssignale des Rings bis zum Ende der Grundfrequenz der Schaltung zur Bestimmung von Harmonischen HL zu verzögern.
Wenn der Taktring TBR einmal eingeschaltet ist, erregt er nacheinander die Spalten der Speichermatrix mit einer Geschwindigkeit, die vom Potentiometer 176* für die Anpassung an die Sprechgeschwindigkeit bestimmt wird. Und der Abtastring SCR erregt beim Vorrücken nach» einander die integrierenden Impulserzeuger IPS2 bis IPS8; diese erregen ihrerseits Zeilen der Matrix. Die koittzidente Erregung der Zeilen und Spalten der Speichermatrix SM veranlaßt dann also die Verriegelungsschaltungen ML zur Speicherung des Signalmusters, welches die Laut» merkmale des gesprochenen Wortes darstellt.
Die nachfolgende Tabelle soll zeigen, wie die Benutzung gleicher Zeit«» Intervalle das Frequenzband des Sprachereignisses teilt. Die unteren Frequenzbereiche sind sehr viel enger als die oberen. Wenn die Zeit» verzögerung gegenüber der Grundfrequenz 0, 3 ms und wenn das Zeitintervall für den Abtastring 0, 6 ms beträgt, so sind die entsprechenden
BAD ORIGINAL
Frequenzbänder die folgenden:
T (ms) f (Hz)
0.3-0.9 1100 - 3300
0.9-1.5 666 - 1100
1.5-2.1 475 - 666
2.1 - 2. 7 370 - 475
2. 7 - 3. 3 300 - 370
3. 3 - 3. 9 255 - 300 3. 9 - 4. 5 222 - 255
Bei der Beobachtung des Verlaufs der 4.usgangsspanniHig der Schaltung zur Bestimmung von Harmonischen während des "Gleitens" von Vokalen ergibt sich, daß dieser Verlauf über den Formant ^Bereich gleichförmig ist. Diese Gleichförmigkeit des Ausgangssignals unterstützt die Vorstellung, daß die vorliegende Erfindung und das Konzept der Zeitabschnitte für die Frequenzmessung eine Ähnlichkeit aufweist mit der Vorstellung von der Gehirntätigkeit bei der Analyse von. Sprache.
009816/0747

Claims (3)

PATENTANSPRÜCHE
1. Verfahren zur Gewinnung digitaler, für Sprachlaute charakteristischer Kennwerte mit Aufteilung des den Sprachlauten äquivalenten elektrischen Signals in einen niederfrequenten, einen mittelfrequenten und einen hochfrequenten Teil, dadurch gekennzeichnet, daß aus dem mittelfrequenten Signalteil impulsförmige, den auftretenden Harmonischen entsprechende Signale gewonnen werden, daß aus dem niederfrequenten Signalteil ein Auswerte-Startsignal beim Auftreten eines stimmhaften Anfangslautes abgeleitet wird und daß vom Auswerte-Startsignal angestoßene Impulsverteiler das Einschreiben der den Harmonischen entsprechenden Signale in eine Speichermatrix steuern.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß aus dem hochfrequenten Signalteil impulsförmige, den lokalen Höchstwerten entsprechende Signale abgeleitet werden und/hß ein vom ersten derartigen Signal angestoßener Impulsverteiler das Einschreiben der nachfolgenden Signale in eine Speichermatrix steuert.
3. Schaltungseinrichtung zur Durchführung das Verfahrens nach den Ansprüchen 1 und 2, gekennzeichnet durch eine vom hochfrequenten Signalteil gespeiste Schaltung zur Bestimmung von Reibelauten (FS),
6< . 009816/0747
/Z
IO
deren Aus gangs signale einer Zeile der Speichermatrix (SM) zugeführt werden, durch eine vom mittelfrequenten Signalteil gespeiste Schaltung zur Bestimmung von. Harmonischen (HL), deren Ausgangssignale den übrigen Zeilen der Speichermatrix (SM) über integrierende Koinzidenz schaltungen (IPS) zugeführt werden und durch eine vom niederfrequenten Signalteil gespeiste Schaltung zur Bestimmung der Einhüllenden (EPD), die einen mit den Koinzidenzschaltungen (IPS) verbundenen Abtastring (SCR) und einen mit den Spaltenleitungen der Matrix (SM) verbundenen Taktring (TBR) starten.
0 09 8 16/ 0 7U 7
DE19671572454 1966-12-29 1967-12-27 Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte Pending DE1572454A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US60564666A 1966-12-29 1966-12-29

Publications (1)

Publication Number Publication Date
DE1572454A1 true DE1572454A1 (de) 1970-04-16

Family

ID=24424588

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19671572454 Pending DE1572454A1 (de) 1966-12-29 1967-12-27 Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte

Country Status (4)

Country Link
US (1) US3479460A (de)
DE (1) DE1572454A1 (de)
FR (1) FR1543791A (de)
GB (1) GB1154129A (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US11120821B2 (en) * 2016-08-08 2021-09-14 Plantronics, Inc. Vowel sensing voice activity detector

Also Published As

Publication number Publication date
GB1154129A (en) 1969-06-04
FR1543791A (fr)
US3479460A (en) 1969-11-18

Similar Documents

Publication Publication Date Title
DE1912289C3 (de) Tintentropfenschreiber
DE1524456C3 (de) Schaltung zum Erkennen von auf einem Aufzeichnungsträger aufgedruckten Zeichen und Umwandeln derselben in entsprechende Digitalsignale
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE1965480C3 (de) Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte
DE4031638A1 (de) Spracherkennungseinrichtung
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
EP1101390B1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
DE1937464C3 (de) Sprachanalysiergerät
DE2021126A1 (de) Spracherkennungsvorrichtung
DE1572454A1 (de) Verfahren und Einrichtung zur Gewinnung digitaler,fuer Sprachlaute charakteristischer Kennwerte
DE2431458C2 (de) Verfahren und Anordnung zur automatischen Sprechererkennung
DE2535730A1 (de) Verfahren und vorrichtung zur feststellung vielfrequenter toene
DE3009574C2 (de)
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE1802502A1 (de) Schaltungsanordnung zur Festellung der Anwesenheit von Sprachlauten
DE1816736A1 (de) Verfahren zum selbsttaetigen Anhalten und Wiederfreigeben des Tontraeger-Transports bei einem Schallaufzeichnungs- insbesondere Diktier-Geraet sowie Vorrichtung zur Ausuebung dieses Verfahrens
DE1772633A1 (de) Verfahren zur Spracherkennung
DE2912566A1 (de) Ton-decodierschaltung
DE1547027A1 (de) Verfahren und Anordnung zur Analyse von Sprachsignalen
DE1202517B (de) Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern
DE1547029A1 (de) Spracherkennungsgeraet
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE1122274B (de) Verfahren und Anordnung zur automatischen Erkennung von Sprache
DE2027040C (de) Verfahren und Vorrichtung zum Integne ren eines Signals
DE742685C (de) Verfahren zur Aufzeichnung von Tonhoehenschwankungen oder kleiner Frequenzschwankungen beliebiger anderer Frequenzvorgaenge

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee