DE2104012A1 - Adaptiver Sprachanalysator - Google Patents

Adaptiver Sprachanalysator

Info

Publication number
DE2104012A1
DE2104012A1 DE19712104012 DE2104012A DE2104012A1 DE 2104012 A1 DE2104012 A1 DE 2104012A1 DE 19712104012 DE19712104012 DE 19712104012 DE 2104012 A DE2104012 A DE 2104012A DE 2104012 A1 DE2104012 A1 DE 2104012A1
Authority
DE
Germany
Prior art keywords
filters
numerical
analyzer according
filter
speech analyzer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19712104012
Other languages
English (en)
Other versions
DE2104012B2 (de
DE2104012C3 (de
Inventor
Jean Baptiste Kertanguy Saint Quay Perros Lavanant Pierre Lannion Jacob, (Frankreich)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LANNIONNAIS ELECTRONIQUE
Original Assignee
LANNIONNAIS ELECTRONIQUE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LANNIONNAIS ELECTRONIQUE filed Critical LANNIONNAIS ELECTRONIQUE
Publication of DE2104012A1 publication Critical patent/DE2104012A1/de
Publication of DE2104012B2 publication Critical patent/DE2104012B2/de
Application granted granted Critical
Publication of DE2104012C3 publication Critical patent/DE2104012C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

JS/U/C PATENTANWÄLTE * I ö 4 U
DaMOLLER-BORe-DR-MANITZ-DR-DEUFEL F 4757 5UPU-ING. FINSTERWALD . DIPL-ING. QRÄMK0W
8 MÖNCHEN 22, ROBERT-KOCH-STa 1 TELEFON 225110
2 8. Jan. 197!
S 2232
SOCIETE LANNIONNAISE D'EIECiDRONIQUE Route de Perros-Guirec, LAWNION (Cotes du Nord)
Prankreich
ADAPTIVER SPRACHANALYSATOR
Die Erfindung betrifft Vorrichtungen zur Erkennung von Sprachlauten und insbesondere eine Vorrichtung, mit der mittels einer begrenzten Anzahl von Bauteilen eine Reihe von Einzellauten oder Phonemen, die von mehreren Sprechern ssjaramen, analysiert werden k'dnnen· Ihr Hauptanwendungszweck besteht gegenwärtig darin, mit Hilfe eines begrenzten Wortschatzes mit der Stimme Befehle an einfache Schaltungen und später an komplexere Anordnungen zu geben.
Anordnungen zur Analyse und Erkennung gesprochener Laute wurden bereits in der am 7» Dezember 1961 hinterlegten französischen Patentschrift 1 428 460 beschrieben. Diese Vorrichtung besteht aus einer oder mehreren formantisehen elektronischen Schaltungen, denen eine Analysefilterkette nachgeschaltet tpt* Bei einer formantisehen elektronischen
109832/1207
-abhandelt es sich im wesentlichen um einen Ruckkopp lungs~Ver stärker mit regelbarer Verstärkung durch eine Schleife, die ein Bandfilter enthält. Dies ermöglicht die Regelung der Verstärkung des Verstärkers entsprechend den Komponenten des Sprachspektrums. Die Vorrichtung gewährleistet somit die Bildung von Informationspegeln am Ausgang des Spraehanalysators, der aus einer Bandfilterkette besteht, der Detektoren und Tiefpässe nachgeschaltet sind, die bei 16 Hz oder 50 Hz sperren.
Ein weiteres derartiges Ausführungsbeispiel wird in der Zeitschrift "IEEE Transactions on Audio and Electroacoustics", Dezember 1968, Seite 523 usw., unter dem Titel "Adaptive spectral analysis for speech-sound recognition" beschrieben«
Die Erfindung basiert auf folgenden Überlegungen %
Aus der Phonetik ist bekannt, dass eine Sprache insgesamt einige zehn Laute umfasst. So hat beispielsweise die französische Sprache etwa 36 verschiedene Laute. Es kann eine Filteranordnung hergestellt werden, die eine Filterkette je Laut aufweist, d.h, 36 Filterketten, um sämtliche Laute der französischen Sprache abzugrenzen und zu identifizieren. Es ist jedoch ebenfalls bekannt, dass jeder Sprecher die Laute mit den ihm eigenen Sprachporanetem ausspricht wie Stimmlage, Akzent, Intonation usw. Bei Anwendung eines solchen Schemas auf 100 Sprecher benötigt man beispielsweise insgesamt
109832/1207
3600 Filterketten, wr.s offensichtlich eine beträchtlich zu hohe Zahl ist, während einerseits 100 Sprecher zu wenig sind und andererseits beim Hinzukommen von weiteren Sprechern ebensoviele zusätzliche Filterketten verwendet werden nüssen·
Ziel der Erfindung ist die Herstellung einer Vorrichtung, die entsprechend dem genannten Schema sehr einfach und zuverlässig betrieben wird und bei der die Anzahl der Basisfilter beispielsweise weniger als zwanzig beträgt, die geeignet sind, nicht nur zur Erkennung der 36 Laute der französischen Sprache, die von einem Sprecher stammen, sondern auch zur Anwendung auf einen beliebigen anderen Sprecher verwendet werden können, vorausgesetzt, dass die Parameter der Sprechweise eines oe&en Sprechers in den Frkennungsvorgang einbezogen werden können.
Erfindungsgemäss wird dieses Ergebnis durch Kombination dreier Massnahmen erzielt:
1. Anstatt ein Laut 36 parallelgeschalteten Filtern zuzuführen, erfolgt die Analyse in Reihe, wobei deren Kadenz schneller ist als die Dauer eines jeden einzelnen Lautes.
2. Es wird ein und diesselbe Filtervorrichtung verwendet, die geeignet ist, nacheinander 36 verschiedene Konfigurationen zur Erkennung eines jeden der 36 Grundlaute anzunehmen. Wenn während einer Abtastung eine dieser Konfigurationen mit dem im betreffenden Augenblick eintreffenden Laut Übereinstimmt, erfolgt die Identifizierung des betreffenden Grundlautes.
./. 109832/1207
3. Die jedem einzelnen Sprecher eigenen Parameter werden im voraus "bestimmt und im voraus eingespeichert und dann zur Spracherkennung herangezogen.
Dank der Erfindung werden diese Ergebnisse auf einfache und wirtschaftliche Weise durch Verwendung numerischer Filter erzielt. Ein numerisches Filter weist ein Rechenschema auf, und es wird eine feststehende Struktur veränderlicher Kennwerte dadurch erzielt, dass die in die Berechnung aufgenommenen Koeffizienten verändert werden. Die Erfindung sieht vor, ausgehend von eingespeicherten Koeffiziententabellen eine Filteranordnung mit wenigen, beispielsweise 16 Filtern aufzubauen, um so jedem der 36 Laute gerecht zu werden, die von der zuvor analysierten Stimme eines gegebenen Sprechers L stammen.
Sechzehn Filter werden in Anbetracht der Tatsache verwendet, dass das Sprachband von 300-3500 Hz in sechzehn Bänder mit einer Breite von 200 Hz unterteilt ist. Diese Zahlenwerte gelten jedoch nur beispielsweise.
Die Erfindung wird im einzelnen an Hand eines AusfUhrungsbeispiels und der Zeichnung beschrieben.
Fig. 1 ist ein allgemeiner Schaltplan, der den Aufbau einer erfindungsgemässen Vorrichtung veranschaulicht.
Fig. 2 ist ein Schaltbild das die Vorgange der Eingabe und Entnahme von Daten in einen bzw. aus einem Speicher zeigt, der Teil der Vorrichtung nach Fig. 1 ist.
109832/1207
Pig. 3 ist ein Schaltplan, der den Aufbau von Lerner-Filtern veranschaulicht, wobei mehrere Resonatoren parallelgeschaltet und drei nebeneinanderliegende Resonatoren aus einer Resonatorkette ausgewählt sind.
Pig. 4 ist ein Schaltbild, das den Aufbau eines Resonators für ein numerisches Lerner-Filter veranschaulicht.
Fig. 5 ist ein vereinfachtes Prinzip-Schaltbild eines Lerner-Resonators entsprechend Fig. 4.
Fig. 6a und 6b sind Schaltbilder der dem Schaltbild nach Fig. 5 zugeordneten Korrekturschaltungen.
Fig, 7 ist ein Schaltbild, das den Aufbau eines numerischen Filters zeigt, und zwar durch Zuordnung von drei Resonatoren naoh Fig. 5, die durch eine Sumraierungsschaltung abgeschlossen werden.
Fig. 8 ist das Schaltbild eines in der Summierungsschaltung der Fig. 7 enthaltenen Tiefpass-Filters.
In Fig. 1 ist mit 11 ein Mikrophon bezeichnet, in das ein Sprecher L hineinspricht und das Sprechströme abgibt, die von der Abtastvorrichtung 12 mit einer von einem Taktgeber 13 festgelegten Kadens, beispielsweise mit der Frequenz von 8 kHz und Intervallen von 125/us abtastet. Die abgetasteten Werte werden in einem Analogdigital-Umsetzer 14 quantisiert. Die Abtastung und die Quantisierung erfolgen sehr schnell mit der Geschwindigkeit von einigen MikroSekunden. Die Quantisierung erfolgt beispielsweise in Form eines Wortes
109832/1207
mit zehn Informationsbits und einem Prüfbit, d.h. insgesamt elf Bits.
Ein solches Wort gelangt bei Λ in einen Pufferspeicher 15, dessen Kapazität beispielsweise 1024 Wörter beträgt. Wenn der Speicher von oben bis unten voll ist, beginnt die Eingabe erneut von oben usw. usf. Die Eingabe eines Wortes eriblgt alle 125/us, und der Speicher enthält ständig Informationen, die einem Zeitabschnitt von 125/us χ 1024 = 128 ms, d.h. der ungefähren Dp.uer eines Sprachlauts entsprechen.
Jedes Wort mit 11 Bits, das aus dem Speicher
15 über die Ausgangsklemme B entnommen wird, wird über einen Schalter 16 mit 36 Stellungen, die der Anzahl der Laute der französischen Sprache entsprechen, auf eine Anordnung 17 mit
16 numerischen Filtern a, b ... ρ gegeben.
In jeder Stellung des Schalters 16 legt ein mit diesem fest verbundener Schalter 18 die Koeffizienten an, die einer aus 36 Matrizen ausgewählten Matrix entnommen sind. Diese Kennwerttafeln sind durch 36 waagerechte Linien veranschaulicht, die zu einer Matrix 19 gehören. In jeder der 36 Stellungen des Schalters 18 werden in der Anordnung 17? die in einem gegebenen Augenblick einen Abtastwert empfängt, die Kennwerte entsprechend der Stellung des Schalters 18 geändert»
Die Kennwerte der Matrix 19 werden entsprechend den Koeffizienten des Sprechers L, die im voraus eingespeichert wurden, angeglichen. Jede senkrechte Linie der Matrix 19 wird
109832/1207
von einer senkrechten Linie der Anordnung 20 gebildet.
Die Eingabe der Kennwerte der Anordnung 20 in die Matrix 19 erfolgt auf jede bekannte Weise.
An der Ausgangsklemme 21 wird ein logisches Signal abgegeben, wenn Koinzidenz eines eingespeicherten Lautes mit einer der aufeinanderfolgenden 36 Filterkonfigurationen vorliegt.
Fig. 2 zeigt schematisch den Speicher 15 mit Zusatzgeräten.
Der Speicher 15 enthält beispielsweise 1024 Zeilen mit 11 Bits. Er ist Über ein Eingaberegister 31 adressierbar, das alle 125/US infolge Betätigung durch einen Taktgeber 13 um eine Einheit vorrückt.
Die Eingabe der quantisierten Werte (Wörter mit 11 Bits), die bei A ankommen, erfolgt auf der Leitung, deren Adresse vom Register 31 abgegeben wird.
Die Abtastung erfolgt über die Ausgangsklemme B unter Steuerung durch ein Leseadressen-Hegister 32, das jeweils um eine Einheit entsprechend einem Taktgeber 33 vorrückt, der auf die Betriebsgeschwindigkeit eingestellt ist.
Aus Fig. 3 ist ersichtlich, dass es zur Bildung von Bandfiltern, im vorliegenden Fall von 16 Bandfilters, besonders vorteilhaft ist, den Aufbau der Lerner-Filter zu verwenden, der in "Proceedings of the IEEE", März 1964f unter
10 9 8 3 2/1207
feTitel "Band-pass filters with linear phase" beschrieben wird. Der interessanteste Kennwert eines solchen Filters ist die Phasenlinearitat, durch die eine praktisch konstante Gruppenlaufzeit im Durchlassbereich erzielt werden kann.
Zur Herstellung eines Lemer-Filters werden η Resonatoren parallelgeschaltet. Wenn beispielsweise η = 3 ist und drei Ubertragungsfunktionszellen S1, S2» S-, vorhanden sind, ergibt sich eine Übertragungsfunktion von S = - 75· S1 + S2 - £ S,. Bei 2n + 1 Resonatoren, die in Parallelschaltung liegen, und infolge Rekursion zweier ungeradzahliger Resonatoren und eines geradzahligen Zwischenresonators werden η Filter mit drei Ubertragungsfunktionszellen erzielt.
Entsprechend Fig. 3 wird das an einer Klemme a ankommende Signal auf 2n + 1 Zellen C-, Cp, C "9^Qn+ 1 gegeben. Die Aus gangs signale der Zellen sind Sc1, Sc,. usw. Der Ausgang der ungeradzahligen Zellen C-, C^ ist mit einem Multiplikationsverstärker X1, X, versehen, der eine Kultiplikation mit -^ vornimmt. Der Ausgang des Filters 1 besteht aus einer Summierungsschaltung )' 1, die bei S1 die Summe - Tj Sc1 +Sc2 - S0-, ergibt, wobei Sc1 das Ausgangssignal der Zelle C1 ist.
In gleicher Weise wird an der Ausgangsklemme S2 der Summierungsschaltung λ« das Ausgangssignal des aus den Zellen C-,, C., C,- usw. bestehenden Filters erhalten.
109832/ 1207
—If—
Pig. 4 zeigt das Ubersichtschaltbild eines Resonators für ein numerisches Lerner-Filter.
Das eintreffende Signal X wird auf einen ersten Summationsverstärker A1 gegeben, dessen Ausgangssignal Y einerseits einem sogenannten Erstwortspeioher T1 und einem zweiten Summationsverstarker L^ zugeführt wird. Der Ausgang Y1 von T1 liegt an einem zweiten Speicher Tp, einem sogenannten Zweitwortspeicher, sowie am Eingang eines Verstärkers X , der zur Multiplikation mit einem Paktor -B1 dient, und ferner am Eingang eines mit B../2 multiplizierenden Verstärkers X-^. Der Ausgang von T2 liegt an einem dritten Multiplikationsverstärker X , der eine Multiplikation mit dem Paktor -B0 vor-
C C
nimmt. Die Speicher T1 und T„ speichern die Information während der Zeit T = 125/us.
Die Ausgänge von X& und Xc sind an zwei Eingänge des Summationsverstärkers A1 angelegt, und der Ausgang von X^ liegt an einem Eingang des Summationsverstärkers A«» wobei der Ausgang S des Summationsverstärkers A« am Ausgang des Resonators liegt.
Fig. 5 ist ein vereinfachtes Schaltbild eines numerischen Lerner-Resonators entsprechend Pig. 4.
Die Multiplikationen nach dem Schema der Fig. erfolgen durch Summierung von Logarithmen, unter Umrechnung der arithmetischen Werte in Logarithmen, Addition der Logarithmen und entgegengesetzter Umrechnung der Summe der Logarithmen in den arithmetischen Wert,
./. 109832/1207
Mit M1 ist ein Speicher bezeichnet, welcher den Wert log B.. für einen bestimmten Resonator enthält, der der Matrix 19 nach Fig. 1 entnommen ist. Mp ist ein Speicher mit dem Wert log Y., der dem Speicher T. nach Fig. 4 entspricht. M, ist ein Speicher, der den Wert log Y« enthalt, der dem Speicher T„ der Fig. 4 entspricht, und M. ist ein Speicher, der den Wert log Bp enthält, der der Matrix 19 der Fig. 1 entnommen ist.
Mit Q1 und Q2 sind zwei Summierungsschaltungen von Logrithmen bezeichnet, und Q,, Q-, Q- sind Summierungsschaltungen linearer Grossen.
Mit K1 und Kp sind Umsetzer von Logarithmen in arithmetische Werte und mit K-, ist ein Umsetzer von arithmetischen Werten in logarithmen bezeichnet.
Mit D ist ein Teiler durch 2 bezeichnet. X ist ein Eingaberegister, das der Klemme mit der gleichen Bezeichnung in Fig. 4 entspricht.
Die Summierungsschaltung Q1 empfangt die Ausgangssignale M1 und Μ«; sie summiert sie und gibt deren Summe auf den Eingang des Umsetzers K1. Am Ausgang des Umsetzers K1 wird der Wert -B1 Y1 erzielt. Dieser Wert wird auf den ersten Eingang der Sumraierungsschaltung Q= gegeben. Er wird ebenfalls auf den Eingang des Teiler3 durch zwei, D, gegeben, letzterer liefert den Wert -B1 Y1/2, der auf einen ersten Eingang der Summierungsschaltung Q. gegeben wird.
109832/1207
Das Ausgangssignal des Speichers M wird in den Speicher ML eingegeben, wobei die Taktgeberzeit um eine Einheit abweicht. Der Ausgang des Speichers M, und der Ausgang des Speichers M. liegen an den beiden Eingangen der Summierungsschaltung Q2, deren Ausgang mit dem Umsetzer K2 verbunden ist. Letzterer liefert den Wert -BpYp, der auf einen Eingang der Sunmiierungsschaltung Q, gegeben wird, die an einem anderen Eingang den Wert X empfangt. Das Ausgangssignal der Summierungsschaltung Q^ wird einerseits an einen zweiten Eingang der Summierungsschaltung Q,- angelegt; die am Ausgang den Wert Y = X - B1 Y1 - Bp Yp abgibt. Dieser Wert wird durch den Umsetzer K-. in den Logarithmus umgerechnet und auf den Eingang des Speichers Mp gegeben.
Andererseits wird das Ausgrngssignal der Summierungsschaltung Q^ an einen zweiten Eingang der Summierungsschaltung Q. angelegt, die am Ausgang den Ausgangsv/ert der Zelle abgibt, d.h.:
Sc = X - B1Y1Z2 - B2Y2.
Fig. 6a und 6b veranschaulichen, dass zur Erhöhung der Präzision der Berechnung mittels Logarithmen eine Korrektur bei der Umrechnung des Logarithmus in den arithmetischen Wert oder bei der entgegengesetzten Umrechnung erfolgt.
Der Wert der Gr'össe log W wird ausgehend von W von einem numerischen Generator geliefert, wobei deren Punktion in Form von Segmenten einer Geraden unterschiedlicher
10 9 8 3 2/1207
210401J
Neigung eingespeichert wird. An den Schnittpunkten der Enden der Segmente mit der Kurve ist der Fehler gleich Null. Auf der Mitte der Segmente ist die Abweichung zwischen dem richtigen Wert und dem angenäherten Wert auf ihrem Maximalwert» Erfindungsgemäss sind Mittel zur Korrektur dieses Fehlers vorgesehen.
Fig. 6a zeigt die Korrekturvorrichtung für die Umrechnung des Logarithmus in den arithmetischen Wert. Diese umfasst einen Umsetzer K., der unmittelbar den Kennwert c des Logarithmus empfangt, während die Mantisse m einerseits auf eine Summierungsschaltung Q. und andererseits auf einen Korrekturspeicher M. gegeben wird. Der Ausgang des Speichers M. liegt an einem zweiten Eingang der Summierungsschaltung Q1. Der Umsetzer K. empfangt den Kennwert c und die von Q. stammende, korrigierte Mantisse.
In Fig. 6b ist eine Korrekturvorrichtung für eine Umrechnung des arithmischen Werts in den Logarithmus
™ dargestellt. Die aus dem Umsetzer K. stammende Mantisse m
wird auf eine Summierungsschaltung Q. und in einen Korrektur-
speicher M. gegeben, dessen Ausgangssignal an einen zweiten
Eingang der Summierungsschaltung Q. angelegt wird. Am Ausgang
der Summierungsschaltung Q. wird der Logarithmus aus Kennwert
«j
c und berichtigter Mantisse erzielt.
Fig. 7 veranschaulicht die Anordnung dreier Resonatoren zur Bildung eines Lerner-Filters, wobei die
109832/1207
Anzahl drei lediglich "beispielsweise gilt, sowie die Avisgangs schaltung eines derartigen Lerner-Filters mit Einrichtungen zur Integration der abgegebenen Energie.
Der Wert S gemäss Fig. 5 wird der Reihe nach an drei Register R1, Rp, R, gegeben, die zu einem bestimmten Zeitpunkt die Werte S ·., S „ bzw. S , enthalten. Diese Grossen werden von einer Schaltungsanordnung P auf drei Register R1I ι R'η» RS gegeben, und zwar in Form von a.S >, ap^c2 bzw. a^S -,. Die Koeffizienten haben den Wert a.. = —x a„ = 1» a·, = ^- (Fig. 3)» Diese Vorgänge werden durch einen Taktgeber H gesteuert.
Die Ausgangssignale der drei Register R*-j»
R'p, R· werden auf eine Summierungsschaltung Q gegeben, deren Ausgangswert in einem Register Rj1 mit dem Ausgang Sp umgewandelt wird (Ausgang des Bandfilters).
Das Register R-, besitzt im Prinzip eine Klemme b, an die ein Steuersignal angelegt werden kann. Diese Klemme wird in der in Fig. 7 gezeigten Schaltung nicht verwendet, und folglich hat das erzielte Signal die gleiche Polarität, ohne Rücksicht darauf welches die Polarität des aus Q austretenden Signals ist; mit anderen Worten, es erfolgt eine Ganzwe llengle i chrichtung.
Das aus R™ austretende gleichgerichtete Signal wird auf eine Tiefpass-Filterse'^.ltung gegeben, die als Integrator dient. Diese Vorrichtung umfasst vorteilhafterweise
109832/1207
beispielsweise zwei numerische Tiefpass-Filterzellen P1 und Pp, die die im Speicher M, enthaltenen Koeffizienten verwenden. Diese beiden Zellen weisen beispielsweise eine Ubertragungskurve auf, die eine PLitersteilheit von 18 dB je Oktave hat. Bei dem Speicher M, kann es sich um einen Pestspeicher handeln, der die Koeffizienten für eine feststehende Grenzfrequenz von beispielsweise 20 bis 25 Hz enthält. Der Speicher M. kann auch komplexer ausgebildet sein und mehrere Koeffizientensätze enthalten, die entsprechend den jeweils erforderlichen Bedingungen automatisch ausgewählt werden, so beispielsweise eins Grenzfrequens in der G-rössenordnung von 60 Hz für einen Explosivlaut,
Am Ausgang der zweiten Zelle Pp, d.h. der
Klemme G, liefert eine Vorrichtung E, die beispielsweise mit 50 Hz arbeitet, das Ausgangssignal an eine Klemme S.
Fig. 8 zeigt ein Schaltschema der beiden Tiefpp-ss-Pilterzellen F.. und P2 nach Fig. 7.
Die gesamte Vorrichtung umfasst drei Summierungsschaltungen Q,-, Q„, Qg, drei Speicher T,, T,, Tp-, ahnlich den Speichern T.. und Tp nacn Fig· 4, sowie vier Multiplikationsverstarker X- , X«, X-, und X..
Das an einem Eingang von Q- ankommende Signal S-n wird mit dem Ausgangssignal vereinigt, das im Speicher T-. in Form von U1 verzögert wird, und es wird dann in X1 mit einem Koeffizienten k multipliziert«
109832/1207
Das Signal u des Ausgangs von Qg wird auf einen Eingang von Q7 gegeben, der ein Ausgangssignal ν abgibt. Dieses Signal ν wird im Speicher T. verzögert und tritt bei V1 aus» Das Signal v. wird auf den Verstärker X« gegeben, der es mit - B../2 multipliziert und der sein Ausgangs signal v„ an einen zweiten Eingang von Q7 anlegt.
Das Signal v. wird ferner angelegt;
- An einen Eingang des Verstärkers X-,, in dem es mit B.. multipliziert wird;
- an den Eingang des Speichers T^, dessen Ausgangssignal v^ an einen Eingang des Verstärkers X. angelegt wird, der es mit B2 multipliziert.
Die Suramierungsschaltung Qo empfängt das Signal v, das Ausgangesigna.1 v. von X, und das Ausgangssignal ν,- von X.. Der Ausgang der Summierungsschaltung ist die Klemme G, die aus Fig. 7 ersichtlich ist.
109832/120 7

Claims (12)

  1. PATENTANSPRÜCHE
    My Adaptiver Sprachanalysator, der durch Abtastung von Sprachlauten betrieben wird, die von einem Sprecher stammen und in regelmassigen Abst'änden, z.B. alle 125/us, abgetastet und in einem Analogdigitalumsetzer in Zahlenwerte umgesetzt werden, dadurch gekennzeichnet, dass er ausgerüstet ist mit einem Hilfsspeicher (15), dessen b Kapazität einer Anzahl von Zahlenwerten entspricht, die ungefähr der Dauer eines Sprachlautes entsprechen, z.B. 1024 abgetasteten Informationen mit einer Dauer von 128 ms, einem Satz von numerischen Bandfiltern (17)» deren Anzahl weniger als 20 beträgt und die sich über das gesamte Nutzsprachfrequenzband erstrecken, einem Schalter (16, 18), der so ausgelegt ist, dass die numerischen Filter (17) in mehr als 30 Konfigurationen zugeordnet werden können, wobei jede Konfiguration einem Grundsprachlaut entspricht und der Schalter (16, 18) betriebsmässig an eine Vorrichtung (20) angeschlossen ist, die zur Übertragung der die Stimme des Sprechers kennzeichnenden Koeffizienten in die numerischen Filter (17) dient.
  2. 2. Adaptiver Sprachanalysator nach Anspruch 1, dadurch gekennzeichnet, dass er Vorrichtungen aufweist, mit denen in die numerischen Filter (17) wahlweise mehrere Reihen von anderen, die Stimme mehrerer
    109832/1207
    Sprecher kennzeichnenden Koeffizienten übertragen werden können»
  3. 3. Adaptiver Sprachanalysator nach Anspruch 2,
    dadurch gekennzeichnet, dass die numerischen Filter (17) vorzugsweise numerische lerner-Filter sind, die durch Parallelschaltung einer bestimmten Anzahl von Resonatoren erzielt werden.
  4. 4. Adaptiver Sprachanalysator nach Anspruch 3» dadurch gekennzeichnet, dass er numerische Lerner-Filter aufweist, die drei numerische Resonatoren (Cj, Cg, (O umfassen, die einzelne Ubertragungsfunktionen
    (S., S , S. o) ausführen, wobei der Ausgang des ent-1 i+1 1+/d
    sprechenden Filters die betreffende Übertragungsfunktion (S = - ifi^ + S1+1 - ^Si+2) ausführt und die Koeffizienten (- Tf) durch an sich bekannte Vorrichtungen zugeführt werden.
  5. 5. Adaptiver Sprachanalysator nach Anspruch 4» dadurch gekennzeichnet, dass ein Resonator zwei benachbarten Filtern gemeinsam ist, so dass mit 2n + 1 Resonatoren η Filter gebildet werden können.
  6. 6. Adaptiver Sprachanalysator nach Anspruch 5, dadurch gekennzeichnet, dass er 16 Filter aufweist, die jeweils ein Durchlassband in. der Gr'dssenordnung von 200 Hz haben.
    109832/1207
    können·
    -1-8-
  7. 7. Adaptiver Sprachanalysator nach Anspruch. 5» dadurch gekennzeichnet, dass der Ausgang eines Filters, bestehend aus der Verbindung dreier Resonatoren, an den Eingang einer Tiefpassfilter-Vorrichtung (F-fl'p) derart angelegt wird, dass eine Gleichrichtung erzielt wird und die Vorrichtung als Integrator dient.
  8. 8. Adaptiver Sprachanalysator nach Anspruch 7, dadurch gekennzeichnet, dass die Tiefpassfilter-Vorrichtung (F.., Fp) vorzugsweise zwei numerische Tiefpasszellen aufweist.
  9. 9. Adaptiver Sprachanalysator nach Anspruch 8, dadurch gekennzeichnet, dass die Koeffizienten der numerischen Tiefpassfilter in einem Pestspeicher (M^.) enthalten sind.
  10. 10. Adaptiver Sprachanalysator nach Anspruch 8, dadurch gekennzeichnet, dass die Koeffizienten eingespeichert sind und entsprechend dem jeweiligen Bedarf durch an sich bekannte Vorrichtungen ausgewählt werden
  11. 11. Adaptiver Sprachanalysator nach Anspruch 10, dadurch gekennzeichnet, dass die Resonatoren und numerischen Filter im wesentlichen aus SummationsverstHrkem und Speichern bestehen, wobei die Multiplikationen durch Addition von Logarithmen erfolgen.
    109832/1207
    -rf-
  12. 12. Adaptiver Sprachanalysator nach Anspruch 11, dadurch gekennzeichnet, dass die Umwandlung der arithmetischen Werte in Logarithmen und umgekehrt durch Punktionsgeneratoren in Form von an sich bekannten Segmenten von Geraden erfolgt, wobei die Rechenvorrichtung im Speicher (M.,M.) enthaltene Korrekturwerte aufweist, um maximale TJmwandlungsfehler, die auf der Mitte der Segmente auftreten, zu verringern.
    109832/1207
    Leerseite
DE19712104012 1970-01-30 1971-01-28 Elektrische Einrichtung zur Erkennung von Sprachlauten Expired DE2104012C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR7003429A FR2074813A1 (de) 1970-01-30 1970-01-30

Publications (3)

Publication Number Publication Date
DE2104012A1 true DE2104012A1 (de) 1971-08-05
DE2104012B2 DE2104012B2 (de) 1980-08-07
DE2104012C3 DE2104012C3 (de) 1981-05-27

Family

ID=9049881

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19712104012 Expired DE2104012C3 (de) 1970-01-30 1971-01-28 Elektrische Einrichtung zur Erkennung von Sprachlauten

Country Status (3)

Country Link
DE (1) DE2104012C3 (de)
FR (1) FR2074813A1 (de)
GB (1) GB1303417A (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1056504A (en) * 1975-04-02 1979-06-12 Visvaldis A. Vitols Keyword detection in continuous speech using continuous asynchronous correlation
DE3009785A1 (de) * 1980-03-14 1981-10-01 Deutsche Itt Industries Gmbh, 7800 Freiburg Spektralanalysator
CN103177723A (zh) * 2011-12-20 2013-06-26 上海博泰悦臻电子设备制造有限公司 语音处理装置、车载终端设备及语音处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1163567B (de) * 1958-10-31 1964-02-20 E H K Kuepfmueller Dr Ing Einrichtung zur Erkennung von Sprachlauten
CH456180A (de) * 1964-03-06 1968-05-15 Int Standard Electric Corp Spracherkennungseinrichtung
DE1547032A1 (de) * 1966-05-02 1969-11-06 Ibm Einrichtung zum Identifizieren einer Person

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1163567B (de) * 1958-10-31 1964-02-20 E H K Kuepfmueller Dr Ing Einrichtung zur Erkennung von Sprachlauten
CH456180A (de) * 1964-03-06 1968-05-15 Int Standard Electric Corp Spracherkennungseinrichtung
DE1547032A1 (de) * 1966-05-02 1969-11-06 Ibm Einrichtung zum Identifizieren einer Person

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1966 IEEE International Convention Record, Part 1, S. 52-55 *

Also Published As

Publication number Publication date
FR2074813A1 (de) 1971-10-08
DE2104012B2 (de) 1980-08-07
DE2104012C3 (de) 1981-05-27
GB1303417A (de) 1973-01-17

Similar Documents

Publication Publication Date Title
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE2613258A1 (de) System zur automatischen spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE2809316A1 (de) Digitaler frequenzanalysator
DE1965480B2 (de) Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte
DE2730662A1 (de) Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors
DE2423351B2 (de) Verfahren und vorrichtung zur kompression von aus einem kurvenverlauf in konstanten zeitintervallen abgetasteten daten
DE2104012A1 (de) Adaptiver Sprachanalysator
DE2109436A1 (de) Amphtudenregler für elektrische Signale
DE2649540A1 (de) Verfahren und anordnung zur sprachsynthese
DE2435654C2 (de) Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
DE2051589A1 (de) Anordnung zur Synthese eines Signals
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE4111781A1 (de) Computersystem zur spracherkennung
DE2307441C1 (de) Verfahren zum Verschleiern von Sprachsignalen
DE3335026C2 (de)
DE3037276A1 (de) Tonsynthesizer
DE1122581B (de) Verfahren und Schaltungsanordnung zur angenaeherten Nachbildung der Kurzzeitspektren von nach dem Vocoderverfahren uebertragenen Sprachsignalen
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE1292203B (de) Schaltungsanordnung zur Verringerung des Informationsflusses in Kanalvocodersystemen
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese

Legal Events

Date Code Title Description
OD Request for examination
OGA New person/name/address of the applicant
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee