DE2104012A1 - Adaptiver Sprachanalysator - Google Patents
Adaptiver SprachanalysatorInfo
- Publication number
- DE2104012A1 DE2104012A1 DE19712104012 DE2104012A DE2104012A1 DE 2104012 A1 DE2104012 A1 DE 2104012A1 DE 19712104012 DE19712104012 DE 19712104012 DE 2104012 A DE2104012 A DE 2104012A DE 2104012 A1 DE2104012 A1 DE 2104012A1
- Authority
- DE
- Germany
- Prior art keywords
- filters
- numerical
- analyzer according
- filter
- speech analyzer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title claims description 15
- 230000006870 function Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 206010035148 Plague Diseases 0.000 claims description 2
- 241000607479 Yersinia pestis Species 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
JS/U/C PATENTANWÄLTE * I ö 4 U
DaMOLLER-BORe-DR-MANITZ-DR-DEUFEL
F 4757 5UPU-ING. FINSTERWALD . DIPL-ING. QRÄMK0W
8 MÖNCHEN 22, ROBERT-KOCH-STa 1
TELEFON 225110
2 8. Jan. 197!
S 2232
SOCIETE LANNIONNAISE D'EIECiDRONIQUE
Route de Perros-Guirec, LAWNION (Cotes du Nord)
Prankreich
ADAPTIVER SPRACHANALYSATOR
Die Erfindung betrifft Vorrichtungen zur Erkennung von Sprachlauten und insbesondere eine Vorrichtung,
mit der mittels einer begrenzten Anzahl von Bauteilen eine Reihe von Einzellauten oder Phonemen, die von mehreren
Sprechern ssjaramen, analysiert werden k'dnnen· Ihr Hauptanwendungszweck
besteht gegenwärtig darin, mit Hilfe eines begrenzten Wortschatzes mit der Stimme Befehle an einfache
Schaltungen und später an komplexere Anordnungen zu geben.
Anordnungen zur Analyse und Erkennung gesprochener Laute wurden bereits in der am 7» Dezember 1961
hinterlegten französischen Patentschrift 1 428 460 beschrieben.
Diese Vorrichtung besteht aus einer oder mehreren formantisehen
elektronischen Schaltungen, denen eine Analysefilterkette nachgeschaltet tpt* Bei einer formantisehen elektronischen
109832/1207
-abhandelt es sich im wesentlichen um einen Ruckkopp
lungs~Ver stärker mit regelbarer Verstärkung durch eine
Schleife, die ein Bandfilter enthält. Dies ermöglicht die Regelung der Verstärkung des Verstärkers entsprechend den
Komponenten des Sprachspektrums. Die Vorrichtung gewährleistet somit die Bildung von Informationspegeln am Ausgang
des Spraehanalysators, der aus einer Bandfilterkette besteht,
der Detektoren und Tiefpässe nachgeschaltet sind, die bei 16 Hz oder 50 Hz sperren.
Ein weiteres derartiges Ausführungsbeispiel wird in der Zeitschrift "IEEE Transactions on Audio and
Electroacoustics", Dezember 1968, Seite 523 usw., unter dem Titel "Adaptive spectral analysis for speech-sound recognition"
beschrieben«
Die Erfindung basiert auf folgenden Überlegungen %
Aus der Phonetik ist bekannt, dass eine Sprache insgesamt einige zehn Laute umfasst. So hat beispielsweise
die französische Sprache etwa 36 verschiedene Laute. Es kann
eine Filteranordnung hergestellt werden, die eine Filterkette je Laut aufweist, d.h, 36 Filterketten, um sämtliche Laute
der französischen Sprache abzugrenzen und zu identifizieren.
Es ist jedoch ebenfalls bekannt, dass jeder Sprecher die Laute mit den ihm eigenen Sprachporanetem ausspricht wie Stimmlage,
Akzent, Intonation usw. Bei Anwendung eines solchen Schemas auf 100 Sprecher benötigt man beispielsweise insgesamt
109832/1207
3600 Filterketten, wr.s offensichtlich eine beträchtlich zu
hohe Zahl ist, während einerseits 100 Sprecher zu wenig sind und andererseits beim Hinzukommen von weiteren Sprechern
ebensoviele zusätzliche Filterketten verwendet werden nüssen·
Ziel der Erfindung ist die Herstellung einer Vorrichtung, die entsprechend dem genannten Schema sehr einfach
und zuverlässig betrieben wird und bei der die Anzahl der Basisfilter beispielsweise weniger als zwanzig beträgt,
die geeignet sind, nicht nur zur Erkennung der 36 Laute der
französischen Sprache, die von einem Sprecher stammen, sondern
auch zur Anwendung auf einen beliebigen anderen Sprecher verwendet werden können, vorausgesetzt, dass die Parameter der
Sprechweise eines oe&en Sprechers in den Frkennungsvorgang
einbezogen werden können.
Erfindungsgemäss wird dieses Ergebnis durch
Kombination dreier Massnahmen erzielt:
1. Anstatt ein Laut 36 parallelgeschalteten
Filtern zuzuführen, erfolgt die Analyse in Reihe, wobei deren Kadenz schneller ist als die Dauer eines jeden einzelnen Lautes.
2. Es wird ein und diesselbe Filtervorrichtung verwendet, die geeignet ist, nacheinander 36 verschiedene
Konfigurationen zur Erkennung eines jeden der 36 Grundlaute
anzunehmen. Wenn während einer Abtastung eine dieser Konfigurationen mit dem im betreffenden Augenblick eintreffenden Laut
Übereinstimmt, erfolgt die Identifizierung des betreffenden Grundlautes.
./. 109832/1207
3. Die jedem einzelnen Sprecher eigenen Parameter werden im voraus "bestimmt und im voraus eingespeichert
und dann zur Spracherkennung herangezogen.
Dank der Erfindung werden diese Ergebnisse auf einfache und wirtschaftliche Weise durch Verwendung numerischer
Filter erzielt. Ein numerisches Filter weist ein Rechenschema auf, und es wird eine feststehende Struktur veränderlicher
Kennwerte dadurch erzielt, dass die in die Berechnung aufgenommenen Koeffizienten verändert werden. Die Erfindung sieht
vor, ausgehend von eingespeicherten Koeffiziententabellen eine Filteranordnung mit wenigen, beispielsweise 16 Filtern aufzubauen,
um so jedem der 36 Laute gerecht zu werden, die von der zuvor analysierten Stimme eines gegebenen Sprechers L
stammen.
Sechzehn Filter werden in Anbetracht der Tatsache verwendet, dass das Sprachband von 300-3500 Hz in
sechzehn Bänder mit einer Breite von 200 Hz unterteilt ist. Diese Zahlenwerte gelten jedoch nur beispielsweise.
Die Erfindung wird im einzelnen an Hand eines AusfUhrungsbeispiels und der Zeichnung beschrieben.
Fig. 1 ist ein allgemeiner Schaltplan, der den Aufbau einer erfindungsgemässen Vorrichtung veranschaulicht.
Fig. 2 ist ein Schaltbild das die Vorgange der
Eingabe und Entnahme von Daten in einen bzw. aus einem Speicher zeigt, der Teil der Vorrichtung nach Fig. 1 ist.
109832/1207
Pig. 3 ist ein Schaltplan, der den Aufbau von Lerner-Filtern veranschaulicht, wobei mehrere Resonatoren
parallelgeschaltet und drei nebeneinanderliegende Resonatoren aus einer Resonatorkette ausgewählt sind.
Pig. 4 ist ein Schaltbild, das den Aufbau eines Resonators für ein numerisches Lerner-Filter veranschaulicht.
Fig. 5 ist ein vereinfachtes Prinzip-Schaltbild eines Lerner-Resonators entsprechend Fig. 4.
Fig. 6a und 6b sind Schaltbilder der dem Schaltbild
nach Fig. 5 zugeordneten Korrekturschaltungen.
Fig, 7 ist ein Schaltbild, das den Aufbau eines numerischen Filters zeigt, und zwar durch Zuordnung von drei
Resonatoren naoh Fig. 5, die durch eine Sumraierungsschaltung
abgeschlossen werden.
Fig. 8 ist das Schaltbild eines in der Summierungsschaltung der Fig. 7 enthaltenen Tiefpass-Filters.
In Fig. 1 ist mit 11 ein Mikrophon bezeichnet, in das ein Sprecher L hineinspricht und das Sprechströme abgibt,
die von der Abtastvorrichtung 12 mit einer von einem Taktgeber 13 festgelegten Kadens, beispielsweise mit der
Frequenz von 8 kHz und Intervallen von 125/us abtastet. Die abgetasteten Werte werden in einem Analogdigital-Umsetzer 14
quantisiert. Die Abtastung und die Quantisierung erfolgen sehr schnell mit der Geschwindigkeit von einigen MikroSekunden.
Die Quantisierung erfolgt beispielsweise in Form eines Wortes
109832/1207
mit zehn Informationsbits und einem Prüfbit, d.h. insgesamt elf Bits.
Ein solches Wort gelangt bei Λ in einen Pufferspeicher
15, dessen Kapazität beispielsweise 1024 Wörter beträgt. Wenn der Speicher von oben bis unten voll ist, beginnt
die Eingabe erneut von oben usw. usf. Die Eingabe eines Wortes eriblgt alle 125/us, und der Speicher enthält ständig Informationen,
die einem Zeitabschnitt von 125/us χ 1024 = 128 ms, d.h. der ungefähren Dp.uer eines Sprachlauts entsprechen.
Jedes Wort mit 11 Bits, das aus dem Speicher
15 über die Ausgangsklemme B entnommen wird, wird über einen
Schalter 16 mit 36 Stellungen, die der Anzahl der Laute der französischen Sprache entsprechen, auf eine Anordnung 17 mit
16 numerischen Filtern a, b ... ρ gegeben.
In jeder Stellung des Schalters 16 legt ein mit diesem fest verbundener Schalter 18 die Koeffizienten an, die
einer aus 36 Matrizen ausgewählten Matrix entnommen sind. Diese Kennwerttafeln sind durch 36 waagerechte Linien veranschaulicht,
die zu einer Matrix 19 gehören. In jeder der 36 Stellungen des Schalters 18 werden in der Anordnung 17? die
in einem gegebenen Augenblick einen Abtastwert empfängt, die
Kennwerte entsprechend der Stellung des Schalters 18 geändert»
Die Kennwerte der Matrix 19 werden entsprechend den Koeffizienten des Sprechers L, die im voraus eingespeichert
wurden, angeglichen. Jede senkrechte Linie der Matrix 19 wird
109832/1207
von einer senkrechten Linie der Anordnung 20 gebildet.
Die Eingabe der Kennwerte der Anordnung 20 in die Matrix 19 erfolgt auf jede bekannte Weise.
An der Ausgangsklemme 21 wird ein logisches Signal abgegeben, wenn Koinzidenz eines eingespeicherten
Lautes mit einer der aufeinanderfolgenden 36 Filterkonfigurationen
vorliegt.
Fig. 2 zeigt schematisch den Speicher 15 mit Zusatzgeräten.
Der Speicher 15 enthält beispielsweise 1024 Zeilen mit 11 Bits. Er ist Über ein Eingaberegister 31
adressierbar, das alle 125/US infolge Betätigung durch einen
Taktgeber 13 um eine Einheit vorrückt.
Die Eingabe der quantisierten Werte (Wörter mit 11 Bits), die bei A ankommen, erfolgt auf der Leitung, deren
Adresse vom Register 31 abgegeben wird.
Die Abtastung erfolgt über die Ausgangsklemme B
unter Steuerung durch ein Leseadressen-Hegister 32, das jeweils um eine Einheit entsprechend einem Taktgeber 33 vorrückt, der
auf die Betriebsgeschwindigkeit eingestellt ist.
Aus Fig. 3 ist ersichtlich, dass es zur Bildung von Bandfiltern, im vorliegenden Fall von 16 Bandfilters, besonders
vorteilhaft ist, den Aufbau der Lerner-Filter zu verwenden, der in "Proceedings of the IEEE", März 1964f unter
10 9 8 3 2/1207
feTitel "Band-pass filters with linear phase" beschrieben
wird. Der interessanteste Kennwert eines solchen Filters ist die Phasenlinearitat, durch die eine praktisch konstante
Gruppenlaufzeit im Durchlassbereich erzielt werden kann.
Zur Herstellung eines Lemer-Filters werden η
Resonatoren parallelgeschaltet. Wenn beispielsweise η = 3 ist und drei Ubertragungsfunktionszellen S1, S2» S-, vorhanden
sind, ergibt sich eine Übertragungsfunktion von S = - 75· S1 + S2 - £ S,. Bei 2n + 1 Resonatoren, die in
Parallelschaltung liegen, und infolge Rekursion zweier ungeradzahliger Resonatoren und eines geradzahligen Zwischenresonators
werden η Filter mit drei Ubertragungsfunktionszellen erzielt.
Entsprechend Fig. 3 wird das an einer Klemme a ankommende Signal auf 2n + 1 Zellen C-, Cp, C "9^Qn+ 1
gegeben. Die Aus gangs signale der Zellen sind Sc1, Sc,. usw.
Der Ausgang der ungeradzahligen Zellen C-, C^ ist mit einem
Multiplikationsverstärker X1, X, versehen, der eine Kultiplikation
mit -^ vornimmt. Der Ausgang des Filters 1 besteht aus
einer Summierungsschaltung )' 1, die bei S1 die Summe
- Tj Sc1 +Sc2 - S0-, ergibt, wobei Sc1 das Ausgangssignal der
Zelle C1 ist.
In gleicher Weise wird an der Ausgangsklemme S2
der Summierungsschaltung λ« das Ausgangssignal des aus den
Zellen C-,, C., C,- usw. bestehenden Filters erhalten.
109832/ 1207
—If—
Pig. 4 zeigt das Ubersichtschaltbild eines Resonators für ein numerisches Lerner-Filter.
Das eintreffende Signal X wird auf einen ersten Summationsverstärker A1 gegeben, dessen Ausgangssignal Y
einerseits einem sogenannten Erstwortspeioher T1 und einem
zweiten Summationsverstarker L^ zugeführt wird. Der Ausgang
Y1 von T1 liegt an einem zweiten Speicher Tp, einem sogenannten
Zweitwortspeicher, sowie am Eingang eines Verstärkers X , der zur Multiplikation mit einem Paktor -B1 dient, und ferner am
Eingang eines mit B../2 multiplizierenden Verstärkers X-^. Der
Ausgang von T2 liegt an einem dritten Multiplikationsverstärker
X , der eine Multiplikation mit dem Paktor -B0 vor-
C C
nimmt. Die Speicher T1 und T„ speichern die Information
während der Zeit T = 125/us.
Die Ausgänge von X& und Xc sind an zwei Eingänge
des Summationsverstärkers A1 angelegt, und der Ausgang von
X^ liegt an einem Eingang des Summationsverstärkers A«» wobei
der Ausgang S des Summationsverstärkers A« am Ausgang des
Resonators liegt.
Fig. 5 ist ein vereinfachtes Schaltbild eines numerischen Lerner-Resonators entsprechend Pig. 4.
Die Multiplikationen nach dem Schema der Fig. erfolgen durch Summierung von Logarithmen, unter Umrechnung
der arithmetischen Werte in Logarithmen, Addition der Logarithmen und entgegengesetzter Umrechnung der Summe der Logarithmen
in den arithmetischen Wert,
./. 109832/1207
Mit M1 ist ein Speicher bezeichnet, welcher
den Wert log B.. für einen bestimmten Resonator enthält, der
der Matrix 19 nach Fig. 1 entnommen ist. Mp ist ein Speicher
mit dem Wert log Y., der dem Speicher T. nach Fig. 4 entspricht.
M, ist ein Speicher, der den Wert log Y« enthalt,
der dem Speicher T„ der Fig. 4 entspricht, und M. ist ein
Speicher, der den Wert log Bp enthält, der der Matrix 19 der
Fig. 1 entnommen ist.
Mit Q1 und Q2 sind zwei Summierungsschaltungen
von Logrithmen bezeichnet, und Q,, Q-, Q- sind Summierungsschaltungen
linearer Grossen.
Mit K1 und Kp sind Umsetzer von Logarithmen in
arithmetische Werte und mit K-, ist ein Umsetzer von arithmetischen
Werten in logarithmen bezeichnet.
Mit D ist ein Teiler durch 2 bezeichnet. X ist ein Eingaberegister, das der Klemme mit der gleichen Bezeichnung
in Fig. 4 entspricht.
Die Summierungsschaltung Q1 empfangt die Ausgangssignale
M1 und Μ«; sie summiert sie und gibt deren Summe
auf den Eingang des Umsetzers K1. Am Ausgang des Umsetzers
K1 wird der Wert -B1 Y1 erzielt. Dieser Wert wird auf den
ersten Eingang der Sumraierungsschaltung Q= gegeben. Er wird
ebenfalls auf den Eingang des Teiler3 durch zwei, D, gegeben,
letzterer liefert den Wert -B1 Y1/2, der auf einen ersten
Eingang der Summierungsschaltung Q. gegeben wird.
109832/1207
Das Ausgangssignal des Speichers M wird in den
Speicher ML eingegeben, wobei die Taktgeberzeit um eine Einheit
abweicht. Der Ausgang des Speichers M, und der Ausgang des Speichers M. liegen an den beiden Eingangen der Summierungsschaltung
Q2, deren Ausgang mit dem Umsetzer K2 verbunden ist.
Letzterer liefert den Wert -BpYp, der auf einen Eingang der
Sunmiierungsschaltung Q, gegeben wird, die an einem anderen
Eingang den Wert X empfangt. Das Ausgangssignal der Summierungsschaltung
Q^ wird einerseits an einen zweiten Eingang der Summierungsschaltung Q,- angelegt; die am Ausgang den Wert
Y = X - B1 Y1 - Bp Yp abgibt. Dieser Wert wird durch den
Umsetzer K-. in den Logarithmus umgerechnet und auf den Eingang
des Speichers Mp gegeben.
Andererseits wird das Ausgrngssignal der
Summierungsschaltung Q^ an einen zweiten Eingang der Summierungsschaltung
Q. angelegt, die am Ausgang den Ausgangsv/ert der Zelle abgibt, d.h.:
Sc = X - B1Y1Z2 - B2Y2.
Fig. 6a und 6b veranschaulichen, dass zur Erhöhung der Präzision der Berechnung mittels Logarithmen eine
Korrektur bei der Umrechnung des Logarithmus in den arithmetischen Wert oder bei der entgegengesetzten Umrechnung erfolgt.
Der Wert der Gr'össe log W wird ausgehend von W von einem numerischen Generator geliefert, wobei deren
Punktion in Form von Segmenten einer Geraden unterschiedlicher
10 9 8 3 2/1207
210401J
Neigung eingespeichert wird. An den Schnittpunkten der Enden der Segmente mit der Kurve ist der Fehler gleich Null. Auf der
Mitte der Segmente ist die Abweichung zwischen dem richtigen Wert und dem angenäherten Wert auf ihrem Maximalwert» Erfindungsgemäss
sind Mittel zur Korrektur dieses Fehlers vorgesehen.
Fig. 6a zeigt die Korrekturvorrichtung für die Umrechnung des Logarithmus in den arithmetischen Wert.
Diese umfasst einen Umsetzer K., der unmittelbar den Kennwert c des Logarithmus empfangt, während die Mantisse m
einerseits auf eine Summierungsschaltung Q. und andererseits auf einen Korrekturspeicher M. gegeben wird. Der Ausgang des
Speichers M. liegt an einem zweiten Eingang der Summierungsschaltung Q1. Der Umsetzer K. empfangt den Kennwert c und die
von Q. stammende, korrigierte Mantisse.
In Fig. 6b ist eine Korrekturvorrichtung für eine Umrechnung des arithmischen Werts in den Logarithmus
™ dargestellt. Die aus dem Umsetzer K. stammende Mantisse m
wird auf eine Summierungsschaltung Q. und in einen Korrektur-
speicher M. gegeben, dessen Ausgangssignal an einen zweiten
Eingang der Summierungsschaltung Q. angelegt wird. Am Ausgang
der Summierungsschaltung Q. wird der Logarithmus aus Kennwert
«j
c und berichtigter Mantisse erzielt.
Fig. 7 veranschaulicht die Anordnung dreier Resonatoren zur Bildung eines Lerner-Filters, wobei die
109832/1207
Anzahl drei lediglich "beispielsweise gilt, sowie die Avisgangs
schaltung eines derartigen Lerner-Filters mit Einrichtungen zur Integration der abgegebenen Energie.
Der Wert S gemäss Fig. 5 wird der Reihe nach
an drei Register R1, Rp, R, gegeben, die zu einem bestimmten
Zeitpunkt die Werte S ·., S „ bzw. S , enthalten. Diese Grossen
werden von einer Schaltungsanordnung P auf drei Register R1I ι R'η» RS gegeben, und zwar in Form von a.S >, ap^c2
bzw. a^S -,. Die Koeffizienten haben den Wert a.. = —x a„ = 1»
a·, = ^- (Fig. 3)» Diese Vorgänge werden durch einen Taktgeber
H gesteuert.
Die Ausgangssignale der drei Register R*-j»
R'p, R· werden auf eine Summierungsschaltung Q gegeben, deren
Ausgangswert in einem Register Rj1 mit dem Ausgang Sp umgewandelt
wird (Ausgang des Bandfilters).
Das Register R-, besitzt im Prinzip eine Klemme b, an die ein Steuersignal angelegt werden kann. Diese Klemme
wird in der in Fig. 7 gezeigten Schaltung nicht verwendet, und folglich hat das erzielte Signal die gleiche Polarität,
ohne Rücksicht darauf welches die Polarität des aus Q austretenden
Signals ist; mit anderen Worten, es erfolgt eine Ganzwe llengle i chrichtung.
Das aus R™ austretende gleichgerichtete Signal
wird auf eine Tiefpass-Filterse'^.ltung gegeben, die als
Integrator dient. Diese Vorrichtung umfasst vorteilhafterweise
109832/1207
beispielsweise zwei numerische Tiefpass-Filterzellen P1 und
Pp, die die im Speicher M, enthaltenen Koeffizienten verwenden.
Diese beiden Zellen weisen beispielsweise eine Ubertragungskurve
auf, die eine PLitersteilheit von 18 dB je
Oktave hat. Bei dem Speicher M, kann es sich um einen Pestspeicher handeln, der die Koeffizienten für eine feststehende
Grenzfrequenz von beispielsweise 20 bis 25 Hz enthält. Der Speicher M. kann auch komplexer ausgebildet sein und mehrere
Koeffizientensätze enthalten, die entsprechend den jeweils erforderlichen Bedingungen automatisch ausgewählt werden,
so beispielsweise eins Grenzfrequens in der G-rössenordnung
von 60 Hz für einen Explosivlaut,
Am Ausgang der zweiten Zelle Pp, d.h. der
Klemme G, liefert eine Vorrichtung E, die beispielsweise mit 50 Hz arbeitet, das Ausgangssignal an eine Klemme S.
Fig. 8 zeigt ein Schaltschema der beiden Tiefpp-ss-Pilterzellen
F.. und P2 nach Fig. 7.
Die gesamte Vorrichtung umfasst drei Summierungsschaltungen Q,-, Q„, Qg, drei Speicher T,, T,, Tp-, ahnlich
den Speichern T.. und Tp nacn Fig· 4, sowie vier Multiplikationsverstarker
X- , X«, X-, und X..
Das an einem Eingang von Q- ankommende Signal
S-n wird mit dem Ausgangssignal vereinigt, das im Speicher T-.
in Form von U1 verzögert wird, und es wird dann in X1 mit
einem Koeffizienten k multipliziert«
109832/1207
Das Signal u des Ausgangs von Qg wird auf einen
Eingang von Q7 gegeben, der ein Ausgangssignal ν abgibt. Dieses
Signal ν wird im Speicher T. verzögert und tritt bei V1 aus»
Das Signal v. wird auf den Verstärker X« gegeben, der es mit
- B../2 multipliziert und der sein Ausgangs signal v„ an einen
zweiten Eingang von Q7 anlegt.
Das Signal v. wird ferner angelegt;
- An einen Eingang des Verstärkers X-,, in dem es mit B.. multipliziert wird;
- an den Eingang des Speichers T^, dessen
Ausgangssignal v^ an einen Eingang des Verstärkers X. angelegt
wird, der es mit B2 multipliziert.
Die Suramierungsschaltung Qo empfängt das
Signal v, das Ausgangesigna.1 v. von X, und das Ausgangssignal
ν,- von X.. Der Ausgang der Summierungsschaltung ist
die Klemme G, die aus Fig. 7 ersichtlich ist.
109832/120 7
Claims (12)
- PATENTANSPRÜCHEMy Adaptiver Sprachanalysator, der durch Abtastung von Sprachlauten betrieben wird, die von einem Sprecher stammen und in regelmassigen Abst'änden, z.B. alle 125/us, abgetastet und in einem Analogdigitalumsetzer in Zahlenwerte umgesetzt werden, dadurch gekennzeichnet, dass er ausgerüstet ist mit einem Hilfsspeicher (15), dessen b Kapazität einer Anzahl von Zahlenwerten entspricht, die ungefähr der Dauer eines Sprachlautes entsprechen, z.B. 1024 abgetasteten Informationen mit einer Dauer von 128 ms, einem Satz von numerischen Bandfiltern (17)» deren Anzahl weniger als 20 beträgt und die sich über das gesamte Nutzsprachfrequenzband erstrecken, einem Schalter (16, 18), der so ausgelegt ist, dass die numerischen Filter (17) in mehr als 30 Konfigurationen zugeordnet werden können, wobei jede Konfiguration einem Grundsprachlaut entspricht und der Schalter (16, 18) betriebsmässig an eine Vorrichtung (20) angeschlossen ist, die zur Übertragung der die Stimme des Sprechers kennzeichnenden Koeffizienten in die numerischen Filter (17) dient.
- 2. Adaptiver Sprachanalysator nach Anspruch 1, dadurch gekennzeichnet, dass er Vorrichtungen aufweist, mit denen in die numerischen Filter (17) wahlweise mehrere Reihen von anderen, die Stimme mehrerer109832/1207Sprecher kennzeichnenden Koeffizienten übertragen werden können»
- 3. Adaptiver Sprachanalysator nach Anspruch 2,dadurch gekennzeichnet, dass die numerischen Filter (17) vorzugsweise numerische lerner-Filter sind, die durch Parallelschaltung einer bestimmten Anzahl von Resonatoren erzielt werden.
- 4. Adaptiver Sprachanalysator nach Anspruch 3» dadurch gekennzeichnet, dass er numerische Lerner-Filter aufweist, die drei numerische Resonatoren (Cj, Cg, (O umfassen, die einzelne Ubertragungsfunktionen(S., S , S. o) ausführen, wobei der Ausgang des ent-1 i+1 1+/dsprechenden Filters die betreffende Übertragungsfunktion (S = - ifi^ + S1+1 - ^Si+2) ausführt und die Koeffizienten (- Tf) durch an sich bekannte Vorrichtungen zugeführt werden.
- 5. Adaptiver Sprachanalysator nach Anspruch 4» dadurch gekennzeichnet, dass ein Resonator zwei benachbarten Filtern gemeinsam ist, so dass mit 2n + 1 Resonatoren η Filter gebildet werden können.
- 6. Adaptiver Sprachanalysator nach Anspruch 5, dadurch gekennzeichnet, dass er 16 Filter aufweist, die jeweils ein Durchlassband in. der Gr'dssenordnung von 200 Hz haben.109832/1207können·-1-8-
- 7. Adaptiver Sprachanalysator nach Anspruch. 5» dadurch gekennzeichnet, dass der Ausgang eines Filters, bestehend aus der Verbindung dreier Resonatoren, an den Eingang einer Tiefpassfilter-Vorrichtung (F-fl'p) derart angelegt wird, dass eine Gleichrichtung erzielt wird und die Vorrichtung als Integrator dient.
- 8. Adaptiver Sprachanalysator nach Anspruch 7, dadurch gekennzeichnet, dass die Tiefpassfilter-Vorrichtung (F.., Fp) vorzugsweise zwei numerische Tiefpasszellen aufweist.
- 9. Adaptiver Sprachanalysator nach Anspruch 8, dadurch gekennzeichnet, dass die Koeffizienten der numerischen Tiefpassfilter in einem Pestspeicher (M^.) enthalten sind.
- 10. Adaptiver Sprachanalysator nach Anspruch 8, dadurch gekennzeichnet, dass die Koeffizienten eingespeichert sind und entsprechend dem jeweiligen Bedarf durch an sich bekannte Vorrichtungen ausgewählt werden
- 11. Adaptiver Sprachanalysator nach Anspruch 10, dadurch gekennzeichnet, dass die Resonatoren und numerischen Filter im wesentlichen aus SummationsverstHrkem und Speichern bestehen, wobei die Multiplikationen durch Addition von Logarithmen erfolgen.109832/1207-rf-
- 12. Adaptiver Sprachanalysator nach Anspruch 11, dadurch gekennzeichnet, dass die Umwandlung der arithmetischen Werte in Logarithmen und umgekehrt durch Punktionsgeneratoren in Form von an sich bekannten Segmenten von Geraden erfolgt, wobei die Rechenvorrichtung im Speicher (M.,M.) enthaltene Korrekturwerte aufweist, um maximale TJmwandlungsfehler, die auf der Mitte der Segmente auftreten, zu verringern.109832/1207Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR7003429A FR2074813A1 (de) | 1970-01-30 | 1970-01-30 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2104012A1 true DE2104012A1 (de) | 1971-08-05 |
DE2104012B2 DE2104012B2 (de) | 1980-08-07 |
DE2104012C3 DE2104012C3 (de) | 1981-05-27 |
Family
ID=9049881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19712104012 Expired DE2104012C3 (de) | 1970-01-30 | 1971-01-28 | Elektrische Einrichtung zur Erkennung von Sprachlauten |
Country Status (3)
Country | Link |
---|---|
DE (1) | DE2104012C3 (de) |
FR (1) | FR2074813A1 (de) |
GB (1) | GB1303417A (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1056504A (en) * | 1975-04-02 | 1979-06-12 | Visvaldis A. Vitols | Keyword detection in continuous speech using continuous asynchronous correlation |
DE3009785A1 (de) * | 1980-03-14 | 1981-10-01 | Deutsche Itt Industries Gmbh, 7800 Freiburg | Spektralanalysator |
CN103177723A (zh) * | 2011-12-20 | 2013-06-26 | 上海博泰悦臻电子设备制造有限公司 | 语音处理装置、车载终端设备及语音处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1163567B (de) * | 1958-10-31 | 1964-02-20 | E H K Kuepfmueller Dr Ing | Einrichtung zur Erkennung von Sprachlauten |
CH456180A (de) * | 1964-03-06 | 1968-05-15 | Int Standard Electric Corp | Spracherkennungseinrichtung |
DE1547032A1 (de) * | 1966-05-02 | 1969-11-06 | Ibm | Einrichtung zum Identifizieren einer Person |
-
1970
- 1970-01-30 FR FR7003429A patent/FR2074813A1/fr not_active Withdrawn
-
1971
- 1971-01-28 DE DE19712104012 patent/DE2104012C3/de not_active Expired
- 1971-04-19 GB GB2079671A patent/GB1303417A/en not_active Expired
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1163567B (de) * | 1958-10-31 | 1964-02-20 | E H K Kuepfmueller Dr Ing | Einrichtung zur Erkennung von Sprachlauten |
CH456180A (de) * | 1964-03-06 | 1968-05-15 | Int Standard Electric Corp | Spracherkennungseinrichtung |
DE1547032A1 (de) * | 1966-05-02 | 1969-11-06 | Ibm | Einrichtung zum Identifizieren einer Person |
Non-Patent Citations (1)
Title |
---|
1966 IEEE International Convention Record, Part 1, S. 52-55 * |
Also Published As
Publication number | Publication date |
---|---|
FR2074813A1 (de) | 1971-10-08 |
DE2104012B2 (de) | 1980-08-07 |
DE2104012C3 (de) | 1981-05-27 |
GB1303417A (de) | 1973-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE2613258A1 (de) | System zur automatischen spracherkennung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE2809316A1 (de) | Digitaler frequenzanalysator | |
DE1965480B2 (de) | Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte | |
DE2730662A1 (de) | Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors | |
DE2423351B2 (de) | Verfahren und vorrichtung zur kompression von aus einem kurvenverlauf in konstanten zeitintervallen abgetasteten daten | |
DE2104012A1 (de) | Adaptiver Sprachanalysator | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE2435654C2 (de) | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache | |
DE2051589A1 (de) | Anordnung zur Synthese eines Signals | |
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE2307441C1 (de) | Verfahren zum Verschleiern von Sprachsignalen | |
DE3335026C2 (de) | ||
DE3037276A1 (de) | Tonsynthesizer | |
DE1122581B (de) | Verfahren und Schaltungsanordnung zur angenaeherten Nachbildung der Kurzzeitspektren von nach dem Vocoderverfahren uebertragenen Sprachsignalen | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE1292203B (de) | Schaltungsanordnung zur Verringerung des Informationsflusses in Kanalvocodersystemen | |
EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
OGA | New person/name/address of the applicant | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |