DE1937464C3 - Sprachanalysiergerät - Google Patents
SprachanalysiergerätInfo
- Publication number
- DE1937464C3 DE1937464C3 DE1937464A DE1937464A DE1937464C3 DE 1937464 C3 DE1937464 C3 DE 1937464C3 DE 1937464 A DE1937464 A DE 1937464A DE 1937464 A DE1937464 A DE 1937464A DE 1937464 C3 DE1937464 C3 DE 1937464C3
- Authority
- DE
- Germany
- Prior art keywords
- frequency
- speech
- signal
- output
- detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 17
- 230000010355 oscillation Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 239000003990 capacitor Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 210000000214 mouth Anatomy 0.000 description 4
- 101710092886 Integrator complex subunit 3 Proteins 0.000 description 3
- 102100025254 Neurogenic locus notch homolog protein 4 Human genes 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 description 2
- 108050002021 Integrator complex subunit 2 Proteins 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung bezieht sich auf ein Sprachanalysiergerät nach dem Oberbegriff des Anspruches 1.
Untersucht man die Energieverteilung in Sprachspektren,
so finden sich in der Regel zu jedem Zeitpunkt eines Frequenz-Zeit-Schemas 1 bis 4 Energiekonzentrationen
oder Formanten. Diese entstehen in der Mund- und Nasenhöhle des Menschen bei der Lautbildung. Für
die Formanten sind die Ausbildung und das Volumen der Mundhöhle von den Stimmbändern bis zur Zunge
bestimmend. Je größer die Mundhöhle ist, um so geringer ist die Formantenfrequenz und umgekehrt.
Selbstverständlich bestehen aber von einem Menschen zum anderen Unterschiede in Ausbildung und
Volumen der Mundhöhle von den Stimmbändern bis zur Zunge. Das hat zur Folge, daß im Frequenzspektrum
auch bei gleichen Sprechlauten individuelle Unterschiede bezüglich der Formanten bestehen. Ungeachtet
dieser individuell bedingten Unterschiede in der Formantenfrequenzverteilung wird gleichwohl die
Wortbedeutung richtig erfaßt, weshalb davon auszugehen ist, daß die Beziehungen zwischen den Formanten
relativ konstant sind.
Für die Sprachanalyse ist es bekannt (US-PS 33 68 039), mit einer Frequenzwahlschaltung mit einer
Vielzahl benachbarte Frequenzbereiche durchlassenden Filtern zu arbeiten, deren Ausgänge mit einer
Formantende-ektorschaltung verbunden sind, die die Maxima im Frequenzspektrum des Eingangssignals
feststellt und in der Reihenfolge ihres Auftretens einer Speichermatrix zuführt.
Bekannte Sprachanalysiergeräte (US-PS 25 75 910) zerlegen ein Sprachlautsignal lediglich mit Hilfe einer
Vielzahl von bestimmte Frequenzbänder durchlassenden Filteranordnungen, deren Ausgangssignale je für
sich zur Speicherung in zeitlicher Aufeinanderfolge einer Speichermatrix zugeführt werden. Es erfolgt
jedoch keine ausreichende Berücksichtigung der individuell bedingten Unterschiede in der Formantenfrequenzverteilung.
Für die Frequenznormalisierung ist lediglich ein Grundsprachfrequenzdetektor vorgesehen,
von dem eine Gleichspannung abgeleitet wird, die in Abhängigkeit von der Schwankung der Grundsprachfrequenz
ihre Größe ändert.
Bei den bekannten Sprachanalysiergeräten besteht deshalb die Tendenz, daß das Frequenz-Zeit-Schema in
der Speicherrnatrix aufgrund der individuellen Lautbildungsunterschiede
von Person zu Person Unterschiede aufweist, die neben der Frequenzanalyse der Sprache
eine Sprachsinnerfassung erheblich erschweren.
Aufgabe der Erfindung ist es deshalb, ein Sprachanalysiergerät so weiterzubilden, daß eine Kodierung der
Beziehung zwischen Formantenfrequenz und Zeit auf eine Weise erfolgt, die unter Ausschaltung individueller
Sprachlautunterschiede eine Normalisierung zur Erleichterung der Sprachsinnerfassung erbringt.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Schaltungsanordnung gelöst.
Die Erfindung geht davon aus, daß zwischen den Formanten bestimmte konstante Beziehungen bestehen.
Das gilt unbeschadet der Tatsache, daß sich die von den einzelnen Sprechern artikulierten Sprachlaute in
ihrer Tonhöhenfrequenz voneinander unterscheiden. Dieser Umstand wird verwendet, um in Abhängigkeit
von den Schwankungen in der Tonhöhenfrequenz ein Signal zu erzeugen, wobei die Summe oder Differenz
aus diesem Signal und einem zu analysierenden Sprachlautsignal ermittelt und hierauf ein Frequenz-Zeit-Schema
in bezug auf das so verarbeitete Signal erstellt wird. Auf diesem Wege ist es möglich, individuell
bedingte Unterschiede aus dem vorerwähnten Frequenz-Zeit-Schema zu eliminieren und dieses zu
normalisieren. Die Sprachsinnerfassung ist damit
erheblich erleichtert. Auch sind Stimmanalysen mit hoher Geschwindigkeit möglich, wobei zusätzlich eine
Unterscheidung zwischen Vokal und Konsonant, insbesondere auch kurzen Konsonanten möglich gemacht
wird.
In der Zeichnung ist die Erfindung beispielsweise veranschaulicht, und zwar zeigt
F i g. 1 teils schematisch, teils als Biockschaltung eine
Ausführungsform eines Sprachanalysiergerätes,
Fig. 2a und 2b graphische Darstellungen der Kennlinien von Schaltelementen der Blockschaltung
nach Fig. 1,
Fig. 3 bis 10 Darstellungen der einzelnen Teile der Blockschaltung von Fig. 1,
Fig. 11 eine schematische Darstellung einer zweiten
Ausführungsform eines Sprachanalysiergerätes und
Fig. 12 eine besondere typische Schaltungsanordnung
F i g. 1 zeigt ein Mikrophon 1 zur Aufnrhme von
Schallwellen, die im Mikrophon 1 in ein elektrisches Signal umgewandelt werden. Dieses wird von einem
Verstärker 2 verstärkt, dessen Ausgangssignal einem Tiefpaßfilter 3, einem Spracheinsatzdetektor 4 und
einem Tonhöhendetektor 5 zugeführt wird. Der Spracheinsatzdetektor 4 Hefen bei Einsetzen eines
einlaufenden Sprache.gnals an seinen Ausgang ein
Impulssignal. Beim Auftreten dieses Impulssignals werden verschiedene Teile der Schaltung in Betrieb
genommen, auf die unten näher eingegangen wird.
Der Tonhöhendetektor 5 ermittelt die Tonhöhenfrequenz eines eingehenden Sprachsignals und liefert ein
Impulssignal mit ener Folgefrequenz fp, die gleich der Tonhöhenfrequenz ist. Dieses Impulssignal wird dem
einen der Eingangsanschlüsse eines Frequenzdifferenzdetektor 6 zugeleitet, nämlich dem Anschluß 7. Der
Frequenzdifferenzdetektor 6 liefert entsprechend einem Frequenzunterschied (fs— /"^zwischen einem über einen
anderen Anschluß 8 zugeführten Signal mit einer Bezugsfrequenz /1 und dem vorerwähnten Impulssignal
eine Ausgangsgleichspannung Vp. In der Praxis ist es leichter, eine der Ausgangsfrequenz fp entsprechende
Spannung Vp und eine der Bezugsfrequenz fs entsprechende
Spannung V5 miteinander zu vergleichen.
F i g. 2a zeigt die zwischen dem Frequenzunterschied (fp— 4/und der Ausgangsgleichspannung Vßbestehende
lineare Beziehung. Diese ist derart, daß sich die Ausgangsgleichspannung Vo mit steigendem Frequenzunterschied
erhöht. Die Ausgangsgleichspannung Vo wird einem freischwingenden Oszillator 9 zugeführt, der
hierauf ein Sinuswellensignal mit einer Frequenz Im
abzugeben vermag. Zwischen der vom freischwingenden Oszillator 9 abgegebenen Schwingungsfrequenz fM
und der von dem Frequenzdifferenzdetektor 6 abgegebenen Ausgangsgleichspannung Vb besteht eine lineare
Beziehung (Fig.2b). Mit anderen Worten, die Schwingungsfrequenz
ist /iwo bei einer Spannung Vo gleich Null,
sie erhöht sich mit einer in positiver Richtung ansteigender Spannung Vo, und sie verringert sich mit
einer in negativer Richtung abfallender Spannung Vd.
Das eingehende Sprachsignal, das zum Eliminieren höherer Frequenzkomponenten als der zur Sprachanalyse
erforderlichen durch das Tiefpaßfilter 3 gefiltert ist, wird dem einen der Eingangsanschlüsse eines Frequenzwandlers
10 zugeführt, dem über den anderen Anschluß der Ausgang des freischwingenden Oszillators 9
zugeleitet wird. Ist nun die Frequenz des gefilierten Sprachsignals /Ί, so wird am Ausgangsanschluß des
Frequenzwandlers, nämlich eines noch zu beschreibenden Ringmodulators, ein umgewandeltes Signal mit
einer Frequenz (fM±fv)erhalten. Dieses Signal mit einer
Frequenz (fM±fy) wird einer aus einer Vielzahl von
Filtern aufgebauten Frequenzwahlschaltung 11 zuges führ L Bevorzugterweise wird die höhere Frequenz
(fsi+fv) zur Erhöhung der Anaiysiergeschwindigkeit
verwendet, die eine Verringerung der Zeitkonstanten nachfolgender Schaltelemente wie beispielweise Integratoren
ermöglicht. Jedes der in der erwähnten
ίο Frequenzwahlschaltung 11 vorgesehenen Filter weist
eine solche Bandbreite auf, daß ein vorbestirrmtes Frequenzband in einem Frequenzbereich von (7md+200)
Hz bis f/jwo + 5000) Hz durchgelassen werden kann.
Die Frequenzwahlschaltung 11 ist so aufgebaut, daß
eine eingehende Sprechfrequenz in eine Vielzahl von Bändern unterteilt wird, die ihrerseits einer Formantendetektorschaltung
12 zugeführt werden, die geeignet ist, einen Formanten in den unterteilten Bandsignalen
festzustellen. Der Formant wird in einer Speichermatrix 13 gespeichert, die in zeitlicher Zuordnung vom Beginn
des Sprachlauteinsatzes an als Informationsspeicher dient. Zu diesem Zeitpunkt wird durch den Ausgang des
Spracheinsatzdetektors 4 eine Matrixtreiberschaltung 14 zum Durchsteuern der Speichermatrix 13 in Betrieb
genommen, so daß die »Schreibw-Spalten der Speichermatrix
13 ir vorbestimmten Zeitabständen vom Zeitpunkt des Spracheinsatzes festgelegt werden. So
wird ein kurz nach dem Einsetzen des Sprechens auftretender Formant in denjenigen Spalten der
Speichermatrix 13 gespeichert, die in der Betrachtungsrichtung der Figur am weitesten links liegt, und ein in
einem hierauf folgenden Zeitintervall auftretender Formant in der zweiten Spalte gespeichert. Auf diese
Weise kann in jedem Zeitintervall in der Speichermatrix 13 ein Formant gespeichert werden. Tritt in einem
bestimmten Band in einem festgelegten Zeitintervall eine Energiekonzentration auf, so wird in die Matrixelemente
der diesem Band entsprechenden Zeile eine »1« eingeschrieben, und falls in den anderen Bändern keine
Energieballung vorhanden ist, wird in alle anderen Elemente eine »0« eingeschrieben.
Es soll nun auf die einzelnen Schaltmittel näher eingegangen werden, die in der Anordnung der F i g. 1
vorgesehen sind.
F i g. 3 zeigt den Tonhöhendetektor 5. Ein Sprachlaut wird mittels des Mikrophons 1 in ein elektrisches Signal
umgewandelt, das hierauf in dem Verstärker 2 verstärkt und dann durch ein Tiefpaßfilter 51 mit einer oberen
Frequenz von 300 Hz gefiltert wird. Der Ausgang des
so Tiefpaßfilters 51 wird durch einen Intergrator 52 integriert, so daß ein die Tonhöhenfrequenz aufweisendes
Signal erzeugt wird, das mittels einer Schmitt-Triggerschaltung 53 wiederum in ein Rechtecksignal mit
einer Folgefrequenz, die gleich der Tonhöhenfrequenz
xs ist, umgewandelt wird. Das resultierende Rechtecksignal
wird über eine Torschaltung 54, die in ihrer Torwirkung durch ein Steuersignal gesteuert ist, einem
Zähler 55 zugeführt, der die Tonhöhenfrequenz des Eingangssignals auszählt. Das vom Zähler 55 ermittelte
do Ergebnis wird durch einen Digital-Analog-Umsetzer 56
in ein Analogsignal Vp umgewandelt, das der Tonhöhenfrequenz
des Eingangssignals proportional ist.
Die Speichermatrix 13 besteht im allgemeinen aus bistabilen Schaltungen oder aus Magnetkernspeichern.
fts F i g. 4 zeigt den Frequenzdifferenzdetektor 6, der die
Frequenzdifferenz zwischen zwei Eingangssignalen festzustellen vermag, nämlich einen Unterschied zwischen
der Tonhöhenfreauenz eines eingehenden
Sprachsignals und der Frequenz eines Sprachbezugssignals,
und der hierauf eine diesem Unterschied proportionale Gleichspannung erzeugt und hält. An den
einen Ein.gangsanschluß 14-14 eines, Differenzverstärkers
61 wird die vorerwähnte, aus dem Tonhöhendetektor 5 herrührende Gleichspannung Vp angelegt, die der
Tonhöhenfrequenz fp proportional ist, während an den
anderen Eingangsanschluß 15-15 über einen Umschalter eine Gleichspannung angelegt wird, deren Pegel der
Tonhöhenbezugsfrequenz für die Laute »a«, »e«, »i«, »o« oder »u« proportional ist. Der Differenzverstärker
ist im übrigen so aufgebaut, daß er keinen Ausgang liefert, falls die an seine beiden Eingangsanschlüsse
angelegten Gleichspannungen einander gleich sind.
Artikuliert ein Sprecher den Laut »a«, der auch einer der japanischen Vokale ist, während an den unteren
Eingangsanschluß des Differenzverstärkers 61 über den
Umschalter eine dem Standardvokal »a« entsprechende Gleichspannung angelegt ist, so läßt sich am Ausgang
des Differenzverstärkers 61 eine dem Unterschied zwischen der Tonhöhenbezugsfrequenz und der Tonhöhenfrequenz
des Sprechers entsprechende Spannung ei abnehmen. Diese Spannung ei wird durch einen
Analog-Digital-Umsetzei 62 in ein Digitalsignal umgewandelt
und dann in einem Speicherkreis 63 gespeichert. Durch Umschalten des Schalters werden hierauf
die Unterschiede zwischen den Tonhöhenbezugsfrequenzen für »e«, »i«, »o« und »u« und den betreffenden
Tonhöhenfrequenzen des Sprechers ermittelt und die jeweils diesen Unterschieden entsprechenden Spannungen
e2, ei, u bzw. es in der oben beschriebenen Weise in
dem Speicherkreis 63 gespeichert. Eine Logikschaltung 64 liefert entsprechend dem arithmetischen Mittel der
aus dem Speicherkreis 63 verfügbaren Ausgangsspannungen gemäß
ein Digitalsignal. Dieses Digitalsigna! wird mit Hilfe des Digital-ANalog-Umsetzers 65 in ein Analogsignal wie
beispielsweise eine Gleichspannung Vd umgewandelt
und festgehalten.
Fig.5 zeigt den freischwingenden Oszillator 9, dessen Ausgangsfrequenz mit der über den Eingangsanschluß
91 angelegten Ausgangsspannung V0 des
Frequenzdifferenzdetektors 6 veränderlich ist. Hierbei ist im einzelnen eine kapazitätsvariable Diode VC mit
einem Kondensator Q parallel geschaltet und bildet zusammen mit einem Kondensator C2 und einer Spule L
einen Serienresonanzkreis. Einem Transistor Q wird über Widerstände /?i und R2 eine Basisvorspannung
erteilt, und eine durch die Kondensatoren Q und C2, die
kapazitätsvariable Diode VCund die Spule L bestimmte
Serienresonanzspannung wird über einen Kondensator C3 zur Basis rückgekoppelt, so daß eine ungedämpfte
Schwingung entsteht Das Potential an der Kathode der kapazitätsvariablen Diode erhöht sich beim Anlegen
der Spannung Vo an den Eingangsanschluß 91, wodurch sich die Kapazität der Diode VCTjei einem 'Ansteigen'
der Spannung Vb verringert Die Resonanzfrequenz des vorerwähnten Serienresonanzkreises erhöht sich somit,
so daB sich also auch die Schwingungsfrequenz erhöht
Verringert sich hingegen die Spannung Va so verringert sich auch die Schwingungsfrequenz. Der
Schwingungsausgang kann am Kollektor des Transistors Q abgenommen werden.
Fig.6 zeigt den Frequenzwandler 10, der beispielsweise
als Ringmodulator ausgebildet sein kann, dem der Ausgang, d.h. die Schwingungsfreqiienz fu des freischwingendsen
Oszillators 9 über die Anschlüsse 101 und 102 zugeführt wird, ein Sprachsignal (die Frequenz
/■,) dagegen über die Anschlüsse 103 und 104, so daß an
den Ausgangsanschlüssen 105 und 106 Signale (Τμ±Λ>
s erscheinen. Von hier wird das Summensignal (fa+ fv) in
der vorbeschriebenen Weise an die nachfolgenden Stufen weitergeleitet. Für den Fachmann bedarf es
keiner weiteren Erläuterungen, daß statt des Ringmodulators auch ein Amplitudenmodulator vorgesehen sein
kann.
Fig. 7 zeigt eine Darstellung zur Erläuterung der
Ausgangscharakteristik an den Ausgangsanschlüssen 105 und 106. Man erkennt das Sprechfrequenzband 107
eines Sprechers, dessen Tonhöhenfrequenz fP\ sei, sowie
das Sprechfrequenzband 108 eines Sprechers, dessen Tonhöhenfrequenz (P7 sei, und das Ausgangsfrequenzband
109 für den Fall, daß über die Anschlüsse 103 unc 104 ein innerhalb des Sprechfrequenzbandes 107
liegendes Sprachsignal zugeführt wird, wobei die vor der Tonhöhenfrequenz fp, abhängige Ausgangsfrequens
/mi des freischwingenden Oszillators 9 zur Verschiebung
in den hohen Frequenzbereich über die Anschlüsse 101 und 102 zugeführt wird und die Tonhöhenfrequenz eine
Änderung zu fPu erführt. Das Ausgangsfrequenzbanc
110 gilt für den Fall, daß über die Anschlüsse 103 und 104
ein innerhalb des Sprechfrequenzbandes 108 liegende; Sprachsignal zugeführt wird, wobei die Ausgangsfre
quenz ίκη des freischwingenden Oszillators 9 zugeleite
und die Tonhöhenfrequenz zu fP2, verschoben wird. Ei
}o gelten also die folgenden Beziehungen:
f f /
und
Es bereitet keine Schwierigkeiten, den freischwingen
■15 den Oszillator 9 so aufzubauen, daß dessen Ausgangs
frequenzen 4n und (m2 in der Weise mit de
Tonhöhenfrequenz veränderlich sind, daß der Bedin
gung
r f
'pV — IpT
Genüge geleistet wird. Sieht man einen Oszillator 9 vor der dieser Anforderung gerecht wird, so ist irr
wesentlichen eine Angleichung der Tonhöhenfrequem unabhängig von der Stimmeigenart des jeweiliger
Sprechers möglich. Es wird also das Sprachsigna frequenzmäßig korrigiert und normalisiert.
F i g. 8 zeigt die Anordnung der Frequenzwahlschal tung 11 und der Formantendetektorschaltung 12. Das ir
dem Frequenzwandler 10 normalisierte Sprachsigna wird zunächst über einen Anschluß 111 der Frequenz
wahlschaltung 11 zugeführt Die Frequenzwahlschal tung 11 ist aus einer Vielzahl von Bandpaßfiltern BPF1
BPF2, BPF3 ... aufgebaut, durch die das Sprachsigna auf die betreffenden Durchlaßbereiche aufgeteilt wird
Die Ausgänge der einzelnen Bandfilter BPFi, BPFI BPF3 ... werden Emitterfolgeschaltungen EFi, EFI
EF3 ... des Formatendetektors 12 zugeleitet Dh Ausgänge* der" EmitterfölgescHälttihgen "EF\~tF7
EF3 ... werden Integratoren INTl, INT2, INT3 ..
zugeführt, um in diesen integriert zu werden. Dei
Integrator INTi ist mit der Emitterfolgeschaltung EF]
über einen Transformator T gekoppelt der dei Gleichstrompegel im Ausgang des Emitterfolger
sperrt Ein Ober die Sekundärspule des Transformator T induziertes Signal wird durch eine Diode L
gleichgerichtet und dann durch eine aus einen Kondensator und einem Widerstand bestehende Paral
Ielschaltung integriert Die übrigen Integratoren INTl
INT3 ... haben den gleichen Aufbau. Weiterhin werden die Ausgänge der Integratoren INTi, INT2, INT3 ...
jeweils den betreffenden Pufferverstärkern BX, B2, B 3
... zugeführt, und die Ausgänge C\, ^, es ... der
Pufferverstärker Bi, Bl, B3 ... den betreffenden
Differenzverstärkern DA 1, DA 2, DA 3 ... Jeder dieser
Differenzverstärker DA i, DA 2. DA 3 ... verstärkt die
Spannungs-Differenz zwischen den einander benachbarten Ausgängen eu &, d ... der Pufferverstärker B 1,
B2, B3 ... So werden beispielsweise die Ausgänge ei ίο
und e2 der Pufferverstärker Bi und B2 dem
Differenzverstärker DA 1 zugeführt, so daß die Differenz zwischen diesen beiden Ausgängen (ei - e^)
verstärkt wird. Der Ausgang des Differenzverstärkers DA 1 wird einem Oberpegeldiskriminator ULDi und is
einem Unterpegeldiskriminator LLD 1 zugeführt. In ähnlicher Weise werden die Differenzspannungen
(ft—ej). (ei-e*)... jeweils durch die betreffenden der
übrigen Differenzverstärker DA 2, DA 3 ... verstärkt und die Ausgänge dieser Differenzverstärker DA 2,
DA 3 ... werden den Oberpegel- und den Unterpegeldiskriminatoren
ULD2 und LI.D2 bzw. ULD3 und LLD3 ... zugeführt. Die Oberpegeldiskriminatoren
ULDi, ULD2, ULD3 ... sprechen auf positive Ausgangspegel der vorgeschalteten Differenzverstärker
DA 1, DA 2, DA 3 ... an und erzeugen Rechtecksignale, deren Impulsbreite jeweils gleich der Zeitspanne
ist, in welcher der Ausgangspegel positiv ist. Die Unterpegeldiskriminatoren LLDl, LLD2, LLD3 ...
sprechen demgegenüber auf negative Ausgangspegel der Differenzverstärker DA 1, DA 2, DA3 ... an und
erzeugen Rechtecksignale, deren Impulsbreite jeweils gleich der Zeitspanne ist, in welcher der Ausgangspegel
negativ ist. Mit anderen Worten, jeder der Oberpegeldiskriminatoren vermag einen Ausgang zu liefern, wenn
und jeder der Unterpegeldiskriminatoren liefert einen Ausgang, wenn
Der Ausgang des Oberpegeldiskriminators ULD1 wird unverändert als Formantenausgang entnommen.
Die Ausgänge des Unterpegeldiskriminators LLD I und des Oberpegeldiskriminators ULD 2 werden einer
Nicht-Und-Schaltung NG 1 zugeführt und die Ausgänge
des Unterpegeldiskriminators LLD 2 und des Oberpegeldiskriminators
und des Oberpegeldiskriminators LfLD 3 einer Nicht-Und-Schaltung NG 2. Anders
ausgedrückt, der Ausgangsanschluß eines auf einen positiven Pegelwert des Ausgangs eines Differenzverstärkers
ansprechenden Oberpegeldiskriminators und der Ausgangsanschluß eines auf einen negativen
Pegelwert des Ausgangs eines Differenzverstärkers ansprechenden Unterpegeldiskriminators sind mit einer
gemeinsamen Nicht-Und-Schaltung verbunden.
Nimmt man an, daß beispielsweise im DurchiaBbereich
des Bandpaßfilters BPF2 eine Energiespitze vorhanden ist, so gelten zwischen den Ausgängen ei, es
und e3 der Pufferverstärker Al, B2 und B3 die
folgenden Beziehungen:
Der Differenzverstärker DA 1 liefert mithin einen negativen Ausgang und der Differenzverstärker DA 2
liefert einen positiven Ausgang. Auf den Ausgang des Differenzverstärkers DA 1 spricht daher der Unterpegeldiskriminator LLD i an, auf den Ausgang des
Differenzverstärkers DA 2 dagegen der Oberpegeldiskriminator ULD2, so daß der Ausgang der Nicht-Und-Schaltung
NC 1 verändert wird und erkennen läßt, daß in dem Band des Bandfilters BPF2 eine Energiespitze
vorhanden ist. Dieses Signal, welches das Vorhandensein eines Formanten anzeigt, wird mit einem Zeitsignal
in Koinzidenz gebracht, das als Ausgang der Matrixtreiberschaltung mit dem nachstehend beschriebenen
Aufbau erhalten wird, und wird hierauf in ein vorbestimmtes der die Speichermatrix 13 bildenden
Matrizenelemente eingeschrieben und darin gespeichert.
Fig. 9 ist die Matrixtreiberschaltung 14 dargestellt,
bei der eine einzige bistabile Schaltung 135 mit monostabilen Schaltungen MSi, MS2, MS3 ... in
Reihe geschaltet ist, die jeweils den Spalten der Speichermatrix 13 entsprechen. Die bistabile Schaltung
BS wird durch den Ausgang des Spracheinsatzdetektors 4 zum Durchsteuern der folgenden monostabilen
Schaltung MSi getriggert. Diese monostabile Schaltung
liefert für eine vorbestimmte Zeitspanne, deren Dauer von den Leitungskonstanten abhängt, einen
Ausgang. Die monostabile Schaltung MS2 wird durch
die Hinterflanke eines aus der vorgeschalteten monostabilen Schaltung MS i herrührenden Ausgangsimpulses
getriggert. In dieser Weise können die monostabilen Schaltungen MS2, MS3 ... den Betriebsablauf in der
monostabilen Schaltung MS1 nachvollziehen, und der
Schreibvorgang erfolgt bei Betätigung der monostabilen Schaltungen MSl, MS2, MS3 ... jeweils in der
betreffenden Spalte der Matrixschaltung 13. Fig. 10 gibt die resultierenden Wellenformen wieder, wobei
ersichtlich ist, daß die Arbeitszeiten /1, f2, t3 ... der
monostabilen Schaltungen MSi, MS2, MS3 ... so gewählt sind, daß sie außer einer Wortanalyse auch eine
Wortsinnanalyse ermöglichen. Es läßt sich ohne weiteres eine Anordnung vorsehen, bei der die Gewähr
gegeben ist, daß der Rückstellimpuls zum Rückstellen der bistabilen Schaltung BS zugeführt wird, nachdem
das Sprachsignal erloschen ist
Bei der oben beschriebenen Anordnung wird beispielsweise ein während der Arbeitszeit der monostabilen
Schaltung MSi eingehenden Format in ein Matrixelement eingeschrieben, das in die erste Spalte
der Speichermatrix 13 eingegliedert ist und das demjenigen Frequenzband entspricht, in dem der
Formant auftritt. Ähnliche Betriebsvorgänge erfolgen auch in der zweiten und in den folgenden Spalten der
Speichermatrix 13. In der Speichermatrix 13 entsteht demgemäß ein Schema zeitlicher Zuordnung der durch
das Sprachsignal repräsentierenden Information.
Durch Verschieben der Sprechfrequenz eines Sprechers in der vorbeschriebenen Weise in bezug auf die
Tonhöhenfrequenz kann das Frequenz-Zeit-Schema ohne Schwierigkeiten normalisiert werden. Durch ein
Verschieben der Sprechfrequenz in einen höheren Frequenzbereich können die Zeitkonstanten der einzelnen Filter und Integratoren verringert werden, so daß
die Sprachanalyse mit hoher Geschwindigkeit erfolgen kann.
Bei dem oben beschriebenen Gerät können allerdings noch Schwierigkeiten auftauchen, wenn ein stimmloser
Laut, beispielsweise ein Konsonant, analysiert werden
soll, wenngleich das Gerät bei der Analyse eines stimmhaften Lauts, beispielsweise eines Vokals, einwandfrei arbeitet Es ist also erforderlich, eine
Vorrichtung zu schaffen, die geeignet ist, auch
stimmlose Laute mit hoher Geschwindigkeit und mit hoher Präzision zu analysieren.
F i g. 11 zeigt den Aufbau eines Gerätes, das auch die
Analyse stimmloser Laute ermöglicht, wobei dessen Hauptteil mit der Anordnung der F i g. 1 übereinstimmt.
Diejenigen Schaltmittel, deren Wirkweise die gleiche ist wie die der in Fig. 1 dargestellten, sind daher auch mit
den gleichen Bezugszahlen wie dort versehen, und es braucht darauf nicht näher eingegangen zu werden.
Einer Schaltung 15 zur Unterscheidung stimmhafter und stimmloser Laute wird das Ausgangssignal des Frequenzwandlers
10 zugeführt. Diese Schaltung 15 zur Unterscheidung stimmhaft/stimmlos ist so aufgebaut,
daß durch einen Vergleich der Energie des unteren Frequenzbandes im Ausgangssignal des Frequenzwand- ι ^
lers 10 mit der Energie in dessen oberen Frequenzband jederzeit eine Unterscheidung möglich ist, ob es sich bei
dem Sprachlaut um einen stimmhaften oder stimmlosen Laut handelt. Die zum Speichern eines Frequenz-Zeit-Schemas
dienende Speichermatrix 13 weist unter dem Matrixteil 13/4, das in der im obigen unter Bezugnahme
auf F i g. 1 beschriebenen Weise zum Speichern eines im Sprechfrequenzbereich auftretenden Formanten dient,
zusätzlich noch Matrixschaltungsteile 13ßund 13Cmit
gemeinsamen Zeitspalten auf. Der Ausgang der Schaltung 15 zum Unterscheiden stimmhaft/stimmlos
wird den Matrixschaltungsteilen 13ßund 13Czugeführt,
so daß das Vorhandensein oder die Abwesenheit eines stimmhaften Lauts beispielsweise in die Schaltung 13ß
eingeschrieben wird, Vorhandensein oder Abwesenheit ^o
eines stimmlosen Lauts dagegen in die Schaltung 13C Das heißt mit anderen Worten, in die betreffenden
Elemente der Matrixschaltung 13ß wird bei Eingang eines Signals, welches das Vorhandensein eines
stimmhaften Lauts anzeigt, »1« eingeschrieben, in Abwesenheit eines solchen Signals dagegen »0«.
Dementsprechend wird in die Matrixschaltung 13Cbei Auftreten eines stimmlosen Lauts »1« eingeschrieben,
beim Ausbleiben eines stimmlosen Lauts hingegen »0«. Aus den in den Matrixschaltungsteilen 13ß und 13C
gespeicherten Daten läßt sich also das Vorhandensein oder die Abwesenheit eines stimmhaften oder aber
stimmlosen Lauts bestimmen. Auch die Reihenfolge des Auftretens wird gespeichert.
Fig. 12 zeigt die Anordnung der Schaltung 15 zur Unterscheidung stimmhafter und stimmloser Laute, in
der das aus dem Frequenzwandler 10 verfügbare normalisierte Ausgangssignal zunächst mittels eines
Bandpaßfilters BPFW mit einem Durchlaßbereich von
(Afo + 200) Hz bis (fMa+ 1500) Hz und eines Bandpaßfilters
BPF12 mit einem Durchlaßbereich von fAn>
+ 2000) Hz bis fAio + 7000) Hz ausgefiltert wird. Der Grund
hierfür ist folgender: Bei einem stimmhaften Laut ist die Energie in der Hauptsache in einem unteren Frequenzbereich
des Sprechffequenzbandes konzentriert, während bei einem stimmlosen Laut eine Energiekonzentration
in einem höheren Frequenzbereich zu konstatieren ist. Die Ausgänge der Bandfilter BPFW und BPF12
werden durch Integratoren INTW bzw. INT\2 integriert und die Integratiorisausgänge en und en
werden einem Differenzverstärker DA 11 zugeführt, in
dem die Differenz (en — e^) der Eingänge verstärkt
wird und der einen positiven Ausgang liefert falls
sowie einem negativen Ausgang falls
Liefert also der Oberpegeldiskriminator ULDW einen Ausgang, so ist der Ausgang des Differenzverstärkers
DA 11 positiv, woran ersichtlich wird, daß es sich
bei dem eingegangenen Sprachlaut um einen stimmhaften Laut handelt. Liefert andererseits der Unterpegeldiskriminator
LLDW einen Ausgang, so zeigt dies das Eingehen eines stimmlosen Lauts an. Geht z. B. ein Wort
»san« ein (der japanische Begriff für »drei«), so erzeugt zunächst der Unterpegeldiskriminator LLDW einen
Ausgang für den Reibelaut »s«, wonach der Oberpegeldiskriminator ULD11 einen Ausgang für den Selbstlaut
»a« liefert. Für »n« erscheint kein Ausgang, da die Eingänge des Difierenzverstärkers DA 11 in diesem Fall
einander gleich sind, so daß über die Stimmhaftigkeit oder Stimmlosigkeit des eingehenden Lauts nichts
ausgesagt wird. In die Elemente des Matrizenschaltungsteils 13ß, in denen das Auftreten stimmhafter
Laute in der Eingangsreihenfolge verzeichnet wird, wird also »010« eingeschrieben, während in die Elemente des
Matrizenschaltungsteils 13C, die in ähnlicher Weise das Auftreten stimmloser Laute festhalten, »100« eingeschrieben
wird. Im Fall des Wortes »itschi« (dem japanischen Begriff für »eins« oder »ein«) speichert das
Matrixschaltungstei! ΠF, zunächst den Selbstlaut »i«,
anschließend wird der Reibelaut »tsch« in dem Matrixschaltungsteil 13C gespeichert und schließlich
der letzte Selbstlaut »i« in dem Matrixschaltungsteil 13Ä Das Schema des Matrixschaltungsteils 13ß wäre
demgemäß »101« zu lesen, das des Matrixschaltungsteils 13Chingegen»010«.
Aus dem oben gesagten ergibt sich also, daß bei der letztbeschriebenen Anordnung Vorkehrungen getroffen
sind, um den beim Sprechen auftretenden Formentenübergang unabhängig von der Art der individuellen
Stimmunterschiede zu normalisieren und das Zeitschema in der Speichermatrix zu speichern, und zwar in
Kombination mit einer Vorrichtung zum Unterscheiden stimmhafter und stimmloser Laute. Mit einer solchen
Anordnung lassen sich daher Schemata aufstellen, welche die stimmtypischen zeitlichen Varianten vorwegnehmen,
was für die Sprachsinnerfassung von großer Bedeutung ist. Es hat sich gezeigt, daß die so
gebildete Kodierung zur Sprachsinnerfassung geeignet ist, da ein Konsonant, insbesondere auch ein kurzer
Konsonant, im Unterschied zu dem bei der bekannten Methode benutzten Schema einwandfrei erkannt
werden kann.
Hierzu .i Blatt Zeichnungen
Claims (6)
1. Mit einer zur Ausschaltung individueller Sprachunterschiede erfolgenden Normierung der
Frequenz-Zeit-Schemata von Sprachsignalen arbeitendes Sprachanalysiergerät, bei dem das Eingangssignal
einer ein bestimmtes Frequenzband durchlassenden Filteranordnung, einem Spracheinsatzdetektor
und einem Tonhöhendetektor zugeführt wird, gekennzeichnet durch einen Frequenzdifferenzdetektor
(6), der die Differenz zwischen der von dem Tonhöhendeiektor abgegebenen, der individuellen
Tonhöhe des Sprachsignals entsprechenden Ausgangsfrequenz (fp)und einer einer Normtonhöhe
entsprechenden Bezugsfrequenz (fs) festeilt und ein der Frequenzdifferenz entsprechendes Ausgangssignal
abgibt und einem Oszillator (9) zur Erzeugung einer dem Ausgangssignal des Frequenzdifferenzdetektors
proportionalen Frequenz (7m) zuführ·, durch die das Frequenzband des Eingangssprachsignals
(fv) in einem Frequenzwandler (10) in ein Signal (fM±fv) umgewandelt und in an sich bekannter
Weise der Sprachanalyse unterworfen wird.
2. Vorrichtung zur Sprachanalyse nach Anspruch 1, gekennzeichnet durch eine Schaltung (15) zum
Unterteilen des Ausgangssignals des Frequenzwandlers (10) in je eine Signalkomponente in einen
im Stimmspektrum enthaltenen unteren und oberen Frequenzbereich, in der durch eine Schaltungsan-Ordnung
{DA 11, ULD it, LLD 11) zum Vergleichen der Energiebeträge der beiden Signalkompcnenten
die Unterscheidung zwischen einem stimmhaften Laut und einem stimmlosen Laut möglich und das
Ergebnis des Unterscheidungsvorganges in zeitli- ^s eher Zuordnung in der Speichermatrix (13) speicherbar
ist.
3. Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß der zum Erzeugen
eines dem Frequenzunterschied zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal
entsprechenden Signals vorgesehene Oszillator (9) als LC-Oszillator ausgebildet ist, der ein
Induktivitätselement (L) und ein kapazitätsvariables Element (VC) aufweist, daß zur Änderung der
Schwingungsfrequenz durch die Ausgangsspannung (Vq) des Frequenzdifferenzdetektors (6) steuerbar
ist.
4. Vorrichtung zur Sprachanalyse nach Anspruch
1, dadurch gekennzeichnet, daß der Frequenzdifferen^detektor
(6) einen Differenzverstärker (61) zum Vergleichen der Amplituden der den Tonhöhenfrequenzen
des eingehenden Sprachsignals und des Sprachbezugssignals entsprechenden Analogsignale
aufweist.
5. Vorrichtung für Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß der Frequenzwandler
(10) als Ringmodulator ausgebildet ist.
6. Vorrichtung zur Sprachanalyse nach Anspruch
1, dadurch gekennzeichnet, daß der Frequenzwand- (>o
ler(10) als Frequenzmodulator ausgebildet ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5289768 | 1968-07-24 | ||
JP4342169 | 1969-05-27 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1937464A1 DE1937464A1 (de) | 1971-02-18 |
DE1937464B2 DE1937464B2 (de) | 1977-09-22 |
DE1937464C3 true DE1937464C3 (de) | 1978-05-18 |
Family
ID=26383176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1937464A Expired DE1937464C3 (de) | 1968-07-24 | 1969-07-23 | Sprachanalysiergerät |
Country Status (5)
Country | Link |
---|---|
US (1) | US3592969A (de) |
DE (1) | DE1937464C3 (de) |
FR (1) | FR2014696A1 (de) |
GB (1) | GB1261385A (de) |
NL (1) | NL6911293A (de) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3732405A (en) * | 1971-08-11 | 1973-05-08 | Nasa | Apparatus for statistical time-series analysis of electrical signals |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US3855418A (en) * | 1972-12-01 | 1974-12-17 | F Fuller | Method and apparatus for phonation analysis leading to valid truth/lie decisions by vibratto component assessment |
US3855416A (en) * | 1972-12-01 | 1974-12-17 | F Fuller | Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment |
JPS50155105A (de) * | 1974-06-04 | 1975-12-15 | ||
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
US4107460A (en) * | 1976-12-06 | 1978-08-15 | Threshold Technology, Inc. | Apparatus for recognizing words from among continuous speech |
US4586191A (en) * | 1981-08-19 | 1986-04-29 | Sanyo Electric Co., Ltd. | Sound signal processing apparatus |
FR2515851A1 (fr) * | 1981-10-29 | 1983-05-06 | Camion Jean | Multi-capteur instantane de frequences, transformateur analogique-digital de la voix humaine en vue de l'interface homme/machine par le langage |
JPS6024597A (ja) * | 1983-07-21 | 1985-02-07 | 日本電気株式会社 | 音声登録方式 |
US6577998B1 (en) * | 1998-09-01 | 2003-06-10 | Image Link Co., Ltd | Systems and methods for communicating through computer animated images |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3384839A (en) * | 1965-09-24 | 1968-05-21 | Bell Telephone Labor Inc | Pulse code modulator including a multifrequency oscillator |
NL151593B (nl) * | 1966-11-22 | 1976-11-15 | Philips Nv | Stelsel voor signaaloverdracht met behulp van pulsdeltamodulatie. |
-
1969
- 1969-07-09 GB GB34692/69A patent/GB1261385A/en not_active Expired
- 1969-07-22 US US843573A patent/US3592969A/en not_active Expired - Lifetime
- 1969-07-23 DE DE1937464A patent/DE1937464C3/de not_active Expired
- 1969-07-23 FR FR6925110A patent/FR2014696A1/fr not_active Withdrawn
- 1969-07-23 NL NL6911293A patent/NL6911293A/xx unknown
Also Published As
Publication number | Publication date |
---|---|
DE1937464B2 (de) | 1977-09-22 |
FR2014696A1 (de) | 1970-04-17 |
US3592969A (en) | 1971-07-13 |
NL6911293A (de) | 1970-01-27 |
GB1261385A (en) | 1972-01-26 |
DE1937464A1 (de) | 1971-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE1937464C3 (de) | Sprachanalysiergerät | |
DE1547032A1 (de) | Einrichtung zum Identifizieren einer Person | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE2911854C2 (de) | Elektronische Uhr mit akustischer Zeitansage | |
DE2805478C2 (de) | Schaltungsanordnung zur Diskriminierung von Sprachsignalen | |
DE2737467C2 (de) | Fernsteueranordnung | |
DE1269167B (de) | Vorrichtung und Verfahren zur Umwandlung eines analogen Signals in eine numerische Information unter Benutzung einer Speichereinrichtung | |
DE2802867C2 (de) | Fernsteueranordnung | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE2431458C2 (de) | Verfahren und Anordnung zur automatischen Sprechererkennung | |
DE3882364T2 (de) | Verfahren und gerät zum lesen von zeichen. | |
DE1202517B (de) | Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen | |
DE1189745B (de) | Verfahren zum Identifizieren von Schallereignissen | |
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
DE2853617A1 (de) | Einrichtung zum abtasten einer signalfolge | |
DE1772633A1 (de) | Verfahren zur Spracherkennung | |
DE2334459C3 (de) | Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung | |
DE2019280C3 (de) | Elektrische Schaltungsanordnung zur Sprachsignalanalyse | |
DE2739609A1 (de) | Verfahren und vorrichtung zur schulung und umschulung von weitgehend tauben | |
DE1920716C3 (de) | Frequenzdiskriminator | |
DE1940082A1 (de) | Verfahren zum Erkennen von Sprachmerkmalen und deren Aufzeichung mittels einer elektrisch gesteuerten Schreibmaschine | |
DE2302064C3 (de) | Schaltungsanordnung zur Erzeugung einer harmonischen, ein schnelles Einschwingverhalten aufweisenden Schwingung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |