DE1937464C3 - Sprachanalysiergerät - Google Patents

Sprachanalysiergerät

Info

Publication number
DE1937464C3
DE1937464C3 DE1937464A DE1937464A DE1937464C3 DE 1937464 C3 DE1937464 C3 DE 1937464C3 DE 1937464 A DE1937464 A DE 1937464A DE 1937464 A DE1937464 A DE 1937464A DE 1937464 C3 DE1937464 C3 DE 1937464C3
Authority
DE
Germany
Prior art keywords
frequency
speech
signal
output
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE1937464A
Other languages
English (en)
Other versions
DE1937464B2 (de
DE1937464A1 (de
Inventor
Tomio Yoshida
Hirokazu Yoshino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE1937464A1 publication Critical patent/DE1937464A1/de
Publication of DE1937464B2 publication Critical patent/DE1937464B2/de
Application granted granted Critical
Publication of DE1937464C3 publication Critical patent/DE1937464C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

Die Erfindung bezieht sich auf ein Sprachanalysiergerät nach dem Oberbegriff des Anspruches 1.
Untersucht man die Energieverteilung in Sprachspektren, so finden sich in der Regel zu jedem Zeitpunkt eines Frequenz-Zeit-Schemas 1 bis 4 Energiekonzentrationen oder Formanten. Diese entstehen in der Mund- und Nasenhöhle des Menschen bei der Lautbildung. Für die Formanten sind die Ausbildung und das Volumen der Mundhöhle von den Stimmbändern bis zur Zunge bestimmend. Je größer die Mundhöhle ist, um so geringer ist die Formantenfrequenz und umgekehrt.
Selbstverständlich bestehen aber von einem Menschen zum anderen Unterschiede in Ausbildung und Volumen der Mundhöhle von den Stimmbändern bis zur Zunge. Das hat zur Folge, daß im Frequenzspektrum auch bei gleichen Sprechlauten individuelle Unterschiede bezüglich der Formanten bestehen. Ungeachtet dieser individuell bedingten Unterschiede in der Formantenfrequenzverteilung wird gleichwohl die Wortbedeutung richtig erfaßt, weshalb davon auszugehen ist, daß die Beziehungen zwischen den Formanten relativ konstant sind.
Für die Sprachanalyse ist es bekannt (US-PS 33 68 039), mit einer Frequenzwahlschaltung mit einer Vielzahl benachbarte Frequenzbereiche durchlassenden Filtern zu arbeiten, deren Ausgänge mit einer Formantende-ektorschaltung verbunden sind, die die Maxima im Frequenzspektrum des Eingangssignals feststellt und in der Reihenfolge ihres Auftretens einer Speichermatrix zuführt.
Bekannte Sprachanalysiergeräte (US-PS 25 75 910) zerlegen ein Sprachlautsignal lediglich mit Hilfe einer Vielzahl von bestimmte Frequenzbänder durchlassenden Filteranordnungen, deren Ausgangssignale je für sich zur Speicherung in zeitlicher Aufeinanderfolge einer Speichermatrix zugeführt werden. Es erfolgt jedoch keine ausreichende Berücksichtigung der individuell bedingten Unterschiede in der Formantenfrequenzverteilung. Für die Frequenznormalisierung ist lediglich ein Grundsprachfrequenzdetektor vorgesehen, von dem eine Gleichspannung abgeleitet wird, die in Abhängigkeit von der Schwankung der Grundsprachfrequenz ihre Größe ändert.
Bei den bekannten Sprachanalysiergeräten besteht deshalb die Tendenz, daß das Frequenz-Zeit-Schema in der Speicherrnatrix aufgrund der individuellen Lautbildungsunterschiede von Person zu Person Unterschiede aufweist, die neben der Frequenzanalyse der Sprache eine Sprachsinnerfassung erheblich erschweren.
Aufgabe der Erfindung ist es deshalb, ein Sprachanalysiergerät so weiterzubilden, daß eine Kodierung der Beziehung zwischen Formantenfrequenz und Zeit auf eine Weise erfolgt, die unter Ausschaltung individueller Sprachlautunterschiede eine Normalisierung zur Erleichterung der Sprachsinnerfassung erbringt.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Schaltungsanordnung gelöst.
Die Erfindung geht davon aus, daß zwischen den Formanten bestimmte konstante Beziehungen bestehen. Das gilt unbeschadet der Tatsache, daß sich die von den einzelnen Sprechern artikulierten Sprachlaute in ihrer Tonhöhenfrequenz voneinander unterscheiden. Dieser Umstand wird verwendet, um in Abhängigkeit von den Schwankungen in der Tonhöhenfrequenz ein Signal zu erzeugen, wobei die Summe oder Differenz aus diesem Signal und einem zu analysierenden Sprachlautsignal ermittelt und hierauf ein Frequenz-Zeit-Schema in bezug auf das so verarbeitete Signal erstellt wird. Auf diesem Wege ist es möglich, individuell bedingte Unterschiede aus dem vorerwähnten Frequenz-Zeit-Schema zu eliminieren und dieses zu normalisieren. Die Sprachsinnerfassung ist damit
erheblich erleichtert. Auch sind Stimmanalysen mit hoher Geschwindigkeit möglich, wobei zusätzlich eine Unterscheidung zwischen Vokal und Konsonant, insbesondere auch kurzen Konsonanten möglich gemacht wird.
In der Zeichnung ist die Erfindung beispielsweise veranschaulicht, und zwar zeigt
F i g. 1 teils schematisch, teils als Biockschaltung eine Ausführungsform eines Sprachanalysiergerätes,
Fig. 2a und 2b graphische Darstellungen der Kennlinien von Schaltelementen der Blockschaltung nach Fig. 1,
Fig. 3 bis 10 Darstellungen der einzelnen Teile der Blockschaltung von Fig. 1,
Fig. 11 eine schematische Darstellung einer zweiten Ausführungsform eines Sprachanalysiergerätes und
Fig. 12 eine besondere typische Schaltungsanordnung
F i g. 1 zeigt ein Mikrophon 1 zur Aufnrhme von Schallwellen, die im Mikrophon 1 in ein elektrisches Signal umgewandelt werden. Dieses wird von einem Verstärker 2 verstärkt, dessen Ausgangssignal einem Tiefpaßfilter 3, einem Spracheinsatzdetektor 4 und einem Tonhöhendetektor 5 zugeführt wird. Der Spracheinsatzdetektor 4 Hefen bei Einsetzen eines einlaufenden Sprache.gnals an seinen Ausgang ein Impulssignal. Beim Auftreten dieses Impulssignals werden verschiedene Teile der Schaltung in Betrieb genommen, auf die unten näher eingegangen wird.
Der Tonhöhendetektor 5 ermittelt die Tonhöhenfrequenz eines eingehenden Sprachsignals und liefert ein Impulssignal mit ener Folgefrequenz fp, die gleich der Tonhöhenfrequenz ist. Dieses Impulssignal wird dem einen der Eingangsanschlüsse eines Frequenzdifferenzdetektor 6 zugeleitet, nämlich dem Anschluß 7. Der Frequenzdifferenzdetektor 6 liefert entsprechend einem Frequenzunterschied (fs/"^zwischen einem über einen anderen Anschluß 8 zugeführten Signal mit einer Bezugsfrequenz /1 und dem vorerwähnten Impulssignal eine Ausgangsgleichspannung Vp. In der Praxis ist es leichter, eine der Ausgangsfrequenz fp entsprechende Spannung Vp und eine der Bezugsfrequenz fs entsprechende Spannung V5 miteinander zu vergleichen.
F i g. 2a zeigt die zwischen dem Frequenzunterschied (fp— 4/und der Ausgangsgleichspannung Vßbestehende lineare Beziehung. Diese ist derart, daß sich die Ausgangsgleichspannung Vo mit steigendem Frequenzunterschied erhöht. Die Ausgangsgleichspannung Vo wird einem freischwingenden Oszillator 9 zugeführt, der hierauf ein Sinuswellensignal mit einer Frequenz Im abzugeben vermag. Zwischen der vom freischwingenden Oszillator 9 abgegebenen Schwingungsfrequenz fM und der von dem Frequenzdifferenzdetektor 6 abgegebenen Ausgangsgleichspannung Vb besteht eine lineare Beziehung (Fig.2b). Mit anderen Worten, die Schwingungsfrequenz ist /iwo bei einer Spannung Vo gleich Null, sie erhöht sich mit einer in positiver Richtung ansteigender Spannung Vo, und sie verringert sich mit einer in negativer Richtung abfallender Spannung Vd.
Das eingehende Sprachsignal, das zum Eliminieren höherer Frequenzkomponenten als der zur Sprachanalyse erforderlichen durch das Tiefpaßfilter 3 gefiltert ist, wird dem einen der Eingangsanschlüsse eines Frequenzwandlers 10 zugeführt, dem über den anderen Anschluß der Ausgang des freischwingenden Oszillators 9 zugeleitet wird. Ist nun die Frequenz des gefilierten Sprachsignals /Ί, so wird am Ausgangsanschluß des Frequenzwandlers, nämlich eines noch zu beschreibenden Ringmodulators, ein umgewandeltes Signal mit einer Frequenz (fM±fv)erhalten. Dieses Signal mit einer Frequenz (fM±fy) wird einer aus einer Vielzahl von Filtern aufgebauten Frequenzwahlschaltung 11 zuges führ L Bevorzugterweise wird die höhere Frequenz (fsi+fv) zur Erhöhung der Anaiysiergeschwindigkeit verwendet, die eine Verringerung der Zeitkonstanten nachfolgender Schaltelemente wie beispielweise Integratoren ermöglicht. Jedes der in der erwähnten
ίο Frequenzwahlschaltung 11 vorgesehenen Filter weist eine solche Bandbreite auf, daß ein vorbestirrmtes Frequenzband in einem Frequenzbereich von (7md+200) Hz bis f/jwo + 5000) Hz durchgelassen werden kann.
Die Frequenzwahlschaltung 11 ist so aufgebaut, daß eine eingehende Sprechfrequenz in eine Vielzahl von Bändern unterteilt wird, die ihrerseits einer Formantendetektorschaltung 12 zugeführt werden, die geeignet ist, einen Formanten in den unterteilten Bandsignalen festzustellen. Der Formant wird in einer Speichermatrix 13 gespeichert, die in zeitlicher Zuordnung vom Beginn des Sprachlauteinsatzes an als Informationsspeicher dient. Zu diesem Zeitpunkt wird durch den Ausgang des Spracheinsatzdetektors 4 eine Matrixtreiberschaltung 14 zum Durchsteuern der Speichermatrix 13 in Betrieb genommen, so daß die »Schreibw-Spalten der Speichermatrix 13 ir vorbestimmten Zeitabständen vom Zeitpunkt des Spracheinsatzes festgelegt werden. So wird ein kurz nach dem Einsetzen des Sprechens auftretender Formant in denjenigen Spalten der Speichermatrix 13 gespeichert, die in der Betrachtungsrichtung der Figur am weitesten links liegt, und ein in einem hierauf folgenden Zeitintervall auftretender Formant in der zweiten Spalte gespeichert. Auf diese Weise kann in jedem Zeitintervall in der Speichermatrix 13 ein Formant gespeichert werden. Tritt in einem bestimmten Band in einem festgelegten Zeitintervall eine Energiekonzentration auf, so wird in die Matrixelemente der diesem Band entsprechenden Zeile eine »1« eingeschrieben, und falls in den anderen Bändern keine Energieballung vorhanden ist, wird in alle anderen Elemente eine »0« eingeschrieben.
Es soll nun auf die einzelnen Schaltmittel näher eingegangen werden, die in der Anordnung der F i g. 1 vorgesehen sind.
F i g. 3 zeigt den Tonhöhendetektor 5. Ein Sprachlaut wird mittels des Mikrophons 1 in ein elektrisches Signal umgewandelt, das hierauf in dem Verstärker 2 verstärkt und dann durch ein Tiefpaßfilter 51 mit einer oberen Frequenz von 300 Hz gefiltert wird. Der Ausgang des
so Tiefpaßfilters 51 wird durch einen Intergrator 52 integriert, so daß ein die Tonhöhenfrequenz aufweisendes Signal erzeugt wird, das mittels einer Schmitt-Triggerschaltung 53 wiederum in ein Rechtecksignal mit einer Folgefrequenz, die gleich der Tonhöhenfrequenz
xs ist, umgewandelt wird. Das resultierende Rechtecksignal wird über eine Torschaltung 54, die in ihrer Torwirkung durch ein Steuersignal gesteuert ist, einem Zähler 55 zugeführt, der die Tonhöhenfrequenz des Eingangssignals auszählt. Das vom Zähler 55 ermittelte
do Ergebnis wird durch einen Digital-Analog-Umsetzer 56 in ein Analogsignal Vp umgewandelt, das der Tonhöhenfrequenz des Eingangssignals proportional ist.
Die Speichermatrix 13 besteht im allgemeinen aus bistabilen Schaltungen oder aus Magnetkernspeichern.
fts F i g. 4 zeigt den Frequenzdifferenzdetektor 6, der die Frequenzdifferenz zwischen zwei Eingangssignalen festzustellen vermag, nämlich einen Unterschied zwischen der Tonhöhenfreauenz eines eingehenden
Sprachsignals und der Frequenz eines Sprachbezugssignals, und der hierauf eine diesem Unterschied proportionale Gleichspannung erzeugt und hält. An den einen Ein.gangsanschluß 14-14 eines, Differenzverstärkers 61 wird die vorerwähnte, aus dem Tonhöhendetektor 5 herrührende Gleichspannung Vp angelegt, die der Tonhöhenfrequenz fp proportional ist, während an den anderen Eingangsanschluß 15-15 über einen Umschalter eine Gleichspannung angelegt wird, deren Pegel der Tonhöhenbezugsfrequenz für die Laute »a«, »e«, »i«, »o« oder »u« proportional ist. Der Differenzverstärker ist im übrigen so aufgebaut, daß er keinen Ausgang liefert, falls die an seine beiden Eingangsanschlüsse angelegten Gleichspannungen einander gleich sind.
Artikuliert ein Sprecher den Laut »a«, der auch einer der japanischen Vokale ist, während an den unteren Eingangsanschluß des Differenzverstärkers 61 über den Umschalter eine dem Standardvokal »a« entsprechende Gleichspannung angelegt ist, so läßt sich am Ausgang des Differenzverstärkers 61 eine dem Unterschied zwischen der Tonhöhenbezugsfrequenz und der Tonhöhenfrequenz des Sprechers entsprechende Spannung ei abnehmen. Diese Spannung ei wird durch einen Analog-Digital-Umsetzei 62 in ein Digitalsignal umgewandelt und dann in einem Speicherkreis 63 gespeichert. Durch Umschalten des Schalters werden hierauf die Unterschiede zwischen den Tonhöhenbezugsfrequenzen für »e«, »i«, »o« und »u« und den betreffenden Tonhöhenfrequenzen des Sprechers ermittelt und die jeweils diesen Unterschieden entsprechenden Spannungen e2, ei, u bzw. es in der oben beschriebenen Weise in dem Speicherkreis 63 gespeichert. Eine Logikschaltung 64 liefert entsprechend dem arithmetischen Mittel der aus dem Speicherkreis 63 verfügbaren Ausgangsspannungen gemäß
ein Digitalsignal. Dieses Digitalsigna! wird mit Hilfe des Digital-ANalog-Umsetzers 65 in ein Analogsignal wie beispielsweise eine Gleichspannung Vd umgewandelt und festgehalten.
Fig.5 zeigt den freischwingenden Oszillator 9, dessen Ausgangsfrequenz mit der über den Eingangsanschluß 91 angelegten Ausgangsspannung V0 des Frequenzdifferenzdetektors 6 veränderlich ist. Hierbei ist im einzelnen eine kapazitätsvariable Diode VC mit einem Kondensator Q parallel geschaltet und bildet zusammen mit einem Kondensator C2 und einer Spule L einen Serienresonanzkreis. Einem Transistor Q wird über Widerstände /?i und R2 eine Basisvorspannung erteilt, und eine durch die Kondensatoren Q und C2, die kapazitätsvariable Diode VCund die Spule L bestimmte Serienresonanzspannung wird über einen Kondensator C3 zur Basis rückgekoppelt, so daß eine ungedämpfte Schwingung entsteht Das Potential an der Kathode der kapazitätsvariablen Diode erhöht sich beim Anlegen der Spannung Vo an den Eingangsanschluß 91, wodurch sich die Kapazität der Diode VCTjei einem 'Ansteigen' der Spannung Vb verringert Die Resonanzfrequenz des vorerwähnten Serienresonanzkreises erhöht sich somit, so daB sich also auch die Schwingungsfrequenz erhöht Verringert sich hingegen die Spannung Va so verringert sich auch die Schwingungsfrequenz. Der Schwingungsausgang kann am Kollektor des Transistors Q abgenommen werden.
Fig.6 zeigt den Frequenzwandler 10, der beispielsweise als Ringmodulator ausgebildet sein kann, dem der Ausgang, d.h. die Schwingungsfreqiienz fu des freischwingendsen Oszillators 9 über die Anschlüsse 101 und 102 zugeführt wird, ein Sprachsignal (die Frequenz /■,) dagegen über die Anschlüsse 103 und 104, so daß an den Ausgangsanschlüssen 105 und 106 Signale (Τμ±Λ>
s erscheinen. Von hier wird das Summensignal (fa+ fv) in der vorbeschriebenen Weise an die nachfolgenden Stufen weitergeleitet. Für den Fachmann bedarf es keiner weiteren Erläuterungen, daß statt des Ringmodulators auch ein Amplitudenmodulator vorgesehen sein kann.
Fig. 7 zeigt eine Darstellung zur Erläuterung der Ausgangscharakteristik an den Ausgangsanschlüssen 105 und 106. Man erkennt das Sprechfrequenzband 107 eines Sprechers, dessen Tonhöhenfrequenz fP\ sei, sowie das Sprechfrequenzband 108 eines Sprechers, dessen Tonhöhenfrequenz (P7 sei, und das Ausgangsfrequenzband 109 für den Fall, daß über die Anschlüsse 103 unc 104 ein innerhalb des Sprechfrequenzbandes 107 liegendes Sprachsignal zugeführt wird, wobei die vor der Tonhöhenfrequenz fp, abhängige Ausgangsfrequens /mi des freischwingenden Oszillators 9 zur Verschiebung in den hohen Frequenzbereich über die Anschlüsse 101 und 102 zugeführt wird und die Tonhöhenfrequenz eine Änderung zu fPu erführt. Das Ausgangsfrequenzbanc 110 gilt für den Fall, daß über die Anschlüsse 103 und 104 ein innerhalb des Sprechfrequenzbandes 108 liegende; Sprachsignal zugeführt wird, wobei die Ausgangsfre quenz ίκη des freischwingenden Oszillators 9 zugeleite und die Tonhöhenfrequenz zu fP2, verschoben wird. Ei
}o gelten also die folgenden Beziehungen:
f f /
und
Es bereitet keine Schwierigkeiten, den freischwingen
15 den Oszillator 9 so aufzubauen, daß dessen Ausgangs frequenzen 4n und (m2 in der Weise mit de Tonhöhenfrequenz veränderlich sind, daß der Bedin
gung
r f
'pV — IpT
Genüge geleistet wird. Sieht man einen Oszillator 9 vor der dieser Anforderung gerecht wird, so ist irr wesentlichen eine Angleichung der Tonhöhenfrequem unabhängig von der Stimmeigenart des jeweiliger Sprechers möglich. Es wird also das Sprachsigna frequenzmäßig korrigiert und normalisiert.
F i g. 8 zeigt die Anordnung der Frequenzwahlschal tung 11 und der Formantendetektorschaltung 12. Das ir dem Frequenzwandler 10 normalisierte Sprachsigna wird zunächst über einen Anschluß 111 der Frequenz wahlschaltung 11 zugeführt Die Frequenzwahlschal tung 11 ist aus einer Vielzahl von Bandpaßfiltern BPF1 BPF2, BPF3 ... aufgebaut, durch die das Sprachsigna auf die betreffenden Durchlaßbereiche aufgeteilt wird Die Ausgänge der einzelnen Bandfilter BPFi, BPFI BPF3 ... werden Emitterfolgeschaltungen EFi, EFI EF3 ... des Formatendetektors 12 zugeleitet Dh Ausgänge* der" EmitterfölgescHälttihgen "EF\~tF7 EF3 ... werden Integratoren INTl, INT2, INT3 ..
zugeführt, um in diesen integriert zu werden. Dei Integrator INTi ist mit der Emitterfolgeschaltung EF] über einen Transformator T gekoppelt der dei Gleichstrompegel im Ausgang des Emitterfolger sperrt Ein Ober die Sekundärspule des Transformator T induziertes Signal wird durch eine Diode L gleichgerichtet und dann durch eine aus einen Kondensator und einem Widerstand bestehende Paral Ielschaltung integriert Die übrigen Integratoren INTl
INT3 ... haben den gleichen Aufbau. Weiterhin werden die Ausgänge der Integratoren INTi, INT2, INT3 ... jeweils den betreffenden Pufferverstärkern BX, B2, B 3 ... zugeführt, und die Ausgänge C\, ^, es ... der Pufferverstärker Bi, Bl, B3 ... den betreffenden Differenzverstärkern DA 1, DA 2, DA 3 ... Jeder dieser Differenzverstärker DA i, DA 2. DA 3 ... verstärkt die Spannungs-Differenz zwischen den einander benachbarten Ausgängen eu &, d ... der Pufferverstärker B 1, B2, B3 ... So werden beispielsweise die Ausgänge ei ίο und e2 der Pufferverstärker Bi und B2 dem Differenzverstärker DA 1 zugeführt, so daß die Differenz zwischen diesen beiden Ausgängen (ei - e^) verstärkt wird. Der Ausgang des Differenzverstärkers DA 1 wird einem Oberpegeldiskriminator ULDi und is einem Unterpegeldiskriminator LLD 1 zugeführt. In ähnlicher Weise werden die Differenzspannungen (ft—ej). (ei-e*)... jeweils durch die betreffenden der übrigen Differenzverstärker DA 2, DA 3 ... verstärkt und die Ausgänge dieser Differenzverstärker DA 2, DA 3 ... werden den Oberpegel- und den Unterpegeldiskriminatoren ULD2 und LI.D2 bzw. ULD3 und LLD3 ... zugeführt. Die Oberpegeldiskriminatoren ULDi, ULD2, ULD3 ... sprechen auf positive Ausgangspegel der vorgeschalteten Differenzverstärker DA 1, DA 2, DA 3 ... an und erzeugen Rechtecksignale, deren Impulsbreite jeweils gleich der Zeitspanne ist, in welcher der Ausgangspegel positiv ist. Die Unterpegeldiskriminatoren LLDl, LLD2, LLD3 ... sprechen demgegenüber auf negative Ausgangspegel der Differenzverstärker DA 1, DA 2, DA3 ... an und erzeugen Rechtecksignale, deren Impulsbreite jeweils gleich der Zeitspanne ist, in welcher der Ausgangspegel negativ ist. Mit anderen Worten, jeder der Oberpegeldiskriminatoren vermag einen Ausgang zu liefern, wenn
und jeder der Unterpegeldiskriminatoren liefert einen Ausgang, wenn
Der Ausgang des Oberpegeldiskriminators ULD1 wird unverändert als Formantenausgang entnommen. Die Ausgänge des Unterpegeldiskriminators LLD I und des Oberpegeldiskriminators ULD 2 werden einer Nicht-Und-Schaltung NG 1 zugeführt und die Ausgänge des Unterpegeldiskriminators LLD 2 und des Oberpegeldiskriminators und des Oberpegeldiskriminators LfLD 3 einer Nicht-Und-Schaltung NG 2. Anders ausgedrückt, der Ausgangsanschluß eines auf einen positiven Pegelwert des Ausgangs eines Differenzverstärkers ansprechenden Oberpegeldiskriminators und der Ausgangsanschluß eines auf einen negativen Pegelwert des Ausgangs eines Differenzverstärkers ansprechenden Unterpegeldiskriminators sind mit einer gemeinsamen Nicht-Und-Schaltung verbunden.
Nimmt man an, daß beispielsweise im DurchiaBbereich des Bandpaßfilters BPF2 eine Energiespitze vorhanden ist, so gelten zwischen den Ausgängen ei, es und e3 der Pufferverstärker Al, B2 und B3 die folgenden Beziehungen:
Der Differenzverstärker DA 1 liefert mithin einen negativen Ausgang und der Differenzverstärker DA 2 liefert einen positiven Ausgang. Auf den Ausgang des Differenzverstärkers DA 1 spricht daher der Unterpegeldiskriminator LLD i an, auf den Ausgang des Differenzverstärkers DA 2 dagegen der Oberpegeldiskriminator ULD2, so daß der Ausgang der Nicht-Und-Schaltung NC 1 verändert wird und erkennen läßt, daß in dem Band des Bandfilters BPF2 eine Energiespitze vorhanden ist. Dieses Signal, welches das Vorhandensein eines Formanten anzeigt, wird mit einem Zeitsignal in Koinzidenz gebracht, das als Ausgang der Matrixtreiberschaltung mit dem nachstehend beschriebenen Aufbau erhalten wird, und wird hierauf in ein vorbestimmtes der die Speichermatrix 13 bildenden Matrizenelemente eingeschrieben und darin gespeichert.
Fig. 9 ist die Matrixtreiberschaltung 14 dargestellt, bei der eine einzige bistabile Schaltung 135 mit monostabilen Schaltungen MSi, MS2, MS3 ... in Reihe geschaltet ist, die jeweils den Spalten der Speichermatrix 13 entsprechen. Die bistabile Schaltung BS wird durch den Ausgang des Spracheinsatzdetektors 4 zum Durchsteuern der folgenden monostabilen Schaltung MSi getriggert. Diese monostabile Schaltung liefert für eine vorbestimmte Zeitspanne, deren Dauer von den Leitungskonstanten abhängt, einen Ausgang. Die monostabile Schaltung MS2 wird durch die Hinterflanke eines aus der vorgeschalteten monostabilen Schaltung MS i herrührenden Ausgangsimpulses getriggert. In dieser Weise können die monostabilen Schaltungen MS2, MS3 ... den Betriebsablauf in der monostabilen Schaltung MS1 nachvollziehen, und der Schreibvorgang erfolgt bei Betätigung der monostabilen Schaltungen MSl, MS2, MS3 ... jeweils in der betreffenden Spalte der Matrixschaltung 13. Fig. 10 gibt die resultierenden Wellenformen wieder, wobei ersichtlich ist, daß die Arbeitszeiten /1, f2, t3 ... der monostabilen Schaltungen MSi, MS2, MS3 ... so gewählt sind, daß sie außer einer Wortanalyse auch eine Wortsinnanalyse ermöglichen. Es läßt sich ohne weiteres eine Anordnung vorsehen, bei der die Gewähr gegeben ist, daß der Rückstellimpuls zum Rückstellen der bistabilen Schaltung BS zugeführt wird, nachdem das Sprachsignal erloschen ist
Bei der oben beschriebenen Anordnung wird beispielsweise ein während der Arbeitszeit der monostabilen Schaltung MSi eingehenden Format in ein Matrixelement eingeschrieben, das in die erste Spalte der Speichermatrix 13 eingegliedert ist und das demjenigen Frequenzband entspricht, in dem der Formant auftritt. Ähnliche Betriebsvorgänge erfolgen auch in der zweiten und in den folgenden Spalten der Speichermatrix 13. In der Speichermatrix 13 entsteht demgemäß ein Schema zeitlicher Zuordnung der durch das Sprachsignal repräsentierenden Information.
Durch Verschieben der Sprechfrequenz eines Sprechers in der vorbeschriebenen Weise in bezug auf die Tonhöhenfrequenz kann das Frequenz-Zeit-Schema ohne Schwierigkeiten normalisiert werden. Durch ein Verschieben der Sprechfrequenz in einen höheren Frequenzbereich können die Zeitkonstanten der einzelnen Filter und Integratoren verringert werden, so daß die Sprachanalyse mit hoher Geschwindigkeit erfolgen kann.
Bei dem oben beschriebenen Gerät können allerdings noch Schwierigkeiten auftauchen, wenn ein stimmloser Laut, beispielsweise ein Konsonant, analysiert werden soll, wenngleich das Gerät bei der Analyse eines stimmhaften Lauts, beispielsweise eines Vokals, einwandfrei arbeitet Es ist also erforderlich, eine Vorrichtung zu schaffen, die geeignet ist, auch
stimmlose Laute mit hoher Geschwindigkeit und mit hoher Präzision zu analysieren.
F i g. 11 zeigt den Aufbau eines Gerätes, das auch die Analyse stimmloser Laute ermöglicht, wobei dessen Hauptteil mit der Anordnung der F i g. 1 übereinstimmt. Diejenigen Schaltmittel, deren Wirkweise die gleiche ist wie die der in Fig. 1 dargestellten, sind daher auch mit den gleichen Bezugszahlen wie dort versehen, und es braucht darauf nicht näher eingegangen zu werden. Einer Schaltung 15 zur Unterscheidung stimmhafter und stimmloser Laute wird das Ausgangssignal des Frequenzwandlers 10 zugeführt. Diese Schaltung 15 zur Unterscheidung stimmhaft/stimmlos ist so aufgebaut, daß durch einen Vergleich der Energie des unteren Frequenzbandes im Ausgangssignal des Frequenzwand- ι ^ lers 10 mit der Energie in dessen oberen Frequenzband jederzeit eine Unterscheidung möglich ist, ob es sich bei dem Sprachlaut um einen stimmhaften oder stimmlosen Laut handelt. Die zum Speichern eines Frequenz-Zeit-Schemas dienende Speichermatrix 13 weist unter dem Matrixteil 13/4, das in der im obigen unter Bezugnahme auf F i g. 1 beschriebenen Weise zum Speichern eines im Sprechfrequenzbereich auftretenden Formanten dient, zusätzlich noch Matrixschaltungsteile 13ßund 13Cmit gemeinsamen Zeitspalten auf. Der Ausgang der Schaltung 15 zum Unterscheiden stimmhaft/stimmlos wird den Matrixschaltungsteilen 13ßund 13Czugeführt, so daß das Vorhandensein oder die Abwesenheit eines stimmhaften Lauts beispielsweise in die Schaltung 13ß eingeschrieben wird, Vorhandensein oder Abwesenheit ^o eines stimmlosen Lauts dagegen in die Schaltung 13C Das heißt mit anderen Worten, in die betreffenden Elemente der Matrixschaltung 13ß wird bei Eingang eines Signals, welches das Vorhandensein eines stimmhaften Lauts anzeigt, »1« eingeschrieben, in Abwesenheit eines solchen Signals dagegen »0«. Dementsprechend wird in die Matrixschaltung 13Cbei Auftreten eines stimmlosen Lauts »1« eingeschrieben, beim Ausbleiben eines stimmlosen Lauts hingegen »0«. Aus den in den Matrixschaltungsteilen 13ß und 13C gespeicherten Daten läßt sich also das Vorhandensein oder die Abwesenheit eines stimmhaften oder aber stimmlosen Lauts bestimmen. Auch die Reihenfolge des Auftretens wird gespeichert.
Fig. 12 zeigt die Anordnung der Schaltung 15 zur Unterscheidung stimmhafter und stimmloser Laute, in der das aus dem Frequenzwandler 10 verfügbare normalisierte Ausgangssignal zunächst mittels eines Bandpaßfilters BPFW mit einem Durchlaßbereich von (Afo + 200) Hz bis (fMa+ 1500) Hz und eines Bandpaßfilters BPF12 mit einem Durchlaßbereich von fAn> + 2000) Hz bis fAio + 7000) Hz ausgefiltert wird. Der Grund hierfür ist folgender: Bei einem stimmhaften Laut ist die Energie in der Hauptsache in einem unteren Frequenzbereich des Sprechffequenzbandes konzentriert, während bei einem stimmlosen Laut eine Energiekonzentration in einem höheren Frequenzbereich zu konstatieren ist. Die Ausgänge der Bandfilter BPFW und BPF12 werden durch Integratoren INTW bzw. INT\2 integriert und die Integratiorisausgänge en und en werden einem Differenzverstärker DA 11 zugeführt, in dem die Differenz (en — e^) der Eingänge verstärkt wird und der einen positiven Ausgang liefert falls
sowie einem negativen Ausgang falls
Liefert also der Oberpegeldiskriminator ULDW einen Ausgang, so ist der Ausgang des Differenzverstärkers DA 11 positiv, woran ersichtlich wird, daß es sich bei dem eingegangenen Sprachlaut um einen stimmhaften Laut handelt. Liefert andererseits der Unterpegeldiskriminator LLDW einen Ausgang, so zeigt dies das Eingehen eines stimmlosen Lauts an. Geht z. B. ein Wort »san« ein (der japanische Begriff für »drei«), so erzeugt zunächst der Unterpegeldiskriminator LLDW einen Ausgang für den Reibelaut »s«, wonach der Oberpegeldiskriminator ULD11 einen Ausgang für den Selbstlaut »a« liefert. Für »n« erscheint kein Ausgang, da die Eingänge des Difierenzverstärkers DA 11 in diesem Fall einander gleich sind, so daß über die Stimmhaftigkeit oder Stimmlosigkeit des eingehenden Lauts nichts ausgesagt wird. In die Elemente des Matrizenschaltungsteils 13ß, in denen das Auftreten stimmhafter Laute in der Eingangsreihenfolge verzeichnet wird, wird also »010« eingeschrieben, während in die Elemente des Matrizenschaltungsteils 13C, die in ähnlicher Weise das Auftreten stimmloser Laute festhalten, »100« eingeschrieben wird. Im Fall des Wortes »itschi« (dem japanischen Begriff für »eins« oder »ein«) speichert das Matrixschaltungstei! ΠF, zunächst den Selbstlaut »i«, anschließend wird der Reibelaut »tsch« in dem Matrixschaltungsteil 13C gespeichert und schließlich der letzte Selbstlaut »i« in dem Matrixschaltungsteil 13Ä Das Schema des Matrixschaltungsteils 13ß wäre demgemäß »101« zu lesen, das des Matrixschaltungsteils 13Chingegen»010«.
Aus dem oben gesagten ergibt sich also, daß bei der letztbeschriebenen Anordnung Vorkehrungen getroffen sind, um den beim Sprechen auftretenden Formentenübergang unabhängig von der Art der individuellen Stimmunterschiede zu normalisieren und das Zeitschema in der Speichermatrix zu speichern, und zwar in Kombination mit einer Vorrichtung zum Unterscheiden stimmhafter und stimmloser Laute. Mit einer solchen Anordnung lassen sich daher Schemata aufstellen, welche die stimmtypischen zeitlichen Varianten vorwegnehmen, was für die Sprachsinnerfassung von großer Bedeutung ist. Es hat sich gezeigt, daß die so gebildete Kodierung zur Sprachsinnerfassung geeignet ist, da ein Konsonant, insbesondere auch ein kurzer Konsonant, im Unterschied zu dem bei der bekannten Methode benutzten Schema einwandfrei erkannt werden kann.
Hierzu .i Blatt Zeichnungen

Claims (6)

Patentansprüche:
1. Mit einer zur Ausschaltung individueller Sprachunterschiede erfolgenden Normierung der Frequenz-Zeit-Schemata von Sprachsignalen arbeitendes Sprachanalysiergerät, bei dem das Eingangssignal einer ein bestimmtes Frequenzband durchlassenden Filteranordnung, einem Spracheinsatzdetektor und einem Tonhöhendetektor zugeführt wird, gekennzeichnet durch einen Frequenzdifferenzdetektor (6), der die Differenz zwischen der von dem Tonhöhendeiektor abgegebenen, der individuellen Tonhöhe des Sprachsignals entsprechenden Ausgangsfrequenz (fp)und einer einer Normtonhöhe entsprechenden Bezugsfrequenz (fs) festeilt und ein der Frequenzdifferenz entsprechendes Ausgangssignal abgibt und einem Oszillator (9) zur Erzeugung einer dem Ausgangssignal des Frequenzdifferenzdetektors proportionalen Frequenz (7m) zuführ·, durch die das Frequenzband des Eingangssprachsignals (fv) in einem Frequenzwandler (10) in ein Signal (fM±fv) umgewandelt und in an sich bekannter Weise der Sprachanalyse unterworfen wird.
2. Vorrichtung zur Sprachanalyse nach Anspruch 1, gekennzeichnet durch eine Schaltung (15) zum Unterteilen des Ausgangssignals des Frequenzwandlers (10) in je eine Signalkomponente in einen im Stimmspektrum enthaltenen unteren und oberen Frequenzbereich, in der durch eine Schaltungsan-Ordnung {DA 11, ULD it, LLD 11) zum Vergleichen der Energiebeträge der beiden Signalkompcnenten die Unterscheidung zwischen einem stimmhaften Laut und einem stimmlosen Laut möglich und das Ergebnis des Unterscheidungsvorganges in zeitli- ^s eher Zuordnung in der Speichermatrix (13) speicherbar ist.
3. Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß der zum Erzeugen eines dem Frequenzunterschied zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal entsprechenden Signals vorgesehene Oszillator (9) als LC-Oszillator ausgebildet ist, der ein Induktivitätselement (L) und ein kapazitätsvariables Element (VC) aufweist, daß zur Änderung der Schwingungsfrequenz durch die Ausgangsspannung (Vq) des Frequenzdifferenzdetektors (6) steuerbar ist.
4. Vorrichtung zur Sprachanalyse nach Anspruch
1, dadurch gekennzeichnet, daß der Frequenzdifferen^detektor (6) einen Differenzverstärker (61) zum Vergleichen der Amplituden der den Tonhöhenfrequenzen des eingehenden Sprachsignals und des Sprachbezugssignals entsprechenden Analogsignale aufweist.
5. Vorrichtung für Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß der Frequenzwandler (10) als Ringmodulator ausgebildet ist.
6. Vorrichtung zur Sprachanalyse nach Anspruch
1, dadurch gekennzeichnet, daß der Frequenzwand- (>o ler(10) als Frequenzmodulator ausgebildet ist.
DE1937464A 1968-07-24 1969-07-23 Sprachanalysiergerät Expired DE1937464C3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP5289768 1968-07-24
JP4342169 1969-05-27

Publications (3)

Publication Number Publication Date
DE1937464A1 DE1937464A1 (de) 1971-02-18
DE1937464B2 DE1937464B2 (de) 1977-09-22
DE1937464C3 true DE1937464C3 (de) 1978-05-18

Family

ID=26383176

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1937464A Expired DE1937464C3 (de) 1968-07-24 1969-07-23 Sprachanalysiergerät

Country Status (5)

Country Link
US (1) US3592969A (de)
DE (1) DE1937464C3 (de)
FR (1) FR2014696A1 (de)
GB (1) GB1261385A (de)
NL (1) NL6911293A (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3732405A (en) * 1971-08-11 1973-05-08 Nasa Apparatus for statistical time-series analysis of electrical signals
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US3855418A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by vibratto component assessment
US3855416A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment
JPS50155105A (de) * 1974-06-04 1975-12-15
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech
US4586191A (en) * 1981-08-19 1986-04-29 Sanyo Electric Co., Ltd. Sound signal processing apparatus
FR2515851A1 (fr) * 1981-10-29 1983-05-06 Camion Jean Multi-capteur instantane de frequences, transformateur analogique-digital de la voix humaine en vue de l'interface homme/machine par le langage
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US6577998B1 (en) * 1998-09-01 2003-06-10 Image Link Co., Ltd Systems and methods for communicating through computer animated images
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3384839A (en) * 1965-09-24 1968-05-21 Bell Telephone Labor Inc Pulse code modulator including a multifrequency oscillator
NL151593B (nl) * 1966-11-22 1976-11-15 Philips Nv Stelsel voor signaaloverdracht met behulp van pulsdeltamodulatie.

Also Published As

Publication number Publication date
DE1937464B2 (de) 1977-09-22
FR2014696A1 (de) 1970-04-17
US3592969A (en) 1971-07-13
NL6911293A (de) 1970-01-27
GB1261385A (en) 1972-01-26
DE1937464A1 (de) 1971-02-18

Similar Documents

Publication Publication Date Title
DE1937464C3 (de) Sprachanalysiergerät
DE1547032A1 (de) Einrichtung zum Identifizieren einer Person
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE1965480C3 (de) Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte
DE2911854C2 (de) Elektronische Uhr mit akustischer Zeitansage
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
DE2737467C2 (de) Fernsteueranordnung
DE1269167B (de) Vorrichtung und Verfahren zur Umwandlung eines analogen Signals in eine numerische Information unter Benutzung einer Speichereinrichtung
DE2802867C2 (de) Fernsteueranordnung
DE2109436A1 (de) Amphtudenregler für elektrische Signale
DE2431458C2 (de) Verfahren und Anordnung zur automatischen Sprechererkennung
DE3882364T2 (de) Verfahren und gerät zum lesen von zeichen.
DE1202517B (de) Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern
DE1547027C3 (de) Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE2853617A1 (de) Einrichtung zum abtasten einer signalfolge
DE1772633A1 (de) Verfahren zur Spracherkennung
DE2334459C3 (de) Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung
DE2019280C3 (de) Elektrische Schaltungsanordnung zur Sprachsignalanalyse
DE2739609A1 (de) Verfahren und vorrichtung zur schulung und umschulung von weitgehend tauben
DE1920716C3 (de) Frequenzdiskriminator
DE1940082A1 (de) Verfahren zum Erkennen von Sprachmerkmalen und deren Aufzeichung mittels einer elektrisch gesteuerten Schreibmaschine
DE2302064C3 (de) Schaltungsanordnung zur Erzeugung einer harmonischen, ein schnelles Einschwingverhalten aufweisenden Schwingung

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee