DE3200645C2 - - Google Patents
Info
- Publication number
- DE3200645C2 DE3200645C2 DE19823200645 DE3200645A DE3200645C2 DE 3200645 C2 DE3200645 C2 DE 3200645C2 DE 19823200645 DE19823200645 DE 19823200645 DE 3200645 A DE3200645 A DE 3200645A DE 3200645 C2 DE3200645 C2 DE 3200645C2
- Authority
- DE
- Germany
- Prior art keywords
- sound
- sounds
- signals
- voiced
- open
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000007493 shaping process Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims 3
- 238000007906 compression Methods 0.000 claims 3
- 239000002131 composite material Substances 0.000 claims 2
- 239000012141 concentrate Substances 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 9
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 description 22
- 239000002360 explosive Substances 0.000 description 12
- 230000004044 response Effects 0.000 description 10
- 238000012935 Averaging Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005422 blasting Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung bezieht sich auf ein Verfahren zur Sprach
erkennung, nach dem Oberbegriff des Patentanspruchs 1.
Bei einem solchen Verfahren können durch phonetische
Analyse gesprochener Nachrichten Steuersignale für die
Steuerung des Betriebs gesteuerter Maschinen oder Geräte,
beispielsweise eines Massagegeräts, einer automatischen
Tür oder dergleichen, erzeugt werden.
Aus der US-PS 39 46 157 ist es bekannt, zeitliche Schwan
kungen der Sprachenergie E der mittels eines Mikrophons
erfaßten Nachricht in einem vorbestimmten Frequenzband
(200 bis 3400 Hz) zu messen, die zeitliche Ableitung
dE/dt der zeitlichen Schwankungen der Energie E zu
bestimmen und dann zusätzlich die Energieverteilung E B
im Frequenzband von 200 bis 800 Hz, die Energieverteilung E M
im Frequenzband von 800 bis 1600 Hz und die Energiever
teilung E H im Frequenzband von 1600 bis 3400 Hz zu messen.
Wenn die Energie E vorhanden ist, während der Impuls der
Abteilung dE/dt niedrig ist und ein hoher Impuls der Ener
gieverteilung E H vorhanden ist, wird der Klang als /S/
unterschieden, also als ein stimmloser Reiblaut. Wenn die
Energie E vorhanden ist, während der Impuls der Ableitung
dE/dt hoch ist und ein hoher Impuls in der Energievertei
lung E H vorhanden ist, wird der Klang als /T/ unterschie
den, d. h. als stimmloser Sprenglaut. Wenn die Energie E
vorhanden ist und auch in der Energieverteilung E M ein
hoher Impuls vorhanden ist, wird der Klang als /A/ unter
schieden, d. h. als stimmhafter mittlerer Vokal. Bei An
wesenheit der Energie E und eines hohen Impulses in der
Energieverteilung E B wird der Klang als /O/ unterschieden,
d. h. als stimmhafter tiefer Vokal. Außerdem wird der Klang
als /I/ unterschieden, also als stimmhafter hoher Vokal,
wenn die Energie E vorhanden ist und die Energieverteilun
gen E B und E H gleichzeitig einen hohen Impuls enthalten.
Diese Unterscheidungen werden in einer ersten Logikschaltung
ausgeführt, und der Inhalt der gesamten gesprochenen Nach
richt wird durch Vergleich der Ausgangssignale der ersten
Logikschaltung mit einer Codetabelle in einer zweiten
Logikschaltung erkannt. In dieser Anordnung wird jedoch
eine Differenzierschaltung benötigt, und es gilt, daß
zum Erkennen eines nasalen Konsonanten /N/, einer geflüster
ten Nachricht oder dergleichen die Energie der gesprochenen
Nachricht in jedem einer größeren Anzahl von Frequenzbän
dern gemessen werden muß. Das bekannte Verfahren war daher
in mancher Hinsicht nachteilig. Wenn die gesprochene Nach
richt in einem aus mehreren Wörtern bestehenden Satz vor
liegt, konnte sie mittels dieses Verfahrens nicht behan
delt werden.
Aus der Zeitschrift ETZ-B/Band 19, 1967, Heft 23, Seiten
673 bis 678 ist ein Verfahren zur Spracherkennung bekannt,
bei dem eine gesprochene Nachricht in mehrere Frequenzbän
der zerlegt wird. Dabei wird unterschieden zwischen Frequenz
bändern, in denen sich die stimmhaften Laute konzentrieren,
und solchen, in denen sich die stimmlosen Laute konzentrieren.
Die in den jeweiligen Frequenzbändern enthaltenen Energie
anteile werden gemessen und jeweils mit Bezugsmustern ver
glichen. Die Genauigkeit der Spracherkennung kann dadurch
gesteigert werden, daß die Sprachsignale in eine entspre
chend größere Anzahl von Frequenzbändern zerlegt werden.
Der erforderliche Aufwand ist aber umso größer, je größer
die Anzahl von Frequenzbändern ist.
Aus der DE-OS 20 20 753 ist ferner ein Verfahren zur Sprach
erkennung bekannt, bei dem die gesprochene Nachricht durch
eine Filterbank zerlegt wird, der eine Gleichrichter- und
Siebschaltung sowie ein logarithmischer Verstärker nachge
ordnet sind. Da nur ein logarithmischer Verstärker verwen
det wird, werden die verschiedenen Frequenzbänder vor dem
Eingang des logarithmischen Verstärkers multiplexiert. Jedes
Frequenzband wird also nur während einer kurzen Zeitspanne
analysiert.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren
zur Spracherkennung anzugeben, durch welches die Erkennungs
wahrscheinlichkeit mit möglichst geringem Aufwand verbessert
wird.
Diese Aufgabe wird bei einem gattungsgemäßen Verfahren durch
die im kennzeichnenden Teil des Patentanspruchs 1 angegebene
Maßnahme gelöst. Durch die Anwendung dieser Maßnahme wird
erreicht, daß die charkteristischen Merkmale einer ge
sprochenen Nachricht, die für die Spracherkennung von Be
deutung sind, deutlicher in Erscheinung treten. Die Er
kennungswahrscheinlichkeit kann daher bei geringem zusätz
lichen Aufwand erheblich gesteigert werden.
Vorteilhafte Ausführungsformen der Erfindung sind in den
Unteransprüchen angegeben.
Die Erfindung wird nun unter Bezugnahme auf die Zeichnung
beispielshalber erläutert. Es zeigt
Fig. 1 ein Blockschema zur Erläuterung des Verfahrens
zur Erkennung von Phonemelementen in einer gespro
chenen Nachricht,
Fig. 2 ein Schaltbild einer Ausführungsform einer Vor
richtung zur Durchführung des Verfahrens,
Fig. 3 bis 5 Diagramme zur Erläuterung der Wirkungsweise
der Vorrichtung von Fig. 2,
Fig. 6 ein Schaltbild einer weiteren Ausführungsform
einer Vorrichtung zur Durchführung des Verfahrens,
und
Fig. 7 bis 10 Flußdiagramme zur Erläuterung der Wirkungs
weise der Vorrichtungen nach den Fig. 2 und 6.
Gemäß dem in Fig. 1 dargestellten Verfahren zur Erkennung
von Phonemelementen einer gesprochenen Nachricht soll eine
von einem Sprecher gesprochene Nachricht dadurch erkannt
werden, daß in selektiver Weise die in der gesprochenen
Nachricht enthaltenen Phoneme P in stimmhafte Laute V und
in stimmlose Laute UV(STEP(P→V/UV)) getrennt werden, die
stimmlosen Laute UV in Reiblaute F und Sprenglaute
PL(STEP(UV→F/PL)) unterteilt werden und die stimmhaften
Laute V in offene Klänge VO, d. h. Klänge mit hoher Energie
des ersten Formanten, und in geschlossene Klänge VC, d. h.
in Klänge mit niedriger Energie im ersten Formanten
(STEP(V→VO/VC)) unterteilt werden.
Fig. 2 zeigt das Schaltbild einer praktischen Anordnung zur
Durchführung des in Fig. 1 dargestellten Verfahrens. Eine vom
Mikrophon 6 empfangene gesprochene Nachricht X(t) wird durch einen
Vorverstärker 8, einen logarithmischen Verstärker 8-1 und einen
Wechselstromverstärker 8-2 zu Signalen LOGX(t) umgeformt.
Diese Signale werden den Eingängen einer ersten Filterbank 9
und einer zweiten Filterbank 10 zugeführt. Als Beispiele für die
gesprochene Nachricht X(t) sind /a/ und /u/ in den Fig.
3A bzw. 3B dargestellt. In Fig. 3A ist ein Signal LOGX(t)
für /a/ in einer logarithmisch umgesetzten Kurve ebenfalls
dargestellt; Fig. 3B zeigt ein ebensolches Signal für /u/.
Die erste Filterbank 9 besteht aus einer Serienschaltung aus
einem Filter, die eine Frequenzkomponente unter 1 kHz durch
läßt, einer Gleichrichterschaltung sowie einer Mittelungs
schaltung, die eine Integrationsschaltung mit einer Zeitkon
stanten von etwa 10 ms enthält; die zweite Filterbank 10 ent
hält eine Serienschaltung aus einem Filter, das eine Frequenz
komponente von 5 bis 12 kHz durchläßt, einer Gleichrichter
schaltung und einer Mittelungsschaltung mit einer Integrations
schaltung mit einer Zeitkonstanten von etwa 1 ms. In Fig. 4A
sind die Frequenzspektren von /s/ (stimmloser Laut) und /a/
(stimmhafter Laut) als Beispiel für die gesprochene Nachricht
X dargestellt, während Fig. 4B die Frequenzspektren ihrer
logarithmisch umgesetzten Signale LOGX zeigt. Aus dem Vergleich
der Fig. 4A und 4B ist zu erkennen, daß
die anschließenden Verarbeitungsvorgänge durch eine loga
rithmische Umsetzung vereinfacht werden können, während der
Erkennungsgrad beibehalten wird. Die Ausgangssignale der ersten
Filterbank 9 werden von den Ausgangssignalen der zweiten Filter
bank 10 im Differenzverstärker 11 subtrahiert, und die Ausgangs
signale dieses Differenzverstärkers werden von der Mittelungs
schaltung 12 gemittelt, die eine Integrationsschaltung mit
einer Zeitkonstanten von 10 ms enthält. Die Ausgangssignale
werden dann Diskriminatorschaltungen 18 und 19 als gemittelte
Stimmhaft- und Stimmlos-Signale y(t) zugeführt. Die Diskrimina
torschaltung liefert mit dem Empfang jedes in einem Taktimpuls
generator 20 erzeugten Taktimpulses einen Abtastimpuls C p (mit
einer Periode von 8 ms), doch gibt sie nur dann ein Ausgangs
signal mit hohem Wert ab, wenn die Signale für stimmhafte und
stimmlose Laute kleiner als ein Bezugswert R v sind. Die Periode
der Abtastimpulse C p wird mittels einer vom E/A-Anschluß 14
festgelegten CR-Zeitkonstanten richtig eingestellt, was bedeu
tet, daß die Ausgangsfrequenz des Taktimpulsgenerators von einem
Frequenzteiler geteilt und dann einer richtigen Periodeneinstel
lung an einer Abgriff-Schaltung abhängig von CR am E/A-Anschluß
14 unterzogen wird. Die Diskriminatorschaltung 19 liefert bei
jedem Abtastimpuls C p aus dem Taktimpulsgenerator 20 ein Aus
gangssignal mit hohem Wert, wenn die Signale V für stimmhafte
Laute und UV für stimmlose Laute größer als der Bezugswert R v
sind. Als Reaktion auf den vom Taktimpulsgenerator 20 gelie
ferten Abtastimpuls C p wird eine retriggerbare, monostabile
Impulsgeneratorschaltung in der jeweiligen Diskriminatorschal
tung 18 und 19 ausgelöst (wobei die Dauer eines Ausgangsimpulses
der monostabilen Schaltung 1,5 mal größer als die Abtastperiode
ist und mittels einer Widerstandsumschaltschaltung im Takt
impulsgenerator 20 abhängig von CR eingestellt ist), damit
Signale V A und UV A erzeugt werden. Fig. 5 veranschaulicht die Wirkungs
weise für den Fall, daß die Signale V A und UV A aus den Signalen
x(t) entsprechend einer gesprochenen Nachricht /seQto/ unter
Anwendung der Abtastimpulsfolge C p erzeugt werden. In der For
mungsschaltung 21 wird aus den Signalen V A und UV A in einer
Differenzschaltung ein bezüglich eines Signals S p , das einen
stummen Klang repräsentiert, negiertes Signal erzeugt, und
dieses negierte Signal wird dazu benutzt, in einer NAND-
Schaltung die Signale V p und UV p zu erzeugen, die jeweils
einen stimmhaften Laut bzw. einen stimmlosen Laut anzeigen.
Das Signal S p wird dem Zähler 22 zugeführt, und löscht ihn
an dem Zeitpunkt, an dem es auf einen hohen Wert
ansteigt. Nach dem Löschen und während des hohen Werts des
Signals S P zählt der Zähler 22 die Anzahl der Abtastimpulse
C P , damit die Länge der Periode des stimmlosen Lauts gemessen
wird. Nur wenn der gezählte Wert des Zählers 22 größer als
eine vorbestimmte Zahl wird, wird ein Signal C erzeugt.
Eine Diskriminatorschaltung 23 unterscheidet, ob die gespro
chene Nachricht X(t) empfangen wird oder nicht, und sie liefert
ein Signal P/N mit hohem Wert abhängig vom Anstieg der Signale
V P und UV P auf einen hohen Wert; dieses Ausgangssignal P/N
fällt als Reaktion auf das Ausgangssignal C des Zählers 22.
Dies bedeutet, daß das Ausgangssignal P/N ein Impuls ist,
der am Anfangspunkt der gesprochenen Nachricht X(t) ansteigt
und am Endpunkt abfällt. Außerdem wird ein Zähler 24 gelöscht,
wenn die Impulse der Signale V P und UV P anstiegen, und er zählt
die Abtastimpulse C P in der gleichen Weise wie der Zähler 22,
während die Impulse der Signale V P und UV P einen hohen Wert
haben. Andererseits erzeugt eine Zeitgeberschaltung 25 beim
Abfallen der Signale V P , UV P , P/N und eines vom Taktimpuls
generator 20 gelieferten Impulses TM ein Abtastsignal STB.
Der Impuls TM wird von einer Abgriff-Umschaltschaltung des Takt
impulsgenerators 20 abhängig von CR erzeugt, wobei eine gewisse
Zeitverzögerung bezüglich des Abtastimpulses C P wegen der Be
triebszeit des Zählers 22 und der Diskriminatorschaltung 23
vorhanden ist. Als Reaktion auf das Abtastsignal STB hält
eine Halteschaltung 26 die Zählergebnisse des Zählers 24
fest, die in einer Vergleichsschaltung 27 mit einem über den
E/A-Anschluß gelieferten Signal TR verglichen werden. Das
Signal TR wird mittels einer Bedienungstafel, d. h. mittels
des Tastenfeldes 1, in Abhängigkeit von der Sprechgeschwindig
keit des Sprechers, d. h. von der Ankunftsgeschwindigkeit der
gesprochenen Nachricht eingestellt. Das Signal TR ist ein
Bezugswert für die Bestimmung, ob die Phonemkomponente im
Signal UV P ein stimmloser Reiblaut V oder ein stimmloser Spreng
laut PL ist; es wird dazu benutzt, ein Signal dafür zu er
zeugen, daß erkannt wird, daß es sich um den stimmlosen Reib
laut F handelt, wenn die Dauer, d. h. der gezählte Wert des
Zählers 24, den Wert TR überschreitet, und daß es sich um
den stimmlosen Sprenglaut PL handelt, wenn die Dauer oder der
gezählte Wert des Zählers 24 kleiner als TR ist. Das Ergebnis
des Vergleichsvorgangs in der Vergleichsschaltung 27 wird
einer Symbolbildungsschaltung 28 zugeführt, die ein Signal
zur Unterscheidung des stimmhaften Lauts V, des stimmlosen
Reiblauts F und des stimmlosen Sprenglauts PL liefert, was
abhängig vom Abtastsignal STB und den als Reaktion auf die
Signale V P und UV P von der Zeitsteuerschaltung 25 abgegebenen
Signalen SV und SU erfolgt. Wenn das Signal V P einen hohen
Wert hat, wird der Impuls SV von der Zeitsteuerschaltung 25
nach Ankunft des Impulses TM abgegeben und die Symbolbildungs
schaltung 28 liefert als Antwort auf das Abtastsignal STB
einen dem stimmhaften Laut V entsprechenden Impuls. Wenn das
Signal UV P einen hohen Wert hat, wird der Impuls SV von der
Zeitsteuerschaltung 25 nach Ankunft des Impulses TM abgegeben,
und die Symbolbildungsschaltung 28 liefert abhängig vom Ver
gleichsergebnis der Vergleichsschaltung 27 einen den stimmlosen
Reiblaut F oder den stimmlosen Sprenglaut PL repräsentierenden
Impuls. Die Ausgangssignale V, PL und F der Symbolbildungs
schaltung 28 haben die Werte "1", "0" und "0" für den Fall
des stimmhaften Lauts V, die Werte "0", "0" und "1" für den
Fall des stimmlosen Reiblauts F und die Werte "0", "1" und "0"
für den Fall des stimmlosen Sprenglauts PL. Für den Fall des
stummen Lauts haben die Signale V, PL und F dagegen die Werte
"0", "0" und "0". Die Ausgangssignale V, PL und F der Diskri
minatorschaltung 28 werden vom Abtastsignal STB einem spei
chernden Codierer 29 zugeführt, und von (0, 0, 0) in (0, 0), von
(1, 0, 0) in (0, 1), von (0, 0, 1) in (1, 0) und von (0, 1, 0) in (1, 1)
umgesetzt, damit sie als binäre Signale DF vorliegen, die dann
dem E/A-Anschluß 14 zugeführt werden. Nachdem die binären
Signale DF (die in Fig. 2 einschließlich ihrer Lage mit DF1
und DF 0 angegeben sind) vom Abtastsignal aus dem Codierer 29
ausgegeben worden sind, liefert die Zeitsteuerschaltung 25
an den E/A-Anschluß 14 abhängig von den jeweiligen Signal
impulsen P/N, S P , V P , UV P und TM ein Signal READY, und der
Inhalt der Halteschaltung 26 wird als Impuls PT abgegeben.
Die andere Zeitsteuerschaltung 30 empfängt die Signale S P ,
P/N und TM zur Erzeugung von Signalen SS und SRDY. Abhängig
vom Signal SS speichert die Halteschaltung 31 den Inhalt des
Zählers 22, während das Signal SRDY ein Bereit-Signal ist,
das die Beendigung der Abgabe des Inhalts der Halteschaltung
31 (ausgedrückt durch ein Signal ST) angibt.
Der Computer 4 speichert die jeweiligen Signale DF (deren
Inhalt gleich DF 1 und DF 0 ist), PT und ST im Bezugsmuster
speicher 7 oder im Sprachnachrichtenspeicher 15 als Reaktion
auf die Inhalte der Speicher RAM 3 und ROM 5. Dies bedeutet die
Abspeicherung einer Klassifizierung, die repräsentiert ist
durch das Signal DF des stummen Lauts S, des stimmhaften Lauts
V, des stimmlosen Reiblauts F und des stimmlosen Sprenglauts
PL, durch die vom Signal PT (aus der Halteschaltung 31) des
stimmhaften Lauts V, des stimmlosen Reiblauts F und des stimm
losen Sprenglauts PL (aus der Halteschaltung 26) repräsen
tierten Längen sowie durch die Längen des stummen Lauts S
(aus der Halteschaltung 31). Der Computer CPU 4 vergleicht
dann das Signal DF mit dem entsprechenden Signal der Bezugs
muster zum Zweck seiner Erkennung. Die Inhalte des Signals DF
sind imMuster 1 von Fig. 5 durch V, F, PL und S angegeben.
Wenn die DF-Erkennung mit einigen der Bezugsmuster überein
stimmt, dann werden die Längen verglichen. Beim Vergleich der
Längen werden vorzugsweise diese Längen zuvor normiert. Wenn
die gesprochene Nachricht mit einem der Bezugsmuster bei dem
Erkennungsvorgang übereinstimmt, wird ein entsprechendes Befehls
signal zur Steuerung eines Geräts, beispielsweise eines Massage
geräts, als Reaktion auf die gegebene gesprochene Nachricht
geliefert.
In der Ausführungsform von Fig. 2 wird die Erzeugung der
Signale DF, PT und ST aus den Signalen V A und UV A in der
dargestellten Schaltungsanordnung durchgeführt, jedoch kann
dieser Schritt auch im Computer 4 ausgeführt werden. Ein
Flußdiagramm dieser Ausführungsform ist in den
Fig. 7 und 8 gezeigt.
In Fig. 6 ist eine weitere Ausführungsform
dargestellt, mit der zusätzlich
zu den unter Bezugnahme auf Fig. 2 erklärten Vergleichs
vorgängen auch die Signale VO für offene Klänge und VC für
geschlossene Klänge verglichen werden können. Die über das
Mikrophon 6 erhaltene gesprochene Nachricht X wird im Vorver
stärker 8 verstärkt und mittels des logarithmischen Verstärkers
8-1 sowie des Wechselstromverstärkers 8-2 in die Signale LOGX
umgesetzt; diese Signale werden den Eingängen der ersten Fil
terbank 9 und der zweiten Filterbank 10 zugeführt. Die erste
Filterbank 9 besteht aus einer Serienschaltung eines Filters,
das eine Frequenzkomponente unter 1 kHz durchläßt, einer
Gleichrichterschaltung und einer Mittelungsschaltung, die eine
Integrationsschaltung mit einer Zeitkonstanten von etwa 10 ms
enthält. Die zweite Filterbank besteht ebenfalls aus einer
Serienschaltung aus einem Filter, das eine Frequenzkomponente
von 5 bis 12 kHz durchläßt, einer Gleichrichterschaltung und
einer Mittelungsschaltung, die eine Integrationsschaltung mit
einer Zeitkonstanten von etwa 1 ms enthält. Das Ausgangssignal
der ersten Filterbank 9 wird vom Ausgangssignal der zweiten
Filterbank 10 im Differenzverstärker 11 subtrahiert, dessen
Ausgangssignale von der Mittelungsschaltung 12, die eine Inte
grationsschaltung mit einer Zeitkonstanten von 10 ms enthält,
gemittelt und als Signale V für die stimmhaften Laute und UV
für die stimmlosen Klänge in Diskriminatorschaltungen 18 und
19 eingegeben werden. Die Diskriminatorschaltung 18 liefert
bei jeder Ankunft eines Taktimpulses, d. h. des Abtastimpulses C P
mit der Periode von 8 ms aus dem Taktimpulsgenerator 20 ein
Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht,
wenn die Signale V und UV kleiner als ein Bezugswert R V sind.
Die andere Diskriminatorschaltung 19 liefert ebenfalls bei
jedem Abtastimpuls C P aus dem Taktimpulsgenerator 20 ein
Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht,
wenn die Signale V und UV größer als der Bezugswert R U sind.
Als Reaktion auf den Abtastimpuls C P arbeiten die retrigger
baren, monostabilen Impulsgeneratorschaltungen (deren Impuls
eine um 1,5 mal größere Dauer als der Abtastimpuls haben) in
den Diskriminatorschaltungen 18 und 19, und sie erzeugen die
Signale V A und UV A . Die Formungsschaltung 21 erzeugt aus den
Signalen V A und UV A ein einen stummen Laut repräsentierendes
negiertes Signal S P an einer Antivalenzschaltung, und unter
Verwendung dieses negierten Signals S P erzeugt sie auch an
einer NAND-Schaltung die Signale V P und UV P , die einen stimm
haften Laut V bzw. einen stimmlosen Laut UV repräsentieren.
Das negierte Signal S P wird dem Zähler 22 zugeführt, den sie
an dem Zeitpunkt löscht, an dem das Signal auf einen hohen
Wert ansteigt. Nach dem Löschvorgang und während des hohen
Signalwertes des Signals S P zählt der Zähler 22 die Anzahl der
Abtastimpulse C P zur Messung der Länge der Periode des stummen
Lauts, und nur dann, wenn der vom Zähler 22 gezählte Wert über
einer vorbestimmten Zahl liegt, wird das Signal C erzeugt.
Die Diskriminatorschaltung 23 unterscheidet, ob die gesprochene
Nachricht X(t) empfangen wird oder nicht, und sie gibt ein
Signal P/N mit hohem Wert abhängig vom Anstieg des Signals V P
und des Signals UV P auf einen hohen Wert ab. Das Ausgangssignal
P/N fällt abhängig vom Ausgangssignal C des Zählers 22, was
bedeutet, daß das Ausgangssignal P/N ein Impuls ist, der am
Anfangszeitpunkt der gesprochenen Nachricht X(t) ansteigt und
an ihrem Beendigungspunkt abfällt. Der Zähler 24 wird gelöscht,
wenn die Impulse der Signale V P und UV P ansteigen, und er zählt
die Abtastimpulse C P ebenso wie der Zähler 22 während der Zeit
periode, in der die Impulse der Signale V P und UV P einen
hohen Wert haben. Andererseits erzeugt die Zeitgeberschal
tung 25 ein Abtastsignal STB nach dem Abfall der Signale
V P , UV P und P/N. Zusätzlich erzeugt die Zeitgeberschaltung
25 auch Signale SV und SU in Abhängigkeit von den Signalen
V P , UV P und P/N. Der Zählerstand des Zählers 24 wird mit
einem über den E/A-Anschluß eingegebenen Signal TR 1 verglichen.
Dieses Signal TR 1 wird an einer Bedienungstafel, d. h. am
Tastenfeld 1, in Abhängigkeit von der Sprechgeschwindigkeit
des Sprechers oder, in anderen Worten, in Abhängigkeit von
der Ankunftsgeschwindigkeit der gesprochenen Nachricht ein
gestellt. Das Signal TR 1 ist außerdem ein Bezugswert, mit
dem bestimmt werden kann, ob die Phonemkomponente des Signals
UV P für den stimmlosen Laut ein stimmloser Reiblaut F oder
ein stimmloser Sprenglaut PL ist, und es wird dazu benutzt,
ein Signal zu erzeugen, daß angibt, ob der Laut ein stimm
loser Reiblaut F ist, wenn die Dauer des Lauts oder der Zähler
stand des Zählers 24 über dem Signal TR 1 liegt, oder ein
stimmloser Sprenglaut PL ist, wenn die Dauer des Lauts oder
der Zählerstand unter TR 1 liegt. Das Vergleichsergebnis der
Vergleichsschaltung 26 wird in die Diskriminatorschaltung 27
eingegeben, die ein Signal zur Unterscheidung des stimm
haften Klangs V, des stimmlosen Reiblauts F und des stimm
haften Sprenglauts PL in Abhängigkeit von den Signalen SV
und SU abgibt, die von der Zeitgeberschaltung 25 in Abhängig
keit von den Signalen V P und UV P vom Abtastsignal STB und
vom Vergleichsergebnis der Vergleichsschaltung 26 abgegeben
werden. Wenn das Signal V P einen hohen Wert hat, gibt die
Zeitgeberschaltung 25 einen Impuls SV ab, und die Diskriminator
schaltung 27 gibt abhängig vom Abtastsignal STB einen Impuls
ab, der anzeigt, daß ein stimmhafter Laut V vorliegt. Wenn das
Signal UV P einen hohen Wert hat, gibt die Zeitgeberschaltung 25
einen Impuls SV ab, und die Diskriminatorschaltung 27 liefert
abhängig vom Vergleichsergebnis der Vergleichsschaltung 26
und vom Abtastsignal STB ebenfalls einen Impuls, der angibt,
daß das Signal ein stimmloser Reiblaut F oder ein stimmloser
Sprenglaut PL ist. Die Ausgangssignale V, PL oder F der Diskrimi
natorschaltung 27 haben somit für den Fall des stimmhaften
Lauts V die Werte "1", "0" und "0", für den Fall des stimm
losen Reiblauts F die Werte "0", "0" und "1", für den Fall des
stimmlosen Sprenglauts PL die Werte "0", "1" und "0" und für
den Fall des stummen Lauts die Werte "0", "0" und "0". Die
Ausgangssignale V, F und PL werden durch das Abtastsignal STB
dem speichernden Codierer 29 zugeführt und von (0, 0, 0) in
(0, 0), von (1, 0, 0) in (0, 1), von (0, 0, 1) in (1, 0) und von
(0, 1, 0) in (1, 1) umgesetzt, so daß sie in Form eines binären
Signales DF vorliegen und anschließend an den E/A-Anschluß 14
abgegeben werden. Nachdem das binäre Signal DF (das in Fig. 6
einschließlich der Lage als DF 1 und DF 0 angegeben ist) vom
Codierer 29 durch das Abtastsignal abgegeben worden ist, wird
dem E/A-Anschluß aus der Zeitgeberschaltung 25 abhängig von
den Signalen P/N, V P und UV P ein Signal READY abgegeben.
Die vom Vorverstärker 8 verstärkte gesprochene Nachricht X(t)
wird den Eingängen einer dritten Filterbank 32 und einer
vierten Filterbank 33 über einen im hohen Bereich wirksamen
Anhebungsverstärker 8-3 mit +6 dB/Oktave zugeführt. Die dritte
Filterbank 32 besteht aus einem eine Frequenzkomponente von
0 bis 0,5 kHz durchlassenden Filter, einer Gleichrichter
schaltung und einer Mittelungsschaltung, die eine Integrations
schaltung mit einer Zeitkonstanten von etwa 5,5 ms enthält.
Die vierte Filterbank 33 besteht aus einer Serienschaltung
eines eine Frequenzkomponente von 0,5 bis 1,0 kHz durchlassen
den Filters, einer Gleichrichterschaltung und einer Mittelungs
schaltung mit einer Integrationsschaltung mit einer Zeitkonstan
ten von etwa 10 ms. Die Ausgangssignale der dritten Filter
bank 32 werden von einem logarithmischen Verstärker 32 A loga
rithmisch verstärkt, und sie werden von den Ausgangssignalen
der vierten Filterbank 33 in einem Differenzverstärker 34 sub
trahiert, die von einem weiteren logarithmischen Verstärker 33 A
ebenfalls logarithmisch verstärkt worden sind. Die Ausgangs
signale dieses Differenzverstärkers 34 können mittels der
logarithmischen Verstärker 32 A und 33 A an solche Ausgangs
signale angeglichen werden, die für den Menschen hörbar sind.
Die Ausgangssignale des Differenzverstärkers werden in einer
Mittelungsschaltung 35 gemittelt, die eine Integrationsschal
tung mit einer Zeitkonstanten von 20 ms enthält; sie werden
ferner Diskriminatorschaltungen 36 und 37 als Signale VO für
offene Klänge und VC für geschlossene Klänge zugeführt. Die
Diskriminatorschaltung 36 liefert jedesmal dann, wenn der
Taktimpuls, d. h. der vom Taktimpulsgenerator 20 erzeugte
Abtastimpuls C P mit einer Periode von 8 ms, ankommt, ein
Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht,
wenn die Signale VO und VC kleiner als ein Bezugswert R O ist.
Die andere Diskriminatorschaltung 27 liefert mit jedem Abtast
impuls C P aus dem Taktimpulsgenerator 20 ebenfalls ein Ausgangs
signal mit hohem Wert, was nur dann geschieht, wenn die Signale
VO und VC größer als ein Bezugswert R C sind. Abhängig von dem
vom Taktimpulsgenerator 20 abgegebenen Abtastimpuls C P werden
retriggerbare monostabile Impulsgeneratorschaltungen (bei
denen die Dauer des abgegebenen Impulses jeweils 1,5mal so
groß wie die Abtastimpulsperiode ist) in den Diskriminator
schaltungen 36 und 37 betätigt, so daß die Signale VO A und VC A
abgeben, und aus diesen Signalen erzeugt eine Formungsschal
tung 38 in ihrer Antivalenzschaltung stumme Klänge repräsen
tierende negierte Signale, und unter Verwendung der negierten
Signale werden in einer NAND-Schaltung ein einen offenen Klang
VO anzeigendes Signal VO P sowie ein einen geschlossenen Klang
VC anzeigendes Signal VC P erzeugt. Diese Signale VO P und VC P
werden einem Zähler 39 zugeführt, den sie bei ihrem Anstieg
löschen. Nach dem Löschen zählt der Zähler 39 die Abtast
impulse C P , während die jeweiligen Signale VO P und VC P einen
hohen Wert haben. Andererseits erzeugt eine Zeitgeberschaltung
40 ein Abtastsignal VSTB beim Abfallen der Signale VO P und VC P .
Die Zeitgeberschaltung 40 erzeugt auch abhängig von den Signalen
VO P , VC P und TM die Signale SO und SC. Der Stand des Zählers 39
wird in einer Vergleichsschaltung 41 mit einem über den E/A-
Anschluß eingegebenen Signal TR 2 verglichen. Dieses Signal TR 2
wird an der Bedienungstafel, d. h. an der Tastatur 1, in Abhängig
keit von der Sprechgeschwindigkeit des Sprechers oder, in ande
ren Worten, von der Ankunftsgeschwindigkeit der gesprochenen
Nachricht eingestellt. Das Signal TR 2 ist ein Bezugswert für
die Entnahme des mittleren Klangs VM aus den Phonemkomponenten
in den Signalen VO P und VC P , und es wird dazu benutzt, ein
Signal für das Erkennen eines offenen Klangs VO oder eines
geschlossenen Klangs VC zu erzeugen, wenn die Dauer, d. h. der
gezählte Wert des Zählers 39, das Signal TR 2 überschreitet,
oder ein Signal für das Erkennen eines mittleren Klangs VM
zu erzeugen, wenn die Dauer, d. h. der gezählte Wert des Zählers
39, unter TR 2 liegt. Die Vergleichsergebnisse der Vergleichs
schaltung 41 werden einer Symbolbildungsschaltung 42 zugeführt, die
ein Signal dafür liefert, den offenen Klang VO, den geschlosse
nen Klang VC und den mittleren Klang VM abhängig von den Signa
len SO und SC zu unterscheiden, die von der Zeitgeberschaltung
40 in Abhängigkeit von den Signalen VO P und VC P , dem Abtast
signal VSB und dem Vergleichsergebnis der Vergleichsschaltung
41 geliefert werden. Wenn das Signal VO P einen hohen Wert hat,
wird der Impuls SO von der Zeitgeberschaltung 40 abgegeben,
und ein Vergleichsergebnis darüber, ob die Periode, in der das
Signal VO P einen hohen Wert hat, länger oder kürzer als der
Bezugswert TR 2 ist, wird aus der Vergleichsschaltung 41 abge
geben, so daß dann, wenn die Periode des Signals VO P mit hohem
Wert größer als der Bezugswert TR 2 ist, eine Symbolbildungs
schaltung 42 als Reaktion auf das Abtastsignal VSTB einen
Impuls abgibt, der anzeigt, daß der offene Klang VO vorliegt,
während dann, wenn die Periode des Signals VO P mit hohem Wert
kleiner als der Bezugswert TR 2 ist, die Symbolbildungsschaltung 42
ebenfalls als Reaktion auf das Abtastsignal VSTB einen Impuls
abgibt, der anzeigt, daß der mittlere Klang VM vorliegt. Wenn
das Signal VC P einen hohen Wert hat, wird von der Zeitgeber
schaltung 40 ein Impuls SC abgegeben, während das Vergleichs
ergebnis darüber, ob die Periode mit hohem Wert länger oder
kürzer als der Bezugswert TR 2 ist, von der Vergleichsschaltung
41 abgegeben wird. Wenn die Periode des Signals VC P mit hohem
Wert länger als der Bezugswert TR 2 ist, gibt die Symbolbil
dungsschaltung 42 abhängig vom Abtastsignal VSTB einen Impuls
ab, der zeigt, daß der geschlossene Klang VC vorliegt. Ist die
Periode des Signals VC P mit hohem Wert dagegen kürzer als der
Bezugswert TR 2, liefert die Symbolbildungsschaltung 42 eben
falls abhängig vom Abtastsignal VSTB einen Impuls, der anzeigt,
daß der mittlere Klang VM vorliegt. Die Ausgangssignale VO
und VC der Symbolbildungsschaltung 42 haben somit für den Fall
des offenen Klangs VO die Werte "1" und "0", für den Fall des
geschlossenen Klangs VC die Werte "0" und "1" und für den Fall
des mittleren Klangs VM die Werte "0" und "0". Die Ausgangs
signale VO und VC der Symbolbildungsschaltung 42 werden vom
Abtastsignal VSTB in die Halteschaltung 43 eingegeben, und
wenn das Ausgangssignal V der Ausgangssignale V, PL und F der
Diskriminatorschaltung 27 als ein Signal mit hohem Wert bestä
tigt wird, werden sie zum E/A-Anschluß 14 abgegeben. Diese
Ausgangssignale VO und VC sind in Fig. 6 einschließlich ihrer
Lage mit DF 2 und DF 3 dargestellt. Die Halteschaltung 44
speichert den gezählten Wert des Zählers 39 abhängig vom Ab
tastsignal VSTB, und sie gibt diesen Wert auch an den E/A-
Anschluß 14 ab, damit er für den Fall der Anwendung der Längen
bei der Erkennung der Signale VO und VC benutzt wird. Nachdem
die Ausgangssignale der Halteschaltungen 43 und 44 zum E/A-
Anschluß 14 abgegeben worden sind, gibt die Zeitgeberschaltung
40 ein Bereit-Signal SRDY ab.
Das dem Taktimpulsgenerator 20 vom E/A-Anschluß 14 gelieferte
Signal CR ist ein Signal, das in selektiver Weise die Abgabe
der Ausgangssignale C P und TM des Taktimpulsgenerators 20 be
wirkt.
Der Computer 4 bewirkt die Speicherung der Signale DF 0, DF 1,
DF 2 und DF 3 sowie des Ausgangssignals der Halteschaltung 44
im Bezugsmusterspeicher 7 oder im Sprachnachrichtenspeicher 15
abhängig von Signalen aus dem Speicher 3 und dem Speicher 5.
Dies bedeutet, daß in den Speichersystemen die Signale DF 0,
DF 1, DF 2 und DF 3, die die Klassifizierung des stummen Lauts
S, den offenen Klang VO, des geschlossenen Klangs VC, des
mittleren Klangs VM, des stimmlosen Reiblauts F und des stimm
losen Sprenglauts PL angeben, sowie die Signale, die die
Längen des offenen Klangs VO, des geschlossenen Klangs VC und
des mittleren Klangs VM angeben, abgespeichert werden. Im
Anschluß daran vergleicht der Computer 4 diese klassifizierten
Signale und die Längen mit denen der zuvor abgespeicherten
Bezugsmuster für das Erkennen der Nachricht (siehe das Muster 2
von Fig. 5). In diesem Fall kann der Erkennungsvorgang gut
vereinfacht werden, wenn die klassifizierten Signale vor den
Längen verglichen werden und die Längen nur dann verglichen
werden, wenn die klassifizierten Signale eine Übereinstimmung
mit den Bezugsmustern zeigen. Beim Vergleich der Längen ist
es außerdem sehr günstig, wenn sie einer Normierung unter
zogen werden. Wenn die gesamte gesprochene Nachricht bei die
sem Erkennungsvorgang mit einem der Bezugsmuster übereinstimmt,
wird ein Befehlssignal für das richtige Steuern eines Geräts,
beispielsweise eines Massagegeräts, abhängig von der gegebenen
gesprochenen Nachricht geliefert.
In der Ausführungsform von Fig. 6 wird der Schritt der Erzeu
gung der klassifizierten Signale und der Längen aus den Signalen
V A , UV A , VO A und VC A mittels der dargestellten Schaltungsan
ordnung durchgeführt; dieser Schritt kann natürlich auch vom
Computer 4 ausgeführt werden. Ein Flußdiagramm der Ausführungs
form von Fig. 6 ergibt sich aus den
Fig. 9 und 10.
Claims (18)
1. Verfahren zur Spracherkennung, bei dem eine gespro
chene Nachricht in ein erstes Frequenzband zerlegt wird,
in dem sich die Energieanteile stimmhafter Laute konzen
trieren, und in ein zweites Frequenzband zerlegt wird,
in dem sich die Energieanteile stimmloser Laute konzen
trieren, die in den jeweiligen Frequenzbändern enthalte
nen Energieanteile gemessen werden, aus den Energiean
teilen der dem ersten Frequenzband angehörigen stimm
haften Lautkomponenten und aus den Energieanteilen der
dem zweiten Frequenzband angehörigen stimmlosen Laut
komponenten Signale für stimmhafte Laute und Signale
für stimmlose Laute erzeugt werden und die Signale für
stimmhafte Laute und für stimmlose Laute jeweils mit
Bezugsmustern verglichen werden, dadurch gekennzeichnet,
daß eine logarithmische Amplitudenkompression der ge
sprochenen Nachricht vor der Zerlegung in mehrere Fre
quenzbänder vorgenommen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die gesprochene Nachricht zusätzlich in ein drittes Frequenz
band zerlegt wird, in dem sich die Energieanteile offener Klänge
der stimmhaften Laute konzentrieren, und in ein viertes
Frequenzband zerlegt wird, in dem sich die Energieanteile
geschlossener Klänge der stimmhaften Laute konzentrieren,
und anschließend einer Amplitudenkompression unterzogen
wird, und daß aus den Energieanteilen von offenen Klang
komponenten, die dem dritten Frequenzband angehören, und
aus den Energieanteilen geschlossener Klangkomponenten,
die dem vierten Frequenzband angehören, Signale für offene
und für geschlossene Klänge erzeugt werden, die ebenfalls
mit Bezugsmustern verglichen werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Signale für offene und geschlossene Klänge nur mit dem
Bezugsmuster verglichen werden, das bei dem Vergleichsvor
gang der Signale für stimmhafte und stimmlose Laute entnom
men worden ist.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Signale für stimmhafte und stimmlose Laute sowie die
Signale für offene und geschlossene Klänge jeweils Impuls
signale sind.
5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß
- - die Längen der stimmhaften, stimmlosen und stummen Lautperioden der Signale für stimmhafte und stimmlose Laute sowie die Längen der offenen, geschlossenen und stummen Klangperioden in den Signalen für offene und geschlossene Klänge gemessen werden und
- - die Längen der stimmhaften, stimmlosen und stummen Lautperioden sowie der offenen, geschlossenen und stummen Klangperioden mit den jeweiligen Bezugsmustern verglichen werden, damit eines der Bezugsmuster entnommen wird, bei dem hinsichtlich der Längen im wesentlichen Übereinstim mung besteht.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet,
daß die stimmhaften, stimmlosen und stummen Lautperioden
in den Signalen für stimmhafte und stimmlose Laute sowie
die offenen, geschlossenen und stummen Klangperioden in
den Signalen für offene und geschlossene Klänge zur For
mung verarbeitet werden, wenn ihre gemessenen Längen
unter einem vorbestimmten Wert liegen.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
stimmhafte und stimmlose Laute sowie offene und geschlossene
Klänge, deren Längen kleiner als ein vorbestimmter Wert sind,
als stumme Laute verarbeitet werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
ein stummer Laut mit einer unter einem vorbestimmten Wert
liegenden Länge als ein stimmhafter Laut verarbeitet wird,
wenn er zwischen einem stimmhaften Laut mit einer über dem
vorbestimmten Werte liegenden Länge und einem weiteren
stimmhaften Laut liegt, während er als stimmloser Laut ver
arbeitet wird, wenn er zwischen einem stimmlosen Laut mit
einer über dem vorbestimmten Wert liegenden Länge und einem
weiteren stimmlosen Laut liegt, und daß ein stummer Laut
als offener Klang verarbeitet wird, wenn er zwischen einem
offenen Klang mit einer über dem vorbestimmten Wert liegen
den Länge und einem weiteren offenen Klang liegt, jedoch
als geschlossener Klang verarbeitet wird, wenn er zwischen
einem geschlossenen Klang mit einer über dem vorbestimmten
Wert liegenden Länge und einem weiteren geschlossenen Klang
liegt.
9. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß
die gemessenen Längen zur Vereinfachung der Vergleichs-
und Verarbeitungsschritte normiert werden.
10. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Signale für stimmhafte und stimmlose Laute sowie die
Signale für offene und geschlossene Klänge codiert werden,
indem in den Signalen für stimmhafte und stimmlose Laute
den stimmhaften Lauten +1, den stimmlosen Lauten -1 und
den stummen Lauten 0 zugeordnet wird, während in den Signa
len für offene und geschlossene Klänge den offenen Klängen
+1, den geschlossenen Klängen -1 und den stummen Lauten 0
zugeordnet wird.
11. Verfahren nach Anspruch 9, dadurch gekennzeichnet,
daß die normierten Längen codiert werden, indem +1 den
Längen über einen vorbestimmten Wert, -1 den Längen unter
einem weiteren vorbestimmten Wert und 0 den Längen zwischen
den beiden vorbestimmten Werten zugeordnet wird.
12. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
eine stimmlose Lautperiode, die sich als eine stumme Laut
periode mit einer über einem vorbestimmten Wert liegenden
Länge fortsetzt, als ein stimmloser Sprenglaut verarbeitet
wird, wenn die Länge der stimmlosen Lautperiode kleiner
als der vorbestimmte Wert ist, jedoch als stimmloser Reib
laut verarbeitet wird, wenn die Länge über diesem vorbe
stimmten Wert liegt.
13. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß die Amplitudenkompression nur für Amplituden oberhalb
eines vorbestimmten Wertes durchgeführt wird.
14. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
das erste Frequenzband von 0 bis 1,0 kHz, das zweite
Frequenzband von 2 bis 12 kHz, das dritte Frequenzband
von 0 bis 0,5 kHz und das vierte Frequenzband von 0,5
bis 1,0 kHz reicht.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet,
- a) daß die Längen der stimmhaften, stimmlosen und stummen Lautperioden in den Signalen der stimm haften und stimmlosen Klänge gemessen werden,
- b) daß aus den Energieanteilen der dem dritten Frequenz band angehörigen offenen Klangkomponenten und aus den Energieanteilen der dem vierten Frequenzband angehörigen geschlossenen Klangkomponenten Signale für offene und geschlossene Klänge gebildet werden,
- c) daß die Längen der offenen, geschlossenen und stummen Klangperioden in den Signalen für offene und geschlossene Klänge gemessen werden,
- d) daß die stimmhaften und stimmlosen Laute sowie die offenen und geschlossenen Klänge mit einer unter einem vorbestimmten Wert liegenden Länge zur For mung als ein stummer Laut verarbeitet werden, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem stimmhaften Laut mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren stimmhaften Laut zur Formung als stimmhafter Laut verarbeitet wird, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem stimmlosen Laut mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren stummen Laut zur Formung als stimmloser Laut verarbeitet wird, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwi schen einem offenen Klang mit einer über dem vorbe stimmten Wert liegenden Länge und einem weiteren offenen Klang zur Formung als offener Klang ver arbeitet wird und der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem geschlossenen Klang mit einer über dem vorbe stimmten Wert liegenden Länge und einem weiteren geschlossenen Klang als geschlossener Klang verar beitet wird,
- e) daß zusammengesetzte Impulse mit stimmlosen und stummen Lautperioden geformter Signale für stimm hafte und stimmlose Laute als stimmlose und stumme Lautperioden gebildet werden, mit offenen und ge schlossenen Klängen von Signalen für offene und geschlossene Klänge, die in Übereinstimmung mit stimmhaften Lautperioden geformter Signale für stimmhafte und stimmlose Klänge vorhanden sind, als offene oder geschlossene Klänge gebildet werden und mit stummen Lauten der geformten Signale für offene und geschlossene Klänge, die in Übereinstimmung mit den stimmhaften Lautperioden der geformten Signale für stimmhafte und stimmlose Laute vorhanden sind, als mittlere Klänge gebildet werden,
- f) daß jeweilige Gruppen der geformten Signale für stimmhafte und stimmlose Laute hierarchisch so klassifiziert werden, daß sie in einer ersten Rang ebene liegen, wobei die offenen, geschlossenen und mittleren Klänge, die in den zusammengesetzten Im pulsen aufeinanderfolgen, in einer zweiten Rangebene liegen,
- g) daß die Längen der ersten Rangebene normiert werden,
- h) daß die Längen jeweiliger Gruppen der zweiten Rang ebene normiert werden,
- i) daß die Signale auf der ersten Rangebene mit ent sprechenden Bezugsmustern verglichen werden, damit diejenigen Bezugsmuster entnommen werden, die im wesentlichen mit den Signalen übereinstimmen, und
- j) daß die Signale auf der zweiten Rangebene mit den entnommenen Bezugsmustern verglichen werden, damit eines von ihnen entnommen wird, das im wesentlichen mit diesen Signalen übereinstimmt.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet,
- k) daß festgestellt wird, ob das entnommene Bezugs muster ausreichend verschieden vom nächstzutref fenden entnommenen Bezugsmuster ist, und bei einer ungenügenden Abweichung ein die Notwendigkeit einer erneuten Eingabe der Nachricht anzeigendes Signal erzeugt wird.
17. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß
die mittleren Klänge jeweiliger Signalgruppen in der zwei
ten Rangebene mit jedem der offenen und geschlossenen Klänge
in den Bezugsmustern verglichen werden, daß die offenen
und geschlossenen Klänge in jeweiligen Gruppen der zweiten
Rangebene als mittlere Klänge mit den durch den Vergleich
entnommenen Bezugsmustern verglichen werden, daß ein Bezugs
muster entnommen wird, dessen offene Klänge die gleiche Rate
wie die offenen Klänge in den jeweiligen Gruppen auf der
zweiten Rangebene haben, daß ein Bezugsmuster entnommen
wird, das die gleichen Hauptkomponenten wie die jeweiligen
Gruppen auf der zweiten Rangebene hat, daß ein Bezugsmuster
entnommen wird, das bei einer Auswertung an den Punkten
+1,0 und -1 mit Eingangsmustern jedes Abtastwerts in den
jeweiligen Signalgruppen auf der zweiten Rangebene am
besten übereinstimmt, und daß schließlich in ausgewählter
Weise ein gemeinsames Bezugsmuster der bei diesen vier
Schritten erhaltenen Bezugsmuster entnommen wird.
18. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß
der Vergleich auf der ersten Rangebene ausgeführt wird, in
dem bei Anwesenheit eines stummen Lauts mit kurzer Länge
ein stimmloser Laut mit kurzer Länge hinzuaddiert wird.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19823200645 DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
DE19823249698 DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19823200645 DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3200645A1 DE3200645A1 (de) | 1983-07-21 |
DE3200645C2 true DE3200645C2 (de) | 1987-06-25 |
Family
ID=6152886
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823249698 Expired DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
DE19823200645 Granted DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823249698 Expired DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
Country Status (1)
Country | Link |
---|---|
DE (2) | DE3249698C2 (de) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2297528A (en) | 1941-12-12 | 1942-09-29 | Bell Henry Barto | Fraud prevention device for meters |
DE957235C (de) * | 1953-04-21 | 1957-01-31 | Nordwestdeutscher Rundfunk Ans | Verfahren zur UEbertragung oder Speicherung von Schallereignissen, bei dem der zu uebertragende Frequenzbereich in zwei getrennte Bereiche aufgeteilt wird |
US3588363A (en) * | 1969-07-30 | 1971-06-28 | Rca Corp | Word recognition system for voice controller |
FR2150174A5 (de) * | 1971-08-18 | 1973-03-30 | Dreyfus Jean | |
DE2400027A1 (de) * | 1973-01-08 | 1974-07-25 | Xerox Corp | Verfahren und vorrichtung zum erkennen von worten |
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
-
1982
- 1982-01-12 DE DE19823249698 patent/DE3249698C2/de not_active Expired
- 1982-01-12 DE DE19823200645 patent/DE3200645A1/de active Granted
Also Published As
Publication number | Publication date |
---|---|
DE3200645A1 (de) | 1983-07-21 |
DE3249698C2 (en) | 1987-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3306730C2 (de) | ||
DE69432570T2 (de) | Spracherkennung | |
DE2918533C2 (de) | ||
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE4031638C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2608569A1 (de) | Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE102014207437A1 (de) | Spracherkennung mit einer Mehrzahl an Mikrofonen | |
DE1206167B (de) | Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse | |
DE3200645C2 (de) | ||
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE2431458A1 (de) | Verfahren zur automatischen sprechererkennung | |
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
DE3642591C2 (de) | ||
DE1547027B2 (de) | Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8172 | Supplementary division/partition in: |
Ref country code: DE Ref document number: 3249698 Format of ref document f/p: P |
|
Q171 | Divided out to: |
Ref document number: 3249698 Ref country code: DE |
|
AH | Division in |
Ref country code: DE Ref document number: 3249698 Format of ref document f/p: P |
|
D2 | Grant after examination | ||
AH | Division in |
Ref country code: DE Ref document number: 3249698 Format of ref document f/p: P |
|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |