DE3249698C2 - Method for speech recognition and device for carrying out this method - Google Patents
Method for speech recognition and device for carrying out this methodInfo
- Publication number
- DE3249698C2 DE3249698C2 DE19823249698 DE3249698A DE3249698C2 DE 3249698 C2 DE3249698 C2 DE 3249698C2 DE 19823249698 DE19823249698 DE 19823249698 DE 3249698 A DE3249698 A DE 3249698A DE 3249698 C2 DE3249698 C2 DE 3249698C2
- Authority
- DE
- Germany
- Prior art keywords
- sound
- sounds
- signals
- voiced
- open
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000009826 distribution Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 19
- 238000012935 Averaging Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung bezieht sich auf ein Verfahren zur
Spracherkennung nach dem Oberbegriff des Patentanspruchs 1
sowie auf eine Vorrichtung zur Durchführung dieses Verfahrens
gemäß dem Oberbegriff des Patentanspruchs 5.
Für ein solches Verfahren und eine solche Vorrichtung
ist aus der US-PS 39 46 157 eine Methode bekannt, bei
der zeitliche Schwankungen der Sprachenergie E der
mittels eines Mikrophons erfaßten Nachricht in einem
vorbestimmten Frequenzband (200 bis 3400 Hz) gemessen
werden, dann die zeitliche Ableitung dE/dt der zeitlichen
Schwankungen der Energie E bestimmt wird und weiterhin
zusätzlich die Energieverteilung E B im Frequenzband
von 200 bis 800 Hz, die Energieverteilung E M im
Frequenzband von 800 bis 1600 Hz und die Energieverteilung
E H im Frequenzband von 1600 bis 3400 Hz gemessen
werden. Wenn die Energie E vorhanden ist, während der
Impuls der Ableitung dE/dt niedrig ist und ein hoher
Impuls der Energieverteilung E H vorhanden ist, wird der
Klang als |S | unterschieden, also als ein stimmloser
Reiblaut. Wenn die Energie E vorhanden ist, während der
Impuls der Ableitung dE/dt hoch ist und ein hoher
Impuls in der Energieverteilung E H vorhanden ist, wird
der Klang als |T | unterschieden, d. h. als stimmloser
Sprenglaut. Wenn die Energie E vorhanden ist und auch
in der Energieverteilung E M ein hoher Impuls vorhanden
ist, wird der Klang als |A | unterschieden, d. h. als
stimmhafter mittlerer Vokal. Bei Anwesenheit der Energie
E und eines hohen Impulses in der Energieverteilung
E B wird der Klang als |O | unterschieden, d. h. als
stimmhafter tiefer Vokal. Außerdem wird der Klang als |I |
unterschieden, also als stimmhafter hoher Vokal, wenn
die Energie E vorhanden ist und die Energieverteilungen
E B und E H gleichzeitig einen hohen Impuls enthalten.
Diese Unterscheidungen werden in einer ersten Logikschaltung
ausgeführt, und der Inhalt der gesamten gesprochenen
Nachricht wird durch Vergleich der Ausgangssignale
der ersten Logikschaltung mit einer Codetabelle
in einer zweiten Logikschaltung erkannt. In dieser
Anordnung wird jedoch eine Differenzierschaltung benötigt,
und es gilt, daß zum Erkennen eines nasalen Konsonanten
|N |, einer geflüsterten Nachricht oder dergleichen
die Energie der gesprochenen Nachricht in jedem
einer größeren Anzahl von Frequenzbändern gemessen
werden muß. Das bekannte Verfahren war daher in mancher
Hinsicht nachteilig. Wenn die gesprochene Nachricht in
einem aus mehreren Wörtern bestehenden Satz vorliegt,
kann sie mittels dieses Verfahrens nicht verarbeitet
werden.
Aus der US-PS 22 97 528 ist ferner ein Verfahren zur
Spracherkennung bekannt, bei welchem eine gesprochene
Nachricht wiederholt eingegeben und durch Analyse in
mehrere Frequenzbänder zerlegt wird, die in den
jeweiligen Frequenzbändern enthaltenen Energieanteile
gemessen werden und eine Frequenzbandverteilung dieser
Energiewerte mit einem abgespeicherten Bezugsmuster
verglichen wird, um den Inhalt der gesprochenen Nachricht zu
erkennen. Durch die wiederholte Eingabe der Nachricht
wird das Bezugsmuster jeweils verfeinert. Die Phoneme
der gesprochenen Nachricht werden nach Umsetzung in die
Digitalform und Datenkompression sowie Normierung zu
einem Bezugsmuster weiterverarbeitet. Das Bezugsmuster
besteht somit aus einer sehr großen Anzahl von Daten.
Die Handhabung einer so großen Anzahl von Daten erfordert
einen hohen Aufwand und viel Rechenzeit.
Der Erfindung liegt die Aufgabe zugrunde, bei einem
Spracherkennungsverfahren mit einfachen Mitteln die
Erkennung einer gesprochenen Nachricht unabhängig von
phonetischen Unterschieden bei der Aussprache dieser
Nachricht durch dieselben oder verschiedene Personen
zu ermöglichen.
Diese Aufgabe wird bei dem gattungsgemäßen Verfahren
durch die kennzeichnenden Merkmale des Patentanspruchs 1
gelöst.
Vorteilhafte Weiterbildungen des erfindungsgemäßen
Verfahrens sind in den Ansprüchen 2 bis 4 angegeben. Eine
Vorrichtung zur Durchführung des erfindungsgemäßen
Verfahrens ist im Patentanspruch 5 angegeben.
Die Erfindung beruht auf der Erkenntnis, daß in
individuell unterschiedlich gesprochenen Nachrichten
gewisse Kernabschnitte stets übereinstimmen, andere hingegen
zwar voneinander abweichen, jedoch Gemeinsamkeiten aufweisen,
die als mittlere Klänge definiert werden können.
Die Erfindung wird nun unter Bezugnahme auf die Zeichnung
beispielshalber erläutert. Es zeigt
Fig. 1 ein Blockschema zur Erläuterung der Zerlegung von
Phonemelementen in einer gesprochenen Nachricht,
Fig. 2 das Frequenzspektrum
der als Beispiel betrachteten gesprochenen japanischen Nachricht
"Senakaosasure",
Fig. 3 ein Diagramm mit Signalen V für stimmhafte Laute und
Signalen UV für stimmlose Laute in derselben Nachricht,
Fig. 4 ein Diagramm mit Signalen VO und VC für offene und
geschlossene Klänge in derselben
Nachricht,
Fig. 5 ein Schaltbild einer Ausführungsform einer
Vorrichtung zur Durchführung des Verfahrens,
Fig. 6A bis 6C Diagramme zur Erläuterung der Wirkungsweise der
Schaltung nach Fig. 5,
Fig. 7A bis 7E Flußdiagramme für weitere Ausführungsbeispiele des
Erkennungsverfahrens,
Fig. 8 ein Diagramm zur genaueren Erläuterung der Vorgänge
bei den in den Fig. 7C und 7D dargestellten
Verfahren für die gesprochene Nachricht
"Senakaosasure",
Fig. 9 schematische Phonemmuster der Nachricht "Senakaosasure",
wobei "V/UV" der nur durch stimmhafte Laute V, stimmlose
Laute UV und stumme Laute S gekennzeichnete Fall ist,
"V (1)" bis "V (4)" speziellere Muster jeweiliger
stimmhafter Laute V in der Nachricht bedeuten, von einem Kreis
umgebene Ziffern an den jeweiligen Wegen Sprechhäufigkeiten
für den Fall von aufeinanderfolgenden fünf
Sprechvorgängen angeben, die zeitliche Länge der jeweiligen
Kästchen normierte Längen von Klängen angeben und
schraffierte Abschnitte jeweilige Perioden stummer
Laute S und mittlerer Klänge VM am Übergang von einem
Phonem zum anderen bedeuten,
Fig. 10 ein Flußdiagramm, das die Bezugsmustererzeugung
darstellt,
Fig. 11 ein Flußdiagramm zur genauen Erläuterung eines Teils
des Schritts zur Erzeugung der Bezugsmuster in Fig. 10,
Fig. 12A bis 12C erläuternde Darstellungen zum Flußdiagramm von Fig. 11
und
Fig. 13 ein Flußdiagramm mit weiteren Einzelheiten eines Teils
des Schritts zur Bezugsmustererzeugung von Fig. 10.
Nach dem in Fig. 1 dargestellten Schema zur
Erkennung von Phonemelementen einer gesprochenen Nachricht
soll eine von einem Sprecher gesprochene Nachricht
dadurch erkannt werden, daß in selektiver Weise die in
der gesprochenen Nachricht enthaltenen Phoneme P in stimmhafte
Laute V und in stimmlose Laute UV(STEP(P →V/UV)) getrennt werden,
die stimmlosen Laute UV in Reiblaute F und Sprenglaute
PL(STEP(UV→F/PL)) unterteilt werden und die stimmhaften Laute
V in offene Klänge VO, d. h. Klänge mit hoher Energie des ersten
Formanten, und in geschlossene Klänge VC, d. h. in Klänge mit
niedriger Energie im ersten Formanten (STEP(V→VO/VC))
unterteilt werden.
Bei der in Fig. 5 dargestellten Ausführungsform
werden Tasten eines Tastenfeldes 1 betätigt, und
ein Startbefehl zum Schreiben von Bezugsmustern wird anfänglich
in einen Betriebsspeicher RAM 3 über eine Busleitung 2
eingespeichert. Wenn ein in einem Computer CPU 4 ausgeführtes
Programm den Vorgang des Schreibens des Bezugsmusters erreicht,
wird der Startbefehl aus dem Betriebsspeicher 3 gelesen,
und als Reaktion auf diesen Befehl wird aus einem Programmspeicher
ROM 5 ein Bezugsmuster-Schreibprogramm gelesen;
als Reaktion auf dieses Programm bewirkt der Computer 4 das
Abspeichern der über das Tastenfeld 1, das Mikrophon 6
oder eine andere geeignete Einrichtung gelieferten Bezugsmuster
in einem Speicher 7. Im vorliegenden Fall soll auf die
über das Mikrophon 6 gelieferten Bezugsmuster Bezug genommen
werden. Wenn das Bezugsmuster der als Beispiel verwendeten
Anweisung "Senakaosasure" (der der Anweisung "Massiere den
Rücken" entspricht) mit dem in Fig. 7 dargestellten Spektrum
in das Mikrophon 6 eingegeben wird, wird es durch einen
Vorverstärker 8 geschickt und an einer Filterbank 9
angelegt.
In Fig. 2 ist die Frequenz in kHz auf der Abszisse angegeben,
und die Energie ist an der Ordinate angegeben; jede Abtastlinie
gibt ein Phonemspektrum bei jeweils 10 ms an. Außerdem
sind auch die entsprechenden Phoneme der Nachricht "Senakaosasure"
angegeben. In Fig. 3 sind die Signale V und UV für die
stimmhaften Laute bzw. die stimmlosen Laute angegeben, die gemäß
den Spektren von Fig. 2 erhalten wurden; die den Abtastlinien
von Fig. 2 entsprechenden Werte sind dabei an der Abszisse
aufgetragen, wobei der Kurvenverlauf so ausgeführt ist, daß er
den jeweiligen Zuständen entspricht, bei denen die Abtastlinien
stimmhafte Laute zeigen (d. h. Werte über einen vorbestimmten
ersten Wert auf der positiven Seite haben) oder stimmlose Laute
zeigen (d. h. Werte unterhalb eines vorbestimmten zweiten Werts
auf der negativen Seite haben). Die Signale V und UV für
stimmlose bzw. stimmhafte Laute werden einem A/D-Umsetzer 13 über
die Mittelungsschaltung 12 zugeführt, damit sie digitalisiert
werden, und sie werden dann über E/A-Anschluß 14 in den Speicher
7 eingegeben. Auf diese Weise wird der Schreibvorgang der
Bezugsmuster beendet, jedoch können durch den gleichen Vorgang
auch weitere Bezugsmuster in den Speicher 7 geschrieben werden.
Bei der in Fig. 5 gezeigten Ausführungsform
wird die über das
Mikrophon 6 erhaltene gesprochene Nachricht X(t) nach Verstärkung im
Verstärker 8 den Eingängen der ersten Filterbank
9, der zweiten Filterbank 10, der dritten Filterbank 45,
der vierten Filterbank 46 und der fünften Filterbank 47
zugeführt. Diese Filterbänke enthalten jeweils eine
Serienschaltung aus einem Filter, einer Gleichrichterschaltung
und einer Mittelungsschaltung, die eine Integrationsschaltung
enthält. Das Filter der ersten Filterbank 9 läßt
eine Frequenzkomponente unter 0,5 kHz durch, das Filter der
zweiten Filterbank 10 läßt eine Frequenzkomponente von 0,5
bis 1,0 kHz durch, das Filter in der dritten Filterbank 45
läßt eine Frequenzkomponente von 0,8 bis 1,8 kHz durch, das
Filter in der vierten Filterbank 46 läßt eine Frequenzkomponente
von 1,8 bis 3,2 kHz durch. Die Integrationsschaltung
hat eine Zeitkonstante von etwa 5,5 ms in der ersten
Filterbank 9 und in der zweiten Filterbank 10 sowie eine
Zeitkonstante von etwa 3 ms in der dritten Filterbank 45
und in der vierten Filterbank 46. Durch Bezugnahme auf die
Fig. 6A bis 6C ist erkennbar, daß mittels der dritten
Filterbank 45 und der vierten Filterbank 46 Ausgangssignale
erzeugt werden, die den Artikulationen an den vorderen und
hinteren Bereichen einer Zungenlage, bezüglich des zweiten
Formanten in zweifacher Hinsicht unterteilt, erzeugt werden.
Fig. 6A zeigt die Artikulationspunkte für |a|, |e|, |i|, |o|
und |u|; Fig. 6B zeigt die Beziehungen des ersten Formanten
F₁ und des zweiten Formanten F₂ zwischen den jeweiligen Vokalen
|a|, |e|, |i|, |o| und |u|, und Fig. 6C zeigt ebenfalls die
F₁- und F₂-Beziehungen zwischen diesen Vokalen, insbesondere
für den Fall der japanischen Sprache. Die Artikulationspunkte
sind in der japanischen Sprache für diese Vokale ein wenig
nach innen verschoben.
In der fünften Filterbank 47 läßt das Filter eine
Frequenzkomponente von 5,0 bis 12,0 kHz durch, und die
Integrationsschaltung hat eine Zeitkonstante von etwa 1 ms.
Die Mittelungsschaltungen in den Filterbänken 9, 10, 45,
46 und 47 haben eine Grenzfrequenz von 29 Hz, 29 Hz, 53 Hz,
53 Hz bzw. 159 Hz.
Ausgangssignale f₁ und f₂ der ersten Filterbank bzw. der
zweiten Filterbank werden in einer Additionsschaltung 48
addiert, und im Anschluß daran wird die Summe in einem
Koeffizientenmultiplizierer 48 A so verarbeitet, daß sie
an einem Differenzverstärker 49 eine Beziehung von -6 dB/
Oktave bezüglich des Ausgangssignals f₅ der fünften Filterbank
47 hat, und sie wird dann vom Ausgangssignal f₅ subtrahiert.
Das Ausgangssignal f₅-(f₁+f₂) des Verstärkers
49 wird über eine verstärkende Mittelungsschaltung
50 einem ersten Paar Diskriminatorschaltungen 61, 62
zugeführt. Zwei Diskriminatorschaltungen 63 und 64 sind an
die verstärkende Mittelungsschaltung 54 angeschlossen.
Die Diskriminatorschaltung 63 vergleicht die Ausgangssignale
der verstärkenden Mittelungsschaltung 54 mit dem
Bezugswert R₁, und sie erzeugt ein Signal P₁, das nur
dann einen hohen Wert hat, wenn die Ausgangssignale der
Diskriminatorschaltung 54 größer als der Bezugswert R₁
sind. Die andere Diskriminatorschaltung 64 vergleicht
die gleichen Ausgangssignale der Mittelungsschaltung 54
mit einem weiteren Bezugswert R₂, und sie erzeugt ein
Signal P₂, das nur dann einen hohen Wert hat, wenn die
verglichenen Signale kleiner als der Wert R₂ sind. Zwei
weitere Diskriminatorschaltungen 65 und 66 sind an die
verstärkende Mittelungsschaltung 58 angeschlossen. Die
Diskriminatorschaltung 65 vergleicht dabei die Ausgangssignale
der Mittelungsschaltung 58 mit dem Bezugswert R₃,
und sie erzeugt ein Signal P₃, das nur dann den hohen
Wert hat, wenn die verglichenen Signale größer als der
Bezugswert R₃ sind. Die andere Diskriminatorschaltung 66
vergleicht die gleichen Ausgangssignale der Mittelungsschaltung
58 mit einem Bezugswert R₄, und sie erzeugt
ein Signal P₄, das nur dann den hohen Wert hat, wenn die
verglichenen Signale kleiner als der Bezugswert R₄ sind.
Mit dieser Anordnung werden dem E/A-Anschluß 14 die sechs
Signale V P , UV P und P₁ bis P₄ zugeführt, und der Computer
4 wählt diese Signale in Form von 6-Bit-Signalen P t =
(V Pt , UV Pt , P 1t , P 2t , P 4t ) für die Abstandsberechnung.
Das Ausgangssignal f₁ der ersten Filterbank 9 wird in
einem Koeffizientenmultiplizierer 52 so verarbeitet, daß
es in bezug auf das Ausgangssignal f₂ der zweiten Filterbank
10 eine Beziehung von -6 dB/Oktave hat, und es wird
vom Ausgangssignal f₂ an einem Differenzverstärker 53
subtrahiert, dessen Ausgangssignale über eine verstärkende
Mittelungsschaltung 54 den Diskriminatorschaltungen
63, 64 zugeführt werden. Ein Koeffizientenmultiplizierer
56 sorgt dafür, daß das Ausgangssignal f₃ der dritten
Filterbank 45 eine Beziehung von -6 dB/Oktave bezüglich
des Ausgangssignals f₄ der vierten Filterbank 46 hat, und
das Ausgangssignal f₃ wird von diesem Ausgangssignal f₄
in einem Differenzverstärker 57 subtrahiert, dessen
Ausgangssignale über die verstärkende Mittelungsschaltung
58 den Diskriminatorschaltungen 65, 66 zugeführt werden.
Wenn das aus den Größen V p , UV p , P₁, P₂, P₃, P₄ bestehende
6-Bit-Signal P t = (V Pt , UV Pt , P 1t , P 2t , P 3t , P 4t ) dem
Computer 4 mit einer vorbestimmten Abtastperiode (die in
geeigneter Weise im Bereich von 5 bis 20 ms abhängig von
der Sprechgeschwindigkeit ausgewählt ist) zugeführt wird,
wird dieses Signal P t (Phonemvektor) im Musterspeicher 7
(repräsentiert durch Q st ) oder im Sprachnachrichtenspeicher
15 nur gespeichert, wenn dem Computer 4 das gleiche
Bitmuster nacheinander öfter als eine vorbestimmte Anzahl
(beispielsweise zweimal oder dreimal) zugeführt wird, damit
Fehlerkennungen vermieden werden. Das Bezugsmuster
Q st = (V Pst , UV Pst , P 1st , P 2st , P 3st , P 4st ) kann in der
gleichen Weise wie das oben erwähnte Bit-Signal P t gebildet
werden.
Im Computer 4 wird dann der Abstand zwischen den aus der
gesprochenen Nachricht X(t) gebildeten Signalen, d. h. dem
Phonemvektor P t , und dem Phonemvektor Q st des
Bezugsmusters berechnet. Es ist erkennbar, daß der Abstand zwischen
dem den jeweiligen Phonemen der gesprochenen Nachricht
X entsprechenden Phonemvektor P t und dem den
jeweiligen Phonemen des Bezugsmusters entsprechenden Phonemvektor
Q st unter Verwendung der Antivalenzbeziehung ⊕
ausgedrückt werden kann:
Σ t {Q st -P t } =Σ t { (V Pst ⊕ V Pt )
+ (UV Pst ⊕ UV Pt ) + (P 1st ⊕ P 1t )
+ (P 2st ⊕ P 2t ) + (P 3st ⊕ P 3t ) + (P 4st ⊕ P 4t ) }
Das Bezugsmuster für den Fall, daß der Ausdruck Σ t {Q st -P t }
unter dem vorbestimmten Wert und dem Minimum liegt, also
das "s" entsprechende Muster für den Fall, daß Σ t {Q st -P t }
unter dem vorbestimmten Wert und dem Minimum liegt, soll
als Inhalt
der gesprochenen Nachricht X erkannt werden, und es wird über
die Busleitung 2 und den E/A-Anschluß 14 dem Gerät, beispielsweise
dem Massagegerät, zugeführt, damit dieses einen richtigen
Arbeitsvorgang ausführt.
Für den Fall, daß Σ t {Q st -P t } nicht für alle "s" unterhalb
des vorbestimmten Werts liegt, wird im vorliegenden
Ausführungsbeispiel entschieden, daß kein Bezugsmuster vorliegt, das
auf die gesprochene Nachricht X anwendbar ist und kein
zutreffendes Bezugsmuster existiert, was in anderen Worten bedeutet,
daß die gegebene gesprochene Nachricht X kein richtiger Befehl
ist, so daß eine erneute Eingabe der Nachricht als notwendig
angezeigt wird. Falls der Unterschied zwischen dem Minimumwert
des Ausdrucks Σ t {Q st -P t } und einem nächsten Wert, d. h. dem
vorletzten Wert vor dem Minimum, kleiner als ein vorbestimmter
Wert ist, wird eine erneute Eingabe angefordert, um jede
fehlerhafte Erkennung zu vermeiden. Es ist zu erkennen, daß
erforderlichenfalls dafür gesorgt werden kann, daß ein einziges
Steuersignal für das zu steuernde Gerät mehreren Bezugsmustern
entspricht, so daß die gleiche Tätigkeit des Geräts mit Hilfe
jeweils verschiedener gesprochener Nachrichten erreicht werden
kann.
Die Kapazität des Computers 4 kann im Fall der Ausführungsform
von Fig. 24 beträchtlich mehr reduziert werden, als bei
bekannten Ausführungen. Dies soll anschließend unter Verwendung
des obigen Beispiels der gesprochenen Nachricht |Senakaosasure|
erläutert werden. Da diese Nachricht 13 Phoneme enthält, beträgt
das Volumen des 6-Bit-Signals P t insgesamt 6×13 = 78 Bits.
Ein herkömmlicher 6-Bit-Computer (6-Bit-CPU) erforderte
800 Bytes für die Verarbeitung der gesprochenen Nachricht
einer Länge von 2 Sekunden; mittels der Erfindung kann eine
beträchtliche Reduzierung dieser Verarbeitungszeit erzielt
werden, die sich praktisch aus der Verarbeitung von 20 bis 30
Bytes ergibt. Wenn etwa 16 Typen gesprochener Nachrichten
vorhanden sind, können sie gut erkannt werden, wenn nur das
6-Bit-Signal P t
verwendet wird. Dies läßt sich ohne weiteres daraus erkennen,
daß die sich auf die stimmhaften Laute beziehenden
Signale V und die auf die stimmlosen Laute UV sich
beziehenden Signale sowie die Signale, die sich auf den zweiten
Formanten beziehen, bei dem die Differenz des Frequenzspektrums
der fünf Vokale |a|, |o|, |u|, |e| und |i| am
größten ist, benutzt werden.
In Fig. 7 sind Flußdiagramme dargestellt, die
speziell
für den Fall gelten, daß eine programmierte Verarbeitung im Computer 4
für die von den obigen Ausführungsbeispielen erhaltenen Signale
V für stimmhafte Laute und UV für stimmlose Laute sowie ihre
Impulssignale durchgeführt wird. Das Flußdiagramm von Fig. 7A
ist ein Formungsprogramm für die Signale U und UV, bei dem
ungeformte Signale U und UV (die in einer Liste für ungeformte
Signale enthalten sind) in den Computer 4 eingegeben werden und
zuerst einem Bestimmungsvorgang unterzogen werden, ob ihr
erster Impuls der stumme Laut S ist oder nicht. Wenn der erste
Impuls der stumme Laut S ist, wird dieser Impuls zusammen mit
seiner Länge in eine Liste für geformte Signale eingegeben.
Wenn ein zweiter Impuls der ungeformten Liste beispielsweise
nicht der stumme Laut S ist, wird festgestellt, ob seine Länge
größer als ein vorbestimmter Wert iSR 1 ist oder nicht. Ist seine
Länge nicht größer als dieser Wert, wird der zweite Impuls als
der stumme Laut S interpretiert und in die geformte Liste
eingegeben; ist seine Länge jedoch größer, werden der zweite Impuls
und seine Länge in die geformte Liste geschoben. Der Bestimmungsvorgang
wird an einem dritten Impuls der ungeformten Liste
fortgesetzt, um festzustellen, ob der Impuls einem stummen
Laut S entspricht oder nicht, und ob seine Länge kleiner als
ein vorbestimmter Wert iSR 2 ist oder nicht. Ist seine Länge
nicht kleiner, werden der dritte Impuls und seine Länge so,
als entspräche er einem stummen Laut S, in die geformte Liste
geschoben; ist seine Länge kleiner, wird festgestellt, ob
ein vierter Impuls mit dem zweiten Impuls identisch ist oder
nicht. Liegt keine Identität vor, werden der dritte Impuls
und seine Länge so, als entspräche er dem stummen Laut S, in
die geformte Liste geschoben, während für den Fall der Identität
der dritte Impuls so modifiziert wird, daß er gleich
dem zweiten und vierten Impuls ist, und er wird in die geformte
Liste aufgenommen. Im Anschluß daran wird ein Suchvorgang
durchgeführt, um festzustellen, ob ein erster stummer Laut S
im fünften und in den folgenden Impulsen der ungeformten Liste
vorhanden ist. Es wird festgestellt, ob der jüngste stumme
Laut S kleiner als der Wert iSR 2 ist oder nicht, und im
Anschluß daran werden die gleichen Vorgänge wiederholt, die
oben beschrieben wurden. Wenn die ungeformte Liste auf diese
Weise vollständig für den Formvorgang verarbeitet worden ist,
wird festgestellt, ob der letzte Impuls der Liste ein stummer
Laut S ist oder nicht; liegt ein stummer Laut vor, wird der
letzte stumme Laut S in der geformten Liste weggelassen; liegt
kein stummer Laut vor, wird der Formvorgang beendet.
Da das Formprogramm für die Signale VO der offenen Klänge und
VC der geschlossenen Klänge mit dem obigen Programm von Fig. 7A
für die Signale V und UV völlig übereinstimmt, wird hier nicht
darauf Bezug genommen.
Das in Fig. 7B dargestellte Flußdiagramm gilt für ein Programm
zur Erstellung zusammengesetzter Signale aus den geformten
Signalen V, UV sowie VO und VC. Es wird festgestellt, ob die
jeweiligen Impulse der geformten Liste der Signale V und UV
dem stummen Laut S oder dem stimmlosen Laut UV entsprechen.
Für den Fall, das S oder UV bestimmt wird, werden die Signale
für S oder UV zusammen mit ihrer jeweiligen Länge in eine
Gesamtimpulsliste geschoben. Wenn der Impuls weder S noch
UV entsprach oder die Schiebevorgänge von S und UV in die
Gesamtimpulsliste beendet sind, wird festgestellt, ob ein
offener Klang VO in der geformten Liste der Signale VO für
die offenen Klänge und VC für die geschlossenen Klänge inner
halb der Zeitperiode des stimmhaften Lauts V in der geformten
Liste der Signale V für stimmhafte Laute und UV für stimmlose
Laute vorhanden ist. Wenn VO in der V-Periode vorhanden ist,
wird das Signal VO in die Gesamtimpulsliste geschoben. Falls
VO in der V-Periode nicht vorhanden ist, oder wenn das Schieben
der VO-Signale in die Gesamtimpulsliste beendet ist, wird be
stimmt, ob ein Klangsignal VC in der V-Periode vorhanden ist.
Wenn VC in der V-Periode vorhanden ist, wird das VC-Klang
signal in die Gesamtimpulsliste geschoben. Wenn VC in der
V-Periode nicht vorhanden ist oder das Schieben der VC-Klang
signale in die Gesamtimpulsliste bendet ist, wird festgestellt,
ob ein Signal S für einen stummen Laut in der geformten Liste
der Signale VO und VC in der V-Periode vorhanden ist oder nicht.
Wenn S vorhanden ist, wird dieses Lautsignal als mittlerer
Klang VM interpretiert und in die Gesamtimpulsliste geschoben.
Falls kein Lautsignal S in der V-Periode vorhanden ist oder
das Schieben des Klangsignals VM in die Liste beendet ist, ist
der Vorgang der Erstellung der Gesamtimpulse beendet.
In Fig. 7C ist das Flußdiagramm eines Programms zur hierarchi
schen Klassifizierung der Gesamtimpulsliste dargestellt.
Aus der Liste werden zunächst die Lautsignale V und UV ausge
wählt und entsprechend ihrer Klassifizierung in die erste Rang
ebene eingegeben. Mit n=1, d. h. beim ersten Lautsignal V,
wird festgestellt, ob die Klangsignale VM, VO und VC in der
Liste vorhanden sind. Bei Anwesenheit der Klangsignale VM, VO
und VC werden sie als V (1) in der zweiten Rangebene klassi
fiziert. Im Anschluß daran wird mit n=n+1, also für das
zweite Lautsignal V, festgestellt, ob VM, VO und VC in der
Liste vorhanden sind oder nicht. Die Verarbeitung wird in der
gleichen Weise bis zum letzten Lautsignal V wiederholt. Bei
Beendigung der Verarbeitung bis zum letzten Lautsignal V, bei
dem V(n) in der zweiten Rangebene klassifiziert wird, sind
keine Klangsignale VM, VO oder VC für n+1 vorhanden. Somit
ist erreicht worden, daß die Liste aus "n" Teilen von V(n)
als zweite Rangebene erstellt ist. Wie aus dem Obigen hervor
geht, wird bei der hierarchischen Klassifizierung die aus
den Lautsignalen V, UV und S bestehende Liste als erste Rang
ebene erstellt, und eine weitere Liste mit den Klangsignalen
VM, VO und VC, die das Lautsignal V in der Liste der ersten
Rangebene repräsentieren und nacheinander zu V (1), V (2) . . . V(n)
gemacht werden, wird als die zweite Rangebene erstellt. Ergeb
nisse dieser hierarchischen Klassifizierung sind in Fig. 8
für die gesprochene Nachricht "Senakaosasure" dargestellt.
Fig. 7D zeigt das Flußdiagramm eines Programms zur Normierung
der Längen der in den Listen der ersten und der zweiten Rang
ebene enthaltenen jeweiligen Elemente, die gemäß Fig. 7C
klassifiziert worden sind, wobei gilt: j=1; es wird dabei
festgestellt, ob die Normierung der Liste der ersten Rangebene
beendet worden ist. Falls die Beendigung noch nicht erfolgt
ist, werden die Längen der in der Liste der ersten Rangebene
klassifizierten Elemente normiert. Das heißt, daß zunächst der
Normierungskoeffizient X i =1000/(Σ₁, Y₁) der zu verarbeitenden
gesprochenen Nachricht (die zur "i"-ten gesprochenen Nachricht
gemacht wird) erhalten wird (Y₁ ist dabei die Länge des ersten
Elements der Liste der ersten Rangebene). Im Anschluß daran
wird die erste normierte Länge P ÿ =X i · Y j der Nachricht er
halten (j=1), worauf die Normierung mit j=j+1 wiederholt
wird, bis das letzte Element der Liste der ersten Rangebene
normiert ist (praktische numerische Werte sind in Fig. 8 an
gegeben). Nach Beendigung der Normierung der Liste der ersten
Rangebene wird mit n=1 festgestellt, ob die Liste der
zweiten Rangebene vollständig normiert worden ist oder nicht.
Wenn die Normierung noch nicht beendet worden ist, wird die
Länge des Elements V (1) normiert. Mit k=1 wird festgestellt,
ob die Länge der Elemente von V (1) normiert sind oder nicht.
Ist dies noch nicht der Fall, wird der Normierungskoeffizient
X₁ (1)=1000/(Σ₁ Y₁ (1) gebildet (Y₁ ist dabei die Länge des
ersten Elements von V (1)). Im Anschluß daran wird die erste
normierte Länge P ik (1)=X i (1) · Y k (1) (k=1) für V (1) erhalten.
Die Normierung wird dann bis zum letzten Element von V (1) mit
k=k+1 wiederholt. Nach der Beendigung der Normierung für
V (1) wird die Normierung für V (2) . . . V(n) in der Liste der
zweiten Rangebene mit n=n+1 in der oben beschriebenen Weise
durchgeführt. Nach Beendigung der Normierung für die Liste
der zweiten Rangebene ist die Längennormierung fertig. Eine
Bezugnahme auf Fig. 8 trägt zum weiteren Verständnis des
Normierungsvorgangs bei.
In Fig. 7E ist das Flußdiagramm eines Programms zur Identi
fizierung der in Fig. 7D normierten Signale dargestellt. Bei
einer ersten Identifizierung wird die normierte Liste der
ersten Rangebene mit den Bezugsmustern im Hinblick auf die
Anzahl der jeweiligen Lautsignale V, UV und S in dieser Liste
verglichen. Wenn kein Lautsignal mit kurzer Länge vorhanden
ist, werden die Signale mit den Bezugsmustern verglichen, die
kein kurzes Lautsignal S enthalten, während die Signale, die
das kurze Lautsignal enthalten, verglichen und als Lautsignal
interpretiert werden, die einen Laut UV unmittelbar benachbart
dem kurzen Laut S haben. Bei der Durchführung des Vergleichs
vorgangs wird auch die Normierungszeit betrachtet. Wenn sich
die Nachricht bei der ersten Identifizierung als anwendbar
auf eines der Bezugsmuster erweist, wird eine zweite Identifi
zierung ausgeführt, wozu die normierte zweite Rangebene benutzt
wird. Es werden also V (1) . . . V(n) nacheinander verglichen.
Wie sich aus der Zeichnung ergibt, wird der Vergleichsvorgang
auf vier Wegen durchgeführt, wobei es in diesem Fall aus
reichen soll, wenn sich herausstellt, daß die jeweiligen
Signale Bezugsmustern entsprechen, die bei der ersten Iden
tifizierung in einem der vier Wege ausgewählt worden sind.
Auf dem ersten Weg werden die Bezugsmuster ausgewählt, die
beispielsweise mit V (1) übereinstimmen, worin das Klang
signal VM zum Klangsignal VO oder zum Klangsignal VC gemacht
wird; das oder die Bezugsmuster, die mit V (1) übereinstimmen,
worin die Klangsignale VO und VC gleich dem Klangsignal VM
sind, bleiben übrig. Auf dem zweiten Weg werden die Bezugs
muster ausgewählt, die mit V (1) in der vom Klangsignal VO
besetzten Rate übereinstimmen. Auf dem dritten Weg wird be
stimmt, ob die Hauptkomponente von V (1) eines der Klangsignale
VO, VC und VM ist, und es werden die mit einer solchen Kompo
nente übereinstimmenden Bezugsmuster ausgewählt; es wird dann
festgestellt, ob die zweite Komponente von V (1) gleich einem
der Klangsignale VO, VC und VM ist, worauf das oder die
Bezugsmuster, die in dieser Hinsicht übereinstimmen, übrig
bleiben. Auf dem dritten Weg werden insbesondere die jeweili
gen Komponenten von V (1) nacheinander, beginnend mit denen
mit der größeren Länge, zu dem mit der kürzesten Länge ange
ordnet, und das oder die Bezugsmuster, die in einer solchen
Folge übereinstimmen, werden ausgewählt. Auf dem vierten Weg
werden solche "Punkte", wie sie in der folgenden Tabelle an
gegeben sind, als eine Funktion benutzt, die das Ausmaß der
Übereinstimmung angibt, das dem Abstand zwischen dem Eingangs
muster von V(i) mit (i) von 1 bis n in den Signalen V (1) . . . V(n)
und dem Bezugsmuster entspricht:
Es werden die Bezugsmuster ausgewählt, bei denen die Gesamt
summe der Punkte, die für jeden Abtastwert oder für jeden
der normierten Zeit entsprechenden Abtastwert berechnet sind,
über einem vorbestimmten Wert liegt (die gesamte Abtastzahl
beträgt beispielsweise 1000). Wenn das Eingangsmuster voll
ständig mit dem Bezugsmuster übereinstimmt, ist die gesamte
Abtastzahl gleich der zuvor genannten Gesamtsumme. Der vierte
Weg legt somit die "Punkte" bezüglich des Kurvenverlaufs fest,
doch ist zu erkennen, daß diese Definition bezüglich der sym
bolischen Impulse oder der normierten Längenwerte gemacht
werden kann.
Die auf diese Weise in den jeweiligen vier Wegen ausgewählten
und bezüglich aller V(i) übereinstimmenden Bezugsmuster werden
entnommen, und aus den entnommenen Bezugsmustern wird das opti
male Bezugsmuster ausgewählt, wodurch der Erkennungsvorgang
beendet wird. Wenn das optimale Bezugsmuster ausgewählt werden
kann, soll über die Busleitung 2 und den E/A-Anschluß 14 ein
diesem optimalen Muster entsprechender Befehl zu einem Gerät,
beispielsweise dem Massagegerät 16, gegeben werden, jedoch
sollte vom Sprecher eine erneute Eingabe der gesprochenen Nach
richt verlangt werden, wenn kein optimales Bezugsmuster ausge
wählt werden kann.
Die vier oben beschriebenen Wege sind im Flußdiagramm von
Fig. 7E zwar für die Durchführung der zweiten Identifizie
rung auf der zweiten Rangebene beschrieben worden, doch ist
es auch möglich, einige dieser Wege wegzulassen, falls dies
erforderlich ist.
Bei der Ausführungsform nach Fig. 5 ist offen
sichtlich, daß Ergebnisse weiter an Modelle des menschlichen
Hörorgans angepaßt werden können, wenn ein logarithmischer
Verstärker bei jedem der zwei Eingänge der entsprechenden
Differenzverstärker 49, 53 und 57 oder zwischen die Gleich
richterschaltung und die Mittelungsschaltung in jeder der
fünf Filterbänke 9, 10, 45, 46 und 47 eingefügt wird.
Wie aus der obigen Beschreibung hervorgeht, werden mit Hilfe
der Erfindung mehrere Bezugsmuster bei der Erkennung einer
speziellen gesprochenen Nachricht gebildet, damit ein gewisses
Ausmaß an Freiheit in den Bearbeitungs- und Erkennungsfähig
keiten gewährleistet wird. Experimente haben gezeigt, daß im
Gegensatz zu den Signalen V für stimmhafte Laute und UV für
stimmlose Laute die Signale VO und VC für offene bzw. ge
schlossene Klänge unter dem Einfluß individueller phonetischer
Unterschiede oder einiger anderer Bedingungen variabel sind.
Bei Berücksichtigung dieses Sachverhalts in Bezugnahme auf
die oben erwähnte gesprochene Nachricht /Senakaosasure/ und
auf die die Phonemmuster dieser Nachricht darstellende Fig. 9
ist zu erkennen, daß die Zone des stimmhaften Klangs V wenig
stens zwei unterschiedliche Artikulationen aufweist, während
die Zone des stimmlosen Klangs UV möglicherweise nur in einem
Spezialfall verschwindet, nämlich im Anschluß an den kurzen
stummen Klang S. Aus diesem Grund wird ein Bezugsmuster so
gebildet, daß das Vorhandensein des stimmlosen Klangs UV er
kannt werden kann, ohne Rücksicht darauf, ob er an einer
Stelle im Anschluß an den kurzen stummen Laut S verschwindet
oder nicht. Für den Fall, daß der stimmhafte Laut V unter
der Annahme behandelt wird, daß der mittlere Klang VM zwischen
einem offenen Klang VO und einem geschlossenen Klang VC ent
weder als offener Klang VO oder als geschlossener Klang VC
gesprochen werden kann, sind alle diese Fälle in Fig. 9 ent
halten.
Wenn nur die Signale V für stimmhafte Laute und UV für stimm
lose Laute benutzt werden, kann der Erkennungsvorgang auf der
Basis durchgeführt werden, daß bestimmt wird, ob der stumme
Laut S kurz ist oder nicht, wobei der stimmlose Laut UV nur
dann auf den stummen Laut S folgt, wenn dieser kurz ist.
Falls sowohl die Signale V für stimmhafte Laute und UV für
stimmlose Laute als auch die Signale VO für offene Klänge und
VC für geschlossene Klänge verwendet werden, ist es möglich,
nicht nur die Erscheinung des Verschwindens des stimmlosen
Lauts UV nach dem stummen Laut S, sondern auch die Anwesen
heit und Schwankung des mittleren Klangs VM zu berücksichtigen.
In diesem Fall ist es jedoch notwendig, zuvor die Längen
zu messen. Die obige Verarbeitung bei Anwesenheit des kurzen
stummen Lauts S sollte dabei gleichzeitig durchgeführt werden,
und es kann ein bevorzugtes Ergebnis erreicht werden.
Unter Bezugnahme auf Fig. 10 wird nun die bevorzugte Erstellung
oder Abspeicherung der Bezugsmuster nach der Erfindung erläutert;
Unzuverlässigkeiten und Nichtbestimmtheiten auf Grund phonetischer
Unterschiede der individuellen Sprecher od. dgl. werden
dabei berücksichtigt. Wenn eine ankommende gesprochene Nachricht
verarbeitet werden soll, die einen Abschnitt des stummen Klangs
S → stimmlosen Klangs UV → stimmhaften Klangs V enthält, wird
auch ein Muster mit verschwindendem Klang UV erzeugt. Wenn ein
Abschnitt S → V enthalten ist, wird auch ein Muster mit
einem Abschnitt S → UV → V erzeugt. Wenn die Nachricht
weder den Abschnitt S → UV → V noch den Abschnitt S → V
enthält, wird das Muster beibehalten wie es ist. Im Anschluß
daran wird geprüft, ob sich das Programm im Lernmodus befin
det oder nicht; die weitere Verarbeitung wird durch eine
Reihe von Schritten gemäß Fig. 10 auf der linken Seite fort
gesetzt, wenn sich das Programm im Lernmodus befindet. Ist
dies nicht der Fall, erfolgt der weitere Ablauf durch die
rechts angegebene Folge von Schritten. Für den Fall des Lern
modus werden die Längen oder die normierten Längen der Signale
V für stimmhafte Laute und UV für stimmlose Laute gemittelt
Die Signale werden dann codiert oder in entsprechende Symbole
umgesetzt, was mittels einer entsprechenden Aufteilung in
eine passende Anzahl von Zeitabschnitten für jedes Signal V(i)
erfolgt, und die gleichen Zeitabschnitte, die zum gleichen
Symbol gehören, werden zum Kernabschnitt gemacht, während von
den Kernabschnitten verschiedene Abschnitte zu Zweigen des
Signals VM, der Signale VM und VO oder der Signale VM und VC
gemacht, wonach die Bezugsmuster erzeugt sind. Falls sich
das Programm nicht im Lernmodus befindet, führt der Beginn
des Sprechens zur Erzeugung eines geeigneten Musters aus Signalen
VO und VC, und das Muster wird dann so gebildet, daß es
der mit VO und VC endenden Sprache entspricht, während der
Zwischenabschnitt in geeigneter Weise entsprechend VC → VO
und VO → VC verarbeitet wird, wodurch die Bezugsmuster erstellt
worden sind; das zuletzt erstellte Bezugmuster wird in den
Bezugsmusterspeicher 7 geschrieben.
Mit Bezugnahme auf die Fig. 11 bis 13 erfolgt nun die
Erläuterung weiterer Einzelheiten der oben erwähnten Schritte
der Erzeugung von Bezugsmustern mit Hilfe des Lernmodus. Das
in Fig. 11 dargestellte Flußdiagramm kann sowohl für den glei
chen Sprecher als auch für mehrere verschiedene Sprecher ange
wendet werden; die folgenden Erläuterungen gelten jedoch für
den Fall, daß der gleiche Sprecher eine gesprochene Nach
richt mehrmals (im vorliegenden Fall fünfmal) wiederholt.
Zu Beginn wird der Zeitbereich in zehn Abschnitte unterteilt,
wie in Fig. 12A zu erkennen ist (jeder Abschnitt kann bei
spielsweise eine Länge von 5 ms haben, doch kann er auch
kürzer sein). Wenn die normierte Länge geteilt werden soll,
sollten die geteilten Bereiche abhängig von den gegebenen
Wörtern in einer geeigneten Anzahl vorhanden sein. Nach der
Teilung werden die Zeitbereiche, in denen sich die Symbole
(VO, VC, VM und dergleichen) nicht ändern, zum Kernbereich
gemacht. Bei den Mustern (a) bis (e) in Fig. 12A werden die
Bereiche der Symbole VO zum Kernbereich gemacht. Nachdem auf
diese Weise der Kernbereich erhalten worden ist, werden die
Zeitbereiche mit variierenden Symbolen zu einem VM-Bereich
gemacht (siehe Fig. 12A und Fig. 12B), wodurch nun ein Bezugs
muster A mit einem Kernbereich VO gebildet worden ist (Fig. 12B).
Wenn ein Muster vorliegt, das in den gleichen Zeitbereichen
die Symbole VM oder VC enthält, wird eine Verzweigung des
Symbols VC für das Symbol VM im Bezugsmuster A gebildet (siehe
Fig. 12A und Fig. 12C). Wenn entweder VO oder VC in den glei
chen Zeitbereichen vorhanden ist, werden die Zeitbereiche zu
einem VM-Bereich gemacht, wodurch ein Bezugsmuster B erstellt
wird, in dem Verzweigungen zum Muster A hinzugefügt sind
(Fig. 12C). Mit dieser Erstellung der Bezugsmuster A und B
sind die Schritte zur Bildung der Bezugsmuster im Lernmodus
beendet. Der Betriebsablauf schreitet dann zum Schreibschritt
gemäß Fig. 10 weiter, bei dem die Bezugsmuster A und B in den
Speicher 7 geschrieben werden. Bei der obigen Erstellung der
Bezugsmuster im Lernmodus ist es notwendig, den Verstärkungs
faktor beispielsweise an der Eingangsseite der Differenzver
stärker von Fig. 5 in einem ausgeglichenen Zustand zu
halten. Zu diesem Zweck wird der Verstärkungsfaktor so einge
stellt, daß sich bei einer Artikulation von |a| das Klangsignal
VO und bei einer Artikulation von |i| das Klangsignal VC er
gibt. Wegen der vom Sprecher abhängigen vorhandenen phonetischen
Unterschiede ist es insbesondere für den Erkennungsvorgang
vorteilhaft, wenn die Schaltungsanordnung so ausgebildet
wird, daß sie eine automatisch durchgeführte Verstärkungs
abgleicheinstellung aufweist, so daß das Ausgangssignal des
Differenzverstärkers bei einem natürlich artikulierten Vokal
|e| nur bei Ankunft eines (nicht dargestellten) Abgleichein
stellsignals den Wert "0" hat. Mit dieser Abgleicheinstellung
ist es möglich, nicht determinative Bezugsmuster zu erstellen,
ohne daß es notwendig ist, die gleiche gesprochene Nachricht
wiederholt zu sprechen und sie zu lernen, wie in dem Fluß
diagramm von Fig. 13 angegeben ist.
Fig. 13 zeigt Einzelheiten der Schritte zur Bezugsmuster
erstellung für den Fall, daß kein Lernmodus vorliegt, wobei bei
der Darstellung der Signale V für stimmhafte Laute und UV für
stimmlose Laute die V-Signale nacheinander verarbeitet werden.
Wenn die jeweiligen V-Artikulationen mit einem VC-Klang be
ginnen, wird ein VM-Zweig hinzugefügt. Wenn anstelle eines
Beginns mit einem VC-Klang mit einem VO-Klang begonnen wird,
werden VC- und VM-Zweige parallel zwischen den Start und
VO hinzugefügt, und ein VM-Zweig wird parallel zu VO hinzuge
fügt. Wenn die V-Artikulationen anders als mit einem VC- oder
VO-Klang beginnen, werden sie zu einem VM-Klang gemacht.
Wenn die V-Artikulationen mit einem VC-Klang enden, wird ein
paralleler VM-Zweig zu VC hinzugefügt. Wenn sie mit einem
VO-Klang enden, werden sie so ausgebildet, daß sie mit
VO → VC enden, und zu VO und VC wird ein paralleler VM-Zweig
hinzugefügt. Wenn keine Endung mit dem Klang VC oder dem Klang
VO vorliegt, werden die Artikulationen so ausgelegt, als endeten
sie mit dem Klang VM.
Wenn im Verlauf eines Lauts V ein Abschnitt VC → VO vorhanden
ist, wird parallel zu VC und zu VO ein VM-Zweig hinzugefügt.
Bei Fehlen eines Abschnitts VC → VO, jedoch in Anwesenheit
eines Abschnitts VO → VC, wird zu VO und zu VC ein VM-Zweig
hinzugefügt. Wenn die Artikulationen weder mit einem Ab
schnitt VC → VO noch mit einem Abschnitt VO → VC enden, werden
sie so ausgelegt, als endeten sie mit dem Klang VM.
Damit sind die Schritte zur Bezugsmustererstellung für den
Fall beendet, daß der Lernmodus nicht vorliegt. Der Betriebs
ablauf schaltet dann zu dem Bezugsmuster-Schreibschritt
weiter, der in Fig. 10 angegeben ist, bei dem die so gebil
deten Bezugsmuster in den Speicher geschrieben werden.
Beim Lesen der obigen Bezugnahmen auf die Fig. 7A bis
7E und 10 bis 13 wird erkennbar, daß die Bezugsmuster so
erstellt werden können, daß gesprochene Nachrichtenmuster
erfaßt werden, wie sie in Fig. 8 dargestellt sind. Durch die
Erfindung
werden alle die aufeinanderfolgenden
Artikulationen gemäß Fig. 8 begleitenden Schwankungen in
ausreichender Weise erfaßt. Aus Fig. 8 ist natürlich
klar erkennbar, daß die Signale V für stimmhafte Laute und
UV für stimmlose Laute richtig verarbeitet werden, wenn sie
Signale S für einen kurzen stummen Klang zwischen V- und UV-
Signalen oder VO- und VC-Signalen enthalten. Es kann eine
Tendenz dafür erkennbar sein, daß Signale VM für einen mittleren
Klang zwischen V- und UV-Signalen oder zwischen VO-
und VC-Signalen eingefügt sind, doch werden auch solche Nach
richten richtig verarbeitet. Somit ist klar, daß durch die
Erfindung unerwünschte Einflüsse aufgrund von Schwankungen
des Phonemmusters der gesprochenen Nachricht in Begleitung
von individuellen phonetischen Unterschieden, Betonungsver
schiebungen unter verschiedenen Bedingungen und dergleichen
in wirksamer Weise beseitigt werden können. Dies bedeutet in
anderen Worten, daß durch die Erfindung die Abschnitte mit
geringeren Schwankungen im Phonemmuster der gesprochenen Nach
richt zum Kernabschnitt des zu erstellenden Bezugsmusters ge
macht werden, während andere Abschnitte mit vielen Schwankungen
zum Restabschnitt gemacht werden. Das Erkennen oder das
Bezugsmustererstellen wird zunächst in bezug auf den Kernab
schnitt und dann in bezug auf den Restabschnitt durchgeführt,
wobei ein nichtdeterminativer Charakter oder ein vorbestimmter
Freiheitsgrad erhalten wird. Es ist somit möglich, die Kapazität
des jeweiligen Computers und des Speichersystems und somit
auch die erforderliche Verarbeitungszeit beträchtlich herab
zusetzen. Das zutreffende Bezugsmuster
wird sogar mit einer einzigen Eingabe der gesprochenen Nachricht
durch Verarbeitung im Computer erstellt, ohne daß ein Lern
modus zugrunde gelegt wird, so daß die Bezugsmuster also in
höchst wirksamer Weise erstellt werden können.
Claims (5)
1. Verfahren zur Spracherkennung, bei dem gesprochene
Nachrichten wiederholt eingegeben und durch Analyse in
mehrere Frequenzbänder zerlegt werden, die in den jeweiligen
Frequenzbändern enthaltenen Energieanteile gemessen
werden und eine Frequenzbandverteilung dieser Energiewerte
zum Erkennen des Inhalts der gesprochenen Nachrichten mit
Bezugsmustern verglichen wird, dadurch gekennzeichnet, daß
zur Erstellung der Bezugsmuster:
- a) aufgrund der Frequenzbandverteilung Signale für stimmhafte Klänge V abgeleitet werden und die stimmhaften Klänge V unterschieden werden in offene Klänge VO, geschlossene Klänge VC und mittlere Klänge VM, je nachdem, ob der Signalpegel oberhalb eines ersten Schwellwertes, unterhalb eines zweiten Schwellwertes oder zwischen diesen Schwellwerten liegt,
- b) während der verschiedenen Eingaben der gesprochenen Nachricht ein Kernabschnitt des entsprechenden Bezugsmusters gebildet wird aus den miteinander übereinstimmenden, gleichzeitig auftretenden Signalen für stimmhafte Klänge V und
- c) die gleichzeitig auftretenden, jedoch nicht miteinander übereinstimmenden Signale für stimmhafte Klänge V jeweils als ein mittlerer Klang VM des Bezugsmusters dargestellt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß bei der Erstellung der Bezugsmuster außer dem Kernabschnitt
mehrere Bezugsmusterzweige gebildet werden, nämlich
- d) für einen in den mehreren Eingaben auftretenden mittleren Klang VM wird, wenn in wenigstens einer anderen Eingabe in demselben Zeitabschnitt, in dem dieser mittlere Klang VM auftritt, ein offener Klang VO auftritt, ein Zweig mit einem offenen Klang VO hinzugefügt;
- e) für einen in den mehreren Eingaben auftretenden mittleren Klang VM wird, wenn in wenigstens einer anderen Eingabe in demselben Zeitabschnitt, in dem dieser mittlere Klang VM auftritt, ein geschlossener Klang VC auftritt, ein Zweig mit einem geschlossenen Klang VC hinzugefügt;
- f) ein in den mehreren Eingaben auftretender mittlerer Klang VM wird, wenn während desselben Zeitabschnitts, in dem dieser mittlere Klang VM auftritt, in wenigstens einer anderen Eingabe ein offener Klang VO auftritt und in wenigstens einer weiteren Eingabe ein geschlossener Klang VC auftritt, als mittlerer Klang VM beibehalten.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet,
daß
- g) jeweils ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn stimmhafte Laute der Nachricht entweder mit einem geschlossenen Klang VC oder einem offenen Klang VO beginnen, wobei stimmhafte Anfangslaute, die von offenen Klängen VO und geschlossenen Klängen VC abweichen, als mittlerer Klang VM in dem Zweig auftreten,
- h) für einen geschlossenen Klang VC ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn stimmhafte Laute mit einem geschlossenen Klang VC und einem offenen Klang VO enden, wobei der geschlossene Klang VC neben dem offenen Klang VO hinzugefügt wird und ein Zweig mit einem offenen Klang VO zu VO-VC und VO hinzugefügt wird und wobei ein stimmhafter Endlaut, der kein geschlossener Klang VC oder offener Klang VO ist, als mittlerer Klang VM in Erscheinung tritt,
- i) für einen offenen Klang VO und für einen geschlossenen Klang VC ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn der offene Klang VO und der geschlossene Klang VC aufeinanderfolgend in den jeweiligen stimmhaften Lauten der Nachricht vorhanden sind, wobei der mittlere Klang VM eingefügt wird, wenn keine aufeinanderfolgenden offenen und geschlossenen Klänge VO, VC auftreten.
4. Verfahren nach Anspruch 2 oder 3, dadurch
gekennzeichnet, daß
- j) ein in der gesprochenen Nachricht auftretender stummer Laut S durch einen Zweig mit einem stimmhaften Laut V überbrückt wird, wenn ein Abschnitt mit aufeinanderfolgend einem stummen Laut S, einem stimmlosen Laut UV und einem stimmhaften Laut V vorhanden ist, während ein Zweig mit einem stimmlosen Laut UV zwischen einem stummen Laut S und einem stimmhaften Laut V hinzugefügt wird, wenn ein Abschnitt mit aufeinanderfolgend einem stummen Laut S und einem stimmhaften Laut V vorhanden ist.
5. Vorrichtung zur Durchführung des Verfahrens nach
einem der vorstehenden Ansprüche, gekennzeichnet durch
- a) eine erste Filterbank (9) zum Auswählen der in einem Bereich von 0 bis 0,5 kHz liegenden Energieanteile der Nachricht,
- b) eine zweite Filterbank (10) zum Auswählen der in einem Bereich von 0,5 bis 1,0 kHz liegenden Energieanteile der Nachricht,
- c) eine dritte Filterbank (45) zum Auswählen der in einem Bereich von 0,8 bis 1,8 kHz liegenden Energieanteile der Nachricht,
- d) eine vierte Filterbank (46) zum Auswählen der in einem Bereich von 1,8 bis 3,2 kHz liegenden Energieanteile der Nachricht,
- e) eine fünfte Filterbank (47) zum Auswählen der in einem Bereich von 5 bis 12 kHz liegenden Energieanteile der Nachricht,
- f) einen ersten Differenzverstärker (49), der die Ausgangssignale der ersten Filterbank (9) und der zweiten Filterbank (10) gemeinsam von Ausgangssignalen der fünften Filterbank (47) substrahiert,
- g) einen zweiten Differenzverstärker (53), der die Ausgangssignale der ersten Filterbank (9) von Ausgangssignalen der zweiten Filterbank (10) subtrahiert,
- h) einen dritten Differenzverstärker (57), der die Ausgangssignale der dritten Filterbank (45) von Ausgangssignalen der vierten Filterbank (46) subtrahiert,
- i) mehrere Paare von Diskriminatorschaltungen (61, 62; 63, 64; 65, 66), von denen das erste Paar (61, 62) aus dem Ausgangssignal des ersten Differenzverstärkers (49) Anzeigesignale für stimmhafte Laute V oder stimmlose Laute UV ableitet, das zweite Paar (63, 64) aus dem Ausgangssignal des zweiten Differenzverstärkers (53) Anzeigesignale für offene Klänge VO, geschlossene Klänge VC und mittlere Klänge ableitet und das dritte Paar (65, 66) aus dem Ausgangssignal des dritten Differenzverstärkers (57) Anzeigesignale für alle übrigen Laute ableitet,
- j) eine erste Speicherschaltung (15) zum Speichern der von den Diskriminatorschaltungen (61-66) erzeugten Anzeigesignale,
- k) eine zweite Speicherschaltung (7) zum Speichern der Bezugsmuster und
- l) einen Computer (4), der die Abspeicherung der von den Diskriminatorschaltungen (61-66) abgegebenen Anzeigesignale in der ersten Speicherschaltung (15) in codierter Form bewirkt und der diese Anzeigesignale mit den jeweiligen Bezugsmustern vergleicht.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19823249698 DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19823249698 DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
DE19823200645 DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3249698C2 true DE3249698C2 (en) | 1987-11-26 |
Family
ID=6152886
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823200645 Granted DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
DE19823249698 Expired DE3249698C2 (en) | 1982-01-12 | 1982-01-12 | Method for speech recognition and device for carrying out this method |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823200645 Granted DE3200645A1 (de) | 1982-01-12 | 1982-01-12 | "verfahren und vorrichtung zur spracherkennung" |
Country Status (1)
Country | Link |
---|---|
DE (2) | DE3200645A1 (de) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2297528A (en) * | 1941-12-12 | 1942-09-29 | Bell Henry Barto | Fraud prevention device for meters |
US3946157A (en) * | 1971-08-18 | 1976-03-23 | Jean Albert Dreyfus | Speech recognition device for controlling a machine |
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE957235C (de) * | 1953-04-21 | 1957-01-31 | Nordwestdeutscher Rundfunk Ans | Verfahren zur UEbertragung oder Speicherung von Schallereignissen, bei dem der zu uebertragende Frequenzbereich in zwei getrennte Bereiche aufgeteilt wird |
US3588363A (en) * | 1969-07-30 | 1971-06-28 | Rca Corp | Word recognition system for voice controller |
DE2400027A1 (de) * | 1973-01-08 | 1974-07-25 | Xerox Corp | Verfahren und vorrichtung zum erkennen von worten |
-
1982
- 1982-01-12 DE DE19823200645 patent/DE3200645A1/de active Granted
- 1982-01-12 DE DE19823249698 patent/DE3249698C2/de not_active Expired
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2297528A (en) * | 1941-12-12 | 1942-09-29 | Bell Henry Barto | Fraud prevention device for meters |
US3946157A (en) * | 1971-08-18 | 1976-03-23 | Jean Albert Dreyfus | Speech recognition device for controlling a machine |
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
Non-Patent Citations (1)
Title |
---|
Winckel, Fritz, Grundlagen der natürlichen und elektronischen Spracherkennung, In: ETZ-B., 1967, Bd. 19, H. 23, S. 673-678 * |
Also Published As
Publication number | Publication date |
---|---|
DE3200645C2 (de) | 1987-06-25 |
DE3200645A1 (de) | 1983-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3783154T2 (de) | Spracherkennungssystem. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE2918533C2 (de) | ||
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE19636739C1 (de) | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3733659C2 (de) | ||
DE68914032T2 (de) | Spracherkennungssystem. | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE102010040553A1 (de) | Spracherkennungsverfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
Q172 | Divided out of (supplement): |
Ref country code: DE Ref document number: 3200645 |
|
8110 | Request for examination paragraph 44 | ||
8181 | Inventor (new situation) |
Free format text: OMURA, KOICHI, OSAKA, JP YUASA, HIROYOSHI, HIRAKATA, OSAKA, JP |
|
8125 | Change of the main classification |
Ipc: G01L 1/00 |
|
AC | Divided out of |
Ref country code: DE Ref document number: 3200645 Format of ref document f/p: P |
|
AC | Divided out of |
Ref country code: DE Ref document number: 3200645 Format of ref document f/p: P |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |