DE3249698C2 - Method for speech recognition and device for carrying out this method - Google Patents

Method for speech recognition and device for carrying out this method

Info

Publication number
DE3249698C2
DE3249698C2 DE19823249698 DE3249698A DE3249698C2 DE 3249698 C2 DE3249698 C2 DE 3249698C2 DE 19823249698 DE19823249698 DE 19823249698 DE 3249698 A DE3249698 A DE 3249698A DE 3249698 C2 DE3249698 C2 DE 3249698C2
Authority
DE
Germany
Prior art keywords
sound
sounds
signals
voiced
open
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19823249698
Other languages
English (en)
Inventor
Koichi Osaka Jp Omura
Hiroyoshi Hirakata Osaka Jp Yuasa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to DE19823249698 priority Critical patent/DE3249698C2/de
Application granted granted Critical
Publication of DE3249698C2 publication Critical patent/DE3249698C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung bezieht sich auf ein Verfahren zur Spracherkennung nach dem Oberbegriff des Patentanspruchs 1 sowie auf eine Vorrichtung zur Durchführung dieses Verfahrens gemäß dem Oberbegriff des Patentanspruchs 5.
Für ein solches Verfahren und eine solche Vorrichtung ist aus der US-PS 39 46 157 eine Methode bekannt, bei der zeitliche Schwankungen der Sprachenergie E der mittels eines Mikrophons erfaßten Nachricht in einem vorbestimmten Frequenzband (200 bis 3400 Hz) gemessen werden, dann die zeitliche Ableitung dE/dt der zeitlichen Schwankungen der Energie E bestimmt wird und weiterhin zusätzlich die Energieverteilung E B im Frequenzband von 200 bis 800 Hz, die Energieverteilung E M im Frequenzband von 800 bis 1600 Hz und die Energieverteilung E H im Frequenzband von 1600 bis 3400 Hz gemessen werden. Wenn die Energie E vorhanden ist, während der Impuls der Ableitung dE/dt niedrig ist und ein hoher Impuls der Energieverteilung E H vorhanden ist, wird der Klang als |S | unterschieden, also als ein stimmloser Reiblaut. Wenn die Energie E vorhanden ist, während der Impuls der Ableitung dE/dt hoch ist und ein hoher Impuls in der Energieverteilung E H vorhanden ist, wird der Klang als |T | unterschieden, d. h. als stimmloser Sprenglaut. Wenn die Energie E vorhanden ist und auch in der Energieverteilung E M ein hoher Impuls vorhanden ist, wird der Klang als |A | unterschieden, d. h. als stimmhafter mittlerer Vokal. Bei Anwesenheit der Energie E und eines hohen Impulses in der Energieverteilung E B wird der Klang als |O | unterschieden, d. h. als stimmhafter tiefer Vokal. Außerdem wird der Klang als |I | unterschieden, also als stimmhafter hoher Vokal, wenn die Energie E vorhanden ist und die Energieverteilungen E B und E H gleichzeitig einen hohen Impuls enthalten. Diese Unterscheidungen werden in einer ersten Logikschaltung ausgeführt, und der Inhalt der gesamten gesprochenen Nachricht wird durch Vergleich der Ausgangssignale der ersten Logikschaltung mit einer Codetabelle in einer zweiten Logikschaltung erkannt. In dieser Anordnung wird jedoch eine Differenzierschaltung benötigt, und es gilt, daß zum Erkennen eines nasalen Konsonanten |N |, einer geflüsterten Nachricht oder dergleichen die Energie der gesprochenen Nachricht in jedem einer größeren Anzahl von Frequenzbändern gemessen werden muß. Das bekannte Verfahren war daher in mancher Hinsicht nachteilig. Wenn die gesprochene Nachricht in einem aus mehreren Wörtern bestehenden Satz vorliegt, kann sie mittels dieses Verfahrens nicht verarbeitet werden.
Aus der US-PS 22 97 528 ist ferner ein Verfahren zur Spracherkennung bekannt, bei welchem eine gesprochene Nachricht wiederholt eingegeben und durch Analyse in mehrere Frequenzbänder zerlegt wird, die in den jeweiligen Frequenzbändern enthaltenen Energieanteile gemessen werden und eine Frequenzbandverteilung dieser Energiewerte mit einem abgespeicherten Bezugsmuster verglichen wird, um den Inhalt der gesprochenen Nachricht zu erkennen. Durch die wiederholte Eingabe der Nachricht wird das Bezugsmuster jeweils verfeinert. Die Phoneme der gesprochenen Nachricht werden nach Umsetzung in die Digitalform und Datenkompression sowie Normierung zu einem Bezugsmuster weiterverarbeitet. Das Bezugsmuster besteht somit aus einer sehr großen Anzahl von Daten. Die Handhabung einer so großen Anzahl von Daten erfordert einen hohen Aufwand und viel Rechenzeit.
Der Erfindung liegt die Aufgabe zugrunde, bei einem Spracherkennungsverfahren mit einfachen Mitteln die Erkennung einer gesprochenen Nachricht unabhängig von phonetischen Unterschieden bei der Aussprache dieser Nachricht durch dieselben oder verschiedene Personen zu ermöglichen.
Diese Aufgabe wird bei dem gattungsgemäßen Verfahren durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.
Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind in den Ansprüchen 2 bis 4 angegeben. Eine Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens ist im Patentanspruch 5 angegeben.
Die Erfindung beruht auf der Erkenntnis, daß in individuell unterschiedlich gesprochenen Nachrichten gewisse Kernabschnitte stets übereinstimmen, andere hingegen zwar voneinander abweichen, jedoch Gemeinsamkeiten aufweisen, die als mittlere Klänge definiert werden können.
Die Erfindung wird nun unter Bezugnahme auf die Zeichnung beispielshalber erläutert. Es zeigt
Fig. 1 ein Blockschema zur Erläuterung der Zerlegung von Phonemelementen in einer gesprochenen Nachricht,
Fig. 2 das Frequenzspektrum der als Beispiel betrachteten gesprochenen japanischen Nachricht "Senakaosasure",
Fig. 3 ein Diagramm mit Signalen V für stimmhafte Laute und Signalen UV für stimmlose Laute in derselben Nachricht,
Fig. 4 ein Diagramm mit Signalen VO und VC für offene und geschlossene Klänge in derselben Nachricht,
Fig. 5 ein Schaltbild einer Ausführungsform einer Vorrichtung zur Durchführung des Verfahrens,
Fig. 6A bis 6C Diagramme zur Erläuterung der Wirkungsweise der Schaltung nach Fig. 5,
Fig. 7A bis 7E Flußdiagramme für weitere Ausführungsbeispiele des Erkennungsverfahrens,
Fig. 8 ein Diagramm zur genaueren Erläuterung der Vorgänge bei den in den Fig. 7C und 7D dargestellten Verfahren für die gesprochene Nachricht "Senakaosasure",
Fig. 9 schematische Phonemmuster der Nachricht "Senakaosasure", wobei "V/UV" der nur durch stimmhafte Laute V, stimmlose Laute UV und stumme Laute S gekennzeichnete Fall ist, "V (1)" bis "V (4)" speziellere Muster jeweiliger stimmhafter Laute V in der Nachricht bedeuten, von einem Kreis umgebene Ziffern an den jeweiligen Wegen Sprechhäufigkeiten für den Fall von aufeinanderfolgenden fünf Sprechvorgängen angeben, die zeitliche Länge der jeweiligen Kästchen normierte Längen von Klängen angeben und schraffierte Abschnitte jeweilige Perioden stummer Laute S und mittlerer Klänge VM am Übergang von einem Phonem zum anderen bedeuten,
Fig. 10 ein Flußdiagramm, das die Bezugsmustererzeugung darstellt,
Fig. 11 ein Flußdiagramm zur genauen Erläuterung eines Teils des Schritts zur Erzeugung der Bezugsmuster in Fig. 10,
Fig. 12A bis 12C erläuternde Darstellungen zum Flußdiagramm von Fig. 11 und
Fig. 13 ein Flußdiagramm mit weiteren Einzelheiten eines Teils des Schritts zur Bezugsmustererzeugung von Fig. 10.
Nach dem in Fig. 1 dargestellten Schema zur Erkennung von Phonemelementen einer gesprochenen Nachricht soll eine von einem Sprecher gesprochene Nachricht dadurch erkannt werden, daß in selektiver Weise die in der gesprochenen Nachricht enthaltenen Phoneme P in stimmhafte Laute V und in stimmlose Laute UV(STEP(PV/UV)) getrennt werden, die stimmlosen Laute UV in Reiblaute F und Sprenglaute PL(STEP(UVF/PL)) unterteilt werden und die stimmhaften Laute V in offene Klänge VO, d. h. Klänge mit hoher Energie des ersten Formanten, und in geschlossene Klänge VC, d. h. in Klänge mit niedriger Energie im ersten Formanten (STEP(VVO/VC)) unterteilt werden.
Bei der in Fig. 5 dargestellten Ausführungsform werden Tasten eines Tastenfeldes 1 betätigt, und ein Startbefehl zum Schreiben von Bezugsmustern wird anfänglich in einen Betriebsspeicher RAM 3 über eine Busleitung 2 eingespeichert. Wenn ein in einem Computer CPU 4 ausgeführtes Programm den Vorgang des Schreibens des Bezugsmusters erreicht, wird der Startbefehl aus dem Betriebsspeicher 3 gelesen, und als Reaktion auf diesen Befehl wird aus einem Programmspeicher ROM 5 ein Bezugsmuster-Schreibprogramm gelesen; als Reaktion auf dieses Programm bewirkt der Computer 4 das Abspeichern der über das Tastenfeld 1, das Mikrophon 6 oder eine andere geeignete Einrichtung gelieferten Bezugsmuster in einem Speicher 7. Im vorliegenden Fall soll auf die über das Mikrophon 6 gelieferten Bezugsmuster Bezug genommen werden. Wenn das Bezugsmuster der als Beispiel verwendeten Anweisung "Senakaosasure" (der der Anweisung "Massiere den Rücken" entspricht) mit dem in Fig. 7 dargestellten Spektrum in das Mikrophon 6 eingegeben wird, wird es durch einen Vorverstärker 8 geschickt und an einer Filterbank 9 angelegt.
In Fig. 2 ist die Frequenz in kHz auf der Abszisse angegeben, und die Energie ist an der Ordinate angegeben; jede Abtastlinie gibt ein Phonemspektrum bei jeweils 10 ms an. Außerdem sind auch die entsprechenden Phoneme der Nachricht "Senakaosasure" angegeben. In Fig. 3 sind die Signale V und UV für die stimmhaften Laute bzw. die stimmlosen Laute angegeben, die gemäß den Spektren von Fig. 2 erhalten wurden; die den Abtastlinien von Fig. 2 entsprechenden Werte sind dabei an der Abszisse aufgetragen, wobei der Kurvenverlauf so ausgeführt ist, daß er den jeweiligen Zuständen entspricht, bei denen die Abtastlinien stimmhafte Laute zeigen (d. h. Werte über einen vorbestimmten ersten Wert auf der positiven Seite haben) oder stimmlose Laute zeigen (d. h. Werte unterhalb eines vorbestimmten zweiten Werts auf der negativen Seite haben). Die Signale V und UV für stimmlose bzw. stimmhafte Laute werden einem A/D-Umsetzer 13 über die Mittelungsschaltung 12 zugeführt, damit sie digitalisiert werden, und sie werden dann über E/A-Anschluß 14 in den Speicher 7 eingegeben. Auf diese Weise wird der Schreibvorgang der Bezugsmuster beendet, jedoch können durch den gleichen Vorgang auch weitere Bezugsmuster in den Speicher 7 geschrieben werden.
Bei der in Fig. 5 gezeigten Ausführungsform wird die über das Mikrophon 6 erhaltene gesprochene Nachricht X(t) nach Verstärkung im Verstärker 8 den Eingängen der ersten Filterbank 9, der zweiten Filterbank 10, der dritten Filterbank 45, der vierten Filterbank 46 und der fünften Filterbank 47 zugeführt. Diese Filterbänke enthalten jeweils eine Serienschaltung aus einem Filter, einer Gleichrichterschaltung und einer Mittelungsschaltung, die eine Integrationsschaltung enthält. Das Filter der ersten Filterbank 9 läßt eine Frequenzkomponente unter 0,5 kHz durch, das Filter der zweiten Filterbank 10 läßt eine Frequenzkomponente von 0,5 bis 1,0 kHz durch, das Filter in der dritten Filterbank 45 läßt eine Frequenzkomponente von 0,8 bis 1,8 kHz durch, das Filter in der vierten Filterbank 46 läßt eine Frequenzkomponente von 1,8 bis 3,2 kHz durch. Die Integrationsschaltung hat eine Zeitkonstante von etwa 5,5 ms in der ersten Filterbank 9 und in der zweiten Filterbank 10 sowie eine Zeitkonstante von etwa 3 ms in der dritten Filterbank 45 und in der vierten Filterbank 46. Durch Bezugnahme auf die Fig. 6A bis 6C ist erkennbar, daß mittels der dritten Filterbank 45 und der vierten Filterbank 46 Ausgangssignale erzeugt werden, die den Artikulationen an den vorderen und hinteren Bereichen einer Zungenlage, bezüglich des zweiten Formanten in zweifacher Hinsicht unterteilt, erzeugt werden. Fig. 6A zeigt die Artikulationspunkte für |a|, |e|, |i|, |o| und |u|; Fig. 6B zeigt die Beziehungen des ersten Formanten F₁ und des zweiten Formanten F₂ zwischen den jeweiligen Vokalen |a|, |e|, |i|, |o| und |u|, und Fig. 6C zeigt ebenfalls die F₁- und F₂-Beziehungen zwischen diesen Vokalen, insbesondere für den Fall der japanischen Sprache. Die Artikulationspunkte sind in der japanischen Sprache für diese Vokale ein wenig nach innen verschoben.
In der fünften Filterbank 47 läßt das Filter eine Frequenzkomponente von 5,0 bis 12,0 kHz durch, und die Integrationsschaltung hat eine Zeitkonstante von etwa 1 ms. Die Mittelungsschaltungen in den Filterbänken 9, 10, 45, 46 und 47 haben eine Grenzfrequenz von 29 Hz, 29 Hz, 53 Hz, 53 Hz bzw. 159 Hz.
Ausgangssignale f₁ und f₂ der ersten Filterbank bzw. der zweiten Filterbank werden in einer Additionsschaltung 48 addiert, und im Anschluß daran wird die Summe in einem Koeffizientenmultiplizierer 48 A so verarbeitet, daß sie an einem Differenzverstärker 49 eine Beziehung von -6 dB/ Oktave bezüglich des Ausgangssignals f₅ der fünften Filterbank 47 hat, und sie wird dann vom Ausgangssignal f₅ subtrahiert. Das Ausgangssignal f₅-(f₁+f₂) des Verstärkers 49 wird über eine verstärkende Mittelungsschaltung 50 einem ersten Paar Diskriminatorschaltungen 61, 62 zugeführt. Zwei Diskriminatorschaltungen 63 und 64 sind an die verstärkende Mittelungsschaltung 54 angeschlossen. Die Diskriminatorschaltung 63 vergleicht die Ausgangssignale der verstärkenden Mittelungsschaltung 54 mit dem Bezugswert R₁, und sie erzeugt ein Signal P₁, das nur dann einen hohen Wert hat, wenn die Ausgangssignale der Diskriminatorschaltung 54 größer als der Bezugswert R₁ sind. Die andere Diskriminatorschaltung 64 vergleicht die gleichen Ausgangssignale der Mittelungsschaltung 54 mit einem weiteren Bezugswert R₂, und sie erzeugt ein Signal P₂, das nur dann einen hohen Wert hat, wenn die verglichenen Signale kleiner als der Wert R₂ sind. Zwei weitere Diskriminatorschaltungen 65 und 66 sind an die verstärkende Mittelungsschaltung 58 angeschlossen. Die Diskriminatorschaltung 65 vergleicht dabei die Ausgangssignale der Mittelungsschaltung 58 mit dem Bezugswert R₃, und sie erzeugt ein Signal P₃, das nur dann den hohen Wert hat, wenn die verglichenen Signale größer als der Bezugswert R₃ sind. Die andere Diskriminatorschaltung 66 vergleicht die gleichen Ausgangssignale der Mittelungsschaltung 58 mit einem Bezugswert R₄, und sie erzeugt ein Signal P₄, das nur dann den hohen Wert hat, wenn die verglichenen Signale kleiner als der Bezugswert R₄ sind. Mit dieser Anordnung werden dem E/A-Anschluß 14 die sechs Signale V P , UV P und P₁ bis P₄ zugeführt, und der Computer 4 wählt diese Signale in Form von 6-Bit-Signalen P t = (V Pt , UV Pt , P 1t , P 2t , P 4t ) für die Abstandsberechnung.
Das Ausgangssignal f₁ der ersten Filterbank 9 wird in einem Koeffizientenmultiplizierer 52 so verarbeitet, daß es in bezug auf das Ausgangssignal f₂ der zweiten Filterbank 10 eine Beziehung von -6 dB/Oktave hat, und es wird vom Ausgangssignal f₂ an einem Differenzverstärker 53 subtrahiert, dessen Ausgangssignale über eine verstärkende Mittelungsschaltung 54 den Diskriminatorschaltungen 63, 64 zugeführt werden. Ein Koeffizientenmultiplizierer 56 sorgt dafür, daß das Ausgangssignal f₃ der dritten Filterbank 45 eine Beziehung von -6 dB/Oktave bezüglich des Ausgangssignals f₄ der vierten Filterbank 46 hat, und das Ausgangssignal f₃ wird von diesem Ausgangssignal f₄ in einem Differenzverstärker 57 subtrahiert, dessen Ausgangssignale über die verstärkende Mittelungsschaltung 58 den Diskriminatorschaltungen 65, 66 zugeführt werden.
Wenn das aus den Größen V p , UV p , P₁, P₂, P₃, P₄ bestehende 6-Bit-Signal P t = (V Pt , UV Pt , P 1t , P 2t , P 3t , P 4t ) dem Computer 4 mit einer vorbestimmten Abtastperiode (die in geeigneter Weise im Bereich von 5 bis 20 ms abhängig von der Sprechgeschwindigkeit ausgewählt ist) zugeführt wird, wird dieses Signal P t (Phonemvektor) im Musterspeicher 7 (repräsentiert durch Q st ) oder im Sprachnachrichtenspeicher 15 nur gespeichert, wenn dem Computer 4 das gleiche Bitmuster nacheinander öfter als eine vorbestimmte Anzahl (beispielsweise zweimal oder dreimal) zugeführt wird, damit Fehlerkennungen vermieden werden. Das Bezugsmuster Q st = (V Pst , UV Pst , P 1st , P 2st , P 3st , P 4st ) kann in der gleichen Weise wie das oben erwähnte Bit-Signal P t gebildet werden.
Im Computer 4 wird dann der Abstand zwischen den aus der gesprochenen Nachricht X(t) gebildeten Signalen, d. h. dem Phonemvektor P t , und dem Phonemvektor Q st des Bezugsmusters berechnet. Es ist erkennbar, daß der Abstand zwischen dem den jeweiligen Phonemen der gesprochenen Nachricht X entsprechenden Phonemvektor P t und dem den jeweiligen Phonemen des Bezugsmusters entsprechenden Phonemvektor Q st unter Verwendung der Antivalenzbeziehung ⊕ ausgedrückt werden kann:
Σ t {Q st -P t } =Σ t { (V Pst V Pt ) + (UV Pst UV Pt ) + (P 1st P 1t ) + (P 2st P 2t ) + (P 3st P 3t ) + (P 4st P 4t ) }
Das Bezugsmuster für den Fall, daß der Ausdruck Σ t {Q st -P t } unter dem vorbestimmten Wert und dem Minimum liegt, also das "s" entsprechende Muster für den Fall, daß Σ t {Q st -P t } unter dem vorbestimmten Wert und dem Minimum liegt, soll als Inhalt der gesprochenen Nachricht X erkannt werden, und es wird über die Busleitung 2 und den E/A-Anschluß 14 dem Gerät, beispielsweise dem Massagegerät, zugeführt, damit dieses einen richtigen Arbeitsvorgang ausführt.
Für den Fall, daß Σ t {Q st -P t } nicht für alle "s" unterhalb des vorbestimmten Werts liegt, wird im vorliegenden Ausführungsbeispiel entschieden, daß kein Bezugsmuster vorliegt, das auf die gesprochene Nachricht X anwendbar ist und kein zutreffendes Bezugsmuster existiert, was in anderen Worten bedeutet, daß die gegebene gesprochene Nachricht X kein richtiger Befehl ist, so daß eine erneute Eingabe der Nachricht als notwendig angezeigt wird. Falls der Unterschied zwischen dem Minimumwert des Ausdrucks Σ t {Q st -P t } und einem nächsten Wert, d. h. dem vorletzten Wert vor dem Minimum, kleiner als ein vorbestimmter Wert ist, wird eine erneute Eingabe angefordert, um jede fehlerhafte Erkennung zu vermeiden. Es ist zu erkennen, daß erforderlichenfalls dafür gesorgt werden kann, daß ein einziges Steuersignal für das zu steuernde Gerät mehreren Bezugsmustern entspricht, so daß die gleiche Tätigkeit des Geräts mit Hilfe jeweils verschiedener gesprochener Nachrichten erreicht werden kann.
Die Kapazität des Computers 4 kann im Fall der Ausführungsform von Fig. 24 beträchtlich mehr reduziert werden, als bei bekannten Ausführungen. Dies soll anschließend unter Verwendung des obigen Beispiels der gesprochenen Nachricht |Senakaosasure| erläutert werden. Da diese Nachricht 13 Phoneme enthält, beträgt das Volumen des 6-Bit-Signals P t insgesamt 6×13 = 78 Bits. Ein herkömmlicher 6-Bit-Computer (6-Bit-CPU) erforderte 800 Bytes für die Verarbeitung der gesprochenen Nachricht einer Länge von 2 Sekunden; mittels der Erfindung kann eine beträchtliche Reduzierung dieser Verarbeitungszeit erzielt werden, die sich praktisch aus der Verarbeitung von 20 bis 30 Bytes ergibt. Wenn etwa 16 Typen gesprochener Nachrichten vorhanden sind, können sie gut erkannt werden, wenn nur das 6-Bit-Signal P t verwendet wird. Dies läßt sich ohne weiteres daraus erkennen, daß die sich auf die stimmhaften Laute beziehenden Signale V und die auf die stimmlosen Laute UV sich beziehenden Signale sowie die Signale, die sich auf den zweiten Formanten beziehen, bei dem die Differenz des Frequenzspektrums der fünf Vokale |a|, |o|, |u|, |e| und |i| am größten ist, benutzt werden.
In Fig. 7 sind Flußdiagramme dargestellt, die speziell für den Fall gelten, daß eine programmierte Verarbeitung im Computer 4 für die von den obigen Ausführungsbeispielen erhaltenen Signale V für stimmhafte Laute und UV für stimmlose Laute sowie ihre Impulssignale durchgeführt wird. Das Flußdiagramm von Fig. 7A ist ein Formungsprogramm für die Signale U und UV, bei dem ungeformte Signale U und UV (die in einer Liste für ungeformte Signale enthalten sind) in den Computer 4 eingegeben werden und zuerst einem Bestimmungsvorgang unterzogen werden, ob ihr erster Impuls der stumme Laut S ist oder nicht. Wenn der erste Impuls der stumme Laut S ist, wird dieser Impuls zusammen mit seiner Länge in eine Liste für geformte Signale eingegeben. Wenn ein zweiter Impuls der ungeformten Liste beispielsweise nicht der stumme Laut S ist, wird festgestellt, ob seine Länge größer als ein vorbestimmter Wert iSR 1 ist oder nicht. Ist seine Länge nicht größer als dieser Wert, wird der zweite Impuls als der stumme Laut S interpretiert und in die geformte Liste eingegeben; ist seine Länge jedoch größer, werden der zweite Impuls und seine Länge in die geformte Liste geschoben. Der Bestimmungsvorgang wird an einem dritten Impuls der ungeformten Liste fortgesetzt, um festzustellen, ob der Impuls einem stummen Laut S entspricht oder nicht, und ob seine Länge kleiner als ein vorbestimmter Wert iSR 2 ist oder nicht. Ist seine Länge nicht kleiner, werden der dritte Impuls und seine Länge so, als entspräche er einem stummen Laut S, in die geformte Liste geschoben; ist seine Länge kleiner, wird festgestellt, ob ein vierter Impuls mit dem zweiten Impuls identisch ist oder nicht. Liegt keine Identität vor, werden der dritte Impuls und seine Länge so, als entspräche er dem stummen Laut S, in die geformte Liste geschoben, während für den Fall der Identität der dritte Impuls so modifiziert wird, daß er gleich dem zweiten und vierten Impuls ist, und er wird in die geformte Liste aufgenommen. Im Anschluß daran wird ein Suchvorgang durchgeführt, um festzustellen, ob ein erster stummer Laut S im fünften und in den folgenden Impulsen der ungeformten Liste vorhanden ist. Es wird festgestellt, ob der jüngste stumme Laut S kleiner als der Wert iSR 2 ist oder nicht, und im Anschluß daran werden die gleichen Vorgänge wiederholt, die oben beschrieben wurden. Wenn die ungeformte Liste auf diese Weise vollständig für den Formvorgang verarbeitet worden ist, wird festgestellt, ob der letzte Impuls der Liste ein stummer Laut S ist oder nicht; liegt ein stummer Laut vor, wird der letzte stumme Laut S in der geformten Liste weggelassen; liegt kein stummer Laut vor, wird der Formvorgang beendet.
Da das Formprogramm für die Signale VO der offenen Klänge und VC der geschlossenen Klänge mit dem obigen Programm von Fig. 7A für die Signale V und UV völlig übereinstimmt, wird hier nicht darauf Bezug genommen.
Das in Fig. 7B dargestellte Flußdiagramm gilt für ein Programm zur Erstellung zusammengesetzter Signale aus den geformten Signalen V, UV sowie VO und VC. Es wird festgestellt, ob die jeweiligen Impulse der geformten Liste der Signale V und UV dem stummen Laut S oder dem stimmlosen Laut UV entsprechen. Für den Fall, das S oder UV bestimmt wird, werden die Signale für S oder UV zusammen mit ihrer jeweiligen Länge in eine Gesamtimpulsliste geschoben. Wenn der Impuls weder S noch UV entsprach oder die Schiebevorgänge von S und UV in die Gesamtimpulsliste beendet sind, wird festgestellt, ob ein offener Klang VO in der geformten Liste der Signale VO für die offenen Klänge und VC für die geschlossenen Klänge inner­ halb der Zeitperiode des stimmhaften Lauts V in der geformten Liste der Signale V für stimmhafte Laute und UV für stimmlose Laute vorhanden ist. Wenn VO in der V-Periode vorhanden ist, wird das Signal VO in die Gesamtimpulsliste geschoben. Falls VO in der V-Periode nicht vorhanden ist, oder wenn das Schieben der VO-Signale in die Gesamtimpulsliste beendet ist, wird be­ stimmt, ob ein Klangsignal VC in der V-Periode vorhanden ist. Wenn VC in der V-Periode vorhanden ist, wird das VC-Klang­ signal in die Gesamtimpulsliste geschoben. Wenn VC in der V-Periode nicht vorhanden ist oder das Schieben der VC-Klang­ signale in die Gesamtimpulsliste bendet ist, wird festgestellt, ob ein Signal S für einen stummen Laut in der geformten Liste der Signale VO und VC in der V-Periode vorhanden ist oder nicht. Wenn S vorhanden ist, wird dieses Lautsignal als mittlerer Klang VM interpretiert und in die Gesamtimpulsliste geschoben. Falls kein Lautsignal S in der V-Periode vorhanden ist oder das Schieben des Klangsignals VM in die Liste beendet ist, ist der Vorgang der Erstellung der Gesamtimpulse beendet.
In Fig. 7C ist das Flußdiagramm eines Programms zur hierarchi­ schen Klassifizierung der Gesamtimpulsliste dargestellt. Aus der Liste werden zunächst die Lautsignale V und UV ausge­ wählt und entsprechend ihrer Klassifizierung in die erste Rang­ ebene eingegeben. Mit n=1, d. h. beim ersten Lautsignal V, wird festgestellt, ob die Klangsignale VM, VO und VC in der Liste vorhanden sind. Bei Anwesenheit der Klangsignale VM, VO und VC werden sie als V (1) in der zweiten Rangebene klassi­ fiziert. Im Anschluß daran wird mit n=n+1, also für das zweite Lautsignal V, festgestellt, ob VM, VO und VC in der Liste vorhanden sind oder nicht. Die Verarbeitung wird in der gleichen Weise bis zum letzten Lautsignal V wiederholt. Bei Beendigung der Verarbeitung bis zum letzten Lautsignal V, bei dem V(n) in der zweiten Rangebene klassifiziert wird, sind keine Klangsignale VM, VO oder VC für n+1 vorhanden. Somit ist erreicht worden, daß die Liste aus "n" Teilen von V(n) als zweite Rangebene erstellt ist. Wie aus dem Obigen hervor­ geht, wird bei der hierarchischen Klassifizierung die aus den Lautsignalen V, UV und S bestehende Liste als erste Rang­ ebene erstellt, und eine weitere Liste mit den Klangsignalen VM, VO und VC, die das Lautsignal V in der Liste der ersten Rangebene repräsentieren und nacheinander zu V (1), V (2) . . . V(n) gemacht werden, wird als die zweite Rangebene erstellt. Ergeb­ nisse dieser hierarchischen Klassifizierung sind in Fig. 8 für die gesprochene Nachricht "Senakaosasure" dargestellt.
Fig. 7D zeigt das Flußdiagramm eines Programms zur Normierung der Längen der in den Listen der ersten und der zweiten Rang­ ebene enthaltenen jeweiligen Elemente, die gemäß Fig. 7C klassifiziert worden sind, wobei gilt: j=1; es wird dabei festgestellt, ob die Normierung der Liste der ersten Rangebene beendet worden ist. Falls die Beendigung noch nicht erfolgt ist, werden die Längen der in der Liste der ersten Rangebene klassifizierten Elemente normiert. Das heißt, daß zunächst der Normierungskoeffizient X i =1000/(Σ₁, Y) der zu verarbeitenden gesprochenen Nachricht (die zur "i"-ten gesprochenen Nachricht gemacht wird) erhalten wird (Y₁ ist dabei die Länge des ersten Elements der Liste der ersten Rangebene). Im Anschluß daran wird die erste normierte Länge P ÿ =X i · Y j der Nachricht er­ halten (j=1), worauf die Normierung mit j=j+1 wiederholt wird, bis das letzte Element der Liste der ersten Rangebene normiert ist (praktische numerische Werte sind in Fig. 8 an­ gegeben). Nach Beendigung der Normierung der Liste der ersten Rangebene wird mit n=1 festgestellt, ob die Liste der zweiten Rangebene vollständig normiert worden ist oder nicht. Wenn die Normierung noch nicht beendet worden ist, wird die Länge des Elements V (1) normiert. Mit k=1 wird festgestellt, ob die Länge der Elemente von V (1) normiert sind oder nicht. Ist dies noch nicht der Fall, wird der Normierungskoeffizient X₁ (1)=1000/(Σ₁ Y₁ (1) gebildet (Y₁ ist dabei die Länge des ersten Elements von V (1)). Im Anschluß daran wird die erste normierte Länge P ik (1)=X i (1) · Y k (1) (k=1) für V (1) erhalten. Die Normierung wird dann bis zum letzten Element von V (1) mit k=k+1 wiederholt. Nach der Beendigung der Normierung für V (1) wird die Normierung für V (2) . . . V(n) in der Liste der zweiten Rangebene mit n=n+1 in der oben beschriebenen Weise durchgeführt. Nach Beendigung der Normierung für die Liste der zweiten Rangebene ist die Längennormierung fertig. Eine Bezugnahme auf Fig. 8 trägt zum weiteren Verständnis des Normierungsvorgangs bei.
In Fig. 7E ist das Flußdiagramm eines Programms zur Identi­ fizierung der in Fig. 7D normierten Signale dargestellt. Bei einer ersten Identifizierung wird die normierte Liste der ersten Rangebene mit den Bezugsmustern im Hinblick auf die Anzahl der jeweiligen Lautsignale V, UV und S in dieser Liste verglichen. Wenn kein Lautsignal mit kurzer Länge vorhanden ist, werden die Signale mit den Bezugsmustern verglichen, die kein kurzes Lautsignal S enthalten, während die Signale, die das kurze Lautsignal enthalten, verglichen und als Lautsignal interpretiert werden, die einen Laut UV unmittelbar benachbart dem kurzen Laut S haben. Bei der Durchführung des Vergleichs­ vorgangs wird auch die Normierungszeit betrachtet. Wenn sich die Nachricht bei der ersten Identifizierung als anwendbar auf eines der Bezugsmuster erweist, wird eine zweite Identifi­ zierung ausgeführt, wozu die normierte zweite Rangebene benutzt wird. Es werden also V (1) . . . V(n) nacheinander verglichen. Wie sich aus der Zeichnung ergibt, wird der Vergleichsvorgang auf vier Wegen durchgeführt, wobei es in diesem Fall aus­ reichen soll, wenn sich herausstellt, daß die jeweiligen Signale Bezugsmustern entsprechen, die bei der ersten Iden­ tifizierung in einem der vier Wege ausgewählt worden sind. Auf dem ersten Weg werden die Bezugsmuster ausgewählt, die beispielsweise mit V (1) übereinstimmen, worin das Klang­ signal VM zum Klangsignal VO oder zum Klangsignal VC gemacht wird; das oder die Bezugsmuster, die mit V (1) übereinstimmen, worin die Klangsignale VO und VC gleich dem Klangsignal VM sind, bleiben übrig. Auf dem zweiten Weg werden die Bezugs­ muster ausgewählt, die mit V (1) in der vom Klangsignal VO besetzten Rate übereinstimmen. Auf dem dritten Weg wird be­ stimmt, ob die Hauptkomponente von V (1) eines der Klangsignale VO, VC und VM ist, und es werden die mit einer solchen Kompo­ nente übereinstimmenden Bezugsmuster ausgewählt; es wird dann festgestellt, ob die zweite Komponente von V (1) gleich einem der Klangsignale VO, VC und VM ist, worauf das oder die Bezugsmuster, die in dieser Hinsicht übereinstimmen, übrig bleiben. Auf dem dritten Weg werden insbesondere die jeweili­ gen Komponenten von V (1) nacheinander, beginnend mit denen mit der größeren Länge, zu dem mit der kürzesten Länge ange­ ordnet, und das oder die Bezugsmuster, die in einer solchen Folge übereinstimmen, werden ausgewählt. Auf dem vierten Weg werden solche "Punkte", wie sie in der folgenden Tabelle an­ gegeben sind, als eine Funktion benutzt, die das Ausmaß der Übereinstimmung angibt, das dem Abstand zwischen dem Eingangs­ muster von V(i) mit (i) von 1 bis n in den Signalen V (1) . . . V(n) und dem Bezugsmuster entspricht:
Es werden die Bezugsmuster ausgewählt, bei denen die Gesamt­ summe der Punkte, die für jeden Abtastwert oder für jeden der normierten Zeit entsprechenden Abtastwert berechnet sind, über einem vorbestimmten Wert liegt (die gesamte Abtastzahl beträgt beispielsweise 1000). Wenn das Eingangsmuster voll­ ständig mit dem Bezugsmuster übereinstimmt, ist die gesamte Abtastzahl gleich der zuvor genannten Gesamtsumme. Der vierte Weg legt somit die "Punkte" bezüglich des Kurvenverlaufs fest, doch ist zu erkennen, daß diese Definition bezüglich der sym­ bolischen Impulse oder der normierten Längenwerte gemacht werden kann.
Die auf diese Weise in den jeweiligen vier Wegen ausgewählten und bezüglich aller V(i) übereinstimmenden Bezugsmuster werden entnommen, und aus den entnommenen Bezugsmustern wird das opti­ male Bezugsmuster ausgewählt, wodurch der Erkennungsvorgang beendet wird. Wenn das optimale Bezugsmuster ausgewählt werden kann, soll über die Busleitung 2 und den E/A-Anschluß 14 ein diesem optimalen Muster entsprechender Befehl zu einem Gerät, beispielsweise dem Massagegerät 16, gegeben werden, jedoch sollte vom Sprecher eine erneute Eingabe der gesprochenen Nach­ richt verlangt werden, wenn kein optimales Bezugsmuster ausge­ wählt werden kann.
Die vier oben beschriebenen Wege sind im Flußdiagramm von Fig. 7E zwar für die Durchführung der zweiten Identifizie­ rung auf der zweiten Rangebene beschrieben worden, doch ist es auch möglich, einige dieser Wege wegzulassen, falls dies erforderlich ist.
Bei der Ausführungsform nach Fig. 5 ist offen­ sichtlich, daß Ergebnisse weiter an Modelle des menschlichen Hörorgans angepaßt werden können, wenn ein logarithmischer Verstärker bei jedem der zwei Eingänge der entsprechenden Differenzverstärker 49, 53 und 57 oder zwischen die Gleich­ richterschaltung und die Mittelungsschaltung in jeder der fünf Filterbänke 9, 10, 45, 46 und 47 eingefügt wird.
Wie aus der obigen Beschreibung hervorgeht, werden mit Hilfe der Erfindung mehrere Bezugsmuster bei der Erkennung einer speziellen gesprochenen Nachricht gebildet, damit ein gewisses Ausmaß an Freiheit in den Bearbeitungs- und Erkennungsfähig­ keiten gewährleistet wird. Experimente haben gezeigt, daß im Gegensatz zu den Signalen V für stimmhafte Laute und UV für stimmlose Laute die Signale VO und VC für offene bzw. ge­ schlossene Klänge unter dem Einfluß individueller phonetischer Unterschiede oder einiger anderer Bedingungen variabel sind. Bei Berücksichtigung dieses Sachverhalts in Bezugnahme auf die oben erwähnte gesprochene Nachricht /Senakaosasure/ und auf die die Phonemmuster dieser Nachricht darstellende Fig. 9 ist zu erkennen, daß die Zone des stimmhaften Klangs V wenig­ stens zwei unterschiedliche Artikulationen aufweist, während die Zone des stimmlosen Klangs UV möglicherweise nur in einem Spezialfall verschwindet, nämlich im Anschluß an den kurzen stummen Klang S. Aus diesem Grund wird ein Bezugsmuster so gebildet, daß das Vorhandensein des stimmlosen Klangs UV er­ kannt werden kann, ohne Rücksicht darauf, ob er an einer Stelle im Anschluß an den kurzen stummen Laut S verschwindet oder nicht. Für den Fall, daß der stimmhafte Laut V unter der Annahme behandelt wird, daß der mittlere Klang VM zwischen einem offenen Klang VO und einem geschlossenen Klang VC ent­ weder als offener Klang VO oder als geschlossener Klang VC gesprochen werden kann, sind alle diese Fälle in Fig. 9 ent­ halten.
Wenn nur die Signale V für stimmhafte Laute und UV für stimm­ lose Laute benutzt werden, kann der Erkennungsvorgang auf der Basis durchgeführt werden, daß bestimmt wird, ob der stumme Laut S kurz ist oder nicht, wobei der stimmlose Laut UV nur dann auf den stummen Laut S folgt, wenn dieser kurz ist.
Falls sowohl die Signale V für stimmhafte Laute und UV für stimmlose Laute als auch die Signale VO für offene Klänge und VC für geschlossene Klänge verwendet werden, ist es möglich, nicht nur die Erscheinung des Verschwindens des stimmlosen Lauts UV nach dem stummen Laut S, sondern auch die Anwesen­ heit und Schwankung des mittleren Klangs VM zu berücksichtigen. In diesem Fall ist es jedoch notwendig, zuvor die Längen zu messen. Die obige Verarbeitung bei Anwesenheit des kurzen stummen Lauts S sollte dabei gleichzeitig durchgeführt werden, und es kann ein bevorzugtes Ergebnis erreicht werden.
Unter Bezugnahme auf Fig. 10 wird nun die bevorzugte Erstellung oder Abspeicherung der Bezugsmuster nach der Erfindung erläutert; Unzuverlässigkeiten und Nichtbestimmtheiten auf Grund phonetischer Unterschiede der individuellen Sprecher od. dgl. werden dabei berücksichtigt. Wenn eine ankommende gesprochene Nachricht verarbeitet werden soll, die einen Abschnitt des stummen Klangs S → stimmlosen Klangs UV → stimmhaften Klangs V enthält, wird auch ein Muster mit verschwindendem Klang UV erzeugt. Wenn ein Abschnitt SV enthalten ist, wird auch ein Muster mit einem Abschnitt SUVV erzeugt. Wenn die Nachricht weder den Abschnitt SUVV noch den Abschnitt SV enthält, wird das Muster beibehalten wie es ist. Im Anschluß daran wird geprüft, ob sich das Programm im Lernmodus befin­ det oder nicht; die weitere Verarbeitung wird durch eine Reihe von Schritten gemäß Fig. 10 auf der linken Seite fort­ gesetzt, wenn sich das Programm im Lernmodus befindet. Ist dies nicht der Fall, erfolgt der weitere Ablauf durch die rechts angegebene Folge von Schritten. Für den Fall des Lern­ modus werden die Längen oder die normierten Längen der Signale V für stimmhafte Laute und UV für stimmlose Laute gemittelt Die Signale werden dann codiert oder in entsprechende Symbole umgesetzt, was mittels einer entsprechenden Aufteilung in eine passende Anzahl von Zeitabschnitten für jedes Signal V(i) erfolgt, und die gleichen Zeitabschnitte, die zum gleichen Symbol gehören, werden zum Kernabschnitt gemacht, während von den Kernabschnitten verschiedene Abschnitte zu Zweigen des Signals VM, der Signale VM und VO oder der Signale VM und VC gemacht, wonach die Bezugsmuster erzeugt sind. Falls sich das Programm nicht im Lernmodus befindet, führt der Beginn des Sprechens zur Erzeugung eines geeigneten Musters aus Signalen VO und VC, und das Muster wird dann so gebildet, daß es der mit VO und VC endenden Sprache entspricht, während der Zwischenabschnitt in geeigneter Weise entsprechend VCVO und VOVC verarbeitet wird, wodurch die Bezugsmuster erstellt worden sind; das zuletzt erstellte Bezugmuster wird in den Bezugsmusterspeicher 7 geschrieben.
Mit Bezugnahme auf die Fig. 11 bis 13 erfolgt nun die Erläuterung weiterer Einzelheiten der oben erwähnten Schritte der Erzeugung von Bezugsmustern mit Hilfe des Lernmodus. Das in Fig. 11 dargestellte Flußdiagramm kann sowohl für den glei­ chen Sprecher als auch für mehrere verschiedene Sprecher ange­ wendet werden; die folgenden Erläuterungen gelten jedoch für den Fall, daß der gleiche Sprecher eine gesprochene Nach­ richt mehrmals (im vorliegenden Fall fünfmal) wiederholt. Zu Beginn wird der Zeitbereich in zehn Abschnitte unterteilt, wie in Fig. 12A zu erkennen ist (jeder Abschnitt kann bei­ spielsweise eine Länge von 5 ms haben, doch kann er auch kürzer sein). Wenn die normierte Länge geteilt werden soll, sollten die geteilten Bereiche abhängig von den gegebenen Wörtern in einer geeigneten Anzahl vorhanden sein. Nach der Teilung werden die Zeitbereiche, in denen sich die Symbole (VO, VC, VM und dergleichen) nicht ändern, zum Kernbereich gemacht. Bei den Mustern (a) bis (e) in Fig. 12A werden die Bereiche der Symbole VO zum Kernbereich gemacht. Nachdem auf diese Weise der Kernbereich erhalten worden ist, werden die Zeitbereiche mit variierenden Symbolen zu einem VM-Bereich gemacht (siehe Fig. 12A und Fig. 12B), wodurch nun ein Bezugs­ muster A mit einem Kernbereich VO gebildet worden ist (Fig. 12B). Wenn ein Muster vorliegt, das in den gleichen Zeitbereichen die Symbole VM oder VC enthält, wird eine Verzweigung des Symbols VC für das Symbol VM im Bezugsmuster A gebildet (siehe Fig. 12A und Fig. 12C). Wenn entweder VO oder VC in den glei­ chen Zeitbereichen vorhanden ist, werden die Zeitbereiche zu einem VM-Bereich gemacht, wodurch ein Bezugsmuster B erstellt wird, in dem Verzweigungen zum Muster A hinzugefügt sind (Fig. 12C). Mit dieser Erstellung der Bezugsmuster A und B sind die Schritte zur Bildung der Bezugsmuster im Lernmodus beendet. Der Betriebsablauf schreitet dann zum Schreibschritt gemäß Fig. 10 weiter, bei dem die Bezugsmuster A und B in den Speicher 7 geschrieben werden. Bei der obigen Erstellung der Bezugsmuster im Lernmodus ist es notwendig, den Verstärkungs­ faktor beispielsweise an der Eingangsseite der Differenzver­ stärker von Fig. 5 in einem ausgeglichenen Zustand zu halten. Zu diesem Zweck wird der Verstärkungsfaktor so einge­ stellt, daß sich bei einer Artikulation von |a| das Klangsignal VO und bei einer Artikulation von |i| das Klangsignal VC er­ gibt. Wegen der vom Sprecher abhängigen vorhandenen phonetischen Unterschiede ist es insbesondere für den Erkennungsvorgang vorteilhaft, wenn die Schaltungsanordnung so ausgebildet wird, daß sie eine automatisch durchgeführte Verstärkungs­ abgleicheinstellung aufweist, so daß das Ausgangssignal des Differenzverstärkers bei einem natürlich artikulierten Vokal |e| nur bei Ankunft eines (nicht dargestellten) Abgleichein­ stellsignals den Wert "0" hat. Mit dieser Abgleicheinstellung ist es möglich, nicht determinative Bezugsmuster zu erstellen, ohne daß es notwendig ist, die gleiche gesprochene Nachricht wiederholt zu sprechen und sie zu lernen, wie in dem Fluß­ diagramm von Fig. 13 angegeben ist.
Fig. 13 zeigt Einzelheiten der Schritte zur Bezugsmuster­ erstellung für den Fall, daß kein Lernmodus vorliegt, wobei bei der Darstellung der Signale V für stimmhafte Laute und UV für stimmlose Laute die V-Signale nacheinander verarbeitet werden. Wenn die jeweiligen V-Artikulationen mit einem VC-Klang be­ ginnen, wird ein VM-Zweig hinzugefügt. Wenn anstelle eines Beginns mit einem VC-Klang mit einem VO-Klang begonnen wird, werden VC- und VM-Zweige parallel zwischen den Start und VO hinzugefügt, und ein VM-Zweig wird parallel zu VO hinzuge­ fügt. Wenn die V-Artikulationen anders als mit einem VC- oder VO-Klang beginnen, werden sie zu einem VM-Klang gemacht.
Wenn die V-Artikulationen mit einem VC-Klang enden, wird ein paralleler VM-Zweig zu VC hinzugefügt. Wenn sie mit einem VO-Klang enden, werden sie so ausgebildet, daß sie mit VOVC enden, und zu VO und VC wird ein paralleler VM-Zweig hinzugefügt. Wenn keine Endung mit dem Klang VC oder dem Klang VO vorliegt, werden die Artikulationen so ausgelegt, als endeten sie mit dem Klang VM.
Wenn im Verlauf eines Lauts V ein Abschnitt VCVO vorhanden ist, wird parallel zu VC und zu VO ein VM-Zweig hinzugefügt. Bei Fehlen eines Abschnitts VCVO, jedoch in Anwesenheit eines Abschnitts VOVC, wird zu VO und zu VC ein VM-Zweig hinzugefügt. Wenn die Artikulationen weder mit einem Ab­ schnitt VCVO noch mit einem Abschnitt VOVC enden, werden sie so ausgelegt, als endeten sie mit dem Klang VM.
Damit sind die Schritte zur Bezugsmustererstellung für den Fall beendet, daß der Lernmodus nicht vorliegt. Der Betriebs­ ablauf schaltet dann zu dem Bezugsmuster-Schreibschritt weiter, der in Fig. 10 angegeben ist, bei dem die so gebil­ deten Bezugsmuster in den Speicher geschrieben werden.
Beim Lesen der obigen Bezugnahmen auf die Fig. 7A bis 7E und 10 bis 13 wird erkennbar, daß die Bezugsmuster so erstellt werden können, daß gesprochene Nachrichtenmuster erfaßt werden, wie sie in Fig. 8 dargestellt sind. Durch die Erfindung werden alle die aufeinanderfolgenden Artikulationen gemäß Fig. 8 begleitenden Schwankungen in ausreichender Weise erfaßt. Aus Fig. 8 ist natürlich klar erkennbar, daß die Signale V für stimmhafte Laute und UV für stimmlose Laute richtig verarbeitet werden, wenn sie Signale S für einen kurzen stummen Klang zwischen V- und UV- Signalen oder VO- und VC-Signalen enthalten. Es kann eine Tendenz dafür erkennbar sein, daß Signale VM für einen mittleren Klang zwischen V- und UV-Signalen oder zwischen VO- und VC-Signalen eingefügt sind, doch werden auch solche Nach­ richten richtig verarbeitet. Somit ist klar, daß durch die Erfindung unerwünschte Einflüsse aufgrund von Schwankungen des Phonemmusters der gesprochenen Nachricht in Begleitung von individuellen phonetischen Unterschieden, Betonungsver­ schiebungen unter verschiedenen Bedingungen und dergleichen in wirksamer Weise beseitigt werden können. Dies bedeutet in anderen Worten, daß durch die Erfindung die Abschnitte mit geringeren Schwankungen im Phonemmuster der gesprochenen Nach­ richt zum Kernabschnitt des zu erstellenden Bezugsmusters ge­ macht werden, während andere Abschnitte mit vielen Schwankungen zum Restabschnitt gemacht werden. Das Erkennen oder das Bezugsmustererstellen wird zunächst in bezug auf den Kernab­ schnitt und dann in bezug auf den Restabschnitt durchgeführt, wobei ein nichtdeterminativer Charakter oder ein vorbestimmter Freiheitsgrad erhalten wird. Es ist somit möglich, die Kapazität des jeweiligen Computers und des Speichersystems und somit auch die erforderliche Verarbeitungszeit beträchtlich herab­ zusetzen. Das zutreffende Bezugsmuster wird sogar mit einer einzigen Eingabe der gesprochenen Nachricht durch Verarbeitung im Computer erstellt, ohne daß ein Lern­ modus zugrunde gelegt wird, so daß die Bezugsmuster also in höchst wirksamer Weise erstellt werden können.

Claims (5)

1. Verfahren zur Spracherkennung, bei dem gesprochene Nachrichten wiederholt eingegeben und durch Analyse in mehrere Frequenzbänder zerlegt werden, die in den jeweiligen Frequenzbändern enthaltenen Energieanteile gemessen werden und eine Frequenzbandverteilung dieser Energiewerte zum Erkennen des Inhalts der gesprochenen Nachrichten mit Bezugsmustern verglichen wird, dadurch gekennzeichnet, daß zur Erstellung der Bezugsmuster:
  • a) aufgrund der Frequenzbandverteilung Signale für stimmhafte Klänge V abgeleitet werden und die stimmhaften Klänge V unterschieden werden in offene Klänge VO, geschlossene Klänge VC und mittlere Klänge VM, je nachdem, ob der Signalpegel oberhalb eines ersten Schwellwertes, unterhalb eines zweiten Schwellwertes oder zwischen diesen Schwellwerten liegt,
  • b) während der verschiedenen Eingaben der gesprochenen Nachricht ein Kernabschnitt des entsprechenden Bezugsmusters gebildet wird aus den miteinander übereinstimmenden, gleichzeitig auftretenden Signalen für stimmhafte Klänge V und
  • c) die gleichzeitig auftretenden, jedoch nicht miteinander übereinstimmenden Signale für stimmhafte Klänge V jeweils als ein mittlerer Klang VM des Bezugsmusters dargestellt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Erstellung der Bezugsmuster außer dem Kernabschnitt mehrere Bezugsmusterzweige gebildet werden, nämlich
  • d) für einen in den mehreren Eingaben auftretenden mittleren Klang VM wird, wenn in wenigstens einer anderen Eingabe in demselben Zeitabschnitt, in dem dieser mittlere Klang VM auftritt, ein offener Klang VO auftritt, ein Zweig mit einem offenen Klang VO hinzugefügt;
  • e) für einen in den mehreren Eingaben auftretenden mittleren Klang VM wird, wenn in wenigstens einer anderen Eingabe in demselben Zeitabschnitt, in dem dieser mittlere Klang VM auftritt, ein geschlossener Klang VC auftritt, ein Zweig mit einem geschlossenen Klang VC hinzugefügt;
  • f) ein in den mehreren Eingaben auftretender mittlerer Klang VM wird, wenn während desselben Zeitabschnitts, in dem dieser mittlere Klang VM auftritt, in wenigstens einer anderen Eingabe ein offener Klang VO auftritt und in wenigstens einer weiteren Eingabe ein geschlossener Klang VC auftritt, als mittlerer Klang VM beibehalten.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
  • g) jeweils ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn stimmhafte Laute der Nachricht entweder mit einem geschlossenen Klang VC oder einem offenen Klang VO beginnen, wobei stimmhafte Anfangslaute, die von offenen Klängen VO und geschlossenen Klängen VC abweichen, als mittlerer Klang VM in dem Zweig auftreten,
  • h) für einen geschlossenen Klang VC ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn stimmhafte Laute mit einem geschlossenen Klang VC und einem offenen Klang VO enden, wobei der geschlossene Klang VC neben dem offenen Klang VO hinzugefügt wird und ein Zweig mit einem offenen Klang VO zu VO-VC und VO hinzugefügt wird und wobei ein stimmhafter Endlaut, der kein geschlossener Klang VC oder offener Klang VO ist, als mittlerer Klang VM in Erscheinung tritt,
  • i) für einen offenen Klang VO und für einen geschlossenen Klang VC ein Zweig mit einem mittleren Klang VM hinzugefügt wird, wenn der offene Klang VO und der geschlossene Klang VC aufeinanderfolgend in den jeweiligen stimmhaften Lauten der Nachricht vorhanden sind, wobei der mittlere Klang VM eingefügt wird, wenn keine aufeinanderfolgenden offenen und geschlossenen Klänge VO, VC auftreten.
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß
  • j) ein in der gesprochenen Nachricht auftretender stummer Laut S durch einen Zweig mit einem stimmhaften Laut V überbrückt wird, wenn ein Abschnitt mit aufeinanderfolgend einem stummen Laut S, einem stimmlosen Laut UV und einem stimmhaften Laut V vorhanden ist, während ein Zweig mit einem stimmlosen Laut UV zwischen einem stummen Laut S und einem stimmhaften Laut V hinzugefügt wird, wenn ein Abschnitt mit aufeinanderfolgend einem stummen Laut S und einem stimmhaften Laut V vorhanden ist.
5. Vorrichtung zur Durchführung des Verfahrens nach einem der vorstehenden Ansprüche, gekennzeichnet durch
  • a) eine erste Filterbank (9) zum Auswählen der in einem Bereich von 0 bis 0,5 kHz liegenden Energieanteile der Nachricht,
  • b) eine zweite Filterbank (10) zum Auswählen der in einem Bereich von 0,5 bis 1,0 kHz liegenden Energieanteile der Nachricht,
  • c) eine dritte Filterbank (45) zum Auswählen der in einem Bereich von 0,8 bis 1,8 kHz liegenden Energieanteile der Nachricht,
  • d) eine vierte Filterbank (46) zum Auswählen der in einem Bereich von 1,8 bis 3,2 kHz liegenden Energieanteile der Nachricht,
  • e) eine fünfte Filterbank (47) zum Auswählen der in einem Bereich von 5 bis 12 kHz liegenden Energieanteile der Nachricht,
  • f) einen ersten Differenzverstärker (49), der die Ausgangssignale der ersten Filterbank (9) und der zweiten Filterbank (10) gemeinsam von Ausgangssignalen der fünften Filterbank (47) substrahiert,
  • g) einen zweiten Differenzverstärker (53), der die Ausgangssignale der ersten Filterbank (9) von Ausgangssignalen der zweiten Filterbank (10) subtrahiert,
  • h) einen dritten Differenzverstärker (57), der die Ausgangssignale der dritten Filterbank (45) von Ausgangssignalen der vierten Filterbank (46) subtrahiert,
  • i) mehrere Paare von Diskriminatorschaltungen (61, 62; 63, 64; 65, 66), von denen das erste Paar (61, 62) aus dem Ausgangssignal des ersten Differenzverstärkers (49) Anzeigesignale für stimmhafte Laute V oder stimmlose Laute UV ableitet, das zweite Paar (63, 64) aus dem Ausgangssignal des zweiten Differenzverstärkers (53) Anzeigesignale für offene Klänge VO, geschlossene Klänge VC und mittlere Klänge ableitet und das dritte Paar (65, 66) aus dem Ausgangssignal des dritten Differenzverstärkers (57) Anzeigesignale für alle übrigen Laute ableitet,
  • j) eine erste Speicherschaltung (15) zum Speichern der von den Diskriminatorschaltungen (61-66) erzeugten Anzeigesignale,
  • k) eine zweite Speicherschaltung (7) zum Speichern der Bezugsmuster und
  • l) einen Computer (4), der die Abspeicherung der von den Diskriminatorschaltungen (61-66) abgegebenen Anzeigesignale in der ersten Speicherschaltung (15) in codierter Form bewirkt und der diese Anzeigesignale mit den jeweiligen Bezugsmustern vergleicht.
DE19823249698 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method Expired DE3249698C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19823249698 DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19823249698 DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method
DE19823200645 DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"

Publications (1)

Publication Number Publication Date
DE3249698C2 true DE3249698C2 (en) 1987-11-26

Family

ID=6152886

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19823200645 Granted DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"
DE19823249698 Expired DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE19823200645 Granted DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"

Country Status (1)

Country Link
DE (2) DE3200645A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2297528A (en) * 1941-12-12 1942-09-29 Bell Henry Barto Fraud prevention device for meters
US3946157A (en) * 1971-08-18 1976-03-23 Jean Albert Dreyfus Speech recognition device for controlling a machine
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE957235C (de) * 1953-04-21 1957-01-31 Nordwestdeutscher Rundfunk Ans Verfahren zur UEbertragung oder Speicherung von Schallereignissen, bei dem der zu uebertragende Frequenzbereich in zwei getrennte Bereiche aufgeteilt wird
US3588363A (en) * 1969-07-30 1971-06-28 Rca Corp Word recognition system for voice controller
DE2400027A1 (de) * 1973-01-08 1974-07-25 Xerox Corp Verfahren und vorrichtung zum erkennen von worten

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2297528A (en) * 1941-12-12 1942-09-29 Bell Henry Barto Fraud prevention device for meters
US3946157A (en) * 1971-08-18 1976-03-23 Jean Albert Dreyfus Speech recognition device for controlling a machine
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Winckel, Fritz, Grundlagen der natürlichen und elektronischen Spracherkennung, In: ETZ-B., 1967, Bd. 19, H. 23, S. 673-678 *

Also Published As

Publication number Publication date
DE3200645C2 (de) 1987-06-25
DE3200645A1 (de) 1983-07-21

Similar Documents

Publication Publication Date Title
DE3783154T2 (de) Spracherkennungssystem.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69030561T2 (de) Spracherkennungseinrichtung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE2918533C2 (de)
DE68924134T2 (de) Spracherkennungssystem.
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3733659C2 (de)
DE68914032T2 (de) Spracherkennungssystem.
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE102010040553A1 (de) Spracherkennungsverfahren

Legal Events

Date Code Title Description
Q172 Divided out of (supplement):

Ref country code: DE

Ref document number: 3200645

8110 Request for examination paragraph 44
8181 Inventor (new situation)

Free format text: OMURA, KOICHI, OSAKA, JP YUASA, HIROYOSHI, HIRAKATA, OSAKA, JP

8125 Change of the main classification

Ipc: G01L 1/00

AC Divided out of

Ref country code: DE

Ref document number: 3200645

Format of ref document f/p: P

AC Divided out of

Ref country code: DE

Ref document number: 3200645

Format of ref document f/p: P

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee