DE3200645C2 - - Google Patents

Info

Publication number
DE3200645C2
DE3200645C2 DE19823200645 DE3200645A DE3200645C2 DE 3200645 C2 DE3200645 C2 DE 3200645C2 DE 19823200645 DE19823200645 DE 19823200645 DE 3200645 A DE3200645 A DE 3200645A DE 3200645 C2 DE3200645 C2 DE 3200645C2
Authority
DE
Germany
Prior art keywords
sound
sounds
signals
voiced
open
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19823200645
Other languages
English (en)
Other versions
DE3200645A1 (de
Inventor
Koichi Osaka Jp Omura
Hiroyoshi Hirakata Jp Yuasa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to DE19823200645 priority Critical patent/DE3200645A1/de
Priority to DE19823249698 priority patent/DE3249698C2/de
Publication of DE3200645A1 publication Critical patent/DE3200645A1/de
Application granted granted Critical
Publication of DE3200645C2 publication Critical patent/DE3200645C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung bezieht sich auf ein Verfahren zur Sprach­ erkennung, nach dem Oberbegriff des Patentanspruchs 1. Bei einem solchen Verfahren können durch phonetische Analyse gesprochener Nachrichten Steuersignale für die Steuerung des Betriebs gesteuerter Maschinen oder Geräte, beispielsweise eines Massagegeräts, einer automatischen Tür oder dergleichen, erzeugt werden.
Aus der US-PS 39 46 157 ist es bekannt, zeitliche Schwan­ kungen der Sprachenergie E der mittels eines Mikrophons erfaßten Nachricht in einem vorbestimmten Frequenzband (200 bis 3400 Hz) zu messen, die zeitliche Ableitung dE/dt der zeitlichen Schwankungen der Energie E zu bestimmen und dann zusätzlich die Energieverteilung E B im Frequenzband von 200 bis 800 Hz, die Energieverteilung E M im Frequenzband von 800 bis 1600 Hz und die Energiever­ teilung E H im Frequenzband von 1600 bis 3400 Hz zu messen. Wenn die Energie E vorhanden ist, während der Impuls der Abteilung dE/dt niedrig ist und ein hoher Impuls der Ener­ gieverteilung E H vorhanden ist, wird der Klang als /S/ unterschieden, also als ein stimmloser Reiblaut. Wenn die Energie E vorhanden ist, während der Impuls der Ableitung dE/dt hoch ist und ein hoher Impuls in der Energievertei­ lung E H vorhanden ist, wird der Klang als /T/ unterschie­ den, d. h. als stimmloser Sprenglaut. Wenn die Energie E vorhanden ist und auch in der Energieverteilung E M ein hoher Impuls vorhanden ist, wird der Klang als /A/ unter­ schieden, d. h. als stimmhafter mittlerer Vokal. Bei An­ wesenheit der Energie E und eines hohen Impulses in der Energieverteilung E B wird der Klang als /O/ unterschieden, d. h. als stimmhafter tiefer Vokal. Außerdem wird der Klang als /I/ unterschieden, also als stimmhafter hoher Vokal, wenn die Energie E vorhanden ist und die Energieverteilun­ gen E B und E H gleichzeitig einen hohen Impuls enthalten. Diese Unterscheidungen werden in einer ersten Logikschaltung ausgeführt, und der Inhalt der gesamten gesprochenen Nach­ richt wird durch Vergleich der Ausgangssignale der ersten Logikschaltung mit einer Codetabelle in einer zweiten Logikschaltung erkannt. In dieser Anordnung wird jedoch eine Differenzierschaltung benötigt, und es gilt, daß zum Erkennen eines nasalen Konsonanten /N/, einer geflüster­ ten Nachricht oder dergleichen die Energie der gesprochenen Nachricht in jedem einer größeren Anzahl von Frequenzbän­ dern gemessen werden muß. Das bekannte Verfahren war daher in mancher Hinsicht nachteilig. Wenn die gesprochene Nach­ richt in einem aus mehreren Wörtern bestehenden Satz vor­ liegt, konnte sie mittels dieses Verfahrens nicht behan­ delt werden.
Aus der Zeitschrift ETZ-B/Band 19, 1967, Heft 23, Seiten 673 bis 678 ist ein Verfahren zur Spracherkennung bekannt, bei dem eine gesprochene Nachricht in mehrere Frequenzbän­ der zerlegt wird. Dabei wird unterschieden zwischen Frequenz­ bändern, in denen sich die stimmhaften Laute konzentrieren, und solchen, in denen sich die stimmlosen Laute konzentrieren. Die in den jeweiligen Frequenzbändern enthaltenen Energie­ anteile werden gemessen und jeweils mit Bezugsmustern ver­ glichen. Die Genauigkeit der Spracherkennung kann dadurch gesteigert werden, daß die Sprachsignale in eine entspre­ chend größere Anzahl von Frequenzbändern zerlegt werden. Der erforderliche Aufwand ist aber umso größer, je größer die Anzahl von Frequenzbändern ist.
Aus der DE-OS 20 20 753 ist ferner ein Verfahren zur Sprach­ erkennung bekannt, bei dem die gesprochene Nachricht durch eine Filterbank zerlegt wird, der eine Gleichrichter- und Siebschaltung sowie ein logarithmischer Verstärker nachge­ ordnet sind. Da nur ein logarithmischer Verstärker verwen­ det wird, werden die verschiedenen Frequenzbänder vor dem Eingang des logarithmischen Verstärkers multiplexiert. Jedes Frequenzband wird also nur während einer kurzen Zeitspanne analysiert.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung anzugeben, durch welches die Erkennungs­ wahrscheinlichkeit mit möglichst geringem Aufwand verbessert wird.
Diese Aufgabe wird bei einem gattungsgemäßen Verfahren durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebene Maßnahme gelöst. Durch die Anwendung dieser Maßnahme wird erreicht, daß die charkteristischen Merkmale einer ge­ sprochenen Nachricht, die für die Spracherkennung von Be­ deutung sind, deutlicher in Erscheinung treten. Die Er­ kennungswahrscheinlichkeit kann daher bei geringem zusätz­ lichen Aufwand erheblich gesteigert werden.
Vorteilhafte Ausführungsformen der Erfindung sind in den Unteransprüchen angegeben.
Die Erfindung wird nun unter Bezugnahme auf die Zeichnung beispielshalber erläutert. Es zeigt
Fig. 1 ein Blockschema zur Erläuterung des Verfahrens zur Erkennung von Phonemelementen in einer gespro­ chenen Nachricht,
Fig. 2 ein Schaltbild einer Ausführungsform einer Vor­ richtung zur Durchführung des Verfahrens,
Fig. 3 bis 5 Diagramme zur Erläuterung der Wirkungsweise der Vorrichtung von Fig. 2,
Fig. 6 ein Schaltbild einer weiteren Ausführungsform einer Vorrichtung zur Durchführung des Verfahrens, und
Fig. 7 bis 10 Flußdiagramme zur Erläuterung der Wirkungs­ weise der Vorrichtungen nach den Fig. 2 und 6.
Gemäß dem in Fig. 1 dargestellten Verfahren zur Erkennung von Phonemelementen einer gesprochenen Nachricht soll eine von einem Sprecher gesprochene Nachricht dadurch erkannt werden, daß in selektiver Weise die in der gesprochenen Nachricht enthaltenen Phoneme P in stimmhafte Laute V und in stimmlose Laute UV(STEP(PV/UV)) getrennt werden, die stimmlosen Laute UV in Reiblaute F und Sprenglaute PL(STEP(UVF/PL)) unterteilt werden und die stimmhaften Laute V in offene Klänge VO, d. h. Klänge mit hoher Energie des ersten Formanten, und in geschlossene Klänge VC, d. h. in Klänge mit niedriger Energie im ersten Formanten (STEP(VVO/VC)) unterteilt werden.
Fig. 2 zeigt das Schaltbild einer praktischen Anordnung zur Durchführung des in Fig. 1 dargestellten Verfahrens. Eine vom Mikrophon 6 empfangene gesprochene Nachricht X(t) wird durch einen Vorverstärker 8, einen logarithmischen Verstärker 8-1 und einen Wechselstromverstärker 8-2 zu Signalen LOGX(t) umgeformt. Diese Signale werden den Eingängen einer ersten Filterbank 9 und einer zweiten Filterbank 10 zugeführt. Als Beispiele für die gesprochene Nachricht X(t) sind /a/ und /u/ in den Fig. 3A bzw. 3B dargestellt. In Fig. 3A ist ein Signal LOGX(t) für /a/ in einer logarithmisch umgesetzten Kurve ebenfalls dargestellt; Fig. 3B zeigt ein ebensolches Signal für /u/. Die erste Filterbank 9 besteht aus einer Serienschaltung aus einem Filter, die eine Frequenzkomponente unter 1 kHz durch­ läßt, einer Gleichrichterschaltung sowie einer Mittelungs­ schaltung, die eine Integrationsschaltung mit einer Zeitkon­ stanten von etwa 10 ms enthält; die zweite Filterbank 10 ent­ hält eine Serienschaltung aus einem Filter, das eine Frequenz­ komponente von 5 bis 12 kHz durchläßt, einer Gleichrichter­ schaltung und einer Mittelungsschaltung mit einer Integrations­ schaltung mit einer Zeitkonstanten von etwa 1 ms. In Fig. 4A sind die Frequenzspektren von /s/ (stimmloser Laut) und /a/ (stimmhafter Laut) als Beispiel für die gesprochene Nachricht X dargestellt, während Fig. 4B die Frequenzspektren ihrer logarithmisch umgesetzten Signale LOGX zeigt. Aus dem Vergleich der Fig. 4A und 4B ist zu erkennen, daß die anschließenden Verarbeitungsvorgänge durch eine loga­ rithmische Umsetzung vereinfacht werden können, während der Erkennungsgrad beibehalten wird. Die Ausgangssignale der ersten Filterbank 9 werden von den Ausgangssignalen der zweiten Filter­ bank 10 im Differenzverstärker 11 subtrahiert, und die Ausgangs­ signale dieses Differenzverstärkers werden von der Mittelungs­ schaltung 12 gemittelt, die eine Integrationsschaltung mit einer Zeitkonstanten von 10 ms enthält. Die Ausgangssignale werden dann Diskriminatorschaltungen 18 und 19 als gemittelte Stimmhaft- und Stimmlos-Signale y(t) zugeführt. Die Diskrimina­ torschaltung liefert mit dem Empfang jedes in einem Taktimpuls­ generator 20 erzeugten Taktimpulses einen Abtastimpuls C p (mit einer Periode von 8 ms), doch gibt sie nur dann ein Ausgangs­ signal mit hohem Wert ab, wenn die Signale für stimmhafte und stimmlose Laute kleiner als ein Bezugswert R v sind. Die Periode der Abtastimpulse C p wird mittels einer vom E/A-Anschluß 14 festgelegten CR-Zeitkonstanten richtig eingestellt, was bedeu­ tet, daß die Ausgangsfrequenz des Taktimpulsgenerators von einem Frequenzteiler geteilt und dann einer richtigen Periodeneinstel­ lung an einer Abgriff-Schaltung abhängig von CR am E/A-Anschluß 14 unterzogen wird. Die Diskriminatorschaltung 19 liefert bei jedem Abtastimpuls C p aus dem Taktimpulsgenerator 20 ein Aus­ gangssignal mit hohem Wert, wenn die Signale V für stimmhafte Laute und UV für stimmlose Laute größer als der Bezugswert R v sind. Als Reaktion auf den vom Taktimpulsgenerator 20 gelie­ ferten Abtastimpuls C p wird eine retriggerbare, monostabile Impulsgeneratorschaltung in der jeweiligen Diskriminatorschal­ tung 18 und 19 ausgelöst (wobei die Dauer eines Ausgangsimpulses der monostabilen Schaltung 1,5 mal größer als die Abtastperiode ist und mittels einer Widerstandsumschaltschaltung im Takt­ impulsgenerator 20 abhängig von CR eingestellt ist), damit Signale V A und UV A erzeugt werden. Fig. 5 veranschaulicht die Wirkungs­ weise für den Fall, daß die Signale V A und UV A aus den Signalen x(t) entsprechend einer gesprochenen Nachricht /seQto/ unter Anwendung der Abtastimpulsfolge C p erzeugt werden. In der For­ mungsschaltung 21 wird aus den Signalen V A und UV A in einer Differenzschaltung ein bezüglich eines Signals S p , das einen stummen Klang repräsentiert, negiertes Signal erzeugt, und dieses negierte Signal wird dazu benutzt, in einer NAND- Schaltung die Signale V p und UV p zu erzeugen, die jeweils einen stimmhaften Laut bzw. einen stimmlosen Laut anzeigen. Das Signal S p wird dem Zähler 22 zugeführt, und löscht ihn an dem Zeitpunkt, an dem es auf einen hohen Wert ansteigt. Nach dem Löschen und während des hohen Werts des Signals S P zählt der Zähler 22 die Anzahl der Abtastimpulse C P , damit die Länge der Periode des stimmlosen Lauts gemessen wird. Nur wenn der gezählte Wert des Zählers 22 größer als eine vorbestimmte Zahl wird, wird ein Signal C erzeugt.
Eine Diskriminatorschaltung 23 unterscheidet, ob die gespro­ chene Nachricht X(t) empfangen wird oder nicht, und sie liefert ein Signal P/N mit hohem Wert abhängig vom Anstieg der Signale V P und UV P auf einen hohen Wert; dieses Ausgangssignal P/N fällt als Reaktion auf das Ausgangssignal C des Zählers 22. Dies bedeutet, daß das Ausgangssignal P/N ein Impuls ist, der am Anfangspunkt der gesprochenen Nachricht X(t) ansteigt und am Endpunkt abfällt. Außerdem wird ein Zähler 24 gelöscht, wenn die Impulse der Signale V P und UV P anstiegen, und er zählt die Abtastimpulse C P in der gleichen Weise wie der Zähler 22, während die Impulse der Signale V P und UV P einen hohen Wert haben. Andererseits erzeugt eine Zeitgeberschaltung 25 beim Abfallen der Signale V P , UV P , P/N und eines vom Taktimpuls­ generator 20 gelieferten Impulses TM ein Abtastsignal STB. Der Impuls TM wird von einer Abgriff-Umschaltschaltung des Takt­ impulsgenerators 20 abhängig von CR erzeugt, wobei eine gewisse Zeitverzögerung bezüglich des Abtastimpulses C P wegen der Be­ triebszeit des Zählers 22 und der Diskriminatorschaltung 23 vorhanden ist. Als Reaktion auf das Abtastsignal STB hält eine Halteschaltung 26 die Zählergebnisse des Zählers 24 fest, die in einer Vergleichsschaltung 27 mit einem über den E/A-Anschluß gelieferten Signal TR verglichen werden. Das Signal TR wird mittels einer Bedienungstafel, d. h. mittels des Tastenfeldes 1, in Abhängigkeit von der Sprechgeschwindig­ keit des Sprechers, d. h. von der Ankunftsgeschwindigkeit der gesprochenen Nachricht eingestellt. Das Signal TR ist ein Bezugswert für die Bestimmung, ob die Phonemkomponente im Signal UV P ein stimmloser Reiblaut V oder ein stimmloser Spreng­ laut PL ist; es wird dazu benutzt, ein Signal dafür zu er­ zeugen, daß erkannt wird, daß es sich um den stimmlosen Reib­ laut F handelt, wenn die Dauer, d. h. der gezählte Wert des Zählers 24, den Wert TR überschreitet, und daß es sich um den stimmlosen Sprenglaut PL handelt, wenn die Dauer oder der gezählte Wert des Zählers 24 kleiner als TR ist. Das Ergebnis des Vergleichsvorgangs in der Vergleichsschaltung 27 wird einer Symbolbildungsschaltung 28 zugeführt, die ein Signal zur Unterscheidung des stimmhaften Lauts V, des stimmlosen Reiblauts F und des stimmlosen Sprenglauts PL liefert, was abhängig vom Abtastsignal STB und den als Reaktion auf die Signale V P und UV P von der Zeitsteuerschaltung 25 abgegebenen Signalen SV und SU erfolgt. Wenn das Signal V P einen hohen Wert hat, wird der Impuls SV von der Zeitsteuerschaltung 25 nach Ankunft des Impulses TM abgegeben und die Symbolbildungs­ schaltung 28 liefert als Antwort auf das Abtastsignal STB einen dem stimmhaften Laut V entsprechenden Impuls. Wenn das Signal UV P einen hohen Wert hat, wird der Impuls SV von der Zeitsteuerschaltung 25 nach Ankunft des Impulses TM abgegeben, und die Symbolbildungsschaltung 28 liefert abhängig vom Ver­ gleichsergebnis der Vergleichsschaltung 27 einen den stimmlosen Reiblaut F oder den stimmlosen Sprenglaut PL repräsentierenden Impuls. Die Ausgangssignale V, PL und F der Symbolbildungs­ schaltung 28 haben die Werte "1", "0" und "0" für den Fall des stimmhaften Lauts V, die Werte "0", "0" und "1" für den Fall des stimmlosen Reiblauts F und die Werte "0", "1" und "0" für den Fall des stimmlosen Sprenglauts PL. Für den Fall des stummen Lauts haben die Signale V, PL und F dagegen die Werte "0", "0" und "0". Die Ausgangssignale V, PL und F der Diskri­ minatorschaltung 28 werden vom Abtastsignal STB einem spei­ chernden Codierer 29 zugeführt, und von (0, 0, 0) in (0, 0), von (1, 0, 0) in (0, 1), von (0, 0, 1) in (1, 0) und von (0, 1, 0) in (1, 1) umgesetzt, damit sie als binäre Signale DF vorliegen, die dann dem E/A-Anschluß 14 zugeführt werden. Nachdem die binären Signale DF (die in Fig. 2 einschließlich ihrer Lage mit DF1 und DF 0 angegeben sind) vom Abtastsignal aus dem Codierer 29 ausgegeben worden sind, liefert die Zeitsteuerschaltung 25 an den E/A-Anschluß 14 abhängig von den jeweiligen Signal­ impulsen P/N, S P , V P , UV P und TM ein Signal READY, und der Inhalt der Halteschaltung 26 wird als Impuls PT abgegeben.
Die andere Zeitsteuerschaltung 30 empfängt die Signale S P , P/N und TM zur Erzeugung von Signalen SS und SRDY. Abhängig vom Signal SS speichert die Halteschaltung 31 den Inhalt des Zählers 22, während das Signal SRDY ein Bereit-Signal ist, das die Beendigung der Abgabe des Inhalts der Halteschaltung 31 (ausgedrückt durch ein Signal ST) angibt.
Der Computer 4 speichert die jeweiligen Signale DF (deren Inhalt gleich DF 1 und DF 0 ist), PT und ST im Bezugsmuster­ speicher 7 oder im Sprachnachrichtenspeicher 15 als Reaktion auf die Inhalte der Speicher RAM 3 und ROM 5. Dies bedeutet die Abspeicherung einer Klassifizierung, die repräsentiert ist durch das Signal DF des stummen Lauts S, des stimmhaften Lauts V, des stimmlosen Reiblauts F und des stimmlosen Sprenglauts PL, durch die vom Signal PT (aus der Halteschaltung 31) des stimmhaften Lauts V, des stimmlosen Reiblauts F und des stimm­ losen Sprenglauts PL (aus der Halteschaltung 26) repräsen­ tierten Längen sowie durch die Längen des stummen Lauts S (aus der Halteschaltung 31). Der Computer CPU 4 vergleicht dann das Signal DF mit dem entsprechenden Signal der Bezugs­ muster zum Zweck seiner Erkennung. Die Inhalte des Signals DF sind imMuster 1 von Fig. 5 durch V, F, PL und S angegeben. Wenn die DF-Erkennung mit einigen der Bezugsmuster überein­ stimmt, dann werden die Längen verglichen. Beim Vergleich der Längen werden vorzugsweise diese Längen zuvor normiert. Wenn die gesprochene Nachricht mit einem der Bezugsmuster bei dem Erkennungsvorgang übereinstimmt, wird ein entsprechendes Befehls­ signal zur Steuerung eines Geräts, beispielsweise eines Massage­ geräts, als Reaktion auf die gegebene gesprochene Nachricht geliefert.
In der Ausführungsform von Fig. 2 wird die Erzeugung der Signale DF, PT und ST aus den Signalen V A und UV A in der dargestellten Schaltungsanordnung durchgeführt, jedoch kann dieser Schritt auch im Computer 4 ausgeführt werden. Ein Flußdiagramm dieser Ausführungsform ist in den Fig. 7 und 8 gezeigt.
In Fig. 6 ist eine weitere Ausführungsform dargestellt, mit der zusätzlich zu den unter Bezugnahme auf Fig. 2 erklärten Vergleichs­ vorgängen auch die Signale VO für offene Klänge und VC für geschlossene Klänge verglichen werden können. Die über das Mikrophon 6 erhaltene gesprochene Nachricht X wird im Vorver­ stärker 8 verstärkt und mittels des logarithmischen Verstärkers 8-1 sowie des Wechselstromverstärkers 8-2 in die Signale LOGX umgesetzt; diese Signale werden den Eingängen der ersten Fil­ terbank 9 und der zweiten Filterbank 10 zugeführt. Die erste Filterbank 9 besteht aus einer Serienschaltung eines Filters, das eine Frequenzkomponente unter 1 kHz durchläßt, einer Gleichrichterschaltung und einer Mittelungsschaltung, die eine Integrationsschaltung mit einer Zeitkonstanten von etwa 10 ms enthält. Die zweite Filterbank besteht ebenfalls aus einer Serienschaltung aus einem Filter, das eine Frequenzkomponente von 5 bis 12 kHz durchläßt, einer Gleichrichterschaltung und einer Mittelungsschaltung, die eine Integrationsschaltung mit einer Zeitkonstanten von etwa 1 ms enthält. Das Ausgangssignal der ersten Filterbank 9 wird vom Ausgangssignal der zweiten Filterbank 10 im Differenzverstärker 11 subtrahiert, dessen Ausgangssignale von der Mittelungsschaltung 12, die eine Inte­ grationsschaltung mit einer Zeitkonstanten von 10 ms enthält, gemittelt und als Signale V für die stimmhaften Laute und UV für die stimmlosen Klänge in Diskriminatorschaltungen 18 und 19 eingegeben werden. Die Diskriminatorschaltung 18 liefert bei jeder Ankunft eines Taktimpulses, d. h. des Abtastimpulses C P mit der Periode von 8 ms aus dem Taktimpulsgenerator 20 ein Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht, wenn die Signale V und UV kleiner als ein Bezugswert R V sind. Die andere Diskriminatorschaltung 19 liefert ebenfalls bei jedem Abtastimpuls C P aus dem Taktimpulsgenerator 20 ein Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht, wenn die Signale V und UV größer als der Bezugswert R U sind. Als Reaktion auf den Abtastimpuls C P arbeiten die retrigger­ baren, monostabilen Impulsgeneratorschaltungen (deren Impuls eine um 1,5 mal größere Dauer als der Abtastimpuls haben) in den Diskriminatorschaltungen 18 und 19, und sie erzeugen die Signale V A und UV A . Die Formungsschaltung 21 erzeugt aus den Signalen V A und UV A ein einen stummen Laut repräsentierendes negiertes Signal S P an einer Antivalenzschaltung, und unter Verwendung dieses negierten Signals S P erzeugt sie auch an einer NAND-Schaltung die Signale V P und UV P , die einen stimm­ haften Laut V bzw. einen stimmlosen Laut UV repräsentieren. Das negierte Signal S P wird dem Zähler 22 zugeführt, den sie an dem Zeitpunkt löscht, an dem das Signal auf einen hohen Wert ansteigt. Nach dem Löschvorgang und während des hohen Signalwertes des Signals S P zählt der Zähler 22 die Anzahl der Abtastimpulse C P zur Messung der Länge der Periode des stummen Lauts, und nur dann, wenn der vom Zähler 22 gezählte Wert über einer vorbestimmten Zahl liegt, wird das Signal C erzeugt.
Die Diskriminatorschaltung 23 unterscheidet, ob die gesprochene Nachricht X(t) empfangen wird oder nicht, und sie gibt ein Signal P/N mit hohem Wert abhängig vom Anstieg des Signals V P und des Signals UV P auf einen hohen Wert ab. Das Ausgangssignal P/N fällt abhängig vom Ausgangssignal C des Zählers 22, was bedeutet, daß das Ausgangssignal P/N ein Impuls ist, der am Anfangszeitpunkt der gesprochenen Nachricht X(t) ansteigt und an ihrem Beendigungspunkt abfällt. Der Zähler 24 wird gelöscht, wenn die Impulse der Signale V P und UV P ansteigen, und er zählt die Abtastimpulse C P ebenso wie der Zähler 22 während der Zeit­ periode, in der die Impulse der Signale V P und UV P einen hohen Wert haben. Andererseits erzeugt die Zeitgeberschal­ tung 25 ein Abtastsignal STB nach dem Abfall der Signale V P , UV P und P/N. Zusätzlich erzeugt die Zeitgeberschaltung 25 auch Signale SV und SU in Abhängigkeit von den Signalen V P , UV P und P/N. Der Zählerstand des Zählers 24 wird mit einem über den E/A-Anschluß eingegebenen Signal TR 1 verglichen. Dieses Signal TR 1 wird an einer Bedienungstafel, d. h. am Tastenfeld 1, in Abhängigkeit von der Sprechgeschwindigkeit des Sprechers oder, in anderen Worten, in Abhängigkeit von der Ankunftsgeschwindigkeit der gesprochenen Nachricht ein­ gestellt. Das Signal TR 1 ist außerdem ein Bezugswert, mit dem bestimmt werden kann, ob die Phonemkomponente des Signals UV P für den stimmlosen Laut ein stimmloser Reiblaut F oder ein stimmloser Sprenglaut PL ist, und es wird dazu benutzt, ein Signal zu erzeugen, daß angibt, ob der Laut ein stimm­ loser Reiblaut F ist, wenn die Dauer des Lauts oder der Zähler­ stand des Zählers 24 über dem Signal TR 1 liegt, oder ein stimmloser Sprenglaut PL ist, wenn die Dauer des Lauts oder der Zählerstand unter TR 1 liegt. Das Vergleichsergebnis der Vergleichsschaltung 26 wird in die Diskriminatorschaltung 27 eingegeben, die ein Signal zur Unterscheidung des stimm­ haften Klangs V, des stimmlosen Reiblauts F und des stimm­ haften Sprenglauts PL in Abhängigkeit von den Signalen SV und SU abgibt, die von der Zeitgeberschaltung 25 in Abhängig­ keit von den Signalen V P und UV P vom Abtastsignal STB und vom Vergleichsergebnis der Vergleichsschaltung 26 abgegeben werden. Wenn das Signal V P einen hohen Wert hat, gibt die Zeitgeberschaltung 25 einen Impuls SV ab, und die Diskriminator­ schaltung 27 gibt abhängig vom Abtastsignal STB einen Impuls ab, der anzeigt, daß ein stimmhafter Laut V vorliegt. Wenn das Signal UV P einen hohen Wert hat, gibt die Zeitgeberschaltung 25 einen Impuls SV ab, und die Diskriminatorschaltung 27 liefert abhängig vom Vergleichsergebnis der Vergleichsschaltung 26 und vom Abtastsignal STB ebenfalls einen Impuls, der angibt, daß das Signal ein stimmloser Reiblaut F oder ein stimmloser Sprenglaut PL ist. Die Ausgangssignale V, PL oder F der Diskrimi­ natorschaltung 27 haben somit für den Fall des stimmhaften Lauts V die Werte "1", "0" und "0", für den Fall des stimm­ losen Reiblauts F die Werte "0", "0" und "1", für den Fall des stimmlosen Sprenglauts PL die Werte "0", "1" und "0" und für den Fall des stummen Lauts die Werte "0", "0" und "0". Die Ausgangssignale V, F und PL werden durch das Abtastsignal STB dem speichernden Codierer 29 zugeführt und von (0, 0, 0) in (0, 0), von (1, 0, 0) in (0, 1), von (0, 0, 1) in (1, 0) und von (0, 1, 0) in (1, 1) umgesetzt, so daß sie in Form eines binären Signales DF vorliegen und anschließend an den E/A-Anschluß 14 abgegeben werden. Nachdem das binäre Signal DF (das in Fig. 6 einschließlich der Lage als DF 1 und DF 0 angegeben ist) vom Codierer 29 durch das Abtastsignal abgegeben worden ist, wird dem E/A-Anschluß aus der Zeitgeberschaltung 25 abhängig von den Signalen P/N, V P und UV P ein Signal READY abgegeben.
Die vom Vorverstärker 8 verstärkte gesprochene Nachricht X(t) wird den Eingängen einer dritten Filterbank 32 und einer vierten Filterbank 33 über einen im hohen Bereich wirksamen Anhebungsverstärker 8-3 mit +6 dB/Oktave zugeführt. Die dritte Filterbank 32 besteht aus einem eine Frequenzkomponente von 0 bis 0,5 kHz durchlassenden Filter, einer Gleichrichter­ schaltung und einer Mittelungsschaltung, die eine Integrations­ schaltung mit einer Zeitkonstanten von etwa 5,5 ms enthält. Die vierte Filterbank 33 besteht aus einer Serienschaltung eines eine Frequenzkomponente von 0,5 bis 1,0 kHz durchlassen­ den Filters, einer Gleichrichterschaltung und einer Mittelungs­ schaltung mit einer Integrationsschaltung mit einer Zeitkonstan­ ten von etwa 10 ms. Die Ausgangssignale der dritten Filter­ bank 32 werden von einem logarithmischen Verstärker 32 A loga­ rithmisch verstärkt, und sie werden von den Ausgangssignalen der vierten Filterbank 33 in einem Differenzverstärker 34 sub­ trahiert, die von einem weiteren logarithmischen Verstärker 33 A ebenfalls logarithmisch verstärkt worden sind. Die Ausgangs­ signale dieses Differenzverstärkers 34 können mittels der logarithmischen Verstärker 32 A und 33 A an solche Ausgangs­ signale angeglichen werden, die für den Menschen hörbar sind. Die Ausgangssignale des Differenzverstärkers werden in einer Mittelungsschaltung 35 gemittelt, die eine Integrationsschal­ tung mit einer Zeitkonstanten von 20 ms enthält; sie werden ferner Diskriminatorschaltungen 36 und 37 als Signale VO für offene Klänge und VC für geschlossene Klänge zugeführt. Die Diskriminatorschaltung 36 liefert jedesmal dann, wenn der Taktimpuls, d. h. der vom Taktimpulsgenerator 20 erzeugte Abtastimpuls C P mit einer Periode von 8 ms, ankommt, ein Ausgangssignal mit hohem Wert, was jedoch nur dann geschieht, wenn die Signale VO und VC kleiner als ein Bezugswert R O ist. Die andere Diskriminatorschaltung 27 liefert mit jedem Abtast­ impuls C P aus dem Taktimpulsgenerator 20 ebenfalls ein Ausgangs­ signal mit hohem Wert, was nur dann geschieht, wenn die Signale VO und VC größer als ein Bezugswert R C sind. Abhängig von dem vom Taktimpulsgenerator 20 abgegebenen Abtastimpuls C P werden retriggerbare monostabile Impulsgeneratorschaltungen (bei denen die Dauer des abgegebenen Impulses jeweils 1,5mal so groß wie die Abtastimpulsperiode ist) in den Diskriminator­ schaltungen 36 und 37 betätigt, so daß die Signale VO A und VC A abgeben, und aus diesen Signalen erzeugt eine Formungsschal­ tung 38 in ihrer Antivalenzschaltung stumme Klänge repräsen­ tierende negierte Signale, und unter Verwendung der negierten Signale werden in einer NAND-Schaltung ein einen offenen Klang VO anzeigendes Signal VO P sowie ein einen geschlossenen Klang VC anzeigendes Signal VC P erzeugt. Diese Signale VO P und VC P werden einem Zähler 39 zugeführt, den sie bei ihrem Anstieg löschen. Nach dem Löschen zählt der Zähler 39 die Abtast­ impulse C P , während die jeweiligen Signale VO P und VC P einen hohen Wert haben. Andererseits erzeugt eine Zeitgeberschaltung 40 ein Abtastsignal VSTB beim Abfallen der Signale VO P und VC P . Die Zeitgeberschaltung 40 erzeugt auch abhängig von den Signalen VO P , VC P und TM die Signale SO und SC. Der Stand des Zählers 39 wird in einer Vergleichsschaltung 41 mit einem über den E/A- Anschluß eingegebenen Signal TR 2 verglichen. Dieses Signal TR 2 wird an der Bedienungstafel, d. h. an der Tastatur 1, in Abhängig­ keit von der Sprechgeschwindigkeit des Sprechers oder, in ande­ ren Worten, von der Ankunftsgeschwindigkeit der gesprochenen Nachricht eingestellt. Das Signal TR 2 ist ein Bezugswert für die Entnahme des mittleren Klangs VM aus den Phonemkomponenten in den Signalen VO P und VC P , und es wird dazu benutzt, ein Signal für das Erkennen eines offenen Klangs VO oder eines geschlossenen Klangs VC zu erzeugen, wenn die Dauer, d. h. der gezählte Wert des Zählers 39, das Signal TR 2 überschreitet, oder ein Signal für das Erkennen eines mittleren Klangs VM zu erzeugen, wenn die Dauer, d. h. der gezählte Wert des Zählers 39, unter TR 2 liegt. Die Vergleichsergebnisse der Vergleichs­ schaltung 41 werden einer Symbolbildungsschaltung 42 zugeführt, die ein Signal dafür liefert, den offenen Klang VO, den geschlosse­ nen Klang VC und den mittleren Klang VM abhängig von den Signa­ len SO und SC zu unterscheiden, die von der Zeitgeberschaltung 40 in Abhängigkeit von den Signalen VO P und VC P , dem Abtast­ signal VSB und dem Vergleichsergebnis der Vergleichsschaltung 41 geliefert werden. Wenn das Signal VO P einen hohen Wert hat, wird der Impuls SO von der Zeitgeberschaltung 40 abgegeben, und ein Vergleichsergebnis darüber, ob die Periode, in der das Signal VO P einen hohen Wert hat, länger oder kürzer als der Bezugswert TR 2 ist, wird aus der Vergleichsschaltung 41 abge­ geben, so daß dann, wenn die Periode des Signals VO P mit hohem Wert größer als der Bezugswert TR 2 ist, eine Symbolbildungs­ schaltung 42 als Reaktion auf das Abtastsignal VSTB einen Impuls abgibt, der anzeigt, daß der offene Klang VO vorliegt, während dann, wenn die Periode des Signals VO P mit hohem Wert kleiner als der Bezugswert TR 2 ist, die Symbolbildungsschaltung 42 ebenfalls als Reaktion auf das Abtastsignal VSTB einen Impuls abgibt, der anzeigt, daß der mittlere Klang VM vorliegt. Wenn das Signal VC P einen hohen Wert hat, wird von der Zeitgeber­ schaltung 40 ein Impuls SC abgegeben, während das Vergleichs­ ergebnis darüber, ob die Periode mit hohem Wert länger oder kürzer als der Bezugswert TR 2 ist, von der Vergleichsschaltung 41 abgegeben wird. Wenn die Periode des Signals VC P mit hohem Wert länger als der Bezugswert TR 2 ist, gibt die Symbolbil­ dungsschaltung 42 abhängig vom Abtastsignal VSTB einen Impuls ab, der zeigt, daß der geschlossene Klang VC vorliegt. Ist die Periode des Signals VC P mit hohem Wert dagegen kürzer als der Bezugswert TR 2, liefert die Symbolbildungsschaltung 42 eben­ falls abhängig vom Abtastsignal VSTB einen Impuls, der anzeigt, daß der mittlere Klang VM vorliegt. Die Ausgangssignale VO und VC der Symbolbildungsschaltung 42 haben somit für den Fall des offenen Klangs VO die Werte "1" und "0", für den Fall des geschlossenen Klangs VC die Werte "0" und "1" und für den Fall des mittleren Klangs VM die Werte "0" und "0". Die Ausgangs­ signale VO und VC der Symbolbildungsschaltung 42 werden vom Abtastsignal VSTB in die Halteschaltung 43 eingegeben, und wenn das Ausgangssignal V der Ausgangssignale V, PL und F der Diskriminatorschaltung 27 als ein Signal mit hohem Wert bestä­ tigt wird, werden sie zum E/A-Anschluß 14 abgegeben. Diese Ausgangssignale VO und VC sind in Fig. 6 einschließlich ihrer Lage mit DF 2 und DF 3 dargestellt. Die Halteschaltung 44 speichert den gezählten Wert des Zählers 39 abhängig vom Ab­ tastsignal VSTB, und sie gibt diesen Wert auch an den E/A- Anschluß 14 ab, damit er für den Fall der Anwendung der Längen bei der Erkennung der Signale VO und VC benutzt wird. Nachdem die Ausgangssignale der Halteschaltungen 43 und 44 zum E/A- Anschluß 14 abgegeben worden sind, gibt die Zeitgeberschaltung 40 ein Bereit-Signal SRDY ab.
Das dem Taktimpulsgenerator 20 vom E/A-Anschluß 14 gelieferte Signal CR ist ein Signal, das in selektiver Weise die Abgabe der Ausgangssignale C P und TM des Taktimpulsgenerators 20 be­ wirkt.
Der Computer 4 bewirkt die Speicherung der Signale DF 0, DF 1, DF 2 und DF 3 sowie des Ausgangssignals der Halteschaltung 44 im Bezugsmusterspeicher 7 oder im Sprachnachrichtenspeicher 15 abhängig von Signalen aus dem Speicher 3 und dem Speicher 5. Dies bedeutet, daß in den Speichersystemen die Signale DF 0, DF 1, DF 2 und DF 3, die die Klassifizierung des stummen Lauts S, den offenen Klang VO, des geschlossenen Klangs VC, des mittleren Klangs VM, des stimmlosen Reiblauts F und des stimm­ losen Sprenglauts PL angeben, sowie die Signale, die die Längen des offenen Klangs VO, des geschlossenen Klangs VC und des mittleren Klangs VM angeben, abgespeichert werden. Im Anschluß daran vergleicht der Computer 4 diese klassifizierten Signale und die Längen mit denen der zuvor abgespeicherten Bezugsmuster für das Erkennen der Nachricht (siehe das Muster 2 von Fig. 5). In diesem Fall kann der Erkennungsvorgang gut vereinfacht werden, wenn die klassifizierten Signale vor den Längen verglichen werden und die Längen nur dann verglichen werden, wenn die klassifizierten Signale eine Übereinstimmung mit den Bezugsmustern zeigen. Beim Vergleich der Längen ist es außerdem sehr günstig, wenn sie einer Normierung unter­ zogen werden. Wenn die gesamte gesprochene Nachricht bei die­ sem Erkennungsvorgang mit einem der Bezugsmuster übereinstimmt, wird ein Befehlssignal für das richtige Steuern eines Geräts, beispielsweise eines Massagegeräts, abhängig von der gegebenen gesprochenen Nachricht geliefert.
In der Ausführungsform von Fig. 6 wird der Schritt der Erzeu­ gung der klassifizierten Signale und der Längen aus den Signalen V A , UV A , VO A und VC A mittels der dargestellten Schaltungsan­ ordnung durchgeführt; dieser Schritt kann natürlich auch vom Computer 4 ausgeführt werden. Ein Flußdiagramm der Ausführungs­ form von Fig. 6 ergibt sich aus den Fig. 9 und 10.

Claims (18)

1. Verfahren zur Spracherkennung, bei dem eine gespro­ chene Nachricht in ein erstes Frequenzband zerlegt wird, in dem sich die Energieanteile stimmhafter Laute konzen­ trieren, und in ein zweites Frequenzband zerlegt wird, in dem sich die Energieanteile stimmloser Laute konzen­ trieren, die in den jeweiligen Frequenzbändern enthalte­ nen Energieanteile gemessen werden, aus den Energiean­ teilen der dem ersten Frequenzband angehörigen stimm­ haften Lautkomponenten und aus den Energieanteilen der dem zweiten Frequenzband angehörigen stimmlosen Laut­ komponenten Signale für stimmhafte Laute und Signale für stimmlose Laute erzeugt werden und die Signale für stimmhafte Laute und für stimmlose Laute jeweils mit Bezugsmustern verglichen werden, dadurch gekennzeichnet, daß eine logarithmische Amplitudenkompression der ge­ sprochenen Nachricht vor der Zerlegung in mehrere Fre­ quenzbänder vorgenommen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die gesprochene Nachricht zusätzlich in ein drittes Frequenz­ band zerlegt wird, in dem sich die Energieanteile offener Klänge der stimmhaften Laute konzentrieren, und in ein viertes Frequenzband zerlegt wird, in dem sich die Energieanteile geschlossener Klänge der stimmhaften Laute konzentrieren, und anschließend einer Amplitudenkompression unterzogen wird, und daß aus den Energieanteilen von offenen Klang­ komponenten, die dem dritten Frequenzband angehören, und aus den Energieanteilen geschlossener Klangkomponenten, die dem vierten Frequenzband angehören, Signale für offene und für geschlossene Klänge erzeugt werden, die ebenfalls mit Bezugsmustern verglichen werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Signale für offene und geschlossene Klänge nur mit dem Bezugsmuster verglichen werden, das bei dem Vergleichsvor­ gang der Signale für stimmhafte und stimmlose Laute entnom­ men worden ist.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Signale für stimmhafte und stimmlose Laute sowie die Signale für offene und geschlossene Klänge jeweils Impuls­ signale sind.
5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß
  • - die Längen der stimmhaften, stimmlosen und stummen Lautperioden der Signale für stimmhafte und stimmlose Laute sowie die Längen der offenen, geschlossenen und stummen Klangperioden in den Signalen für offene und geschlossene Klänge gemessen werden und
  • - die Längen der stimmhaften, stimmlosen und stummen Lautperioden sowie der offenen, geschlossenen und stummen Klangperioden mit den jeweiligen Bezugsmustern verglichen werden, damit eines der Bezugsmuster entnommen wird, bei dem hinsichtlich der Längen im wesentlichen Übereinstim­ mung besteht.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die stimmhaften, stimmlosen und stummen Lautperioden in den Signalen für stimmhafte und stimmlose Laute sowie die offenen, geschlossenen und stummen Klangperioden in den Signalen für offene und geschlossene Klänge zur For­ mung verarbeitet werden, wenn ihre gemessenen Längen unter einem vorbestimmten Wert liegen.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß stimmhafte und stimmlose Laute sowie offene und geschlossene Klänge, deren Längen kleiner als ein vorbestimmter Wert sind, als stumme Laute verarbeitet werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß ein stummer Laut mit einer unter einem vorbestimmten Wert liegenden Länge als ein stimmhafter Laut verarbeitet wird, wenn er zwischen einem stimmhaften Laut mit einer über dem vorbestimmten Werte liegenden Länge und einem weiteren stimmhaften Laut liegt, während er als stimmloser Laut ver­ arbeitet wird, wenn er zwischen einem stimmlosen Laut mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren stimmlosen Laut liegt, und daß ein stummer Laut als offener Klang verarbeitet wird, wenn er zwischen einem offenen Klang mit einer über dem vorbestimmten Wert liegen­ den Länge und einem weiteren offenen Klang liegt, jedoch als geschlossener Klang verarbeitet wird, wenn er zwischen einem geschlossenen Klang mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren geschlossenen Klang liegt.
9. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die gemessenen Längen zur Vereinfachung der Vergleichs- und Verarbeitungsschritte normiert werden.
10. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Signale für stimmhafte und stimmlose Laute sowie die Signale für offene und geschlossene Klänge codiert werden, indem in den Signalen für stimmhafte und stimmlose Laute den stimmhaften Lauten +1, den stimmlosen Lauten -1 und den stummen Lauten 0 zugeordnet wird, während in den Signa­ len für offene und geschlossene Klänge den offenen Klängen +1, den geschlossenen Klängen -1 und den stummen Lauten 0 zugeordnet wird.
11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die normierten Längen codiert werden, indem +1 den Längen über einen vorbestimmten Wert, -1 den Längen unter einem weiteren vorbestimmten Wert und 0 den Längen zwischen den beiden vorbestimmten Werten zugeordnet wird.
12. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß eine stimmlose Lautperiode, die sich als eine stumme Laut­ periode mit einer über einem vorbestimmten Wert liegenden Länge fortsetzt, als ein stimmloser Sprenglaut verarbeitet wird, wenn die Länge der stimmlosen Lautperiode kleiner als der vorbestimmte Wert ist, jedoch als stimmloser Reib­ laut verarbeitet wird, wenn die Länge über diesem vorbe­ stimmten Wert liegt.
13. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Amplitudenkompression nur für Amplituden oberhalb eines vorbestimmten Wertes durchgeführt wird.
14. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das erste Frequenzband von 0 bis 1,0 kHz, das zweite Frequenzband von 2 bis 12 kHz, das dritte Frequenzband von 0 bis 0,5 kHz und das vierte Frequenzband von 0,5 bis 1,0 kHz reicht.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet,
  • a) daß die Längen der stimmhaften, stimmlosen und stummen Lautperioden in den Signalen der stimm­ haften und stimmlosen Klänge gemessen werden,
  • b) daß aus den Energieanteilen der dem dritten Frequenz­ band angehörigen offenen Klangkomponenten und aus den Energieanteilen der dem vierten Frequenzband angehörigen geschlossenen Klangkomponenten Signale für offene und geschlossene Klänge gebildet werden,
  • c) daß die Längen der offenen, geschlossenen und stummen Klangperioden in den Signalen für offene und geschlossene Klänge gemessen werden,
  • d) daß die stimmhaften und stimmlosen Laute sowie die offenen und geschlossenen Klänge mit einer unter einem vorbestimmten Wert liegenden Länge zur For­ mung als ein stummer Laut verarbeitet werden, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem stimmhaften Laut mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren stimmhaften Laut zur Formung als stimmhafter Laut verarbeitet wird, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem stimmlosen Laut mit einer über dem vorbestimmten Wert liegenden Länge und einem weiteren stummen Laut zur Formung als stimmloser Laut verarbeitet wird, der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwi­ schen einem offenen Klang mit einer über dem vorbe­ stimmten Wert liegenden Länge und einem weiteren offenen Klang zur Formung als offener Klang ver­ arbeitet wird und der stumme Laut mit einer unter dem vorbestimmten Wert liegenden Länge zwischen dem geschlossenen Klang mit einer über dem vorbe­ stimmten Wert liegenden Länge und einem weiteren geschlossenen Klang als geschlossener Klang verar­ beitet wird,
  • e) daß zusammengesetzte Impulse mit stimmlosen und stummen Lautperioden geformter Signale für stimm­ hafte und stimmlose Laute als stimmlose und stumme Lautperioden gebildet werden, mit offenen und ge­ schlossenen Klängen von Signalen für offene und geschlossene Klänge, die in Übereinstimmung mit stimmhaften Lautperioden geformter Signale für stimmhafte und stimmlose Klänge vorhanden sind, als offene oder geschlossene Klänge gebildet werden und mit stummen Lauten der geformten Signale für offene und geschlossene Klänge, die in Übereinstimmung mit den stimmhaften Lautperioden der geformten Signale für stimmhafte und stimmlose Laute vorhanden sind, als mittlere Klänge gebildet werden,
  • f) daß jeweilige Gruppen der geformten Signale für stimmhafte und stimmlose Laute hierarchisch so klassifiziert werden, daß sie in einer ersten Rang­ ebene liegen, wobei die offenen, geschlossenen und mittleren Klänge, die in den zusammengesetzten Im­ pulsen aufeinanderfolgen, in einer zweiten Rangebene liegen,
  • g) daß die Längen der ersten Rangebene normiert werden,
  • h) daß die Längen jeweiliger Gruppen der zweiten Rang­ ebene normiert werden,
  • i) daß die Signale auf der ersten Rangebene mit ent­ sprechenden Bezugsmustern verglichen werden, damit diejenigen Bezugsmuster entnommen werden, die im wesentlichen mit den Signalen übereinstimmen, und
  • j) daß die Signale auf der zweiten Rangebene mit den entnommenen Bezugsmustern verglichen werden, damit eines von ihnen entnommen wird, das im wesentlichen mit diesen Signalen übereinstimmt.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet,
  • k) daß festgestellt wird, ob das entnommene Bezugs­ muster ausreichend verschieden vom nächstzutref­ fenden entnommenen Bezugsmuster ist, und bei einer ungenügenden Abweichung ein die Notwendigkeit einer erneuten Eingabe der Nachricht anzeigendes Signal erzeugt wird.
17. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die mittleren Klänge jeweiliger Signalgruppen in der zwei­ ten Rangebene mit jedem der offenen und geschlossenen Klänge in den Bezugsmustern verglichen werden, daß die offenen und geschlossenen Klänge in jeweiligen Gruppen der zweiten Rangebene als mittlere Klänge mit den durch den Vergleich entnommenen Bezugsmustern verglichen werden, daß ein Bezugs­ muster entnommen wird, dessen offene Klänge die gleiche Rate wie die offenen Klänge in den jeweiligen Gruppen auf der zweiten Rangebene haben, daß ein Bezugsmuster entnommen wird, das die gleichen Hauptkomponenten wie die jeweiligen Gruppen auf der zweiten Rangebene hat, daß ein Bezugsmuster entnommen wird, das bei einer Auswertung an den Punkten +1,0 und -1 mit Eingangsmustern jedes Abtastwerts in den jeweiligen Signalgruppen auf der zweiten Rangebene am besten übereinstimmt, und daß schließlich in ausgewählter Weise ein gemeinsames Bezugsmuster der bei diesen vier Schritten erhaltenen Bezugsmuster entnommen wird.
18. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß der Vergleich auf der ersten Rangebene ausgeführt wird, in­ dem bei Anwesenheit eines stummen Lauts mit kurzer Länge ein stimmloser Laut mit kurzer Länge hinzuaddiert wird.
DE19823200645 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung" Granted DE3200645A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19823200645 DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"
DE19823249698 DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19823200645 DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"

Publications (2)

Publication Number Publication Date
DE3200645A1 DE3200645A1 (de) 1983-07-21
DE3200645C2 true DE3200645C2 (de) 1987-06-25

Family

ID=6152886

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19823249698 Expired DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method
DE19823200645 Granted DE3200645A1 (de) 1982-01-12 1982-01-12 "verfahren und vorrichtung zur spracherkennung"

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE19823249698 Expired DE3249698C2 (en) 1982-01-12 1982-01-12 Method for speech recognition and device for carrying out this method

Country Status (1)

Country Link
DE (2) DE3249698C2 (de)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2297528A (en) 1941-12-12 1942-09-29 Bell Henry Barto Fraud prevention device for meters
DE957235C (de) * 1953-04-21 1957-01-31 Nordwestdeutscher Rundfunk Ans Verfahren zur UEbertragung oder Speicherung von Schallereignissen, bei dem der zu uebertragende Frequenzbereich in zwei getrennte Bereiche aufgeteilt wird
US3588363A (en) * 1969-07-30 1971-06-28 Rca Corp Word recognition system for voice controller
FR2150174A5 (de) * 1971-08-18 1973-03-30 Dreyfus Jean
DE2400027A1 (de) * 1973-01-08 1974-07-25 Xerox Corp Verfahren und vorrichtung zum erkennen von worten
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer

Also Published As

Publication number Publication date
DE3200645A1 (de) 1983-07-21
DE3249698C2 (en) 1987-11-26

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
DE69432570T2 (de) Spracherkennung
DE2918533C2 (de)
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE4031638C2 (de)
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2608569A1 (de) Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
DE3200645C2 (de)
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE3642591C2 (de)
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8172 Supplementary division/partition in:

Ref country code: DE

Ref document number: 3249698

Format of ref document f/p: P

Q171 Divided out to:

Ref document number: 3249698

Ref country code: DE

AH Division in

Ref country code: DE

Ref document number: 3249698

Format of ref document f/p: P

D2 Grant after examination
AH Division in

Ref country code: DE

Ref document number: 3249698

Format of ref document f/p: P

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee