DE2448908C3 - Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung - Google Patents

Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung

Info

Publication number
DE2448908C3
DE2448908C3 DE19742448908 DE2448908A DE2448908C3 DE 2448908 C3 DE2448908 C3 DE 2448908C3 DE 19742448908 DE19742448908 DE 19742448908 DE 2448908 A DE2448908 A DE 2448908A DE 2448908 C3 DE2448908 C3 DE 2448908C3
Authority
DE
Germany
Prior art keywords
circuit
frequency
speech
syllables
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19742448908
Other languages
English (en)
Other versions
DE2448908A1 (de
DE2448908B2 (de
Inventor
Hubertus 3300 Braunschweig Bettin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AEG Olympia Office GmbH
Original Assignee
Olympia Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympia Werke AG filed Critical Olympia Werke AG
Priority to DE19742448908 priority Critical patent/DE2448908C3/de
Publication of DE2448908A1 publication Critical patent/DE2448908A1/de
Publication of DE2448908B2 publication Critical patent/DE2448908B2/de
Application granted granted Critical
Publication of DE2448908C3 publication Critical patent/DE2448908C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein elektrisches Verfahren zur Spracherkennung der im Oberbegriff des Anspruchs 1 angegebenen Art.
In der DE-OS 1 547027 ist bereits ein Spracherkennungsverfahren beschrieben worden, bei dem das Frequenzspektrum der Sprachsignale in mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird. Bei diesem Verfahren wird das jeweilige Ende von Formanten, getrennt in vielen Frequenzbändern, von Differenzierschaltungen ermittelt. In nachgeschalteten Verriegelungsschaltungen werden die Formantverhältnisse (steigend, fallend, unveränderlich) für sehr viele Vokal-Vektorgrößen im Sprachspektrum angezeigt. Weiterhin werden Konsonant-Kriterien in einem Frequenzanalysator und anhand von Energiestößen ermittelt. In einer Konsonafrtenmatrix werden die Formantenergie sowie die Formantkriterien eingespeichert. Auch die ermittelten Formanten gelangen über einen Formantgeber in die Konsonantenmatrix, so daß insgesamt eipe Vielzahl von Vektorgrößen - in der bekannten Ausführungsform 56 - zur Verfugung stehen.
Mit diesen Spracherkennungsverfahren ist es zwar möglich, einen sehr großen Wortschatz zu verarbeiten, jedoch wird hierzu ein schaltungstechnischer Aufwand benötigt, der ein solches Gerät für den prakiischen Einsatz unrealistisch erscheinen läßt.
In der DE-OS 2363590 ist ein Spracherkennungsverfahren beschrieben, bei dem die Sprachsignale in 6 Frequenzbänder aufgeteilt und daraus mehrdimensionale Sprachkurven aus Punkten, die den Energie= stufen und Zeitabschnitten zugeordnet sind, in einem Raurnkoordinanten-System gebildet werden. Jeder Kurvenpunkt wird mit Merkmalen von zuvor im Raum zugeordneten Referenzpunkten gekennzeichnet, und die so gebildeten Merkmalsfolgen werden mit dem Inhalt eines Mcrkmalsspeichers verglichen.
Ein Verfahren, bei dem eine Aufteilung der Sprachsignale in 6 Bänder notwendig ist und zur Verringerung der Vieldeutigkeit die Auswertung in einem Raumkoordinaten-System erfolgen muß, ist aber ebenfalls sehr kompliziert und erfordert deshalb wiederum eine aufwendige Schaltungsanordnung.
Auch bei dem in der DE-OS 2326517 beschriebenen Verfahren werden mehrere Frequenzbänder bei der Erkennung gesprochener Wörter zugrunde gelegt. Die Sprachsignale werden zu diesem Zweck in einem Frequenzanalysator in eine Anzahl benachbarter Teilfrequenzbereiche unterteilt. In einem periodischen Abtastvorgang wird festgestellt, welche der Signale oberhalb bzw. unterhalb eines gleitenden Schwellwertes Hegen. Mit in Abhängigkeit davon abgespeicherten Signalmustern wird ein einmaliger Vergleich mit einem gespeicherten Signalvorrat durchgeführt, dessen Ergebnis in einer Umwandlungsvorrichtung zur Identifizierung der gesprochenen Wörter verwendet wird.
Auch bei diesem Verfahren ist eine aufwendige Schaltungsanordung erforderlich, da eine Aufteilung in mehrere Frequenzbänder durchgeführt werden muß. Außerdem ist die Erkennung der Wörter durch einen einmaligen Vergleich wegen der Vieldeutigkeit ähnlicher Laute nicht zuverlässig.
Der Erfindung liegt die Aufgabe zugrunde, mit einem Minimum an Aufwand gesprochenen Text mit großer Fehlersicherheit zu erkennen, ohne Ein-JO schränkungen im Umfang des Vokabulars in Kauf nehmen zu müssen.
Diese Aufgabe wird durch die im Patentanspruch 1 angegebene Erfindung gelöst.
Die Vorteile der Erfindung bestehen insbesondere
jj darin, daß die Analyse der Sprachsignale unabhängig von deren Amplitude und unabhängig von der Sprechgeschwindigkeit möglich ist, ohne daß dafür ein großer Schaltungsaufwand erforderlich wird. Es kann ein beliebig großer Wortvorrat verarbeitet werden, der lediglich von der Größe des Merkmalsspt-ichers und des Wortspeichers abhängig ist.
Mit der in den Unteransprüchen beschriebenen Schaltungsanordnung läßt sich das erfindungsgemäße Verfahren mit denkbar geringem schaltungstechni-4-, sehe Aufwand sicher und zuverlässig durchführen.
In den Zeichnungen ist ein Ausführungsbeispiel der Erfindung dargestellt und wird nachfolgend näher erläutert. Es zeigt
Fig. 1 eine Spracherkennungsschaltung als Block- -,o schaltbild,
Fig. 2 eine detaillierte Darstellung der Fig. 1,
Fig. 3 bis6die Formanterkennungsschaltungender Fig. 2,
Fig. 7 bis 12 die Aufteilung des Sprachbandes zur γ, Forrranterkennung,
Fig. 13 bis 16 Sprachkurven,
Fig. 17 und 18 Kurven zur Mustersilben -Selektion und
Fig. 19 ein Schema der Wortbildung.
W) Wie aus dem Blockschaltbild der Fig. 1 ersichtlich ist, wird der gespiochene Text der Schaltung über ein Mikrofon 1 angeboten, das die Schallschwingungen in elektrische Signale umwandelt. Die für die Spracherkennung wesentlichen Sprachmerkmalc lassen sich b5 aus dem Energiedichte-Spektrum des elektrischen Sprechsignals ableiten. Für die einzelnen Phoneme also die kleinste lautliche Einheit, die in derselben lautlichen Umgebung einen Bedeutungsunterschied
ausmacht - entstehen beim Sprechen immer drei ausgeprägte Frequenzschwerpiinkte. Diese Formanten genannten Frequenzschwerpunkte weichen, bei verschiedenen Sprechern nur wenig voneinander ab.
Die elektrischen Sprechsignale gelangen in eine Schaltung zur Formanterkennung 2, die in einer später näher erläuterten Weise die beiden frequenzniedrigsten Formanten eines jeden Phonems, aus diesen Formanten die Vokale und schließlich Sprechpausen erkennt. In einer Schaltung 3 zur Bildung vereinfachter Sprachkurven - im folgenden Pseudosilben genannt werden aus den Formanterkennungssignalen, den Vokalerkennungssignalen und den Sprechpausensignalen Sprachkurven gebildet, die Merkmale für die Phoneme darstellen. Die Phoneme sind in ihrem Übergangsverhalten sehr stark von den Nachbar-Phonemen abhängig, d. h., die Formantfrequenzen sind für gleiche Laute unterschiedlich. So haben z. B. Explosivlaute (t, b, p, k) in Verbindung mit anderen Vokalen auch andere Formantfrequenzen. Um dennoch die Sprechsignale sicher erkennen zu können, wird von der üblichen Analyse einzelner Phoneme abgewichen, und in der Schaltung zur Pseudosilbenbildung 3 werden die Phoneme zu längeren, von Sprechzeit und Lautstärke unabhängigen Pseudosilben verbunden. Es werden dabei Silben gebildet, die aus Vokalen, Konsonanten und Pausen bestehen und deren Mittelpunkte Konsonanten sind. Eine Pseudosilbe kann demnach aus
Pause-Konsonant-Pause
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
bestehen.
Die herausgebildeten Pseudosilben werden in einem Merkmalvergleicher 4 mit Mustersilben, die in einem Merkmalspeicher 5 enthalten sind, verglichen. Der Merkmalspeicher 5 ist beispielsweise ein ROM, in dem alle vorkommenden Pseudosilben in korrekter Form eingespeichert sind. Da die aus den Formanten gebildeten Pseudosilben eine große Ähnlichkeit mit den korrekten Mustersilben aufweisen, erbringt der Vergleich mit großer Zuverlässigkeit für jede Pseudosilbe die richtige zugehörige Mustersilbe.
Aus dem Merkmalvergleicher 4 werden Signale, die den jeweils ausgesuchten Mustersilben entsprechen, an eine Schaltung 6 zur Bildung künstlicher Wörter - im folgenden Pseudowort genannt - gegeben. Hier werden mehrere Mustersilben zusammengefaßt und durch Änderung der Silbentrennstellen zu Pseudoworten verarbeitet. Diese Pseudoworte, die eine große Ähnlichkeit mit den entsprechenden orthographisch richtigen Worten aufweisen, werden an einen Wortvergleicher 7 ausgegeben. Hier erfolgt ein Vergleich mit orthographisch richtigen Worten, die in einem das Vokabular der Einrichtung enthaltenden Wortspeicher 8 eingespeichert sind.
Der Ausgang 9 des Wortvergleichers 7 liefert dann die Signale für das erkannte Wort in orthographisch richtiger Weise.
Anhand der Fig. 2 soll im folgenden der Ablauf der Spracherkennung näher erläutert werden. Die strichpunktiert eingerahmten Schaltungsteile weisen eine detailliertere Darstellung der Blöcke in Fig. 1 auf. Wie bereits beschrieben, gelangen die elektrischen Sprechsignale - über eine Verstärkerschaltung 10 - an die Formanterkennung 2.
Die Formanterkennung 2 weist eine Schaltung Il (Fig. 3) zur Erkennung des frequenzniedrigsten Formanten sowie eine zugehörige Impulsformerschaltung 12, eine Schaltung 13 (Fig. 4) zur Erkennung des Formanten nächsthöherer Frequenz mit zugehöriger ■> Impulsformerschaltung 14,eine Schaltung 15 (Fig. S) zur Vokalerkennung und einen Sprachschalter 16 (Fig. 6), der zum automatischen Erkennen von Sprechpausen dient, auf.
Die Schaltung beschränkt sich auf die Erkennung
ίο nur zweier Formanten, denn es hat sich herausgesiellt. daß ausschließlich die beiden Formanten mit der niedrigsten Frequenz für die Verständlichkeit eines Phonems wichtig sind. Der Verzicht auf die Auswertung weiterer Formanten hat die Zuverlässigkeit der bc-
i"' schriebenen Schaltung nicht beeinträchtigt.
Zur Aussiebung des frequenzhöheren der beiden frequenzniedrigsten Formanten wird - siehe Fig. 4 das mit einer Bandbreite von αι. 200 bis 2800 II/vom Mikrofon kommende Sprachsignal über ein Hoch-
-Ό paßfilter 22 geleitet, um eine bessere Hervorhebung der höheren Frequenzen zu erreichen. In einem nachfolgenden Phasendifferenzverstärker 23 wird das Signal phasenverschoben, und der höchste Formant vird ausgefiltert. Durch die Größe der Phascnver-
2> Schiebung kann der nächsthöhere Formant mit zwar höherer Frequenz aber viel kleinerer Amplitude sifher unterdruckt werden.
Mi«* »Phasendifferenzverstärker« ist- auch im folgenden — eine Schaltung bezeichnet, die aus einem
in Differenzverstärker besteht, dessen einem Eingang der direkte Ausgang der vorhergehenden Schaltung und dessen zweitem Eingang der Ausgang der vorhergehenden Schaltung phasenverschoben zugeführt wird und die die Frequenzdifferenz bildet.
jj Das Ausgangssignal des Phasendifferenzverstärkers 23, das bei stimmhaften Phonemen einen sägezahnförmigen Verlauf hat, wird über eine Leitung 24 der Schaltung IS zur Vokalerkennung zugeführt. Dem Phasendifferenzverstärker 23 ist eine Impulsformerschaltung 25 nachgeschaltet, die beispielsweise aus einem übersteuerten Phasen-Differenzverstärker besteht und die sinusförmigen Signale in Rechteckimpulse umwandelt.
Die Analyse des frequenzniedrigsten Formanten wird durch Frequenzumsetzung erreicht - siehe Fig. 3. Das vom Mikrofon 1 kommende Eingangssignal wird über ein Tiefpaßfilter 17 zur besseren Hervorhebung der niederen Frequenzen geleitet und in einem nachgeschalteten Modulator 18 mit Trägerunterdrückung mit einer von einem Frequenzgenerator 19 kommenden Frequenz von 1,2 kHz gemischt. Es entstehen zwei Mischprodukte, und zwar (bezeichnet man die vom Tiefpaßfilter 17 kommende Frequenz mit Fl) 1,2 kHz plus Fl und 1,2 kHz minus Fl. Das Produkt 1,2 kHz plus Fl wird von einem aktiven Tiefpaßfilter 20 unterdrückt. Aus dem verbleibenden Produkt 1,2 kHz minus Fl kann die - nun umgekehrt liegende — niedrigste Frequenz als höchste Frequenz durch einen Phasendifferenzverstärker 21 ausgesiebt werden.
Der Ausgang des Phasendifferenzverstärkers 21 wird über eine Leitung 26 wiederum der Schaltung 15 zur Vokalerkennung zugeführt. Auch hier sorgt eine Impulsformerschaltung 27 dafür, daß die sinusförmigen Signale in Rechteckimpulse umgewandelt werden.
Anhand der Fig. 7 bis 12 läßt sich in einfacher Weise erkennen, wie die beiden Formanten ausgesiebt
werden. In Fig. 7 ist das Gesamtsprachband dargestellt, das der Schaltung vom Mikrofon angeboten wird. Zur Formanterkennung wird jedoch nur ein Teil dieses Sprachbandes benutzt, das in Fig. 8 dargestellt ist. Fig. 9 zeigt das für den Formanten mit der zweitniedrigster:! Frequenz benutzte Band, wie es durch das Hoihpaßfiller 22 der Fig. 4 ausgesiebt wird. Durch das Tiefpaßfilter 17 der Fig. 3 wird das Sprachband für den Formanten niedrigster Frequenz (Fig. IU) ausgefilten und nachfolgend im Modulator 18 mit Trägerfrequenzuntcrdriickung mit einer Frequenz von 1,2 kHz gemischt. Die entstehenden Mischprodukte sind in Fig. 11 dargestellt. Es sind die beiden Produkte 1 2 kHz plus das in Fig. K) dargestellte Frequenzband und 1,2 kHz minus dem Frequenzband der Fig. K) (umgekehrt liegend) erkennbar. Fig. 12 schließlich zeigt das Formantband des Formanten niedrigster Frequenz nach Unterdrückung des höherfrequenten Mischproduktes durch das aktive Tiefpaßfilter 20. Die umgekehrt liegende niedrigste Frequenz kann jrtrt also als höchste Frequenz durch den Phasendifferenzverstärker 21 ausgesiebt werden.
Fig. 5 schließlich zeigt die Schaltung 15 zur Vok:ilerkenming, die mit den Leitungen 24 und 26 der beiden Formantanalysatoren 11 und 13 verbunden ist. Hierzu wird die Tatsache ausgenutzt, daß Vokale stimmhafte Laute sind und gleichzeitig der Formant niedrigster Frequenz eine bestimmte Amplitudenhöhe überschreitet. Jeder dieser Punkte ist für sich allein für clic Vokalerkennung nicht ausreichend, da auch Konsonanten stimmhaft sein können (n, m) und andererseits Reibelaute oder Explosivlaute eine hohe Amplitude aufweisen.
Im unteren Zweig der Vokalerkennungsschaltung 15 wird deshalb der Formant niedrigster Frequenz aus dem Formantanalysator 11 (Fig. 3) einer Amplitudenprüfung, im oberen Zweig der Formant der nächsthöheren Frequenz aus dem Formantanalysator 13 (Fig. 4) einer Stimmhaftigkeitsprüfung unterzogen. Der frequenzniedrigste Formant gelangt über Leitung 2<> an einen einstellbaren Verstärker 28 und wird in einer nachfolgenden Schaltung 29 gleichgerichtet und geglättet. Das so behandelte Signal wird über ein Tiefpaßfilter 30 und eine Impulsformerschaltung 31 einer Konjunktion 32 als erster Eingang 33 zugeführt.
Bei der Prüfung auf stimmhafte Laute wird davon ausgegangen, daß stimmhafte Laute mit der Periode der »Pitch«-Frequenz angeregt werden und dann ausklingend einen sägezahnähnlichen Amplitudenverlauf haben, der besonders in den höheren Formanten ausgeprägt ist. Der frequenzhöhere Formant wird vom Formantanalysator 13 über Leitung 24 einer Schaltung 34 zum Gleichrichten und Glätten und danach einem Tiefpaßfilter 35 zugeführt. Die entstandenen Sägezahnimpulse werden durch einen Verstärker 36 mit quadratischer Verstärkung stark überhöht und zur Ansteuerungeines Zeitgliedes zur Überbrückung der Impulspausen verwendet. Nach Umformung in einer Impulsformerschaltung 38 bilden die Signale den zweiten Eingang 39 der Konjunktion 32. Hier werden die Bedingungen »Amplitude« und »stimmhaft« zur Aussage »Vokal« vereinigt.
Schließlich weist die Schaltung 2 zur Formanterkennung noch den Sprachschalter 16 auf, der in Fig. 6 detaillierter dargestellt ist. Dieser Sprachschalter wird zur Erkennung von Sprechpausen benötigt. Dazu werden die vom Mikrofon 1 kommenden Signale einem einstellbaren Verstärker 40 zugeführt, von dem sie nach Gleichrichtung und Glättung in einer entsprechenden Schaltung 41 über ein Tiefpaßfilter 42 an eine Impulsformerschaltung 43 gelangen. Durch ' eine optimale Einstellung des Verstärkers 40 wird erreicht, daß auch Zisch- und Hauchlaute ein einwandfreies Durchschalten des Schwellwertschalters ergeben.
Die Ausgangssignale der beschriebenen vier Schaltungen gelangen in die Schaltung 3 zur Pseudosilbenbildung. Der Ausgang des Sprachschnlters 16 (Fig. 2) wird über einen Inverter 44 zwei Konjunktionen 45 und 46 zugeführt und bildet jeweils deren ersten Eingang. Der zweite Fingang der Konjunktion 45 wird
i'> mit dem frequenzniedrigsten Formanten aus dem Formantanalysator 11 und der zweite Eingang der Konjunktion 46 mit dem Formanten der nächsthöheren Frequenz aus dem Formantanalysator 13 beaufschlagt, ijit Ausgänge der Konjunktionen 45 und 46
-"> werden Zählern 47 und 48 zugeführt, in denen die Impulse der beiden Formanten während definierter Zeitintervalle von 20 ms gezählt werden.
Danach werden die Zählerstände jeweils in Speichern 49 bis 52 abgespeichert, und zwar getrennt nach
y> Konsonanten und Vokalen. Diese Unterscheidung wird vom Ausgang der Schaltung 15 zur Vokalerkennung gesteuert. Die Zählerstände für Konsonanten des frequenzniedrigsten Formanten werden demnach im Speicher 49, die für Konsonanten des Formanten
in der nächsthöheren Frequenz im Speicher 50 abgespeichert, während die Zählerstände für Vokale des frequenzniedrigsten Formanten im Speicher 51 und die für Vokale des frequenzhöheren Formanten im Speicher 52 abgespeichert werden. Es hat sich außer-
r> dem als zweckmäßig herausgestellt, daß bei der Abspeicherung der Konsonanten eine Kurvenglättung durch Mittelwertbildung zwischen zwei aufeinanderfolgenden Zählerständen zweckmäßig sein kann.
Die in den Speichern 51, 52 nacheinander einge-
4Ii speicherten Vokal-Zählerstände sind jeweils in eine erste und eine zweite Hälfte unterteilt, damit Doppelvokale (ei, au, eu) erkannt werden können. Die Ausgänge dieser beiden Speicher sind einer Schaltung 54 zur Bildung von Vokalschwerpunkten zugeführt, in
4> der Vokalschwerpunkte in einer anhand der Fig. 13 bis 16 beschriebenen Weise durch Mittelwertbildung erzeugt werden.
Ebenso werden die Ausgänge der Speicher 49, 50 für Konsonanten-Zählerstände einer Schaltung 53 zur
>n Konsonantenausdünnung zugeführt, in der sie mit dem Ausgang der Schaltung 54 zur Bildung von Vokalschwerpunkten vereinigt und einer ebenfalls in Verbindung mit den Fig. 13 bis 16 beschriebenen Behandlung unterzogen werden.
Als Ergebnis sind am Ausgang der Schaltung 53 aufbereitete Pseudosilben abnehmbar, die dem Merkmalvergleicher 4 zugeführt werden.
In Fig. 13 ist eine geglättete Sprachkurve dargestellt, die von den Konsonanten und Vokalen des ge-
bo sprochenen Wortes »nein« dadurch gebildet wird, daß auf der Abszisse der Ausgang des Zählers 47 für den frequenzniedrigsten Formanten und auf der Ordinate der Ausgang des Zählers 48 für den frequenzhöheren Formanten aufgetragen ist. Die Teilung von Abszisse und Ordinate entspricht dabei den Formantfrequenzen. Die so gebildete Kurve wird nun durch die Schaltung 53 zur Konsonantenausdünnung und die Schaltung 54 zur Bildung von Vokalschwerpunkten auf
wenige signifikante Punkte ausgedünnt. Dazu wird die Kurve in einzelne Abschnitte mit genau definierbaren Anfangs- und Endpunkten zerlegt. In den Fig. 13 bis 16 sind die Vokalen entsprechenden Kurvenpunkte durch X und die Konsonanten entsprechenden Kurvenpunkte durch · dargestellt.
Fig. 14 zeigt den Ausgang der Schaltung 54 zur Bildung von Vokalschwerpunkten. Es ist ersichtlich, daß aus der Vielzahl der Vokalpunkte in Fig. 13 nunmehr durch die Bildung eines Mittelwertes je ein Vokalschwerpunkt erzeugt worden ist.
Fig. 15 zeigt nun die Sprachkurve unter Einbeziehung der beiden Vokalschwerpunkte. Es sind nunmehr zwei Kurvenzüge vorhanden, deren Begrenzungspunkte jeweils vom Nullpunkt der Koordinatenmatrix und den Vokalschwerpunkten gebildet werden.
Fig. 16 schließlich zeigt den Ausgang der Schaltung
SJ zur Konsonantenausiiüiinuiig. Die Ausdünnung der beiden Konsonanten-Kurvenzüge erfolgt in diesem Ausführungsbeispiel durch Auslöschung der Kurvenpunkte mit den jeweils größten Winkeln zu den Nachbarpunkten. Die Kriterien bei der Ausdünnung sind zum einen Erhaltung der signifikanten Punkte und zum zweiten eine für alle Pseudosilben gleiche Punktzahl, da mit diesen Kriterien der später beschriebene Vergleich mit Mustersilben am einfachsten durchführbar ist. In diesem Beispiel bestehen die beiden verbliebenen Kurvenzüge 55 und 56 in Fig. 16 demzufolge aus den jeweils vier merkmalstärksten Punkten.
Die solcherart für einen Vergleich aufbereitete Pseudosilbe gelangt in einen Vergleicher 4 (Fig. 2), dem aus einem Merkmalspeicher 5 Mustersilben zuführbar sind. Der Merkmalspeicher 5 ist beispielsweise ein Festwertspeicher, der alle vorkommenden Mustersilben, ausgedrückt durch die gleiche Punktzahl wie die Pseudosilben (im Beispiel also vier), enthält. Durch den Vergleich der Pseudosilben im Merkmalvergleicher 4 wird diejenige unter allen Mustersilben ausgesucht, die die geringste Abweichung von der Pseudosilbe aufweist.
Das ist für die in den Fig. 13 bis 16 dargestellten Pseudosilben in den Fig. 17 und 18 näher zu sehen. In Fig. 17 taucht strichpunktiert wieder der Kurvenzug 56 mit seinen vier signifikanten Punkten auf, während in Fig. 18 der Kurvenzug 55 strichpunktiert dargestellt ist. In Vollinien ist in beiden Figuren jeweils die am nächsten kommende Mustersilbe als Kurve 57, 58 eingezeichnet. Der Unterschied zwischen Pseudosilbe und Mustersilbe ergibt sich jeweils aus dem Unterschied der schraffiert dargestellten* Flächen zwischen den beiden Kurvenzügen. Der kleinste Flächenunterschied entspricht der größten Ähnlichkeit. Jeder Mustersilbe ist ein Kennzeichen zugeordnet, das vom Merkmalverglcicher 4 an die Schaltung 6 zur Pseudowortbildung ausgegeben wird.
In der Schaltung 6 zur Pseudowortbildung ist ein erstes Schieberegister 58 vorgesehen, in das die Kennzeichen mehrerer Mustersilben eingegeben werden. Im Schieberegister 58 stehen demnach - abhängig von der jeweiligen Länge - eines oder mehrere aus Mustersilben gebildete Worte. Diese Worte setzen sich zusammen aus Kennzeichen für Vokale, Konsonanten. Sprechpausen und Silbentrennungen. Um eine
ι >
orthographisch richtigen Worten weitgehend ähnliche Form zu schaffen, muli der Inhalt des Schieberegisters 58 einer weiteren Behandlung unterzogen werden. Der Ausgang des Schieberegisters 58 wird dazu sowohl einer Schaltung zur Vokalaufteilung 59 als auch einer Schaltung zur Konsonantaufteilung 60 zugeführt.
Betrachtet man Fig. 19, so wird der Ablauf der Verarbeitung klar. Hier sind zur Demonstration in das symbolhaft dargestellte Schieberegister 58 die gesprochenen Worte »EINGABE FÜR« eingeschrieben. Die Pseudosilben sind durch Kennzeichen - waagerechte Striche - für Sprechpausen getrennt. Da Sprechpausen Trennstellen zwischen orthographisch richtigen Silben sind, ist jede Pause automatisch durch ein Silbentrennungskennzeichen zu ersetzen. Diese Trennung ist zur Weiterverarbeitung aber nicht ausreichend, denn beim Sprechen sind Silbentrennungen nur selten und Wcrttrenp.ungen nicht immer durch Pausen gekennzeichnet. Es müssen die durch Sprechpausen getrennten Sprachabschnitte noch weiter unterteilt werden, um zu orthographisch richtigen Silben zu kommen. Hierzu werden in der Schaltung 59 zur Vokalaufteilung, die in Fig. 19 ebenfalls symbolhaft
2ϊ dargestellt ist, die Vokale selektiert und durch die Sprechpausen-Silbentrennung unterteilt. In der Schaltung 60 zur Konsonantaufteilung werden die Konsonanten selektiert und durch die Sprechpausen-Silbentrennungen unterteilt, wobei jedoch noch eine
)o zusätzliche Maßnahme erfolgt: Alle Konsonanten, die sowohl zwischen zwei Sprechpausen als auch zwischen Vokalen liegen, werden symmetrisch durch eine weitere Sprechpause getrennt; handelt es sich um eine ungerade Anzahl solcher Konsonanten, so wird sie
r> durch Verdoppelung des mittleren Konsonanten auf eine gerade Anzahl erhöht und danach ebenfalls durch eine zusätzliche Silbentrennung symmetrisch unterteilt.
Die Ausgänge der Schaltungen 59 und 60 werden in einem zweiten Schieberegister 61 zusammengefaßt, das dann für das beschriebene Beispiel den in Fig. 19 gezeigten Inhalt aufweist. Die nunmehr im Schieberegister 61 stehenden Pseudoworte werden über Leitung 62 in den Wortvergleicher 7 eingegeben. Hier erfolgt ein Vergleich mit orthographisch richtigen Worten, die in dem Wortspeicher 8 in Lautschrift enthalten sind. Der Wortspeicher 8 enthält das Vokabular, das durch die Einrichtung erkannt werden kann. Der Vergleich wird zweckmäßigerweise durch Aussuchen ei-
nes Speicherbezirkes mit Hilfe der Reihenfolge der Vokale durchgeführt. Es wird mit der größten vorhandenen Vokalzahl begonnen. Im Regelfalle werden jedoch die im Schieberegister 61 stehenden Silben mehr als nur ein Wort umfassen. Der Vergleich des Pseudo-Wortes mit den Musterworten wird deshalb negativ ausfallen. In diesem Falle wird von einer im Wortvergleicher? enthaltenen Silbenabtrennschaltung die letzte Silbe im Schieberegister 61 über Leitung 63 abgetrennt und der Vergleich wird wiederholt. Sobald der im Speicher 61 reduzierte Silbenumf ang - im Beispiel als »AINGABBE« - nur noch einem Wort entspricht, wird die Suche in einem neuen Speicherbezirk des Wortspeichers 8 erfolgreich sein. Der Vergleich fällt dann positiv aus, und das orthographisch richtige Wen kann am Ausgang 9 abgenommen werden.
Hierzu 7 Blatt Zeichnungen

Claims (8)

Patentansprüche;
1. Elektrisches Verfahren zur Spracherkennung, bei dem das Frequenzspektrum der aJs e|ektrische Signale dargebotenen Sprachsignale in Frequenzbänder zerlegt und aus den Frequenzen der »Formanten« Merkmalsfolgen gebildet werden, die mit in einem Merkmalsspeicher enthaltenen Muster-Merkmalsfolgen verglichen werden, woraufhin das Vergleichsergebnis mit der geringsten Abweichung die Abgabe elektrischer Signale zur Ansteuerung einer Darstellungseinheit bewirkt, dadurch gekennzeichnet, daß die Impulse der »Formanten« niedrigster und zweitniedrigster Frequenz zwischen zwei Sprechpausen in definierten Zeitabschnitten in Zählschaltungen (47,48) gezählt und in Zuordnung zueinander in Zwischenspeichern (49 bis 52) abgespeichert werden (Schnittpunktbildung in zweidimensionaler *> Matrix), diS eine Folge solcher abgespeicherter Schnittpunkte einer ersten Vergleichseinrichtung (4) zugeführt und in einem ersten Vergleich mit einem Vorrat an Schnittpunktfolgen verglichen wird, die in einem ersten Merkmalsspeicher (5) ^ enthalten sind und »Mustersilben« darstellen, daß bei positivem Vergleichsergebnis den »Mustersilben« zugeordnete binäre Kennungen an eine zweite Vergleichseinrichtung (7) abgegeben werden, daß mehrere solcher binärer Kennungen in so einem zweiten Vergleich mit einem Vorrat an Kennungsfclgen verglichen werden, die in einem zweiten Merkmalsspeicher (8) enthalten sind und »Musterwerte« darstellen, u;id daß bei positivem Vergleichsergebnis die Ausgabe des erkannten )*> »Wortes« in Form elektrisch τ Ansteuersignale für die Darstellungseinheit erfolgt.
2. Verfahren nach Anspruch 1, gekennzeichnet durch folgende Verfahrensschritte:
a) Aussieben und Trennen der zwei »Formanten« niedrigster Frequenz zwischen zwei »Sprechpausen«,
b) Ermitteln von Vokalen aus den beiden »Formanten«,
c) Bilden von vereinfachten Sprachkurven aus den beiden »Formanten«,
d) Auswählen von den vereinfachten Sprachkurven jeweils ähnlichsten »Mustersilben« aus einem Mustersilbenvorrat eines Merkmalspeicher (5) durch Vergleich, .n
e) Ausgeben von den ausgewählten »Mustersilben« entsprechenden Kennzeichen,
f) Zusammenfassen mehrerer »Mustersilben« zu künstlichen Worten,
g) Suchen eines dem künstlichen Wort ähnlichsten »Wortes« aus in einem Wortspeicher (8) enthaltenen »Musterworten« durch Vergleich,
h) bei Erfolglosigkeit des Verfahrensschrittes g): Schrittweises Abtrennen der letzten Stel- t>o len des künstlichen Wortes und Wiederholen des Verfahrensschrittes g), solange, bis Vergleich positiv und
i) Ausgeben des gefundenen »Wortes«.
3. Schaltungsanordnung zur Durchführung des &5 Verfahrens nach einem der Ansprüche 1 oder 2, gekennzeichnet durch eine aus vier Schaltungsteilen (11, 13, 15, 16) bestehende Formp.nterkennungsschaltung (2), von denen der erste (Jl) zum Aussieben des »Formanten« jeweils niedrigster Frequenz aus dem Frequenzspektrum, der zweite (13) zum Aussieben des »Formanten« der jeweils nächsthöheren Frequenz aus dem Frequenzspektrum, der dritte (15) zur Vokalerkennung durch Ampütudenprüfung des frequenzniedrigsten und Slimmhaftigkeitspriifung des frequenzhöheren »Formanten« und der vierte (16) zur Erkennung von Sprechpausen (Sprachschalter) vorgesehen ist,
eine Schaltungsanordnung (3) zur Bildung vereinfachter Sprachkurven, die Zähler (47,48) zum Zählen der Impulse der beiden »Formanten« während definierter Zeitintervalle, Zwischenspeicher (49, 50, 51, 52) zur Aufnahme der Zählerstände getrennt für Vokale und Konsonanten, eine Schaltung (54) zum Bilden von Mittelwerten aus den Vokalzählerständen sowie eine Schaltung (53) zum Ausdünnen der Sprachkurven aufweist,
einen Merkmalvergleicher (4) zum Vergleichen der vereinfachten Sprachkurven mit einem Merkmalspeicher (5) entnehmbaren Musterkurven,
eine Schaltung zur Bildung von Merkmalsfolgen, die ein Schieberegister (58) zur Aufnahme von dem Vergleicher (4) entnehmbaren, »Mustersilben« bezeichnenden Merkmalen, eine Schaltung (59) zur Selektion von Vokalen sowie deren Trennung durch Sprechpausen, eine Konsonantenaufteilungsschaltung (60) zum Selektieren von Konsonanten und zur symmetrischen Trennung von Konsonanten, die zwischen Sprechpausen und Vokalen liegen, wobei bei ungerader Konsonantenzahl der mittlere Konsonant verdoppelt wird, sowie ein Schieberegister (61) zur Aufnahme der durch die Trennungen gebildeten »Silben« aufweist, und
einen Wortvergleicher (7) zum Vergleichen von dem Schieberegister (61) entnehmbaren Folgen von »Silben« mit einem Wortspeicher (8) entnehmbaren »Wörtern«, die eine Silbenabtrennschfltung zum Abtrennen der jeweils letzten »Silbe« im Schieberegister 61 bei negativem Vergleichsergebnis enthält.
4. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß eine Schaltung zur Glättung der in den Zwischenspeichern (49, 50) abgespeicherten Konsonantzählerstände vorgesehen ist.
5. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Ermittlung der Anzahl der Schwingungen des frequenzniedrigsten »Formanten« durch Hintereinanderschaltung eines Tiefpaßfilters (17), eines Modulators (18) mit Trägerunterdrückung, dem der Ausgang des Tiefpaßfilters und eines Frequenzgenerators (19) zugeführt sind, eines weiteren aktiven Tiefpaßfilters (20), eines Differenzverstärkers (21), dem der Ausgang des Tiefpaßfilters (20) sowohl direkt als auch phasenverschoben zugeführt wird, und eines Impulsformers (27) erfolgt.
6. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Ermittlung der Anzahl der Schwingungen des »Foimanten« nächsthöherer Frequenz durch die Hintereinanderschaltung eines Hochpaßfilters (22), eines Differenzverstärkers (23), dem der Ausgang des Hochpaßfilters (22) sowohl direkt als auch pha-
senverschoben zugeführt wird, und eines Impulsformers (25) erfolgt,
7, Schaltungsanordnung nach Anspruch 5 und 6, dadurch gekennzeichnet, daß die »Vokalerkennung* durch Prüfung des Überschreitens einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz in einer Hintereinanderschaltung eines Verstärkers (28), eines Gleichrichters (29) mit Glättung, eines Tiefpaßfilters (30) sowie eines Impulsformers (31) und durch Prüfung der Stimmhaftigkeit des »Formanten« nächsthöherer Frequenz in einer Hintereinanderschaltung eines Gleichrichters (34) mit Glättung, eines Tiefpaßfilters (35), eines Verstärkers (36) mit hoher - vorzugsweise quadratischer - Verstärkung, eines Zeitgliedes (37) sowie eines Impulsformers (38) erfolgt, deren Ausgangssignale einer Konjunktion (32) zugeführt sind.
8. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die automatische Erkennung der »Sprechpausen« in einer Hintereinanderschaltung eines einstellbaren Verstärkers (40), eines Gleichrichters (41) mit Glättung, eines Tiefpaßfilters (42) und eines Impulsformers (43) erfolgt.
DE19742448908 1974-10-15 1974-10-15 Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung Expired DE2448908C3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19742448908 DE2448908C3 (de) 1974-10-15 1974-10-15 Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19742448908 DE2448908C3 (de) 1974-10-15 1974-10-15 Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung

Publications (3)

Publication Number Publication Date
DE2448908A1 DE2448908A1 (de) 1976-04-29
DE2448908B2 DE2448908B2 (de) 1978-11-02
DE2448908C3 true DE2448908C3 (de) 1979-07-05

Family

ID=5928268

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742448908 Expired DE2448908C3 (de) 1974-10-15 1974-10-15 Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung

Country Status (1)

Country Link
DE (1) DE2448908C3 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
AU586167B2 (en) * 1984-05-25 1989-07-06 Sony Corporation Speech recognition method and apparatus thereof
EP0243479A4 (de) * 1985-10-30 1989-12-13 Central Inst Deaf Sprachverarbeitungsanordnung und -verfahren.

Also Published As

Publication number Publication date
DE2448908A1 (de) 1976-04-29
DE2448908B2 (de) 1978-11-02

Similar Documents

Publication Publication Date Title
DE2918533C2 (de)
DE2953262C2 (de)
AT390685B (de) System zur textverarbeitung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE102008017993A1 (de) Sprachsuchvorrichtung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE4031638C2 (de)
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0836175A2 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE2357067A1 (de) Vorrichtung zur sprachanalyse
DE2021126C3 (de) Spracherkennungs anordnung
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE1422040A1 (de) Verfahren zum automatischen Erkennen gesprochener Worte
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
DE2357949A1 (de) Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls
DE4111781A1 (de) Computersystem zur spracherkennung
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE2448909C3 (de)
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE4015381A1 (de) Spracherkennungsgeraet und verfahren zur spracherkennung
DE19824450C2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8327 Change in the person/name/address of the patent owner

Owner name: OLYMPIA AG, 2940 WILHELMSHAVEN, DE

8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: AEG OLYMPIA AG, 2940 WILHELMSHAVEN, DE

8327 Change in the person/name/address of the patent owner

Owner name: AEG OLYMPIA OFFICE GMBH, 2940 WILHELMSHAVEN, DE

8339 Ceased/non-payment of the annual fee