DE2448908C3 - Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung - Google Patents
Elektrisches Verfahren und Schaltungsanordnung zur SpracherkennungInfo
- Publication number
- DE2448908C3 DE2448908C3 DE19742448908 DE2448908A DE2448908C3 DE 2448908 C3 DE2448908 C3 DE 2448908C3 DE 19742448908 DE19742448908 DE 19742448908 DE 2448908 A DE2448908 A DE 2448908A DE 2448908 C3 DE2448908 C3 DE 2448908C3
- Authority
- DE
- Germany
- Prior art keywords
- circuit
- frequency
- speech
- syllables
- formant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000010291 electrical method Methods 0.000 title claims description 3
- 230000015654 memory Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 239000000872 buffer Substances 0.000 claims 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims 2
- 230000010355 oscillation Effects 0.000 claims 2
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000007493 shaping process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000000434 Melocanna baccifera Nutrition 0.000 description 1
- 241001497770 Melocanna baccifera Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein elektrisches Verfahren zur Spracherkennung der im Oberbegriff des Anspruchs
1 angegebenen Art.
In der DE-OS 1 547027 ist bereits ein Spracherkennungsverfahren
beschrieben worden, bei dem das Frequenzspektrum der Sprachsignale in mehrere Frequenzbänder
zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird. Bei diesem
Verfahren wird das jeweilige Ende von Formanten, getrennt in vielen Frequenzbändern, von
Differenzierschaltungen ermittelt. In nachgeschalteten Verriegelungsschaltungen werden die Formantverhältnisse
(steigend, fallend, unveränderlich) für sehr viele Vokal-Vektorgrößen im Sprachspektrum
angezeigt. Weiterhin werden Konsonant-Kriterien in einem Frequenzanalysator und anhand von Energiestößen
ermittelt. In einer Konsonafrtenmatrix werden die Formantenergie sowie die Formantkriterien eingespeichert.
Auch die ermittelten Formanten gelangen über einen Formantgeber in die Konsonantenmatrix,
so daß insgesamt eipe Vielzahl von Vektorgrößen
- in der bekannten Ausführungsform 56 - zur Verfugung stehen.
Mit diesen Spracherkennungsverfahren ist es zwar möglich, einen sehr großen Wortschatz zu verarbeiten,
jedoch wird hierzu ein schaltungstechnischer Aufwand benötigt, der ein solches Gerät für den prakiischen
Einsatz unrealistisch erscheinen läßt.
In der DE-OS 2363590 ist ein Spracherkennungsverfahren
beschrieben, bei dem die Sprachsignale in 6 Frequenzbänder aufgeteilt und daraus mehrdimensionale
Sprachkurven aus Punkten, die den Energie= stufen und Zeitabschnitten zugeordnet sind, in einem
Raurnkoordinanten-System gebildet werden. Jeder Kurvenpunkt wird mit Merkmalen von zuvor im
Raum zugeordneten Referenzpunkten gekennzeichnet, und die so gebildeten Merkmalsfolgen werden mit
dem Inhalt eines Mcrkmalsspeichers verglichen.
Ein Verfahren, bei dem eine Aufteilung der Sprachsignale in 6 Bänder notwendig ist und zur Verringerung
der Vieldeutigkeit die Auswertung in einem Raumkoordinaten-System erfolgen muß, ist aber
ebenfalls sehr kompliziert und erfordert deshalb wiederum eine aufwendige Schaltungsanordnung.
Auch bei dem in der DE-OS 2326517 beschriebenen Verfahren werden mehrere Frequenzbänder bei
der Erkennung gesprochener Wörter zugrunde gelegt. Die Sprachsignale werden zu diesem Zweck in einem
Frequenzanalysator in eine Anzahl benachbarter Teilfrequenzbereiche unterteilt. In einem periodischen
Abtastvorgang wird festgestellt, welche der Signale oberhalb bzw. unterhalb eines gleitenden
Schwellwertes Hegen. Mit in Abhängigkeit davon abgespeicherten Signalmustern wird ein einmaliger Vergleich
mit einem gespeicherten Signalvorrat durchgeführt, dessen Ergebnis in einer Umwandlungsvorrichtung
zur Identifizierung der gesprochenen Wörter verwendet wird.
Auch bei diesem Verfahren ist eine aufwendige Schaltungsanordung erforderlich, da eine Aufteilung
in mehrere Frequenzbänder durchgeführt werden muß. Außerdem ist die Erkennung der Wörter durch
2ϊ einen einmaligen Vergleich wegen der Vieldeutigkeit
ähnlicher Laute nicht zuverlässig.
Der Erfindung liegt die Aufgabe zugrunde, mit einem Minimum an Aufwand gesprochenen Text mit
großer Fehlersicherheit zu erkennen, ohne Ein-JO schränkungen im Umfang des Vokabulars in Kauf
nehmen zu müssen.
Diese Aufgabe wird durch die im Patentanspruch 1 angegebene Erfindung gelöst.
Die Vorteile der Erfindung bestehen insbesondere
jj darin, daß die Analyse der Sprachsignale unabhängig
von deren Amplitude und unabhängig von der Sprechgeschwindigkeit möglich ist, ohne daß dafür ein
großer Schaltungsaufwand erforderlich wird. Es kann ein beliebig großer Wortvorrat verarbeitet werden,
der lediglich von der Größe des Merkmalsspt-ichers und des Wortspeichers abhängig ist.
Mit der in den Unteransprüchen beschriebenen Schaltungsanordnung läßt sich das erfindungsgemäße
Verfahren mit denkbar geringem schaltungstechni-4-,
sehe Aufwand sicher und zuverlässig durchführen.
In den Zeichnungen ist ein Ausführungsbeispiel der Erfindung dargestellt und wird nachfolgend näher erläutert.
Es zeigt
Fig. 1 eine Spracherkennungsschaltung als Block-
-,o schaltbild,
Fig. 2 eine detaillierte Darstellung der Fig. 1,
Fig. 3 bis6die Formanterkennungsschaltungender
Fig. 2,
Fig. 7 bis 12 die Aufteilung des Sprachbandes zur γ, Forrranterkennung,
Fig. 13 bis 16 Sprachkurven,
Fig. 17 und 18 Kurven zur Mustersilben -Selektion
und
Fig. 19 ein Schema der Wortbildung.
W) Wie aus dem Blockschaltbild der Fig. 1 ersichtlich ist, wird der gespiochene Text der Schaltung über ein Mikrofon 1 angeboten, das die Schallschwingungen in elektrische Signale umwandelt. Die für die Spracherkennung wesentlichen Sprachmerkmalc lassen sich b5 aus dem Energiedichte-Spektrum des elektrischen Sprechsignals ableiten. Für die einzelnen Phoneme also die kleinste lautliche Einheit, die in derselben lautlichen Umgebung einen Bedeutungsunterschied
W) Wie aus dem Blockschaltbild der Fig. 1 ersichtlich ist, wird der gespiochene Text der Schaltung über ein Mikrofon 1 angeboten, das die Schallschwingungen in elektrische Signale umwandelt. Die für die Spracherkennung wesentlichen Sprachmerkmalc lassen sich b5 aus dem Energiedichte-Spektrum des elektrischen Sprechsignals ableiten. Für die einzelnen Phoneme also die kleinste lautliche Einheit, die in derselben lautlichen Umgebung einen Bedeutungsunterschied
ausmacht - entstehen beim Sprechen immer drei ausgeprägte Frequenzschwerpiinkte. Diese Formanten
genannten Frequenzschwerpunkte weichen, bei verschiedenen Sprechern nur wenig voneinander ab.
Die elektrischen Sprechsignale gelangen in eine Schaltung zur Formanterkennung 2, die in einer später
näher erläuterten Weise die beiden frequenzniedrigsten Formanten eines jeden Phonems, aus diesen
Formanten die Vokale und schließlich Sprechpausen erkennt. In einer Schaltung 3 zur Bildung vereinfachter
Sprachkurven - im folgenden Pseudosilben genannt werden aus den Formanterkennungssignalen,
den Vokalerkennungssignalen und den Sprechpausensignalen Sprachkurven gebildet, die Merkmale für
die Phoneme darstellen. Die Phoneme sind in ihrem Übergangsverhalten sehr stark von den Nachbar-Phonemen
abhängig, d. h., die Formantfrequenzen sind für gleiche Laute unterschiedlich. So haben z. B.
Explosivlaute (t, b, p, k) in Verbindung mit anderen Vokalen auch andere Formantfrequenzen. Um dennoch
die Sprechsignale sicher erkennen zu können, wird von der üblichen Analyse einzelner Phoneme abgewichen,
und in der Schaltung zur Pseudosilbenbildung 3 werden die Phoneme zu längeren, von Sprechzeit
und Lautstärke unabhängigen Pseudosilben verbunden. Es werden dabei Silben gebildet, die aus
Vokalen, Konsonanten und Pausen bestehen und deren Mittelpunkte Konsonanten sind. Eine Pseudosilbe
kann demnach aus
Pause-Konsonant-Pause
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
bestehen.
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
bestehen.
Die herausgebildeten Pseudosilben werden in einem Merkmalvergleicher 4 mit Mustersilben, die in
einem Merkmalspeicher 5 enthalten sind, verglichen. Der Merkmalspeicher 5 ist beispielsweise ein ROM,
in dem alle vorkommenden Pseudosilben in korrekter Form eingespeichert sind. Da die aus den Formanten
gebildeten Pseudosilben eine große Ähnlichkeit mit den korrekten Mustersilben aufweisen, erbringt der
Vergleich mit großer Zuverlässigkeit für jede Pseudosilbe die richtige zugehörige Mustersilbe.
Aus dem Merkmalvergleicher 4 werden Signale, die den jeweils ausgesuchten Mustersilben entsprechen,
an eine Schaltung 6 zur Bildung künstlicher Wörter - im folgenden Pseudowort genannt - gegeben.
Hier werden mehrere Mustersilben zusammengefaßt und durch Änderung der Silbentrennstellen zu
Pseudoworten verarbeitet. Diese Pseudoworte, die eine große Ähnlichkeit mit den entsprechenden orthographisch
richtigen Worten aufweisen, werden an einen Wortvergleicher 7 ausgegeben. Hier erfolgt ein
Vergleich mit orthographisch richtigen Worten, die in einem das Vokabular der Einrichtung enthaltenden
Wortspeicher 8 eingespeichert sind.
Der Ausgang 9 des Wortvergleichers 7 liefert dann die Signale für das erkannte Wort in orthographisch
richtiger Weise.
Anhand der Fig. 2 soll im folgenden der Ablauf der Spracherkennung näher erläutert werden. Die
strichpunktiert eingerahmten Schaltungsteile weisen eine detailliertere Darstellung der Blöcke in Fig. 1
auf. Wie bereits beschrieben, gelangen die elektrischen Sprechsignale - über eine Verstärkerschaltung
10 - an die Formanterkennung 2.
Die Formanterkennung 2 weist eine Schaltung Il (Fig. 3) zur Erkennung des frequenzniedrigsten Formanten
sowie eine zugehörige Impulsformerschaltung 12, eine Schaltung 13 (Fig. 4) zur Erkennung des
Formanten nächsthöherer Frequenz mit zugehöriger ■> Impulsformerschaltung 14,eine Schaltung 15 (Fig. S)
zur Vokalerkennung und einen Sprachschalter 16 (Fig. 6), der zum automatischen Erkennen von
Sprechpausen dient, auf.
Die Schaltung beschränkt sich auf die Erkennung
ίο nur zweier Formanten, denn es hat sich herausgesiellt.
daß ausschließlich die beiden Formanten mit der niedrigsten Frequenz für die Verständlichkeit eines Phonems
wichtig sind. Der Verzicht auf die Auswertung weiterer Formanten hat die Zuverlässigkeit der bc-
i"' schriebenen Schaltung nicht beeinträchtigt.
Zur Aussiebung des frequenzhöheren der beiden frequenzniedrigsten Formanten wird - siehe Fig. 4 das
mit einer Bandbreite von αι. 200 bis 2800 II/vom
Mikrofon kommende Sprachsignal über ein Hoch-
-Ό paßfilter 22 geleitet, um eine bessere Hervorhebung
der höheren Frequenzen zu erreichen. In einem nachfolgenden Phasendifferenzverstärker 23 wird das Signal
phasenverschoben, und der höchste Formant vird ausgefiltert. Durch die Größe der Phascnver-
2> Schiebung kann der nächsthöhere Formant mit zwar
höherer Frequenz aber viel kleinerer Amplitude sifher
unterdruckt werden.
Mi«* »Phasendifferenzverstärker« ist- auch im folgenden
— eine Schaltung bezeichnet, die aus einem
in Differenzverstärker besteht, dessen einem Eingang
der direkte Ausgang der vorhergehenden Schaltung und dessen zweitem Eingang der Ausgang der vorhergehenden
Schaltung phasenverschoben zugeführt wird und die die Frequenzdifferenz bildet.
jj Das Ausgangssignal des Phasendifferenzverstärkers
23, das bei stimmhaften Phonemen einen sägezahnförmigen Verlauf hat, wird über eine Leitung 24
der Schaltung IS zur Vokalerkennung zugeführt. Dem
Phasendifferenzverstärker 23 ist eine Impulsformerschaltung 25 nachgeschaltet, die beispielsweise aus einem
übersteuerten Phasen-Differenzverstärker besteht und die sinusförmigen Signale in Rechteckimpulse
umwandelt.
Die Analyse des frequenzniedrigsten Formanten wird durch Frequenzumsetzung erreicht - siehe
Fig. 3. Das vom Mikrofon 1 kommende Eingangssignal wird über ein Tiefpaßfilter 17 zur besseren Hervorhebung
der niederen Frequenzen geleitet und in einem nachgeschalteten Modulator 18 mit Trägerunterdrückung
mit einer von einem Frequenzgenerator 19 kommenden Frequenz von 1,2 kHz gemischt. Es
entstehen zwei Mischprodukte, und zwar (bezeichnet man die vom Tiefpaßfilter 17 kommende Frequenz
mit Fl) 1,2 kHz plus Fl und 1,2 kHz minus Fl. Das Produkt 1,2 kHz plus Fl wird von einem aktiven Tiefpaßfilter
20 unterdrückt. Aus dem verbleibenden Produkt 1,2 kHz minus Fl kann die - nun umgekehrt
liegende — niedrigste Frequenz als höchste Frequenz durch einen Phasendifferenzverstärker 21 ausgesiebt
werden.
Der Ausgang des Phasendifferenzverstärkers 21 wird über eine Leitung 26 wiederum der Schaltung
15 zur Vokalerkennung zugeführt. Auch hier sorgt eine Impulsformerschaltung 27 dafür, daß die sinusförmigen
Signale in Rechteckimpulse umgewandelt werden.
Anhand der Fig. 7 bis 12 läßt sich in einfacher
Weise erkennen, wie die beiden Formanten ausgesiebt
werden. In Fig. 7 ist das Gesamtsprachband dargestellt, das der Schaltung vom Mikrofon angeboten
wird. Zur Formanterkennung wird jedoch nur ein Teil dieses Sprachbandes benutzt, das in Fig. 8 dargestellt
ist. Fig. 9 zeigt das für den Formanten mit der zweitniedrigster:!
Frequenz benutzte Band, wie es durch das Hoihpaßfiller 22 der Fig. 4 ausgesiebt wird. Durch
das Tiefpaßfilter 17 der Fig. 3 wird das Sprachband für den Formanten niedrigster Frequenz (Fig. IU)
ausgefilten und nachfolgend im Modulator 18 mit Trägerfrequenzuntcrdriickung mit einer Frequenz
von 1,2 kHz gemischt. Die entstehenden Mischprodukte sind in Fig. 11 dargestellt. Es sind die beiden
Produkte 1 2 kHz plus das in Fig. K) dargestellte Frequenzband und 1,2 kHz minus dem Frequenzband der
Fig. K) (umgekehrt liegend) erkennbar. Fig. 12 schließlich zeigt das Formantband des Formanten
niedrigster Frequenz nach Unterdrückung des höherfrequenten Mischproduktes durch das aktive Tiefpaßfilter
20. Die umgekehrt liegende niedrigste Frequenz kann jrtrt also als höchste Frequenz durch den Phasendifferenzverstärker
21 ausgesiebt werden.
Fig. 5 schließlich zeigt die Schaltung 15 zur Vok:ilerkenming,
die mit den Leitungen 24 und 26 der beiden Formantanalysatoren 11 und 13 verbunden ist.
Hierzu wird die Tatsache ausgenutzt, daß Vokale stimmhafte Laute sind und gleichzeitig der Formant
niedrigster Frequenz eine bestimmte Amplitudenhöhe überschreitet. Jeder dieser Punkte ist für sich
allein für clic Vokalerkennung nicht ausreichend, da auch Konsonanten stimmhaft sein können (n, m) und
andererseits Reibelaute oder Explosivlaute eine hohe Amplitude aufweisen.
Im unteren Zweig der Vokalerkennungsschaltung 15 wird deshalb der Formant niedrigster Frequenz aus
dem Formantanalysator 11 (Fig. 3) einer Amplitudenprüfung, im oberen Zweig der Formant der
nächsthöheren Frequenz aus dem Formantanalysator 13 (Fig. 4) einer Stimmhaftigkeitsprüfung unterzogen.
Der frequenzniedrigste Formant gelangt über Leitung 2<>
an einen einstellbaren Verstärker 28 und wird in einer nachfolgenden Schaltung 29 gleichgerichtet
und geglättet. Das so behandelte Signal wird über ein Tiefpaßfilter 30 und eine Impulsformerschaltung
31 einer Konjunktion 32 als erster Eingang 33 zugeführt.
Bei der Prüfung auf stimmhafte Laute wird davon ausgegangen, daß stimmhafte Laute mit der Periode
der »Pitch«-Frequenz angeregt werden und dann ausklingend einen sägezahnähnlichen Amplitudenverlauf
haben, der besonders in den höheren Formanten ausgeprägt ist. Der frequenzhöhere Formant wird vom
Formantanalysator 13 über Leitung 24 einer Schaltung 34 zum Gleichrichten und Glätten und danach
einem Tiefpaßfilter 35 zugeführt. Die entstandenen Sägezahnimpulse werden durch einen Verstärker 36
mit quadratischer Verstärkung stark überhöht und zur Ansteuerungeines Zeitgliedes zur Überbrückung der
Impulspausen verwendet. Nach Umformung in einer Impulsformerschaltung 38 bilden die Signale den
zweiten Eingang 39 der Konjunktion 32. Hier werden die Bedingungen »Amplitude« und »stimmhaft« zur
Aussage »Vokal« vereinigt.
Schließlich weist die Schaltung 2 zur Formanterkennung noch den Sprachschalter 16 auf, der in Fig. 6
detaillierter dargestellt ist. Dieser Sprachschalter wird zur Erkennung von Sprechpausen benötigt. Dazu
werden die vom Mikrofon 1 kommenden Signale einem einstellbaren Verstärker 40 zugeführt, von dem
sie nach Gleichrichtung und Glättung in einer entsprechenden Schaltung 41 über ein Tiefpaßfilter 42
an eine Impulsformerschaltung 43 gelangen. Durch ' eine optimale Einstellung des Verstärkers 40 wird erreicht,
daß auch Zisch- und Hauchlaute ein einwandfreies Durchschalten des Schwellwertschalters ergeben.
Die Ausgangssignale der beschriebenen vier Schaltungen
gelangen in die Schaltung 3 zur Pseudosilbenbildung. Der Ausgang des Sprachschnlters 16 (Fig. 2)
wird über einen Inverter 44 zwei Konjunktionen 45 und 46 zugeführt und bildet jeweils deren ersten Eingang.
Der zweite Fingang der Konjunktion 45 wird
i'> mit dem frequenzniedrigsten Formanten aus dem
Formantanalysator 11 und der zweite Eingang der Konjunktion 46 mit dem Formanten der nächsthöheren
Frequenz aus dem Formantanalysator 13 beaufschlagt, ijit Ausgänge der Konjunktionen 45 und 46
-"> werden Zählern 47 und 48 zugeführt, in denen die
Impulse der beiden Formanten während definierter Zeitintervalle von 20 ms gezählt werden.
Danach werden die Zählerstände jeweils in Speichern 49 bis 52 abgespeichert, und zwar getrennt nach
y> Konsonanten und Vokalen. Diese Unterscheidung
wird vom Ausgang der Schaltung 15 zur Vokalerkennung gesteuert. Die Zählerstände für Konsonanten
des frequenzniedrigsten Formanten werden demnach im Speicher 49, die für Konsonanten des Formanten
in der nächsthöheren Frequenz im Speicher 50 abgespeichert,
während die Zählerstände für Vokale des frequenzniedrigsten Formanten im Speicher 51 und
die für Vokale des frequenzhöheren Formanten im Speicher 52 abgespeichert werden. Es hat sich außer-
r> dem als zweckmäßig herausgestellt, daß bei der Abspeicherung
der Konsonanten eine Kurvenglättung durch Mittelwertbildung zwischen zwei aufeinanderfolgenden
Zählerständen zweckmäßig sein kann.
Die in den Speichern 51, 52 nacheinander einge-
Die in den Speichern 51, 52 nacheinander einge-
4Ii speicherten Vokal-Zählerstände sind jeweils in eine
erste und eine zweite Hälfte unterteilt, damit Doppelvokale (ei, au, eu) erkannt werden können. Die Ausgänge
dieser beiden Speicher sind einer Schaltung 54 zur Bildung von Vokalschwerpunkten zugeführt, in
4> der Vokalschwerpunkte in einer anhand der Fig. 13
bis 16 beschriebenen Weise durch Mittelwertbildung erzeugt werden.
Ebenso werden die Ausgänge der Speicher 49, 50 für Konsonanten-Zählerstände einer Schaltung 53 zur
>n Konsonantenausdünnung zugeführt, in der sie mit dem Ausgang der Schaltung 54 zur Bildung von Vokalschwerpunkten
vereinigt und einer ebenfalls in Verbindung mit den Fig. 13 bis 16 beschriebenen Behandlung
unterzogen werden.
Als Ergebnis sind am Ausgang der Schaltung 53 aufbereitete Pseudosilben abnehmbar, die dem Merkmalvergleicher
4 zugeführt werden.
In Fig. 13 ist eine geglättete Sprachkurve dargestellt, die von den Konsonanten und Vokalen des ge-
bo sprochenen Wortes »nein« dadurch gebildet wird, daß
auf der Abszisse der Ausgang des Zählers 47 für den frequenzniedrigsten Formanten und auf der Ordinate
der Ausgang des Zählers 48 für den frequenzhöheren Formanten aufgetragen ist. Die Teilung von Abszisse
und Ordinate entspricht dabei den Formantfrequenzen. Die so gebildete Kurve wird nun durch die Schaltung
53 zur Konsonantenausdünnung und die Schaltung 54 zur Bildung von Vokalschwerpunkten auf
wenige signifikante Punkte ausgedünnt. Dazu wird die Kurve in einzelne Abschnitte mit genau definierbaren
Anfangs- und Endpunkten zerlegt. In den Fig. 13 bis
16 sind die Vokalen entsprechenden Kurvenpunkte durch X und die Konsonanten entsprechenden Kurvenpunkte
durch · dargestellt.
Fig. 14 zeigt den Ausgang der Schaltung 54 zur Bildung von Vokalschwerpunkten. Es ist ersichtlich,
daß aus der Vielzahl der Vokalpunkte in Fig. 13 nunmehr
durch die Bildung eines Mittelwertes je ein Vokalschwerpunkt erzeugt worden ist.
Fig. 15 zeigt nun die Sprachkurve unter Einbeziehung der beiden Vokalschwerpunkte. Es sind nunmehr
zwei Kurvenzüge vorhanden, deren Begrenzungspunkte jeweils vom Nullpunkt der Koordinatenmatrix
und den Vokalschwerpunkten gebildet werden.
Fig. 16 schließlich zeigt den Ausgang der Schaltung
SJ zur Konsonantenausiiüiinuiig. Die Ausdünnung
der beiden Konsonanten-Kurvenzüge erfolgt in diesem Ausführungsbeispiel durch Auslöschung der
Kurvenpunkte mit den jeweils größten Winkeln zu den Nachbarpunkten. Die Kriterien bei der Ausdünnung
sind zum einen Erhaltung der signifikanten Punkte und zum zweiten eine für alle Pseudosilben
gleiche Punktzahl, da mit diesen Kriterien der später beschriebene Vergleich mit Mustersilben am einfachsten
durchführbar ist. In diesem Beispiel bestehen die beiden verbliebenen Kurvenzüge 55 und 56 in Fig. 16
demzufolge aus den jeweils vier merkmalstärksten Punkten.
Die solcherart für einen Vergleich aufbereitete Pseudosilbe gelangt in einen Vergleicher 4 (Fig. 2),
dem aus einem Merkmalspeicher 5 Mustersilben zuführbar sind. Der Merkmalspeicher 5 ist beispielsweise
ein Festwertspeicher, der alle vorkommenden Mustersilben, ausgedrückt durch die gleiche Punktzahl
wie die Pseudosilben (im Beispiel also vier), enthält. Durch den Vergleich der Pseudosilben im Merkmalvergleicher
4 wird diejenige unter allen Mustersilben ausgesucht, die die geringste Abweichung von der
Pseudosilbe aufweist.
Das ist für die in den Fig. 13 bis 16 dargestellten Pseudosilben in den Fig. 17 und 18 näher zu sehen.
In Fig. 17 taucht strichpunktiert wieder der Kurvenzug 56 mit seinen vier signifikanten Punkten auf, während
in Fig. 18 der Kurvenzug 55 strichpunktiert dargestellt
ist. In Vollinien ist in beiden Figuren jeweils die am nächsten kommende Mustersilbe als Kurve 57,
58 eingezeichnet. Der Unterschied zwischen Pseudosilbe und Mustersilbe ergibt sich jeweils aus dem Unterschied
der schraffiert dargestellten* Flächen zwischen den beiden Kurvenzügen. Der kleinste Flächenunterschied
entspricht der größten Ähnlichkeit. Jeder Mustersilbe ist ein Kennzeichen zugeordnet, das vom
Merkmalverglcicher 4 an die Schaltung 6 zur Pseudowortbildung ausgegeben wird.
In der Schaltung 6 zur Pseudowortbildung ist ein erstes Schieberegister 58 vorgesehen, in das die Kennzeichen
mehrerer Mustersilben eingegeben werden. Im Schieberegister 58 stehen demnach - abhängig von
der jeweiligen Länge - eines oder mehrere aus Mustersilben gebildete Worte. Diese Worte setzen sich
zusammen aus Kennzeichen für Vokale, Konsonanten. Sprechpausen und Silbentrennungen. Um eine
ι >
orthographisch richtigen Worten weitgehend ähnliche Form zu schaffen, muli der Inhalt des Schieberegisters
58 einer weiteren Behandlung unterzogen werden. Der Ausgang des Schieberegisters 58 wird dazu sowohl
einer Schaltung zur Vokalaufteilung 59 als auch einer Schaltung zur Konsonantaufteilung 60 zugeführt.
Betrachtet man Fig. 19, so wird der Ablauf der Verarbeitung klar. Hier sind zur Demonstration in das
symbolhaft dargestellte Schieberegister 58 die gesprochenen Worte »EINGABE FÜR« eingeschrieben.
Die Pseudosilben sind durch Kennzeichen - waagerechte Striche - für Sprechpausen getrennt. Da
Sprechpausen Trennstellen zwischen orthographisch richtigen Silben sind, ist jede Pause automatisch durch
ein Silbentrennungskennzeichen zu ersetzen. Diese Trennung ist zur Weiterverarbeitung aber nicht ausreichend,
denn beim Sprechen sind Silbentrennungen nur selten und Wcrttrenp.ungen nicht immer durch
Pausen gekennzeichnet. Es müssen die durch Sprechpausen getrennten Sprachabschnitte noch weiter unterteilt
werden, um zu orthographisch richtigen Silben zu kommen. Hierzu werden in der Schaltung 59 zur
Vokalaufteilung, die in Fig. 19 ebenfalls symbolhaft
2ϊ dargestellt ist, die Vokale selektiert und durch die
Sprechpausen-Silbentrennung unterteilt. In der Schaltung 60 zur Konsonantaufteilung werden die
Konsonanten selektiert und durch die Sprechpausen-Silbentrennungen unterteilt, wobei jedoch noch eine
)o zusätzliche Maßnahme erfolgt: Alle Konsonanten, die
sowohl zwischen zwei Sprechpausen als auch zwischen Vokalen liegen, werden symmetrisch durch eine weitere
Sprechpause getrennt; handelt es sich um eine ungerade Anzahl solcher Konsonanten, so wird sie
r> durch Verdoppelung des mittleren Konsonanten auf
eine gerade Anzahl erhöht und danach ebenfalls durch eine zusätzliche Silbentrennung symmetrisch unterteilt.
Die Ausgänge der Schaltungen 59 und 60 werden in einem zweiten Schieberegister 61 zusammengefaßt,
das dann für das beschriebene Beispiel den in Fig. 19
gezeigten Inhalt aufweist. Die nunmehr im Schieberegister 61 stehenden Pseudoworte werden über Leitung
62 in den Wortvergleicher 7 eingegeben. Hier erfolgt ein Vergleich mit orthographisch richtigen Worten,
die in dem Wortspeicher 8 in Lautschrift enthalten sind. Der Wortspeicher 8 enthält das Vokabular, das
durch die Einrichtung erkannt werden kann. Der Vergleich wird zweckmäßigerweise durch Aussuchen ei-
nes Speicherbezirkes mit Hilfe der Reihenfolge der Vokale durchgeführt. Es wird mit der größten vorhandenen
Vokalzahl begonnen. Im Regelfalle werden jedoch die im Schieberegister 61 stehenden Silben mehr
als nur ein Wort umfassen. Der Vergleich des Pseudo-Wortes
mit den Musterworten wird deshalb negativ ausfallen. In diesem Falle wird von einer im Wortvergleicher?
enthaltenen Silbenabtrennschaltung die letzte Silbe im Schieberegister 61 über Leitung 63 abgetrennt
und der Vergleich wird wiederholt. Sobald der im Speicher 61 reduzierte Silbenumf ang - im Beispiel
als »AINGABBE« - nur noch einem Wort entspricht, wird die Suche in einem neuen Speicherbezirk
des Wortspeichers 8 erfolgreich sein. Der Vergleich fällt dann positiv aus, und das orthographisch richtige
Wen kann am Ausgang 9 abgenommen werden.
Hierzu 7 Blatt Zeichnungen
Claims (8)
1. Elektrisches Verfahren zur Spracherkennung, bei dem das Frequenzspektrum der aJs e|ektrische
Signale dargebotenen Sprachsignale in Frequenzbänder zerlegt und aus den Frequenzen
der »Formanten« Merkmalsfolgen gebildet werden, die mit in einem Merkmalsspeicher enthaltenen
Muster-Merkmalsfolgen verglichen werden, woraufhin das Vergleichsergebnis mit der geringsten
Abweichung die Abgabe elektrischer Signale zur Ansteuerung einer Darstellungseinheit bewirkt,
dadurch gekennzeichnet, daß die Impulse der »Formanten« niedrigster und zweitniedrigster
Frequenz zwischen zwei Sprechpausen in definierten Zeitabschnitten in Zählschaltungen
(47,48) gezählt und in Zuordnung zueinander in Zwischenspeichern (49 bis 52) abgespeichert werden
(Schnittpunktbildung in zweidimensionaler *>
Matrix), diS eine Folge solcher abgespeicherter
Schnittpunkte einer ersten Vergleichseinrichtung (4) zugeführt und in einem ersten Vergleich mit
einem Vorrat an Schnittpunktfolgen verglichen wird, die in einem ersten Merkmalsspeicher (5) ^
enthalten sind und »Mustersilben« darstellen, daß bei positivem Vergleichsergebnis den »Mustersilben«
zugeordnete binäre Kennungen an eine zweite Vergleichseinrichtung (7) abgegeben werden,
daß mehrere solcher binärer Kennungen in so einem zweiten Vergleich mit einem Vorrat an
Kennungsfclgen verglichen werden, die in einem
zweiten Merkmalsspeicher (8) enthalten sind und »Musterwerte« darstellen, u;id daß bei positivem
Vergleichsergebnis die Ausgabe des erkannten )*> »Wortes« in Form elektrisch τ Ansteuersignale
für die Darstellungseinheit erfolgt.
2. Verfahren nach Anspruch 1, gekennzeichnet durch folgende Verfahrensschritte:
a) Aussieben und Trennen der zwei »Formanten« niedrigster Frequenz zwischen zwei
»Sprechpausen«,
b) Ermitteln von Vokalen aus den beiden »Formanten«,
c) Bilden von vereinfachten Sprachkurven aus den beiden »Formanten«,
d) Auswählen von den vereinfachten Sprachkurven jeweils ähnlichsten »Mustersilben«
aus einem Mustersilbenvorrat eines Merkmalspeicher (5) durch Vergleich, .n
e) Ausgeben von den ausgewählten »Mustersilben« entsprechenden Kennzeichen,
f) Zusammenfassen mehrerer »Mustersilben« zu künstlichen Worten,
g) Suchen eines dem künstlichen Wort ähnlichsten »Wortes« aus in einem Wortspeicher (8)
enthaltenen »Musterworten« durch Vergleich,
h) bei Erfolglosigkeit des Verfahrensschrittes g): Schrittweises Abtrennen der letzten Stel- t>o
len des künstlichen Wortes und Wiederholen des Verfahrensschrittes g), solange, bis Vergleich
positiv und
i) Ausgeben des gefundenen »Wortes«.
3. Schaltungsanordnung zur Durchführung des &5
Verfahrens nach einem der Ansprüche 1 oder 2, gekennzeichnet durch eine aus vier Schaltungsteilen
(11, 13, 15, 16) bestehende Formp.nterkennungsschaltung
(2), von denen der erste (Jl) zum Aussieben des »Formanten« jeweils niedrigster
Frequenz aus dem Frequenzspektrum, der zweite (13) zum Aussieben des »Formanten« der jeweils
nächsthöheren Frequenz aus dem Frequenzspektrum, der dritte (15) zur Vokalerkennung durch
Ampütudenprüfung des frequenzniedrigsten und Slimmhaftigkeitspriifung des frequenzhöheren
»Formanten« und der vierte (16) zur Erkennung von Sprechpausen (Sprachschalter) vorgesehen
ist,
eine Schaltungsanordnung (3) zur Bildung vereinfachter Sprachkurven, die Zähler (47,48) zum
Zählen der Impulse der beiden »Formanten« während definierter Zeitintervalle, Zwischenspeicher
(49, 50, 51, 52) zur Aufnahme der Zählerstände getrennt für Vokale und Konsonanten, eine
Schaltung (54) zum Bilden von Mittelwerten aus den Vokalzählerständen sowie eine Schaltung (53)
zum Ausdünnen der Sprachkurven aufweist,
einen Merkmalvergleicher (4) zum Vergleichen der vereinfachten Sprachkurven mit einem Merkmalspeicher
(5) entnehmbaren Musterkurven,
eine Schaltung zur Bildung von Merkmalsfolgen, die ein Schieberegister (58) zur Aufnahme
von dem Vergleicher (4) entnehmbaren, »Mustersilben« bezeichnenden Merkmalen, eine Schaltung
(59) zur Selektion von Vokalen sowie deren Trennung durch Sprechpausen, eine Konsonantenaufteilungsschaltung
(60) zum Selektieren von Konsonanten und zur symmetrischen Trennung von Konsonanten, die zwischen Sprechpausen und
Vokalen liegen, wobei bei ungerader Konsonantenzahl der mittlere Konsonant verdoppelt wird,
sowie ein Schieberegister (61) zur Aufnahme der durch die Trennungen gebildeten »Silben« aufweist,
und
einen Wortvergleicher (7) zum Vergleichen von dem Schieberegister (61) entnehmbaren Folgen
von »Silben« mit einem Wortspeicher (8) entnehmbaren »Wörtern«, die eine Silbenabtrennschfltung
zum Abtrennen der jeweils letzten »Silbe« im Schieberegister 61 bei negativem Vergleichsergebnis
enthält.
4. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß eine Schaltung zur
Glättung der in den Zwischenspeichern (49, 50) abgespeicherten Konsonantzählerstände vorgesehen
ist.
5. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Ermittlung der
Anzahl der Schwingungen des frequenzniedrigsten »Formanten« durch Hintereinanderschaltung
eines Tiefpaßfilters (17), eines Modulators (18) mit Trägerunterdrückung, dem der Ausgang des
Tiefpaßfilters und eines Frequenzgenerators (19) zugeführt sind, eines weiteren aktiven Tiefpaßfilters
(20), eines Differenzverstärkers (21), dem der Ausgang des Tiefpaßfilters (20) sowohl direkt als
auch phasenverschoben zugeführt wird, und eines Impulsformers (27) erfolgt.
6. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Ermittlung der
Anzahl der Schwingungen des »Foimanten« nächsthöherer Frequenz durch die Hintereinanderschaltung
eines Hochpaßfilters (22), eines Differenzverstärkers (23), dem der Ausgang des Hochpaßfilters (22) sowohl direkt als auch pha-
senverschoben zugeführt wird, und eines Impulsformers (25) erfolgt,
7, Schaltungsanordnung nach Anspruch 5 und 6, dadurch gekennzeichnet, daß die »Vokalerkennung*
durch Prüfung des Überschreitens einer definierten Amplitudenhöhe des »Formanten«
niedrigster Frequenz in einer Hintereinanderschaltung eines Verstärkers (28), eines Gleichrichters
(29) mit Glättung, eines Tiefpaßfilters (30) sowie eines Impulsformers (31) und durch
Prüfung der Stimmhaftigkeit des »Formanten« nächsthöherer Frequenz in einer Hintereinanderschaltung
eines Gleichrichters (34) mit Glättung, eines Tiefpaßfilters (35), eines Verstärkers (36)
mit hoher - vorzugsweise quadratischer - Verstärkung, eines Zeitgliedes (37) sowie eines Impulsformers
(38) erfolgt, deren Ausgangssignale einer Konjunktion (32) zugeführt sind.
8. Schaltungsanordnung nach Anspruch 3, dadurch gekennzeichnet, daß die automatische Erkennung
der »Sprechpausen« in einer Hintereinanderschaltung eines einstellbaren Verstärkers
(40), eines Gleichrichters (41) mit Glättung, eines Tiefpaßfilters (42) und eines Impulsformers (43)
erfolgt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742448908 DE2448908C3 (de) | 1974-10-15 | 1974-10-15 | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742448908 DE2448908C3 (de) | 1974-10-15 | 1974-10-15 | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2448908A1 DE2448908A1 (de) | 1976-04-29 |
DE2448908B2 DE2448908B2 (de) | 1978-11-02 |
DE2448908C3 true DE2448908C3 (de) | 1979-07-05 |
Family
ID=5928268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19742448908 Expired DE2448908C3 (de) | 1974-10-15 | 1974-10-15 | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2448908C3 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
AU586167B2 (en) * | 1984-05-25 | 1989-07-06 | Sony Corporation | Speech recognition method and apparatus thereof |
EP0243479A4 (de) * | 1985-10-30 | 1989-12-13 | Central Inst Deaf | Sprachverarbeitungsanordnung und -verfahren. |
-
1974
- 1974-10-15 DE DE19742448908 patent/DE2448908C3/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE2448908A1 (de) | 1976-04-29 |
DE2448908B2 (de) | 1978-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2918533C2 (de) | ||
DE2953262C2 (de) | ||
AT390685B (de) | System zur textverarbeitung | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE102008017993A1 (de) | Sprachsuchvorrichtung | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE4031638C2 (de) | ||
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP0836175A2 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
DE2021126C3 (de) | Spracherkennungs anordnung | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE1422040A1 (de) | Verfahren zum automatischen Erkennen gesprochener Worte | |
DE1206167B (de) | Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse | |
DE2357949A1 (de) | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
DE2448909C3 (de) | ||
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE4015381A1 (de) | Spracherkennungsgeraet und verfahren zur spracherkennung | |
DE19824450C2 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: OLYMPIA AG, 2940 WILHELMSHAVEN, DE |
|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: AEG OLYMPIA AG, 2940 WILHELMSHAVEN, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: AEG OLYMPIA OFFICE GMBH, 2940 WILHELMSHAVEN, DE |
|
8339 | Ceased/non-payment of the annual fee |