DE1572516A1 - Schaltungsanordnung fuer die Spracherkennung - Google Patents

Schaltungsanordnung fuer die Spracherkennung

Info

Publication number
DE1572516A1
DE1572516A1 DE19671572516 DE1572516A DE1572516A1 DE 1572516 A1 DE1572516 A1 DE 1572516A1 DE 19671572516 DE19671572516 DE 19671572516 DE 1572516 A DE1572516 A DE 1572516A DE 1572516 A1 DE1572516 A1 DE 1572516A1
Authority
DE
Germany
Prior art keywords
circuit
zero
peak
output
counter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19671572516
Other languages
English (en)
Inventor
Scarr Robert Walter Alister
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STC PLC
Original Assignee
Standard Telephone and Cables PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Standard Telephone and Cables PLC filed Critical Standard Telephone and Cables PLC
Publication of DE1572516A1 publication Critical patent/DE1572516A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L3/00Measuring torque, work, mechanical power, or mechanical efficiency, in general
    • G01L3/16Rotary-absorption dynamometers, e.g. of brake type
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Dipl.-Ing. Heinz Ciaessen 15)/40 IQ
Patentanwalt
7 Stuttgart 1
Eotebühlstr. 70
ISE/Reg. 3779
R.W.A.Scarr 13
STANDARD TELEPHONES AND CABLES LTE, LONDON
Schaltungsanordnung für die Spracherkennung
Die Priorität der Anmeldung Nr. 53636/66 vom 30. November 1966 in Großbritannien wird in Anspruch genommen.
Die Erfindung betrifft eine Schaltungsanordnung zum Analysieren komplexer Schwingungen, insbesondere Sprachschwingungen, zum Zwecke der automatischen Erkennung, bei der das Sprachsignal in mehrere Frequenzbänder zerlegt wird.
Eine lineare Schwingung, so gor eine komplexe, bietet sich zu einer mathematischen Behandlung an. Zum Beispiel kann das Verhalten des Stimmtraktes bei einem linearen Vokal mathematisch genau erfaßt werden. Insbesondere kann das Verhalten einer einzelnen Resonanz oder eines einzelnen Formanten in relativ einfacher Weise ausgedrückt werden. Die Erregungsquelle, der Kehlkopf, schwingt mit einer nahezu konstanten Frequenz und erzeugt Oberschwingungen. Diese Oberschwingungen stehen in Beziehung zur Formantfrequenz und abhängig vom Unterschied zwischen der Formantfrequenz und der nächsten Oberschwingung ergibt sich eine unterschiedliche Kurvenform und ein unterschiedliches Nulldurchgangsmuster, die man
009810/0973
-2-
voraussichtlich mit der gleichen Vokalqualität hört. Wenn die Gruppe von Oberschwingungen, die der Kehlkopf hervorbringt, auch mathematisch ausgedrückt wird, dann ist es relativ einfach wenn auch mühsam, das Muster der Nulldurchgänge zu berechnen.
Bekannte Einrichtungen zur Spektralanalyse setzen periodische Schwingungen voraus, die eine Frequenzlinienstruktur ergeben. Die mathematische Grundlage dazu bilden die Fourier-Reihen. Für einzelne Ereignisse ist die Fourier-Transformation ein brauchbares Hilfsmittel (obwohl die Laplace-Transformation oft bevorzugt wird) und ein Ereignis kann vom Zeitmaßstab zum Frequenzmaßstab transformiert werden und umgekehrt. Die Übergänge lassen sich mit bestimmten Schaltungen auswerten. Frequenzanalysen eines einzelnen Ereignisses sind andererseits schaltungsmäßig nicht immer leicht zu realisieren; selbst dann ist der Nutzen gering.
Sprachsignale liegen zwischen einem einzelnen Ereignis und der periodischen Schwingung. Stimmhafte Sprache kann man als quasi-periodisch betrachten. Bei fortlaufender Sprache, bei der soviel oder mehr Informationen durch Formantübergänge als durch den Dauerwert der Formanten übermittelt wird, ist es selbstverständlich wichtig, gute dynamische Werte der Vokalqualität zu haben.
Nimmt man an, daß sie sogenannte Sona-graph-Darstellung genau ist, dann dauern die Formantübergänge 40-100 msec, und sie können Frequenzwechsel des zweiten Formanten größer als 1000 Hz aufweisen (P.S.GREEN "Consonant-Vowel-Transitions, a Spectrograph^ Study" Audia Linguistica 12,1958,S.57-105). dF/dt kann deshalb größer als 10 kHz/sec werden, oder anders ausgedrückt, die Resonanzfrequenz des zweiten Formanten kann sich um 100 Hz in einem (männlichen) Sprachzyklus ändern.
-3-009810/0973 W
ISE/Reg. 3779 - 3 -
1572518
Zur Berechnung nimmt man eine Schallquelle (den Kehlkopf), der eine konstante Frequenz aufweist und bei dem die Struktur der harmonischen Schwingungen bekannt ist und berechnet entweder das Frequenzspektrum oder die Zeit als Punktion der sich bewegenden Resonanzfrequenzen des Stimmtraktes. Jede harmonische Schwingung kann getrennt behandelt werden und die Ergebnisse können dann summiert werden.
Wenn die harmonische Struktur der Kehlkopfschwingung vernachlässigt werden kann, dann erscheint ein Formantübergang dem Empfänger als eine frequenzmodulierte Schwingung mit einer "augenblicklichen Frequenz", die in Beziehung zur Resonanzfrequenz des Formanten steht. Der Ausdruck "augenblickliche Frequenz" ist ein Widerspruch in sich, da die Frequenz nicht in einem Augenblick gemessen werden kann. Es wird jedoch in der Theorie der Frequenzmodulation (S.Goldman "Frequency Analysis, Modulaton and Noise" McGraw Mill, 1948,3.146-154-) eine nützliche Definition der augenblicklichen Frequenz gegeben für den Fall, daß die Trägerfrequenz groß ist im Vergleich zur Modulationsfrequenz. Im vorliegenden Fall ist diese Voraussetzung nicht vollständig gegeben, da das Verhältnis der Grundschwingung der Trägerfrequenz zur Modulationsfrequenz bis zu 10:1 heruntergehen kann. Aber das Ver- ^ hältnis der Formantfrequenz zur Modulationsfrequenz ist größer und es wird angenommen, daß die übliche Definition der augenblicklichen Frequenz auch im vorliegenden Falle nützlich
ist,
Λ dt?
augenblickliche Frequenz - -k- » -^r
worin das frequenzmodulierte Signal
a a A sin ist.
Die Berechnung des Spektrums einer frequenzmodulierten Schwingung ist ohne weiteres möglich, wenn die Modulations
0 0 9 810/0973 "4Γ
BAD
frequenz periodisch ist. Das Ergebnis kann man das "Langzeitspektrum" der frequenzmodulierten Schwingung nennen. Bei Sprache ist jedoch die modulierende Schwingung nicht periodisch und in diesem Fall ist die "Kurzzeitsituation" von Interesse. Die Kurzzeitsituation wird am besten durch die augenblickliche Frequenz ausgedrückt, da diese eng mit den tatsächlichen Formantresonanten zusammenhängt, die wiederum mit der Lage der Artikulatoren zusammenhängen.
Eine Messung der augenblicklichen Frequenz müßte daher weniger mehrdeutig sein als eine Darstellung nach dem Sona-graph-Verfahren, das eine Rechtfertigung dafür benötigt, daß die Spitzen in der Energie-Frequenz-Darstellung der augenblicklichen Lage der Formanten entsprechen. Bei der genannten Art der Darstellung sind außerdem relativ komplizierte Schaltkreise zum Feststellen der Spitzen erforderlich.
Die Erfindung ist dadurch gekennzeichnet, daß federn Filter ein °pitzendetektor und ein Nulldurchgangsdetektor nachgeschaltet sind und daß bei jeder Amplitudenspitze ein voreinstellbarer Zähler vorbereitet und "bei federn Nulldurchgang eine monostabile Kippschaltung angestoßen wird, von deren Ausgangssignal die Vorderflanke den Zähler weiterschaltet, und die Ausgabe des Wertes eines Integriergliedes an eine speichernde Torschaltung dann bewirkt, wenn gleichzeitig der Zähler den voreingestellten Wert erreicht hat und daß die Rückflanke des Ausgangssignals der monostabilen Kippschaltung zur Rückstellung des Integriergliedes dient.
Bei Sprachsignalen erhält man, wie oben erklärt, einen brauchbaren Maßstab für Ermittlung der augenblicken Frequenz, wenn die Formanten durch breitbandige Filter getrennt werden und wenn man die Abstände der zweiten Nulldurchgänge im Sprachsignal als Maßstab nimmt. Verwendet man die Abstände
009810/097 3 B,ad
ISE/Beg. 3779 - 5 -
der zweiten Nulldurchgänge zusammen mit einem anderen Wert, der sich monoton mit der Formantfrequenz ändert, dann ist dies fast ebenso nützlich wie wenn man den tatsächlichen Wert der Formantfrequenz erhält. Auf diese Weise wird die Menge der zu verarbeitenden Nulldurchgangsinformation wesentlich reduziert.
Wenn man z.B. vier Frequenzbänder wie angegeben untersucht, ist es möglich, die ersten und zweiten Formanten zu identifizieren und die Ergebnisse zusammen den Ausgangssignalen anderer Erkennungseinrichtungen, z.B. für Frikativlaute, Silben, Ruheperioden, Energiegehalt, auszuwerten, so daß sich eine vollständige Spracherkennungseinrichtung ergibt.
Die Erfindung wird nun anhand der Figuren beispielsweise näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Anordnung zum Erkennen und Messen der Zeit zwischen zwei verschiedenen, jedoch in Beziehung zueinander stehenden Merkmalen einer komplexen Schwingung,
Fig. 2 ein Blockschaltbild einer Erweiterung der Schaltung nach Fig. 1, die zum Messen der Zeit zwischen einen Spitzenwert und dem nachfolgenden zweiten Nulldurchgang in einem Frequenzband einer Sprachsohwingung dient,
Fig. 3 einen Ausschnitt aus einer Schwingung,
Fig. 4 ein Blockschaltbild einer Anordnung zum Erkennen der ersten und zweiten Formanten einer Sprachschwingung.
-6-
BAD ORIGINAL
009810/0973
In der Anordnung; nach Fig. 1 gelangt das Eingangssignal über einen (nicht gezeichneten) Bandpaß zu einem Nulldurchgangsdetektor 1 und einem Spitzendetektor 2. Bei jedem Nulldurchgang wird eine monostabile Kippschaltung 3 »it relativ kurzer Standzeit, z.B. 30^usec getriggert Durch diesen Impuls wird der 7/ert des integrierenden Verstärkers gelesen und ein Zähler 5 weitergeschaltet, wenn er bereits gestartet war. Die Rückflanke des Impulses von der monostabilen Kippschaltung 3 stellt den integrierenden Verstärker 4 auf Null. Das Ausgangss-ignal des integrierenden Verstärkers ist proportional der Zeit zwischen aufeinanderfolgenden Nulldurchgängen. Der Zähler 5 wird durch einen Impuls vom Spitzendetektor 2 gestartet. Der Zähler 5 ist so eingestellt, θβ daß sich ein Ausgangssignal nach einer bestimmten Anzahl von NuI!durchgängen nach der Erkennung einer Spitzenamplitude ergibt. Im vorliegenden Falle gibt der Zähler ein Ausgangssignal nach dem Zählwert 2 ab und er wird danach zurückgestellt und angehalten. Bei Koinzidenz eines Ausgangssignales vom Zähler j und eines Impulses von der monostabilen Kippschaltung 3 wird das Ausgangssignal des integrierenden Verstärkers in eine Speicherschaltung 6 weitergegeben, in der es verbleibt, bis der nächste Zyklus beginnt oder bis eine nicht gezeigte Schwellwertschaltung feststellt, daß kein Eingangssignal anliegt. Das Ausgangssignal der Speicherschaltung 6 kann als Kurve auf einem Oszillographen dargestellt werden, dessen Amplitude proportional dem Abstand des ersten und des zweiten Nulldurchganges ist oder dessen Amplitude umgekehrt proportional der Frequenz ist.
Wenn das Eingangssignal eine Sprachschwingung ist, kann es notwendig sein, die Schaltung nach Fig. 1 etwas zu modifizieren, um Schwierigkeiten zu vermeiden, die dann auftreten können. Beispielsweise können die Spitzen in der Sprachschwingung am Anfang und innerhalb des Sprachzyklusses annähernd gleich in
009810/0973
ISE/Reg. 5779 - 7 -
der Amplitude sein und es kann eine Verzögerungsschaltung vorgesehen werden, so daß nur die erste Spitze den Zähler steuert. In der Anordnung nach Pig. 2 gelangt das Bprachsignal über einen Bandpaß 7» ehe es auf den Spitzendetektor 8 gelangt. Der Spitzendetektor ist ein Vollweg-Spitzeng]eichrichter, in dem der Strom, der während der Spitzen fließt, verstärkt wird, um einen Ausgan^simpuls zu erzeugen. Das geschilderte Eingangssignal gelangt außerdem auf den Nulldurchgangsdetektor 9· Der Nulldurchf^angsdetektor besteht aus einem Diodenbegrenzer, einem Verstärker und einem Differenzverstärker. Die beiden Ausgangssignale des Differenzverstärkers werden differenziert und verstärkt und ein positiver Impuls tritt am Ausgang auf, wenn das Eingangssignal von einer der beiden Richtungen her Null wird.
Der Ausgangsimpuls des Spitzendetektors 8 dient zum Starten einer Zähldecodierschaltung 11 über eine Torschaltung 10. Da es vorkommen kann, daß der Gleichrichter mehrmals bei annähernd gleichen Spitzen am Anfang eines Sprachzyklussea leiten kann, wird ein Sperrsignal der Torschaltung 10 von einer Verzögerungsstufe 12 zugeleitet, die einen Rückkopplungsweg für die Torschaltung 10 bildet. Die Verzögerungszeit liegt in der Größenordnung von 3 msec, und sie wird erzeugt von einer monostabilen Kippschaltung, die verhindert, daß Ausgangsimpulse vom Detektor 8 den Zähler 11 erreichen, wenn sie innerhalb von 3 maec. nach dem ersten Impuls auftreten. Der erste Impuls vom Detektor startet die Zähldecodierschaltung 11, die die Ausgangsimpulse einer monostabilen Kippschaltung 13 zählt. Diese monostabile Kippschaltung hat eine Standzeit von 30/üsec. und sie wird vom Nulldurchgangsdetektor 9 getriggert. Das Ausgangssignal der monostabilen Kippschaltung 13 gelangt außerdem zu einem integrierenden Verstärker 14, der das Ausgangssignal integriert und im Kondensator 15 sOeichert. Das Ausgangssignal der monostabilen Kippschaltung 13 gelangt gleichzeitig auf einen der Eingänge einer Abtasttorschaltung 16. Der andere Eingang dieser Torschaltung 16 ist mit dem Ausgang der Zähldecodierstufe 11 verbunden. Wenn ein vorgegebener Zählwert erreicht ist, z.B. 2,
BAD ÖKB^VL
009810/0973
dann wird das Ausgangssignal des Zählers decodiert, so daß ein Ausgangsimpuls erzeugt wird, der zusammen mit dem zweiten Nulldurchgang simpuls von der monostabilen Kippschaltung 13 die Torschaltung 16 durchlässig steuert. Die Torschaltung 16 gibt den gespeicherten Wert des Kondensators 15 zur Speicherschaltung weiter. Gleichzeitig wird das decodierte Ausgangssignal des Zählerdecoders 11 zum Eingang zurückgeführt, so daß der Zähler angehalten und zurückgestellt wird. Bei Beginn des nächsten Sprachzyklusses oder wenn die Schwellwertschaltung 18 anzeigt, daß kein Eingangssignal anliegt, wird die Speicherschaltung 17 zurückgestellt. Das Ausgangssignal von der Speicherschaltung 17 gelangt auf einen Oszillographen oder es wird anderweitig beispielsweise zur Steuerung logischer Schaltkreise in einem Erkennungssystem verwendet. Vorausgesetzt, daß das Ausgangssignal von einem Formantband herrührt, ist ein vea-eiaem linearer Maßstab bei der Anzeigeeinrichtung ausreichend.
Fig. 3 zeigt beispielsweise die vollständige Kurve eines einzelnen Sprachzyklusses bei einer Sprachfrequenz von 135 Hz. Es ist erwähnenswert, daß in dieser Figur insgesamt acht Nulldurchgänge zwischen den Spitzenwerten des Zyklusses enthalten sind. In der oben beschriebenen Anordnung wird vorgeschlagen, daß die Zeit zwischen dem Beginn des Zyklusses und dem zweiten Nulldurchgang gemessen wird.
Fig. 4- zeigt eine Anordnung mit vier Schaltungen 20,21,22 und 23, die alle der Anordnung nach Fig. 2 ähnlich sind. Die gesamte Schaltung dient zur Identifizierung der ersten und zweiten Formanten. Das Spracheingangssignal gelangt auf die Anordnungen 20-23 und auf eine Hauptschwellwertschaltung
Es wird angenommen, daß nur der erste Formant im Frequenzband von 250-750 Hz liegt. Die Anordnung 20 enthält einen Bandpaß für diesen Bereich. Vom zweiten Formanten wird angenommen,
-9-
009810/0973
daß er im Bereich 950-1500 Hz liegt; dementsprechend hat die Anordnung 22 einen Bandpaß für diesen Bereich. Die Anordnung umfaßt den Bereich von 750-950 Hz, der als Überlappungsbereich zwischen dem ersten und dem zweiten Formanten angesehen wird. Die Anordnung 23 umfaßt einen anderen Überlappungsbereich zwischen den zweiten und dritten Formanten und sein Bereich umfaßt 1500-3000 Hz.
Das Ausgangssignal einer der Schaltungen 20-23 wird nicht berücksichtigt, sofern es nicht einen vorgegebenen Schwellwert überschreitet. Die Schwellwerte sind relativ zueinender festgelegt, jedoch nicht absolut. Die Hauptschwellwertschaltung 24, die das ungefilterte Signal bearbeitet, bestimmt den absoluten Schwellwert und stellt die Schwellen der Schaltungen 20-23 entsprechend ein.
Die Anordnung 20 hat drei Ausgänge: einen für die Nulldurchgangsmessung und die anderen beiden zur Kennzeichnung,ob die Schwellwertschaltung angesprochen hat oder nicht. Die Nulldur chgangsmeseung gelangt zusammen mit dem Ja-Ausgang für die Schwellwertschaltung zur Torschaltung 25· Sind beide Ausgänge leitend, dann öffnet di· Torschaltung 25 und läßt ein Signal zur Torschaltung 26 durch, die das Vorhandensein des ersten Formanten anzeigt. Wenn in der Anordnung 20 der Schwellwert nicht überschritten wird, öffnet die Torschaltung 25 nicht, jedoch der Nein-Ausgang öffnet in Verbindung mit der Nulldurchgangsmessung und den Ja-Ausgängen von der Anordnung 21 di· Torschaltung 27. 1st die Torschaltung 27 durchlässig gesteuert, dann öffnet wiederum die Torschaltung 26, und deren Ausgangesignal zeigt an, daß der erste Formant vorhanden ist. Anders ausgedrückt bedeutet dies, daß ein Ausgangseignal von der Anordnung 20 immer am Ausgang der Torschaltung 26 für den ersten Formanten erscheint. Wenn ein Ausgangssignal der Anordnung 21 und kein Ausgangssignal der Anordnung 20 vorhanden ist, dann erscheint das Ausgangssignal von der Anordnung 21 am Ausgang der Torschaltung 26 für den ersten Formant en. Wenn die
—-""* -10-
009810/0973 bad original
Ausgangssignale der Anordnungen 20 und 21 gleich sind (dies ist als Hinweis zu werten, daß ein erster Formant bei etwa 750 Hz vorhanden ist), dann wird das Ausgangssignal t> der Anordnung 21 unterdrückt. Entsprechend ist die Logik so ausgelegt, daß wenn die Anordnungen 20 und 21 verschiedene Ausgangssignale abgeben, das Ausgangssignal der Anordnung 21 auf die Torschaltung für den zweiten Formanten über die Torschaltung 29 gelangt. Die Torschaltung 29 dient nicht nur zur Bildung der Koinzidenzbedingung der Ja-Signale von den Anordnungen 20 und 21 und der Nulldurchgangsmessung von der Anordnung 29» sondern auch für Signale vom Koinzidenzdetektor 30, der einen Unterschied zwischen den Nulldurchgangsmessungen der Anordnungen 20 und 21 feststellt.
Wenn die Anordnung 21 ein Ausgangssignal über die Torschaltung 29 abgibt und auf diese Weise einen zweiten Formanten kennzeichnet, liefert sie außerdem Sperrsignale für die Torschaltungen 31 und 32, über die die Ausgänge der Anordnungen und 23 die Torschaltung für den zweiten Formanten 28 erreichen. Wenn die Anordnung 21 kein Ausgangssignal abgeben kann, dann ist die Anordnung 22 in der Lage, ein Ausgangssignal an die Torschaltung 28 für den zweiten Formanten abzugeben und zur gleichen Zeit wird das Ausgangssignal von der Anordnung 23 mittels der Torschaltung 32 gesperrt. Wenn beide Anordnungen und 22 kein Ausgangssignal über die Anwesenheit des zweiten Formanten abgeben können, dann liefert die Anordnung 23 das erforderliche Signal an die Torschaltung 28.
Selbstverständlich kann die Anzahl der Schaltkreise und die zugeordnete Logik erweitert werden,so daß auch der dritte Formant dargestellt werden kann.
Es kann vorkommen, daß, wenn der erste Formant oberhalb 750 He liegt, die Anordnung 20 ein Ausgangssignal bei der Sprachgrundfrequenz eines weiblichen Sprechers abgibt und dann erscheint das Ausgangssignal von der Anordnung 21 fälschlicherweise
009810/0973 ^: -«-
ISEZRe6. 3779 -11-
an der Torschaltung 28 für den zweiten Informanten. Um dies zu vermeiden, ist es entweder erforderlich, die Schwellwerte einzustellen oder zusätzliche logische Schaltlp?eise im Ausgang der Anordnung 20 vorzusehen.
M- Patentansprüche
2 Bl. Zeichn.,4 Fig.
BAD 009810/0973

Claims (4)

ISE/Reg. 5779 - 12 - Patentansprüche
1. Schaltungsanordnung zum Analysieren komplexer Schwingungen, insbesondere Sprachschwingungen, zum Zwecke der automatischen Erkennung, bei der das Sprachsignal in mehrere Frequenzbänder zerlegt wird, dadurch gekennzeichnet, daß zur Erkennung des Abstandes des ersten und zweiten Nulldurchganges nach einem Spitzenwert jedem Filter ein Spitzendetektor (2,8) und ein Nulldurchgangsdetektor (1,9) nachgeschaltet ist und daß bei (jeder Amplitudenspitze ein voreinstellbarer Zähler (5,11) vorbereitet und bei jedem Nulldurchgang eine monostabileJKippschaltung angestoßen wird, von deren Ausgangssignal die Vorderflanke den Zähler weiterschaltet und die Ausgabe des Wertes eines Integriergliedes (4, 14,15) an eine speichernde Torschaltung (6,16,17) dann bewirkt, wenn gleichzeitig der Zähler den voreingestellten Wert erreicht hat und daß die Rückflanke des Ausgangssignales der monostabilen Kippschaltung zur Rückstellung des Integriergliedes dient.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß zur Ausblendung von kurz aufeinanderfolgenden Spitzenwerten zwischen Ausgang des Spitzendetektors am Vorbereitungs-Eingang des Zählers eine mit einer verzögerten negativen Rückkopplung (12) versehene Torschaltung (10) vorgesehen ist.
Ne/Sd
27.11.67
BAD 009810/0973
3. Schaltungsanordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß Jeder Erkennungsschaltung eine Schwellwertschaltung zugeordnet ist, die nur bei Überschreiten des Schwellwertes das Ausgangssignal freigibt, wobei die einzelnen Schwellwerte nur relativ zueinander, aber nicht absolut festgelegt sind und daß außerdem eine für alle Erkennungsschaltungen gemeinsame Schwellwertschaltung vorgesehen i*t, die den absoluten Schwellwert festlegt»
4. Schaltungsanordnung nach Anspruoh 3» dadurch gekennzeichnet« daß die Ausgangssignale der einzelnen Erkennungsstufen untereinander logisch so verknüpft sind, daß die Erkennung des 1., 2. usw. Formenten möglich ist.
009810/0973 BAD
DE19671572516 1966-11-30 1967-11-29 Schaltungsanordnung fuer die Spracherkennung Pending DE1572516A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB53636/66A GB1139711A (en) 1966-11-30 1966-11-30 Apparatus for analysing complex waveforms

Publications (1)

Publication Number Publication Date
DE1572516A1 true DE1572516A1 (de) 1970-03-05

Family

ID=10468498

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19671572516 Pending DE1572516A1 (de) 1966-11-30 1967-11-29 Schaltungsanordnung fuer die Spracherkennung

Country Status (4)

Country Link
US (1) US3546584A (de)
BE (1) BE720600A (de)
DE (1) DE1572516A1 (de)
GB (1) GB1139711A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662374A (en) * 1970-07-13 1972-05-09 Computer Image Corp Automatic generation of a mouth display and animation of the mouth in response to sound
US3860759A (en) * 1970-09-23 1975-01-14 California Inst Of Techn Seismic system with data compression
US3732405A (en) * 1971-08-11 1973-05-08 Nasa Apparatus for statistical time-series analysis of electrical signals
US3760108A (en) * 1971-09-30 1973-09-18 Tetrachord Corp Speech diagnostic and therapeutic apparatus including means for measuring the speech intensity and fundamental frequency
US3770891A (en) * 1972-04-28 1973-11-06 M Kalfaian Voice identification system with normalization for both the stored and the input voice signals
US4020567A (en) * 1973-01-11 1977-05-03 Webster Ronald L Method and stuttering therapy apparatus
US3940565A (en) * 1973-07-27 1976-02-24 Klaus Wilhelm Lindenberg Time domain speech recognition system
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
US4706293A (en) * 1984-08-10 1987-11-10 Minnesota Mining And Manufacturing Company Circuitry for characterizing speech for tamper protected recording
US5018428A (en) * 1986-10-24 1991-05-28 Casio Computer Co., Ltd. Electronic musical instrument in which musical tones are generated on the basis of pitches extracted from an input waveform signal
AUPQ161099A0 (en) * 1999-07-13 1999-08-05 Cochlear Limited Multirate cochlear stimulation strategy and apparatus
US10062394B2 (en) * 2015-03-31 2018-08-28 Bose Corporation Voice band detection and implementation
CN110361596A (zh) * 2019-06-18 2019-10-22 上海宝准电源科技有限公司 一种基于过零点检测的谐振检测策略

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3296374A (en) * 1963-06-28 1967-01-03 Ibm Speech analyzing system
US3335225A (en) * 1964-02-20 1967-08-08 Melpar Inc Formant period tracker
GB1012765A (en) * 1964-03-06 1965-12-08 Standard Telephones Cables Ltd Apparatus for the analysis of waveforms
US3387090A (en) * 1964-09-11 1968-06-04 Tracor Method and apparatus for displaying speech
US3381093A (en) * 1965-08-04 1968-04-30 Bell Telephone Labor Inc Speech coding using axis-crossing and amplitude signals
US3450989A (en) * 1965-09-28 1969-06-17 Ibm Frequency analyzer for detection of energy peaks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache

Also Published As

Publication number Publication date
GB1139711A (en) 1969-01-15
BE720600A (nl) 1969-03-10
US3546584A (en) 1970-12-08

Similar Documents

Publication Publication Date Title
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE2918533C2 (de)
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE3306730A1 (de) Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal
DE3645118C2 (de)
EP0296588A2 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3102385C2 (de)
DE2515868B2 (de) Vorrichtung zur messung des blutdrucks
DE69020736T2 (de) Wellenanalyse.
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
DE10120168A1 (de) Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
DE2111072A1 (de) Verfahren und Vorrichtung zum Unterscheiden zwischen Sprache und Rauschen
DE1547027C3 (de) Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen
DE1772633A1 (de) Verfahren zur Spracherkennung
DE1122274B (de) Verfahren und Anordnung zur automatischen Erkennung von Sprache
DE68919924T2 (de) Verfahren zur Feststellung des Sättigungspegels eines Sprachsignals.
DE2062589A1 (de) Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals
DE1547029A1 (de) Spracherkennungsgeraet
DE2334459C3 (de) Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung
DE2737812C3 (de) Verfahren zur Frequenzanalyse von transienten (einmaligen) Schallimpulsen
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters