DE1122274B - Verfahren und Anordnung zur automatischen Erkennung von Sprache - Google Patents

Verfahren und Anordnung zur automatischen Erkennung von Sprache

Info

Publication number
DE1122274B
DE1122274B DEST13977A DEST013977A DE1122274B DE 1122274 B DE1122274 B DE 1122274B DE ST13977 A DEST13977 A DE ST13977A DE ST013977 A DEST013977 A DE ST013977A DE 1122274 B DE1122274 B DE 1122274B
Authority
DE
Germany
Prior art keywords
pulse
counter
formants
speech
filters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DEST13977A
Other languages
English (en)
Inventor
Dr-Ing Karl Steinbuch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent Deutschland AG
Original Assignee
Standard Elektrik Lorenz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Standard Elektrik Lorenz AG filed Critical Standard Elektrik Lorenz AG
Priority to DEST13977A priority Critical patent/DE1122274B/de
Priority to GB2292659A priority patent/GB916781A/en
Publication of DE1122274B publication Critical patent/DE1122274B/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Sub-Exchange Stations And Push- Button Telephones (AREA)

Description

  • Verfahren und Anordnung zur automatischen Erkennung von Sprache Die Erfindung bezieht sich auf ein Verfahren und eine zugehörige Anordnung zur automatischen Erkennung von Sprache.
  • Es ist schon eine Reihe von Verfahren bekanntgeworden, die sich um die Lösung dieses Problems bemühen, und man kann sagen, daß die automatische Erkennung von stetig ausgesprochenen Vokalen nach dem Stande der Technik möglich ist.
  • Bei diesen Verfahren wird die in elektrische Schwingungen umgesetzte Sprache einer Filterkombination zugeführt, deren Einzelfilter schmale Durchlaßbereiche für jene Frequenzen (Formantfrequenzen) aufweisen, die für die zu erkennenden Vokale charakteristisch sind. Ermittelt und für die Erkennung ausgewertet wird hierbei also die spektrale Verteilung der Sprachenergie, während die zeitliche Verteilung während des Aussprechens des Lautes unberücksichtigt bleibt.
  • Es ist verständlich, daß diese Vernachlässigung bereits für die Erkennung von Diphthongen oder gar von einfachen Silben nicht mehr möglich ist, und es ist auch bereits bekannt, nicht nur die spektrale Verteilung schlechthin, sondern prinzipiell und bis zu einem gewissen Grade ihren zeitlichen Verlauf zu berücksichtigen.
  • Bei der Anordnung nach diesem Verfahren werden die in elektrische Schwingungen umgesetzten Laute einer Kombination von z. B. acht linearen Filtern zugeführt. Jedem Filter sind fünf Relaisspeicher zugeordnet, die innerhalb eines Zeitabschnittes von 200 ms aufeinanderfolgend je für 40 ms an den zugehörigen Filterausgang angeschlossen werden. Lm ganzen sind also 40 Relaisspeicher vorhanden, die mit 1 bis 40 numeriert seien. Den Filtern 1 bis 8 sind die Relaisspeicher 1 bis 8 zugeordnet, die im ersten 40-ms-Zeitraum angeschlossen werden. Entsprechend sind auch die Relaisspeicher 9 bis 16 den Filtern 1 bis 8 zugeordnet, werden aber im zweiten 40-ms-Zeitraum angeschlossen und so fort, so daß dem Filter 1 z. B. die Relaisspeicher 1, 9, 17, 25, 33 zugehören, dem Filter 2 die Speicher 2, 10, 18, 26, 34 usw., die in aufeinanderfolgenden Zeitabschnitten von je 40 ms Dauer an den Ausgängen ihrer Filter liegen.
  • Zeigt sich also am Ende des Beobachtungszeitraumes beispielshalber, daß die Relaisspeicher 1, 9, 17, 18, 26, 34 beaufschlagt sind, so ist dies nicht nur eine Aussage dafür, daß die den Filtern 1 und 2 zugehörigen Frequenzen (f 1 und f2) aufgetreten sind, sondern bedeutet, daß die Frequenz f 1 in den ersten drei 40-ms-Zeiträumen vorhanden war, die Frequenz f 2 dagegen im dritten bis fünften Zeitraum.
  • Ermittelt man nun empirisch durch vielfach wiederholtes Aussprechen der zu erkennenden Lautverbindungen, welche Speicherkombinationen für sie eindeutig als charakteristisch anzusehen sind, so kann man das Erkennen in bekannter Weise durch logische Verknüpfung der Speicherausgänge automatisieren und z. B. auf Grund der gesprochenen Lautverbindung die entsprechende Type einer Aufzeichnungsapparatur zum Abdruck bringen.
  • Dieses Verfahren hat außer technologischen schon rein physikalisch begründete Grenzen, und im Zusammenhang mit diesem Verfahren ist von zehn unterscheidbaren Lautverbindungen die Rede. Eine Steigerung der Zahl unterscheidbarer Laute wäre theoretisch auf zweierlei Arten oder deren Kombination möglich, nämlich durch eine feinere Frequenzrasterung, also größere Filterzahl, im zu betrachtenden Spektralbereich oder/und durch eine feinere Zeitrasterung im Beobachtungszeitraum.
  • Bei den Maßnahmen aber setzt der Umstand rasch eine Grenze, daß die verwendeten Filter eine nicht vernachlässigbare Einschwingzeit besitzen, die um so größer wird, je kleiner die relative Durchlaßbandbreite ist.
  • Es ist schon bei dem oben geschilderten Vorschlag mit acht Filtern (im Bereich von etwa 300 bis 7000 Hz) und einer Abtastperiode von 40 ms zu beachten, daß die Aussage über den Auftrittszeitraum einer bestimmten Frequenz sich auf den Filterausgang bezieht. Hinsichtlich des tatsächlichen Auftrittszeitpunktes, nämlich am Filtereingang, ist sie eben wegen der Einschwingzeiten sehr fragwürdig.
  • Maßgeblich für die relative Genauigkeit der Zeitaussage ist das Verhältnis von Abtastperiode zu Einschwingzeit. Dieses Verhältnis aber und damit die relative Genauigkeit wird durch feinere Zeitrasterung (kürzere Abtastperioden) wie auch durch feinere Frequenzrasterung (längere Einschwingzeiten) verringert.
  • Die Grenze, das Auftreten einer bestimmten Frequenz überhaupt feststellen zu können, ist andererseits durch das Verhältnis zwischen ihrer Verweilzeit, d. h. der Dauer ihres Auftretens, und der Einschwingzeit des verwendeten Filters gegeben. Ist die Zeit, während der eine Formante den Durchlaßbereich eines Filters durchläuft, kleiner als dessen Einschwingzeit, dann ist die am Ausgang des Gitters auftretende Amplitude nicht mehr ein eindeutiges Maß für die Amplitude am Eingang des Gitters, sondern gleichermaßen von der Durchlaufzeit abhängig.
  • Es soll nun gezeigt werden, daß die Betrachtungen für die Fortentwicklung der Spracherkennung dominierende Bedeutung haben, da nämlich tatsächlich Verweilzeiten zu berücksichtigen sind und sich auf der bisherigen Basis Einschwingzeiten ergeben würden, deren Verhältnis jenseits der genannten Grenze liegt.
  • Die bisher ungelösten Probleme bei der automatischen Erkennung gesprochener Sprache liegen bei der Erkennung der Konsonanten, insbesondere der Stopkonsonanten (z. B. d, b, g, p, t, k) und der Nasalkonsonanten (m, n und ii). Es ist nachgwiesen worden, daß für die Erkennung der Konsonanten das Entscheidende ist, wie die zweite Formante sich in Zeiträumen von etwa 50 ms verändert. Entsprechende synthetische Spektrogramme vermitteln den Eindruck, als ob die Stopkonsonanten einer bestimmten - latenten - spektralen Startkonfiguration entspringen würden, die zwar nicht in Erscheinung tritt, jedoch aus dem Übergang zu dem folgenden Vokal erraten werden kann. So hat man für die zweite Formante als latente Startfrequenz z. B. angegeben: »gt : F$ = 3000 Hz »di : F$ = 1800 Hz »b«: F$ = 720 Hz Dagegen scheint die erste Formante für die Verständlichkeit der Stopkonsonanten ziemlich belanglos zu sein.
  • Fig.l, die bekanntgewordenen Untersuchungsergebnissen entnommen ist, stellt ein typisches Beispiel dar und zwar den zeitlichen Verlauf der zweiten Formenten bei der Aussprache der Silbe »dun, ausgesprochen durch einen männlichen Sprecher. Es zeigt sich, daß die zweite Formente in einem Zeitraum von etwa 50 ms einen Frequenzhub von 1335 - 870 = 465 Hz durchläuft. Man hat also in diesem Zeitraum eine Veränderungsgeschwindigkeit der Frequenz von etwa v = 10 Hz/ms.
  • Weiterhin ist bekannt, daß z. B. für männliche Aussprache die zweite Formenten im Frequenzbereich zwischen 850 und 2 290 Hz liegen. Um auch nur die insgesamt etwa sechzehn verschiedene Vokale z. B. der englischamerikanischen Aussprache unterscheiden zu können, müßte man für die Frequenzanalysierfilter eine durchschnittliche Rasterung von etwa 60/, verwenden Um die Fehler durch zufälliges Zusammentreffen zwischen Filtertrennstellen und der Lage der Formenten auszuschalten, müßten die Filter jedoch noch um etwa den Faktor 2 feiner unterteilt sein. Es ergibt sich somit eine Bandbreite von ± 1,5 °/o für die Filter, die man zur Analyse des zeitlichen Verlaufs der Formenten verwenden kann. Beachtet man nun die Einschwingzeiten solcher Filter, so ergibt sich, daß die Einschwingzeiten der Filter meist größer sind als die Zeiten, während der die Momentanfrequenz der Formanten ihren Durchlaßbereich durchlaufen, also größer als ihre Verweilzeiten.
  • Es ergibt sich beispielsweise:
    Filter- Einschwing- Verweil-
    mittenfrequenz Bandbreite (8) zeit ( - B I zeit
    840 Hz 25 Hz 40 ms / 2,5 m /s
    2290 Hz 69 Hz 14,5 ms 6,9 ms
    Die Verweilzeit errechnet sich also hierbei aus der obigen Angabe einer Veränderungsgeschwindigkeit der Frequenz von etwa v = 10 Hz/ms und der Bandbreite B. Nach diesen Überlegungen ergibt sich, daß lineare Filter, bei denen das Produkt aus Bandbreite und Einschwingzeit stets _> 1 ist, nicht geeignet sind, die Frequenzanalyse zwecks automatischer Erkennung (gesprochener) Sprache durchzuführen.
  • Mithin kann das wichtige Problem der Erkennung der Konsonanten, insbesondere der Stopkonsonanten, für die unter anderem der zeitliche Verlauf der zweiten Formanten möglichst genau zu erfassen ist, grundsätzlich nicht auf der Basis des oben geschilderten Verfahrens gelöst werden, obwohl auch dort der Zeitfaktor bereits bis zu einem gewissen Grade berücksichtigt wird.
  • Die Erfindung ermöglicht die Lösung des Problems zur automatischen Erkennung von Sprache auf der Basis des Verfahrens, bei dem die Sprachlaute in elektrische Schwingungen umgesetzt werden, deren Frequenzen für jeden Laut bzw.jede Lautverbindung in aufeinanderf olgenden Zeitpunkten analysiert werden, und bei dem die Analysenergebnisse zur Erkennung entsprechend dem Begriff der logischen Verknüpfung ausgewertet werden, durch Beschreiten eines völlig neuen Weges.
  • Erfindungsgemäß werden die Momentanfrequenzen der zur Erkennung der Laute herangezogenen Formenten durch Zeitmeßschaltungen ermittelt, welche in an sich bekannter Weise die Periode zwischen dem Auftreten bestimmter Phasenlagen messen.
  • Zur Aussiebung der gewünschten Formenten ist bei der Anordnung zur Durchführung des erfindungsgemäßen Verfahrens eine Anzahl die Formenten isolirender breitbandiger Filter vorgesehen, denen die Zeitmeßschaltungen zur Ermittlung der genauen Momentanfrequenz der betreffenden Formenten nachgeschaltet sind.
  • Infolge der Breitbandigkeit aber wird die Einschwingzeit der Filter vernachlässigbar, während die Zeitmeßschaltungen, die der Ermittlung der Momentanfrequenz dienen, keinem Einschwingeffekt unterliegen. Diese sind vielmehr in der Lage, sogar am Ende jeder Halbperiode der zu beobachtenden Schwingung ein Meßergebnis zu liefern.
  • In der Ausdrucksweise, die bei der Schilderung des Standes der Technik verwendet wurde, heißt dies also, daß das Verfahren nach der Erfindung von der Tendenz, die Frequenzrasterung durch lineare Filter zu verfeinern, völlig abgeht und im Gegenteil nur wenige, breitbandige Filter vorsieht, während die Zeitrasterung, die ja nun keine Rücksicht mehr auf Einschwingvorgänge zu nehmen braucht, bis zu der angegebenen Grenze verfeinert wird und das Maß der mit ihr verbundenen Frequenzrasterung nur noch von der Darstellungsart der Zeitmeßergebnisse abhängt.
  • Die Zeitmessung erfolgt zweckmäßig mittels Impulszählern, die von einem Generator gelieferte Impulse zwischen den Auftrittszeitpunkten bestimmter Phasenlagen der zu messenden Schwingung zählen.
  • Derartige Anordnungen zur Messung der Periode einer Schwingung sind an sich bekannt und auch bereits in Frequenzmessern realisiert worden.
  • Obwohl sie nicht geeignet sind, eine Frequenz aus einem Gemisch auszusieben, führt ihre Anwendung im Rahmen der Erfindung in Verbindung mit den die Formanten isolierenden breitbandigen Filtern zu der Möglichkeit, das Vorhandensein und die genaue Frequenz der Formanten in wesentlich kürzerer Zeit zu ermitteln, als dies mit linearen, mit Einschwingzeiten behafteten Filtern denkbar wäre.
  • Es sei erwähnt, daß bereits auf die Möglichkeit hingewiesen worden ist, mit den an sich bekannten Koinzidenzmethoden der Impulstechnik eine Art Filter aufzubauen, bei denen das Produkt aus Bandbreite und Einschwingzeit kleiner als 1 ist. Auch derartige Koinzidenzfilter sind allerdings nur in der Lage, das Vorhandensein einer Schwingung bestimmter Frequenz festzustellen und z. B. eine Schaltfunktion auszuüben. Ihre Verwendung an Stelle der mit Impulszählern arbeitenden Zeitmeßschaltungen würde bei der vorliegenden Aufgabe der Sprachanalyse schon deshalb zu erheblich größerem Aufwand führen, weil sie für jede der Vielzahl der zu berücksichtigenden Momentanfrequenzen individuell vorgesehen werden müßten.
  • Die Erfindung soll nun auf Grund eines Ausf ührungsbeispiels und an Hand der Zeichnungen näher erläutert werden.
  • Fig. 1 gibt ein bekanntes Diagramm des Frequenzverlaufes der Silbe »du« über der Zeit wieder; Fig.2 stellt im Blockschaltbild schematisch eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens dar, und Fig.3 zeigt eine Ausführungsform eines Bauelementes D der Anordnung nach Fig. 2.
  • Bei der als Beispiel in der Fig. 2 dargestellten Anordnung werden zur Erkennung die erste, zweite und dritte Formante herangezogen. Gemäß Ergebnissen von Untersuchungen über die Lage dieser drei Formanten bei männlichen Sprechern sind zweckmäßig vier Filter F,, F2, F2,3, F3 mit folgenden Durchlaßbereichen vorgesehen:
    F, für die erste Formante ....... 400 bis 800 Hz
    F2 für einen Teil der zweiten For-
    manten . . . . . . . . . . . . . . . . . . . . . . 800 bis 1600 Hz
    F2,3 für den anderen Teil der zweiten
    und einen Teil der dritten For-
    manten . . . . . . . . . . . . . . . . . . . . . . 1600 bis 2300 Hz
    F3 für den anderen Teil der dritten
    Formanten . . . . . . . . . . . . . . . . . . 2300 bis 3200 Hz
    Die Wahl dieser Filtergrenzfrequenzen ist so getroffen, daß durch jedes Filter bei männlichen Sprechern jeweils nur eine einzige Frequenz mit nennenswertem Pegel hindurchgeht. Die Zahlenwerte sind nur als Beispiel zu werten. Läßt man auch weibliche und kindliche Sprecher zu, so müssen sie modifiziert werden.
  • Die zu erkennenden Laute werden vom Mikrophon aufgenommen und in elektrische Schwingungen umgewandelt, wie es ebenfalls an sich bekannt ist, in einem Verstärker A verstärkt und in einer Kompressorschaltung CP auf einen Pegel gebracht, der der Erkennungsanordnung angemessen ist.
  • Die Ausgangssignale des Kompressors werden an die Eingänge der vier Filter F angelegt.
  • Auf jedes Filter F, die also jeweils nur eine einzige Frequenz mit nennenswertem Pegel durchlassen, folgt eine Zeitmeßschaltung, deren Kern im Beispiel ein die Impulse eines Generators J zählender Impulszähler C ist und zu der eingangsseitig ein Amplitudendiskriminator D und ausgangsseitig eine Torschaltung G gehören.
  • Zeichnerisch dargestellt ist nur die dem Filter F3 nachgeordnete Schaltung.
  • Der Amplitudendiskriminator D hat die Aufgabe, aus der am Ausgang des Filters auftretenden Schwingung beim Auftreten gewünschter gleicher Phasenlagen einen kurzen Impuls abzuleiten.
  • Ein Ausführungsbeispiel für Schaltungen, die diese Funktion erfüllen, und für die viele Varianten bekannt sind, ist in Fig. 3 schematisch wiedergegeben. Die Eingangsspannung U, wird an das Gitter bzw. an die Kathode zweier Röhren mit gemeinsamem Anodenwiderstand gelegt. Die Gitter-Kathoden-Strecken sind durch Spannungen E, bzw. E2 vorgespannt. Durch geeignete Wahl der Vorspannungen hat man es in der Hand, dann und nur dann einen positiven Spannungsimpuls UZ an der Anode entstehen zu lassen, wenn der Momentanwert der Eingangsspannung einen bestimmten Amplitudenwert, der durch die Wahl von E, und E2 gegeben ist, durchläuft. Es kann sich vorzugsweise um den Amplitudenwert Null handeln.
  • Die entstehenden Impulse werden vom Ausgang des Diskriminators D auf drei Ausgangsleitungen 1, 2 und 3 gegeben.
  • Ein solcher Impuls erreicht über die Leitung 1 (in Fig. 2) den Impulsgenerator J und dient als Startimpuls. Er läßt den Generator an oder schaltet diesen, falls er dauernd läuft, über eine Leitung 4 zum Zähler C durch. Der Generator schwingt mit einer Frequenz, die groß gegen diejenige der zu messenden Schwingung ist.
  • Der Zähler zählt die ihm vom Generator J gelieferten Impulse, bis er vom nächsten, vom Amplitudendiskriminator D kommenden, ihm über die Leitung 2 als Rückstellimpuls zugeführten Impuls angehalten und zurückgestellt wird.
  • Vor der Rückstellung indessen erreicht der gleiche, von D kommende Impuls über die Leitung 3 die Torschaltung G als Öffnungs- bzw. Ableseimpuls. Hierdurch wird das Zählergebnis abgelesen und auf die nächste Stufe, einen Schiebespeicher SH, durchgeschaltet. Erst dann erfolgt die Rückstellung, und die nächste Zählung kann beginnen.
  • Beim Zähler C kann es sich um einen, wie in der Figur angedeutet, z. B. dreistufigen Binärzähler handeln. An seinen Ausgangsklemmen erscheint das Zählergebnis, d. h. das Maß für die Momentanfrequenz, dann in codierter Form. Im Beispiel sind also nur acht Frequenzstufen darstellbar, indessen ist klar, daß die Zahl der darstellbaren Stufen durch entsprechende Zahl von Codeelementen beliebig erhöht werden kann.
  • Die codierten Darstellungen der Momentanfrequenzen werden also in den Schiebespeicher SH eingegeben, in dem für jedes Codeelement ein Schiebe- . register SHR vorgesehen ist, und in diesen durch Taktimpulse T von Einzelspeicher St zu Einzelspeicher geureinsam fortgeschaltet. Die Fortschaltung kann z. B. für die zu einer Formante gehörenden Schieberegister jeweils dann erfolgen, wenn am Ausgang der Torschaltung eine andere Information erscheint, als sie zum Zeitpunkt der vorhergehenden Fortschaltung vorlag. Hierzu benötigt man einen Zwischenspeicher.
  • Aufbau und Arbeitsweise von Schieberegistern sind bekannt.
  • Von den Einzelspeichern St der Schieberegister führen Leitungen in einen Zuordner Tr. Der Zuordner erhält daher nicht nur Informationen darüber, wie groß die Momentanfrequenz der betreffenden Formanten zu einem bestimmten Zeitpunkt war, sondern er erhält diese Information für mehrere, aufeinanderfolgende Zeitpunkte, so daß er aus den codierten Werten der Momentanfrequenz eindeutige Rückschlüsse auf die Veränderung der Formanten in Abhängigkeit von der Zeit ziehen kann.
  • Die gleichen Informationen erhält der Zuordner über die Schieberegister für die erste und zweite Formante (Filter F1 und FJ.
  • Die Technik der elektrischen Zuordner ist bekannt. Auf den Ausgangsleitungen L des Zuordners erscheinen elektrische, codierte Signale für die vom Mikrophon aufgenommenen Laute. Diese Signale können nun in irgendeiner Weise weiterverarbeitet und aufgezeichnet werden.

Claims (3)

  1. PATENTANSPRÜCHE: 1. Verfahren zur automatischen Erkennung von Sprache, bei dem die Sprachlaute in elektrische Schwingungen umgesetzt werden, deren Frequenzen für jeden Laut bzw. jede Lautverbindung in aufeinanderfolgenden Zeitpunkten analysiert werden, und bei dem die Analysenergebnisse zur Erkennung, entsprechend dem Begriff der logischen Verknüpfung, ausgewertet werden, dadurch gekennzeichnet, daß die Momentanfrequenzen der zur Erkennung der Laute herangezogenen Formanten durch Zeitmeßschaltungen ermittelt werden, welche in an sich bekannter Weise die Periode zwischen dem Auftreten gleicher Phasenlagen messen.
  2. 2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet, daß zur Aussiebung der gewünschten Formanten eine Anzahl die Formanten isolierender, breitbandiger Filter (F) vorgesehen ist, denen die Zeitmeßschaltungen (C, J) zur Ermittelung der genauen Momentanfrequenz der betreffenden Formanten nachgeschaltet sind.
  3. 3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß zwischen den Filtern und den Zeitmeßschaltungen Amplitudendiskriminatoren (D) angeordnet sind, die beim Auftreten bestimmter Phasenlagen, vorzugsweise bei den Nulldurchgängen, der eingespeisten Schwingungen Impulssignale an die Zeitmeßschaltungen abgeben. In Betracht gezogene Druckschriften: Deutsche Patentschrift Nr. 937 019; schweizerische Patentschrift Nr. 241449; Zeitschrift für angewandte Physik, 1958, Heft 2, S. 56 bis 65; IRE Transactions an Audio, Juli-August 1957, S. 90 bis 95; VDI-Zeitschrift, 1954, Nr. 10, S. 294,295.
DEST13977A 1958-07-10 1958-07-10 Verfahren und Anordnung zur automatischen Erkennung von Sprache Pending DE1122274B (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DEST13977A DE1122274B (de) 1958-07-10 1958-07-10 Verfahren und Anordnung zur automatischen Erkennung von Sprache
GB2292659A GB916781A (en) 1958-07-10 1959-07-03 Method and arrangement for the identification of speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DEST13977A DE1122274B (de) 1958-07-10 1958-07-10 Verfahren und Anordnung zur automatischen Erkennung von Sprache

Publications (1)

Publication Number Publication Date
DE1122274B true DE1122274B (de) 1962-01-18

Family

ID=7456212

Family Applications (1)

Application Number Title Priority Date Filing Date
DEST13977A Pending DE1122274B (de) 1958-07-10 1958-07-10 Verfahren und Anordnung zur automatischen Erkennung von Sprache

Country Status (2)

Country Link
DE (1) DE1122274B (de)
GB (1) GB916781A (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
JPS5861040A (ja) * 1981-10-06 1983-04-11 Nissan Motor Co Ltd 車載機器の音声指令制御装置
JPS5870289A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車載負荷の音声制御装置
DE3274776D1 (en) * 1982-08-06 1987-01-29 Nissan Motor Speech recognition system for an automotive vehicle
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH241449A (de) * 1941-06-20 1946-03-15 Philips Nv Vorrichtung zur künstlichen Erzeugung von Sprachlauten auf elektrischen Wege.
DE937019C (de) * 1948-01-08 1955-12-29 Jean Dipl-Ing Dreyfus-Graf Elektroakustische Vorrichtung zum Umformen von aufeinander-folgenden Lauten in eine Folge von mechanischen Bewegungen, die der Aufzeichnung von Lauten dienen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH241449A (de) * 1941-06-20 1946-03-15 Philips Nv Vorrichtung zur künstlichen Erzeugung von Sprachlauten auf elektrischen Wege.
DE937019C (de) * 1948-01-08 1955-12-29 Jean Dipl-Ing Dreyfus-Graf Elektroakustische Vorrichtung zum Umformen von aufeinander-folgenden Lauten in eine Folge von mechanischen Bewegungen, die der Aufzeichnung von Lauten dienen

Also Published As

Publication number Publication date
GB916781A (en) 1963-01-30

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE1472038A1 (de) Verfahren zur Spracherkennung
DE2912577C3 (de) Verfahren zur Reinigung von Garnen und zur Bewertung von Garnfehlern
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3102385C2 (de)
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse
DE1122274B (de) Verfahren und Anordnung zur automatischen Erkennung von Sprache
DE1422040A1 (de) Verfahren zum automatischen Erkennen gesprochener Worte
DE2558172B2 (de) Digital Melleinrichtung für Einzel- und Mehrfachstöße zur Spitzenwert-Messung
DE2431458C2 (de) Verfahren und Anordnung zur automatischen Sprechererkennung
DE1524701A1 (de) Verfahren zur UEberwachung von Maschinen durch Messung von Luft- oder Koerperschall unter Verwendung eines Zwischenspeichers
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE1598849A1 (de) Verfahren und Vorrichtung zur Pruefung und Messung der Beschaffenheit und Eigenschaften eines Materials durch Anwendung des Kernmagnet-Resonanzphaenomens
DE1202517B (de) Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern
DE1156996B (de) Anordnung zur Anzeige der Formanten der Sprachlaute
DE10315372A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Messsignals und Vorrichtung zur Erfassung einer elektromagnetischen Störung
DE2334459C3 (de) Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung
DE1160660B (de) Verfahren zur Umwandlung gesprochener Worte in eine optische Darstellung
DE1197638B (de) Verfahren zum selbsttaetigen Umsetzen von Lautschwingungen in Lauterkennungs-Signale
DE3008876A1 (de) Verfahren und schaltungsanordnung zum bestimmen der mechanischen geschwindigkeit
EP0678839B1 (de) Elektrische Schaltungsanordnung zur Kodierung und Übertragung von Messdaten
DE1472011C3 (de)