DE2150336B2 - Analysator fuer ein spracherkennungsgeraet - Google Patents

Analysator fuer ein spracherkennungsgeraet

Info

Publication number
DE2150336B2
DE2150336B2 DE2150336A DE2150336A DE2150336B2 DE 2150336 B2 DE2150336 B2 DE 2150336B2 DE 2150336 A DE2150336 A DE 2150336A DE 2150336 A DE2150336 A DE 2150336A DE 2150336 B2 DE2150336 B2 DE 2150336B2
Authority
DE
Germany
Prior art keywords
low
threshold
speech recognition
circuit
pass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE2150336A
Other languages
English (en)
Other versions
DE2150336A1 (de
Inventor
Joerg Dipl.-Ing. 3170 Gifhorn Gonschorek
Ove Dipl.-Ing. 1000 Berlin Hinrichs
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2150336A priority Critical patent/DE2150336B2/de
Priority to DE19722233591 priority patent/DE2233591A1/de
Publication of DE2150336A1 publication Critical patent/DE2150336A1/de
Publication of DE2150336B2 publication Critical patent/DE2150336B2/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Description

i = 1
V, (O + V0
25
bildet, wobei k eine erste und vo eine zweite Konstante ist
3. Analysator nach Anspruch 2, dadurch gekennzeichnet, daß die erste Konstante zu Ar - 0,1 gewählt ist
4. Analysator nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die zweite Konstante vo derart gewählt ist, daß bei fehlendem Sprachsignal (a) alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null haben.
Die Erfindung betrifft einen Analysator zur Bestimmung der in diskrete Wertebereiche quantisierten Komponenten eines ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein Spracherkennungsgerät mit einer Filterbank, an deren Ausgängen jeweils eine Kettenschaltung aus einem Verstärker, einem Gleichrichter, einem Tiefpaß und einer oberhalb einer Schwellenschaltung ansprechenden Vergleichsschaltung angeschlossen ist
Jedes Spracherkennungsgerät kann in einem allgemeinen Blockschaltbild in einen Analysator A und einen Klassifikator Kunterteilt werden, wie Fig. 1 zeigt Der Analysator A untersucht das Sprachsignal a hinsichtlich der durch den Konstrukteur des Spracherkennungsgerätes festgelegten Merkmale und bestimmt so die Komponenten eines Merkmal-Vektors b, der das Sprachsignal a charakterisiert Der Klassifikator K ordnet den Merkmal-Vektor b nach einer Entscheidungsregel einer Bedeutungsklasse czu.
F i g. 2 zeigt ein Blockschaltbild des Analysator* 1 mit zehn Kanälen. Er enthält eine Höhenanhebung H, einen Leistungsverstärker LV, eine Filterbank F mit zehn Bandpässen Fl bis FlO, eine Schaltung S mit zehn Verstärkern mit Gleichrichtern und Tiefpässen 51 bis S10, eine Schaltung VG mit zehn Vergleichsschaltungen VGl bis VClO, einen Speicher Sp und einen Taktgenerator TG.
Die Bandbreite der Filter beträgt für alle zehn Kanäle konstant 180 mel. Die Filterbank F liefert näherungsweise das Kurzzeit-Leistungsdichtespektrum des Sprachsignals a. Die Integrationszeit wird durch die Tiefpässe bestimmt und ist für die einzelnen Kanäle unterschiedlich eingestellt Sie beträgt maximal 16 ms bei tiefen Frequenzen (200 bis 390Hz) und dann abnehmend bis auf 0,7 ms bei hohen Frequenzen (4,6 bis 6,6 kHz).
Jeder Tiefpaß liefert ein kontinuierliches Ausgangssignal v(t)mLl v(t)>0, l</<10. Dieses Signal wird in der jeweils folgenden Vergleichsschaltung VGi bis VGlO mit einem für alle zehn Kanäle gleich eingestellten Schwellenwert verglichen. Sobald die Tiefpaß-Ausgangsspannung v(t) den Schwellenwert überschreitet, wird in die dem Kanal zugehörige erste Speicherzelle der Wert »1« eingeschrieben. Vor Beginn der Analyse werden alle Speicherzellen auf den Wert »0« gesetzt Mit diesem Verfahren werden ausgeprägte Maxima im Kurzzeit-Leistungsdichtespektrum festgestellt und notiert Allerdings wird nur das erstmalige Oberschreiten des Schwellenwertes durch eine Tiefpaß-Ausgangsspannung V(t) registriert Wird der Schwellenwert von einer Tiefpaß-Ausgangsspannung v(t) wiederholt überschritten, so führt dies nicht zu einer Veränderung des Inhaltes der zugehörigen Speicherzelle.
Durch den Taktgenerator TG wird das Sprachsignal a in Zeitbereiche unterteilt in denen jeweils die beschriebene Analyse durchgeführt wird. Am Ende eines Zeitbereiches werden die bisher gewonnenen Analyse-Informationen im Speicher Sp um eine Spalte nach rechts verschoben und die Speicherzellen 1 bis 10 der ersten Spalte wieder auf den Wert »0« gesetzt, so daß diese Speicherzellen bereit sind, die Analyse-Information des folgenden Zeitbereiches aufzunehmen.
In der Zeitschrift »AEÜ«, 19 (1965), Seiten 502 bis 510, ist ein Spracherkennungsgerät beschrieben, in dem jedes Sprachsignal a in jeweils drei Zeitbereichen analysiert wird, so daß zur Beschreibung eines Sprachs'gnals a ein Merkmal-Vektor b mit dreißig binären Komponenten zur Verfügung steht
Das Vokabular dieses Spracherkennungsgerätes besteht aus den zehn Zahlwörtern »Null« bis »Neun« und den vier Befehlen »Plus«, »Minus«, »Start« und »Löschen«. Mit ihm kann eine hohe Erkennungsrate erzielt werden, wenn die Äußerungen eines einzelnen Sprechers oder einer sehr kleinen Gruppe von Sprechern erkannt werden sollen. Die Erkennungsrate verschlechtert sich sehr stark, wenn die Äußerungen vieler verschiedener Sprecher zu erkennen sind. Diese Verschlechterung ist im wesentlichen darauf zurückzuführen, daß aufgrund der Konzeption des Analysators die gemessenen Merkmal-Vektoren b in starkem Maß von der Sprechgeschwindigkeit und der Lautstärke des jeweiligen Sprechers abhängig sind. Bei sehr leisem Sprechen überschreitet keine oder überschreiten nur wenige Tief paß-Ausgangsspannungen v(t) den Schwellenwert, während dagegen bei lauten Sprechern viele der Tiefpaß-Ausgangsspannungen den Schwellenwert überschreiten.
Aus der Zeitschrift »Int J. Man-Machine Studies«, 2 (1970), Seiten 41 bis 59, ist es bekannt, die Abhängigkeit des Merkmal-Vektors b von der Lautstärke durch eine automatische Verstärkungsregelung des Sprachsignals a zu eliminieren. Diese Methode hat jedoch verschiedene Nachteile, wie experimentelle Untersuchungen ergaben.
Aufgabe der Erfindung ist es, die Merkmal-Vektoren b von der Lautstärke unabhängig zu machen.
Ausgehend von einem Analysator der einleitend geschilderten Art, wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß eine Schwellenschaltung vorhanden ist, die die Schwelle der Vergleichsschaltung VG1 bis VG10 in Abhängigkeit von den Tiefpaß-Ausgangsspannungen v/fjsteuert
Durch die DE-OS 17 97 314 ist zwar bereits ein Analysator für ein Spracherkennungsgerät vorhanden, das u.a. von gesteuerten Triggerschwellen Gebrauch macht Hierbei handelt es sich jedoch um einen völlig anderen Typ von Spracheckennungsgerät, bei dem außerdem die Triggerschwellen der Unterdrückung sekundärer Resonanzen dienen, also eine andere Funktion haben.
Für die praktische Ausführung des Erfindungsgegenstandes ist es vorteilhaft, wenn eine Schwellenschaltung vorgesehen ist, die die Schwelle aus den Spektralamplituden der Tiefpaß-Ausgangsspannungen v(t) nach der Vorschrift
1 = I max
i'*(0 = k Σ MO + vo
mit einer Schwellenschaltung Sch und mit Vergleichsschaltungen VG1 bis VG10.
Die Wirkungsweise der Anordnung nach Fig.3 ist folgende. Das in der Höhe angehobene und verstärkte Sprachsignal a'wird den Eingängen der zehn Bandpässe Fl bis F20 zugeführt Am Ausgang jedes Bandpasses Fl bis FlO erscheint der Teil des Sprachsignals a', der den Durchlaßbereich des Bandpasses passieren konnte. Das Ausgangssignal jedes Bandpasses wird verstärkt, gleichgerichtet und über einen Tiefpaß abgegeben. Die Tiefpaß-Ausgangsspannungen v\(t) bis v\a(t) sind ein Maß für die momentane Leistung in den einzelnen Filterbereichen, während ihre Summe ein Maß für den Sprachsignalpegel ist
Die Tiefpaß-Ausgangsspannungen v\(t) bis v\o(t) werden in den Vergleichsschaltungen VG1 bis VG10 mit der Schwellenspannung v/tj verglichen. Diese hängt von der Größe der Spektralamplituden der Tiefpaß-Ausgangsspannungen Vi(t)b\s v\o(t)ab. Eine selbsttätige Anpassung an die Lautstärke erfolgt im Analysator dann, wenn die Gleichung
bildet, wobei k eine erste und vo eine zweite Konstante ist
Dabei ist es vorteilhaft, wenn die erste Konstante zu k = 0,1 gewählt ist und wenn die zweite Konstante vo derart gewählt ist daß bei fehlendem Sprachsignal alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null haben.
Anhand eines Ausführungsbeispiels wird die LrFmdung nachstehend näher erläutert
Fig.3 zeigt einen Teil des Analysators A für eine zweistufige Quantisierung mit der Filterbank F mit den Bandpässen Fl bis FlO, mit der Schaltung 5 mit Verstärkern mit Gleichrichter und Tiefpaß 51 bis 510, v,(t) = k Σ
erfüllt ist
Mittels des Wertes der ersten Kontakte k kann das Verhältnis der beiden Quantisierungsstufen eingestellt werden. Der geeignete Wert wurde experimentell ermittelt Für k = 0,1 werden alle Ausgangsamplituden, die kleiner als der Mittelwert sind, zu »0« quantisiert und alle Ausgangsamplituden, die größer als der Mittelwert sind, zu »1« quantisiert Der Wert der zweiten Konstante vo ist so einzustellen, daß bei fehlendem Sprachsignal a'die Tief paß-Ausgangsspannungen v\(t) bis vioftjden Wert Null haben.
Hierzu 2 Blatt Zeichnungen

Claims (1)

Patentansprüche:
1. Analysator zum Bestimmen der in diskrete Wertebereiche quantisierten Komponenten eines ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein Spracherkennungsgerät mit einer Filterbank, an deren Ausgängen jeweils eine Kettenschaltung aus einem Verstärker, einem Gleichrichter, einem Tiefpaß und einer oberhalb einer Schwellenspannung ansprechenden Vergleichsschaltung angeschlossen ist, dadurch gekennzeichnet, daß eine Schwellenschaltung (Sch)\orhaaden ist, die die Schwelle der Vergleichsschaltung (VG) in Abhängigkeit von den Tiefpaß-Ausgdngsspannungen (v/t)) steuert
Z Analysator nach Anspruch 1, dadurch gekennzeichnet, daß die Schwellenschaltung (Sch) die Schwelle v/t) aus den Spektralamplituden v(t) der Tiefpaß-Ausgangsspannungen nach der Vorschrift
DE2150336A 1971-10-08 1971-10-08 Analysator fuer ein spracherkennungsgeraet Ceased DE2150336B2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE2150336A DE2150336B2 (de) 1971-10-08 1971-10-08 Analysator fuer ein spracherkennungsgeraet
DE19722233591 DE2233591A1 (de) 1971-10-08 1972-07-07 Analysator fuer ein spracherkennungsgeraet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2150336A DE2150336B2 (de) 1971-10-08 1971-10-08 Analysator fuer ein spracherkennungsgeraet

Publications (2)

Publication Number Publication Date
DE2150336A1 DE2150336A1 (de) 1973-04-12
DE2150336B2 true DE2150336B2 (de) 1979-02-08

Family

ID=5821873

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2150336A Ceased DE2150336B2 (de) 1971-10-08 1971-10-08 Analysator fuer ein spracherkennungsgeraet

Country Status (1)

Country Link
DE (1) DE2150336B2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2805478A1 (de) * 1977-02-09 1978-08-10 Thomson Csf Diskriminatoranordnung fuer sprachsignale

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH645501GA3 (de) * 1981-07-24 1984-10-15
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
GB8630118D0 (en) * 1986-12-17 1987-01-28 British Telecomm Speaker identification

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2805478A1 (de) * 1977-02-09 1978-08-10 Thomson Csf Diskriminatoranordnung fuer sprachsignale

Also Published As

Publication number Publication date
DE2150336A1 (de) 1973-04-12

Similar Documents

Publication Publication Date Title
DE3802903C2 (de)
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE4031638A1 (de) Spracherkennungseinrichtung
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE2357067A1 (de) Vorrichtung zur sprachanalyse
EP0202404A1 (de) System zur Erkennung einzeln gesprochener Wörter
EP1101390B1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
DE3043516A1 (de) Verfahren und vorrichtung zur spracherkennung
DE1296175B (de) Anordnung zur numerischen Verschluesselung von Analogsignalen
DE820022C (de) Elektrische Amplituden-Kompressionseinrichtung
DE2150336B2 (de) Analysator fuer ein spracherkennungsgeraet
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
EP0035761A2 (de) Verfahren zum Betrieb eines Spracherkennungsgerätes
DE2109436A1 (de) Amphtudenregler für elektrische Signale
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE3602000C2 (de)
EP0234034A1 (de) Einrichtung zur Analog/Digital-Wandlung von elektrischen Analogsignalen
DE2316939A1 (de) Elektrische hoerhilfeschaltung
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen
DE3621513C2 (de) Verfahren zur Übertragung eines Audiosignales
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE3241541C1 (de) Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
8235 Patent refused