DE2150336B2 - Analysator fuer ein spracherkennungsgeraet - Google Patents
Analysator fuer ein spracherkennungsgeraetInfo
- Publication number
- DE2150336B2 DE2150336B2 DE2150336A DE2150336A DE2150336B2 DE 2150336 B2 DE2150336 B2 DE 2150336B2 DE 2150336 A DE2150336 A DE 2150336A DE 2150336 A DE2150336 A DE 2150336A DE 2150336 B2 DE2150336 B2 DE 2150336B2
- Authority
- DE
- Germany
- Prior art keywords
- low
- threshold
- speech recognition
- circuit
- pass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Description
i = 1
V, (O + V0
25
bildet, wobei k eine erste und vo eine zweite
Konstante ist
3. Analysator nach Anspruch 2, dadurch gekennzeichnet, daß die erste Konstante zu Ar - 0,1 gewählt
ist
4. Analysator nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die zweite Konstante vo derart
gewählt ist, daß bei fehlendem Sprachsignal (a) alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null
haben.
Die Erfindung betrifft einen Analysator zur Bestimmung der in diskrete Wertebereiche quantisierten
Komponenten eines ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein Spracherkennungsgerät mit einer Filterbank,
an deren Ausgängen jeweils eine Kettenschaltung aus einem Verstärker, einem Gleichrichter, einem Tiefpaß
und einer oberhalb einer Schwellenschaltung ansprechenden Vergleichsschaltung angeschlossen ist
Jedes Spracherkennungsgerät kann in einem allgemeinen Blockschaltbild in einen Analysator A und einen
Klassifikator Kunterteilt werden, wie Fig. 1 zeigt Der
Analysator A untersucht das Sprachsignal a hinsichtlich der durch den Konstrukteur des Spracherkennungsgerätes festgelegten Merkmale und bestimmt so die
Komponenten eines Merkmal-Vektors b, der das Sprachsignal a charakterisiert Der Klassifikator K
ordnet den Merkmal-Vektor b nach einer Entscheidungsregel einer Bedeutungsklasse czu.
F i g. 2 zeigt ein Blockschaltbild des Analysator* 1 mit
zehn Kanälen. Er enthält eine Höhenanhebung H, einen Leistungsverstärker LV, eine Filterbank F mit zehn
Bandpässen Fl bis FlO, eine Schaltung S mit zehn Verstärkern mit Gleichrichtern und Tiefpässen 51 bis
S10, eine Schaltung VG mit zehn Vergleichsschaltungen VGl bis VClO, einen Speicher Sp und einen
Taktgenerator TG.
Die Bandbreite der Filter beträgt für alle zehn Kanäle konstant 180 mel. Die Filterbank F liefert näherungsweise das Kurzzeit-Leistungsdichtespektrum des
Sprachsignals a. Die Integrationszeit wird durch die
Tiefpässe bestimmt und ist für die einzelnen Kanäle unterschiedlich eingestellt Sie beträgt maximal 16 ms
bei tiefen Frequenzen (200 bis 390Hz) und dann abnehmend bis auf 0,7 ms bei hohen Frequenzen (4,6 bis
6,6 kHz).
Jeder Tiefpaß liefert ein kontinuierliches Ausgangssignal v(t)mLl v(t)>0, l</<10. Dieses Signal wird in
der jeweils folgenden Vergleichsschaltung VGi bis VGlO mit einem für alle zehn Kanäle gleich
eingestellten Schwellenwert verglichen. Sobald die Tiefpaß-Ausgangsspannung v(t) den Schwellenwert
überschreitet, wird in die dem Kanal zugehörige erste Speicherzelle der Wert »1« eingeschrieben. Vor Beginn
der Analyse werden alle Speicherzellen auf den Wert »0« gesetzt Mit diesem Verfahren werden ausgeprägte
Maxima im Kurzzeit-Leistungsdichtespektrum festgestellt und notiert Allerdings wird nur das erstmalige
Oberschreiten des Schwellenwertes durch eine Tiefpaß-Ausgangsspannung V(t) registriert Wird der Schwellenwert von einer Tiefpaß-Ausgangsspannung v(t)
wiederholt überschritten, so führt dies nicht zu einer Veränderung des Inhaltes der zugehörigen Speicherzelle.
Durch den Taktgenerator TG wird das Sprachsignal a
in Zeitbereiche unterteilt in denen jeweils die beschriebene Analyse durchgeführt wird. Am Ende
eines Zeitbereiches werden die bisher gewonnenen Analyse-Informationen im Speicher Sp um eine Spalte
nach rechts verschoben und die Speicherzellen 1 bis 10 der ersten Spalte wieder auf den Wert »0« gesetzt, so
daß diese Speicherzellen bereit sind, die Analyse-Information des folgenden Zeitbereiches aufzunehmen.
In der Zeitschrift »AEÜ«, 19 (1965), Seiten 502 bis 510,
ist ein Spracherkennungsgerät beschrieben, in dem jedes Sprachsignal a in jeweils drei Zeitbereichen
analysiert wird, so daß zur Beschreibung eines Sprachs'gnals a ein Merkmal-Vektor b mit dreißig
binären Komponenten zur Verfügung steht
Das Vokabular dieses Spracherkennungsgerätes besteht aus den zehn Zahlwörtern »Null« bis »Neun«
und den vier Befehlen »Plus«, »Minus«, »Start« und »Löschen«. Mit ihm kann eine hohe Erkennungsrate
erzielt werden, wenn die Äußerungen eines einzelnen Sprechers oder einer sehr kleinen Gruppe von
Sprechern erkannt werden sollen. Die Erkennungsrate verschlechtert sich sehr stark, wenn die Äußerungen
vieler verschiedener Sprecher zu erkennen sind. Diese Verschlechterung ist im wesentlichen darauf zurückzuführen, daß aufgrund der Konzeption des Analysators
die gemessenen Merkmal-Vektoren b in starkem Maß von der Sprechgeschwindigkeit und der Lautstärke des
jeweiligen Sprechers abhängig sind. Bei sehr leisem Sprechen überschreitet keine oder überschreiten nur
wenige Tief paß-Ausgangsspannungen v(t) den Schwellenwert, während dagegen bei lauten Sprechern viele
der Tiefpaß-Ausgangsspannungen den Schwellenwert überschreiten.
Aus der Zeitschrift »Int J. Man-Machine Studies«, 2 (1970), Seiten 41 bis 59, ist es bekannt, die Abhängigkeit
des Merkmal-Vektors b von der Lautstärke durch eine automatische Verstärkungsregelung des Sprachsignals
a zu eliminieren. Diese Methode hat jedoch verschiedene Nachteile, wie experimentelle Untersuchungen
ergaben.
Aufgabe der Erfindung ist es, die Merkmal-Vektoren
b von der Lautstärke unabhängig zu machen.
Ausgehend von einem Analysator der einleitend geschilderten Art, wird diese Aufgabe gemäß der
Erfindung dadurch gelöst, daß eine Schwellenschaltung vorhanden ist, die die Schwelle der Vergleichsschaltung
VG1 bis VG10 in Abhängigkeit von den Tiefpaß-Ausgangsspannungen
v/fjsteuert
Durch die DE-OS 17 97 314 ist zwar bereits ein Analysator für ein Spracherkennungsgerät vorhanden,
das u.a. von gesteuerten Triggerschwellen Gebrauch macht Hierbei handelt es sich jedoch um einen völlig
anderen Typ von Spracheckennungsgerät, bei dem
außerdem die Triggerschwellen der Unterdrückung sekundärer Resonanzen dienen, also eine andere
Funktion haben.
Für die praktische Ausführung des Erfindungsgegenstandes ist es vorteilhaft, wenn eine Schwellenschaltung
vorgesehen ist, die die Schwelle aus den Spektralamplituden der Tiefpaß-Ausgangsspannungen v(t) nach der
Vorschrift
1 = I max
i'*(0 = k Σ MO + vo
mit einer Schwellenschaltung Sch und mit Vergleichsschaltungen VG1 bis VG10.
Die Wirkungsweise der Anordnung nach Fig.3 ist
folgende. Das in der Höhe angehobene und verstärkte Sprachsignal a'wird den Eingängen der zehn Bandpässe
Fl bis F20 zugeführt Am Ausgang jedes Bandpasses Fl bis FlO erscheint der Teil des Sprachsignals a', der
den Durchlaßbereich des Bandpasses passieren konnte.
Das Ausgangssignal jedes Bandpasses wird verstärkt, gleichgerichtet und über einen Tiefpaß abgegeben. Die
Tiefpaß-Ausgangsspannungen v\(t) bis v\a(t) sind ein
Maß für die momentane Leistung in den einzelnen Filterbereichen, während ihre Summe ein Maß für den
Sprachsignalpegel ist
Die Tiefpaß-Ausgangsspannungen v\(t) bis v\o(t)
werden in den Vergleichsschaltungen VG1 bis VG10
mit der Schwellenspannung v/tj verglichen. Diese hängt
von der Größe der Spektralamplituden der Tiefpaß-Ausgangsspannungen
Vi(t)b\s v\o(t)ab. Eine selbsttätige
Anpassung an die Lautstärke erfolgt im Analysator dann, wenn die Gleichung
bildet, wobei k eine erste und vo eine zweite Konstante
ist
Dabei ist es vorteilhaft, wenn die erste Konstante zu
k = 0,1 gewählt ist und wenn die zweite Konstante vo
derart gewählt ist daß bei fehlendem Sprachsignal alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null
haben.
Anhand eines Ausführungsbeispiels wird die LrFmdung
nachstehend näher erläutert
Fig.3 zeigt einen Teil des Analysators A für eine
zweistufige Quantisierung mit der Filterbank F mit den Bandpässen Fl bis FlO, mit der Schaltung 5 mit
Verstärkern mit Gleichrichter und Tiefpaß 51 bis 510,
v,(t) = k Σ
erfüllt ist
Mittels des Wertes der ersten Kontakte k kann das Verhältnis der beiden Quantisierungsstufen eingestellt
werden. Der geeignete Wert wurde experimentell ermittelt Für k = 0,1 werden alle Ausgangsamplituden,
die kleiner als der Mittelwert sind, zu »0« quantisiert und alle Ausgangsamplituden, die größer als der Mittelwert
sind, zu »1« quantisiert Der Wert der zweiten Konstante vo ist so einzustellen, daß bei fehlendem
Sprachsignal a'die Tief paß-Ausgangsspannungen v\(t)
bis vioftjden Wert Null haben.
Hierzu 2 Blatt Zeichnungen
Claims (1)
1. Analysator zum Bestimmen der in diskrete Wertebereiche quantisierten Komponenten eines
ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein
Spracherkennungsgerät mit einer Filterbank, an deren Ausgängen jeweils eine Kettenschaltung aus
einem Verstärker, einem Gleichrichter, einem Tiefpaß und einer oberhalb einer Schwellenspannung ansprechenden Vergleichsschaltung angeschlossen ist, dadurch gekennzeichnet,
daß eine Schwellenschaltung (Sch)\orhaaden ist, die
die Schwelle der Vergleichsschaltung (VG) in Abhängigkeit von den Tiefpaß-Ausgdngsspannungen (v/t)) steuert
Z Analysator nach Anspruch 1, dadurch gekennzeichnet, daß die Schwellenschaltung (Sch) die
Schwelle v/t) aus den Spektralamplituden v(t) der
Tiefpaß-Ausgangsspannungen nach der Vorschrift
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2150336A DE2150336B2 (de) | 1971-10-08 | 1971-10-08 | Analysator fuer ein spracherkennungsgeraet |
DE19722233591 DE2233591A1 (de) | 1971-10-08 | 1972-07-07 | Analysator fuer ein spracherkennungsgeraet |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2150336A DE2150336B2 (de) | 1971-10-08 | 1971-10-08 | Analysator fuer ein spracherkennungsgeraet |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2150336A1 DE2150336A1 (de) | 1973-04-12 |
DE2150336B2 true DE2150336B2 (de) | 1979-02-08 |
Family
ID=5821873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2150336A Ceased DE2150336B2 (de) | 1971-10-08 | 1971-10-08 | Analysator fuer ein spracherkennungsgeraet |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2150336B2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2805478A1 (de) * | 1977-02-09 | 1978-08-10 | Thomson Csf | Diskriminatoranordnung fuer sprachsignale |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH645501GA3 (de) * | 1981-07-24 | 1984-10-15 | ||
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
GB8630118D0 (en) * | 1986-12-17 | 1987-01-28 | British Telecomm | Speaker identification |
-
1971
- 1971-10-08 DE DE2150336A patent/DE2150336B2/de not_active Ceased
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2805478A1 (de) * | 1977-02-09 | 1978-08-10 | Thomson Csf | Diskriminatoranordnung fuer sprachsignale |
Also Published As
Publication number | Publication date |
---|---|
DE2150336A1 (de) | 1973-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3802903C2 (de) | ||
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
EP0202404A1 (de) | System zur Erkennung einzeln gesprochener Wörter | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
DE3043516A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE1296175B (de) | Anordnung zur numerischen Verschluesselung von Analogsignalen | |
DE820022C (de) | Elektrische Amplituden-Kompressionseinrichtung | |
DE2150336B2 (de) | Analysator fuer ein spracherkennungsgeraet | |
DE1206167B (de) | Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse | |
EP0035761A2 (de) | Verfahren zum Betrieb eines Spracherkennungsgerätes | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
DE3602000C2 (de) | ||
EP0234034A1 (de) | Einrichtung zur Analog/Digital-Wandlung von elektrischen Analogsignalen | |
DE2316939A1 (de) | Elektrische hoerhilfeschaltung | |
DE1547027B2 (de) | Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen | |
DE3621513C2 (de) | Verfahren zur Übertragung eines Audiosignales | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE3241541C1 (de) | Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8235 | Patent refused |