DE2150336B2

DE2150336B2 - Analysator fuer ein spracherkennungsgeraet

Info

Publication number: DE2150336B2
Application number: DE2150336A
Authority: DE
Inventors: Joerg Dipl.-Ing. 3170 Gifhorn Gonschorek; Ove Dipl.-Ing. 1000 Berlin Hinrichs
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1971-10-08
Filing date: 1971-10-08
Publication date: 1979-02-08
Also published as: DE2150336A1

Description

i = 1

V, (O + V₀

25

bildet, wobei k eine erste und v_o eine zweite Konstante ist

3. Analysator nach Anspruch 2, dadurch gekennzeichnet, daß die erste Konstante zu Ar - 0,1 gewählt ist

4. Analysator nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die zweite Konstante v_o derart gewählt ist, daß bei fehlendem Sprachsignal (a) alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null haben.

Die Erfindung betrifft einen Analysator zur Bestimmung der in diskrete Wertebereiche quantisierten Komponenten eines ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein Spracherkennungsgerät mit einer Filterbank, an deren Ausgängen jeweils eine Kettenschaltung aus einem Verstärker, einem Gleichrichter, einem Tiefpaß und einer oberhalb einer Schwellenschaltung ansprechenden Vergleichsschaltung angeschlossen ist

Jedes Spracherkennungsgerät kann in einem allgemeinen Blockschaltbild in einen Analysator A und einen Klassifikator Kunterteilt werden, wie Fig. 1 zeigt Der Analysator A untersucht das Sprachsignal a hinsichtlich der durch den Konstrukteur des Spracherkennungsgerätes festgelegten Merkmale und bestimmt so die Komponenten eines Merkmal-Vektors b, der das Sprachsignal a charakterisiert Der Klassifikator K ordnet den Merkmal-Vektor b nach einer Entscheidungsregel einer Bedeutungsklasse czu.

F i g. 2 zeigt ein Blockschaltbild des Analysator* 1 mit zehn Kanälen. Er enthält eine Höhenanhebung H, einen Leistungsverstärker LV, eine Filterbank F mit zehn Bandpässen Fl bis FlO, eine Schaltung S mit zehn Verstärkern mit Gleichrichtern und Tiefpässen 51 bis S10, eine Schaltung VG mit zehn Vergleichsschaltungen VGl bis VClO, einen Speicher Sp und einen Taktgenerator TG.

Die Bandbreite der Filter beträgt für alle zehn Kanäle konstant 180 mel. Die Filterbank F liefert näherungsweise das Kurzzeit-Leistungsdichtespektrum des Sprachsignals a. Die Integrationszeit wird durch die Tiefpässe bestimmt und ist für die einzelnen Kanäle unterschiedlich eingestellt Sie beträgt maximal 16 ms bei tiefen Frequenzen (200 bis 390Hz) und dann abnehmend bis auf 0,7 ms bei hohen Frequenzen (4,6 bis 6,6 kHz).

Jeder Tiefpaß liefert ein kontinuierliches Ausgangssignal v(t)mLl v(t)>0, l</<10. Dieses Signal wird in der jeweils folgenden Vergleichsschaltung VGi bis VGlO mit einem für alle zehn Kanäle gleich eingestellten Schwellenwert verglichen. Sobald die Tiefpaß-Ausgangsspannung v(t) den Schwellenwert überschreitet, wird in die dem Kanal zugehörige erste Speicherzelle der Wert »1« eingeschrieben. Vor Beginn der Analyse werden alle Speicherzellen auf den Wert »0« gesetzt Mit diesem Verfahren werden ausgeprägte Maxima im Kurzzeit-Leistungsdichtespektrum festgestellt und notiert Allerdings wird nur das erstmalige Oberschreiten des Schwellenwertes durch eine Tiefpaß-Ausgangsspannung V(t) registriert Wird der Schwellenwert von einer Tiefpaß-Ausgangsspannung v(t) wiederholt überschritten, so führt dies nicht zu einer Veränderung des Inhaltes der zugehörigen Speicherzelle.

Durch den Taktgenerator TG wird das Sprachsignal a in Zeitbereiche unterteilt in denen jeweils die beschriebene Analyse durchgeführt wird. Am Ende eines Zeitbereiches werden die bisher gewonnenen Analyse-Informationen im Speicher Sp um eine Spalte nach rechts verschoben und die Speicherzellen 1 bis 10 der ersten Spalte wieder auf den Wert »0« gesetzt, so daß diese Speicherzellen bereit sind, die Analyse-Information des folgenden Zeitbereiches aufzunehmen.

In der Zeitschrift »AEÜ«, 19 (1965), Seiten 502 bis 510, ist ein Spracherkennungsgerät beschrieben, in dem jedes Sprachsignal a in jeweils drei Zeitbereichen analysiert wird, so daß zur Beschreibung eines Sprachs'gnals a ein Merkmal-Vektor b mit dreißig binären Komponenten zur Verfügung steht

Das Vokabular dieses Spracherkennungsgerätes besteht aus den zehn Zahlwörtern »Null« bis »Neun« und den vier Befehlen »Plus«, »Minus«, »Start« und »Löschen«. Mit ihm kann eine hohe Erkennungsrate erzielt werden, wenn die Äußerungen eines einzelnen Sprechers oder einer sehr kleinen Gruppe von Sprechern erkannt werden sollen. Die Erkennungsrate verschlechtert sich sehr stark, wenn die Äußerungen vieler verschiedener Sprecher zu erkennen sind. Diese Verschlechterung ist im wesentlichen darauf zurückzuführen, daß aufgrund der Konzeption des Analysators die gemessenen Merkmal-Vektoren b in starkem Maß von der Sprechgeschwindigkeit und der Lautstärke des jeweiligen Sprechers abhängig sind. Bei sehr leisem Sprechen überschreitet keine oder überschreiten nur wenige Tief paß-Ausgangsspannungen v(t) den Schwellenwert, während dagegen bei lauten Sprechern viele der Tiefpaß-Ausgangsspannungen den Schwellenwert überschreiten.

Aus der Zeitschrift »Int J. Man-Machine Studies«, 2 (1970), Seiten 41 bis 59, ist es bekannt, die Abhängigkeit des Merkmal-Vektors b von der Lautstärke durch eine automatische Verstärkungsregelung des Sprachsignals a zu eliminieren. Diese Methode hat jedoch verschiedene Nachteile, wie experimentelle Untersuchungen ergaben.

Aufgabe der Erfindung ist es, die Merkmal-Vektoren b von der Lautstärke unabhängig zu machen.

Ausgehend von einem Analysator der einleitend geschilderten Art, wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß eine Schwellenschaltung vorhanden ist, die die Schwelle der Vergleichsschaltung VG1 bis VG10 in Abhängigkeit von den Tiefpaß-Ausgangsspannungen v/fjsteuert

Durch die DE-OS 17 97 314 ist zwar bereits ein Analysator für ein Spracherkennungsgerät vorhanden, das u.a. von gesteuerten Triggerschwellen Gebrauch macht Hierbei handelt es sich jedoch um einen völlig anderen Typ von Spracheckennungsgerät, bei dem außerdem die Triggerschwellen der Unterdrückung sekundärer Resonanzen dienen, also eine andere Funktion haben.

Für die praktische Ausführung des Erfindungsgegenstandes ist es vorteilhaft, wenn eine Schwellenschaltung vorgesehen ist, die die Schwelle aus den Spektralamplituden der Tiefpaß-Ausgangsspannungen v(t) nach der Vorschrift

1 = I max

i'*(0 = k Σ MO + v_o

mit einer Schwellenschaltung Sch und mit Vergleichsschaltungen VG1 bis VG10.

Die Wirkungsweise der Anordnung nach Fig.3 ist folgende. Das in der Höhe angehobene und verstärkte Sprachsignal a'wird den Eingängen der zehn Bandpässe Fl bis F20 zugeführt Am Ausgang jedes Bandpasses Fl bis FlO erscheint der Teil des Sprachsignals a', der den Durchlaßbereich des Bandpasses passieren konnte. Das Ausgangssignal jedes Bandpasses wird verstärkt, gleichgerichtet und über einen Tiefpaß abgegeben. Die Tiefpaß-Ausgangsspannungen v\(t) bis v\a(t) sind ein Maß für die momentane Leistung in den einzelnen Filterbereichen, während ihre Summe ein Maß für den Sprachsignalpegel ist

Die Tiefpaß-Ausgangsspannungen v\(t) bis v\o(t) werden in den Vergleichsschaltungen VG1 bis VG10 mit der Schwellenspannung v/tj verglichen. Diese hängt von der Größe der Spektralamplituden der Tiefpaß-Ausgangsspannungen Vi(t)b\s v\o(t)ab. Eine selbsttätige Anpassung an die Lautstärke erfolgt im Analysator dann, wenn die Gleichung

bildet, wobei k eine erste und v_o eine zweite Konstante ist

Dabei ist es vorteilhaft, wenn die erste Konstante zu k = 0,1 gewählt ist und wenn die zweite Konstante v_o derart gewählt ist daß bei fehlendem Sprachsignal alle Tiefpaß-Ausgangsspannungen v(t) den Wert Null haben.

Anhand eines Ausführungsbeispiels wird die LrFmdung nachstehend näher erläutert

Fig.3 zeigt einen Teil des Analysators A für eine zweistufige Quantisierung mit der Filterbank F mit den Bandpässen Fl bis FlO, mit der Schaltung 5 mit Verstärkern mit Gleichrichter und Tiefpaß 51 bis 510, v,(t) = k Σ

erfüllt ist

Mittels des Wertes der ersten Kontakte k kann das Verhältnis der beiden Quantisierungsstufen eingestellt werden. Der geeignete Wert wurde experimentell ermittelt Für k = 0,1 werden alle Ausgangsamplituden, die kleiner als der Mittelwert sind, zu »0« quantisiert und alle Ausgangsamplituden, die größer als der Mittelwert sind, zu »1« quantisiert Der Wert der zweiten Konstante v_o ist so einzustellen, daß bei fehlendem Sprachsignal a'die Tief paß-Ausgangsspannungen v\(t) bis vioftjden Wert Null haben.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Analysator zum Bestimmen der in diskrete Wertebereiche quantisierten Komponenten eines ein elektrisches Sprachsignal charakterisierenden Merkmal-Vektors (Analyseergebnis) für ein Spracherkennungsgerät mit einer Filterbank, an deren Ausgängen jeweils eine Kettenschaltung aus einem Verstärker, einem Gleichrichter, einem Tiefpaß und einer oberhalb einer Schwellenspannung ansprechenden Vergleichsschaltung angeschlossen ist, dadurch gekennzeichnet, daß eine Schwellenschaltung (Sch)\orhaaden ist, die die Schwelle der Vergleichsschaltung (VG) in Abhängigkeit von den Tiefpaß-Ausgdngsspannungen (v/t)) steuert

Z Analysator nach Anspruch 1, dadurch gekennzeichnet, daß die Schwellenschaltung (Sch) die Schwelle v/t) aus den Spektralamplituden v(t) der Tiefpaß-Ausgangsspannungen nach der Vorschrift