DE1547027B2

DE1547027B2 - Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen

Info

Publication number: DE1547027B2
Application number: DE1966J0029848
Authority: DE
Inventors: Genung Leland Vestal N.Y. Clapper (V.St.A.)
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1965-01-22
Filing date: 1966-01-15
Publication date: 1977-08-25
Also published as: GB1070247A; BE674341A; DE1547027C3; DE1547027A1; SE342104B; US3368039A; CH441791A; FR1466645A

Description

45

Die Erfindung betrifft ein Verfahren und eine Anordnung zur Konsonantenbestimmung in Sprechsignalen nach dem Oberbegriff des Anspruchs 1.

Bisher bekannte Spracherkennungsverfahren beschränken sich auf das Erkennen einer geringen Anzahl von Worten, meist Zahlworten. Beim Versuch, den Wortschatz des Erkennungsverfahrens zu vergrößern, wurden sehr hohe Aufwendungen an Schaltungen und Speicherplatz erforderlich. Trotz des Aufwandes waren die Verfahren auf Stimmen sehr verwandter Charakteristik beschränkt, wenn die Fehlerhäufigkeit nicht stark zunehmen sollte. Deshalb wurde auch der Versuch gemacht, die Erkennungseinrichtungen an den einzelnen Sprecher anpaßbar zu machen.

Aus der Erkenntnis, daß in den Sprachlauten die Energie an bestimmten, verhältnismäßig wenig variablen Stellen konzentriert ist, welche Stellen als Formanten bezeichnet werden, wurden schon frühzeitig die Zerlegung des zu analysierenden Frequenzspektrums in Frequenzbänder vorgenommen. Es ist auch bekannt, das Auftreten von Formanten innerhalb der Frequenzbänder festzustellen (DBP 11 56 996).

Die Prüfung des Auftretens von stimmhaften Lauten und von Reibelauten ist auch in den US-Patentschriften 29 03 515 und 29 08 761 sowie in der Zeitschrift »The Journal of the Acoustical Society of America«, März 1956, Seiten 303 bis 310, 313 beschrieben. Für die Konsonantenbestimmung ergeben sich hieraus aber noch keine zuverlässigen Anwendungen.

Es ist daher die Aufgabe der Erfindung, ein verbessertes Verfahren zur Spracherkennung anzugeben, das bei der Bestimmung von Konsonanten zuverlässigere und signifikantere Merkmale in ihrer Erkennung liefert, als das bei den bekannten Verfahren der Fall war.

Außerdem sollen die sprachsignifikanten Merkmale in größerer Zahl und kompakterer Form abgeleitet werden, um eine zuverlässigere Auswertung und eine Speicherplatzverringerung zu erzielen.

Gelöst wird diese Aufgabe der Erfindung durch die in dem Patentanspruch angegebenen Merkmale.

Auf diese Weise wird der Vorteil erzielt, daß aufgrund des höheren sprachsignifikanten Merkmalangebotes eine zuverlässigere Spracherkennung bezüglich der Konsonanten erzielt wird.

Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles beschrieben.

Es zeigt

F i g. 1 ein Blockschaltbild mit den hauptsächlichen Bestandteilen der erfindungsgemäßen Anordnung,

Fig.2a bis 2d, angeordnet nach Fig.2, zeigen zusammen Einzelheiten der Anordnung.

Wie schon eingangs erwähnt, werden bei der vorliegenden Erfindung Formanten nicht in eine Matrix gespeist, deren Koordinaten durch Frequenz und Zeit gegeben sind. Dabei sind nämlich die Speicheranforderungen hoch, außerdem macht die Feststellung von Konsonanten Schwierigkeiten und ist u. U. ungenau.

Bei der vorliegenden Erfindung werden neue Maßnahmen für die Bestimmung von Konsonanten vorgeschlagen. Es werden hierzu Einrichtungen zur Bestimmung von Reibelauten und stimmhaften Lauten mit Formantbestimmungs-Einrichtungen kombiniert, um Konsonanten festzustellen; es ergeben sich dabei verschlüsselte Lautmerkmale, die für die Erkennung aussagekräftiger sind. Es zeigte sich, daß diese Anordnung weniger sprecherabhängig ist als die früher benutzten Anordnungen.

Allgemeine Beschreibung

In dem Übersichtsschaltbild der F i g. 1 gelangen Sprachlaute oder Laute innerhalb des Sprachspektrums zum Mikrophon 1, das sie in elektrische Signale verwandelt, welche vom Vorverstärker 2 verstärkt werden. Die Eingangsempfindlichkeit des Vorverstärkers kann bei 3 eingestellt werden. Der Vorverstärker 2 steht mit der automatischen Verstärkungsregelung 35 in Verbindung, weiche das Ausgangssignal des Vorverstärkers auf einem konstanten Pegel hält. Dieses Ausgangssignal hat die Form einer komprimierten Umhüllenden des Sprachsignals; es gelangt über die Leitung 30 zum Frequenzanalysator FS, der mehrere Bandfilter enthält. Jedes der Bandfilter liegt zwischen 260 und 3750 Hz. Bei Auftragung gemäß einer logarithmischen Skala ist das Sprachspektrum zu der Frequenz von 1000 Hz symmetrisch aufgeteilt. Weiter ist im Frequenzanalysator ein als Reibelaut-Selektor wirkender Hochpaß großer Bandbreite enthalten, der den Bereich von 4000 bis

10 000 Hz überdeckt Außerdem ist ein Bandpaß für den Bereich von 100 bis 250 Hz enthalten. Der Frequenzbereich von 250 bis 3750 Hz ist in 14 durch die Bandfilter bestimmten Bänder unterteilt. Mittels dieser Bandfilter können lokale Maxima (Formanten) des angeschlossenen Formant-Bestimmungssystems FL erkannt werden; letzteres enthält Gleichrichter, Vergleicher, Und-Schaltungen und Impulsformer.

Bei den Einrichtungen zur Feststellung von Konsonanten im Sprachspektrum werden die Reibelaute und stimmhafte Laute darstellenden Energieanteile in die zugeordneten Frequenzanalysatoren 60 und 59 eingegeben, deren Ausgänge über erste und zweite Integrierschaltungen 70 und 70a geleitet werden. Der Reibelaut-Ausgang FO und der stimmhafte Ausgang VO gelangen «5 in die Schaltung für Reibelaute und stimmhafte Laute FVD, in der mittels Invertem 390 und Koinzidenzschaltungen Signale für die folgenden Zustände erzeugt werden:

1. F · V Reibelaut ohne stimmhaften Laut,

2. F · V_ stimmhafter Laut ohne Reibelaut,

3. F · V gleichzeitig Reibelaut und stimmhafter Laut,

4. F · V weder Reibelaut noch stimmhafter Laut.
Diese vier Bedingungen stellen die vier Hauptklassen

von Konsonanten dar, nämlich:

1. Reibelaute und Zischlaute f, s, (englisches) sh, k, t, (englisches) ch;

2. Stimmhafte Laute oder Halbvokale w, b, g, m, I, y;

3. Stimmhafte Reibelaute v, d, (englisch) z, zh,j, dj;

4. Stimmlose Hauchlaute h, weiches k, p. Konsonanten sind weiter gekennzeichnet durch das Vorliegen oder Fehlen von Energiestößen, welche durch Überwachung der Steigung des Verstärkungsregelungs-Signals gefunden werden; letzteres wird über Leitung 37 dem Steigungsdetektor (SD) 145 in Fig. 1 zugeführt, dessen Ausgangssignal über die Und-Schaltung 12Or und die Leitung 148 der Konsonanten-Matrix CMS zugeführt und dort gespeichert wird. Letztere vereinigt die Formantenergie aus dem Formantbestimmungssystem FL mit den vier Bedingungen der Formantklassen und liefert im ganzen 15 Vektoren, welche die verschiedenen Konsonantenlaute des Sprachspektrums darstellen. Die Formanten gelangen über die Leitungen MIa bis M 13a in den Formantgeber FD, aus dem fünf Leitungen FDa bis FDe der Formantenergie entsprechende Signale zur Konsonantenmatrix bringen. Die Energiespitze auf Leitung 148 wird in einer entsprechenden Verriegelungsschaltung ebenfalls gespeichert und liefert ein zusätzliches Merkmal für die Konsonanterkennung. Die beschriebene Einrichtung liefert also 56 Vektorgrößen, die alle Spracheigenheiten der zu erkennenden Sprachlaute wiedergeben.

Vor dem Eintritt in die Gesamtbeschreibung der Einrichtung erscheint es vorteilhaft, Einzelheiten der wesentlichen Bausteine anzugeben, die durchweg benutzt werden.

Der normale Arbeitsbereich der automatischen Verstärkungsregelung liegt zwischen ±0,4 V, ein Bereich, der durch das Potentiometer 3 des Vorverstärkers 2 eingestellt wird. Die Verstärkungsregelung ist wirksam bis + oder -0,5 V, und der Schwellwert liegt bei + oder-03 V.

Bandfilter

Jedes der 14 Filter 80 (F i g. 2a) hat eine sehr scharfe Bandfilter-Eigenschaft für einen der nachfolgend aufgeführten Frequenzbereiche:

Filter

Mittelfrequenz

Bandbreite (Hz)

Fl	3400	3120-3750
F2	2840	2590-3120
F3	2340	2140-2590
F4	1940	1765-2140
F5	1590	1458-1765
F6	1325	1192-1458
F7	1060	970-1192
F8	880	800-970
F9	720	,655- 800
FlO	590	"535- 655
FIl	480	444- 535
F12	408	375- 444
F13	340	"312- 375
F14	284	.. "260-312

Hochpaß -.·.,.,--. ;

Der in Fig.2b dargestellte Hochpaß 60 entnimmt dem Sprachsignal hochfrequente Rauschspannungen.

Integrierschaltung

Der Ausgang des Hochpasses 60 gelangt zur Integrierschaltung 70. Sie enthält eine Eingangs-Schwellwertschaltung, so daß Rauschen nur bei Überschreiten eines Mindestwertes wirksam wird. Das integrierte Ausgangssignal gelangt dann zur Und-Schaltung 120 in F i g. 2b.

Bandpaß

Der Bandpaß 59 in F i g. 2b ist ein Breitbandfilter, das Frequenzen unterhalb 100 Hz abschneiden soll, um die Netzbrummspannung zu eliminieren. Der Bandpaß überdeckt den Sprachbereich von 100 bis 250 Hz und erfaßt damit die stimmhaften Laute für Männer- und Frauenstimmen. Der Bandpaß ist für Sprachvorgänge, z. B. Unterbrechungen, bei denen die Lippen zusammengepreßt werden, sehr empfindlich. Sein Ausgangssignal wird der Integrierschaltung 70a in Fig.2b zugeführt. Die Integrierschaltung 70a besteht im wesentlichen aus einem integrierenden Netzwerk, das ein Gleichstrom-Ausgangssignal mit geringem Rauschanteil abgibt.

Gleichrichter, Vergleicher

Die Formantlokalisierung in FL (Fig. 1) macht wesentlichen Gebrauch von den drei Bausteinen: Gleichrichter 100 (Fig.2a), Vergleicher 110, invertierende Und-Schaltung 120. Der Gleichrichter 100 formt den Ausgang des Bandfilters in einen Gleichstrompegel um, der proportional zum Spitze-Spitze-Wert des Bandfilterausgangs ist. · -" ;■

Die Arbeitsweise ist etwa folgende: Der Ausgang des Gleichrichters R 2 liege an einem Eingang des Vergleichers BD 2 (F i g. 2a), der Ausgang des Gleichrichters A3 an seinem anderen. Wenn die beiden zugeführten Signale gleich sind, entsteht ein Ausgangssignal mit hohem Pegelwert. Dies ist die hohe Lage. Eine Arbeitslage mit niedrigem Pegel entsteht, wenn die beiden Eingangssignale voneinander abweichen.

Der Arbeitszustand des Vergleichers zeigt also die Ungleichheit eines Paares von Gleichrichterausgängen an. Der Vergleicher BD 2 kann also anzeigen, daß das Ausgangssignal des Gleichrichters R2 größer oder kleiner ist als das Ausgangssignal des Gleichrichters R 3.

Die invertierenden Und-Schaltungen 120a bis η dienen zur Bestimmung zweier Ungleichheiten, die ein

lokales Maximum anzeigen. Die Ausgänge benachbarter Paare von Vergleichern, z. B. der Vergleicher BD 2 und BD 3 werden an die invertierende Und-Schaltung 120c angeschlossen, die auf ihrer Ausgangsleitung ein lokales Maximum als Anzeige dafür bildet, daß das Ausgangssignal des Gleichrichters R 3 größer ist als das der Gleichrichter R 2 und R 4. Es werden also die Vergleicherausgänge (d. h. zwei Ausgänge von jedem der Vergleicher Bd 1 bis BD14) an die Und-Schaltungen 120a bis π angelegt

Wie aus F i g. 2a ersichtlich ist, führen die Ausgangsklemmen der Vergleicher 110 (R 1 bis R 14) zu den Und-Schaltungen 120a bis n. Die Ausgangsklemmen z. B. des Vergleichers BD 2 führen zu den Und-Schaltungen 1206 und 120c Die Aufgabe der Und-Schaltungen ist es, die Koinzidenz der negativen Arbeitssignale aus den Vergleichern festzustellen.

Die Ausgangssignale der invertierenden Und-Schaltungen 120a bis 120/7 werden den (integrierenden) Impulsformern 130 zugeführt, welche aus den lokalen Maxima darstellenden Signalen die Oberwellen entfer

Integrierender Impulsformer

Die Aufgabe dieser Schaltungen 130 in F i g. 2b ist es, Ausgleichsvorgänge aus den hier zugeführten Signalen zu beseitigen und ein integriertes und geformtes Signal zu bilden.

Das Ausgangssignal des Impulsformers ist eine Rechteckkurve mit scharfem Anstieg und Abfall.

Steigungsanzeiger

Der Steigungsanzeiger (SD) 145 aus F i g. 1 untersucht die Kurvenform der automatischen Verstärkungsregelung nach dem Auftreten scharfer Übergänge, die auf rasche Änderungsvorgänge im Sprachsignal hinweisen. Wenn die Steigung einen bestimmten Wert erreicht, wird ein Ausgangssignal erzeugt. Dieses Signal gelangt über die Und-Schaltung 12Or (s. Fig. 1) zu einer die Lautstärkeänderung anzeigenden Verriegelung LSA (Fig.2d).

Sprech-Steuerschaltung

Die Sprech-Steuerschaltung (TCT) 303 nach F i g. 2b wird beim Betätigen der Sprechtaste PT erregt, wenn ein Wort zur Erkennung in das Mikrophon 1 gesprochen wird. Der Ausgang dieser Schaltung erregt die Torleitung 325, die mit allen Und-Schaltungen 120a bis π des Systems verbunden ist und die es dadurch ermöglicht, alle erkannten Formanten, einschließlich der stimmhaften, und Reibelaute in die Formantüberwachungseinrichtung und die Konsonantenmatrix einzugeben. Kein Sprachereignis wird zur Erkennung gespeichert, wenn nicht diese Schaltung eingeschaltet ist.

Arbeitsweise der Einrichtung

Durch Betätigen der in F i g. 2b enthaltenen Sprachtaste PT wird die Sprech-Steuerschaltung 303 eingeschaltet; sie liefert ferner über die Leitungen 325 an alle Und-Schaltungen 120a bis 12On (Fig.2a), an die Und-Schaltungen 120o, 120p und 12Or (Fig.2b) Vorbereitungssignale. Sobald das Mikrophon 1 von akustischen Signalen (z. B. der Stimme der Bedienungsperson) getroffen wird, erhält der Vorverstärker 2 Eingangssignale und liefert dine komprimierte Umhüllende derselben (eine Folge der automatischen Verstärkungsregelung 35) mit 1- nstantem Pegel. Dieses Signal wird den Bandfiltern FS zugeführt, die in F i g. 2a mit 80 bezeichnet sind. Diese 14 Bandfilter sind alle auf bestimmte Frequenzen im Bereich zwischen 260 und 3750 Hz abgestimmt. Das gleiche Signal wird auch noch dem Hochpaß 60 und dem Bandpaß 59 der Fig.2b zugeführt, welch letztere invertierte und integrierte Signale abgeben, wenn im Lautspektrum Reibelaute und stimmhafte Laute enthalten sind Die Ausgänge der Bandfilter gehen über Leitungen 95 zum Formant-Be-

stimmungssystem FL (F ig. 2a). , -.'...,..-

Das Formant-Bestimmungssystem enthält drei wesentliche Einheiten: die Gleichrichter 100, die Vergleicher 110 und die Und-Schaltungen 120. Beim Vorliegen von Formanten, d. h. von Energiespitzen in bestimmten Frequenzbändern, erhalten die Vergleicher 110, im Beispiel 13 an der Zahl, Eingangssignale. Es werde der Vergleicher BD 2 betrachtet Die obere Ausgangsleitung dieses Vergleichers mit dem Bezugszeichen R2>R3 liefert ein negatives Signal, wenn der Betrag R2 größer ist als R3. Wenn umgekehrt der Betrag A3 größer als R 2, so liefert die untere mit R3>R2 bezeichnete Leitung ein negatives Signal. Waren die Eingänge zu dem Vergleicher BD 2 von gleicher Größe, dann erscheint auf keiner der beiden Ausgangsleitungen ein Signal. Sobald irgendwo ein lokales Maximum vorliegt, zeigen zwei Ausgangsleitungen eine Koinzidenz negativer Signale, durch welche die zugeordnete Und-Schaltung 120a bis 120/7, zur Abgabe eines Ausgangssignals an die nachgeordnete Impulsformerschaltung 130 veranlaßt wird, von denen 14 vorgesehen und mit IPSl bis IPS14 bezeichnet sind. Die Impulsformer sollen unerwünschte Ausgleichsvorgänge in den Formanten darstellenden Signalen beseitigen.

Am Ausgang der verschiedenen Impulsformer enthalten die Formantsignale sowohl Vokal- als auch Konsonantenbestandteile.

Es soll nun die Bestimmung der Konsonanten-Merkmale beschrieben werden. Diese Bestimmung geht aus von der Formantbestimmung durch das in Fig.2a mit FL bezeichnete System, das auf den Leitungen M1 bis M14 Formantsignale liefert. Diese Signale werden auf den Abzweigleitungen MIa bis M 13a mit dem Formantgeber FD der Fig.2c verbunden. Dieser enthält Oder-Schaltungen 370, mit DI bezeichnete Inverter 390, Und-Schaltungen 375, den Emitterverstärker (EF)' 385 sowie NOÄ-Schaltungen 410. Den Formantgeber verlassen fünf Ausgangsleitungen FDa, FDb, FDc, FDdund FDe. Diese Ausgänge werden in der Konsonantenmatrix der Fij. 2d mit den_yier Konsonantenklassen F- V, F- V,F- Vund F ■ ^kombiniert. Die vier Konsonantenklassen werden vom Reibelautgeber FVD der Fig.2b gebildet. Sie liegen auf den Leitungen FO und VO an, welche zwei Eingangsinverter speisen; die Inverter liefern komplementäre Ausgangssignale auf vier Leitungen Dia, DIb, DIc und DId an vier Und-Schaltungen 375, deren Ausgänge mit den obengenannten Klassenbezeichnungen versehen sind. Die Und-Schaltungen des Reibelautgebers FVD haben eine gemeinsame Vorbereitungsleitung Q, die an einen Konsonantschalter CS angeschlossen ist. Die Charakteristika dieser vier Konsonantklassen wurden eingangs aufgezählt.

Durch die Kombination der vier Konsonantklassen und der Signale auf den Leitungen M Xa bis M 13a in der Konsonantenmatrix CMS entstehen auf den mit f, w, v, s, m, z, sh, I₁ zh, k, g,j, h, k' und A'bezeichneten Leitungen Signale.

Hierzu 5 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Konsonantenbestimmung in Sprachsignalen, bei dem das Frequenzspektrum in mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird, dadurch gekennzeichnet, daß für einige Frequenzbänder das Auftreten von stimmhaften Lauten (V^ und in an sich bekannter Weise auch das Auftreten von Reibelauten (F) und ferner das Auftreten von Kombinationen dieser Laute ermittelt wird_(F_i g. 2b), wobei _die diese Kombinationen (F- V: F- V; F- V; F- !^darstellenden Binärsignale eine Koordinate einer Verknüpfungsmatrix (CMS; Fig. 1, 2d) aus speichernden Elementen ansteuern, deren andere Koordinate mit Binärsignalen einer bestimmten Anzahl von Formantkombinationen (FDa, FPb, FDd, FDe), die durch die logische Verknüpfung (Fig.2c) der Formanten aller Frequenzbänder gebildet werden, angesteuert wird, wobei zur Erzeugung von Ausgangssignalen, die für die Konsonanten repräsentativ sind, die stimmhaften Laute und Reibelaute und die Formantkombinationen entsprechend ihrer natürlichen Kombination in der Verknüpfungsmatrix kombiniert werden.

2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, gekennzeichnet durch eine Verriegelungsschaltungen (VERR₁-Fi g. 2d) mit zwei Eingängen als Speicherelemente enthaltende Matrix, deren vier Spalten der Minterm aus den beiden Signalen für stimmhaften Laut (V) und Reibelauf (F) und deren Zeilen durch die logische Verknüpfung gruppenweise zusammengefaßten Formantsignale aller Frequenzbänder zugeführt werden, wobei der Ausgang jeder Verriegelungsschaltung einem der Konsonanten fest zugeordnet ist.

3. Anordnung nach Anspruch 2, gekennzeichnet durch eine solche Auslegung, daß die Signale für stimmhafte Laute aus dem Frequenzband 100 bis 250 Hz und die Signale für Reibelaute aus dem Frequenzbereich über 4000 Hz gebildet werden.