-
Verfahren und Anordnung zur automatischen Erkennung von Sprache Die
Erfindung bezieht sich auf ein Verfahren und eine zugehörige Anordnung zur automatischen
Erkennung von Sprache.
-
Es ist schon eine Reihe von Verfahren bekanntgeworden, die sich um
die Lösung dieses Problems bemühen, und man kann sagen, daß die automatische Erkennung
von stetig ausgesprochenen Vokalen nach dem Stande der Technik möglich ist.
-
Bei diesen Verfahren wird die in elektrische Schwingungen umgesetzte
Sprache einer Filterkombination zugeführt, deren Einzelfilter schmale Durchlaßbereiche
für jene Frequenzen (Formantfrequenzen) aufweisen, die für die zu erkennenden Vokale
charakteristisch sind. Ermittelt und für die Erkennung ausgewertet wird hierbei
also die spektrale Verteilung der Sprachenergie, während die zeitliche Verteilung
während des Aussprechens des Lautes unberücksichtigt bleibt.
-
Es ist verständlich, daß diese Vernachlässigung bereits für die Erkennung
von Diphthongen oder gar von einfachen Silben nicht mehr möglich ist, und es ist
auch bereits bekannt, nicht nur die spektrale Verteilung schlechthin, sondern prinzipiell
und bis zu einem gewissen Grade ihren zeitlichen Verlauf zu berücksichtigen.
-
Bei der Anordnung nach diesem Verfahren werden die in elektrische
Schwingungen umgesetzten Laute einer Kombination von z. B. acht linearen Filtern
zugeführt. Jedem Filter sind fünf Relaisspeicher zugeordnet, die innerhalb eines
Zeitabschnittes von 200 ms aufeinanderfolgend je für 40 ms an den zugehörigen Filterausgang
angeschlossen werden. Lm ganzen sind also 40 Relaisspeicher vorhanden, die mit 1
bis 40 numeriert seien. Den Filtern 1 bis 8 sind die Relaisspeicher 1 bis
8 zugeordnet, die im ersten 40-ms-Zeitraum angeschlossen werden. Entsprechend
sind auch die Relaisspeicher 9 bis 16 den Filtern 1 bis 8 zugeordnet, werden aber
im zweiten 40-ms-Zeitraum angeschlossen und so fort, so daß dem Filter
1 z. B. die Relaisspeicher 1, 9, 17, 25, 33 zugehören, dem Filter
2 die Speicher 2, 10, 18, 26, 34 usw., die in aufeinanderfolgenden
Zeitabschnitten von je 40 ms Dauer an den Ausgängen ihrer Filter liegen.
-
Zeigt sich also am Ende des Beobachtungszeitraumes beispielshalber,
daß die Relaisspeicher 1, 9, 17, 18, 26, 34 beaufschlagt sind, so ist dies nicht
nur eine Aussage dafür, daß die den Filtern 1 und 2 zugehörigen Frequenzen (f 1
und f2) aufgetreten sind, sondern bedeutet, daß die Frequenz f 1 in den ersten
drei 40-ms-Zeiträumen vorhanden war, die Frequenz f 2 dagegen im dritten bis fünften
Zeitraum.
-
Ermittelt man nun empirisch durch vielfach wiederholtes Aussprechen
der zu erkennenden Lautverbindungen, welche Speicherkombinationen für sie eindeutig
als charakteristisch anzusehen sind, so kann man das Erkennen in bekannter Weise
durch logische Verknüpfung der Speicherausgänge automatisieren und z. B. auf Grund
der gesprochenen Lautverbindung die entsprechende Type einer Aufzeichnungsapparatur
zum Abdruck bringen.
-
Dieses Verfahren hat außer technologischen schon rein physikalisch
begründete Grenzen, und im Zusammenhang mit diesem Verfahren ist von zehn unterscheidbaren
Lautverbindungen die Rede. Eine Steigerung der Zahl unterscheidbarer Laute wäre
theoretisch auf zweierlei Arten oder deren Kombination möglich, nämlich durch eine
feinere Frequenzrasterung, also größere Filterzahl, im zu betrachtenden Spektralbereich
oder/und durch eine feinere Zeitrasterung im Beobachtungszeitraum.
-
Bei den Maßnahmen aber setzt der Umstand rasch eine Grenze, daß die
verwendeten Filter eine nicht vernachlässigbare Einschwingzeit besitzen, die um
so größer wird, je kleiner die relative Durchlaßbandbreite ist.
-
Es ist schon bei dem oben geschilderten Vorschlag mit acht Filtern
(im Bereich von etwa 300 bis 7000 Hz) und einer Abtastperiode von 40 ms zu beachten,
daß die Aussage über den Auftrittszeitraum einer bestimmten Frequenz sich auf den
Filterausgang bezieht. Hinsichtlich des tatsächlichen Auftrittszeitpunktes, nämlich
am Filtereingang, ist sie eben wegen der Einschwingzeiten sehr fragwürdig.
-
Maßgeblich für die relative Genauigkeit der Zeitaussage ist das Verhältnis
von Abtastperiode zu Einschwingzeit. Dieses Verhältnis aber und damit die
relative
Genauigkeit wird durch feinere Zeitrasterung (kürzere Abtastperioden) wie auch durch
feinere Frequenzrasterung (längere Einschwingzeiten) verringert.
-
Die Grenze, das Auftreten einer bestimmten Frequenz überhaupt feststellen
zu können, ist andererseits durch das Verhältnis zwischen ihrer Verweilzeit, d.
h. der Dauer ihres Auftretens, und der Einschwingzeit des verwendeten Filters gegeben.
Ist die Zeit, während der eine Formante den Durchlaßbereich eines Filters durchläuft,
kleiner als dessen Einschwingzeit, dann ist die am Ausgang des Gitters auftretende
Amplitude nicht mehr ein eindeutiges Maß für die Amplitude am Eingang des Gitters,
sondern gleichermaßen von der Durchlaufzeit abhängig.
-
Es soll nun gezeigt werden, daß die Betrachtungen für die Fortentwicklung
der Spracherkennung dominierende Bedeutung haben, da nämlich tatsächlich Verweilzeiten
zu berücksichtigen sind und sich auf der bisherigen Basis Einschwingzeiten ergeben
würden, deren Verhältnis jenseits der genannten Grenze liegt.
-
Die bisher ungelösten Probleme bei der automatischen Erkennung gesprochener
Sprache liegen bei der Erkennung der Konsonanten, insbesondere der Stopkonsonanten
(z. B. d, b, g, p, t, k) und der Nasalkonsonanten (m, n und ii). Es ist nachgwiesen
worden, daß für die Erkennung der Konsonanten das Entscheidende ist, wie die zweite
Formante sich in Zeiträumen von etwa 50 ms verändert. Entsprechende synthetische
Spektrogramme vermitteln den Eindruck, als ob die Stopkonsonanten einer bestimmten
- latenten - spektralen Startkonfiguration entspringen würden, die zwar nicht in
Erscheinung tritt, jedoch aus dem Übergang zu dem folgenden Vokal erraten werden
kann. So hat man für die zweite Formante als latente Startfrequenz z. B. angegeben:
»gt : F$ = 3000 Hz »di : F$ = 1800 Hz »b«: F$ = 720 Hz Dagegen scheint die
erste Formante für die Verständlichkeit der Stopkonsonanten ziemlich belanglos zu
sein.
-
Fig.l, die bekanntgewordenen Untersuchungsergebnissen entnommen ist,
stellt ein typisches Beispiel dar und zwar den zeitlichen Verlauf der zweiten Formenten
bei der Aussprache der Silbe »dun, ausgesprochen durch einen männlichen Sprecher.
Es zeigt sich, daß die zweite Formente in einem Zeitraum von etwa 50 ms einen Frequenzhub
von 1335 - 870 = 465 Hz durchläuft. Man hat also in diesem Zeitraum eine Veränderungsgeschwindigkeit
der Frequenz von etwa v = 10 Hz/ms.
-
Weiterhin ist bekannt, daß z. B. für männliche Aussprache die zweite
Formenten im Frequenzbereich zwischen 850 und 2 290 Hz liegen. Um auch nur die insgesamt
etwa sechzehn verschiedene Vokale z. B. der englischamerikanischen Aussprache unterscheiden
zu können, müßte man für die Frequenzanalysierfilter eine durchschnittliche Rasterung
von etwa 60/, verwenden
Um die Fehler durch zufälliges Zusammentreffen zwischen Filtertrennstellen und der
Lage der Formenten auszuschalten, müßten die Filter jedoch noch um etwa den Faktor
2 feiner unterteilt sein. Es ergibt sich somit eine Bandbreite von ± 1,5 °/o für
die Filter, die man zur Analyse des zeitlichen Verlaufs der Formenten verwenden
kann. Beachtet man nun die Einschwingzeiten solcher Filter, so ergibt sich, daß
die Einschwingzeiten der Filter meist größer sind als die Zeiten, während der die
Momentanfrequenz der Formanten ihren Durchlaßbereich durchlaufen, also größer als
ihre Verweilzeiten.
-
Es ergibt sich beispielsweise:
Filter- Einschwing- Verweil- |
mittenfrequenz Bandbreite (8) zeit ( - B I zeit |
840 Hz 25 Hz 40 ms / 2,5 m /s |
2290 Hz 69 Hz 14,5 ms 6,9 ms |
Die Verweilzeit errechnet sich also hierbei aus der obigen Angabe einer Veränderungsgeschwindigkeit
der Frequenz von etwa v = 10 Hz/ms und der Bandbreite B. Nach diesen Überlegungen
ergibt sich, daß lineare Filter, bei denen das Produkt aus Bandbreite
und Einschwingzeit stets _> 1 ist, nicht
geeignet sind, die Frequenzanalyse
zwecks automatischer Erkennung (gesprochener) Sprache durchzuführen.
-
Mithin kann das wichtige Problem der Erkennung der Konsonanten, insbesondere
der Stopkonsonanten, für die unter anderem der zeitliche Verlauf der zweiten Formanten
möglichst genau zu erfassen ist, grundsätzlich nicht auf der Basis des oben geschilderten
Verfahrens gelöst werden, obwohl auch dort der Zeitfaktor bereits bis zu einem gewissen
Grade berücksichtigt wird.
-
Die Erfindung ermöglicht die Lösung des Problems zur automatischen
Erkennung von Sprache auf der Basis des Verfahrens, bei dem die Sprachlaute in elektrische
Schwingungen umgesetzt werden, deren Frequenzen für jeden Laut bzw.jede Lautverbindung
in aufeinanderf olgenden Zeitpunkten analysiert werden, und bei dem die Analysenergebnisse
zur Erkennung entsprechend dem Begriff der logischen Verknüpfung ausgewertet werden,
durch Beschreiten eines völlig neuen Weges.
-
Erfindungsgemäß werden die Momentanfrequenzen der zur Erkennung der
Laute herangezogenen Formenten durch Zeitmeßschaltungen ermittelt, welche in an
sich bekannter Weise die Periode zwischen dem Auftreten bestimmter Phasenlagen messen.
-
Zur Aussiebung der gewünschten Formenten ist bei der Anordnung zur
Durchführung des erfindungsgemäßen Verfahrens eine Anzahl die Formenten isolirender
breitbandiger Filter vorgesehen, denen die Zeitmeßschaltungen zur Ermittlung
der genauen Momentanfrequenz der betreffenden Formenten nachgeschaltet sind.
-
Infolge der Breitbandigkeit aber wird die Einschwingzeit der Filter
vernachlässigbar, während die Zeitmeßschaltungen, die der Ermittlung der Momentanfrequenz
dienen, keinem Einschwingeffekt unterliegen. Diese sind vielmehr in der Lage, sogar
am Ende jeder Halbperiode der zu beobachtenden Schwingung ein Meßergebnis zu liefern.
-
In der Ausdrucksweise, die bei der Schilderung des Standes der Technik
verwendet wurde, heißt dies also, daß das Verfahren nach der Erfindung von der Tendenz,
die Frequenzrasterung durch lineare Filter zu verfeinern, völlig abgeht und im Gegenteil
nur wenige, breitbandige Filter vorsieht, während die Zeitrasterung, die ja nun
keine Rücksicht mehr auf Einschwingvorgänge
zu nehmen braucht,
bis zu der angegebenen Grenze verfeinert wird und das Maß der mit ihr verbundenen
Frequenzrasterung nur noch von der Darstellungsart der Zeitmeßergebnisse abhängt.
-
Die Zeitmessung erfolgt zweckmäßig mittels Impulszählern, die von
einem Generator gelieferte Impulse zwischen den Auftrittszeitpunkten bestimmter
Phasenlagen der zu messenden Schwingung zählen.
-
Derartige Anordnungen zur Messung der Periode einer Schwingung sind
an sich bekannt und auch bereits in Frequenzmessern realisiert worden.
-
Obwohl sie nicht geeignet sind, eine Frequenz aus einem Gemisch auszusieben,
führt ihre Anwendung im Rahmen der Erfindung in Verbindung mit den die Formanten
isolierenden breitbandigen Filtern zu der Möglichkeit, das Vorhandensein und die
genaue Frequenz der Formanten in wesentlich kürzerer Zeit zu ermitteln, als dies
mit linearen, mit Einschwingzeiten behafteten Filtern denkbar wäre.
-
Es sei erwähnt, daß bereits auf die Möglichkeit hingewiesen worden
ist, mit den an sich bekannten Koinzidenzmethoden der Impulstechnik eine Art Filter
aufzubauen, bei denen das Produkt aus Bandbreite und Einschwingzeit kleiner als
1 ist. Auch derartige Koinzidenzfilter sind allerdings nur in der Lage, das Vorhandensein
einer Schwingung bestimmter Frequenz festzustellen und z. B. eine Schaltfunktion
auszuüben. Ihre Verwendung an Stelle der mit Impulszählern arbeitenden Zeitmeßschaltungen
würde bei der vorliegenden Aufgabe der Sprachanalyse schon deshalb zu erheblich
größerem Aufwand führen, weil sie für jede der Vielzahl der zu berücksichtigenden
Momentanfrequenzen individuell vorgesehen werden müßten.
-
Die Erfindung soll nun auf Grund eines Ausf ührungsbeispiels und an
Hand der Zeichnungen näher erläutert werden.
-
Fig. 1 gibt ein bekanntes Diagramm des Frequenzverlaufes der Silbe
»du« über der Zeit wieder; Fig.2 stellt im Blockschaltbild schematisch eine Anordnung
zur Durchführung des erfindungsgemäßen Verfahrens dar, und Fig.3 zeigt eine Ausführungsform
eines Bauelementes D der Anordnung nach Fig. 2.
-
Bei der als Beispiel in der Fig. 2 dargestellten Anordnung werden
zur Erkennung die erste, zweite und dritte Formante herangezogen. Gemäß Ergebnissen
von Untersuchungen über die Lage dieser drei Formanten bei männlichen Sprechern
sind zweckmäßig vier Filter F,, F2, F2,3, F3 mit folgenden Durchlaßbereichen vorgesehen:
F, für die erste Formante ....... 400 bis 800 Hz |
F2 für einen Teil der zweiten For- |
manten . . . . . . . . . . . . . . . . . . . . . . 800 bis
1600 Hz |
F2,3 für den anderen Teil der zweiten |
und einen Teil der dritten For- |
manten . . . . . . . . . . . . . . . . . . . . . . 1600 bis
2300 Hz |
F3 für den anderen Teil der dritten |
Formanten . . . . . . . . . . . . . . . . . . 2300 bis 3200
Hz |
Die Wahl dieser Filtergrenzfrequenzen ist so getroffen, daß durch jedes Filter bei
männlichen Sprechern jeweils nur eine einzige Frequenz mit nennenswertem Pegel hindurchgeht.
Die Zahlenwerte sind nur als Beispiel zu werten. Läßt man auch weibliche und kindliche
Sprecher zu, so müssen sie modifiziert werden.
-
Die zu erkennenden Laute werden vom Mikrophon aufgenommen und in elektrische
Schwingungen umgewandelt, wie es ebenfalls an sich bekannt ist, in einem Verstärker
A verstärkt und in einer Kompressorschaltung CP auf einen Pegel gebracht, der der
Erkennungsanordnung angemessen ist.
-
Die Ausgangssignale des Kompressors werden an die Eingänge der vier
Filter F angelegt.
-
Auf jedes Filter F, die also jeweils nur eine einzige Frequenz mit
nennenswertem Pegel durchlassen, folgt eine Zeitmeßschaltung, deren Kern im Beispiel
ein die Impulse eines Generators J zählender Impulszähler C ist und zu der eingangsseitig
ein Amplitudendiskriminator D und ausgangsseitig eine Torschaltung G gehören.
-
Zeichnerisch dargestellt ist nur die dem Filter F3 nachgeordnete Schaltung.
-
Der Amplitudendiskriminator D hat die Aufgabe, aus der am Ausgang
des Filters auftretenden Schwingung beim Auftreten gewünschter gleicher Phasenlagen
einen kurzen Impuls abzuleiten.
-
Ein Ausführungsbeispiel für Schaltungen, die diese Funktion erfüllen,
und für die viele Varianten bekannt sind, ist in Fig. 3 schematisch wiedergegeben.
Die Eingangsspannung U, wird an das Gitter bzw. an die Kathode zweier Röhren mit
gemeinsamem Anodenwiderstand gelegt. Die Gitter-Kathoden-Strecken sind durch Spannungen
E, bzw. E2 vorgespannt. Durch geeignete Wahl der Vorspannungen hat man es in der
Hand, dann und nur dann einen positiven Spannungsimpuls UZ an der Anode entstehen
zu lassen, wenn der Momentanwert der Eingangsspannung einen bestimmten Amplitudenwert,
der durch die Wahl von E, und E2 gegeben ist, durchläuft. Es kann sich vorzugsweise
um den Amplitudenwert Null handeln.
-
Die entstehenden Impulse werden vom Ausgang des Diskriminators D auf
drei Ausgangsleitungen 1, 2 und 3 gegeben.
-
Ein solcher Impuls erreicht über die Leitung 1 (in Fig. 2) den Impulsgenerator
J und dient als Startimpuls. Er läßt den Generator an oder schaltet diesen, falls
er dauernd läuft, über eine Leitung 4 zum Zähler C durch. Der Generator schwingt
mit einer Frequenz, die groß gegen diejenige der zu messenden Schwingung ist.
-
Der Zähler zählt die ihm vom Generator J gelieferten Impulse, bis
er vom nächsten, vom Amplitudendiskriminator D kommenden, ihm über die Leitung 2
als Rückstellimpuls zugeführten Impuls angehalten und zurückgestellt wird.
-
Vor der Rückstellung indessen erreicht der gleiche, von D kommende
Impuls über die Leitung 3 die Torschaltung G als Öffnungs- bzw. Ableseimpuls. Hierdurch
wird das Zählergebnis abgelesen und auf die nächste Stufe, einen Schiebespeicher
SH, durchgeschaltet. Erst dann erfolgt die Rückstellung, und die nächste
Zählung kann beginnen.
-
Beim Zähler C kann es sich um einen, wie in der Figur angedeutet,
z. B. dreistufigen Binärzähler handeln. An seinen Ausgangsklemmen erscheint das
Zählergebnis, d. h. das Maß für die Momentanfrequenz, dann in codierter Form. Im
Beispiel sind also nur acht Frequenzstufen darstellbar, indessen ist klar, daß die
Zahl der darstellbaren Stufen durch entsprechende Zahl von Codeelementen beliebig
erhöht werden kann.
-
Die codierten Darstellungen der Momentanfrequenzen werden also in
den Schiebespeicher SH eingegeben, in dem für jedes Codeelement ein Schiebe-
. register SHR vorgesehen ist, und in diesen durch Taktimpulse T von Einzelspeicher
St zu Einzelspeicher geureinsam
fortgeschaltet. Die Fortschaltung
kann z. B. für die zu einer Formante gehörenden Schieberegister jeweils dann erfolgen,
wenn am Ausgang der Torschaltung eine andere Information erscheint, als sie zum
Zeitpunkt der vorhergehenden Fortschaltung vorlag. Hierzu benötigt man einen Zwischenspeicher.
-
Aufbau und Arbeitsweise von Schieberegistern sind bekannt.
-
Von den Einzelspeichern St der Schieberegister führen Leitungen in
einen Zuordner Tr. Der Zuordner erhält daher nicht nur Informationen darüber, wie
groß die Momentanfrequenz der betreffenden Formanten zu einem bestimmten Zeitpunkt
war, sondern er erhält diese Information für mehrere, aufeinanderfolgende Zeitpunkte,
so daß er aus den codierten Werten der Momentanfrequenz eindeutige Rückschlüsse
auf die Veränderung der Formanten in Abhängigkeit von der Zeit ziehen kann.
-
Die gleichen Informationen erhält der Zuordner über die Schieberegister
für die erste und zweite Formante (Filter F1 und FJ.
-
Die Technik der elektrischen Zuordner ist bekannt. Auf den Ausgangsleitungen
L des Zuordners erscheinen elektrische, codierte Signale für die vom Mikrophon aufgenommenen
Laute. Diese Signale können nun in irgendeiner Weise weiterverarbeitet und aufgezeichnet
werden.