Die Erfindung betrifft ein Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen
Signales, insbesondere eines Sprachsignales. Weiter bezieht sich jie Erfindung auf Schaltungsanordnungen
zur Durchführung dieses Verfahrens.
Von Verfahren der erfindungsgemäßen Art kann beispielsweise bei Sprach-Analyse-Synthese-Systemen
(Vocoder) Gebrauch gemacht werden, wenn das Sprachfrequenzband durch Übertragen des Sprachsignals
beispielsweise über einen der CCI-Norm entsprechenden
Sprachkanal beschnitten wurde. Vocoder, deren Wirkungsweise z. B. im Taschenbuch der
Hochfrequenztechnik, Ausgabe 1956, von Meinke und Gundlach, auf Seite 1177 näher beschrieben ist, bestehen
aus einem Aufnahmeteil und einem Wiedergabeteil. Der Aufnahmeteil des Vocoders enthä1' eine Anzahl von
Filtern, die das angebotene Sprachfrequenzband von z. B. 50 bis 6000 Hz in eine entsprechende Anzahl von
Frequenzbändern aufteilt. Das Filter, das tiefe Frequenzen bevorzugt durchläßt, gibt an seinem Ausgang die
Grundfrequenz des angebotenen Sprachsignals ab, die im allgemeinen /wischen 100 und 300 Hz liegt. Die
gleichgerichteten Ausgangsspannungen der Filter werden Tiefpässen zugeführt und gelangen von deren
Ausgängen zum Wiedergabeteil des Vocoders. Der Wiederherstellung uer Sprache dienen im Wiedergabeteil
ein harmonischer Generator und ein Geräuschgenerator. Der harmonische Generator wird so gesteuert,
daß er eine Grundschwingung liefert, die mit der am Aufnahmeort übereinstimmt; außerdem liefert er ein
breites Spektrum von harmonischen Oberschwingungen. Der Rauschgenerator erzeugt ein breites kontinuierliches
Spektrum, das zur Erzeugung von stimmlosen Konsonanten und Explosivlauten notwendig ist. Ein
Umschalter schaltet, je nachdem ob ein Konsonant oder ein Vokal erzeugt werden soll, den Geräuschgenerator
oder den harmonischen Generator an eine der Filtefzähl im Aufnahmeteil des Vocoders entsprechenden
Anzahl von Modulatoren an, die durch die Ausgangsspannungen der Tiefpässe des Aufnahmeteils
des Vocoders gesteuert werden. Die genaue Analyse der Grundfrequenz von stimmhaften Lauten und die
Unterscheidung von stimmhaften und stimmlosen Lauten bestimmt also weitgehend die Qualität der
synthetisierten Sprache.
In einem gemäß der CCI-Norm begrenzten Sprach-
band ist die für die einwandfreie Funktion eines Vocoders notwendige Grundfrequenz der Sprache nicht
enthalten. Deswegen hat man bisher meist versucht, durch Verzerren des Sprachsignals dessen Grundfrequenz
zurückzugewinnen. Das aus Harmonischen der ■>
nicht im Sprachsignal enthaltenen Grundfrequenz bestehende Frequenzgemisch wird dazu einem nichtlinearen
elekiritchen Bauelement zugeführt; den entstandenen Modulationsprodukten kann durch Filterung die
Grundfrequenz des zu analysierenden Sprachsignals ι ο entnommen werden.
Da aber die einzelnen Harmonischen der Grundfrequenz mit sehr unterschiedlicher Energie im Sprachband
enthalten sind, können Frequenzsprünge zwischen der Grundfrequenz und beispielsweise der doppelten ιί
Grundfrequenz auftreten, was sich als sehr störend bemerkbar macht (»Stimmbruchsprache«).
Der Erfindung liegt die Aufgabe zugrunde, die Grundfrequenz eines wenigstens zeitweise periodischen
Signales, insbesondere eines Sprachsignales, das die Grundfrequenz nicht enthält, zu ermitteln. Dei weiteren
liegt der Erfindung noch die zusätzliche Aufgabe zugrunde, eine Unterscheidungsmöglichkeit zwischen
stimmhaften und stimmlosen Lauten zu schaffen.
Ausgehend von dem einleitend geschilderten Verfah- 2r>
ren wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß das Signal um mehrere aufeinanderfolgende
Zeitabschnitte verzögert wird, daß die erzeugten zeitverzögerten Signale mit jeweils ein und demselben
gerade vorliegenden Momentanwert des Eingangssignals unter Differenzbildung verglichen werden und
daß die Verzögerungszeit desjenigen zeitverzögerten Signals, das den ersten auftretenden unter einem
vorgegebenen Minimalschwellenwert liegenden Differenzpegel liefert als die der Grundfrequenz entspre- n
chende Periodendauer weiterverwendet wird.
Es sind zwar durch die Literaturstelle DE-OS 20 45 347 bereits Verfahren und Anordnung zur
Ermittlung der wahren Grundfrequenz eines aus harmonischen Komponenten zusammengesetzien Signals
bekannt. Diese gehen jedoch von der im Signalspektrum vorhandenen Grundfrequenzkomponente
aus. Außerdem wird dort eine Art Kreuzkorrelationsverfahren zum Auffinden der richtigen Grundfrequenzkomponente
zur Anwendung gebracht.
Ferner ist es durch die DD-PS 49 355 bekannt, die Stimmbandgrundfrequenz unter Verwendung des Prinzips
der Periodenlängenmessung zu ermitteln. Dieses Verfahren setzt jedoch e'c Unfalls das Vorhandensein der
Grundfrequenzkomponente im Spektrum des Sprachsignals vor us.
Bei der Auswertung eines Sprachsignales dient als Kriterium für die Unterscheidung eines stimmhaften
von einem stimmlosen Laut der übertragenen Sprachinformation, nach einer weiteren Ausbildung der Erfin- r>5
dung, das Auftreten von, eine vorgegebene Schwellwertspannung unterschreitenden Minima des Ver
gleichs'jrgebmsses aus dem Eingangssignal und aus den
einzelnen Abtastproben.
Eine Schaltungsanordnung zur Durchführung des ix") Verfahrens ist gemäß der Erfindung derart ausgebildet,
daß eine Laufzeitkette mit η Stufen vorgesehen ist, daß
ein im Rhythmus eines Taktes an die Abgriffe der Laufzeitkette angelegter Abtastschalter vorgesehen ist,
daß weiter ein Vergleicher vorgesehen ist, der die von *5
den Abgriffen der Laufrpitkette über den Abtastschaltern
abgegebenen Signalspannungen mit der Spannung des unverzögerten, am Eingang der Laufzeitkette
anliegenden Signales vergleicht, und daß ein Zähler
vorgesehen ist, der die den Abtastschalter weiterschaltenden Impulse zähl;, bis vom Vergleicher das erste
Minimum zwischen den zu vergleichenden Spannungen festgestellt ist
Diese Schaltungsanordnung kann gemäß einer Weiterbildung der Erfindung dadurch verbessert werden,
daß Differenzverstärker vorgesehen sind, die mit ihrem jeweils ersten Eingang an die Ausgänge der
Stufen der Laufzeitkette angeschaltet sind und deren jeweils zweiter Eingang mit dem Eingang der
Laufzeitkette verbunden ist, daß mit Masse verbundene Summierglieder, insbesondere integrierende Glieder
aus einer Parallelschaltung je eines Widerstandes und eines Kondensators, vorgesehen sind, die mit den
Abgriffen und über eine Diode mit d ;n Ausgängen der Differenzverstärker verbunden sind, und daß als
Vergleicher insbesondere ein n-ltitender, mit seinem Emitter an eine Vergleichsspannung'.';jelle angeschlossener
Transistor vorgesehen ist, dessin Basis mit dem Abtastschalter und dessen Kollektor mit dem Zähler
verbunden ist.
Vorteilhaft ist es, wenn eine Laufzeitkette vorgesehen
ist. deren Gesamtverzögerungszeit größer ist als die Schwingungsdai'er der niedrigsten zu erwartenden
Grundfrequenz.
Vorteilhaft ist es weiterhin, wenn eine erste Stufe einer Laufzeitkette vorgesehen ist, deren Verzögerungszeit
kleiner st als die Schwingungsdauer der höchsten zu erwartenden Grundfrequenz.
Anhand der in dtr Zeichnung dargestellten Ausführungsbeispiele
soll die Erfindung im folgenden noch näher erläutert werden. In der Zeichnung bedeutet
F i g. 1 Spektrum des Vokales e,
F i g. 2 Spektrum des Vokales u,
F i g. 3 Beispie! eines typischen Spannungsverlaufes
eines stimmhaften Lautes,
F i g. 4 das Blockschaltbild einer Anordnung zur Durchführung des Verfahrens nach der Erfindung und
F i g. 5 das Blockschaltbild einer weiteren Anordnung
zur Durchführung des erfindungsgemäßen Verfahrens.
Zum leichteren Verständnis der Wirkungsweise des erfindungsgemäßen Verfahrens und der dieses Verfahren
realisierenden Schaltungsanordnung! sei anhand
der F i g. I bis 3 die Zusammensetzung der Sprache betrachtet.
Die Sprache läßt sich unterteilen in Vokale. Halbvokale, stimmhafte Konsonanien, stimmlose Konsonanten
und Explosivlaute. Eine Analyse gesprochener Vokale im Frequenzbereich ergibt, wie Fig. 1 und 2
zeigen, daß die Spektren der Vokale Linienspektrtii sind, die neben einer durch die Stimmbandlänge
festgelegten und durch äußere Reize beeinflußbaren Grundfrequenz eine Anzahl von Frequenzen enthalten,
die ganz/iihlige Vielfache dieser Grundfrequenz sind.
Die semantische Bedeutung eines Vokales wird, wie Helmholtz festgestellt hat. fast ausschließlich von der
Umhüllenden der Frequenzspektrums geprägt und bleibt nahezu unbeeinflußt von der Grundfrequenz des
Lautes und von der gegenseitigen Phasenlage der einzelnen Frequcnzkomponenten. Die Hiillkurven der
in Fig. 1 und Fig. 2 dargestellten Frequenzspektren lassen in den Maxima, die sogenannten Formanten,
deren Lage und Höhe für die einzelnen Vokale charakteristisch sind erkennen. So liegen die Formantfrequenzen
des Vokales e nach Fig. 1 bei einer Grundfrequenz von 128Hz bei Fl =380 Hz,
F2 = 1900 Hz und F3 = 2400 Hz, während sie bei dem
Vokal u gemäß F i g. 2 bei der gleichen Grundfrequenz bei FI= 380 Hz, F2 = 1500 Hz und F3 = 2600 Hz
liegen. Die Festlegung des Sprachbandes nach der CCI-Norm wurde dadurch bestimmt, daß die Grundfrequenz
zur Vokalerkennung nicht vonnöten ist, und daß die Formantfrequenzen nahezu aller Vokale unterhalb
3400 Hz liegen.
Eine Darstellung des typischen Spannungsverlaufs eines Vokales in der Zeitebene zeigt Fig. 3. Ihr ist zu
entnehmen, daß sich die Schwingungen mit der Zeit 11
periodisch wiederholt, die der Grundfrequenz des Sprachsignals umgekehrt proportional ist, unabhängig
davon, ob die in Fig. 3 abgebildete Schwingung die Grundfrequenz enthält oder nicht.
Die erwähnten Halbvokale weisen ebenso wie die Vokale ein Linienspektrum auf mit mehr oder weniger
scharf ausgeprägten Formantbereichen.
Stimmlose Konsonanten werden nur durch Geräusche gebildet, während bei stimmhaften Konsonanten
Geräusche und Stimmbandschwingungen zusammenwirken. Die durch Geräusche erzeugten Laute weisen
ebenso wie die Explosivlaute kein Linienspektrum mehr auf wie die Vokale, sondern ein kontinuierliches
Spektrum.
Das in Fig. 4 dargestellte Blockschaltbild einer Schaltungsanordnung zur Durchführung des erfindungsgemäßen
Verfahrens enthält eine aus π Stufen (r 1 bis τη) bestehende Laufzeitkette mit n-Abgriffen (1 bis n).
Weiter ist ein Vergleicher 7, ein Zähler 6 und ein Schalter 5. der mit Hilfe des Taktgenerators 4
weitergeschaltet wird, vorgesehen. Am Eingang 8 der Laufzeitkette und am Vergleicher 7 liegt eine Signalspannung
an, die nicht die Grundfrequenz enthält und deren Verlauf in Fig. 3 dargestellt ist. Durch den mit
Hilfe des Taktgenerators 4 von Abgriff 1 bis Abgriff η weitergeschalteten Schalters wird die jeweils wirksame
Verzögerungszeit verändert. Die unverzögerte Signalspannung und die durch die Laufzeitkette verzögerte
Signalspannung werden im Vergleicher 7 verglichen. Bei wenigstens annähernder Übereinstimmung, die
dann erreicht ist, wenn das verzögerte Signal dem ^i~iV*_rZGgCi"iCri oi5M<lt gciduc Ulli UlC /-CllspallllC ί i
nacheilt, wird der Stand des durch die Taktimpulse fortgeschalteten Zählers 6 an seinem Ausgang 9
abgegeben. Der Zählerstand ist umgekehrt proportional der Grundfrequenz des am Eingang 8 anliegenden
Frequenzgemisches des Sprachsignals. Unmittelbar nach Abgabe des Zählerstandes werden der Schalter 5
und der Zähler 6 in ihre Ausgangsstellungen gebracht.
Die Verzögerungszeit 11 vom Eingang 8 bis zum
Ausgang 1 der ersten Stufe der Laufzeitkette, die sowohl in analoger als auch in digitaler Technik
ausgeführt werden kann, richtet sich nach der höchsten zu erwartenden Grundfrequenz. Beispielsweise ist ein
Wert von rl = 3 ms klein genug, da der sich daraus
ergebende Grenzwert der Grundfrequenz von 333 Hz von männlichen Stimmen praktisch nie erreicht und von
weiblichen Stimmen kaum überschritten wird. Diese Begrenzung der Verzögerungszeit der ersten Stufe r 1
der Laufzeitkette kann umgangen werden, wenn man mit einer hier nicht näher gezeigten Zusatzeinrichtung
die Anzahl der Minima während der Gesamtlaufzeil aller Stufen, also pro Abtastperiode, zählt. Aus diesem
Zählergebnis läßt sich die Grundfrequenz bestimmen. Die Gesamtverzögerungszeit aller Stufen (r 1 bis τη)
der Laufzeitkette richtet sich nach der tiefsten zu erwartenden Frequenz. Eine Gesamtlaufzeit von beispielsweise
größer 12,5 ms reicht aus, um eine Grundfrequenz von 80 Hz zu bestimmen, deren Reziprok wert die Schwingungsdauer /1 = 12,5 ms ist.
In Fig. 5 ist eine weitere Schaltungsanordnung zur
Durchführung des erfindungsgemäßen Verfahrens gezeigt. Sie enthält ebenso wie die der Fig.4 eine aus η
Stufen gebildete Laufzeitkette, die ebenfalls entweder analog oder digital ausgeführt sein kann, einen Zähler 6
und einen durch einen Taktgenerator 4 fortgeschalteten Schalter 5. Weiter ist eine der Anzahl der Laufzeitkettenstufen
gleiche Anzahl von Differenzverstärkern, von Dioden und von mit den Dioden in Rpihe gesrhaltptr
parallele Widerstand-Kondensator-Integrierglieder vorgesehen. Jeweils ein Eingang der Differenzverstärker
ist mit den Ausgängen der Stufen r 1 bis τη in der Laufzeitkette verbunden, während der jeweils andere
Ausgang mit der unverzögerten Signalspannung gespeist wird. Die Ausgangsspannungen der Differenzverstärker
und damit die Spannungsdifferenz zwischen dem verzögerten und dem nicht verzögerten Signal
werden jeweils in den Integriergliedern (R. C) gesammelt und von dem umlaufenden Schalter 5
abgetastet. Der Schalter wird solange von Abgriff zu Abgriff geschaltet, bis die jeweilige Spannung einen
vorgegebenen Wert Us unterschreitet, somit eine minimale Differenz zwischen verzögerter und unverzögerter
Signalspannung gegeben ist. Das Unterschreiten der Spannung Us bewirkt, daß der Zähler an seinem
Ausgang 9 seinen augenblicklichen Stand abgibt, der. wie bereits beschrieben, umgekehrt proportional zur
Grundfrequenz des Eingangssignals der Schaltung ist, und daß anschließend der Zähler und der Schalter in
ihre Grundstellungen zurückgesetzt werden. Dies erfolgt hier beispielsweise mit Hilfe eines Transistors,
der in dem Moment stromundurchlässig wird, in dem die Basibvurspaririung kleiner ais die am Emitter anliegende
Spannung i/swird.
Die Anzahl der Stufen der Laufzeitkette bestimmt sich aus der gewünschten Genauigkeit der Grundfrequenzmessung;
die Genauigkeit wird größer, wenn die Anzahl der Stufen vergrößert wird. Zusätzlich ist durch
die Anzahl der Stufen die in Fig. 5 eingezeichnete Spannung Us festgelegt, da diese durch einen Minimalwert der Spannung an einem der Abgriffe 1 bis η s'"her
unterschritten werden muß.
Konsonanten, die, wie bereits erwähnt, ein kontinuierliches Frequenzspektrum haben, können mit Hilfe der
angegebenen Schaltungsanordnung nach dem erfin-
• dungsgemäßen Verfahren dadurch erkannt werden, daß
der Vergleicher kein Minimum zwischen der verzögerten und der unverzögerten Signalspannung feststellt
und der Zähler somit einen Wert abgibt, der größer ist als die Gesamtzahl der vom Schalter 5 abgetasteten
Abgriffe 1 bis n.
Hierzu 2 Blatt Zeichnungen