DE2062589C3

DE2062589C3 - Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales

Info

Publication number: DE2062589C3
Application number: DE19702062589
Authority: DE
Inventors: Hans-Martin Dipl.-Ing. 8000 Muenchen Christiansen
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1970-12-18
Filing date: 1970-12-18
Publication date: 1981-03-12
Also published as: DE2062589B2; DE2062589A1

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen Signales, insbesondere eines Sprachsignales. Weiter bezieht sich jie Erfindung auf Schaltungsanordnungen zur Durchführung dieses Verfahrens.

Von Verfahren der erfindungsgemäßen Art kann beispielsweise bei Sprach-Analyse-Synthese-Systemen (Vocoder) Gebrauch gemacht werden, wenn das Sprachfrequenzband durch Übertragen des Sprachsignals beispielsweise über einen der CCI-Norm entsprechenden Sprachkanal beschnitten wurde. Vocoder, deren Wirkungsweise z. B. im Taschenbuch der Hochfrequenztechnik, Ausgabe 1956, von Meinke und Gundlach, auf Seite 1177 näher beschrieben ist, bestehen aus einem Aufnahmeteil und einem Wiedergabeteil. Der Aufnahmeteil des Vocoders enthä¹' eine Anzahl von Filtern, die das angebotene Sprachfrequenzband von z. B. 50 bis 6000 Hz in eine entsp^rechende Anzahl von Frequenzbändern aufteilt. Das Filter, das tiefe Frequenzen bevorzugt durchläßt, gibt an seinem Ausgang die Grundfrequenz des angebotenen Sprachsignals ab, die im allgemeinen /wischen 100 und 300 Hz liegt. Die gleichgerichteten Ausgangsspannungen der Filter werden Tiefpässen zugeführt und gelangen von deren Ausgängen zum Wiedergabeteil des Vocoders. Der Wiederherstellung uer Sprache dienen im Wiedergabeteil ein harmonischer Generator und ein Geräuschgenerator. Der harmonische Generator wird so gesteuert, daß er eine Grundschwingung liefert, die mit der am Aufnahmeort übereinstimmt; außerdem liefert er ein breites Spektrum von harmonischen Oberschwingungen. Der Rauschgenerator erzeugt ein breites kontinuierliches Spektrum, das zur Erzeugung von stimmlosen Konsonanten und Explosivlauten notwendig ist. Ein Umschalter schaltet, je nachdem ob ein Konsonant oder ein Vokal erzeugt werden soll, den Geräuschgenerator oder den harmonischen Generator an eine der Filtefzähl im Aufnahmeteil des Vocoders entsprechenden Anzahl von Modulatoren an, die durch die Ausgangsspannungen der Tiefpässe des Aufnahmeteils des Vocoders gesteuert werden. Die genaue Analyse der Grundfrequenz von stimmhaften Lauten und die Unterscheidung von stimmhaften und stimmlosen Lauten bestimmt also weitgehend die Qualität der synthetisierten Sprache.

In einem gemäß der CCI-Norm begrenzten Sprach-

band ist die für die einwandfreie Funktion eines Vocoders notwendige Grundfrequenz der Sprache nicht enthalten. Deswegen hat man bisher meist versucht, durch Verzerren des Sprachsignals dessen Grundfrequenz zurückzugewinnen. Das aus Harmonischen der ■> nicht im Sprachsignal enthaltenen Grundfrequenz bestehende Frequenzgemisch wird dazu einem nichtlinearen elekiritchen Bauelement zugeführt; den entstandenen Modulationsprodukten kann durch Filterung die Grundfrequenz des zu analysierenden Sprachsignals ι ο entnommen werden.

Da aber die einzelnen Harmonischen der Grundfrequenz mit sehr unterschiedlicher Energie im Sprachband enthalten sind, können Frequenzsprünge zwischen der Grundfrequenz und beispielsweise der doppelten ιί Grundfrequenz auftreten, was sich als sehr störend bemerkbar macht (»Stimmbruchsprache«).

Der Erfindung liegt die Aufgabe zugrunde, die Grundfrequenz eines wenigstens zeitweise periodischen Signales, insbesondere eines Sprachsignales, das die Grundfrequenz nicht enthält, zu ermitteln. Dei weiteren liegt der Erfindung noch die zusätzliche Aufgabe zugrunde, eine Unterscheidungsmöglichkeit zwischen stimmhaften und stimmlosen Lauten zu schaffen.

Ausgehend von dem einleitend geschilderten Verfah- 2^r> ren wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß das Signal um mehrere aufeinanderfolgende Zeitabschnitte verzögert wird, daß die erzeugten zeitverzögerten Signale mit jeweils ein und demselben gerade vorliegenden Momentanwert des Eingangssignals unter Differenzbildung verglichen werden und daß die Verzögerungszeit desjenigen zeitverzögerten Signals, das den ersten auftretenden unter einem vorgegebenen Minimalschwellenwert liegenden Differenzpegel liefert als die der Grundfrequenz entspre- n chende Periodendauer weiterverwendet wird.

Es sind zwar durch die Literaturstelle DE-OS 20 45 347 bereits Verfahren und Anordnung zur Ermittlung der wahren Grundfrequenz eines aus harmonischen Komponenten zusammengesetzien Signals bekannt. Diese gehen jedoch von der im Signalspektrum vorhandenen Grundfrequenzkomponente aus. Außerdem wird dort eine Art Kreuzkorrelationsverfahren zum Auffinden der richtigen Grundfrequenzkomponente zur Anwendung gebracht.

Ferner ist es durch die DD-PS 49 355 bekannt, die Stimmbandgrundfrequenz unter Verwendung des Prinzips der Periodenlängenmessung zu ermitteln. Dieses Verfahren setzt jedoch e'c Unfalls das Vorhandensein der Grundfrequenzkomponente im Spektrum des Sprachsignals vor us.

Bei der Auswertung eines Sprachsignales dient als Kriterium für die Unterscheidung eines stimmhaften von einem stimmlosen Laut der übertragenen Sprachinformation, nach einer weiteren Ausbildung der Erfin- ^r>5 dung, das Auftreten von, eine vorgegebene Schwellwertspannung unterschreitenden Minima des Ver gleichs'jrgebmsses aus dem Eingangssignal und aus den einzelnen Abtastproben.

Eine Schaltungsanordnung zur Durchführung des ix") Verfahrens ist gemäß der Erfindung derart ausgebildet, daß eine Laufzeitkette mit η Stufen vorgesehen ist, daß ein im Rhythmus eines Taktes an die Abgriffe der Laufzeitkette angelegter Abtastschalter vorgesehen ist, daß weiter ein Vergleicher vorgesehen ist, der die von *5 den Abgriffen der Laufrpitkette über den Abtastschaltern abgegebenen Signalspannungen mit der Spannung des unverzögerten, am Eingang der Laufzeitkette anliegenden Signales vergleicht, und daß ein Zähler vorgesehen ist, der die den Abtastschalter weiterschaltenden Impulse zähl;, bis vom Vergleicher das erste Minimum zwischen den zu vergleichenden Spannungen festgestellt ist

Diese Schaltungsanordnung kann gemäß einer Weiterbildung der Erfindung dadurch verbessert werden, daß Differenzverstärker vorgesehen sind, die mit ihrem jeweils ersten Eingang an die Ausgänge der Stufen der Laufzeitkette angeschaltet sind und deren jeweils zweiter Eingang mit dem Eingang der Laufzeitkette verbunden ist, daß mit Masse verbundene Summierglieder, insbesondere integrierende Glieder aus einer Parallelschaltung je eines Widerstandes und eines Kondensators, vorgesehen sind, die mit den Abgriffen und über eine Diode mit d ;n Ausgängen der Differenzverstärker verbunden sind, und daß als Vergleicher insbesondere ein n-ltitender, mit seinem Emitter an eine Vergleichsspannung'.'_;jelle angeschlossener Transistor vorgesehen ist, dessin Basis mit dem Abtastschalter und dessen Kollektor mit dem Zähler verbunden ist.

Vorteilhaft ist es, wenn eine Laufzeitkette vorgesehen ist. deren Gesamtverzögerungszeit größer ist als die Schwingungsdai'er der niedrigsten zu erwartenden Grundfrequenz.

Vorteilhaft ist es weiterhin, wenn eine erste Stufe einer Laufzeitkette vorgesehen ist, deren Verzögerungszeit kleiner st als die Schwingungsdauer der höchsten zu erwartenden Grundfrequenz.

Anhand der in dtr Zeichnung dargestellten Ausführungsbeispiele soll die Erfindung im folgenden noch näher erläutert werden. In der Zeichnung bedeutet

F i g. 1 Spektrum des Vokales e,

F i g. 2 Spektrum des Vokales u,

F i g. 3 Beispie! eines typischen Spannungsverlaufes eines stimmhaften Lautes,

F i g. 4 das Blockschaltbild einer Anordnung zur Durchführung des Verfahrens nach der Erfindung und

F i g. 5 das Blockschaltbild einer weiteren Anordnung zur Durchführung des erfindungsgemäßen Verfahrens.

Zum leichteren Verständnis der Wirkungsweise des erfindungsgemäßen Verfahrens und der dieses Verfahren realisierenden Schaltungsanordnung! sei anhand der F i g. I bis 3 die Zusammensetzung der Sprache betrachtet.

Die Sprache läßt sich unterteilen in Vokale. Halbvokale, stimmhafte Konsonanien, stimmlose Konsonanten und Explosivlaute. Eine Analyse gesprochener Vokale im Frequenzbereich ergibt, wie Fig. 1 und 2 zeigen, daß die Spektren der Vokale Linienspektrtii sind, die neben einer durch die Stimmbandlänge festgelegten und durch äußere Reize beeinflußbaren Grundfrequenz eine Anzahl von Frequenzen enthalten, die ganz/iihlige Vielfache dieser Grundfrequenz sind. Die semantische Bedeutung eines Vokales wird, wie Helmholtz festgestellt hat. fast ausschließlich von der Umhüllenden der Frequenzspektrums geprägt und bleibt nahezu unbeeinflußt von der Grundfrequenz des Lautes und von der gegenseitigen Phasenlage der einzelnen Frequcnzkomponenten. Die Hiillkurven der in Fig. 1 und Fig. 2 dargestellten Frequenzspektren lassen in den Maxima, die sogenannten Formanten, deren Lage und Höhe für die einzelnen Vokale charakteristisch sind erkennen. So liegen die Formantfrequenzen des Vokales e nach Fig. 1 bei einer Grundfrequenz von 128Hz bei Fl =380 Hz, F2 = 1900 Hz und F3 = 2400 Hz, während sie bei dem

Vokal u gemäß F i g. 2 bei der gleichen Grundfrequenz bei FI= 380 Hz, F2 = 1500 Hz und F3 = 2600 Hz liegen. Die Festlegung des Sprachbandes nach der CCI-Norm wurde dadurch bestimmt, daß die Grundfrequenz zur Vokalerkennung nicht vonnöten ist, und daß die Formantfrequenzen nahezu aller Vokale unterhalb 3400 Hz liegen.

Eine Darstellung des typischen Spannungsverlaufs eines Vokales in der Zeitebene zeigt Fig. 3. Ihr ist zu entnehmen, daß sich die Schwingungen mit der Zeit 11 periodisch wiederholt, die der Grundfrequenz des Sprachsignals umgekehrt proportional ist, unabhängig davon, ob die in Fig. 3 abgebildete Schwingung die Grundfrequenz enthält oder nicht.

Die erwähnten Halbvokale weisen ebenso wie die Vokale ein Linienspektrum auf mit mehr oder weniger scharf ausgeprägten Formantbereichen.

Stimmlose Konsonanten werden nur durch Geräusche gebildet, während bei stimmhaften Konsonanten Geräusche und Stimmbandschwingungen zusammenwirken. Die durch Geräusche erzeugten Laute weisen ebenso wie die Explosivlaute kein Linienspektrum mehr auf wie die Vokale, sondern ein kontinuierliches Spektrum.

Das in Fig. 4 dargestellte Blockschaltbild einer Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens enthält eine aus π Stufen (r 1 bis τη) bestehende Laufzeitkette mit n-Abgriffen (1 bis n). Weiter ist ein Vergleicher 7, ein Zähler 6 und ein Schalter 5. der mit Hilfe des Taktgenerators 4 weitergeschaltet wird, vorgesehen. Am Eingang 8 der Laufzeitkette und am Vergleicher 7 liegt eine Signalspannung an, die nicht die Grundfrequenz enthält und deren Verlauf in Fig. 3 dargestellt ist. Durch den mit Hilfe des Taktgenerators 4 von Abgriff 1 bis Abgriff η weitergeschalteten Schalters wird die jeweils wirksame Verzögerungszeit verändert. Die unverzögerte Signalspannung und die durch die Laufzeitkette verzögerte Signalspannung werden im Vergleicher 7 verglichen. Bei wenigstens annähernder Übereinstimmung, die dann erreicht ist, wenn das verzögerte Signal dem ^i~iV*_rZGgCi"iCri oi5M<lt gciduc Ulli UlC /-CllspallllC ί i nacheilt, wird der Stand des durch die Taktimpulse fortgeschalteten Zählers 6 an seinem Ausgang 9 abgegeben. Der Zählerstand ist umgekehrt proportional der Grundfrequenz des am Eingang 8 anliegenden Frequenzgemisches des Sprachsignals. Unmittelbar nach Abgabe des Zählerstandes werden der Schalter 5 und der Zähler 6 in ihre Ausgangsstellungen gebracht.

Die Verzögerungszeit 11 vom Eingang 8 bis zum Ausgang 1 der ersten Stufe der Laufzeitkette, die sowohl in analoger als auch in digitaler Technik ausgeführt werden kann, richtet sich nach der höchsten zu erwartenden Grundfrequenz. Beispielsweise ist ein Wert von rl = 3 ms klein genug, da der sich daraus ergebende Grenzwert der Grundfrequenz von 333 Hz von männlichen Stimmen praktisch nie erreicht und von weiblichen Stimmen kaum überschritten wird. Diese Begrenzung der Verzögerungszeit der ersten Stufe r 1 der Laufzeitkette kann umgangen werden, wenn man mit einer hier nicht näher gezeigten Zusatzeinrichtung die Anzahl der Minima während der Gesamtlaufzeil aller Stufen, also pro Abtastperiode, zählt. Aus diesem Zählergebnis läßt sich die Grundfrequenz bestimmen. Die Gesamtverzögerungszeit aller Stufen (r 1 bis τη) der Laufzeitkette richtet sich nach der tiefsten zu erwartenden Frequenz. Eine Gesamtlaufzeit von beispielsweise größer 12,5 ms reicht aus, um eine Grundfrequenz von 80 Hz zu bestimmen, deren Reziprok wert die Schwingungsdauer /1 = 12,5 ms ist.

In Fig. 5 ist eine weitere Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens gezeigt. Sie enthält ebenso wie die der Fig.4 eine aus η Stufen gebildete Laufzeitkette, die ebenfalls entweder analog oder digital ausgeführt sein kann, einen Zähler 6 und einen durch einen Taktgenerator 4 fortgeschalteten Schalter 5. Weiter ist eine der Anzahl der Laufzeitkettenstufen gleiche Anzahl von Differenzverstärkern, von Dioden und von mit den Dioden in Rpihe gesrhaltptr parallele Widerstand-Kondensator-Integrierglieder vorgesehen. Jeweils ein Eingang der Differenzverstärker ist mit den Ausgängen der Stufen r 1 bis τη in der Laufzeitkette verbunden, während der jeweils andere Ausgang mit der unverzögerten Signalspannung gespeist wird. Die Ausgangsspannungen der Differenzverstärker und damit die Spannungsdifferenz zwischen dem verzögerten und dem nicht verzögerten Signal werden jeweils in den Integriergliedern (R. C) gesammelt und von dem umlaufenden Schalter 5 abgetastet. Der Schalter wird solange von Abgriff zu Abgriff geschaltet, bis die jeweilige Spannung einen vorgegebenen Wert Us unterschreitet, somit eine minimale Differenz zwischen verzögerter und unverzögerter Signalspannung gegeben ist. Das Unterschreiten der Spannung Us bewirkt, daß der Zähler an seinem Ausgang 9 seinen augenblicklichen Stand abgibt, der. wie bereits beschrieben, umgekehrt proportional zur Grundfrequenz des Eingangssignals der Schaltung ist, und daß anschließend der Zähler und der Schalter in ihre Grundstellungen zurückgesetzt werden. Dies erfolgt hier beispielsweise mit Hilfe eines Transistors, der in dem Moment stromundurchlässig wird, in dem die Basibvurspaririung kleiner ais die am Emitter anliegende Spannung i/swird.

Die Anzahl der Stufen der Laufzeitkette bestimmt sich aus der gewünschten Genauigkeit der Grundfrequenzmessung; die Genauigkeit wird größer, wenn die Anzahl der Stufen vergrößert wird. Zusätzlich ist durch die Anzahl der Stufen die in Fig. 5 eingezeichnete Spannung Us festgelegt, da diese durch einen Minimalwert der Spannung an einem der Abgriffe 1 bis η s'"her unterschritten werden muß.

Konsonanten, die, wie bereits erwähnt, ein kontinuierliches Frequenzspektrum haben, können mit Hilfe der angegebenen Schaltungsanordnung nach dem erfin-

• dungsgemäßen Verfahren dadurch erkannt werden, daß der Vergleicher kein Minimum zwischen der verzögerten und der unverzögerten Signalspannung feststellt und der Zähler somit einen Wert abgibt, der größer ist als die Gesamtzahl der vom Schalter 5 abgetasteten Abgriffe 1 bis n.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen Signales, insbesondere eines Sprachsignales, das durch Be- ■> grenzung des Frequenzbandes die Grundfrequenz nicht mehr enthält, dadurch gekennzeichnet, daß das Signal um mehrere aufeinanderfolgende Zeitabschnitte verzögert wird, daß die erzeugten zeitverzögerten Signale mit jeweils ein und demselben gerade vorliegenden Momentanwert des Eingangssignals unter Differenzbildung verglichen werden und daß die Verzögerungszeit desjenigen zeitverzögerten Signals, das den ersten auftretenden unter einem vorgegebenen Minimalschwellenwert liegenden Differenzpegel liefert als die der Grundfrequenz entsprechende Periodendauer weiterverwendet wird.

2. Verfahren nach Patentanspruch 1, dadurch gekenn7eu.-nnet, daß das Signal um mehrere gleichgroße Zeitabschnitte verzögert wird, daß jedes der erzeugten zeitverzögerten Signale getrennt in einer der jeweiligen Verzögerungsstufe zugeordneten Vergleichs"orrichtung mit dem momentan auftretenden Eingar gssignal unter Differenzbildung verglichen und das Vergleichsergebnis fortlaufend in einer jeder Vergleichsvorrichtung zugeordneten Speichereinrichtung für eine gewisse Zeit gespeichert wird und daß die einzelnen Speicher nacheinander in einer Reihenfolge abgefragt werden, die durch die Verzögerungszeit der ihnen zugeordneten v"erzög,.-rungsstufe festgelegt ist.

3. Verfahren nach Ansprucl I. dadurch gekennzeichnet, daß bei der Auswertung eines Sprachsignales als Kriterium für die Unterscheidung eines stimmhaften von einem stimmlosen Laut der übertragenen Sprachinformation das Auftreten von, eine vorgegebene Schwellwertspannung unterschreitenden Minima des Vergleichsergebnisses aus ίο dem Eingangssignal und aus den einzelnen Abtastproben dient.

4. Schaltungsanordnung zur Durchführung eines Verfahrens nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, daß eine Laufzeitkette mit η Stufen (r 1 bis τη) vorgesehen ist, daß ein im Rhythmus eines Taktes an die Abgriffe (1 bis n)der Laufzeitkette angelegter Abtastschalter (S) vorgesehen ist, daß weiter ein Vergleicher (7) vorgesehen ist, der die von den Abgriffen (1 bis n)der Laufzeitkette w über den Abtastschalter (5) abgegebenen Signalspannungen mit der Spannung des unverzögerten, am Eingang der Laufzeitkette anliegenden Signales vergleicht, und daß ein Zähler (6) vorgesehen ist. der die den Abtastschalter (.5) weiterschaltenden Pulse v> zählt, bis vom Vergleicher (7) das erste Minimum zwischen den zu vergleichenden Spannungen festgestellt ist.

5. Schaltungsanordnung nach Anspruch 4, dadurch gekennzeichnet, daß Differenzverstärker (10) verge- «> sehen sind, die mit ihrem jeweils ersten Eingang an die Ausgänge der Stufen (rl bis xn)tex Laufzeitkette angeschaltet sind und deren jeweils zweiter Eingang mit dem Eingang der Laufzeitkette verbunden ist, daß mit Masse verbundene Summier- h^r> glieder, insbesondere integrierende Glieder aus einer Parallelschaltung je eines Widerstandes und eines Kondensators, vorgesehen sind, die mit den Abgriffen (1 bis n) und über eine Diode mit den Ausgängen der Differenzverstärker verbunden sind, und daß als Vergleicher insbesondere ein n-leitender, mit seinem Emitter an eine Vergleichsspannungsquelle (Us) angeschlossener Transistor vorgesehen ist, dessen Basis mit dem Abtastschalter (5) und dessen Kollektor mit dem Zähler (6) verbunden ist

6. Schaltungsanordnung nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, daß eine Laufzeitkette vorgesehen ist, deren Gesamtverzögerungszeit (T) größer ist als die Schwingungsdauer (t 1) der niedrigsten zu erwartenden Grundfrequenz.

7. Schaltungsanordnung nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, daß eine erste Stufe (r 1) einer Laufzeitkette vorgesehen ist, deren Verzögerungszeit kleiner ist als die Sch\ungungsdauer der höchsten zu erwartenden Grundfrequenz.