-
Verfahren und Anordnung zur Echtzeitermittelung der Übertragungsfunktionen
von Systemen Die Erfindung bezieht sich auf ein Verfahren und eine anordnung zur
Echtzeitermittlung der Übertragungsfunktionen von Systemen, deren Eigenschaften
nur kurzzeitig, z.B. einige Millisekunden, konstant sind. Derartige Verfahren finden
z.B. Verwendung bei der Echtzeitermittlung der Übertragungsfunktion des Vokaltraktes
bei der Analyse der menschlichen Sprache, sowie zur Ermittlung der Formanten in
Echtzeit.
-
3ei der Analyse der menschlichen Sprache ist man daran interessiert,
das akustische Sprachsignal von seiner Redundanz zu befreien. Der nichtredundante
Anteil kann dann abgespeichert und zur Erzeugung der Steuerbefehle für einen Sprachsynthetisator
(Vokoder) benutzt werden. Zur Charakterisierung des nichtredundanten Sprachanteils
genügen die ersten drei Polstellen der Übertragungsfunktion (die Formanden) und
die Tonhöhe.
-
Die aus der Literatur (siehe Anhang) bekannten Alalyseverfahren weisen
den Nachteil auf, nicht in Echtzeit zu arbeiten. Sie
benötigen Analysezeiten
zwischen dem 500-fachen und dem 6000-fachen der Echtzeit (Untersuchungen von Liedke,
Giloi).
-
Aufgabe der vorliegenden Erfindung ist, ein Verfahren und eine Anordnung
zu schaffen, die in der Lage sind, die zur Sprachsynthese erforderlichen Parameter,
nämlich die Tonhöhe und die drei ersten Formanten, in Echtzeit zu ermitteln.
-
Das erfindungsgemäße Verfahren besteht darin, daß gleichzeitig die
Fouriertransformierten der Eingangs- und der Ausgangsinformationen gebildet werden
und diese beiden Transformierten durcheinander dividiert werden.
-
Eine zur Durchführung dieses Verfahrens geeignete Anordnung enthält
für beide Informationen äe einen Tiefpaß, einen Analog-Digital-Wandler, ein Schieberegister,
einen Digital Analog-Wandler, einen weiteren Tiefpaß, einen Multiplizierer und einen
Demodulator sowie einen die Abtasttrequenz liefernden Taktgenerator.
-
Zusätzlich zu der durch die Echtzeitermittlung erhaltenen Zeitersparnis
ergibt sich ein weiterer Vorteil, denn bei der Echtzeitanalyse können die Analyseergebnisse
sogleich wieder zur Synthese benutzt werden und mit der gesprochenen Sprache verglichen
werden. Aus dem Vergleich werden dann Steuersignale abgeleitet, die die hnalyseprozedur
dahingehend beeinflussen, daß Analysefehler korrigiert werden können, sogenannte
Analyse durch Synthese.
-
Anhand der Zeichnung wird die Erfindung beispielsweise beschrieben.
Darin zeigen Fig. 1 das Prinzip der Analyse durch Synthese, Fig. 2 das Prinzip zur
Bildung einer Übertragungsfunktion, Fig. 3 ein Blockschalfbild einer Anordnung zur
Ermittlung der Übertragungsfunktion, Fig. 4 ein Blockschaltbild, mit dem die Anordnung
nach Fig. 3 zur sichtbaren Darstellung ergänzt werden kann, Fig. 5 eine mögliche
Anordnung zur Gewinnung der Frequenz der Grundschwingung, Fig. 6 ein Blockechaltbild
zum Auffinden der Maxima, Fig. 7 ein Blockschaltbild für eine Anordnung zur Ermittlung
der Formanten, und Fig. 8 das Prinzipschaltbild einer Anordnung sur Maximabestimmung
durch Nomentbildung.
-
Bei der menschlichen Spracherzeugung werden der Artikulationstrakt
und seine Eigenschaften für kurze Zeitintervalle im Millisekundenbereich als zeitinvariant
und als linear angenommen.
-
Somit kann man die Sätze der Theorie zeitinvarianter, linearer Systeme
darauf anwenden.
-
Eingangsgröße für dieses System ist die stark oberwellenhaltige Stimmbandschwingung,
im folgenden mit fein bezeichnet, Ausgangsgröße ist die gesprochene Sprache, faug
Das Systems also der Vokal- oder Artikulationstrakt, dient als Filter und ist charakterisiert
durch seine Übertragungsfunktion.
-
Dabei entsprechen die Pol stellen dieser Funktion den gesuchten Formnten.
-
Bei der Sprachsynthese wird dann ein System mit gleicher Lage der
Pol stellen von einer oberwellenhaltigen Schwingung bei stiminhaften Lauten und
vom Rauschen bei stimmlosen Lauten angeregt.
-
Bei der Formantenanalyse besteht die Aufgabe darin, die Übertragungsfunktionen
CL (w) des Vokaltraktes zu bilden und diese auf Maxima, die Formanten, zu untersuchen.
Der systemtheoretische Zusammenhang zwischen Stimmbandschwingungen, Vokaltrakt und
der gesprochenen Sprache ist durch Gleichung 1 wiedergegeben:
Es muß also die Spektralfunktion der gesprochenen Sprache (der Ausgangsgröße) durch
die Spektralfunktion der Eingangsgröße (der Stimmbandschwingung) dividiert werden,
um die Übertragungsfunktion zu erhalten.
-
Die Stimmbandschwingung läßt sich durch ein Eehlkopfmikrophon, durch
glotto- bzw. myographische Verfahren oder durch deren Kombinationen aufnehmen, während
die gesprochene Sprache mit einem handelsüblichen Mikrophon aufgenommen wird.
-
Bei der Analyse durch Synthese (Fig. 1) wird ein Eingang signal 1
in einer Schaltung 2 einer Analyse unterworfen und gleichzeitig einem Laufzeitglied
3 zugeführt. Das Ergebnis der Analyse wird in einer weiteren Schaltung 4 einer Synthese
unterworfen, deren Ergebnis einem Vergleicher 5 zugeftüirt wird. Gleichzeitig gelangt
das durch das Laufzeitglied 3 verzögerte Eingangssignal in den Vergleicher 5. Das
Vergleichsergebnis gelangt wiederum in die Analyse-Schaltung 2.
-
Zwischen dieser Analyse-Schaltung 2 und der Synthese-Schaltung 4 werden
die Analyseparameter an einem Ausgang 6 entnommen.
-
Bei der Bildung der Übertragungsfunktion nach Fig. 2 gelangt die gesprochene
Sprache, nämlich das Signal faus, auf einen Eingang 11 eines ersten Echtzeit-Spektralanalysators
12, während die Stimmbandschwingung, nämlich die Größe fein, auf einen Eingang 13
eines zweiten Echtzeit-Spektralanalysators 14 gelangt. Die Ausgänge beider Echtzeit-Spektralanalysatoren
12 und 14 werden einem Dividierer 15 zugeführt, dessen Ausgangsspannung die Übertragungsfunktion
darstellt und gleichzeitig in einer Schaltung 16 auf Maxima (Formanten) untersucht
wird.
-
Im Prinzip wird für beide Funktionen, fein und faus,gleichzeitig in
Echtzeit die Transformation in den Spektralbereich per Zeitkompressionsheterodyneverfahren
durchgeführt, und die beiden Resultate werden zeitsynchron durcheinander dividiert.
Alle drei Operationen werden in hardware realisiert.
-
Daran schließt sich eine Anordnung an, die die Maxima der Übertragungsfunktion
sucht. Die Suchstrategie kann jedoch auch von einem Rechner in Echtzeit software-mäßig
durchgeführt werden. Dann hat die hardware-mäßige Bildung der Übertragungsfunktion
die Aufgabe, die zeitlich aufwendigsten Teile der Analyse zu übernehmen und so den
Rechner zu entlasten, daß er nur die Maximabestimmung auszuführen braucht.
-
Damit wäre es möglich, für verschiedene Sprachabschnitte die jeweils
günstigste Suchstrategie zu benutzen. Die Entscheidung, welche Strategie für welchen
Sprachabsohnitt gewählt wird, würde von einem Vergleicher getroffen, der die gesprochene
Sprache mit der aus den gefundenen Formanten synthetisierten Sprache vergleicht.
-
Anhand des Blockschaltbildes nach Fig. 3 ist die Bunktionsweise der
Schaltung zur Ermittlung der Übertragungsunktion erklärt.
-
Die Frequenz fau8 gelangt auf einen Eingang 41 eines ersten Tiefpasses
42, dessen Grenzfrequenz der halben Abtastfrequenz entspricht. Der Ausgang des Tiefpasses
42 ist mit einem ersten Eingang eines Analog-Digital-Wandlers 43 verbunden, der
die kontinuierliche Zeitfunktion digitalisiert und Jede abgetastete Amplitude mit
n Bitstellen verschlüsselt.
-
Dabei ist die Anzahl n der benötigten Bitstellen von der gewünschten
Dynamik abhängig und läßt sich nach Gleichung 2 zu dB . T (2) ermitteln.
-
Dabei gibt 3 den Dynamikumfang in dB an.
-
per Ausgang des Analog-Digital-ltrandlers 43 ist mit einem ersten
Eingang eines Schieberegisters 44 verbunden. Die Länge dieses Schieberegisters 44
in Bitstellen entspricht dem Zeitkompressionsfaktor, wobei sich dieser Faktor k
als Quotient aus der für die Heterodyneanalyse ohne Kompression benötigten Zeit
t0 und der dafür zur Verfügung stehenden Zeit tv ergibt: k = t° (3) 7 tv ist durch
die Änderungsgeschwindigkeit der Systemeigenschaften bestimmt. tv gibt die Zeit
an, für die die Systemeigenschaften al-s konstant angenommen werden können.
-
Zwischen jedem Einleseschritt wird der Speicherinhalt des Schieberegisters
einmal im Kreis geschoben, so daß am Registerausgang die eingelesenen Werte mit
einer um den Zeitkompressionsfaktor k erhöhten Geschwindigkeit erscheinen.
-
Die ausgelesenen Werte werden dann einen zweiten Digital-Analog-Wandler
45 zugeführt und sodann durch einen zweiten Tiefpaß 46 geschickt, der die Quantisierungseffekte
des Digital-Analog-Wandlers 45 eliminiert.
-
Die nun wieder analoge, um den Zeitkompressionsfaktor k in einen höheren
Frequenzbereich transponierte Zeitfunktion wird mit der Frequenz eines in Stufen
einstellbaren Oszillators 71 multiplikativ gemischt, und die entstehenden Mischprodukte
fosz-
fein und osz + fein werden durch ein drittes Tiefpaßfilter 48 mit einer Grenzfrequenz
fg geschickt. Die Grenzfrequenz ergibt sich zu: fg = k . af = auf to (4) tv Datei
ist Af-die in unkomprimierten Zeitbereich erzielbare Frequenzauflösung. Sie ist
durch die Länge des Zeitfensters, während dessen die Systemeigenschaften als konstant
angenommen werden, bestimmt.
-
Dem Ausgang des Filters 48 folgt eine Demodulatorstorschaltung 49,
die eine Spannung erzeugt, die der spektralen Energie der Frequenz fosz/k proportional
ist. Zwischen je zwei Einleseschritten des Schieberegisters wird eine Analyse auf
einen Frequenzwert durchgeführt. Die jeweilige Oszillatorfrequenz ist gegeben durch
wobei eo die tiefste Frequenz ist, auf die das Spektrum untersucht werden sol. N
ist das Verhältnis der höchsten im Spektrum vorkommenden Frequenz zu feo.
-
Somit erfolgen in einem Zeitfenster k Analysen auf Je eine Frequenz.
Die Summe aller Analysen in diesem Zeitraum stellt das Spektrum der zu untersuchenden
Zeitfunktion für die Dauer einer Fensterlänge dar.
-
Bei der Erfindung werden zwei dieser beschriebenen Zeitkompressions-Heterodyneanalysatoren
benutzt, wobei einer die gesprochene Sprache5 der andere die Stimmbandschwingung
analysiert. Demzufolge gelangt nach Fig. 3 die Schwingung fein auf einen Eingang
53 eines vierten Tiefpaßfilters 54, sodann auf einen dritten Analog-Digital-Wandler
55, ein zweites Schieberegister 56, einen vierten Digital-Analog--Wandler 57, ein
fünftes Tiefpaßfilter 58, einen zweiten Multiplizierter 59 und ein sechstes Tiefpaßfilter
60 auf einen zweiten Demodulator 61.
-
Ein Taktgenerator 63 gibt die Abtastfrequenz auf Eingänge 64 bzw.
65 des ersten Analog-Digital-Wandlers 43 bzw. des dritten Analog-Digital-Wandlers
55. Im Taktgenerator 63 erfolgt zugleich eine Vervielfachung der Taktfrequenz um
den Faktor h-, und diese Frequenz wird einem zweiten Eingang 66 des ersten Schieberegisters
44, einem Eingang 67 eines Teilers 68 und einem zweiten Eingang 69 des zweiten Schieberegisters
56 zu geführt. Das Teilerverhältnis des Teilers 68 ist wählbar zwischen 1 : 1, 1
: 2, 1 : 4 und 1 : 8.
-
Die Ausgangsspannung des Teilers 68 gelangt auf einen Eingang eines
Treppenspannungs-Generators 70, der den Oszillator 71 steuert, dessen Ausgangsspannung
den Eingängen 72 und 73 der Multiplizierer 47 und 59 zugeführt wird.
-
Die Ausgangsspannungen der Demodulatoren 49 und 61 werden einem Dividierer
52 zugeführt, dessen Ausgangsspannung zur
Formantbestimmung dient.
Die am Ausgang 50 des Demodulators 49 erhaltene Spannung kann einer Schaltungsanordnung
nach Fig. 4 zur sichtbaren Darstellung zugeführt werden. Die Ausgangssp.-nnung des
Demodulators 61 kann dagegen zur Tonhöhenbestimmung verwendet werden.
-
Somit erfolgen in einem Zeitfenster k Analysen auf je eine Frequenz.
Die Summe aller Analysen in diesem Zeitraum stellt das Spektrum der zu untersuchenden
Zeitfunktion für die Dauer einer Fensterlänge dar.
-
Bei der Erfindung werden also zwei dieser Zeitkompressions-Ileterodyneanalysatoren
benutzt, wobei einer die gesprochene Sprache, der andere die Stimmbandschwingung
analysiert. Der Synchronismus zwischen den beiden Analysen wird dadurch erzielt,
daß für beide Analysatoren der Taktgenerator63, der Treppenspannungsgenerator 70
und der Messoszillator 71 gemeinsam benutzt werden. Das bedeutet zusätzlich eine
Kostenreduktion der Anlage. Die beiden Spektralfunktionen werden in dem Analogdividierer
52 durcheinander dividiert, und man erhält als Ausgangsfunktion den Betrag der Übertragungsfunktion.
-
Wie in der Literatur gezeigt wird, kann auf die Phaseninformation
verzichtet werden, und es genügt deshalb, mit Beträgen zu arbeiten:
Die bisher beschriebene Schaltungsanordnung liefert drei Informationen:
a)
das Spektrum der gesprochenen Sprache b) das Spektrum der Stimmbandschwingung und
c) die Übertragungsfunktion, die auf verschiedene Weise weiterverarbeitet werden
können.
-
1. Das Spektrum der gesprochenen Sprache kann auf einem Oszillo graphen
oder von einem schnellen Registriergerät in Schtheit als "VISIBLE SPEECH" dargestellt
werden.
-
2. Aus dem Spektrum der Stimmbandschwingung kann die Tonhöhe ermittelt
werden.
-
3. Aus der Übertragungsfunktion können die Formanten ermittelt werden.
-
Um einen "VISIBLE SPEECH"- Recorder 24 (Fig. 4) anzuschließen, werden
an den Demodulatorausgang 50 (Fig. 3) ein logarithmischer Verstärker, ein einstellbares
frequenzbehängiges Netzwerk 21 und ein amplitudenabhängiges Netzwerk 22 geschaltet,
um gewünschte Gradationsentzerrungen für die grafische Darstellung zu ermöglichen.
Ist der "VISIBLE SPEECH"- Recorder digital anzusteuern, so wird hinter die beiden
Entzerrer noch ein Analog-Digital-Wandler 23 geschaltet.
-
Bei der Stimmbandschwingung handelt es sich um eine stark oberwellenhaltige
Zeitfunktion. In ihrem Spektrum erscheinen dann die Grundschwingung und in äquidistanten
Abständen die Oberwellen. Um die Frequenz der Grundschwingung zu erhalten, kann
eine Anordnung nach Fig. 5 benutzt werden.
-
Zum Zeitpunkt t0, dem Beginn der Analyse eines Zeitfenster wird ein
Zähler 32 gestartet, der die Impulse f£ eines Taktgenerators 31 zählt. Gestoppt
wird der Zähler durch den ersten im Spektrum auftauchenden Impuls, der der Stimmbandgrundsehwingung
entsprícht. enn die iaktfrequenz ft so gewählt wird, daß sie Gleichung 7 entspricht,
dann ft = #f . fs . sec. (7) zeigt der Zählerstand binär direkt die Grundfrequenz
an. Bei Gleichung 7 ist fs die Abtastfrequenz bei der Abtastung der Zeitfunktion
im ersten Analog-Digital-Wandler, k ist der Zeitkompressionsfaktor und fg ist die
Grenzfrequenz des Tiefpasses 48, 60, der auf den Mischer 47, 59 folgt.
-
Die Formanten sind die Maxima der Übertragungsfunktion. Für die Sprachsynthese
sind nur die ersten drei Maxima erfor- t derlich. Bs werden im folgenden drei in
"harderare" realisierte Verfahren angegeben, die gleichzeitig die Maxima ermitteln.
-
Die Ergebnisse der drei Verfahren werden miteinander verglichen, und
das wahrscheinlichste Ergebnis wird dann als Formant erkannt und ausgegeben.
-
Bestimmung der Maxima per Differentiation
nabe Maxima. Die Bedingung für das Auftreten von Maxima ist durch Gleichung 8 gegeben.
-
Daraus ergibt sich eine Schaltung zum Auffinden von Maxima in der
Schaltung nach Fig. 6.
-
Das Signal
gelangt aud einen Eingang 81 eines ersten Differentiiergliedes 82, dessen Ausgang
sowohl nit einen Eingang 83 eines ersten Operationsverstärkers 85 als auch mit einem
Eingang eines zweiten Differentiiergliedes 86 verbunden ist. Dem Operationsverstärker
85 wird gleichzeitig über einen zweiten Eingang 84 eine Referenzspannung zugeführt.
Iu diesem Operationsverstärker 85 werden die eintreffenden Signale hinsichtlich
auftretender Nulldurchgänge untersucht. Ein Ausgang 87 des Differentiiergliedes
86 ist mit einem ersten Ein gang eines zweiten Operationsverstärkers 88 verbunden.
Auch diesem wird über einen zweiten Eingang 89 eine Referenzspannung 90,91 zugeführt.
Die Ausgänge/ beider Operationsverstärker 85 und 88 gelangen auf die Eingänge einer
Gatterschaltung 92, an derem Ausgang 93 die Maxima, d.h. die Formanten, abnehmbar
sind.
-
Am Ausgang dieser Schaltungsanordnung nach Fig. 6 erscheint dann ein
Ausgangsimpuls, wenn die erste Differentiation der Funktion gleich Null ist und
wenn die zweite Differentiation eine negative Spannung liefert. Dieser Ausgangsimpuls
stoppt dann einen Zähler, der die Taktfrequenz ft nach Gleichung 7 zählt. Der Zählerstand
entspricht dann der Frequenz des ersten Formanten. Ist dieser gefunden, so wird
vom zweiten Ausgangsimpuls ein zweiter Zähler gestoppt, dessen Zählerstand der Frequenz
des zweiten Formanten entspricht. Anschließend wird vom dritten Ausgangsimpuls der
dritte Formant ermittelt. Es ist auch möglich, mit nur einem Zähler zu arbeiten,
der zu Beginn des Zeitfensters gestartet wird und zum Ende des Zeitfensters gestoppt
und zurückgesetzt wird. Wenn die Impulse, die das Auftreten von Maxima, d.h. von
Formanten, melden, erscheinen, dann wird der jeweilige
Zählerstand
über eine Dorsehaltung in ein Register übernommen.
-
statt mittels einer Differentiation kann die Maximabestimmung auch
durch eine Iteration erfolgen. Dazu werden im Prinzip von der zu unter-suchenden
Funktion die Funktionswerte zu auf einen derfolgenden Zeitpunkten miteinander verglichen.
Sobald der neue Wert zum Zeitpunkt to + #t kleiner ist als der Wert zum Zeitpunkt
t0, dann liefert ei.n Komparator ein Ausgangssignal, das anzeigt, daß das erste
Maximum gefunden ist. Das Signal besteht während negativer Steigungen der zu untersuchenden
Funktion und ist gleich Null während positiver Steigungen. Es wird bei Maxima eingeschaltet
und bei Minima ausgeschaltet. Aus den Vorderflanken dieses Signales wird ein Impuls
abgeleitet, der den gerade vorhandenen Zählerstand eines Zählers über eine Watteranordnung
in ein Register übernimmt. Falls die Frequenz des Taktes, der gezählt wird, Gleichung
7 entspricht, dann gibt der Zählerstand vermindert um 1 die Formantfrequenz gerade
binär verschlüsselt an. Beiden beiden nächsten Maxima werden die entsprechenden
anderen beiden Zählerstände, vermindert um jeweils 1, übernommen und so die beiden
anderen Formanten ermittelt. Die Anordnung nach Fig. 7 zeigt das Prinzip. Das zu
untersuchende Signal |# (#) | gelangt gleichzeitig auf den Eingang 101 eines Sampleand-Hold-Kreises
102, dessen Ausgang mit einem ersten Eingang 103 eines Vergleichers 105 verbunden
ist, und auf einen zweiten Eingang 104 dieses Vergleichers 105. Der Ausgang des
Vergleichers 105 ist mit dem Eingang eines Differentiiergliedes 106 verbunden, dessen
Ausgang mit einem ersten Eingang eines Zählers 107 verbunden ist. Einem zweiten
Eingang dieses Zählers
107 wird ein Taktpuls ft aus einem Taktgenerator
108 zugeführt. Am Ausgang 109 des Zählers 107 sind die Maxime, d.h.
-
die Pormanten entnehmbar.
-
Eine dritte Möglichkeit für die Maximbestimmung besteht in einer Momentbildung.
Dabei wird die Übertragungsfunktion in drei Frequenzbereiche unterteilt, und jeder
Teil wird nach dem Momentenverfahren auf Maxima untersucht. Dabei ergeben sich die
Formanten, bzw. die Maxima, nach den Gleichungen 9, 10 und 11:
n |
g . wo)1. iwo = f Forment 1 (9) |
n |
E (iwo) 1 |
i=o |
1 Jo ) \ iwo c |
E oJ1 iwo |
i-n ~ f i'ormant (lo) |
'=n |
icL(iwo) 1 |
i=n |
m |
"1I . iwo = 8 !'orman't 3 (11) |
i= = f ilormanJs 3 ( 1 1 ) |
m |
4 o) 1 |
Fig. 8 zeigt das Prinzip. Ein Sägezahngenerator 111 speist einen ersten Eingang
eines Multiplizierers 112, dessen Ausgang mit einem ersten Eingang eines ersten
Integrierers 115 verbunden ist.
-
Der Ausgang des Integrierers 113 gelangt auf einem ersten Eingang
eines Dividierers 114. Ein Taktgenerator 118 ist mit einem
ersten
Ausgang 119 auf einen ersten Eingang einer Gatterschaltung 120 gelegt. Einem zweiten
Eingang 121 dieser Gatterschaltung wird das zu untersuchende Signal zugeführt. Der
Ausgang dieser Gatterschaltung 120 ist mit einem zweiten Eingang des Multiplizierers
112 und einem eraten Eingang eines zweiten Integrierers 123 verbunden, dessen Ausgang
an einem zweiten Singang des Dividierers 114 liegt. Ein zweiter Ausgang 122 des
Taktgenerators 118 ist mit deu zweiten Bingängen der beiden Integrierer 113 und
123 verbunden. Am Ausgang 116 des Dividierers liegt ein Analog-Digital-lYandler
117, an dessen Ausgang 124. die Maxima, d.h. die Formanten,auftreten.
-
Der Sägezahngenerator 111 wird zu Beginn der Übertragungsfunktion1
also zum Beginn eines Zeitfensters,bei f = O Hz. gestartet.
-
Seine linear ansteigende Spannung wird mit dem jeweiligen Funktionswert
der Übertragungsfunktion multipliziert, und das Produkt wird anschließend integriert.
Die Integrationsdauer ti ist durch Gleichung 12 gegeben:
wobei n die obere Grenze des ersten Bormanten-8ereiches in Vielfachen der Frequenzauflösung
angibt.
-
Zur Zeit ti wird das Ausgangssignal des ersten Integrators 117 durch
das Ausgangsaignal des zweiten Integrators 123 dividiert, und das Ergebnis wird
analog-digital gewandelt. Das Ergebnis entspricht in dualer Darstellung der Frequenz
des ersten Formanten,
falls die Abtastfrequenz des Analog-Digital-Wandlers
117 der Gleichung 7 entspricht und die Frequenz des Sägezahnge nerators 111 gleich
der ursprünglichen Abstastfrequenz fs ist.
-
Nach der ersten Division werden die Integratoren 117 und 123 auf den
Spannungswert 0 Volt gesetzt, und sie beginnen nun eine neue Integration in dem
Bereich den zweiten Formanten bis zum Zeitpunkt ti2> der durch Gleichung 15 gegeben
ist, wobei 1 die obere Grenze des zweiten Formantbereiches ist und in Vielfachen
der Frequenzauflösung angegeben wird.
-
Danach wird die zweite Division durchgeführt und der entstehende Quotient
digital-analog--gewandelt und als zweiter Formant ausgegeben. Entsprechendes gilt
für den dritten Formanten, wobei die Integrationsgrenze durch Gleichung 14 gegeben
ist:
Die Faktoren n für den ersten, 1 für den zweiten und m für den dritten Formanten
sind einstellbar und werden bei einem Analysedurch-Synthesa-Verfahren als Stellgröße
für den Regelkreis, den dieses Verfahren im Grunde darstellt, benutzt.
-
Literaturhinweise: 1. Flanagh@n, Cocker et al., "Synthetic Voices
For Computers" IEEE Spectrum, Okt. 1970, S. 22 - 45, 2. Liedke, "Untersuchung an
Verfahren rechnergesteuerter Formantanalyse und Forrantsynthese auf systemtheoretischer
Basis.11 Dissertation TU Berlin, BB19, D 83, 1971, 3. Langenthal, Real-time Compresssion
Spektrum Analysis Saicor Signals TB 11.
-
Patentansprüche: