-
Verfahren zum Glätten der Grundtoninformation in impulserregten Kanalvocodersystemen
Die Erfindung betrifft ein Verfahren, welches auf den Anregungskanal eines impulserregten
Vocoders angewendet wird, mit dem Ziel, durch Rauschen verursachte Fehler bei der
Messung der Periodendauer stimmhafter Abschnitte des Sprachsignals durch die Bildung
gewogener Mittelwerte der Periodendauer des Grundtones wesentlich zu verringern.
-
Für impulserregte Kanalvocodersysteme sind schon Methoden beschrieben
worden, wie in zweckmäßiger Weise Informationen über die Anregungsfunktion abgeleitet
werden können, die für stimmhafte Abschnitte des Sprachsignals auch über kleine
Änderungen der Periodendauer des Grundtones, die von Periode zu Periode auftreten
können, Aufschluß geben. Bei der späteren Synthese des Sprachsignals kann dadurch
die Natürlichkeit der Sprache verbessert werden. Diese Methoden haben ferner den
bekannten Vorteil, daß keine Stimmhaft-Stimmlos-Unterscheidung der Sprachlaute erforderlich
ist. Der Nachteil dieser bekannten Methoden besteht jedoch vorwiegend darin, daß
nur durch Rauschen wenig gestörte Sprachsignale verarbeitet werden können. Der Rauschanteil
muß hier so gering gehalten werden, daß alle festgestellten Änderungen der Periodendauer
dem Sprachsignal selbst und nicht dem Einfluß von Störungen zugeordnet werden können.
-
Da nicht immer durch Rauschen nur wenig gestörte Sprachsignale vorliegen,
ist es die Aufgabe der Erfindung, ein Verfahren anzugeben, welches auch die Verarbeitung
stärker durch Rauschen gestörter Sprachsignale gestattet.
-
Es wird daher ein Verfahren zum Glätten der durch Rauschen des Sprachsignals
gestörten Grundtoninformation bei impulserregten Kanalvocodersystemen vorgeschlagen,
welches erfindungsgemäß dadurch gekennzeichnet ist, daß während stimmhafter Abschnitte
des Sprachsignals der durch störendes Rauschen verursachte Fehler bei der Messung
der Periodendauer des Grundtones im Analyseteil des Vocoders durch die Bildung gewogener
Mittelwerte verringert wird, indem jede Periode des Grundtones innerhalb eines Zeitintervalls
entsprechend einer Funktion ihres Abstandes von einem bestimmten Punkt innerhalb
des Intervalls bewertet wird und sodann die Summe aller innerhalb dieses Intervalls
liegender bewerteter Perioden durch eine effektive Intervallänge dividiert wird,
um die mittlere Periodendauer des Grundtones zu erhalten, und indem nach jeder Mittelwertbildung
das Intervall um die mittlere Periodendauer verschoben wird.
-
Der Vorteil der Erfindung liegt also darin, daß bei stark verrauschten
Sprachsignalen durch Anwendung des Verfahrens auf den Anregungskanal eines impulserregten
Kanalvocoders bei der Sprachanalyse die Natürlichkeit der Sprache bei der späteren
Synthese weitgehend erhalten bleibt.
-
Im folgenden wird die Erfindung an Hand der Zeichnung beispielsweise
näher erläutert.
-
Die Zeichnung zeigt ein Blockschaltbild des Anregungskanals eines
impulserregten Kanalvocoders. Wie bereits erwähnt,ist es vorteilhaft,bei der Sprachanalyse
stark verrauschter Sprachsignale während stimmhafter Abschnitte des Sprachsignals
für die spätere Sprachsynthese Mittelwerte der Periodendauer zu verwenden. Die Mittelwertbildung
selbst erfolgt in den nachstehend beschriebenen Verfahrensschritten: Alle innerhalb
eines gewissen Zeitintervalls liegenden Perioden des Grundtones werden zunächst
gezählt. Dann wird die Anzahl der Perioden durch die Länge dieses Intervalls dividiert.
Die durch die Division erhaltene mittlere Periodendauer des Grundtones gilt gemessen
von einem bestimmten Zeitpunkt innerhalb des Intervalls. Nach jeder Mittelwertbildung
wird das Intervall um den Mittelwert der Periodeadauer zeitlich verschoben. Eine
allgemeinere Form der Mittelwertbildung wird ferner dadurch erreicht, daß jede innerhalb
eines gewissen Intervalls liegende Periodendauer mit einer bestimmten Funktion ihres
Abstandes von einem gewissen Punkt innerhalb des Intervalls bewertet wird. Danach
werden die bewerteten Perioden aufaddiert; die Summe muß dann durch eine effektive
Intervallänge divi,-diert werden, um die mittlere Periodendauer zu erhalten.
Nach
jeder Mittelwertbildung wird das Intervall wieder um die mittlere Periodendauer
verschoben.
-
Wie die Zeichnung erkennen läßt, wird das Sprachsignal SPS zunächst
in üblicher Weise einer Reihe von Spektrumkanälen SPK, die hier nicht weiter behandelt
werden, und einem Anregungskanal ANK zugeführt. Ferner ist noch ein Diskriminatorkanal
DK vorgesehen, der das Sprachsignal einem Diskriminator D zuführt, welcher
feststellt, ob das im Augenblick vorliegende Sprachsignal stimmhaft oder stimmlos
ist. Diese Unterscheidung ist erforderlich, da die Messung der Periodendauer nur
bei stimmhaften Abschnitten des Sprachsignals vorgenommen wird. Der Anregungskanal
ANK enthält in bekannter Weise ein nichtlineares Glied NLG und einen Bandpaß BP
zur Eliminierung der Grundwelle des Sprachsignals. Der nachfolgende Schaltkreis
ND
stellt dann die Nulldurchgänge einer Richtung des Sprachsignals fest und
gibt seine Information an einen Impulsformer IF, der je Nulldurchgang einer
Richtung einen definierten Rechteckimpuls abgibt. Die Torschaltung Ti übernimmt
zusammen mit dem Diskriminator D, über dessen Leitung sh die Stimmhaftinforination
zur Torschaltung übertragen wird, die Steuerfunktion für die Messung der Periodendauer
nur stimmhafter Abschnitte des Sprachsignals. Die Torschaltun- T2 dagegen schaltet
unter Steuerung vom Diskriminator D aus über die Leitung sl die Rechteckimpulse
der Anregungsfunktion während der stimmlosen Abschnitte des Sprachsignals direkt
auf den Ausgang ANK' des Anregungskanals.
-
Immer, wenn also stimmhafte Sprachsignale festgestellt werden, werden
die Anregungsimpulse, die von dem Impulsformer IF über die Torschaltung Ti und die
Leitung li geliefert werden, zunächst einer Einrichtung 1 zur Messung der
Periodendauer der Anregungsimpulse und anschließenden Speicherun 'g
der gemessenen
Periodendauer zugeführt. Die in dieser Einrichtung gewonnenen Ergebnisse werden
dann zu einer Einrichtung II übertragen, die die Werte der Periodendauer innerhalb
eines bestimmten Intervalls aufsummiert und abhängig von den Ergebnissen einer Einrichtung
111 die durch Division der in der Einrichtung 11 durch Summation gewonnenen
Ergebnisse durch die Länge des bestimmten Intervalls über die Verbindungsleitung
Vl eine Bewertung der mittleren Perlodendauer vornimmt.
-
Die Ausgangssignale der Einrichtung 111 werden einer Einrichtung
IV zugeführt, welche die Erzeugung der Anregungsimpulse entsprechend dem berechneten
Mittelwert der Peri6dendauer übernimmt. Diese Impulse gelangen über die Leitung
12 zum Ausgang ANK' des Anregungskanals.
-
Die so gewonnenen Mittelwerte der Periodendauer der Anregungsimpulse
enthalten allerdings keine Informationen mehr über kleine Änderungen, die im Sprachsignal
von Periode zu Periode auftreten. Die Mittelwertbildung wird daher vernünftigerweise
nur dort angewendet, wo der Qualitätsverlust der synthetischen Sprache, verursacht
durch die Fälschung der Analyseergebnisse infolge Rauschens, gegen den Qualitätsgewinn,
verursacht durch die Berücksichtigung kleiner Schwankungen der Periodendauer, überwiegt.
Eine aus dem Verfahren resultierende Anordnung zum Glätten der Grundtoninformation
kann daher eine Zusatzeinrichtung darstellen, die es ermöglichen soll, auch stark
verrauschte Sprachsignal.-zu analysieren, ohne bei der Synthese gegenüber der herkömmlichen
Methode eine schlechtere Sprachqualität zu erzielen, mit dem Vorteil, daß das in
vieler Hinsicht günstige Konzept des impulserregten Vocoders nicht aufgeaeben werden
muß. Zwar erfordert die Zusatzeinrichtuna, eine Stimmhaft-Stimmlos-Unterscheidung,
doch wird diese bei der Synthese nicht im üblichen Sinn verwendet. Sie dient nur
dazu, für stimmhafte Abschnitte des Sprachsignals die Mittelwertbildun- im Anregungskanal
zu veranlassen.
-
C, C