DE1200884B

DE1200884B - Verfahren zum Glaetten der Grundtoninformation in impulserregten Kanalvocodersystemen

Info

Publication number: DE1200884B
Application number: DEJ25601A
Authority: DE
Inventors: Dipl-Ing Dr Kurt Bandat; Dipl-Ing Erwin Paulus; Dr Wilhelm Spruth; Dipl-Ing Helmut Lamparter; Dipl-Ing Dr Ernst Rothauser
Original assignee: IBM Deutschland GmbH
Current assignee: IBM Deutschland GmbH
Priority date: 1964-04-06
Filing date: 1964-04-06
Publication date: 1965-09-16
Also published as: FR1509916A; GB1093102A; AT269950B; SE316807B

Description

Verfahren zum Glätten der Grundtoninformation in impulserregten Kanalvocodersystemen Die Erfindung betrifft ein Verfahren, welches auf den Anregungskanal eines impulserregten Vocoders angewendet wird, mit dem Ziel, durch Rauschen verursachte Fehler bei der Messung der Periodendauer stimmhafter Abschnitte des Sprachsignals durch die Bildung gewogener Mittelwerte der Periodendauer des Grundtones wesentlich zu verringern.
Für impulserregte Kanalvocodersysteme sind schon Methoden beschrieben worden, wie in zweckmäßiger Weise Informationen über die Anregungsfunktion abgeleitet werden können, die für stimmhafte Abschnitte des Sprachsignals auch über kleine Änderungen der Periodendauer des Grundtones, die von Periode zu Periode auftreten können, Aufschluß geben. Bei der späteren Synthese des Sprachsignals kann dadurch die Natürlichkeit der Sprache verbessert werden. Diese Methoden haben ferner den bekannten Vorteil, daß keine Stimmhaft-Stimmlos-Unterscheidung der Sprachlaute erforderlich ist. Der Nachteil dieser bekannten Methoden besteht jedoch vorwiegend darin, daß nur durch Rauschen wenig gestörte Sprachsignale verarbeitet werden können. Der Rauschanteil muß hier so gering gehalten werden, daß alle festgestellten Änderungen der Periodendauer dem Sprachsignal selbst und nicht dem Einfluß von Störungen zugeordnet werden können.
Da nicht immer durch Rauschen nur wenig gestörte Sprachsignale vorliegen, ist es die Aufgabe der Erfindung, ein Verfahren anzugeben, welches auch die Verarbeitung stärker durch Rauschen gestörter Sprachsignale gestattet.
Es wird daher ein Verfahren zum Glätten der durch Rauschen des Sprachsignals gestörten Grundtoninformation bei impulserregten Kanalvocodersystemen vorgeschlagen, welches erfindungsgemäß dadurch gekennzeichnet ist, daß während stimmhafter Abschnitte des Sprachsignals der durch störendes Rauschen verursachte Fehler bei der Messung der Periodendauer des Grundtones im Analyseteil des Vocoders durch die Bildung gewogener Mittelwerte verringert wird, indem jede Periode des Grundtones innerhalb eines Zeitintervalls entsprechend einer Funktion ihres Abstandes von einem bestimmten Punkt innerhalb des Intervalls bewertet wird und sodann die Summe aller innerhalb dieses Intervalls liegender bewerteter Perioden durch eine effektive Intervallänge dividiert wird, um die mittlere Periodendauer des Grundtones zu erhalten, und indem nach jeder Mittelwertbildung das Intervall um die mittlere Periodendauer verschoben wird.
Der Vorteil der Erfindung liegt also darin, daß bei stark verrauschten Sprachsignalen durch Anwendung des Verfahrens auf den Anregungskanal eines impulserregten Kanalvocoders bei der Sprachanalyse die Natürlichkeit der Sprache bei der späteren Synthese weitgehend erhalten bleibt.
Im folgenden wird die Erfindung an Hand der Zeichnung beispielsweise näher erläutert.
Die Zeichnung zeigt ein Blockschaltbild des Anregungskanals eines impulserregten Kanalvocoders. Wie bereits erwähnt,ist es vorteilhaft,bei der Sprachanalyse stark verrauschter Sprachsignale während stimmhafter Abschnitte des Sprachsignals für die spätere Sprachsynthese Mittelwerte der Periodendauer zu verwenden. Die Mittelwertbildung selbst erfolgt in den nachstehend beschriebenen Verfahrensschritten: Alle innerhalb eines gewissen Zeitintervalls liegenden Perioden des Grundtones werden zunächst gezählt. Dann wird die Anzahl der Perioden durch die Länge dieses Intervalls dividiert. Die durch die Division erhaltene mittlere Periodendauer des Grundtones gilt gemessen von einem bestimmten Zeitpunkt innerhalb des Intervalls. Nach jeder Mittelwertbildung wird das Intervall um den Mittelwert der Periodeadauer zeitlich verschoben. Eine allgemeinere Form der Mittelwertbildung wird ferner dadurch erreicht, daß jede innerhalb eines gewissen Intervalls liegende Periodendauer mit einer bestimmten Funktion ihres Abstandes von einem gewissen Punkt innerhalb des Intervalls bewertet wird. Danach werden die bewerteten Perioden aufaddiert; die Summe muß dann durch eine effektive Intervallänge divi,-diert werden, um die mittlere Periodendauer zu erhalten. Nach jeder Mittelwertbildung wird das Intervall wieder um die mittlere Periodendauer verschoben.
Wie die Zeichnung erkennen läßt, wird das Sprachsignal SPS zunächst in üblicher Weise einer Reihe von Spektrumkanälen SPK, die hier nicht weiter behandelt werden, und einem Anregungskanal ANK zugeführt. Ferner ist noch ein Diskriminatorkanal DK vorgesehen, der das Sprachsignal einem Diskriminator D zuführt, welcher feststellt, ob das im Augenblick vorliegende Sprachsignal stimmhaft oder stimmlos ist. Diese Unterscheidung ist erforderlich, da die Messung der Periodendauer nur bei stimmhaften Abschnitten des Sprachsignals vorgenommen wird. Der Anregungskanal ANK enthält in bekannter Weise ein nichtlineares Glied NLG und einen Bandpaß BP zur Eliminierung der Grundwelle des Sprachsignals. Der nachfolgende Schaltkreis ND stellt dann die Nulldurchgänge einer Richtung des Sprachsignals fest und gibt seine Information an einen Impulsformer IF, der je Nulldurchgang einer Richtung einen definierten Rechteckimpuls abgibt. Die Torschaltung Ti übernimmt zusammen mit dem Diskriminator D, über dessen Leitung sh die Stimmhaftinforination zur Torschaltung übertragen wird, die Steuerfunktion für die Messung der Periodendauer nur stimmhafter Abschnitte des Sprachsignals. Die Torschaltun- T2 dagegen schaltet unter Steuerung vom Diskriminator D aus über die Leitung sl die Rechteckimpulse der Anregungsfunktion während der stimmlosen Abschnitte des Sprachsignals direkt auf den Ausgang ANK' des Anregungskanals.
Immer, wenn also stimmhafte Sprachsignale festgestellt werden, werden die Anregungsimpulse, die von dem Impulsformer IF über die Torschaltung Ti und die Leitung li geliefert werden, zunächst einer Einrichtung 1 zur Messung der Periodendauer der Anregungsimpulse und anschließenden Speicherun 'g der gemessenen Periodendauer zugeführt. Die in dieser Einrichtung gewonnenen Ergebnisse werden dann zu einer Einrichtung II übertragen, die die Werte der Periodendauer innerhalb eines bestimmten Intervalls aufsummiert und abhängig von den Ergebnissen einer Einrichtung 111 die durch Division der in der Einrichtung 11 durch Summation gewonnenen Ergebnisse durch die Länge des bestimmten Intervalls über die Verbindungsleitung Vl eine Bewertung der mittleren Perlodendauer vornimmt.
Die Ausgangssignale der Einrichtung 111 werden einer Einrichtung IV zugeführt, welche die Erzeugung der Anregungsimpulse entsprechend dem berechneten Mittelwert der Peri6dendauer übernimmt. Diese Impulse gelangen über die Leitung 12 zum Ausgang ANK' des Anregungskanals.
Die so gewonnenen Mittelwerte der Periodendauer der Anregungsimpulse enthalten allerdings keine Informationen mehr über kleine Änderungen, die im Sprachsignal von Periode zu Periode auftreten. Die Mittelwertbildung wird daher vernünftigerweise nur dort angewendet, wo der Qualitätsverlust der synthetischen Sprache, verursacht durch die Fälschung der Analyseergebnisse infolge Rauschens, gegen den Qualitätsgewinn, verursacht durch die Berücksichtigung kleiner Schwankungen der Periodendauer, überwiegt. Eine aus dem Verfahren resultierende Anordnung zum Glätten der Grundtoninformation kann daher eine Zusatzeinrichtung darstellen, die es ermöglichen soll, auch stark verrauschte Sprachsignal.-zu analysieren, ohne bei der Synthese gegenüber der herkömmlichen Methode eine schlechtere Sprachqualität zu erzielen, mit dem Vorteil, daß das in vieler Hinsicht günstige Konzept des impulserregten Vocoders nicht aufgeaeben werden muß. Zwar erfordert die Zusatzeinrichtuna, eine Stimmhaft-Stimmlos-Unterscheidung, doch wird diese bei der Synthese nicht im üblichen Sinn verwendet. Sie dient nur dazu, für stimmhafte Abschnitte des Sprachsignals die Mittelwertbildun- im Anregungskanal zu veranlassen.
C, C

Claims

Patentanspruch: Verfahren zum Glätten der durch Rauschen des Sprachsignals gestörten Grundtoninformation bei impulserregten Kanalvocodersystemen, d a - durch gekennzeichnet, daß während stimmhafter Abschnitte des Sprachsignals der durch störendes Rauschen verursachte Fehler bei der Messung der Periodendauer des Grundtones im Analyseteil des Vocoders durch die Bildung gewogener Mittelwerte verringert wird, indem jede Periode des Grundtones innerhalb eines Zeitintervalls entsprechend einer Funktion ihres Abstandes von einem bestimmten Punkt innerhalb des Intervalls bewertet wird und sodann die Summe aller innerhalb dieses Intervalls liegender bewerteter Perioden durch eine effektive Intervallänge dividiert wird, um die mittlere Periodendauer des Grundtones zu erhalten, und indem nach jeder Mittelwertbildung das Intervall um die mittlere Periodendauer verschoben wird.