-
"Verfahren zur Übertragung von Sprachsignalen" Die Erfindung betrifft
ein Verfahren zur Überträgung von Sprachsignalen mit verminderter Bandbreite, bei
dem zunächst die in digitale Borm gebrachten Sprachsignale einem Rechenwerk zur
Analyse des Sprachsignals und Berechnung von Schätzkoeffizienten und gleichzeitig
einem vom Rechenwerk gesteuerten Netzwerk zur Vorhersage des Signalverlaufs
zugeführt
werden, wobei mit diesem Netzwerk ein Fehlersignal gebildet wird, und bei dem anschließend
Behlersignal und Schätzkoeffizienten quantisiert einem Codierer zur Übertragung
des synthetischen Signals zugeführt werden, Nachrichtenübertragungssysteme für Sprachsignale,
die eine extreme Reduzierung der zu übertragenden Informationsmenge bei weitgehendem
Erhalt der Verständlichkeit und Natürlichkeit des Sprachsignals gestatten, müssen
so weit wie möglich Bezug nehmen auf die spezifischen statistischen Bigenschaften
des Sprachsignals.
-
Es ist bekannt, daß unter gewissen Voraussetzungen es genügt, statt
der übertragung des analogen oder digital codierten Sprachsignals nur die Parameter
des Sprechtraktes zu übertragen und aus diesen dann am Empfangsort ein künstliches
Sprachsignel zu regenerieren, das entsprechend den Einzelheiten der übertragenen
Parameter mit dem Sendesignal weitgehend identisch ist (Flanagen, Speech Analysis,
Synthesis and Perception, Springer Verlag Berlin 1972). Dieses Verfahren erfordert
eine hohe Bitrate und ergibt empfangsseitig eine mangelhafte Sprachwiedergabe.
-
Bei einer anderen Klasse von Verfahren wird neben den beschreibenden
Parametern zusäztlich noch ein Fehlersignal übertragell, das die am Empfangsort
mit Fehler regenerierte Sprachschwingung verbessern soll. Es ist dann eine weniger
genaue Übertragung der Beschreibungsparameter zulässig (IEEE Trans. on Comm. Tochn.
Vol. Com. 19, No. 6, Bez. 71).
-
Diese Verfahren liefern eine verbesserte Sprachwiedergabe, jedocJl
auf Kosten einer ebenfalls sehr hohen Bitrate.
-
Der Erfindung liegt die Aufgabe zgrunde, ein Verfahren anzugeben,
durch welches die Bitrate soweit reduziert wird, daß die Sprachübertragung auch
über schmalbandige Telefon-oder Funkkanäle bei guter Sprachqualität möglich ist.
-
Die Aufgabe wird gemäß der Erfindung dadurch gelöst, daß bei einem
Verfahren der Eingangs genannten Art die Aufteilung der zu übertragenden Informationsmenge
in Schätzkoeffizienten und Fehlersignal und/oder die Quantisierung der Schätzkoeffizienten
und des Fehlersignals vom Rechenwerk entsprechend der Statistik des zu übertragenden
Sprachsignals gesteuert wird.
-
Durch dieses Verfahren läßt sich die Bitrate ganz erheblich reduzieren.
Weitere Verbesserungen sind in den Unteransprühen angegeben. So wird Übertragungsbandbreite
zusät zlich eingespart, enn bei niedrigem Signalpegel des Fehlersignals, wie es
bei der Übertragung von Vollen der Fall ist - nur die Schätzkoeffizienten übertragen
werden.
-
Eine gleichzeitig optimale Ausnutzung des Übertragungskanals wird
erreicht, wenn zur übertragung der Schätzkoefizienten eine Runlengthcodlerun.g oder
Adresskopfcodierung angewendet wi.rd und diese vom dem Rechenwerk entsprechend der
Signalstatistik so gesteuert bzw. gepuffert wird, daß ein konstanter Informationsfluß
entsteht.
-
Auch kann durch eine vom Rechenwerk gesteuerte Aufteilung der übertragenen
Information in Fehlersignal und Schätzkoeffizienten ein konstanter Informationsfluß
erzeugt werden, wodurch in einfacher Weise die Ausnutzung des Kanals optimiert wird.
-
Stimmlose Laute besitzen als relevantes Signal vorwiegend das Fehlersignal,
so daß es weiterhin von Vorteil ist, in
diesen Fällen nur das Behlersignal
zu übertragen.
-
Wird die Analyse der Schätzkoeffizienten melodie synchron, d. h. entsprechend
der Bitfrequenz vorgenomnen, so wird Rechenzeit eingespart.
-
Eine weitere Reduzierung der zu übertragenden Bitrate wird erzielt,
wenn die Anzahl der gesendeten Schätziweffizienten signalabhängig gesteuert wird.
-
Durch die genannten Maßnahmen zur extremen Ausnutzung der Eigenschaften
des Sprachsignals wird die Informationsrate um den Faktor 5 bis 10 gegenüber den
bekannten Verfahren, d.h. bis unter 1000 bit/s vermindert. Dabei bleibt die Natürlichkeit
und Qualität des Sprachsignals weitgehend erhalten.
-
Sieht man einen konstanten Informationsfluß auf der ftbertragungsleitung
vor, so kann bei einem derartigen System durch verlangsamtes Einsprechen die Sprachqualität
wesentlich verbessert werden, was bei einem System mit fester Aufteilung der Informationsanteile
oder bei ähnlichen anderen Spracbübertragungssystemen nicht der Fall ist.
-
die Erfindung wird nun anhand eines Ausführungsbeispiels näher erläutert.
Es zeigen: Figur 1 Anregungsfunktion eines stinhaften Sprachsignals.
-
Figur 2 zeitlicher Verlauf eines stimmhaften Sprachsignals.
-
Figur 3 Ausführungsbeispiel eines sendeseitigen Analysenteils zur
Durchführung des erfindungsgemäßen Verfahrens.
-
Figur 4 Ausführungsbeispiel eines empfangsseitigen Syntheseteils zur
Durchführung des erfindungsgemäßen Verfanrens.
-
Das vorliegende Verfahren ist im wesentlichen gekennzeichnet durch
eine vom Sprachsignal selbst gesteuerte adaptierende Aufteilung der Übertragungsinformation
in Parameterinformation in Form von Schätzkoeffizienten und Anregungssignal - hier
Fehlersignal genannt - sowie eine ebenfalls singnalabhängige Quantisierung beider
Signale. Das Fehlersignal kennzeichnet bei hinreichender Zahl und Genauigkeit der
Parameterinformation die Größe der nichtlinearen Anregung des Sprech- oder Artikulationstraktes.
Es wird deshalb auch als Anregungssignal bezeichnet und in dieser Eigenschaft zur
Anregung des Syntheseteils des übertragungssystems verwendet.
-
Die Figuren 1 und 2 zeigen schenatisch die Entstehung eines stimmhaften
Sprachsignals s(t) aus einer Anregungsfunktion a(t). In Figur 1 ist eine impulsförmige
Anregungsfunktion aCt) gezeigt, wie sie beispielsweise von den Stimmbändern erzeugt
wird. Diese Anregungsfunktion regt in den Artikulationsorganen gedämpfte Eigenschwinzungen
gemäß Figur 2 an. Wegen der Eigenarten des Artikulationsprozesses kann dieser Vorgang
ohne großen Fehler als weitgehend linear angenommen werden. Es ist also möglich,
mit Hilfe eines Systems linearer Dii'ferentialgleichungen, dessen Koeffizienten
bekannt sind, allein aus der Anregungsfunktion das Sprachsignal hinreichend genau
zu rekonstruieren.
-
Verfahren, die derartige Koeffizienten ermitteln, di.ese übertragen
und mit ihrer Hilfe am Empfangsort ein Sprachsignal rekonstruieren, werden gewöhnlich
als lineare Prädiktoren bezeichnet. Zur übertragung von Sprachsignalen müssen solche
Prädiktorsysteme zweckmäßig adaptiv gemacht werden, da nur dann nennenswerte Einsparungen
an Übertragungsinformation möglich sind. Das bedeutet, daß die Schätzkoeffizienten
laufend neu zu berechnen und zu übertragen sind.
-
In Fig. 3 ist ein Ausführungsbeispiel für einen sondeseitigen Analyseteil
zur Durchführung des erfindungsgemaßen Verfahrens gezeigt Die von einem Mikrofon
1 in analoge elektrische Signale umgewandelten Sprachschwingungen werden zunächst
einem Analog/Digital-Wandler 2 zugeführt, der die analogen Signale abtastet und
die abgetasteten Werte digitalisiert. An dessen Ausgang liegt ein erster Eingang
eines modulo 2-Addierers 4 und ein Rechenwerk 3.
-
Der Ausgang des modulo 2-Addierers 4 führt über einen in den Quantisierungsstufen
vom Rechenwerk 3 steuerbaren Quantisierer 5 einmal zum Codierer 7 und zum anderen
zu einem ersten Eingang eines zweiten modulo 2-Addierers 6. Die abgetasteten digitalisierten
Werte gelangen in ein mKstufiges Schieberegister 8 mit m Parallelausgängen.
-
Jede Stufe des Schieberegisters 8 faßt den digitalisierten Wert eines
Abtastwertes des Sprechsignals.
-
Die Parallelausgänge des Schieberegisters führen zu einem Bewertungsglied
90 mit m Multiplikationsgliedern 91 und einem Summierglied 92 mit ebenfalls m Eingängen.
Die m Paralleleingänge des Schieberegisters 8 sind jeweils mit den entsprechenden
Eingängen der m Multiplikationsglieder und die Ausgänge
der Multiplikationsglieder
sind mit den m Eingängen des Summiergliedes 92 verbunden. Der Ans gang des Summiergliedes
92 ist an dem zweiten Ei.ngang des modulo 2-Addierers 4 und gleichzeitig Ün dem
zweiten Eingang des modulo 2-Addierers 6 angeschlossen. Die vom Rechenwerk ermittelten
Faktoren der Multiplizierglieder 91 werden als Schätzkoeffizienten ebenfalls dem
Codierer 7 zugeführt.
-
Die Funktion des Analysierteiles ist folgende: Nach der Analog/Digital-Wandlung
werden in dem Rechenwerk 3 die Schätzkoeffizienten ai aus dem digitalisierten Sprachsignal
errechnet und dem Bewertungsnetzwerk 90 übergeben.
-
Dieses Bewertungsnetzwerk besteht aus den Multipliziergliedern 91
und dem Summierglied 92 und ermittelt aus jeweils m zurückliegenden Signalwerten
sn-1 bis sn-m den n-ten Signalwert nach der Vorschrift
Dieser so ermittelte Signalwert wird vom Eingangssignal subtrahiert. Anschließend
wird das Differenzsignal, das gleichdem Fehlersignal ist, quantisiert, codiert und
übertragen.
-
Gleichzeitig speist das quantisierte Differenzsignal das Addiernetzwerk
6, in welchem zusammen mit dem vorhergesagten Signal das Ausgangssignal für die
nächste Vorhersage entsteht. Die berechneten Schätzkoeffizienten a1 bis am werden
ebenfalls codiert und übertragen. Dabei ist es von Vorteil, die Schätzkoeffizienten
vor der Codierung zu quantisieren und die Quantisierungsstufen der Quantisierer
für die Schätzkoeffizienten und für das Fehlersignal vom Rechenwerk entsprechend
der Statistik des zu übertragenden Sprachsignals zu steuern.
-
Am Empfangsort wird aus dem Sehlersignal und den übertragenen Schätzkoeffizienten
in gleichartiger Weise das Sprachsignal rekonstruiert.
-
Gemäß Figur 4 gelangen die komprimierten Sprachsignale vom übertragungskanal
K zur Decodierstufe 21, welche entsprechend der gewählten Decodierung das Fehlersignal
und die den Schätzkoeffizienten zugeordneten Signale zurückgewinnt. Das Fehlersignal
gelangt zu dem modulo 2-Addierer 22, an dessen Ausgang einerseits ein Digital/Analog-Wandler
23 mit der Sprachsignalwiedergabeeinrichtung 24 angeschlossen ist und andererseits
der Eingang eines m-stufigen Schieberegisters 81 liegt.
-
Die Stufen des Registers 81 sind zur Aufnahme der digitalisierten
Werte jeweils eines sendeseitigen Abtastwertes vorgesehen. Das an den Ausgängen
des Schieberegisters angeschlossene Bewertungsnetzwerk 901 mit den Multipliziergliedern
911 und dem Summierglied 921 entspricht dem Bewertungsnetzwerk 90 der Sendeseite.
Die Ausgangssignale des Bewertungsnetzwerkes 901 werden über den zweiten Eingang
des Addiergliedes 22 dem übertragenen Fehlersignal hinzuaddiert, so daß das ursprüngliche
digitalisierte Sprach signal zurückgewonnen wird. Die Multiplizierglieder 911 des
Bewertungsnetzwerkes werden entsprechend den decodierten Schätzkoeffizienten a1
bis am eingestellt.
-
Die Güte der übereinstimmung des- rekonstruierten Signals mit dem
analysierten Originalsignal hängt einerseits von der Zahl der Schätzkoeffizienten
und andererseits von dem Anteil an nichtlinearen Produkten im Sprachsignal ab. Daruber
hinaus spielt die Quantisierung und damit die Genauigkeit der übertragung des Differenzsignals
eine wesentliche Rolle.
-
Sprachsignale kann man nun qualitativ und auch quantitativ
aufteilen
in solche Lautes bei denen nach einer kurzen Erregung durch einen Luft stoß die
Resonanzen der Artikulationshohlräume gedämpft ausschwingen und in solche, bei denen
durch eine fortwährende Erregung dieses ungestörte Ausschwingen verhindert und gestört
wird. Ersteres sind im wesentlichen stimmhafte, letzteres hauptsächlich stimmlose
Laute.
-
Dementsprechen wird für stimmhafte Laute eine lineare Prädil'-tion
sehr gut funktionieren, während das bei den stimmlosen Lauten nicht zu erwarten
ist. Nan wird deshalb für stimmhafte Laute das Hauptgewicht der übertragung in die
Koeffizienten legen, während für stimmlose Laute die wesentliche Information in
das Fehlersignal gelegt wird. Die Steuerung dieser Informationsverteilung wird im
Rechenwerk für die Koeffizientenanalyse vorgenommen. Dieses Rechenwerk bestimmt
gleichzeitig noch die Art der Quantisierung und Codierung von Koeffizienten und
Fehlersignal. Zusätzlich soll auch die Anzahl der zu ermittelnden Koeffizienten
abhängig vom Signal gesteuert werden. Auf diese Weise ist es möglich, immer eine
optimale Übertragung der Information zu ermöglichen. Die Entscheidung über die Art
der Übertragung wird im Rechenwerk aus
Originalsignal und Differenzsignal
gewonnen. Im wesentlichen bestimmen Art und Amplitude des Differenzsignals diese
Aufteilung. Besitzt das Dif£erenzsignal beispielsweise eine hohe Nullstellendichte
und/oder hohe Amplituden, so weist das auf das Vorhandensein stimmloser Anteile
hin.
-
Ist das Fehlersignal jedoch periodisch an bestimmten Stellen, beispielsweise
zu Beginn einer Pitchperiode, sehr groß bei relativ kleiner Nullstellendichte, so
sind stimmhafte Anteile vorhanden.