DE2608244A1

DE2608244A1 - Verfahren zur analyse und synthese des differenzsignals bei praediktionsvocodern

Info

Publication number: DE2608244A1
Application number: DE19762608244
Authority: DE
Inventors: Helmut Dipl Ing Mangold; Juergen Dr Ing Schuermann
Original assignee: Licentia Patent Verwaltungs GmbH
Current assignee: Licentia Patent Verwaltungs GmbH
Priority date: 1976-02-28
Filing date: 1976-02-28
Publication date: 1977-09-15
Also published as: DE2608244C2

Description

Verfahren zur Analyse und Synthese des Differenzsignals
bei Prädiktionsvocodern Die Erfindung betrifft ein Verfahren zur Analyse und Synthese des bei der Sprachübertragung mit Hilfe von Prädiktoren entstehenden Differenzsignals.
Bei der Übertragung von Sprachsignalen mit Hilfe von Prädiktoren entsteht ein Differenzsignal, dessen Leistung gegenüber der ursprünglichen Leistung zwar vermindert, jedoch noch immer so groß ist, daß eine mehrstufige Übertragung notwendig ist. Um eine weitere Verminderung der Übertragungsrate zu erreichen, muß das Differenzsignal durch weniger schnell veränderliche Parameter beschrieben werden. In der DT-OS 23 03 497 ist ein Verfahren beschrieben, das die Aufteilung der zu übertragenden Informationsmenge in Schätzkoeffizienten und Differenzsignal und die Quantisierung der Schätzkoeffizienten und des Differenzsignals mit einem Rechenwerk entsprechend der Statistik des zu übertragenden Sprachsignals steuert. Durch dieses Verfahren läßt sich zwar die zu übertragende Bitrate reduzieren, dies jedoch zum Teil auf Kosten der Natürlichkeit des wiedergewonnenen Sprachsignals.
Die zu der Erfindung führende Aufgabe war es, ein Verfahren anzugeben, das bei geringer Bitrate eine wesentlich bessere Natürlichkeit des Sprachsignals erreicht als es nach dem beschriebenen Verfahren möglich war.
Die Aufgabe wird gelöst, wie im Anspruch 1 beschrieben.
Zweckmäßige Ausführungen sind in den Unteransprüchen genannt.
An einem Ausführungsbeispiel und anhand der Figuren 1 bis 8 sei im folgenden das Verfahren näher erläutert.
Fig. 1 zeigt den Übersichtsschaltplan eines Prädiktionsvocoders, bei dem das Differenzsignal d übertragen wird.
Fig. 2 zeigt zwei typische Differenzsignale über der Zeit t aufgetragen, wobei der zu rekonstruierende Abschnitt a kleiner gewählt ist, als die kleinste auftretende Pitchperiode.
Fig. 3 zeigt die zweidimensionale Darstellung des (beispielsweise 40-dimensionalen) Differenzsignalvektors im ursprünglichen Koordinatensystem dl, d2 und das dazu gehörige gedrehte Eigenvektorsystem bl, b2 ... Die Punktwolke zeigt die Endpunkte des Differenzsignalvektors bei vielen Messungen mit verschiedenen Wörtern und Sprechern.
Fig. 4 zeigt die Zusammensetzung des Differenzsignalvektors d aus Impulsanteilvektor y und Rauschanteilsvektor d, Fig. 5 zeigt die Normierung des rekonstruierten Differenzsignal-Vektors d auf die Länge von d, Fig. 6 zeigt die Normierung nur des Rauschanteilsvektors ds, Fig. 7 zeigt ein Ausführungsbeispiel, wie das im Anspruch 1 beschriebene Verfahren auf der Sendeseite verwirklicht werden kann. (F = Rechenwerk zur Berechnung der Faltung, D = Schwellenwertdetektor, R = Rechenwerk zur Bestimmung des Rauschanteils, C = Rechnwerk zur Berechnung des cos Fig. 8 zeigt ein Ausführungsbeispiel wie das im Anspruch 1 genannte Verfahren auf der Empfangsseite verwirklicht werden kann. (RG = Rauschgenerator, N = Rechenwerk zur Normierung).
Betrachtet man das Differenzsignal, so lassen sich im we* sentlichen zwei verschiedene Typen unterscheiden: Fig. 2a einen Mischtyp aus impulsförmiger Erregung und Rauschen und Fig. 2b einen überwiegend rauschähnlichen Typ.
Das Differenzsignal wird deshalb auf Impuls- und Rauschanteil hin analysiert und nur eine Beschreibung über zeitliche Lage und Höhe der Impulse und der Leistung des Rauschanteils übertragen und schließlich am Empfangsort ein Ersatzsignal {d} erzeugt, das anstelle von {d} im Empfänger zur Rekonstruktion des Sprachsignals verwendet wird. Aus der Folge (dj der Abtastwerte ... dk 2 dk 1 dk, dk+1 werden dazu Ausschnitte mit je n Abtastwerten herausgegriffen und als n Komponenten eines Vektors aufgefaßt.
T dk = (dk, dk-1, dk-2 .... dk-n+1) Diese Ausschnitte werden so groß gewählt, daß sie auch die kleinste auftretende Pitchperiode nicht überschreiten.
Daraus ergibt sich, daß gewisse Anteile im Bereich der Impulse recht genau rekonstruiert werden1 andere Anteile im Bereich rein rauschförmiger Erregung weniger genau.
Aus einer Vielzahl von Messungen verschiedener Wörter und Sprecher wurden die Stichproben der Abtastwerte des Differenzsignals, d.h. die Vektoren dk in einem n dimensionalen Koordinatensystem dargestellt, was eine Punktwolke charakteristischen Ausmaßes ergab (Fig. 3).
Durch eine Koordinatentransformation, d.h. Drehung und Verschiebung des Ursprungs in den Schwerpunkt der Punktwolke, wird erreicht, daß die Vektoren dk im neuen Koordinatensystem durch kleinere Komponenten beschrieben werden können. Dies bedeutet, daß weniger Leistung übertragen werden muß, um die Vektoren i zu übermitteln. Es hat sich sogar gezeigt, daß bei einer Beschränkung auf wenige wesentliche Komponenten nur ein kleiner Rekonstruktionsfehler gemacht wird. Oft genügt es auch, nur eine Drehung des Koordinatensystems vorzunehmen.
Die neuen Koordinaten, welche die verlangten Eigenschaften haben, werden mit Hilfe der Karhunen-Loeve-Transformation ausgerechnet und ergeben sich als die orthogonalen Eigenvektoren b der Matrix von dk im ursprünglichen Koordinatensystem. Die aus vielen Messungen im Mittel als günstigste ermittelten orthogonalen Eigenvektoren b können als Konstante in Festwertspeicher eingegeben und diese Speicher für das Durchführen des beschriebenen Verfahrens benutzt werden. Die Projektion eines Differenzsignalvektors X auf einen der Eigenvektoren bi stellt eine Faltung des Differenzsignalvektors X mit dem Eigenvektor bi dar, bzw. eine Filterung des Differenzsignalvek tors dk mit einem Filter, dessen Impulsantwort durch den Eigenvektor b. repräsentiert wird (Fig. 4). Der Differenzsignalverktor dk wird also in den Komponenten des neuen Boordinatensystems aus orthogonalen Eigenvektoren B dargestellt, nach der Gleichung id~ Die gefilterten Differenzsignalvektoren y kennzeichnen den Impulsanteil und werden übertragen. Die Beschränkung auf den größten gefilterten Differenzsignalvektor y hebt die Impulsstruktur besonders hervor. Ein solches Signal läßt sich deshalb besonders gut zur Feststellung der Synchronzeitpunkte verwenden, d.h. der Zeitpunkte, zu denen die Rekonstruktion mit Hilfe eines Eigenvektors im Empfänger besonders kleine Fehler liefert.
Leider ist die Amplitude dieser Impulsspitzen, über viele Differenzsignale betrachtet, sehr unterschiedlich, so daß es nicht möglich ist, mit einem Schwellendetektor eindeutig die Synchronzeitpunkte zu bestimmen. Es ist deshalb eine Normierung notwendig. Für diese Normierung bietet sich der Cosinus des Winkels v zwischen dem Differenzsignalvektor dk und dem gefilterten Differenzsignalvektor y an, da für gute Übereinstimmung der beiden Vektoren dk und y der Winkel g besonders klein ist, bzw. der Wert cos v gegen 1 strebt. Es gilt: Die Ermittlung von cos²#i ergibt nur positive Schwellenwerte. Damit ist also für die Analyse ein einfaches Verfahren zur Gewinnung der Synchronzeitpunkte gegeben.
Die Feststellung der Synchronzeitpunkte besitzt eine gewisse Ähnlichkeit mit der früher bei Vocodern üblichen Pitchanalyse, bei der die Grundfrequenz des Sprachsignals ermittelt wurde. Im Regelfall werden mit der hier dargestellten Methode auch Synchronzeitpunkte im Abstand der Grundperiode gefunden, dies muß aber nicht unbedingt sein und ist für die Wirkungsweise des Verfahrens nicht erforderlich. Wesentlich ist, daß die Synchronzeitpunkte festlegen, wann die Eigenvektoren zur Rekonstruktion des Differenzsignals zum Einsatz kommen sollen, um ein möglichst originalgetreues Differenzsignal zu erzeugen.
Zur vollständigen Rekonstruktion des Differenzsignals muß nun noch ein Rauschvektor dl mit dem ursprünglichen Signal angepaßter Amplitude am Empfangsort hinzugefügt werden. Die Amplitude IdI ergibt sich in einfacher Weise als Diese Rekonstruktion betrifft nur den jeweils als Impulsanteil vereinbarten Ausschnitt des Differenzsignals. Aus Gründen der Einfachheit empfiehlt es sich jedoch, den Rest des Differenzsignals bis zum Einsatz des nächsten Eigenvektors mit Rauschen gleicher Leistung aufzufüllen.
^ Da der am Empfangsort erzeugte Rauschvektor d- nicht orthogonal zum Eigenvektor bi ist, wird bei der Rekonstruktion eine Korrektur notwendig sein. Die möglichen rekonstruierten Rauschvektoren d' haben ihren Endpunkt auf dem Kreis, der durch den Radius mit der Länge |d#| Id-LI um den Endpunkt des Vektors y gebildet wird (Fig. 4). Die Länge des Vektors Ad kann also maximal |y |+ |d- 1 + 1 dA 1 minimal j |y |d-| betragen. Diese stark schwankenden Differenzsignale führen zu Blubbern im rekonstruierten Sprachsignal. Mit Hilfe einer Normierung können diese Schwankungen des Differenzsignals verringert werden.
Dies kann auf eine erste Art so geschehen, daß der Gesamt-6' vektor d nachträglich auf die Länge |d| normiert wird A (Fig. 5). Es entsteht so der Vektor enorm, der die Rich-A tung von d hat, aber die Länge von d besitzt.
Diese Art der Normierung geht gleichermaßen auf Kosten von Impuls- und Rauschanteil. Das Verhältnis von Impuls-und Rauschanteil bleibt konstant.
Bei einer anderen Art der Normierung wird dagegen nur die Größe des Rauschanteils variiert (Fig. 6), so daß der Impulsanteil erhalten bleibt. Hier wird der Rauschvektor d' 80 normiert, daß 6' 6' dnorm = y + dnorm gilt.
Bei bisher bekannten Methoden der Analyse und Synthese des Differenzsignals wurde ein sogenanntes Melodiesignal gewonnen, aus dem am Empfangsort mit Hilfe von Einheitsimpulsen das Sprachsignal rekonstruiert wurde. Eine Mischung von Impuls- und Rauschanteil war nicht vorgesehen.
Das beschriebene Verfahren dagegen erlaubt einen stetigen Übergang von stimmhafter Erregung, d.h. Impulserregung über Mischerregung bis zur stimmlosen Erregung, d.h. reinem Rauschen, wobei die reine Impulserregung praktisch kaum vorkommt.
Dadurch wird eine wesentlich verbesserte Natürlichkeit des so erzeugten Sprachsignals erreicht. Die Genauigkeit der Rekonstruktion ist dabei beliebig steigerbar, sie hängt lediglich ab vom Aufwand und der Übertragungsrate.
Außerdem ist das erfindungsgemäße Verfahren durch eine sehr zuverlässige, phasenstarre Ermittlung der Synchronzeitpunkte gekennzeichnet.
Leerseite

Claims

P a t e n t a n s p'r ü c h e 1. Verfahren zur Analyse und Synthese des bei der Sprachübertragung mit verminderter Bandbreite mit Hilfe von Prädiktoren gebildeten Differenzsignals, dadurch gekennzeichnet, daß das Differenzsignal in Ausschnitte zerlegt mit Hilfe einer Matrix im Sender und Empfänger gespeicherter orthogonaler Eigenvektoren beschrieben wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß durch eine Faltung des Differenzsignals mit den Eigenvektoren sich die Impulsanteile des Differenzsignals ergeben und daß die Impulsanteile als kennzeichnende Größen übertragen werden.
3. Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, daß durch ein Rechenwerk aus der 2. Potenz des Differenzsignals abzüglich der 2. Potenz des Impulsanteils der Rauschanteil berechnet und der Rauschanteil als kennzeichnende Größe übertragen wird.
4. Verfahren nach den Ansprüchen 1, 2 und 3, dadurch gekennzeichnet, daß aus den Impulsanteilen und dem Differenzsignal mit Hilfe eines Rechenwerkes die 2. Potenz der cos-Funktion des Winkels zwischen dem Vektor des Impulsanteils und dem Vektor des Diffferenzsignals gebildet wird, daß mit Hilfe eines Schwellendetektors das Synchronsignal ermittelt wird und daß das Synchronsignal als kennzeichnende Größe übertragen wird.
5. Verfahren nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß im Empfänger aus den gespeicherten Eigenvektoren ein dem Impulsanteil entsprechender passender Teil zum Synchronzeitpunkt ausgewählt wird, und zu dem von einem Rauschgenerator gebildeten, dem Rauschanteil entsprechendem Signal addiert wird.
6. Verfahren nach den Ansprüchen 1 bis 5, dadurch gekennzeichnet, daß das im Empfänger zusammengesetzte Differenzsignal (d) auf die Gesamtleistung des Differenzsignals (d) am Sender normiert wird (Fig. 5).
7. Verfahren nach den Ansprüchen 1 bis 5, dadurch geken-^ zeichnet, daß nur der Rauschanteil (d-) des im Empfänger zusammengesetzten Differenzsignals auf die Gesamtleistung des Differenzsignals (d) am Sender normiert wird (Fig. 6).
8. Verfahren nach dan Ansprüchen 1 bis 5 und 6oder7, dadurch gekennzeichnet, daß von den Eigenvektoren nur wenige höherwertige verwendet werden.