DE3732047A1

DE3732047A1 - Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Info

Publication number: DE3732047A1
Application number: DE19873732047
Authority: DE
Inventors: Hans Brandl
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1987-09-23
Filing date: 1987-09-23
Publication date: 1989-04-06
Also published as: EP0308817A3; DE3732047C2; EP0308817A2

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Patentanspruchs 1.

Derzeit werden digitale Schmalband-Kommunikationsnetze mit niedrigen Datenübertragungsraten (1-2 kbit/s) geplant. Die hierbei angewandten Codierungsverfahren bauen entweder auf dem Prinzip des Kanalvocoders oder der linearen Prädiktion (LPC-Vocoder) auf. Eine Kommunikation zwischen den Vocodern ist nur möglich, falls an ihrer Schnittstelle eine geeignete Datenumcodierung erfolgt.

Der hierzu benötigte Umsetzer soll möglichst aufwandgünstig gestaltet sein und die Sprachqualität möglichst nicht verschlechtern.

Eine Möglichkeit, einen Umsetzer aufzubauen, besteht in der Rücktransformation der Sprachdaten in das Sprachsignal und dessen Neucodierung.

Dieses Verfahren ist sehr aufwendig, da zwei Analyseeinheiten und zwei Syntheseeinheiten benötigt werden. Durch Analysefehler verschlechtert sich außerdem die Sprachqualität. Die Verschlechterung der Sprachqualität läßt sich durch direkte Umcodierung der Daten der verschiedenen Vocoder umgehen. Diese Möglichkeit ergibt sich aus dem sehr ähnlichen Syntheseprinzip, das bei dem Kanalvocoder und dem LPC-Vocoder angewandt wird.

Das Sprachsignal wird hierbei durch ein Anregungssignal, welches durch ein variables Filter gefiltert wird, erzeugt. Das Anregungssignal besteht bei stimmhaften Lauten aus einer Pulsfolge und bei stimmlosen Lauten aus weißem Rauschen. Mit den Anregungsparametern wird die Pulsfrequenz und der Anregungsmodus - stimmhaft oder stimmlos - festgelegt. Das variable Übertragungsverhalten des Filters entspricht dem variablen Resonanzverhalten des menschlichen Vokaltraktes. Dieses ändert sich langsam und wird durch Filterparameter alle 10 bis 20 ms neu eingestellt. Aufgabe der Sprachsignal-Analyse eines Vocoders ist es, aus einem Sprachsignal die Anregungsparameter und die Filterparameter zu gewinnen. Der LPC-Vocoder und der Kanalvocoder unterscheiden sich im wesentlichen in der Struktur des Filters. LPC geht von einem Allpolfilter und der Kanalvocoder von einer Filterbank aus. Damit unterscheiden sich die Analyseverfahren zur Bestimmung der entsprechenden Filterparameter und es ergeben sich andere Filterparameter, die in den verschiedenen Netzen übertragen werden. Dagegen sind die Anregungsparameter im Prinzip die gleichen.

Es wird also ein Umcodierverfahren gesucht, welches die Filterparameter einer Filterbank eines Kanalvocoders in die Filterparameter eines Allpolfilters eines LPC-Vocoders umwandelt.

Die Kanalvocoder-Parameter (oder Koeffizienten) stellen nachrichtentheoretisch meist ein nicht-äquidistant abgetastetes Spektrum dar. Aus dem Amplitudenspektrum wird nun das Leistungsspektrum berechnet und mit Hilfe der Fouriertransformation in die Autokorrelationsfunktion (AKF) transformiert. Aus der AKF kann nun in bekannter Weise mit Hilfe der üblichen Verfahren (z. B. Levinson-Rekursion) der entsprechende LPC-Vocoder-Parametersatz berechnet werden (siehe H. Hermansky, B. Hanson, H. Witka; "Perceptually based Predictive Analysis of Speech" on ICASSP 85, S. 13.10 Tagungsband).

Die direkte Transformation ist mit hohem technischen Aufwand verbunden. Es werden leistungsfähige Real-time-Prozessoren zur Berechnung von Spektren und Korrelationsfunktionen benötigt.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter anzugeben, das bei hoher Genauigkeit relativ wenige Rechenoperationen benötigt.

Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1 angegebenen Merkmale gelöst.

Im folgenden wird ein bekanntes Verfahren zur Umcodierung anhand der mathematischen Methoden erläutert.

Ausgangspunkt sind die Kanalvocoder-Parameter, die beispielsweise als Leistungsspektrum vorliegen (siehe Fig. 1). Dieses Leistungsspektrum liegt bei einem Kanalvocoder nur in einer abschnittsweisen konstanten Form b _k mit Sprüngen an den Übergangsstellen von b _k nach b _k+1 vor. In Fig. 1 sind als diese Parameter b _k Energiewerte e _j dargestellt, wobei der Wert e _j der Energie im Kanal mit der Nummer j entspricht. Hierbei entspricht in allgemein bekannter Weise die Kanalenergie der Leistung in einem 20-ms-Intervall (dies ist das Intervall, nach dem jeweils neue Filterparameter eingestellt werden). Dieses Intervall ist auch gleichzeitig das Transformationsintervall.

Aus diesem "rohen" Spektrum b _k wird durch Faltung mit einer Glättungsfunktion g (i, s) ein geglättetes Spektrum a _k (siehe Fig. 2) gebildet. Die Glättungsfunktion g ist eine gerade Funktion, g (i, s) = g (-i, s), mit i als Argument und mit s als Streuung, durch die die Breite der Glättungsfunktion g gegeben ist.

Für diese Glättungsfunktion g eignen sich beispielsweise Gauß'sche Glockenkurven oder ähnliche Funktionen. Als Beispiel für die Gauß'sche Glockenkurve wird folgende Funktion angegeben:

Weitere mögliche Glättungsfunktionen g sind die aus der Filtertheorie und der digitalen Signalverarbeitung bekannten Tiefpaßfunktionen. In diesen Fällen definiert die Streuung s die Eckfrequenzen des jeweiligen Tiefpasses.

Für den Spezialfall eines Diracimpulses

würde b _k unverändert auf das geglättete Spektrum a _k abgebildet werden.

Bei der Glättung eines realen Sprachspektrums (b _k) kann die Streuung s eine Funktion der aktuellen Spektrallinie sein. In diesem Fall wird bei höheren Frequenzen und damit breiteren Kanälen in b _k eine größere Streuung s für die Glättungsfunktion g (i, s) gewählt als bei tieferen Frequenzen. Damit ist eine Anpassung der Glättung an die Tonheitsempfindung (Bark-Skala) des menschlichen Ohres möglich. Über die Wahl des oder der Streuungen s ist der "Wohlklang" bei der Sprachsynthese empirisch wählbar.

Für die Berechnung des geglätteten Spektrums a _k aus dem "Roh"-Spektrum b _k ergibt sich somit folgende Formel:

mit

g: Glättungsfunktion
u: Glättungsbreite (Normierung)
u · k: Streuung
a _k: K-ter Koeffizient des geglätteten Leistungsspektrums
N: Anzahl der Spektralkoeffizienten
b _l: l-ter Koeffizient des Rohspektrums.

Die LPC-Koeffizienten werden i. a. aus der Kurzzeit-Autokorrelationsfunktion ca. 20 ms), kurz AKF genannt, des Sprachsignals errechnet. Diese AKF, d. h. deren Korrelationskoeffizienten r _i lassen sich auch aus dem Leistungsspektrum des Sprachsignals durch die inverse, diskrete Fouriertransformation bestimmen.

Für die M Korrelationskoeffizienten r _i ergeben sich dann folgende Gleichungen:

i = 0, 1 . . . M, Anzahl der Korrelationskoeffizienten (sonst wie in Formel (1)).

Formel (1) in Formel (2) eingesetzt ergibt nach Anwendung des Kommutativgesetzes:

Die N Spektrallinien b _l des Rohspektrums lassen sich von den Kanalenergiewerten e _j ableiten (siehe Fig. 1).

Bei realen Vocodern liegen die Kanalzahlen und damit auch die Anzahl der Kanalenergiewerte e _j bei etwa 16-18. Für die Anzahl der Spektralkoeffizienten N im Bereich von etwa 256 lassen sich die Koeffizienten b _k des "rohen" Leistungsspektrums folgendermaßen darstellen:

b _l = e _i für l = m _j . . . (m _j+1-1) (4)

m _j: Index der ersten Spektrallinie des Kanals j
m _j+1-1: Index der letzten Spektrallinie des Kanals j

Formel (4) eingesetzt in Formel (3) ergibt folgende allgemeine Gleichung zur Berechnung der AKF aus den Vocoder-Kanalenergiewerten.

m = l erste Spektrallinien des ersten Kanals
m _p = N letzte Spektrallinie des letzten Kanals

Im folgenden wird das erfindungsgemäße Verfahren zur Umcodierung erläutert.

Alle Elemente nach den Vocoder-Kanalenergiewerten e _j sind Konstante.

Für ein vorgegebenes Frequenz- und Zeitraster, hinsichtlich der Kanalvocoder- und der LPC-Vocoder-Parameter, läßt sich die Formel (5) in eine Matrixmultiplikation umschreiben:

i = 0 . . . M: Koeffizienten der AKF
P: Kanalzahl
P: Kanalzahl

mit:

oder in Matrix-Schreibweise

mit

= AKF-Vektor
C: Matrix mit den Elementen aus Formel (7)
: Kanalvocoder-Energievektor

Zur Umcodierung werden beim erfindungsgemäßen Verfahren nur einmal die Elemente der Matrix C für eine bestimmte Vocoder-Kombination berechnet. Anschließend sind zur Umcodierung der jeweiligen Sprach-Parameter nur noch Matrixmultiplikationen zwischen den Energievektoren E (der die Parameter enthält) und der Matrix C auszuführen.

Für einen praktischen Fall mit beispielsweise P=18 Kanälen eines Kanalvocoders und einer gewünschten Zahl von 11 Autokorrelationswerten für LPC-10 sind somit nur noch ca. 200 Multiplikationen und etwa ebensoviele Additionen nötig. Bei konventionellen Verfahren werden ca. 4000 Rechenoperationen benötigt.

Im folgenden wird anhand von Fig. 3 eine Schaltungsanordnung zur Durchführung der vorstehend beschriebenen Matrixmultiplikation erläutert.

An einem Eingang 1 eines ersten Speichers 2 liegen die geglätteten Kanalvocoder-Parameter a _p an. Es wird beispielsweise jeweils ein Satz dieser Parameter, bei 18 Kanälen also 18 Werte, in den ersten Speicher 2 eingeschrieben.

Es soll folgende Rechenoperation ausgeführt werden:

mit

l _i: LPC-Vocoder-Parameter (diese entsprechen den Autokorrelationskoeffizienten r _i in Formel (6))
c _ip: Transformationskoeffizienten (Matrixelemente), berechnet nach Formel (7)
a _p: Kanalvocoder-Parameter

Hierbei werden für eine Umcodierung der Parameter eines vorgegebenen Kanalvocoders in Parameter eines vorgegebenen LPC-Vocoders die Transformationskoeffizienten c _ip der Matrix C berechnet und in einem Koeffizientenspeicher 3 abgelegt.

Zur Durchführung der Matrixmultiplikation werden die Kanalvocoder-Parameter a _p im ersten Speicher 2 von einem ersten Zähler 4 nacheinander adressiert. Analog dazu werden die Koeffizienten c _ip im Koeffizientenspeicher 3 nach ihrem Index p adressiert.

In einem Multiplizierer 5 werden die adressierten Kanalvocoder-Parameter a _p und die adressierten Koeffizienten c _ip multipliziert, und in einem nachgeschalteten Addierer 6 aufsummiert. Hierbei wird der Index i der Koeffizienten c _ip solange konstant gehalten, bis der Index i seinen größten Wert, in Formel 8 beispielsweise 17, erreicht hat. Die gebildete Summe wird als LPC-Parameter l _i in einen zweiten Speicher 7 eingeschrieben. Danach wird von einem zweiten Zähler 8 der Index i um eins erhöht, und der nächste LPC-Parameter l _i+1 berechnet. Hierzu adressiert der zweite Zähler 8 zum einen die Koeffizienten c _ip im Koeffizientenspeicher 3 nach ihrem Index i, und zum anderen die LPC-Vocoder-Parameter im zweiten Speicher 7. Die beiden Zähler 4 und 8 werden von einer Taktsteuerung 9 getaktet.

An einem Ausgang 10 des zweiten Speichers 7 ist dann jeweils ein transformierter bzw. umcodierter Satz von LPC-Vocoder-Parametern abnehmbar.

Claims

1. Verfahren zur Umcodierung von digitalen Kanalvocoder-Parametern, die im Analyseteil des Kanalvocoders aus einem natürlichen Sprachsignal gewonnen wurden, in digitale LPC-Vocoder-Parameter, die im Syntheseteil des LPC-Vocoders zu einem synthetischen Sprachsignal verarbeitet werden, wobei die Kanalvocoder-Parameter als Leistungsspektrum vorliegen, wobei die LPC-Vocoder-Parameter aus der Kurzzeit-Autokorrelationsfunktion berechnet werden, wobei das Leistungsspektrum mit einer Glättungsfunktion (g) geglättet wird, und wobei aus dem geglätteten Leistungsspektrum durch eine inverse, diskrete Fouriertransformation die Korrelationskoeffizienten der Autokorrelationsfunktion errechnet werden, dadurch gekennzeichnet, daß bei vorgegebener Kanalzahl des Kanal-Vocoders und bei vorgegebener Parameterzahl des LPC-Vocoders bei einem vorgegebenen Frequenz- und Zeitraster aus den hierbei konstanten Größen Matrixelemente (c _ÿ) errechnet und in einem Koeffizientenspeicher (3) abgelegt werden, so daß die LPC-Vocoder-Parameter durch Matrixmultiplikationen aus den Kanalvocoder-Parametern ableitbar sind, wobei jeweils die Parameter eines der Vocoder einen Vektor bilden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Glättungsfunktion (g=g (i, s)) eine Streuung (s) beinhaltet, durch die die Breite der Glättungsfunktion gegeben ist.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Breite (s) der Glättungsfunktion (g) eine Funktion der Parameter des Kanal-Vocoders ist.