DE3732047A1 - Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter - Google Patents

Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Info

Publication number
DE3732047A1
DE3732047A1 DE19873732047 DE3732047A DE3732047A1 DE 3732047 A1 DE3732047 A1 DE 3732047A1 DE 19873732047 DE19873732047 DE 19873732047 DE 3732047 A DE3732047 A DE 3732047A DE 3732047 A1 DE3732047 A1 DE 3732047A1
Authority
DE
Germany
Prior art keywords
parameters
vocoder
channel
lpc
vocoder parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19873732047
Other languages
English (en)
Other versions
DE3732047C2 (de
Inventor
Hans Brandl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19873732047 priority Critical patent/DE3732047A1/de
Priority to EP88115139A priority patent/EP0308817A3/de
Publication of DE3732047A1 publication Critical patent/DE3732047A1/de
Application granted granted Critical
Publication of DE3732047C2 publication Critical patent/DE3732047C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Carbon Steel Or Casting Steel Manufacturing (AREA)

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Patentanspruchs 1.
Derzeit werden digitale Schmalband-Kommunikationsnetze mit niedrigen Datenübertragungsraten (1-2 kbit/s) geplant. Die hierbei angewandten Codierungsverfahren bauen entweder auf dem Prinzip des Kanalvocoders oder der linearen Prädiktion (LPC-Vocoder) auf. Eine Kommunikation zwischen den Vocodern ist nur möglich, falls an ihrer Schnittstelle eine geeignete Datenumcodierung erfolgt.
Der hierzu benötigte Umsetzer soll möglichst aufwandgünstig gestaltet sein und die Sprachqualität möglichst nicht verschlechtern.
Eine Möglichkeit, einen Umsetzer aufzubauen, besteht in der Rücktransformation der Sprachdaten in das Sprachsignal und dessen Neucodierung.
Dieses Verfahren ist sehr aufwendig, da zwei Analyseeinheiten und zwei Syntheseeinheiten benötigt werden. Durch Analysefehler verschlechtert sich außerdem die Sprachqualität. Die Verschlechterung der Sprachqualität läßt sich durch direkte Umcodierung der Daten der verschiedenen Vocoder umgehen. Diese Möglichkeit ergibt sich aus dem sehr ähnlichen Syntheseprinzip, das bei dem Kanalvocoder und dem LPC-Vocoder angewandt wird.
Das Sprachsignal wird hierbei durch ein Anregungssignal, welches durch ein variables Filter gefiltert wird, erzeugt. Das Anregungssignal besteht bei stimmhaften Lauten aus einer Pulsfolge und bei stimmlosen Lauten aus weißem Rauschen. Mit den Anregungsparametern wird die Pulsfrequenz und der Anregungsmodus - stimmhaft oder stimmlos - festgelegt. Das variable Übertragungsverhalten des Filters entspricht dem variablen Resonanzverhalten des menschlichen Vokaltraktes. Dieses ändert sich langsam und wird durch Filterparameter alle 10 bis 20 ms neu eingestellt. Aufgabe der Sprachsignal-Analyse eines Vocoders ist es, aus einem Sprachsignal die Anregungsparameter und die Filterparameter zu gewinnen. Der LPC-Vocoder und der Kanalvocoder unterscheiden sich im wesentlichen in der Struktur des Filters. LPC geht von einem Allpolfilter und der Kanalvocoder von einer Filterbank aus. Damit unterscheiden sich die Analyseverfahren zur Bestimmung der entsprechenden Filterparameter und es ergeben sich andere Filterparameter, die in den verschiedenen Netzen übertragen werden. Dagegen sind die Anregungsparameter im Prinzip die gleichen.
Es wird also ein Umcodierverfahren gesucht, welches die Filterparameter einer Filterbank eines Kanalvocoders in die Filterparameter eines Allpolfilters eines LPC-Vocoders umwandelt.
Die Kanalvocoder-Parameter (oder Koeffizienten) stellen nachrichtentheoretisch meist ein nicht-äquidistant abgetastetes Spektrum dar. Aus dem Amplitudenspektrum wird nun das Leistungsspektrum berechnet und mit Hilfe der Fouriertransformation in die Autokorrelationsfunktion (AKF) transformiert. Aus der AKF kann nun in bekannter Weise mit Hilfe der üblichen Verfahren (z. B. Levinson-Rekursion) der entsprechende LPC-Vocoder-Parametersatz berechnet werden (siehe H. Hermansky, B. Hanson, H. Witka; "Perceptually based Predictive Analysis of Speech" on ICASSP 85, S. 13.10 Tagungsband).
Die direkte Transformation ist mit hohem technischen Aufwand verbunden. Es werden leistungsfähige Real-time-Prozessoren zur Berechnung von Spektren und Korrelationsfunktionen benötigt.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter anzugeben, das bei hoher Genauigkeit relativ wenige Rechenoperationen benötigt.
Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1 angegebenen Merkmale gelöst.
Im folgenden wird ein bekanntes Verfahren zur Umcodierung anhand der mathematischen Methoden erläutert.
Ausgangspunkt sind die Kanalvocoder-Parameter, die beispielsweise als Leistungsspektrum vorliegen (siehe Fig. 1). Dieses Leistungsspektrum liegt bei einem Kanalvocoder nur in einer abschnittsweisen konstanten Form b k mit Sprüngen an den Übergangsstellen von b k nach b k+1 vor. In Fig. 1 sind als diese Parameter b k Energiewerte e j dargestellt, wobei der Wert e j der Energie im Kanal mit der Nummer j entspricht. Hierbei entspricht in allgemein bekannter Weise die Kanalenergie der Leistung in einem 20-ms-Intervall (dies ist das Intervall, nach dem jeweils neue Filterparameter eingestellt werden). Dieses Intervall ist auch gleichzeitig das Transformationsintervall.
Aus diesem "rohen" Spektrum b k wird durch Faltung mit einer Glättungsfunktion g (i, s) ein geglättetes Spektrum a k (siehe Fig. 2) gebildet. Die Glättungsfunktion g ist eine gerade Funktion, g (i, s) = g (-i, s), mit i als Argument und mit s als Streuung, durch die die Breite der Glättungsfunktion g gegeben ist.
Für diese Glättungsfunktion g eignen sich beispielsweise Gauß'sche Glockenkurven oder ähnliche Funktionen. Als Beispiel für die Gauß'sche Glockenkurve wird folgende Funktion angegeben:
Weitere mögliche Glättungsfunktionen g sind die aus der Filtertheorie und der digitalen Signalverarbeitung bekannten Tiefpaßfunktionen. In diesen Fällen definiert die Streuung s die Eckfrequenzen des jeweiligen Tiefpasses.
Für den Spezialfall eines Diracimpulses
würde b k unverändert auf das geglättete Spektrum a k abgebildet werden.
Bei der Glättung eines realen Sprachspektrums (b k) kann die Streuung s eine Funktion der aktuellen Spektrallinie sein. In diesem Fall wird bei höheren Frequenzen und damit breiteren Kanälen in b k eine größere Streuung s für die Glättungsfunktion g (i, s) gewählt als bei tieferen Frequenzen. Damit ist eine Anpassung der Glättung an die Tonheitsempfindung (Bark-Skala) des menschlichen Ohres möglich. Über die Wahl des oder der Streuungen s ist der "Wohlklang" bei der Sprachsynthese empirisch wählbar.
Für die Berechnung des geglätteten Spektrums a k aus dem "Roh"-Spektrum b k ergibt sich somit folgende Formel:
mit
g: Glättungsfunktion
u: Glättungsbreite (Normierung)
u · k: Streuung
a kK-ter Koeffizient des geglätteten Leistungsspektrums
N: Anzahl der Spektralkoeffizienten
b ll-ter Koeffizient des Rohspektrums.
Die LPC-Koeffizienten werden i. a. aus der Kurzzeit-Autokorrelationsfunktion ca. 20 ms), kurz AKF genannt, des Sprachsignals errechnet. Diese AKF, d. h. deren Korrelationskoeffizienten r i lassen sich auch aus dem Leistungsspektrum des Sprachsignals durch die inverse, diskrete Fouriertransformation bestimmen.
Für die M Korrelationskoeffizienten r i ergeben sich dann folgende Gleichungen:
i = 0, 1 . . . M, Anzahl der Korrelationskoeffizienten (sonst wie in Formel (1)).
Formel (1) in Formel (2) eingesetzt ergibt nach Anwendung des Kommutativgesetzes:
Die N Spektrallinien b l des Rohspektrums lassen sich von den Kanalenergiewerten e j ableiten (siehe Fig. 1).
Bei realen Vocodern liegen die Kanalzahlen und damit auch die Anzahl der Kanalenergiewerte e j bei etwa 16-18. Für die Anzahl der Spektralkoeffizienten N im Bereich von etwa 256 lassen sich die Koeffizienten b k des "rohen" Leistungsspektrums folgendermaßen darstellen:
b l = e i für l = m j . . . (m j+1-1) (4)
m j: Index der ersten Spektrallinie des Kanals j
m j+1-1: Index der letzten Spektrallinie des Kanals j
Formel (4) eingesetzt in Formel (3) ergibt folgende allgemeine Gleichung zur Berechnung der AKF aus den Vocoder-Kanalenergiewerten.
m = l erste Spektrallinien des ersten Kanals
m p = N letzte Spektrallinie des letzten Kanals
Im folgenden wird das erfindungsgemäße Verfahren zur Umcodierung erläutert.
Alle Elemente nach den Vocoder-Kanalenergiewerten e j sind Konstante.
Für ein vorgegebenes Frequenz- und Zeitraster, hinsichtlich der Kanalvocoder- und der LPC-Vocoder-Parameter, läßt sich die Formel (5) in eine Matrixmultiplikation umschreiben:
i = 0 . . . M: Koeffizienten der AKF
P: Kanalzahl
P: Kanalzahl
mit:
oder in Matrix-Schreibweise
mit
= AKF-Vektor
C: Matrix mit den Elementen aus Formel (7)
: Kanalvocoder-Energievektor
Zur Umcodierung werden beim erfindungsgemäßen Verfahren nur einmal die Elemente der Matrix C für eine bestimmte Vocoder-Kombination berechnet. Anschließend sind zur Umcodierung der jeweiligen Sprach-Parameter nur noch Matrixmultiplikationen zwischen den Energievektoren E (der die Parameter enthält) und der Matrix C auszuführen.
Für einen praktischen Fall mit beispielsweise P=18 Kanälen eines Kanalvocoders und einer gewünschten Zahl von 11 Autokorrelationswerten für LPC-10 sind somit nur noch ca. 200 Multiplikationen und etwa ebensoviele Additionen nötig. Bei konventionellen Verfahren werden ca. 4000 Rechenoperationen benötigt.
Im folgenden wird anhand von Fig. 3 eine Schaltungsanordnung zur Durchführung der vorstehend beschriebenen Matrixmultiplikation erläutert.
An einem Eingang 1 eines ersten Speichers 2 liegen die geglätteten Kanalvocoder-Parameter a p an. Es wird beispielsweise jeweils ein Satz dieser Parameter, bei 18 Kanälen also 18 Werte, in den ersten Speicher 2 eingeschrieben.
Es soll folgende Rechenoperation ausgeführt werden:
mit
l i: LPC-Vocoder-Parameter (diese entsprechen den Autokorrelationskoeffizienten r i in Formel (6))
c ip: Transformationskoeffizienten (Matrixelemente), berechnet nach Formel (7)
a p: Kanalvocoder-Parameter
Hierbei werden für eine Umcodierung der Parameter eines vorgegebenen Kanalvocoders in Parameter eines vorgegebenen LPC-Vocoders die Transformationskoeffizienten c ip der Matrix C berechnet und in einem Koeffizientenspeicher 3 abgelegt.
Zur Durchführung der Matrixmultiplikation werden die Kanalvocoder-Parameter a p im ersten Speicher 2 von einem ersten Zähler 4 nacheinander adressiert. Analog dazu werden die Koeffizienten c ip im Koeffizientenspeicher 3 nach ihrem Index p adressiert.
In einem Multiplizierer 5 werden die adressierten Kanalvocoder-Parameter a p und die adressierten Koeffizienten c ip multipliziert, und in einem nachgeschalteten Addierer 6 aufsummiert. Hierbei wird der Index i der Koeffizienten c ip solange konstant gehalten, bis der Index i seinen größten Wert, in Formel 8 beispielsweise 17, erreicht hat. Die gebildete Summe wird als LPC-Parameter l i in einen zweiten Speicher 7 eingeschrieben. Danach wird von einem zweiten Zähler 8 der Index i um eins erhöht, und der nächste LPC-Parameter l i+1 berechnet. Hierzu adressiert der zweite Zähler 8 zum einen die Koeffizienten c ip im Koeffizientenspeicher 3 nach ihrem Index i, und zum anderen die LPC-Vocoder-Parameter im zweiten Speicher 7. Die beiden Zähler 4 und 8 werden von einer Taktsteuerung 9 getaktet.
An einem Ausgang 10 des zweiten Speichers 7 ist dann jeweils ein transformierter bzw. umcodierter Satz von LPC-Vocoder-Parametern abnehmbar.

Claims (3)

1. Verfahren zur Umcodierung von digitalen Kanalvocoder-Parametern, die im Analyseteil des Kanalvocoders aus einem natürlichen Sprachsignal gewonnen wurden, in digitale LPC-Vocoder-Parameter, die im Syntheseteil des LPC-Vocoders zu einem synthetischen Sprachsignal verarbeitet werden, wobei die Kanalvocoder-Parameter als Leistungsspektrum vorliegen, wobei die LPC-Vocoder-Parameter aus der Kurzzeit-Autokorrelationsfunktion berechnet werden, wobei das Leistungsspektrum mit einer Glättungsfunktion (g) geglättet wird, und wobei aus dem geglätteten Leistungsspektrum durch eine inverse, diskrete Fouriertransformation die Korrelationskoeffizienten der Autokorrelationsfunktion errechnet werden, dadurch gekennzeichnet, daß bei vorgegebener Kanalzahl des Kanal-Vocoders und bei vorgegebener Parameterzahl des LPC-Vocoders bei einem vorgegebenen Frequenz- und Zeitraster aus den hierbei konstanten Größen Matrixelemente (c ÿ) errechnet und in einem Koeffizientenspeicher (3) abgelegt werden, so daß die LPC-Vocoder-Parameter durch Matrixmultiplikationen aus den Kanalvocoder-Parametern ableitbar sind, wobei jeweils die Parameter eines der Vocoder einen Vektor bilden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Glättungsfunktion (g=g (i, s)) eine Streuung (s) beinhaltet, durch die die Breite der Glättungsfunktion gegeben ist.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Breite (s) der Glättungsfunktion (g) eine Funktion der Parameter des Kanal-Vocoders ist.
DE19873732047 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter Granted DE3732047A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19873732047 DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter
EP88115139A EP0308817A3 (de) 1987-09-23 1988-09-15 Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19873732047 DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Publications (2)

Publication Number Publication Date
DE3732047A1 true DE3732047A1 (de) 1989-04-06
DE3732047C2 DE3732047C2 (de) 1992-10-29

Family

ID=6336687

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873732047 Granted DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Country Status (2)

Country Link
EP (1) EP0308817A3 (de)
DE (1) DE3732047A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
AU725711B2 (en) * 1994-02-16 2000-10-19 Qualcomm Incorporated Block normalisation processor
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5664053A (en) * 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3335419A1 (de) * 1983-09-29 1985-04-18 Siemens AG, 1000 Berlin und 8000 München Umsetzer zur schnittstellenanpassung zwischen lpc-und kanalvocodern fuer die uebertragung digitalisierter sprachsignale ueber digitale schmalband-kommunikationssysteme

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3335419A1 (de) * 1983-09-29 1985-04-18 Siemens AG, 1000 Berlin und 8000 München Umsetzer zur schnittstellenanpassung zwischen lpc-und kanalvocodern fuer die uebertragung digitalisierter sprachsignale ueber digitale schmalband-kommunikationssysteme

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. HERMANSKY, B. HANSON, H. WITKA, "Perceptually based Predictive Analysis of Speech" on ICASSP 85, S. 13. 10 Tagungsband *

Also Published As

Publication number Publication date
EP0308817A3 (de) 1990-04-18
DE3732047C2 (de) 1992-10-29
EP0308817A2 (de) 1989-03-29

Similar Documents

Publication Publication Date Title
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE60226308T2 (de) Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
EP1741039B1 (de) Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE2524497A1 (de) Phasenvocoder-sprachsynthesesystem
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE3012771C2 (de)
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen
DE2622423A1 (de) Vocodersystem
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE2636032A1 (de) Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee