DE3732047C2 - - Google Patents

Info

Publication number
DE3732047C2
DE3732047C2 DE19873732047 DE3732047A DE3732047C2 DE 3732047 C2 DE3732047 C2 DE 3732047C2 DE 19873732047 DE19873732047 DE 19873732047 DE 3732047 A DE3732047 A DE 3732047A DE 3732047 C2 DE3732047 C2 DE 3732047C2
Authority
DE
Germany
Prior art keywords
parameters
vocoder
channel
lpc
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19873732047
Other languages
English (en)
Other versions
DE3732047A1 (de
Inventor
Hans 8000 Muenchen De Brandl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19873732047 priority Critical patent/DE3732047A1/de
Priority to EP88115139A priority patent/EP0308817A3/de
Publication of DE3732047A1 publication Critical patent/DE3732047A1/de
Application granted granted Critical
Publication of DE3732047C2 publication Critical patent/DE3732047C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Carbon Steel Or Casting Steel Manufacturing (AREA)

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Patentanspruchs 1.
Derzeit werden digitale Schmalband-Kommunikationsnetze mit niedrigen Datenübertragungsraten (1-2 kbit/s) geplant. Die hierbei angewandten Codierungsverfahren bauen entweder auf dem Prinzip des Kanalvocoders oder der linearen Prädiktion (LPC-Vocoder) auf. Eine Kommunikation zwischen den Vocodern ist nur möglich, falls an ihrer Schnittstelle eine geeignete Datenumcodierung erfolgt.
Der hierzu benötigte Umsetzer soll möglichst aufwandgünstig gestaltet sein und die Sprachqualität möglichst nicht verschlechtern.
Eine Möglichkeit, einen Umsetzer aufzubauen, besteht in der Rücktransformation der Sprachdaten in das Sprachsignal und dessen Neucodierung.
Dieses Verfahren ist sehr aufwendig, da zwei Analyseeinheiten und zwei Syntheseeinheiten benötigt werden. Durch Analysefehler verschlechtert sich außerdem die Sprachqualität. Die Verschlechterung der Sprachqualität läßt sich durch direkte Umcodierung der Daten der verschiedenen Vocoder umgehen. Diese Möglichkeit ergibt sich aus dem sehr ähnlichen Syntheseprinzip, das bei dem Kanalvocoder und dem LPC-Vocoder angewandt wird.
Das Sprachsignal wird hierbei durch ein Anregungssignal, welches durch ein variables Filter gefiltert wird, erzeugt. Das Anregungssignal besteht bei stimmhaften Lauten aus einer Pulsfolge und bei stimmlosen Lauten aus weißem Rauschen. Mit den Anregungsparametern wird die Pulsfrequenz und der Anregungsmodus - stimmhaft oder stimmlos - festgelegt. Das variable Übertragungsverhalten des Filters entspricht dem variablen Resonanzverhalten des menschlichen Vokaltraktes. Dieses ändert sich langsam und wird durch Filterparameter alle 10 bis 20 ms neu eingestellt. Aufgabe der Sprachsignal-Analyse eines Vocoders ist es, aus einem Sprachsignal die Anregungsparameter und die Filterparameter zu gewinnen. Der LPC-Vocoder und der Kanalvocoder unterscheiden sich im wesentlichen in der Struktur des Filters. LPC geht von einem Allpolfilter und der Kanalvocoder von einer Filterbank aus. Damit unterscheiden sich die Analyseverfahren zur Bestimmung der entsprechenden Filterparameter und es ergeben sich andere Filterparameter, die in den verschiedenen Netzen übertragen werden. Dagegen sind die Anregungsparameter im Prinzip die gleichen.
Es wird also ein Umcodierverfahren gesucht, welches die Filterparameter einer Filterbank eines Kanalvocoders in die Filterparameter eines Allpolfilters eines LPC-Vocoders umwandelt.
Aus der DE-33 35 419 ist ein Umsetzer zur Schnittstellenanpassung zwischen LPC- und Kanalvocodern für die Übertragung digitalisierter Sprachsignale über digitale Schmalband- Kommunikationssysteme bekannt. Der Umsetzer weist eine Teilschnittstelle auf, die die Codierung für den Kanalvocoder in die Codierung für das LPC-Verfahren umsetzt. Auf der Eingangsseite der Teilschnittstelle wird die Codierung für den Kanalvocoder vektorquantisiert, wobei die codierten Parameter des Kanalvocoders mit einem ausgewählten Satz von N Filterparametern verglichen werden und die Nummer desjenigen Parametersatzes festgestellt wird, die den Parametern des Kanalvocoders weitestgehend entspricht. Die festgestellte Nummer wird herangezogen, um auf der Ausgangsseite die Codierung für die LPC- Parameter aus einem LPC-Code Book auszuwählen.
Die Kanalvocoder-Parameter (oder Koeffizienten) stellen nachrichtentheoretisch meist ein nicht-äquidistant abgetastetes Spektrum dar. Aus dem Amplitudenspektrum wird nun das Leistungsspektrum berechnet und mit Hilfe der Fouriertransformation in die Autokorrelationsfunktion (AKF) transformiert. Aus der AKF kann nun in bekannter Weise mit Hilfe der üblichen Verfahren (z. B. Levinson-Rekursion) der entsprechende LPC-Vocoder-Parametersatz berechnet werden (siehe H. Hermansky, B. Hanson, H. Witka; "Perceptually based Predictive Analysis of Speech" on ICASSP 85, S. 13.10 Tagungsband).
Die direkte Transformation ist mit hohem technischen Aufwand verbunden. Es werden leistungsfähige Real-time-Prozessoren zur Berechnung von Spektren und Korrelationsfunktionen benötigt.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter anzugeben, das bei hoher Genauigkeit relativ wenige Rechenoperationen benötigt.
Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1 angegebenen Merkmale gelöst.
Im folgenden wird ein bekanntes Verfahren zur Umcodierung anhand der mathematischen Methoden erläutert.
Ausgangspunkt sind die Kanalvocoder-Parameter, die beispielsweise als Leistungsspektrum vorliegen (siehe Fig. 1). Dieses Leistungsspektrum liegt bei einem Kanalvocoder nur in einer abschnittsweisen konstanten Form bk mit Sprüngen an den Übergangsstellen von bk nach bk+1 vor. In Fig. 1 sind als diese Parameter bk Energiewerte ej dargestellt, wobei der Wert ej der Energie im Kanal mit der Nummer j entspricht. Hierbei entspricht in allgemein bekannter Weise die Kanalenergie der Leistung in einem 20-ms-Intervall (dies ist das Intervall, nach dem jeweils neue Filterparameter eingestellt werden). Dieses Intervall ist auch gleichzeitig das Transformationsintervall.
Aus diesem "rohen" Spektrum bk wird durch Faltung mit einer Glättungsfunktion g (i, s) ein geglättetes Spektrum ak (siehe Fig. 2) gebildet. Die Glättungsfunktion g ist eine gerade Funktion, g (i, s) = g (-i, s), mit i als Argument und mit s als Streuung, durch die die Breite der Glättungsfunktion g gegeben ist.
Für diese Glättungsfunktion g eignen sich beispielsweise Gauß'sche Glockenkurven oder ähnliche Funktionen. Als Beispiel für die Gauß'sche Glockenkurve wird folgende Funktion angegeben:
Weitere mögliche Glättungsfunktionen g sind die aus der Filtertheorie und der digitalen Signalverarbeitung bekannten Tiefpaßfunktionen. In diesen Fällen definiert die Streuung s die Eckfrequenzen des jeweiligen Tiefpasses.
Für den Spezialfall eines Diracimpulses
würde bk unverändert auf das geglättete Spektrum ak abgebildet werden.
Bei der Glättung eines realen Sprachspektrums (bk) kann die Streuung s eine Funktion der aktuellen Spektrallinie sein. In diesem Fall wird bei höheren Frequenzen und damit breiteren Kanälen in bk eine größere Streuung s für die Glättungsfunktion g (i, s) gewählt als bei tieferen Frequenzen. Damit ist eine Anpassung der Glättung an die Tonheitsempfindung (Bark-Skala) des menschlichen Ohres möglich. Über die Wahl des oder der Streuungen s ist der "Wohlklang" bei der Sprachsynthese empirisch wählbar.
Für die Berechnung des geglätteten Spektrums ak aus dem "Roh"-Spektrum bk ergibt sich somit folgende Formel:
mit
g: Glättungsfunktion
u: Glättungsbreite (Normierung)
u · k: Streuung
ak: K-ter Koeffizient des geglätteten Leistungsspektrums
N: Anzahl der Spektralkoeffizienten
bl: l-ter Koeffizient des Rohspektrums.
Die LPC-Koeffizienten werden i. a. aus der Kurzzeit-Autokorrelationsfunktion ca. 20 ms), kurz AKF genannt, des Sprachsignals errechnet. Diese AKF, d. h. deren Korrelationskoeffizienten ri lassen sich auch aus dem Leistungsspektrum des Sprachsignals durch die inverse, diskrete Fouriertransformation bestimmen.
Für die M Korrelationskoeffizienten ri ergeben sich dann folgende Gleichungen:
i = 0, 1 . . . M, Anzahl der Korrelationskoeffizienten (sonst wie in Formel (1)).
Formel (1) in Formel (2) eingesetzt ergibt nach Anwendung des Kommutativgesetzes:
Die N Spektrallinien bl des Rohspektrums lassen sich von den Kanalenergiewerten ej ableiten (siehe Fig. 1).
Bei realen Vocodern liegen die Kanalzahlen und damit auch die Anzahl der Kanalenergiewerte ej bei etwa 16-18. Für die Anzahl der Spektralkoeffizienten N im Bereich von etwa 256 lassen sich die Koeffizienten bk des "rohen" Leistungsspektrums folgendermaßen darstellen:
bl = ei für l = mj . . . (mj+1-1) (4)
mj: Index der ersten Spektrallinie des Kanals j
mj+1-1: Index der letzten Spektrallinie des Kanals j
Formel (4) eingesetzt in Formel (3) ergibt folgende allgemeine Gleichung zur Berechnung der AKF aus den Vocoder-Kanalenergiewerten
m = l erste Spektrallinien des ersten Kanals
mp = N letzte Spektrallinie des letzten Kanals
Im folgenden wird das erfindungsgemäße Verfahren zur Umcodierung erläutert.
Alle Elemente nach den Vocoder-Kanalenergiewerten ej sind Konstante.
Für ein vorgegebenes Frequenz- und Zeitraster, hinsichtlich der Kanalvocoder- und der LPC-Vocoder-Parameter, läßt sich die Formel (5) in eine Matrixmultiplikation umschreiben:
i = 0 . . . M: Koeffizienten der AKF
P: Kanalzahl
mit:
oder in Matrix-Schreibweise
mit
= AKF-Vektor
C: Matrix mit den Elementen aus Formel (7)
: Kanalvocoder-Energievektor
Zur Umcodierung werden beim erfindungsgemäßen Verfahren nur einmal die Elemente der Matrix C für eine bestimmte Vocoder-Kombination berechnet. Anschließend sind zur Umcodierung der jeweiligen Sprach-Parameter nur noch Matrixmultiplikationen zwischen den Energievektoren E (der die Parameter enthält) und der Matrix C auszuführen.
Für einen praktischen Fall mit beispielsweise P=18 Kanälen eines Kanalvocoders und einer gewünschten Zahl von 11 Autokorrelationswerten für LPC-10 sind somit nur noch ca. 200 Multiplikationen und etwa ebensoviele Additionen nötig. Bei konventionellen Verfahren werden ca. 4000 Rechenoperationen benötigt.
Im folgenden wird anhand von Fig. 3 eine Schaltungsanordnung zur Durchführung der vorstehend beschriebenen Matrixmultiplikation erläutert.
An einem Eingang 1 eines ersten Speichers 2 liegen die geglätteten Kanalvocoder-Parameter ap an. Es wird beispielsweise jeweils ein Satz dieser Parameter, bei 18 Kanälen also 18 Werte, in den ersten Speicher 2 eingeschrieben.
Es soll folgende Rechenoperation ausgeführt werden:
mit
li: LPC-Vocoder-Parameter (diese entsprechen den Autokorrelationskoeffizienten ri in Formel (6))
cip: Transformationskoeffizienten (Matrixelemente), berechnet nach Formel (7)
ap: Kanalvocoder-Parameter
Hierbei werden für eine Umcodierung der Parameter eines vorgegebenen Kanalvocoders in Parameter eines vorgegebenen LPC-Vocoders die Transformationskoeffizienten cip der Matrix C berechnet und in einem Koeffizientenspeicher 3 abgelegt.
Zur Durchführung der Matrixmultiplikation werden die Kanalvocoder-Parameter ap im ersten Speicher 2 von einem ersten Zähler 4 nacheinander adressiert. Analog dazu werden die Koeffizienten cip im Koeffizientenspeicher 3 nach ihrem Index p adressiert.
In einem Multiplizierer 5 werden die adressierten Kanalvocoder-Parameter ap und die adressierten Koeffizienten cip multipliziert, und in einem nachgeschalteten Addierer 6 aufsummiert. Hierbei wird der Index i der Koeffizienten cip solange konstant gehalten, bis der Index i seinen größten Wert, in Formel 8 beispielsweise 17, erreicht hat. Die gebildete Summe wird als LPC-Parameter li in einen zweiten Speicher 7 eingeschrieben. Danach wird von einem zweiten Zähler 8 der Index i um eins erhöht, und der nächste LPC-Parameter li+1 berechnet. Hierzu adressiert der zweite Zähler 8 zum einen die Koeffizienten cip im Koeffizientenspeicher 3 nach ihrem Index i, und zum anderen die LPC-Vocoder-Parameter im zweiten Speicher 7. Die beiden Zähler 4 und 8 werden von einer Taktsteuerung 9 getaktet.
An einem Ausgang 10 des zweiten Speichers 7 ist dann jeweils ein transformierter bzw. umcodierter Satz von LPC-Vocoder-Parametern abnehmbar.

Claims (3)

1. Verfahren zur Umcodierung von digitalen Kanalvocoder- Parametern, die im Analyseteil des Kanalvocoders aus einem natürlichen Sprachsignal gewonnen wurden, in digitale LPC-Vocoder-Parameter, die im Syntheseteil des LPC-Vocoders zu einem synthetischen Sprachsignal verarbeitet werden, wobei die Kanalvocoder-Parameter als Leistungsspektrum vorliegen, wobei die LPC-Vocoder-Parameter aus der Kurzzeit-Autokorrelationsfunktion berechnet werden, wobei das Leistungsspektrum mit einer Glättungsfunktion (g) geglättet wird, und wobei aus dem geglätteten Leistungsspektrum durch eine inverse, diskrete Fouriertransformation die Korrelationskoeffizienten der Autokorrelationsfunktion errechnet werden, dadurch gekennzeichnet, daß bei vorgegebener Kanalzahl des Kanal-Vocoders und bei vorgegebener Parameterzahl des LPC-Vocoders bei einem vorgegebenen Frequenz- und Zeitraster aus den hierbei konstanten Größen Matrixelemente (cÿ) errechnet und in einem Koeffizientenspeicher (3) abgelegt werden, so daß die LPC-Vocoder-Parameter durch Matrixmultiplikationen aus den Kanalvocoder-Parametern ableitbar sind, wobei jeweils die Parameter eines der Vocoder einen Vektor bilden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Glättungsfunktion (g=g (i, s)) eine Streuung (s) beinhaltet, durch die die Breite der Glättungsfunktion gegeben ist.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Breite (s) der Glättungsfunktion (g) eine Funktion der Parameter des Kanal-Vocoders ist.
DE19873732047 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter Granted DE3732047A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19873732047 DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter
EP88115139A EP0308817A3 (de) 1987-09-23 1988-09-15 Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19873732047 DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Publications (2)

Publication Number Publication Date
DE3732047A1 DE3732047A1 (de) 1989-04-06
DE3732047C2 true DE3732047C2 (de) 1992-10-29

Family

ID=6336687

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873732047 Granted DE3732047A1 (de) 1987-09-23 1987-09-23 Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter

Country Status (2)

Country Link
EP (1) EP0308817A3 (de)
DE (1) DE3732047A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
AU725711B2 (en) * 1994-02-16 2000-10-19 Qualcomm Incorporated Block normalisation processor
US5664053A (en) * 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3335419A1 (de) * 1983-09-29 1985-04-18 Siemens AG, 1000 Berlin und 8000 München Umsetzer zur schnittstellenanpassung zwischen lpc-und kanalvocodern fuer die uebertragung digitalisierter sprachsignale ueber digitale schmalband-kommunikationssysteme

Also Published As

Publication number Publication date
EP0308817A2 (de) 1989-03-29
DE3732047A1 (de) 1989-04-06
EP0308817A3 (de) 1990-04-18

Similar Documents

Publication Publication Date Title
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE60226308T2 (de) Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung
DE69412294T2 (de) System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
DE2524497A1 (de) Phasenvocoder-sprachsynthesesystem
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE69420682T2 (de) Sprachdekodierer
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee