DE3883519T2 - Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten. - Google Patents

Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.

Info

Publication number
DE3883519T2
DE3883519T2 DE88480007T DE3883519T DE3883519T2 DE 3883519 T2 DE3883519 T2 DE 3883519T2 DE 88480007 T DE88480007 T DE 88480007T DE 3883519 T DE3883519 T DE 3883519T DE 3883519 T2 DE3883519 T2 DE 3883519T2
Authority
DE
Germany
Prior art keywords
term
signal
long
code
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE88480007T
Other languages
English (en)
Other versions
DE3883519D1 (de
Inventor
Francoise Bottau
Claude Galand
Michele Rosso
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE3883519D1 publication Critical patent/DE3883519D1/de
Application granted granted Critical
Publication of DE3883519T2 publication Critical patent/DE3883519T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    Technisches Gebiet der Erfindung
  • Diese Erfindung behandelt Sprachcodierungstechniken und insbesondere ein Verfahren und Mittel zur Sprachcodierung mit mehrfacher Geschwindigkeit.
  • Hintergrund der Erfindung
  • Digitale Netzwerke werden gegenwärtig zum Übertragen und/oder, wo es günstig ist, zum Speichern digital verschlüsselter Sprachsignale verwendet. Zu diesem Zweck wird zuerst jedes zu berücksichtigende Sprachsignal abgetastet und jeder Abtastwert digital in binäre Bits verschlüsselt. Zumindest theoretisch gilt, je größer die Zahl der zum Codieren eines jeden Abtastwertes verwendeten Bits, desto besser ist die Codierung, das heißt, das dem Sprachsignal getreueste würde dann decodiert, ehe es an den Endbenutzer geliefert wird. Damit das Netzwerk von einem wirtschaftlichen Standpunkt her effizient ist, muß leider der Verkehr, oder anders gesagt, die Zahl der angeschlossenen Nutzer, die ohne Netzwerküberlastung annehmbar sind, maximiert werden. Dies ist einer der Gründe, weshalb Verfahren zur Verringerung der Bitraten bei Sprachcodierung bereitgestellt wurden, während die Codierverzerrung (Rauschen) auf annehmbaren Niveau gehalten wurde, statt Nutzer freizugeben, wenn der Verkehr in einem Netzwerk steigt. Es scheint vernünftig, die Qualität der Sprachcodierung zu verbessern, wenn der Verkehr es gestattet, und, falls nötig, die Qualität bei starkem Verkehr auf ein vorherbestimmtes annehmbares Niveau zu verringern. Dieses Schalten von einer Qualität (einer Bitrate) zu einer anderen sollte so einfach und schnell wie möglich an jedem beliebigen Knoten innerhalb des Netzwerks erfolgen können. Zu diesem Zweck sollten Codierer mit mehrfacher Geschwindigkeit Rahmen mit eingebetteten Bitströmen bereitstellen, wobei das Schalten von einer vorherbestimmten Bitrate zu einer niedrigeren vorherbestimmten Datenrate einfach ein Fallenlassen eines vorherbestimmten Teils des Rahmens erfordern würde.
  • Codierer mit mehrfacher Geschwindigkeit sind bekannt. Der Artikel "Embedded coding of speech: a vector quantization approach" von A. Haoui u.a., Tagungsberichte ICASSP 85, Tampa, März 1985, Bd. 4, S. 1703-1706, beschreibt einen Codierer mit mehrfacher Geschwindigkeit. Andererseits beschreibt der Artikel "Multipulse Excited Linear Predictive Coder", IBM Technical Disclosure Bulletin, Bd. 29, Nr. 2, Juli 1986, S. 929-930, einen Codierer, der eine Langzeit-Voraussage-Technik verwendet. Die hier vorgeschlagene Methode verwendet ein Codieren mit mehrfacher Geschwindigkeit unter Verwendung der Langzeit-Voraussage-Codierung, die eine bessere Leistung gestattet.
  • Zusammenfassung der Erfindung
  • Eine hauptsächliche Aufgabe dieser Erfindung besteht darin, eine Methode zum Codieren eines Sprachsignals mit mehrfacher Geschwindigkeit entsprechend Anspruch 1, eine Einrichtung zum Codieren eines Sprachsignals mit mehrfacher Geschwindigkeit entsprechend Anspruch 2 und eine Einrichtung zum Decodieren des codierten Signals entsprechend Anspruch 3 bereitzustellen.
  • Eine andere Aufgabe dieser Erfindung ist es, Mittel zur Codierung eines Sprachsignals mit mehrfacher Geschwindigkeit unter Verwendung code-erregter Verschlüsselungstechniken bereitzustellen.
  • Das Sprachsignal wird kurzzeitgefiltert, um davon einen Kurzzeit-Rest abzuleiten, wobei der Kurzzeit-Rest an einen ersten code-erregten Langzeit-Voraussage-Codierarbeitsgang übergeben, dann decodiert und von dem Eingabewert der code-erregten Codierung subtrahiert wird, um ein Fehlersignal abzuleiten, welches wiederum code-erregt Langzeit-Voraussage-codiert wird. Ein Rahmen mit mehrfacher Geschwindigkeit umfaßt beide code-erregten Langzeit-Voraussage-Codierungen.
  • Insbesondere verarbeitet die vorliegende Erfindung das ursprüngliche Sprachsignal durch Kurzzeitfiltern, um ein spracherzeugendes Kurzzeit-Restsignal abzuleiten, wobei der Kurzzeit- Rest an eine erste code-erregte (CE) Codieroperation übergeben wird, die folgendes einschließt: Subtrahieren eines ersten vorausgesagten Restsignals von dem Kurzzeit-Rest, um ein erstes Langzeit-Restsignal abzuleiten, Codieren des Langzeit-Restes in eine Verstärkung g1 und eine Adresse k1; Subtrahieren des ersten rekonstruierten Restes (nach dem Decodieren) von dem ersten Langzeit-Rest, um davon ein erstes Fehlersignal abzuleiten; Übergeben des ersten Fehlersignals an die nachfolgende code-erregte Langzeit-Voraussage-Codierung in g2 und k2; und Zusammenfassen von (g1, k1) und (g2, k2) in denselben mit mehrfacher Geschwindigkeit codierten Rahmen, wobei Schalten zu einem mit niedrigerer Geschwindigkeit codierten Rahmen durch Fallenlassen von (g2, k2) erreicht würde.
  • Offensichtlich können die obigen Prinzipien auf eine höhere Geschwindigkeit erweitert werden, indem sie auf eine dritte, vierte usw. code-erregte Codierung erweitert werden.
  • Weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden im folgenden mit Bezug auf die beiliegenden Zeichnungen, die eine bevorzugte Ausführungsform darstellen, im einzelnen erklärt.
  • Die vorstehenden und andere Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden ausführlicheren Beschreibung einer bevorzugten Ausführungsform der Erfindung, wie in den beigefügten Zeichnungen dargestellt, ersichtlich gemacht.
  • Kurze Beschreibung der Zeichnungen
  • - Figur 1: ist ein Blockdiagramm eines erfindungsgemäßen Codierers.
  • - Figur 2: ist ein Flußdiagramm für die in den Einrichtungen 10, 12 und 13 der Figur 1 enthaltenen Arbeitsgänge.
  • - Figur 3: ist ein Flußdiagramm für code-erregte Codier-Arbeitsgänge.
  • - Figur 4: ist ein Blockdiagramm zur Implementierung der Einrichtung 14 der Figur 1.
  • - Figur 5: ist ein Flußdiagramm des Verfahrens der Erfindung, angewandt auf die Einrichtung von Figur 1.
  • - Figur 6: ist ein Flußdiagramm für den mit der Erfindung zu verwendenden Decodierer.
  • - Figur 7: ist ein Blockdiagramm des Decodierers.
  • - Figur 8: ist ein Blockdiagramm des Codierers entsprechend der Erfindung, angewandt auf Basisband-Codierung.
  • Beschreibung der bevorzugten Ausführungsform
  • In Figur 1 ist ein vereinfachtes Blockdiagramm eines Doppel-Datenraten-Codierers dargestellt, der, wie bereits erwähnt, auf eine höhere Anzahl von Datenraten erweitert werden kann.
  • Das auf Telefon-Bandbreite (300 Hz bis 3300 Hz) begrenzte Sprachsignal, das bei 8 kHz abgetastet und mit 12 Bit je Abtastwert in einem herkömmlichen Analog-Digital-Wandler (nicht gezeigt) digital PCM-verschlüsselt wird, liefert Abtastwerte s(n). Diese Abtastwerte werden zuerst in einer Einrichtung (10) vorhervorgehoben und dann in einer Einrichtung (12) verarbeitet, um Gruppen partieller, von der Autokorrelation abgeleiteter (PARCOR-abgeleiteter) Koeffizienten ai zu erzeugen. Die Koeffizienten ai werden zum Abstimmen eines Kurzzeit-Voraussage-Filters (STP) (13) verwendet, der s(n) filtert und ein Kurzzeit-Restsignal r(n) liefert. Der Kurzzeit-Rest wird in einen ersten code-erregten Langzeit-Voraussage-Codierer (A) codiert. Zu diesem Zweck wird er verarbeitet, um davon einen ersten Langzeit-Rest e(n) abzuleiten, indem von r(n) ein vorausgesagtes erstes Restsignal subtrahiert wird, das dem synthetisierten (wiederhergestellten) ersten Rest, verzögert um eine vorherbestimmte Verzögerung M (gleich einem Vielfachen der Sprach-Tonhöhen-Periode), entspricht, und es mit einem Verstärkungsfaktor b.r1(n-M), der als erste Langzeit-Voraussage verwendet wird, multipliziert wird.
  • Es sollte bemerkt werden, daß zum Zwecke dieser Erfindung Block- Codierungs-Techniken auf r(n) Abtastwertblöcke angewendet werden, die 160 Abtastwerte lang sind. Die Parameter b und M werden alle 80 Abtastwerte ausgewertet. Das Fließen der Restsignal-Abtastwerte e(n) wird in Blöcke von L aufeinanderfolgenden Abtastwerten unterteilt, und jeder der Blöcke wird dann in einem ersten code-erregten Codierer (CELP1) (15) verarbeitet, wo K Folgen von L Abtastwerten als normalisierte Codewörter verfügbar gemacht werden. Das Codieren von e(n) umfaßt dann das Auswählen des Codewortes, das nach der Betrachtung eines mittleren quadratischen Fehler-Kriteriums am besten der betrachteten Folge e(n) angepaßt ist, und das Ersetzen von e(n) durch eine Codewortbezugsnummer k1. Unter der Annahme, daß die vorgespeicherten Codewörter normalisiert sind, sollte dann ein erster Verstärkungskoeffizient g1 ebenfalls bestimmt und getestet werden.
  • Wenn k1 einmal bestimmt ist, wird ein erstes rekonstruiertes Restsignal e1(n) = g1 . CB(k1), das in einem ersten Decodierer (DECODE1) (16) erzeugt wird, in die Langzeit-Voraussage-Einheit (14) gespeist.
  • Der rekonstruierte Rest wird in einer Einrichtung (17) ebenfalls von e(n) subtrahiert und liefert ein Fehlersignal r'(n).
  • Das Fehlersignal r'(n) wird dann in einen zweiten code-erregten/Langzeit-Voraussage-Codierer ähnlich dem oben beschriebenen eingespeist. Der zweite Codierer umfaßt einen Subtrahierer (18), der mit dem Fehlersignal r'(n) gespeist wird und ein Fehler- Restsignal e'(n) liefert, das einen zweiten code-erregten Codierer CELP2 (19) adressiert. Die Einrichtung (19) codiert e'(n) in einen Verstärkungsfaktor g2 und eine Codewortadresse k2. Der Codierer soll außerdem das Codewort CB(k2) und die Verstärkung g2 in einen Decodierer (20) speisen, der ein decodiertes Fehlersignal
  • e2(n) g2 . CB (k2)
  • liefert.
  • Das Signal e2(n) wird ebenfalls in eine zweite Langzeit-Voraussage-Einheit (LTP2) ähnlich LTP1 eingespeist und deren Ausgabe in der Einrichtung (18) von r'(n) subtrahiert.
  • Schließlich wird durch Multiplexen der Datenwerte ai, b, M, (g1, k1) und (g2, k2) in einen Rahmen mit mehrfacher Geschwindigkeit (Doppel-Geschwindigkeit) ein Rahmen mit vollständiger Datenrate erzeugt.
  • Wie bereits erwähnt, kann das Verfahren einfach durch serielles Einsetzen code-erregter/Langzeit-Voraussage-Codierer, wie z.B. A oder B, weiter auf höhere Datenraten erweitert werden.
  • In Figur 2 ist ein Flußdiagramm dargestellt, das die genauen Arbeitsgänge zeigt, die sowohl beim Vorhervorheben als auch bei den PARCOR-bezogenen Berechnungen auftreten. Jeder Block von 160 Signalabtastwerten s(n) wird zuerst verarbeitet, um zwei erste Werte der Signal-Autokorrelationsfunktion abzuleiten:
  • Der Vorhervorhebungs-Koeffizient R wird dann berechnet
  • R = R1/R2,
  • und die ursprüngliche Gruppe von 160 Abtastwerten s(n) wird in eine vorhervorgehobene Gruppe sp(n) umgewandelt
  • sp(n) = s (n) - R . s (n-1)
  • Die vorhervorgehobenen Parameter ai werden durch ein Aufwärts- Verfahren von sogenannten PARCOR-Koeffizienten Ki abgeleitet, die wiederum von dem vorhervorgehobenen Signal sp(n) unter Verwendung einer herkömmlichen Leroux-Guegen-Methode abgeleitet werden. Die acht ai- oder PARCOR-Ki-Koeffizienten können mit 28 Bit unter Verwendung des Un/Yang-Algorithmus codiert werden. Um auf diese Verfahren und den Algorithmus Bezug zu nehmen, beziehe man sich auf:
  • - J. Leroux und C. Guegen: "A fixed point computation of partial correlation coefficients", IEEE Transactions on ASSP, S. 257-259, Juni 1977;
  • - C.K. Un und S.C. Yang: "Piecewise linear quantization of LPC reflexion coefficients", Proc. Int. Conf. on QSSP, Hartford, Mai 1977;
  • - L.D. Markel und A.H. Gray: "Linear prediction of speech", Springer Verlag 1976, Step-up procedure, S. 94-95;
  • - Europäische Patentschrift 2998 (US-Patentschrift 4216354), eingetragen auf diese Anmelderin.
  • Der Kurzzeit-Filter (13) leitet die Abtastwerte des Kurzzeit- Restsignals ab:
  • Zur Berechnung der Werte der Langzeit-Faktoren b und M stehen mehrere Verfahren zur Verfügung. Man kann sich beispielsweise auf B.S. Atal, "Predictive Coding of Speech at low Bit Rate", veröffentlicht in IEEE Trans on Communication, Bd. COM-30, April 1982, oder auf B.S. Atal und M.R. Schroeder, "Adaptive prediction coding of speech signals", Bell System Technical Journal, Bd. 49, 1970, beziehen.
  • Allgemein gesagt, ist M ein Wert der Tonhöhe oder eine Harmonische davon und Methoden zu seiner Berechnung sind dem Fachmann bekannt.
  • Eine sehr effiziente Methode wurde auch in einer ebenfalls anhängigen europäischen Patentanmeldung (vgl. FR987004) derselben Anmelderin beschrieben.
  • Entsprechend dieser Patentanmeldung ist
  • wobei b und M zweimal über jeden Block von 160 Abtastwerten unter Verwendung von 80 Abtastwerten und ihrer 80 Vorläufer bestimmt werden.
  • Der M-Wert, d.h ein auf die Tonhöhe bezogener Wert, wird darin auf Grundlage eines Zwei-Schritt-Verfahrens berechnet. Ein erster Schritt ermöglicht eine ungefähre Bestimmung eines groben auf die Tonhöhe bezogenen M-Wertes, gefolgt von einer zweiten (feinen) M-Angleichung unter Verwendung von Autokorrelationsverfahren über eine begrenzte Anzahl von Werten.
  • 1. Erster Schritt:
  • Die ungefähre Bestimmung basiert auf der Verwendung nichtlinearer Techniken, die verschiedene Schwellen- und Nulldurchgangsbestimmungen enthalten; insbesondere umfaßt dieser erste Schritt:
  • - Initialisieren der Variablen M, indem sie auf Null oder auf einen vorbestimmten Wert L oder das vorhergehende feine M gesetzt wird;
  • - Laden eines Blockvektors von 160 Abtastwerten, einschließlich der 80 Abtastwerte des aktuellen Unterblocks und der 80 vorhergehenden Abtastwerte;
  • - Feststellen der positiven (Vmax) und negativen (Vmin) Spitzenwerte innerhalb der 160 Abtastwerte;
  • - Berechnen der Schwellen:
  • positive Schwelle Th&spplus; = alpha . Vmax
  • negative Schwelle Th&supmin; = alpha . Vmin,
  • wobei alpha ein empirisch gewählter Wert ist (z.B alpha = 0,5);
  • - Setzen eines neuen Vektors X(n), der den aktuellen Unterblock darstellt, entsprechend:
  • X(n) = 1 falls r(n) ≥ Th&spplus;
  • X(n) = -1 falls r(n) ≤ Th&supmin;
  • X(n) = 0 anderenfalls
  • Dieser neue Vektor, der nur Werte -1, 0 oder 1 enthält, wird als "bereinigter Vektor" bezeichnet;
  • - Feststellen signifikanter Nulldurchgänge (d.h. Vorzeichenwechsel) zwischen zwei Werten des bereinigten Vektors, d.h. eng benachbarte Nulldurchgänge;
  • - Berechnen von Werten M', die die Anzahl der r(n) Abtastwertintervalle zwischen aufeinanderfolgend festgestellten Nulldurchgängen darstellen;
  • - Vergleichen von M' mit dem ungefähren M, indem man ΔM= M'- M berechnet, und Fallenlassen jedes Wertes M', dessen ΔM größer als ein vorbestimmter Wert D ist (z.B. D = 5);
  • - Berechnen des groben Wertes M als Mittelwert der nicht fallengelassenen Werte M'.
  • 2. Zweiter Schritt:
  • Die Feinbestimmung von M basiert auf der Verwendung von Autokorrelationsmethoden, die nur auf Abtastwerte angewandt werden, die aus den in der Nachbarschaft der Tonhöhenimpulse befindlichen Abtastwerten entnommen werden.
  • Der zweite Schritt umfaßt:
  • - Initialisieren des M-Wertes entweder als gleich dem geradem berechneten, ungefähren (groben) Wert M, unter der Annahme, er sei von Null verschieden, anderenfalls gleich dem vorhergehend gemessenen feinen M;
  • - Lokalisieren des Autokorrelationsbereichs des bereinigten Vektors, d.h. einer vorherbestimmten Anzahl von Abtastwerten um die ungefähre Tonhöhe;
  • - Berechnen einer Gruppe von Werten R(k'), abgeleitet aus:
  • wobei k' der Abtastwertindex des bereinigten Vektors ist, der von einer unteren Grenze Mmin bis zu einer oberen Grenze Mmax des ausgewählten Autokorrelationsbereiches, z.B. mit den Grenzen des Autokorrelationsbereiches Mmin = L, Mmax = 120, variieren kann.
  • Wenn b und M einmal berechnet sind, werden sie verwendet, um die inverse Langzeit-Voraussage-Einheit (14) abzustimmen, wie im weiteren beschrieben wird. Die Ausgabe der Einrichtung (14), d.h. ein vorausgesagter erster Langzeit-Rest, der von r(n) subtrahiert wird, liefert ein erstes Langzeit-Restsignal e(n). Das e(n) wird wiederum in einen Koeffizienten k1 und einen Verstärkungsfaktor g1 codiert. Der Koeffizient k1 stellt die Adresse eines Codeworts CB(k1) dar, das in einer Tabelle vorgespeichert ist, die in der Einrichtung (CELP1) (15) angeordnet ist. Die Code-Wort- und Verstärkungsfaktorauswahl basiert auf einer Berücksichtigung eines mittleren quadratischen Fehlerkriteriums, d.h. dem Suchen nach der Tabellenadresse k, die ein minimales E liefert, wobei:
  • wobei
  • T: die mathematische Operation der Transposition bedeutet. CB(k,n) stellt das Codewort dar, das an der Adresse k innerhalb des Codierers 15 der Figur 1 angeordnet ist.
  • Anders gesagt, ist E ein Skalarprodukt von zwei Vektoren mit L Komponenten, wobei L die Zahl der Abtastwerte eines jeden Codeworts CB ist.
  • Der optimale Maßstabsfaktor G(k) [g1 in (1)], der E minimiert, wird bestimmt, indem man setzt:
  • dE/dG = 0
  • und
  • Der Nenner der Gleichung G(k) ist ein Normalisierungsfaktor, der durch Vornormalisierung der Codewörter innerhalb der vorgespeicherten Tabelle vermieden werden könnte.
  • Der Ausdruck (1) kann reduziert werden auf:
  • und das optimale Codewort wird erhalten, indem das k gefunden wird, das den letzten Term der Gleichung (2) maximiert.
  • CB2(k) stelle CB(k,n) ² dar, und
  • SP(k) sei das Skalarprodukt eT(n) . CB(k,n).
  • Dann muß man zuerst das k finden, das ein Maximum des Terms
  • liefert und kann dann den Wert G(k) bestimmen aus
  • Die obigen Anweisungen können verschieden ausgedrückt werden, wie folgt:
  • {en} mit n = 1, 2, ..., L stelle die Folge von e(n) zu verschlüsselnden Abtastwerten dar. Außerdem stelle {ϒkn} mit n = 1, 2, ..., L und k = 1, 2, ..., K, wobei K = 2cbit ist, eine Tabelle dar, die K Codewörter von jeweils L Abtastwerten enthält.
  • Die CELP-Verschlüsselung würde führen zu:
  • - Berechnen der Korrelationsterme:
  • - Auswählen des optimalen Wertes von k, der zu
  • - Umwandeln der Folge e(n) in einen Block von cbit = log&sub2; K Bits, zuzüglich der G(k) Bits zur Verschlüsselung.
  • Der Algorithmus zur Durchführung der obigen Arbeitsgänge ist in Figur 3 dargestellt.
  • Zuerst werden die zwei Indexzähler i und j auf i=1 und j=1 gesetzt. Die Tabelle wird sequentiell abgetastet. Ein Codewort CB(1,n) wird aus der Tabelle herausgelesen.
  • Ein erstes Skalarprodukt wird berechnet
  • Dieser Wert wird zu SP2(1) quadriert und durch einen Quadratwert des entsprechenden Codeworts [d.h. CB2(1)] dividiert. i wird dann um eins erhöht, und die obigen Arbeitsgänge werden wiederholt, bis i = K, wobei K die Anzahl der Codewörter in dem Codebuch ist. Das optimale Codewort CB(k), welches das Maximum
  • innerhalb der Folge
  • für i = 1, ..., K liefert,
  • wird dann ausgewählt. Dieser Arbeitsgang ermöglicht das Feststellen der Tabellenbezugsnummer k.
  • Wenn k einmal ausgewählt ist, dann wird der Verstärkungsfaktor unter Verwendung von
  • berechnet.
  • Angenommen, die Anzahl der Abtastwerte innerhalb der Folge e(n) sei als ein Vielfaches von L ausgewählt, dann wird die Folge e(n) in JL Fenster unterteilt, von denen jedes L Abtastwerte lang ist, dann wird j um 1 erhöht, und das obige Verfahren wird wiederholt bis j = JL.
  • Die Berechnungen können vereinfacht und die Codiererkomplexität verringert werden, indem das Codebuch normalisiert wird, um jede Codewortenergie auf den Einheitswert zu setzen. Anders gesagt, die Vektoramplitude der L-Komponente wird auf Eins normalisiert.
  • CB2 (i) = 1 für i = 1, ..., K
  • In diesem Fall wird der Ausdruck, der das beste Codewort k bestimmt, vereinfacht (alle in dem Algorithmus enthaltenen Nenner sind gleich dem Einheitswert). Der Maßstabsfaktor G(k) wird geändert, wohingegen die Bezugsnummer k für die optimale Folge nicht modifiziert wird.
  • Diese Methode würde einen ziemlich großen Speicher zum Abspeichern der Tabelle erfordern. Zum Beispiel kann die Größe K x L in der Ordnung von 40 kBit für K = 256 und L = 20 sein.
  • Hier wird ein anderer Ansatz empfohlen. Nach der Initialisierung des Systems würde ein erster Block von L + K Abtastwerten des Restsignals, z.B. e(n), in eine Tabelle gespeichert. Dann wird jede nachfolgende L Wörter lange Folge e(n) mit der (L+K) Abtastwerte langen Tabellenfolge korreliert, indem die Folge {en} entlang der Tabelle von einer Abtastwertposition zu der nächsten geschoben wird:
  • für k = 1, ..., K.
  • Dieses Verfahren ermöglicht eine Verringerung der Speichergröße, die für die Tabelle erforderlich ist, bis auf 2 kBit für K = 256, L = 20 oder noch niedriger.
  • In Figur 4 ist ein Blockdiagramm für die inverse Langzeit- Voraussage-Einheit (14) dargestellt. Einmal in dem Codierer (15) ausgewählt, wird das erste rekonstruierte Restsignal
  • e1(n) = g1 . CB(k1)
  • das durch die Einrichtung (16) geliefert wird, in einen Addierer (30) gespeist, dessen Ausgabe in eine variable Verzögerungsleitung gespeist wird, deren Länge an M angepaßt ist. Die M-verzögerte Ausgabe der variablen Verzögerungsleitung (32) wird im Multiplikator (34) mit dem Verstärkungsfaktor b multipliziert. Die multiplizierte Ausgabe wird in den Addierer (30) gespeist.
  • Wie in Figur 1 dargestellt, können die berechneten b- und M- Werte auch für die nachfolgende code-erregte Codierung des Fehlersignals verwendet werden, das aus dem Subtrahieren eines wiederaufgebauten Restes von einem Langzeit-Rest abgeleitet wird.
  • In Figur 5 ist ein Algorithmus dargestellt, der die Arbeitsgänge zeigt, die in dem erfindungsgemäßen Codierer mit mehrfacher Geschwindigkeit enthalten sind, unter der Annahme, daß zum Zwecke der Vereinfachung dieser Beschreibung die mehrfache Geschwindigkeit auf die zweifache Geschwindigkeit beschränkt ist.
  • Das Verfahren kann als die folgenden Schritte umfassend betrachtet werden:
  • (1) Kurzzeit:
  • Das Signal s(n) wird durch ein Kurzzeit-Filterverfahren unter Verwendung eines digitalen Filters mit a(i) Koeffizienten in einen Kurzzeit-Rest r(n) umgewandelt. Die Koeffizienten sind signalabhängige Koeffizienten, die von einem vorhervorgehobenen Signal sp(n) durch Kurzzeit-Analyse-Arbeitsgänge abgeleitet werden.
  • (2) Erste Langzeit-Voraussage:
  • Das Kurzzeit-Restsignal r(n) wird in einen ersten Langzeit- Rest e(n) umgewandelt, mit
  • e(n) = r(n) - b . r1(n-M),
  • wobei: b ein aus der Kurzzeit-Rest-Analyse abgeleiteter Verstärkungsfaktor ist, M ein Tonhöhenvielfaches ist, und r1(n-M) von einem rekonstruierten vorhergehenden Langzeit- Rest abgeleitet ist, der um M verzögert ist.
  • (3) Erste code-erregte Codierung:
  • Das erste Langzeit-Restsignal wird in eine erste Codewort- Tabellenadresse (k1) und einen ersten Verstärkungsfaktor (g1) codiert. Dies wird durch Korrelieren eines Blocks mit vorbestimmter Länge von e(n) Abtastwerten mit vorgespeicherten Codewörtern erreicht, um die Adresse k1 des Codeworts zu bestimmen, das am besten dem Block angepaßt ist.
  • (4) Erster code-erregter Codierungsfehler:
  • Ein Codierungsfehlersignal r'(n) wird durch Subtrahieren eines decodierten e1(n) von dem uncodierten e(n) abgeleitet.
  • (5) Zweite Langzeit-Voraussage:
  • Das Fehlersignal wird wiederum durch einen zweiten Langzeit-Rest-Arbeitsgang ähnlich dem vorhergehenden, d.h. unter Verwendung der bereits berechneten Koeffizienten M und b, in einen Fehlerrest e'(n) umgewandelt, um
  • e'(n) = r'(n) - b . r2(n-M)
  • abzuleiten. (Es muß nicht erwähnt werden, daß das Beibehalten der vorhergehend berechneten Koeffizienten b und M für diesen zweiten Schritt die Rechenbelastung einschränken hilft. Es könnte auch eine erneute Berechnung derselben in Betracht gezogen werden).
  • (6) Zweite code-erregte Codierung:
  • Das Fehler-Restsignal wird wiederum an die code-erregte Codierung übergeben, die eine am besten angepaßte zweite Codewort-Adresse (k2) und einen zweiten Verstärkungsfaktor (g2) liefert.
  • Das obige Verfahren liefert die Daten ai, b, M, (g1, k1) und (g2, k2), die in einen Rahmen mit zweifacher Geschwindigkeit unter Verwendung herkömmlicher Multiplex-Näherungen einzusetzen sind. Offensichtlich kann das Verfahren weiter auf höhere Geschwindigkeiten erweitert werden, indem die drei letzten Schritte wiederholt werden um die (g3, k3), (g4, k4) usw. zu erzeugen.
  • Ein Wiedererstellen des ursprünglichen Sprachsignals von dem Rahmen mit mehrfacher Geschwindigkeit (doppelter Geschwindigkeit) kann, wie in dem Algorithmus von Figur 6 gezeigt, unter der Voraussetzung erreicht werden, daß die verschiedenen Daten zuvor durch eine herkömmliche Demultiplexoperation voneinander getrennt wurden. Die Werte k1 und k2 werden zum Adressieren einer Tabelle verwendet, die, wie oben in Verbindung mit der Codierer-Beschreibung erwähnt, gesetzt werden, um die Codewörter CB(k1) und CB(k2) davon abzurufen. Diese Operationen ermöglichen das Rekonstruieren von:
  • e1(n) = g1 . CB (k1, n)
  • e2(n) = g2 . CB (k2, n).
  • Dann ist e"(n) = e1(n) + e2(n).
  • Das e"(n) wird dann in einen Langzeit-Synthese-Filter 1/B(z) gespeist, der mit b und M abgestimmt ist und r"(n) liefert.
  • r"(n) wird dann durch einen digitalen Kurzzeit-Synthese-Filter 1/A(z) gefiltert, der mit der Gruppe der Koeffizienten ai abgestimmt ist und das erstellte Sprachsignal s"(n) liefert.
  • Eine Blockdiagramm-Anordnung des obengenannten Synthesizers (Empfänger) ist in Figur 7 dargestellt. Ein Demultiplexer (60) trennt die Daten voneinander. k1 und k2 werden zum Adressieren der Tabellen (61) und (62) verwendet, deren Ausgabe in die Multiplikatoren (63) und (64) eingespeist wird, die e1(n) und e2(n) liefern. Ein Addierer (65) addiert e1(n) zu e2(n) und speist das Ergebnis in den Filter 1/B(z) ein, der aus dem Addierer (67), einer variablen Verzögerungsleitung (68), die an die Länge M angeglichen ist, und einem Multiplikator (69) hergestellt ist. Die Ausgabe des Addierers (67) wird dann durch einen digitalen Filter (70) mit Koeffizienten, die auf ai gesetzt sind, gefiltert und liefert das erstellte Rück-Sprachsignal s"(n).
  • Die Methode mit mehrfacher Geschwindigkeit dieser Erfindung kann mit weiter verfeinerten Codierungs-Schemata implementiert werden. Zum Beispiel findet es bei herkömmlichen Basisband-Codierern, wie in Figur 8 dargestellt, Anwendung. Wenn das ursprüngliche Sprachsignal s(n) einmal verarbeitet wurde, um den Kurzzeit-Rest r(n) abzuleiten, wird es in ein Signal rl(n) mit Niedrig-Frequenz-Bandbreite (LF) und ein Signal rh(n) mit Hoch- Bandbreite (HF) rh(n) unter Verwendung eines Tiefpaßfilters LPF (70) und eines Addierers (71) zerlegt. Die Hoch-Bandbreite-Energie wird in einer Einrichtung HFE (72) berechnet und in (73) in eine mit E bezeichnete Dateninformation codiert. Die Ausgabe von 73 wurde mit (3) gekennzeichnet. Jedes der Signale mit LF- und HF-Bandbreite, d.h. rl(n) und rh(n), wird in einen Codierer mit mehrfacher Geschwindigkeit CE/LTP (75), (76) gespeist, wie durch die Blöcke (A) und (B) der Figur 1 dargestellt. Außerdem werden entweder separate Einrichtungen zur (b, M)-Berechnung oder eine einzige für beide Bandbreiten verwendet.
  • Schließlich werden die folgenden Datengruppen in einen Multiplexer (77) eingespeist:
  • - PARCOR-bezogene Koeffizienten: ai
  • - Tonhöhe- oder Langzeit-bezogene Daten: b und M
  • - Hochfrequenz-Energiedaten: E
  • - Niedrige Bandbreite mit mehrfacher Geschwindigkeit CE/LTP:
  • - Hohe Bandbreite mit mehrfacher Geschwindigkeit CE/LTP:
  • Diese Methode ermöglicht eine Codierung bei verschiedenen Geschwindigkeiten, wobei Gruppen von Daten für alle Geschwindigkeiten gemeinsam sind, d.h. die Parameter ai, b und M und die verbleibenden Daten werden in den Ausgabe-Rahmen entsprechend den folgenden Ansätzen eingesetzt oder nicht, beispielsweise:
  • - Vollband-Codierer mit einer Bitrate von 16 kBit/s: Addieren von
  • - Mittelband-Codierer: nur
  • - Niedrigband-Codierer:
  • - Codierer mit niedrigerer Geschwindigkeit:
  • Offensichtlich können andere Kombinationstypen der Ausgaben (1), (2) und (3) , ai, b, M und E in Betracht gezogen werden, ohne vom Umfang dieser Erfindung abzuweichen.

Claims (4)

1. Verfahren zum Verschlüsseln eines Sprachsignals s(n) mit mehrfacher Geschwindigkeit unter Verwendung code-erregter Techniken, wobei das Verfahren mit mehrfacher Geschwindigkeit die folgenden Schritte umfaßt:
1/ Vorhervorheben des Sprachsignal s (n) und aus dem vorhervorgehobenen Signal von der Autokorrelation abgeleitete Koeffizienten ai ableiten;
2/ Kurzzeitfiltern des Signals in ein Kurzzeit-Restsignal r(n) unter Verwendung der Koeffizienten ai;
3/ Langzeitfiltern des Kurzzeit-Restsignals r(n) und Liefern eines Tonhöhenverstärkungsfaktors b und eines Tonhöhenfaktors M;
4/ Subtrahieren eines vorausgesagten Restsignals von dem Restsignal r(n), dabei ein Langzeit-Restsignal e(n) liefern;
5/ - Code-erregtes Codieren von Blöcken mit e(n) Abtastwerten in eine erste Tabellenadresse k1 und eine erste Verstärkung g1;
6/ - Decodieren der Ausgabe des code-erregten Codierschrittes, dabei ein rekonstruiertes Restsignal e 1(n) liefern;
- inverses Langzeit-Voraussage-Filtern des rekonstruierten Restsignals e 1(n) unter Verwendung der Faktoren b und M, dabei das vorausgesagte Langzeit-Restsignal r 1(n) = e 1(n)+b.r 1(n-M) liefern;
8/ Subtrahieren des rekonstruierten Restsignals e 1(n) von dem Langzeit-Restsignal e(n), dabei Liefern eines Fehlersignals r'(n) = e (n) - e 1 (n);
9/ Code-erregtes Codieren des Fehlersignals r'(n), dabei eine zweite Tabellenadresse k2 und eine Verstärkung g2 liefern;
10/ Multiplexen von ai, b, M, (g1, k1) und (g2, k2) in einen Einzelrahmen mit voller Geschwindigkeit, wobei ein Codieren bei einer niedrigeren vorherbestimmten Geschwindigkeit durch einfaches Fallenlassen von (g2, k2) von dem betrachteten Rahmen erreicht wird.
2. Eine Einrichtung zum digitalen Codieren eines Sprachsignals s(n) mit mehrfacher Geschwindigkeit, die folgendes umfaßt :
- Rechnermittel (10, 12) zum Vorhervorheben von s(n) und zum Ableiten von Koeffizienten ai aus dem vorhervorgehobenen s(n), die aus der Autokorrelation abgeleitet werden;
- Kurzzeitfiltermittel (13), das durch die Koeffizienten ai abgestimmt ist und angeschlossen ist, um s(n) in einen Kurzzeit-Rest r(n) zu filtern;
- Filtermittel (11) zur Langzeitberechnung, angeschlossen, um den Kurzzeitrest r(n) zu empfangen und einen Tonhöhenverstärkungsfaktor b und einen Tonhöhenfaktor M zu liefern;
- ein erstes code-erregtes Codiermittel (A) , das umfaßt:
- ein erstes Subtraktionsmittel (25), das einen (+)- Eingang aufweist, in den der Rest r(n) gespeist wird, und das einen Langzeitrest e(n) liefert;
- ein code-erregtes Codiermittel (15) zum Codieren von Blöcken mit e(n) Abtastwerten in eine erste Tabellenadresse k1 und eine erste Verstärkung g1;
- ein Decodiermittel (16), das mit der Ausgabe des code-erregten Codiermittels (15) gespeist wird und einen rekonstruierten Rest e1(n) liefert;
- ein inverses Langzeit-Voraussage-Filtermittel (14), abgestimmt durch die Faktoren b und M, das angeschlossen ist, um den rekonstruierten Rest e1(n) zu empfangen und das einen vorausgesagten Langzeitrest r1(n) = e1(n) + b.r1(n-M) liefert, wobei die gewichtete und verzögerte Version b.r1(n-M) davon in den (-)-Eingang des ersten Subtraktionsmittels (25) gespeist wird,
- ein zweites Subtraktionsmittel (17), das einen (+ )-Eingang aufweist, der zum Empfangen des Langzeitrestes e(n) angeschlossen ist, und einen (-)-Eingang, der zum Empfangen des rekonstruierten Restes e 1(n) angeschlossen ist, wobei das Subtraktionsmittel (17) ein Fehlersignal r'(n) = e(n)-e 1(n) liefert;
- ein zweites code-erregtes Codiermittel (B) entsprechend dem ersten code-erregten Codiermittel (A), das mit dem Fehlersignal r'(n) gespeist wird und eine zweite Tabellenadresse k2 und Verstärkung g2 liefert;
- ein Multiplexmittel, um die ai, b, M, (g1, k1) und (g2, k2) in einen Einzelrahmen mit voller Geschwindigkeit zu multiplexen, wobei ein Codieren bei einer niedrigeren vorherbestimmten Geschwindigkeit durch einfaches Fallenlassen von (g2, k2) von dem betrachteten Rahmen erreicht wird.
3. Eine Einrichtung zum Decodieren des durch den Codierer gemäß Anspruch 2 digital codierten Signals, wobei der Decoder folgendes umfaßt:
- Demultiplexmittel (60) zum Trennen der ai, b, M, g1, k1, g2 und k2 voneinander;
- Tabellenmittel (61-62), die mit k1 und k2 adressiert sind und decodierte Blöcke CB (k1, n) und CB (k2, n) ausgeben,
- Multiplikatormittel (63-64), die an die Tabellenmittel angeschlossen sind und die Tabellenausgaben um g1 bzw. g2 vervielfachen;
- ein erstes Addiermittel (65), das mit der Ausgabe des Multiplikators gespeist wird und das die decodierte Erregung e"(n) = g1.CB(k1,n) + g2.CB(k2, n) ausgibt;
- ein zweites Addiermittel (67), das einen ersten Eingang aufweist, der an das erste Addiermittel angeschlossen ist, und einen zweiten Eingang, der mit der Ausgabe des zweiten Addiermittels über eine Verzögerungsleitung gespeist wird, die an M und einen Multiplikator um b angepaßt ist, wobei das zweite Addiermittel r"(n) = e"(n) + b.r" (n-M) liefert;
- ein inverses Kurzzeit-Filtermittel (70), das mit den Koeffizienten ai abgestimmt ist und mit der Ausgabe r"(n) des zweiten Addierers gespeist wird und das decodierte Sprachsignal ausgibt.
4. Ein Codierer gemäß Anspruch 2, wobei des Restsignal in ein Signal mit einer Bandbreite niedriger Frequenz rl(n) und ein Signal mit einer Bandbreite hoher Frequenz rh(n) aufgeteilt wird, rh(n) und rl(n) werden nachfolgend mit mehrfacher Geschwindigkeit in Paare
verschlüsselt.
DE88480007T 1988-03-08 1988-03-08 Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten. Expired - Lifetime DE3883519T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP88480007A EP0331858B1 (de) 1988-03-08 1988-03-08 Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten

Publications (2)

Publication Number Publication Date
DE3883519D1 DE3883519D1 (de) 1993-09-30
DE3883519T2 true DE3883519T2 (de) 1994-03-17

Family

ID=8200489

Family Applications (1)

Application Number Title Priority Date Filing Date
DE88480007T Expired - Lifetime DE3883519T2 (de) 1988-03-08 1988-03-08 Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.

Country Status (4)

Country Link
US (1) US4965789A (de)
EP (1) EP0331858B1 (de)
JP (1) JPH0833759B2 (de)
DE (1) DE3883519T2 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0401452B1 (de) * 1989-06-07 1994-03-23 International Business Machines Corporation Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
FR2657741B1 (fr) * 1990-01-29 1992-04-03 Cit Alcatel Interface de restructuration de trames pour trains numeriques multiplexes par multiplexage temporel d'affluents numeriques a differents debits.
JP3194930B2 (ja) * 1990-02-22 2001-08-06 日本電気株式会社 音声符号化装置
JP3256215B2 (ja) * 1990-02-22 2002-02-12 日本電気株式会社 音声符号化装置
US5115429A (en) * 1990-08-02 1992-05-19 Codex Corporation Dynamic encoding rate control minimizes traffic congestion in a packet network
JP2626223B2 (ja) * 1990-09-26 1997-07-02 日本電気株式会社 音声符号化装置
CA2054849C (en) * 1990-11-02 1996-03-12 Kazunori Ozawa Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
WO1993006592A1 (en) * 1991-09-20 1993-04-01 Lernout & Hauspie Speechproducts A linear prediction speech coding device
US5453986A (en) * 1993-01-08 1995-09-26 Multi-Tech Systems, Inc. Dual port interface for a computer-based multifunction personal communication system
US5535204A (en) * 1993-01-08 1996-07-09 Multi-Tech Systems, Inc. Ringdown and ringback signalling for a computer-based multifunction personal communications system
US5754589A (en) * 1993-01-08 1998-05-19 Multi-Tech Systems, Inc. Noncompressed voice and data communication over modem for a computer-based multifunction personal communications system
US5546395A (en) * 1993-01-08 1996-08-13 Multi-Tech Systems, Inc. Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem
US5812534A (en) * 1993-01-08 1998-09-22 Multi-Tech Systems, Inc. Voice over data conferencing for a computer-based personal communications system
US5452289A (en) * 1993-01-08 1995-09-19 Multi-Tech Systems, Inc. Computer-based multifunction personal communications system
US5864560A (en) * 1993-01-08 1999-01-26 Multi-Tech Systems, Inc. Method and apparatus for mode switching in a voice over data computer-based personal communications system
US5617423A (en) * 1993-01-08 1997-04-01 Multi-Tech Systems, Inc. Voice over data modem with selectable voice compression
US6009082A (en) * 1993-01-08 1999-12-28 Multi-Tech Systems, Inc. Computer-based multifunction personal communication system with caller ID
JPH06250697A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置
JP3042886B2 (ja) * 1993-03-26 2000-05-22 モトローラ・インコーポレーテッド ベクトル量子化器の方法および装置
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
US5452015A (en) * 1994-02-10 1995-09-19 Philips Electronics North America Corporation Method and apparatus for combating co-channel NTSC interference for digital TV transmission
US6134521A (en) * 1994-02-17 2000-10-17 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
US5757801A (en) * 1994-04-19 1998-05-26 Multi-Tech Systems, Inc. Advanced priority statistical multiplexer
US5682386A (en) * 1994-04-19 1997-10-28 Multi-Tech Systems, Inc. Data/voice/fax compression multiplexer
TW271524B (de) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5761633A (en) * 1994-08-30 1998-06-02 Samsung Electronics Co., Ltd. Method of encoding and decoding speech signals
US5546448A (en) * 1994-11-10 1996-08-13 Multi-Tech Systems, Inc. Apparatus and method for a caller ID modem interface
US5508708A (en) * 1995-05-08 1996-04-16 Motorola, Inc. Method and apparatus for location finding in a CDMA system
US5648822A (en) * 1995-05-19 1997-07-15 Philips Electronics North America Corporation Method and apparatus for combating co-channel NTSC interference using a variable-comb filter for digital TV transmission
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US5905794A (en) * 1996-10-15 1999-05-18 Multi-Tech Systems, Inc. Caller identification interface using line reversal detection
US6128506A (en) * 1997-09-24 2000-10-03 Telefonaktiebolaget Lm Ericsson Integrated power control and congestion control in a communication system
US6104998A (en) * 1998-03-12 2000-08-15 International Business Machines Corporation System for coding voice signals to optimize bandwidth occupation in high speed packet switching networks
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP4503853B2 (ja) * 1999-02-08 2010-07-14 クゥアルコム・インコーポレイテッド 可変率音声符号化に基づいた音声合成装置
US8090577B2 (en) 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
CN101615396B (zh) * 2003-04-30 2012-05-09 松下电器产业株式会社 语音编码设备、以及语音解码设备
JP5145852B2 (ja) * 2007-10-15 2013-02-20 日本電気株式会社 係数決定装置、無線通信システム、係数決定方法及び係数決定プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251881A (en) * 1978-06-05 1981-02-17 Storage Technology Corporation Centralized automatic gain control circuit
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
CH637510A5 (de) * 1978-10-27 1983-07-29 Ibm Verfahren und anordnung zur uebertragung von sprachsignalen sowie anwendung des verfahrens.
EP0064119B1 (de) * 1981-04-30 1985-08-28 International Business Machines Corporation Sprachkodierungsverfahren und Einrichtung zur Durchführung des Verfahrens
DE3267481D1 (en) * 1982-02-09 1986-01-02 Ibm Method for multi-speed digital transmission and apparatus for carrying out said method
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
US4831636A (en) * 1985-06-28 1989-05-16 Fujitsu Limited Coding transmission equipment for carrying out coding with adaptive quantization
US4897855A (en) * 1987-12-01 1990-01-30 General Electric Company DPCM system with adaptive quantizer having unchanging bin number ensemble
US4866510A (en) * 1988-09-30 1989-09-12 American Telephone And Telegraph Company Digital video encoder

Also Published As

Publication number Publication date
EP0331858B1 (de) 1993-08-25
JPH0833759B2 (ja) 1996-03-29
DE3883519D1 (de) 1993-09-30
JPH01233500A (ja) 1989-09-19
EP0331858A1 (de) 1989-09-13
US4965789A (en) 1990-10-23

Similar Documents

Publication Publication Date Title
DE3883519T2 (de) Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.
DE3688980T2 (de) Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
DE3853161T2 (de) Vektorquantisierungscodierer.
DE69331079T2 (de) CELP-Vocoder
DE68911287T2 (de) Codierer/decodierer.
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE3883799T2 (de) Codierungseinrichtung zur Sprachübertragung.
DE3783905T2 (de) Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens.
DE3784942T2 (de) Duplex-datenuebertragung.
DE69529672T2 (de) System zur sprachkodierung
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE69028176T2 (de) Adaptive Transformationskodierung durch optimale Blocklängenselektion in Abhängigkeit von Unterschieden zwischen aufeinanderfolgenden Blöcken
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69024033T2 (de) Kodierungssystem mit variabler Bitrate.
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE69900786T2 (de) Sprachkodierung
DE69005010T2 (de) Einrichtung zur Sprachkodierung und -Dekodierung.
DE3736193C2 (de)
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition