DE69029232T2 - System und Methode zur Sprachkodierung - Google Patents

System und Methode zur Sprachkodierung

Info

Publication number
DE69029232T2
DE69029232T2 DE69029232T DE69029232T DE69029232T2 DE 69029232 T2 DE69029232 T2 DE 69029232T2 DE 69029232 T DE69029232 T DE 69029232T DE 69029232 T DE69029232 T DE 69029232T DE 69029232 T2 DE69029232 T2 DE 69029232T2
Authority
DE
Germany
Prior art keywords
codebook
filtered
perceptually weighted
speech samples
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69029232T
Other languages
English (en)
Other versions
DE69029232D1 (de
Inventor
Patrick William Elliott
Timothy James Moulsley
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Application granted granted Critical
Publication of DE69029232D1 publication Critical patent/DE69029232D1/de
Publication of DE69029232T2 publication Critical patent/DE69029232T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung bezieht sich auf ein Sprachcodierungssystem und auf ein Verfahren zur Sprachcodierung und insbesondere auf einen codegesteuerten Sprachcodierer, der Anwendung findet in digitalisierten Sprachübertragungssystemen.
  • Beim Übertragen digitalisierter Sprache ist ein dabei auftretendes Problem, wie über einen bandbreitenbegrenzten Kommunikationskanal Sprache hoher Qualität erhalten werden kann. In jüngster Zeit ist eine vielversprechende Annäherung dieses Problems eine "Code-Excited Linear Prediction" (CELP), die imstande ist, synthetische Sprache hoher Qualität mit miedriger Bitrate zu schaffen. Fig. 1 der Zeichnung ist ein Blockschaltbild eines Vorschlags zum Implementieren von CELP und ist beispielsweise in einem Artikel "Fast CELP Coding Based on Algebraic Codes" von J-P Adoul, P. Mabilleau, M. Delprat und S. Morisette erschienen und bei der "International Conference on Acoustics Speech and Signal Processing (ICASSP)", 1987 vorgelesen und ist veröffentlicht worden auf den Seiten 1957 bis 1960 von ICASSP87. Zusammenfassend ist CELP eine Sprachcodierungstechnik, die daraus besteht, daß ein Restsignal durch eine optimale zeitliche Wellenform eines Codebuches in bezug auf subjektive Fehlerkriterien dargestellt wird. Insbesondere wird eine Codebuch-Folge ck selektiert, welche die Energie in einem perzeptuell gewichteten Signal y(n) dadurch minimiert, daß beispielsweise ein MSE-Kriterium verwendet wird, zum Selektieren der Folge. In Fig. 1 ist ein zweidimensionales Codebuch 10, das beliebige Vektoren ck(n) speichert, mit einer Verstärkungsstufe 12 gekoppelt. Das Ausgangssignal r(n) der Verstärkungsstufe 12 wird einem ersten inversen Filter 14 zugeführt, das einen Langzeitprädiktor bildet und eine Kennlinie 1/8(z) hat, wobei das Filter 14 zum Synthetisieren eines Mittenabstandes verwendet wird. Ein zweites inverses Filter 16, das einen Kurzzeitprädiktor bildet und eine Kennlinie 1/A(z) hat, ist derart geschaltet, daß es das Ausgangssignal e(n) des ersten Filters 14 erhält. Das zweite Filter synthtisiert die spektrale Umhüllende und schafft ein Ausgangssignal s(n), das einem invertierenden Eingang einer Summierungsstufe 18 zugeführt wird. Eine Quelle der ursprünglichen Sprache 20 ist mit einem nicht-invertierenden Eingang der Summierungsstufe 18 verbunden. Das Ausgangssignal x(n) der Summierungsstufe wird einem Gewichtungsfilter 22 mit einer Kennlinie W(z) zugeführt, wobei dieses Filter ein Ausgangssignal y(n) liefert.
  • Im Betrieb wird die Sprache höherer Qualität bei niedriger Bitrate erreicht durch eine Analyse-durch-Synthese-Prozedur, wobei die Kurzzeit- sowie die Langzeitprädiktion angewandt wird. Diese Prozedur besteht daraus, daß die beste Folge in dem Code-Buch gefünden wird, die in bezug auf ein subjektives Fehlerkriterium optimal ist. Jedes Codewort oder Folge ck wird durch einen optimalen Verstärkungsfaktor Gk skaliert und wird über das erste und zweite inverse Filter 14, 16 verarbeitet. Die Differenz x(n) zwischen dem ursprünglichen und dem synthetischen Signal, d.h. s(n) und wird in dem Gewichtungsfilter 22 verarbeitet und die "beste" Folge wird danach gewählt zum Minimieren der Energie des Fehlersignals y(n). Zwei Nachteile des in Fig. 1 dargestellten Vorschlags sind die Vielzahl Berechnungen, herrührend aus der Suchprozedur zum Herausfinden der besten Folge und die Berechnungen zum Filtern aller Folgen über die Langzeit- sowie Kurzzeitprädiktoren.
  • Die obengenannte Veröffentlichung auf den Seiten 1957 bis 1960 von ICASSP 87 schlägt mehrere Ideen vor zur Verringerung der Anzahl Berechnungen.
  • Eine blockschematische Implementierung einer dieser Ideen ist in Fig. 2 der Zeichnung dargestellt, wobei zur Bezeichnung entsprechender Teile dieselben Bezugszeichen wie in Fig. 1 benutzt worden sind. Diese Implementierung ist hergeleitet von dem Ausdrück des Gewichtungsfilters 22 (Fig. 1) als
  • W(z) = A(z)/A(z/γ)
  • wobei γ der Gewichtungskoeffizient (um 0,8 herum gewählt) und A(z) ein lineares Prädiktionsfilter ist:
  • A(z) = Σiaiz-i.
  • Im Vergleich zu Fig. 1 kann das Gewichtungsfilter W(z) zu den Signaleingangsstrecken zur Summierungsstufe 18 geschoben werden. Auf diese Weise wird die ursprüngliche Sprache von der Quelle 20 über ein Analysenfilter 24 mit einer Kennlinie A(z) verarbeitet, wobei ein Restsignal e(n) entsteht, von dem Pitch-Parameter hergeleitet werden.
  • Das Restsignal e(n) wird über ein inverses Filter 26 mit einer Kennlinie a/A(z/γ) verarbeitet, was ein Signal s'(n) ergibt, das dem nicht-invertierenden Eingang der Summierstufe 18 zugeführt wird.
  • In der anderen Strecke wird der durch das zweite inverse Filter 16 (Fig. 1) gebildete Kurzzeitprädiktor durch ein inverses Filter 28 mit einer Kennlinie 1/A(z/γ) ersetzt, was ein Ausgangssignal '(n) ergibt.
  • Der Langzeitprädiktor, das Filter 14, kann als Prädiktor mit nur einem Abgriff gewählt werden:
  • B(z) = 1-bz-T -(1)
  • wobei b die Verstärkung ist und T als Pitch-Periode bezeichnet wird. Der Ausdruck des Ausgangssignals ê(n) des Pitch-Prädiktors 1/B(z) läßt sich aus der obenstehenden Gleichung (1) herleiten:
  • ê(n) = r( ) + bê(n-T) -(2)
  • wobei r(n) = Gkck(n) ist, wobei n = 0, N -1 und N die Blockgröße oder Länge der Codewörter ist, wobei k der Codebuch-Index und Gk ein Verstärkungsfaktor ist.
  • Während der Suchprozedur ist das Signal ê(n-T) bekannt und ist nicht abhängig von dem Codewort, das zu der Zeit getestet wird, wenn T immer größer als N sein soll. Auf diese Weise ist es möglich, daß der Pitch-Prädiktor 1/B(z) aus der Signalstrecke von dem zweidimensionalen Codebuch 10 entfernt wird, wenn das Signal bê(n-T) von dem Restsignal in der Strecke von der Sprachquelle 20 subtrahiert wird. Unter Verwendung des Ausdrucks (2) wird das Signal ê(n-T) dadurch erhalten, daß das verzögerte Signal (n-T) über den Pitch-Prädiktor 1/B(z) verarbeitet wird; und n-T wird aus den bereits bekannten Codewörtern berechnet, gwählt für vorhergehende Blöcke, unter der Bedingung, daß die Pitch-Periode T auf Werte begrenzt wird, die größer sind als die Blockgröße N. Die Wirkungsweise des Pitch-Prädiktors kann auch in Termen eines dynamischen adaptiven Codebuches betrachtet werden.
  • In dieser Veröffentlichung wird auch ein Schema beschrieben, wobei der Langzeitprädiktor 1/B(z) und der Speicher des Kurzzeitprädiktors 1/A(z/γ) aus der Signalstrecke von dem Codebuch 10 entfernt werden.
  • Dadurch ist es möglich, zwei Filtervorgänge an jedem Codewort zu einer einzigen speicherfteien Filterung je Codewort mit einer wesentlichen Verringerung des Rechenaufwands zurückzubringen.
  • Eine andere Veröffentlichung "On Different Vector Predictive Coding Schemes and Their Application to Low Bit Rates Speech Coding" von F. Bottau, C. Galand, M. Rosso und J. Menez, Seiten 871 bis 874 von EURASIP 1988 beschreibt eine Annäherung zu CELP-Codierung, wodurch die Sprachqualität beibehalten werden kann, unter der Voraussetzung eines bestimmten Pegels des Rechenaufwands ohne Zunahme der Speichergröße.
  • Diese Veröffentlichung beschreibt eine Unterteilung eines Rahmens mit 160 Abtastwerten in 6 oder 8 Blöcke zum Schaffen eines Codebuches mit 256 Folgen. Jede Folge besteht aus Restsignal, das einfach (N+L) Abtastwerte aufweist, wobei N die Anzahl Folgen ist und L die zu codierende Blocklänge; XO(n) n = 1, ... (N+L). In dem neuen Codebuch oder "Zeilencode" weichen zwei aufeinanderfolgende Codewörter nur um einen Abtastwert voneinander ab. Das erste Codewort besteht aus den ersten L Abtastwerten des Zeilencodes:
  • CB(1, n) = XO(n) n = 1,L
  • Das nächste Codewort wird dann durch die letzten (L - 1) Abtastwerte des vorhergehenden und des nächsten Abtastwertes des Zeilencodes definiert:
  • CB(2, n) = XO(n + 1) n = 1, L und
  • CB(k, n) = XO(n + k - n) n = 1, L
  • Es ist nicht notwendig die Energien jeder in betracht kommender Folge zu bewerten oder zu speichern, da es möglich ist, sie auf einen einzigen Wert zu normalisieren. Die genannten Vorteile dieses Codebuchs sind, daß das Format einen geringeren Speicher- und Rechenaufwand ermöglicht.
  • Obschon in den beiden Veröffentlichungen Verfahren zur Verbesserung der Implementierung der CELP-Technik beschrieben sind, gibt es dennoch Raum zur Verbesserung.
  • Nach einem ersten Aspekt der vorliegenden Erfindung wird ein Sprachcodierungssystem geschaffen mit Mitteln zum Filtern digitalisierter Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch ein eindimensionales Codebuch, Mittel zum Filtern von Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines gefilterten Codebuchs, zusammengesetzt aus allen genannten gelesenen Eingangswerten, und Mittel zum Vergleichen von Eingangswerten des gefilterten Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
  • Nach einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren von Sprache geschaffen, wobei digitalisierte Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
  • Durch Verwendung eines eindimensionalen Codebuches wird eine wesentliche Verringerung des Rechenaufwands des CELP-Codierers erzielt, weil die Verarbeitung aus der Filterung dieses Codebuchs als Ganzes besteht, wobei das wahrnehmbar gewichtete Synthesefilter einmal für jeden Satz durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte erzeugter Filterkoeffizienten benutzt wird. Das Aktualisieren der Filterkoeffizienten kann einmal je vier Rahmen digitalisierter Sprachabtastwerte erfolgen, wobei jeder Rahmen eine Dauer von beispielsweise 5 ms hat. Das gefilterte Codebuch wird danach untersucht zum Herausfinden der optimalen Rahmenlängenfolge, die den Fehler zwischen der wahrnehmbar gewichteten Eingangssprache und der gewählten Folge minimiert.
  • Gewünschtenfalls kann jeder p. Eingangswert des gefilterten Codebuchs untersucht werden, wobei p größer als eins ist. Da benachbarte Eingangswerte in dem gefilterten Codebuch korreliert sind, kann dadurch, daß nicht jeder Eingangswert untersucht wird, der Rechenaufwand verringert werden, ohne daß dadurch die Qualität der Sprache beeinträchtigt wird oder als Alternative kann ein längeres Codebuch mit demselben Rechenaufwand untersucht werden, wodurch die Möglichkeit einer besseren Sprachqualität geschaffen wird.
  • In einer Ausführungsform der vorliegenden Erfindung erfolgt die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter Anwendung der nachfolgenden Gleichung:
  • wobei Ek der Gesamtfehler-Term ist
  • N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
  • n die Abtastwertnummer ist,
  • x das Signal ist, das dem Codebuch entspricht,
  • gk die nicht-skalierte gefilterte Codebuchfolge ist und
  • k der Codebuchindex ist.
  • Dies entspricht dem Untersuchungsvorgang zum Suchen des Codebuchindexes k für einen Maximalwert des Ausdrucks:
  • Die Rechenarbeit läßt sich reduzieren (einigermaßen auf Kosten der Sprachqualität) durch Bewertung jedes m. Terms dieses Kreuzproduktes und durch Maximierung
  • wobei m eine ganze Zahl mit einem niedrigen Wert ist.
  • Das Sprachcodierungssystem kann weiterhin Mittel aufweisen zum Bilden eines Langzeitprädiktors unter Verwendung eines dynamisch adaptiven Codebuchs mit skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, zusammen mit Eingangswerten von dem dynamisch adaptiven Codebuchs, Mittel zum Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten Eingangswertes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.
  • Es können Mittel vorgesehen sein zum Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
  • Das dynamisch adaptive Codebuch kann eine FIFO-Speicheranordnung einer vorbestimmter Kapazität aufweisen, wobei die Eingangssignale zu der Speicheranordnung die codierten wahrnehmbar gewichteten Sprachabtastwerte enthalten.
  • Die Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte können Mittel aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte benutzt wird.
  • Nach einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren geschaffen zum Herleiten van Sprache, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfaßt: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge, spezifiziert durch einen Codebuchindex in dem Eingangssignal. das Einstellen der Amplitude der selektierten vorbestimmten Folge in Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen eines Sprachsignals.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
  • Fig. 1 und 2 je ein Blockschaltbild der bekannten CELP-Systeme,
  • Fig. 3 ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung,
  • Fig. 4 ein Blockschaltbild eines Empfängers.
  • In der Zeichung werden für entsprechende Elemente dieselben bezugszeichen verwendet.
  • In Fig. 3 ist eine Sprachquelle 20 mit einer Stufe 30 gekoppelt, welche die Sprache quantisiert und in Rahmen von 5 ms segmentiert. Die segmentierte Sprache s(n) wird einem Analusenfilter 24 zugeführt, das eine Übertragungsfunktion A(z) hat, sowie einem linearen prädiktiven Codierer (LPC) 32, der die Filterkoefflzienten ai berechnet. Das Restsignal r(n) vom Filter 24 wird danach in einem wahrnehmbar gewichteten Synthesenfilter 26 mit einer Übertragungsfunktion 1/A(z/γ) verarbeitet. Das wahrnehmbar gewichtete Restsignal sw(n) wird einem nicht-invertierenden Eingang einer Subtraktionsstufe 34 zugeführt (die als Summierstufe mit invertierenden und nicht-invertierenden Eingängen ausgebildet ist). Das Ausgangssignal der Summierstufe 34 wird einem nicht-invertierenden Eingang einer anderen Subtrahierstufe 36 zugeführt.
  • Ein eindimensionales (1-D) Codebuch 110 mit weißen Gausschen Zufallsnummerfolgen ist mit einem wahrnehmbar gewichteten Synthesefilter 28 verbunden, das die Codebucheingangswerte filtert und die Ergebnisse einem 1-D gefilterten Codebuch 37 zuführt, das ein einstweiliges Master-Codebuch bildet. Die Codebuchfolgen werden an sich wieder einer Verstärkungsstufe 12 mit einer Verstärkung G zugeführt. Die skalierten codierten Folgen von der Verstärkungsstufe 12 werden dem invertierenden Eingang der Subtrahierstufe 36 und einem Eingang einer Summierstufe 38 zugeführt. Das Ausgangssignal der Stufe 38 weist ein Pitch-Prädiktionssignal auf, das der Pitch-Verzögerungsstufe 40 zugeführt wird, die eine vorselektierte Verzögerung T einführt, sowie einer Stufe 42 zum Decodieren der Sprache. Die Pitch-Verzögerungsstufe 40 kann eine FIFO-Speicheranordnung aufweisen. Das verzögerte Pitch-Prädiktionssignal wird einer Verstärkungsstufe 44 zugeführt, die eine Verstärkung b hat. Das skalierte Pitch-Prädiktionssignal wird einem Eingang der Summierstufe 38 und einem invertierenden Eingang der Subtrahierstufe 34 zugeführt.
  • Eine erste Statischer-Gesamtfehlerstufe 46 ist ebenfalls mit dem Ausgang der Subtrahierstufe 34 verbunden und schafft ein Femersignal EA, das zum Minimieren von Schwankungen in bezug auf Pitch-Prädiktion verwendet wird. Eine zweite Statischer-Gesamtfehlerstufe 48 ist mit dem Ausgang der Subtrahierstufe 36 verbunden zum Erzeugen eines wahrnehmbaren Fehlersignals EB, das zum Minimieren der Schwankung in bezug auf das gefilterte Codebuch 37 verwendet wird.
  • In der dargestellten Ausführungsform wird Sprache von der Quelle 20 in Rahmen von 40 Abtastwerten segmentiert, wobei jeder Rahmen eine Dauer von 5 ms hat. Jeder Rahmen geht durch die Analysen-und-Gewichtungsfilter 24, 26; wobei die Koeffizienten ai für diese Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte abgeleitet werden. In einer typischen Anwendung sind zehn Prädiktionskoeffizienten erforderlich und diese werden alle 20 ms aktualisiert (Blockrate). Das Gewichtungsfilter introduziert eine gewisse subjektive Gewichtung in den Codierungsprozeß. Es hat sich herausgestellt, daß ein Wert von γ = 0,65 gute Resultate ergibt. In der Subtrahierstufe 34 wird die skalierte (Langzeit) Pitchprädiktion von den wahrnehmbar gewichteten Restsignalen sw(n) vom Filter 26 subtrahiert. Solange die skalierte Pitch-Prädiktion nur Information von vorher verarbeiteter Sprache benutzt, läßt sich die optimale Pitch-Verzögerung T und Verstärkung b (Stufe 44) berechnen zum Minimieren des Fehlers EA am Ausgang der MSE-Stufe 46.
  • Das 1-D Codebuch 110 enthält 1024 Elemente, die alle einmal je 20 ms Block durch das wahrnehmbare Gewichtungsfilter 28 gefiltert werden, dessen Koeffizienten denen des Filters 26 entsprechen. Die Codebuchuntersuchung erfolgt durch Prüfungsvektoren, zusammengesetzt aus 40 benachbarten Elementen von dem gefilterten Codebuch 37. Während der Untersuchung wird die Ausgangsposition des Vektors um eins oder mehr für jeden Codebucheingangswert erhöht und der Wert der Verstärkung G (Stufe 12) wird berechnet zum Ergeben des minimalen Fehlers EB am Ausgang der MSE 48. Auf diese Weise werden der Codebuchindex und die Verstärkung G für den minimalen wahrnehmbaren Fehler gefunden. Diese Information wird danach in der Synthese der Ausgangssprache verwendet unter Verwendung beispielsweise der Stufe 42, dieein entwichtetes Analysenfilter 50, ein inverses Synthesefilter 52, einen Ausgangswandler 54, und, ggf. ein globales Nachfilter 56 aufweist. Die Koeffizienten der Filter 50 und 52 werden von dem LPC 32 hergeleitet. In einer praktischen Situation enthält die übertragene Information die LPC-Koeffizienten, den Codebuch-Index, die Codebuch-Verstärkung, den Pitch-Prädiktorindex und die Pitch-Prädiktorverstärkung. Am Ende einer Kommunikationsstrecke kann ein Empfänger mit einer Kopie des nichtgefilterten 1-D Codebuchs das gefilterte Codebuch für jeden Sprachblock aus den empfangenen Filterkoeffizienten regenerieren und danach die ursprüngliche Sprache synthetisieren.
  • Zur Verringerung der Anzahl Bits erforderlich zum Darstellen der LPC- Koeffizienten, wurden diese Koeffizienten als "log-area ratios" (L.A.R.) quantisiert, was ebenfalls die Empfindlichkeit für Quantisierungsverzerrung minimierte. Auf alternative Weise können diese Koeffizienten durch Verwendung von Zeilenspektralpaaren (line spectral pairs) (LSP) quantisiert werden. Im vorliegenden Beispiel kann ein Block van 10 LPC Koeffizienten, quantisiert als LAR als 40 Bits je 20 ms dargestellt werden. Die Zahl von 40 Bits entsteht durch Quantisierung der 1. und 2. LPC-Koeffizienten unter Verwendung von jeweils 6 Bits, der 3. und 4. LPC-Koeffizienten unter Verwendung von jeweils 5 Bits, der 5. und 6. LPC-Koeffizienten unter Verwendung von jeweils 4 Bits, der 7. und 8. LPC-Koeffizienten unter Verwendung von jeweils 3 Bits und der 9. und 10. LPC-Koeffizienten unter Verwendung von jeweils 2 Bits. Auf diese Weise ist die Anzahl Bits je Sekunde 2000. Außerdem weist die Rahmen-Rate, die alle 5 ms aktualisiert wird, den Codebuch-Index - 10 Bits, die Codebuch-Verstärkung, die logarithmisch quantisiert wurde, - 5 Bits + 1 Vorzeichen-Bit, den Pitch-Prädiktor- index - 7 Bits und die Pitch-Prädiktorverstärkung - 4 Bits auf. Diese 27 Bits insgesamt entsprechen 5400 Bits/Sekunde. Die Gesamtbitrate (2000 + 5400) beträgt also 7400 Bits/Sekunde.
  • Das in den Fig. 1 und 2 beschriebene zweidimensionale Codebuch könnte wie folgt dargestellt werden:
  • c(ij) = d(i,j)
  • wobei c(ij) das j. Element des i. Codebucheingangswertes ist und d eine zweidimensionale Anordnung von Zufallszahlen ist. Im Gegensatz dazu kann das in Fig. 3 verwendete Codebuch wie folgt dargestellt werden:
  • c(ij) = d(i+j)
  • wobei d eine eindimensionale Anordnung von Zufallszahlen ist. Typisch ist 1< i< 1024 und 1< j< 40.
  • Der Hauptteil der Rechenarbeit in CELP liegt in der Codebuchuntersuchung und ein wesentlicher Teil davon bezieht sich auf das Filtern des Codebuches. Unter Verwendung eines 1-dimensionalen Codebuches, wie anhand der Fig. 3 beschrieben, reduziert die Codebuch-Filterung um einen Faktor gleich der Länge des Sprachsegmentes.
  • Die Vergleichung der Folgen des gefilterten Codebuchs mit dem Pitchfreien wahrnehmbar gewichteten Restsignal am Ausgang der Subtrahierstufe 34 erfolgt durch Berechnung der Summe der Kreuzprodukte unter Anwendung der Gleichung:
  • wobei Ek der Gesamtfehler-Term ist
  • N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
  • n die Abtastwertnummer ist,
  • x das Signal ist, das dem Codebuch entspricht,
  • gk die nicht-skalierte gefilterte Codebuchfolge ist und
  • k der Codebuchindex ist.
  • Die Herleitung dieser Gleichung basiert auf den Gleichungen auf Seite 872 von EURASIP, 1988, wie obengenannt.
  • Vollständigkeitshalber zeigt Fig. 4 einen Empfänger. Da der Empfänger Eigenschaften aufweist, die auch in der Ausführungsform nach Fig. 3 dargestellt sind, sind entsprechende Teile durch dieselben Bezugszeichen mit einem Akzent angegeben.
  • Die von dem Empfänger empfangenen Daten werden die LPC-Koeffizienten aufweisen, die einem Anschluß 60 zugeführt werden, den Codebuch-Index und -Verstärkung, die den Anschlüssen 62 bzw. 64 zugeführt werden, und den Pitch-Prädiktor-Index und - Verstärkung, die den Anschlüssen 66 bzw. 68 zugeführt werden. Ein eindimensionales Codebuch 110' wird in einem wahrnehmbar gewichteten Syntehsefilter 28' gefiltert und die Ausgangswerte werden zum Bilden eines gefilterten Codebuchs 37' verwendet. Die geeignete Folge von dem gefilterten Codebuch 37' wird in Antwort auf das Codebuchindexsignal selektiert und wird einer Verstärkungsstufe zugeführt, deren Verstärkung in dem empfangenen Signal spezifiziert ist. Die verstärkungsgeregelte Folge wird dem Pitch-Prädiktor 40' zugeführt, dessen Verzögerung durch den Pitch-Prädiktor-Index eingestellt wird und dessen Ausgangssignal einer Verstärkungsstufe 44' zugeführt wird, dessen Verstärkung durch das Pitch-Prädiktor-Verstärkungssignal spezifiziert wird. Die Folge mit der wiederhergestellten Pitch-Prädiktion wird einem entwichteten Analysenfilter 50' mit einer Kennlinie A/z/&gamma;) zugeführt. Das Ausgangssignal rdw(n) vom Filter 50' wird einem inversen Synthesefilter 52' zugeführt, das eine Kennlinie 1/A(z) hat. Die Koeffizienten für die Filter 50', 52' werden in dem empfangenen Signal spezifiziert und jedes Block (oder alle vier Rahmen) aktalisiert. Das Ausgangssignal des Filters 52' kann unmittelbar einem Ausgangswandler 54' oder mittelbar über ein globales Nachfilter 56', das die Sprachqualität verbessert durch Verbesserung der Störungsunterdrückung auf Kosten einer gewissen Sprachverzerrung.
  • Die in Fig. 3 dargestellte Ausführungsform kann geändert werden um die Konstruktion zu vereinfachen, um den Rechenaufwand zu reduzieren oder um die Sprachqualität zu verbessern ohne daß der Rechenaufwand dazu zunimmt.
  • So kann beispielsweise die Größe des eindimensionalen Codebuchs verringert werden.
  • Die wahrnehmbare Fehlerschätzung kann an einer unterabgetasteten Version des wahrnehmbaren Fehlersignals durcheführt werden. Dies würde den für den Längzeitprädiktor und für die Codebuchuntersuchung erforderlichen Rechenaufwand reduzieren.
  • Eine vollständige Untersuchung des gefilterten Codebuchs kann überflüssig sein, da benachbarte Eingangswerte korreliert sind. Auf alternative Weise könnte ein längeres Codebuch untersucht werden, was eine bessere Sprachqualität ergeben wurde. In beiden Fällen wird jeder p. Eingangswert untersucht, wobei p größer ist als eins.
  • Die Filterrechenarbeit könnte reduziert werden, wenn zwei halblange Codebücher verwendet würden. Das eine könnte mit dem Gewichtungsfilter aus dem aktuellen Rahmen gefiltert werden, das andere könnte von dem vorhergehenden Rahmen zurückgehalten werden. Auf gleiche Weise könnte eines dieser halblangen Codebücher aus den vorher selektierten Codebucheingangswerten hergeleitet werden.
  • Gewünschtenfalls kann ein festes Gewichtungsfilter zur Filterung des Codebuchs verwendet werden.
  • Die in Fig. 3 dargestellte Ausführungsform der Erfindung setzt voraus, daß die Übertragungsfunktionen der wahrnehmbar gewichteten Synthesefilter 26, 28 sieselben sind. Es wurde aber gefunden, daß es möglich ist, eine bessere Sprachqualität dadurch zu erhalten, wenn diese Filter verschiedene Übertragungsfunktionen haben. Insbesondere ist der Wert von &gamma; für die Filter 26 und 50 derselbe, aber abweichend von dem des Filters 28.
  • Die Zahlenwerte in der Beschreibung der Wirkungsweise der Ausführungsform nach Fig. 3 sind nur zur Erläuterung gegeben und im Rahmen der Erfindung können auch andere Werte verwendet werden.
  • Dem Fachkundigen werden nach der Lektüre der vorliegenden Beschreibung leicht weitere Abwandlungen einfallen. Solche Abwandlungen können andere Merkmale betreffen, die bereits im Entwurf und in der Fertigung und in der Verwendung von CELP-Systemen und Teilen davon bekannt sind und die anstelle der hier bereits beschriebenen Merkmale oder ergänzend dazu verwendet werden können.

Claims (20)

1. Sprachcodierungssystem mit Mitteln (24, 26) zum Filtern digitalisierter Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch ein eindimensionales Codebuch (110), Mittel (28) zum Filtern von Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines gefilterten Codebuchs (37), zusammengesetzt aus allen genannten gelesenen Eingangswerten, und Mittel (34, 36, 48) zum Vergleichen von Eingangswerten des gefilterten Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Mittel zum Filtern der aus dem eindimensionalen Codebuch ausgelesenen Eingangswerte ein Filter (28) zur wahrnehmaren Gewichtung aufweist.
3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Mittel zum Filtern der digitalisierten Sprachabtastwerte einen Kurzzeitprädiktor (24) aufweisen mit einer Übertragungsfunktion A(z) und ein Filter (26) mit einer Übertragungsfunktion 1/A(z/&gamma;), wobei &gamma; ein wahrnehmbare Gewichtungskoeffizient ist, und daß Mittel (32) vorgesehen sind zum Herleiten der Koeffizienten für den Kurzzeitprädiktor und das Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte.
4. System nach Anspruch 3, wenn abhängig von Anspruch 2, dadurch gekennzeichnet daß die Übertragungsfunktion des Filters (28) für wahrnehmbare Gewichtung 1/A(z/&gamma;&sub2;) ist, wobei &gamma;&sub2; von &gamma; in der Übertragungsfunktion 1/A(z/&gamma;) abweicht.
5. System nach Anspruch 4, dadurch gekennzeichnet daß die Mittel (34, 36, 48) zum Vergleichen der Eingangswerte des gefilterten Codebuchs mit den wahrnahmbar gewichteten Sprachabtastwerten jeden p. Eingangswert untersucht, wobei p größer ist als eins.
6. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die genannten Mittel (34, 36, 48) zum Vergleichen die Vergleichung durchführen durch Berechnung der Summe der Kreuzprodukte unter Anwendung des nachfolgenden Ausdrucks:
wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex ist.
7. System nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß Mittel vorgesehen sind zum Bilden eines dynamisch adaptiven Codebuchs aus skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, Mittel zum Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten Indexes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.
8. System nach Anspruch 7, dadurch gekennzeichnet, daß Mittel vorgesehen sind zum Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und Mittel (50, 52 oder 50', 52') zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
9. System nach Anspruch 8, dadurch gekennzeichnet, daß das dynamisch adaptive Codebuch eine FIFO-Speicheranordnung einer vorbestimmter Kapazität aufweist und daß die Eingangssignale zu der Speicheranordnung die codierten wahrnehmbar gewichteten Sprachabtastwerte enthalten.
10. System nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte Mittel aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte benutzt wird.
11. Verfahren zum Codieren von Sprache, wobei digitalisierte Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß die Codebuch- Eingangswerte unter Verwendung eines Filters zur wahrnehmbaren Gewichtung gefiltert werden.
13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, daß die digitalisierten Sprachabtastwerte unter Verwendung eines Kurzzeitprädiktors mit einer Übertragungsfunktion A(z) und eines Filters mit einer Übertragungsfunktion 1/A(z/&gamma;), wobei &gamma;der wahrnehmbare Gewichtungskoeffizient ist, gefiltert werden und daß die Koeffizienten für den Kurzzeitprädiktor und das Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte hergeleitet werden.
14. Verfahren nach Anspruch 13, wenn abhängig von Anspruch 12, dadurch gekennzeichnet daß die Übertragungsfunktion des Filters zur wahrnehmbaren Gewichtung 1/A(z/&gamma;&sub2;) ist, wobei &gamma;&sub2; von &gamma; in der Übertragungsfunktion 1/A(z/&gamma;) abweicht.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß jeder p. Eingangswert des gefilterten Codebuchs untersucht wird, wobei p größer als eins ist.
16. Verfahren nach einem der Ansprüche 11 bis 15, dadurch gekennzeichnet, daß die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter Anwendung der nachfolgenden Gleichung erfolgt:
wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex und
m eine ganze Zahl niedrigen Wertes ist.
17. Verfahren nach einem der Ansprüche 11 bis 16, gekennzeichnet durch die Bildung eines dynamisch adaptiven Codebuchs aus skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, das Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, das Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, das Subtrahieren des festgestellten Eingangswertes aus den wahrnehmbar gewichteten Sprachabtastwerten, und das Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.
18. Verfahren nach Anspruch 17, gekennzeichnet durch das Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und das Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die codierten wahrnehmbar gewichteten Abtastwerte unter Anwendung einer Übertragungsfunktion gefiltert werden, welche die Inverse von deijenigen ist, die vorgesehen ist zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte.
20. Verfahren zum Herleiten von Sprache mit den nachfolgenden Verfahrensschritten: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge aus dem gefilterten Codebuch, wobei diese Folge durch einen Codebuchindex in dem Eingangssignal spezifrziert ist, das Einstellen der Amplitude der selektierten vorbestimmten Folge in Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen eines Sprachsignals.
DE69029232T 1989-08-16 1990-08-10 System und Methode zur Sprachkodierung Expired - Fee Related DE69029232T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB8918677A GB2235354A (en) 1989-08-16 1989-08-16 Speech coding/encoding using celp

Publications (2)

Publication Number Publication Date
DE69029232D1 DE69029232D1 (de) 1997-01-09
DE69029232T2 true DE69029232T2 (de) 1997-04-30

Family

ID=10661702

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69029232T Expired - Fee Related DE69029232T2 (de) 1989-08-16 1990-08-10 System und Methode zur Sprachkodierung

Country Status (11)

Country Link
US (1) US5140638B1 (de)
EP (1) EP0413391B1 (de)
JP (1) JP3392412B2 (de)
KR (1) KR100275054B1 (de)
AU (1) AU648479B2 (de)
BR (1) BR9003987A (de)
CA (1) CA2023167C (de)
DE (1) DE69029232T2 (de)
FI (1) FI903990A0 (de)
GB (1) GB2235354A (de)
HU (1) HUT58157A (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5451951A (en) * 1990-09-28 1995-09-19 U.S. Philips Corporation Method of, and system for, coding analogue signals
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
US5694519A (en) * 1992-02-18 1997-12-02 Lucent Technologies, Inc. Tunable post-filter for tandem coders
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
JP3224955B2 (ja) * 1994-05-27 2001-11-05 株式会社東芝 ベクトル量子化装置およびベクトル量子化方法
TW271524B (de) 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6263307B1 (en) 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
EP0788091A3 (de) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Verfahren und Vorrichtung zur Sprachkodierung und -dekodierung
WO1997030524A1 (en) * 1996-02-15 1997-08-21 Philips Electronics N.V. Reduced complexity signal transmission system
TW317051B (de) * 1996-02-15 1997-10-01 Philips Electronics Nv
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
KR100341398B1 (ko) * 2000-01-27 2002-06-22 오길록 씨이엘피형 보코더의 코드북 검색 방법
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
JP2010034794A (ja) * 2008-07-28 2010-02-12 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化方法
DE602008000303D1 (de) * 2008-09-03 2009-12-31 Svox Ag Sprachsynthese mit dynamischen Einschränkungen
EP2737479B1 (de) * 2011-07-29 2017-01-18 Dts Llc Adaptive sprachverständlichkeitsverbesserung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3335358A1 (de) * 1983-09-29 1985-04-11 Siemens AG, 1000 Berlin und 8000 München Verfahren zur bestimmung von sprachspektren fuer die automatische spracherkennung und sprachcodierung
DE3779351D1 (de) * 1986-03-28 1992-07-02 American Telephone And Telegraph Co., New York, N.Y., Us
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
GB8630820D0 (en) * 1986-12-23 1987-02-04 British Telecomm Stochastic coder

Also Published As

Publication number Publication date
CA2023167A1 (en) 1991-02-17
FI903990A0 (fi) 1990-08-13
HUT58157A (en) 1992-01-28
US5140638A (en) 1992-08-18
CA2023167C (en) 2002-01-29
JPH0395600A (ja) 1991-04-19
GB2235354A (en) 1991-02-27
KR100275054B1 (ko) 2000-12-15
AU6100090A (en) 1991-02-21
BR9003987A (pt) 1991-09-03
EP0413391A3 (en) 1991-07-24
EP0413391B1 (de) 1996-11-27
KR910005589A (ko) 1991-03-30
AU648479B2 (en) 1994-04-21
GB8918677D0 (en) 1989-09-27
EP0413391A2 (de) 1991-02-20
JP3392412B2 (ja) 2003-03-31
HU904991D0 (en) 1991-01-28
US5140638B1 (en) 1999-07-20
DE69029232D1 (de) 1997-01-09

Similar Documents

Publication Publication Date Title
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE19647298C2 (de) Kodiersystem
DE69531471T2 (de) Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung
DE69828725T2 (de) Sprachcodier- und -decodiersystem
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69214969T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69932460T2 (de) Sprachkodierer/dekodierer
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69814517T2 (de) Sprachkodierung
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE69636209T2 (de) Vorrichtung zur Sprachkodierung
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE602004004950T2 (de) Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
DE69023411T2 (de) Vektorquantizierungskodierer und Dekodierer.
DE4320990A1 (de) Verfahren zur Redundanzreduktion
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
DE69727256T2 (de) Sprachkodierer hoher Qualität mit niedriger Bitrate
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE68914147T2 (de) Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung.
DE19743662A1 (de) Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N

8339 Ceased/non-payment of the annual fee