DE69029232T2 - System und Methode zur Sprachkodierung - Google Patents
System und Methode zur SprachkodierungInfo
- Publication number
- DE69029232T2 DE69029232T2 DE69029232T DE69029232T DE69029232T2 DE 69029232 T2 DE69029232 T2 DE 69029232T2 DE 69029232 T DE69029232 T DE 69029232T DE 69029232 T DE69029232 T DE 69029232T DE 69029232 T2 DE69029232 T2 DE 69029232T2
- Authority
- DE
- Germany
- Prior art keywords
- codebook
- filtered
- perceptually weighted
- speech samples
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000012491 analyte Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
- G10L2019/0014—Selection criteria for distances
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die Erfindung bezieht sich auf ein Sprachcodierungssystem und auf ein Verfahren zur Sprachcodierung und insbesondere auf einen codegesteuerten Sprachcodierer, der Anwendung findet in digitalisierten Sprachübertragungssystemen.
- Beim Übertragen digitalisierter Sprache ist ein dabei auftretendes Problem, wie über einen bandbreitenbegrenzten Kommunikationskanal Sprache hoher Qualität erhalten werden kann. In jüngster Zeit ist eine vielversprechende Annäherung dieses Problems eine "Code-Excited Linear Prediction" (CELP), die imstande ist, synthetische Sprache hoher Qualität mit miedriger Bitrate zu schaffen. Fig. 1 der Zeichnung ist ein Blockschaltbild eines Vorschlags zum Implementieren von CELP und ist beispielsweise in einem Artikel "Fast CELP Coding Based on Algebraic Codes" von J-P Adoul, P. Mabilleau, M. Delprat und S. Morisette erschienen und bei der "International Conference on Acoustics Speech and Signal Processing (ICASSP)", 1987 vorgelesen und ist veröffentlicht worden auf den Seiten 1957 bis 1960 von ICASSP87. Zusammenfassend ist CELP eine Sprachcodierungstechnik, die daraus besteht, daß ein Restsignal durch eine optimale zeitliche Wellenform eines Codebuches in bezug auf subjektive Fehlerkriterien dargestellt wird. Insbesondere wird eine Codebuch-Folge ck selektiert, welche die Energie in einem perzeptuell gewichteten Signal y(n) dadurch minimiert, daß beispielsweise ein MSE-Kriterium verwendet wird, zum Selektieren der Folge. In Fig. 1 ist ein zweidimensionales Codebuch 10, das beliebige Vektoren ck(n) speichert, mit einer Verstärkungsstufe 12 gekoppelt. Das Ausgangssignal r(n) der Verstärkungsstufe 12 wird einem ersten inversen Filter 14 zugeführt, das einen Langzeitprädiktor bildet und eine Kennlinie 1/8(z) hat, wobei das Filter 14 zum Synthetisieren eines Mittenabstandes verwendet wird. Ein zweites inverses Filter 16, das einen Kurzzeitprädiktor bildet und eine Kennlinie 1/A(z) hat, ist derart geschaltet, daß es das Ausgangssignal e(n) des ersten Filters 14 erhält. Das zweite Filter synthtisiert die spektrale Umhüllende und schafft ein Ausgangssignal s(n), das einem invertierenden Eingang einer Summierungsstufe 18 zugeführt wird. Eine Quelle der ursprünglichen Sprache 20 ist mit einem nicht-invertierenden Eingang der Summierungsstufe 18 verbunden. Das Ausgangssignal x(n) der Summierungsstufe wird einem Gewichtungsfilter 22 mit einer Kennlinie W(z) zugeführt, wobei dieses Filter ein Ausgangssignal y(n) liefert.
- Im Betrieb wird die Sprache höherer Qualität bei niedriger Bitrate erreicht durch eine Analyse-durch-Synthese-Prozedur, wobei die Kurzzeit- sowie die Langzeitprädiktion angewandt wird. Diese Prozedur besteht daraus, daß die beste Folge in dem Code-Buch gefünden wird, die in bezug auf ein subjektives Fehlerkriterium optimal ist. Jedes Codewort oder Folge ck wird durch einen optimalen Verstärkungsfaktor Gk skaliert und wird über das erste und zweite inverse Filter 14, 16 verarbeitet. Die Differenz x(n) zwischen dem ursprünglichen und dem synthetischen Signal, d.h. s(n) und wird in dem Gewichtungsfilter 22 verarbeitet und die "beste" Folge wird danach gewählt zum Minimieren der Energie des Fehlersignals y(n). Zwei Nachteile des in Fig. 1 dargestellten Vorschlags sind die Vielzahl Berechnungen, herrührend aus der Suchprozedur zum Herausfinden der besten Folge und die Berechnungen zum Filtern aller Folgen über die Langzeit- sowie Kurzzeitprädiktoren.
- Die obengenannte Veröffentlichung auf den Seiten 1957 bis 1960 von ICASSP 87 schlägt mehrere Ideen vor zur Verringerung der Anzahl Berechnungen.
- Eine blockschematische Implementierung einer dieser Ideen ist in Fig. 2 der Zeichnung dargestellt, wobei zur Bezeichnung entsprechender Teile dieselben Bezugszeichen wie in Fig. 1 benutzt worden sind. Diese Implementierung ist hergeleitet von dem Ausdrück des Gewichtungsfilters 22 (Fig. 1) als
- W(z) = A(z)/A(z/γ)
- wobei γ der Gewichtungskoeffizient (um 0,8 herum gewählt) und A(z) ein lineares Prädiktionsfilter ist:
- A(z) = Σiaiz-i.
- Im Vergleich zu Fig. 1 kann das Gewichtungsfilter W(z) zu den Signaleingangsstrecken zur Summierungsstufe 18 geschoben werden. Auf diese Weise wird die ursprüngliche Sprache von der Quelle 20 über ein Analysenfilter 24 mit einer Kennlinie A(z) verarbeitet, wobei ein Restsignal e(n) entsteht, von dem Pitch-Parameter hergeleitet werden.
- Das Restsignal e(n) wird über ein inverses Filter 26 mit einer Kennlinie a/A(z/γ) verarbeitet, was ein Signal s'(n) ergibt, das dem nicht-invertierenden Eingang der Summierstufe 18 zugeführt wird.
- In der anderen Strecke wird der durch das zweite inverse Filter 16 (Fig. 1) gebildete Kurzzeitprädiktor durch ein inverses Filter 28 mit einer Kennlinie 1/A(z/γ) ersetzt, was ein Ausgangssignal '(n) ergibt.
- Der Langzeitprädiktor, das Filter 14, kann als Prädiktor mit nur einem Abgriff gewählt werden:
- B(z) = 1-bz-T -(1)
- wobei b die Verstärkung ist und T als Pitch-Periode bezeichnet wird. Der Ausdruck des Ausgangssignals ê(n) des Pitch-Prädiktors 1/B(z) läßt sich aus der obenstehenden Gleichung (1) herleiten:
- ê(n) = r( ) + bê(n-T) -(2)
- wobei r(n) = Gkck(n) ist, wobei n = 0, N -1 und N die Blockgröße oder Länge der Codewörter ist, wobei k der Codebuch-Index und Gk ein Verstärkungsfaktor ist.
- Während der Suchprozedur ist das Signal ê(n-T) bekannt und ist nicht abhängig von dem Codewort, das zu der Zeit getestet wird, wenn T immer größer als N sein soll. Auf diese Weise ist es möglich, daß der Pitch-Prädiktor 1/B(z) aus der Signalstrecke von dem zweidimensionalen Codebuch 10 entfernt wird, wenn das Signal bê(n-T) von dem Restsignal in der Strecke von der Sprachquelle 20 subtrahiert wird. Unter Verwendung des Ausdrucks (2) wird das Signal ê(n-T) dadurch erhalten, daß das verzögerte Signal (n-T) über den Pitch-Prädiktor 1/B(z) verarbeitet wird; und n-T wird aus den bereits bekannten Codewörtern berechnet, gwählt für vorhergehende Blöcke, unter der Bedingung, daß die Pitch-Periode T auf Werte begrenzt wird, die größer sind als die Blockgröße N. Die Wirkungsweise des Pitch-Prädiktors kann auch in Termen eines dynamischen adaptiven Codebuches betrachtet werden.
- In dieser Veröffentlichung wird auch ein Schema beschrieben, wobei der Langzeitprädiktor 1/B(z) und der Speicher des Kurzzeitprädiktors 1/A(z/γ) aus der Signalstrecke von dem Codebuch 10 entfernt werden.
- Dadurch ist es möglich, zwei Filtervorgänge an jedem Codewort zu einer einzigen speicherfteien Filterung je Codewort mit einer wesentlichen Verringerung des Rechenaufwands zurückzubringen.
- Eine andere Veröffentlichung "On Different Vector Predictive Coding Schemes and Their Application to Low Bit Rates Speech Coding" von F. Bottau, C. Galand, M. Rosso und J. Menez, Seiten 871 bis 874 von EURASIP 1988 beschreibt eine Annäherung zu CELP-Codierung, wodurch die Sprachqualität beibehalten werden kann, unter der Voraussetzung eines bestimmten Pegels des Rechenaufwands ohne Zunahme der Speichergröße.
- Diese Veröffentlichung beschreibt eine Unterteilung eines Rahmens mit 160 Abtastwerten in 6 oder 8 Blöcke zum Schaffen eines Codebuches mit 256 Folgen. Jede Folge besteht aus Restsignal, das einfach (N+L) Abtastwerte aufweist, wobei N die Anzahl Folgen ist und L die zu codierende Blocklänge; XO(n) n = 1, ... (N+L). In dem neuen Codebuch oder "Zeilencode" weichen zwei aufeinanderfolgende Codewörter nur um einen Abtastwert voneinander ab. Das erste Codewort besteht aus den ersten L Abtastwerten des Zeilencodes:
- CB(1, n) = XO(n) n = 1,L
- Das nächste Codewort wird dann durch die letzten (L - 1) Abtastwerte des vorhergehenden und des nächsten Abtastwertes des Zeilencodes definiert:
- CB(2, n) = XO(n + 1) n = 1, L und
- CB(k, n) = XO(n + k - n) n = 1, L
- Es ist nicht notwendig die Energien jeder in betracht kommender Folge zu bewerten oder zu speichern, da es möglich ist, sie auf einen einzigen Wert zu normalisieren. Die genannten Vorteile dieses Codebuchs sind, daß das Format einen geringeren Speicher- und Rechenaufwand ermöglicht.
- Obschon in den beiden Veröffentlichungen Verfahren zur Verbesserung der Implementierung der CELP-Technik beschrieben sind, gibt es dennoch Raum zur Verbesserung.
- Nach einem ersten Aspekt der vorliegenden Erfindung wird ein Sprachcodierungssystem geschaffen mit Mitteln zum Filtern digitalisierter Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch ein eindimensionales Codebuch, Mittel zum Filtern von Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines gefilterten Codebuchs, zusammengesetzt aus allen genannten gelesenen Eingangswerten, und Mittel zum Vergleichen von Eingangswerten des gefilterten Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
- Nach einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren von Sprache geschaffen, wobei digitalisierte Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
- Durch Verwendung eines eindimensionalen Codebuches wird eine wesentliche Verringerung des Rechenaufwands des CELP-Codierers erzielt, weil die Verarbeitung aus der Filterung dieses Codebuchs als Ganzes besteht, wobei das wahrnehmbar gewichtete Synthesefilter einmal für jeden Satz durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte erzeugter Filterkoeffizienten benutzt wird. Das Aktualisieren der Filterkoeffizienten kann einmal je vier Rahmen digitalisierter Sprachabtastwerte erfolgen, wobei jeder Rahmen eine Dauer von beispielsweise 5 ms hat. Das gefilterte Codebuch wird danach untersucht zum Herausfinden der optimalen Rahmenlängenfolge, die den Fehler zwischen der wahrnehmbar gewichteten Eingangssprache und der gewählten Folge minimiert.
- Gewünschtenfalls kann jeder p. Eingangswert des gefilterten Codebuchs untersucht werden, wobei p größer als eins ist. Da benachbarte Eingangswerte in dem gefilterten Codebuch korreliert sind, kann dadurch, daß nicht jeder Eingangswert untersucht wird, der Rechenaufwand verringert werden, ohne daß dadurch die Qualität der Sprache beeinträchtigt wird oder als Alternative kann ein längeres Codebuch mit demselben Rechenaufwand untersucht werden, wodurch die Möglichkeit einer besseren Sprachqualität geschaffen wird.
- In einer Ausführungsform der vorliegenden Erfindung erfolgt die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter Anwendung der nachfolgenden Gleichung:
- wobei Ek der Gesamtfehler-Term ist
- N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
- n die Abtastwertnummer ist,
- x das Signal ist, das dem Codebuch entspricht,
- gk die nicht-skalierte gefilterte Codebuchfolge ist und
- k der Codebuchindex ist.
- Dies entspricht dem Untersuchungsvorgang zum Suchen des Codebuchindexes k für einen Maximalwert des Ausdrucks:
- Die Rechenarbeit läßt sich reduzieren (einigermaßen auf Kosten der Sprachqualität) durch Bewertung jedes m. Terms dieses Kreuzproduktes und durch Maximierung
- wobei m eine ganze Zahl mit einem niedrigen Wert ist.
- Das Sprachcodierungssystem kann weiterhin Mittel aufweisen zum Bilden eines Langzeitprädiktors unter Verwendung eines dynamisch adaptiven Codebuchs mit skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, zusammen mit Eingangswerten von dem dynamisch adaptiven Codebuchs, Mittel zum Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten Eingangswertes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.
- Es können Mittel vorgesehen sein zum Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
- Das dynamisch adaptive Codebuch kann eine FIFO-Speicheranordnung einer vorbestimmter Kapazität aufweisen, wobei die Eingangssignale zu der Speicheranordnung die codierten wahrnehmbar gewichteten Sprachabtastwerte enthalten.
- Die Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte können Mittel aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte benutzt wird.
- Nach einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren geschaffen zum Herleiten van Sprache, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfaßt: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge, spezifiziert durch einen Codebuchindex in dem Eingangssignal. das Einstellen der Amplitude der selektierten vorbestimmten Folge in Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen eines Sprachsignals.
- Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
- Fig. 1 und 2 je ein Blockschaltbild der bekannten CELP-Systeme,
- Fig. 3 ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung,
- Fig. 4 ein Blockschaltbild eines Empfängers.
- In der Zeichung werden für entsprechende Elemente dieselben bezugszeichen verwendet.
- In Fig. 3 ist eine Sprachquelle 20 mit einer Stufe 30 gekoppelt, welche die Sprache quantisiert und in Rahmen von 5 ms segmentiert. Die segmentierte Sprache s(n) wird einem Analusenfilter 24 zugeführt, das eine Übertragungsfunktion A(z) hat, sowie einem linearen prädiktiven Codierer (LPC) 32, der die Filterkoefflzienten ai berechnet. Das Restsignal r(n) vom Filter 24 wird danach in einem wahrnehmbar gewichteten Synthesenfilter 26 mit einer Übertragungsfunktion 1/A(z/γ) verarbeitet. Das wahrnehmbar gewichtete Restsignal sw(n) wird einem nicht-invertierenden Eingang einer Subtraktionsstufe 34 zugeführt (die als Summierstufe mit invertierenden und nicht-invertierenden Eingängen ausgebildet ist). Das Ausgangssignal der Summierstufe 34 wird einem nicht-invertierenden Eingang einer anderen Subtrahierstufe 36 zugeführt.
- Ein eindimensionales (1-D) Codebuch 110 mit weißen Gausschen Zufallsnummerfolgen ist mit einem wahrnehmbar gewichteten Synthesefilter 28 verbunden, das die Codebucheingangswerte filtert und die Ergebnisse einem 1-D gefilterten Codebuch 37 zuführt, das ein einstweiliges Master-Codebuch bildet. Die Codebuchfolgen werden an sich wieder einer Verstärkungsstufe 12 mit einer Verstärkung G zugeführt. Die skalierten codierten Folgen von der Verstärkungsstufe 12 werden dem invertierenden Eingang der Subtrahierstufe 36 und einem Eingang einer Summierstufe 38 zugeführt. Das Ausgangssignal der Stufe 38 weist ein Pitch-Prädiktionssignal auf, das der Pitch-Verzögerungsstufe 40 zugeführt wird, die eine vorselektierte Verzögerung T einführt, sowie einer Stufe 42 zum Decodieren der Sprache. Die Pitch-Verzögerungsstufe 40 kann eine FIFO-Speicheranordnung aufweisen. Das verzögerte Pitch-Prädiktionssignal wird einer Verstärkungsstufe 44 zugeführt, die eine Verstärkung b hat. Das skalierte Pitch-Prädiktionssignal wird einem Eingang der Summierstufe 38 und einem invertierenden Eingang der Subtrahierstufe 34 zugeführt.
- Eine erste Statischer-Gesamtfehlerstufe 46 ist ebenfalls mit dem Ausgang der Subtrahierstufe 34 verbunden und schafft ein Femersignal EA, das zum Minimieren von Schwankungen in bezug auf Pitch-Prädiktion verwendet wird. Eine zweite Statischer-Gesamtfehlerstufe 48 ist mit dem Ausgang der Subtrahierstufe 36 verbunden zum Erzeugen eines wahrnehmbaren Fehlersignals EB, das zum Minimieren der Schwankung in bezug auf das gefilterte Codebuch 37 verwendet wird.
- In der dargestellten Ausführungsform wird Sprache von der Quelle 20 in Rahmen von 40 Abtastwerten segmentiert, wobei jeder Rahmen eine Dauer von 5 ms hat. Jeder Rahmen geht durch die Analysen-und-Gewichtungsfilter 24, 26; wobei die Koeffizienten ai für diese Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte abgeleitet werden. In einer typischen Anwendung sind zehn Prädiktionskoeffizienten erforderlich und diese werden alle 20 ms aktualisiert (Blockrate). Das Gewichtungsfilter introduziert eine gewisse subjektive Gewichtung in den Codierungsprozeß. Es hat sich herausgestellt, daß ein Wert von γ = 0,65 gute Resultate ergibt. In der Subtrahierstufe 34 wird die skalierte (Langzeit) Pitchprädiktion von den wahrnehmbar gewichteten Restsignalen sw(n) vom Filter 26 subtrahiert. Solange die skalierte Pitch-Prädiktion nur Information von vorher verarbeiteter Sprache benutzt, läßt sich die optimale Pitch-Verzögerung T und Verstärkung b (Stufe 44) berechnen zum Minimieren des Fehlers EA am Ausgang der MSE-Stufe 46.
- Das 1-D Codebuch 110 enthält 1024 Elemente, die alle einmal je 20 ms Block durch das wahrnehmbare Gewichtungsfilter 28 gefiltert werden, dessen Koeffizienten denen des Filters 26 entsprechen. Die Codebuchuntersuchung erfolgt durch Prüfungsvektoren, zusammengesetzt aus 40 benachbarten Elementen von dem gefilterten Codebuch 37. Während der Untersuchung wird die Ausgangsposition des Vektors um eins oder mehr für jeden Codebucheingangswert erhöht und der Wert der Verstärkung G (Stufe 12) wird berechnet zum Ergeben des minimalen Fehlers EB am Ausgang der MSE 48. Auf diese Weise werden der Codebuchindex und die Verstärkung G für den minimalen wahrnehmbaren Fehler gefunden. Diese Information wird danach in der Synthese der Ausgangssprache verwendet unter Verwendung beispielsweise der Stufe 42, dieein entwichtetes Analysenfilter 50, ein inverses Synthesefilter 52, einen Ausgangswandler 54, und, ggf. ein globales Nachfilter 56 aufweist. Die Koeffizienten der Filter 50 und 52 werden von dem LPC 32 hergeleitet. In einer praktischen Situation enthält die übertragene Information die LPC-Koeffizienten, den Codebuch-Index, die Codebuch-Verstärkung, den Pitch-Prädiktorindex und die Pitch-Prädiktorverstärkung. Am Ende einer Kommunikationsstrecke kann ein Empfänger mit einer Kopie des nichtgefilterten 1-D Codebuchs das gefilterte Codebuch für jeden Sprachblock aus den empfangenen Filterkoeffizienten regenerieren und danach die ursprüngliche Sprache synthetisieren.
- Zur Verringerung der Anzahl Bits erforderlich zum Darstellen der LPC- Koeffizienten, wurden diese Koeffizienten als "log-area ratios" (L.A.R.) quantisiert, was ebenfalls die Empfindlichkeit für Quantisierungsverzerrung minimierte. Auf alternative Weise können diese Koeffizienten durch Verwendung von Zeilenspektralpaaren (line spectral pairs) (LSP) quantisiert werden. Im vorliegenden Beispiel kann ein Block van 10 LPC Koeffizienten, quantisiert als LAR als 40 Bits je 20 ms dargestellt werden. Die Zahl von 40 Bits entsteht durch Quantisierung der 1. und 2. LPC-Koeffizienten unter Verwendung von jeweils 6 Bits, der 3. und 4. LPC-Koeffizienten unter Verwendung von jeweils 5 Bits, der 5. und 6. LPC-Koeffizienten unter Verwendung von jeweils 4 Bits, der 7. und 8. LPC-Koeffizienten unter Verwendung von jeweils 3 Bits und der 9. und 10. LPC-Koeffizienten unter Verwendung von jeweils 2 Bits. Auf diese Weise ist die Anzahl Bits je Sekunde 2000. Außerdem weist die Rahmen-Rate, die alle 5 ms aktualisiert wird, den Codebuch-Index - 10 Bits, die Codebuch-Verstärkung, die logarithmisch quantisiert wurde, - 5 Bits + 1 Vorzeichen-Bit, den Pitch-Prädiktor- index - 7 Bits und die Pitch-Prädiktorverstärkung - 4 Bits auf. Diese 27 Bits insgesamt entsprechen 5400 Bits/Sekunde. Die Gesamtbitrate (2000 + 5400) beträgt also 7400 Bits/Sekunde.
- Das in den Fig. 1 und 2 beschriebene zweidimensionale Codebuch könnte wie folgt dargestellt werden:
- c(ij) = d(i,j)
- wobei c(ij) das j. Element des i. Codebucheingangswertes ist und d eine zweidimensionale Anordnung von Zufallszahlen ist. Im Gegensatz dazu kann das in Fig. 3 verwendete Codebuch wie folgt dargestellt werden:
- c(ij) = d(i+j)
- wobei d eine eindimensionale Anordnung von Zufallszahlen ist. Typisch ist 1< i< 1024 und 1< j< 40.
- Der Hauptteil der Rechenarbeit in CELP liegt in der Codebuchuntersuchung und ein wesentlicher Teil davon bezieht sich auf das Filtern des Codebuches. Unter Verwendung eines 1-dimensionalen Codebuches, wie anhand der Fig. 3 beschrieben, reduziert die Codebuch-Filterung um einen Faktor gleich der Länge des Sprachsegmentes.
- Die Vergleichung der Folgen des gefilterten Codebuchs mit dem Pitchfreien wahrnehmbar gewichteten Restsignal am Ausgang der Subtrahierstufe 34 erfolgt durch Berechnung der Summe der Kreuzprodukte unter Anwendung der Gleichung:
- wobei Ek der Gesamtfehler-Term ist
- N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
- n die Abtastwertnummer ist,
- x das Signal ist, das dem Codebuch entspricht,
- gk die nicht-skalierte gefilterte Codebuchfolge ist und
- k der Codebuchindex ist.
- Die Herleitung dieser Gleichung basiert auf den Gleichungen auf Seite 872 von EURASIP, 1988, wie obengenannt.
- Vollständigkeitshalber zeigt Fig. 4 einen Empfänger. Da der Empfänger Eigenschaften aufweist, die auch in der Ausführungsform nach Fig. 3 dargestellt sind, sind entsprechende Teile durch dieselben Bezugszeichen mit einem Akzent angegeben.
- Die von dem Empfänger empfangenen Daten werden die LPC-Koeffizienten aufweisen, die einem Anschluß 60 zugeführt werden, den Codebuch-Index und -Verstärkung, die den Anschlüssen 62 bzw. 64 zugeführt werden, und den Pitch-Prädiktor-Index und - Verstärkung, die den Anschlüssen 66 bzw. 68 zugeführt werden. Ein eindimensionales Codebuch 110' wird in einem wahrnehmbar gewichteten Syntehsefilter 28' gefiltert und die Ausgangswerte werden zum Bilden eines gefilterten Codebuchs 37' verwendet. Die geeignete Folge von dem gefilterten Codebuch 37' wird in Antwort auf das Codebuchindexsignal selektiert und wird einer Verstärkungsstufe zugeführt, deren Verstärkung in dem empfangenen Signal spezifiziert ist. Die verstärkungsgeregelte Folge wird dem Pitch-Prädiktor 40' zugeführt, dessen Verzögerung durch den Pitch-Prädiktor-Index eingestellt wird und dessen Ausgangssignal einer Verstärkungsstufe 44' zugeführt wird, dessen Verstärkung durch das Pitch-Prädiktor-Verstärkungssignal spezifiziert wird. Die Folge mit der wiederhergestellten Pitch-Prädiktion wird einem entwichteten Analysenfilter 50' mit einer Kennlinie A/z/γ) zugeführt. Das Ausgangssignal rdw(n) vom Filter 50' wird einem inversen Synthesefilter 52' zugeführt, das eine Kennlinie 1/A(z) hat. Die Koeffizienten für die Filter 50', 52' werden in dem empfangenen Signal spezifiziert und jedes Block (oder alle vier Rahmen) aktalisiert. Das Ausgangssignal des Filters 52' kann unmittelbar einem Ausgangswandler 54' oder mittelbar über ein globales Nachfilter 56', das die Sprachqualität verbessert durch Verbesserung der Störungsunterdrückung auf Kosten einer gewissen Sprachverzerrung.
- Die in Fig. 3 dargestellte Ausführungsform kann geändert werden um die Konstruktion zu vereinfachen, um den Rechenaufwand zu reduzieren oder um die Sprachqualität zu verbessern ohne daß der Rechenaufwand dazu zunimmt.
- So kann beispielsweise die Größe des eindimensionalen Codebuchs verringert werden.
- Die wahrnehmbare Fehlerschätzung kann an einer unterabgetasteten Version des wahrnehmbaren Fehlersignals durcheführt werden. Dies würde den für den Längzeitprädiktor und für die Codebuchuntersuchung erforderlichen Rechenaufwand reduzieren.
- Eine vollständige Untersuchung des gefilterten Codebuchs kann überflüssig sein, da benachbarte Eingangswerte korreliert sind. Auf alternative Weise könnte ein längeres Codebuch untersucht werden, was eine bessere Sprachqualität ergeben wurde. In beiden Fällen wird jeder p. Eingangswert untersucht, wobei p größer ist als eins.
- Die Filterrechenarbeit könnte reduziert werden, wenn zwei halblange Codebücher verwendet würden. Das eine könnte mit dem Gewichtungsfilter aus dem aktuellen Rahmen gefiltert werden, das andere könnte von dem vorhergehenden Rahmen zurückgehalten werden. Auf gleiche Weise könnte eines dieser halblangen Codebücher aus den vorher selektierten Codebucheingangswerten hergeleitet werden.
- Gewünschtenfalls kann ein festes Gewichtungsfilter zur Filterung des Codebuchs verwendet werden.
- Die in Fig. 3 dargestellte Ausführungsform der Erfindung setzt voraus, daß die Übertragungsfunktionen der wahrnehmbar gewichteten Synthesefilter 26, 28 sieselben sind. Es wurde aber gefunden, daß es möglich ist, eine bessere Sprachqualität dadurch zu erhalten, wenn diese Filter verschiedene Übertragungsfunktionen haben. Insbesondere ist der Wert von γ für die Filter 26 und 50 derselbe, aber abweichend von dem des Filters 28.
- Die Zahlenwerte in der Beschreibung der Wirkungsweise der Ausführungsform nach Fig. 3 sind nur zur Erläuterung gegeben und im Rahmen der Erfindung können auch andere Werte verwendet werden.
- Dem Fachkundigen werden nach der Lektüre der vorliegenden Beschreibung leicht weitere Abwandlungen einfallen. Solche Abwandlungen können andere Merkmale betreffen, die bereits im Entwurf und in der Fertigung und in der Verwendung von CELP-Systemen und Teilen davon bekannt sind und die anstelle der hier bereits beschriebenen Merkmale oder ergänzend dazu verwendet werden können.
Claims (20)
1. Sprachcodierungssystem mit Mitteln (24, 26) zum Filtern digitalisierter
Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte,
gekennzeichnet durch ein eindimensionales Codebuch (110), Mittel (28) zum Filtern von
Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines
gefilterten Codebuchs (37), zusammengesetzt aus allen genannten gelesenen
Eingangswerten, und Mittel (34, 36, 48) zum Vergleichen von Eingangswerten des gefilterten
Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines
Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die
Sprache neu-synthetisiert wird.
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Mittel zum
Filtern der aus dem eindimensionalen Codebuch ausgelesenen Eingangswerte ein Filter
(28) zur wahrnehmaren Gewichtung aufweist.
3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Mittel
zum Filtern der digitalisierten Sprachabtastwerte einen Kurzzeitprädiktor (24) aufweisen
mit einer Übertragungsfunktion A(z) und ein Filter (26) mit einer Übertragungsfunktion
1/A(z/γ), wobei γ ein wahrnehmbare Gewichtungskoeffizient ist, und daß Mittel (32)
vorgesehen sind zum Herleiten der Koeffizienten für den Kurzzeitprädiktor und das
Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte.
4. System nach Anspruch 3, wenn abhängig von Anspruch 2, dadurch
gekennzeichnet daß die Übertragungsfunktion des Filters (28) für wahrnehmbare
Gewichtung 1/A(z/γ&sub2;) ist, wobei γ&sub2; von γ in der Übertragungsfunktion 1/A(z/γ)
abweicht.
5. System nach Anspruch 4, dadurch gekennzeichnet daß die Mittel (34, 36,
48) zum Vergleichen der Eingangswerte des gefilterten Codebuchs mit den
wahrnahmbar gewichteten Sprachabtastwerten jeden p. Eingangswert untersucht, wobei p
größer ist als eins.
6. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß
die genannten Mittel (34, 36, 48) zum Vergleichen die Vergleichung durchführen durch
Berechnung der Summe der Kreuzprodukte unter Anwendung des nachfolgenden
Ausdrucks:
wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex ist.
7. System nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß
Mittel vorgesehen sind zum Bilden eines dynamisch adaptiven Codebuchs aus skalierten
Eingangswerten, selektiert aus dem gefilterten Codebuch, Mittel zum Vergleichen von
Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten
Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz
zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar
gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten
Indexes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum
Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von
dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der
besten Anpassung führt.
8. System nach Anspruch 7, dadurch gekennzeichnet, daß Mittel vorgesehen
sind zum Kombinieren des gefilterten Codebucheingangswertes, was die beste
Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert
zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und Mittel (50, 52
oder 50', 52') zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte
zum Schaffen synthetisierter Sprache.
9. System nach Anspruch 8, dadurch gekennzeichnet, daß das dynamisch
adaptive Codebuch eine FIFO-Speicheranordnung einer vorbestimmter Kapazität
aufweist und daß die Eingangssignale zu der Speicheranordnung die codierten
wahrnehmbar gewichteten Sprachabtastwerte enthalten.
10. System nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die
Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte Mittel
aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der
Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten
Sprachabtastwerte benutzt wird.
11. Verfahren zum Codieren von Sprache, wobei digitalisierte
Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte,
gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum
Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar
gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten
eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt,
wenn die Sprache neu-synthetisiert wird.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß die Codebuch-
Eingangswerte unter Verwendung eines Filters zur wahrnehmbaren Gewichtung gefiltert
werden.
13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, daß die
digitalisierten Sprachabtastwerte unter Verwendung eines Kurzzeitprädiktors mit einer
Übertragungsfunktion A(z) und eines Filters mit einer Übertragungsfunktion 1/A(z/γ),
wobei γder wahrnehmbare Gewichtungskoeffizient ist, gefiltert werden und daß die
Koeffizienten für den Kurzzeitprädiktor und das Filter durch lineare prädiktive Analyse
der digitalisierten Sprachabtastwerte hergeleitet werden.
14. Verfahren nach Anspruch 13, wenn abhängig von Anspruch 12, dadurch
gekennzeichnet daß die Übertragungsfunktion des Filters zur wahrnehmbaren
Gewichtung 1/A(z/γ&sub2;) ist, wobei γ&sub2; von γ in der Übertragungsfunktion 1/A(z/γ) abweicht.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß jeder p.
Eingangswert des gefilterten Codebuchs untersucht wird, wobei p größer als eins ist.
16. Verfahren nach einem der Ansprüche 11 bis 15, dadurch gekennzeichnet,
daß die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter
Anwendung der nachfolgenden Gleichung erfolgt:
wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex und
m eine ganze Zahl niedrigen Wertes ist.
17. Verfahren nach einem der Ansprüche 11 bis 16, gekennzeichnet durch die
Bildung eines dynamisch adaptiven Codebuchs aus skalierten Eingangswerten, selektiert
aus dem gefilterten Codebuch, das Vergleichen von Eingangswerten aus dem dynamisch
adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, das Bestimmen
eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven
Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, das
Subtrahieren des festgestellten Eingangswertes aus den wahrnehmbar gewichteten
Sprachabtastwerten, und das Vergleichen des Differenzsignals, erhalten aus der
Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des
gefilterten Codebuchindexes, was zu der besten Anpassung führt.
18. Verfahren nach Anspruch 17, gekennzeichnet durch das Kombinieren des
gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem
entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter
wahrnehmbar gewichteter Sprachabtastwerte, und das Filtern der codierten wahrnehmbar
gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die codierten
wahrnehmbar gewichteten Abtastwerte unter Anwendung einer Übertragungsfunktion
gefiltert werden, welche die Inverse von deijenigen ist, die vorgesehen ist zum
Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte.
20. Verfahren zum Herleiten von Sprache mit den nachfolgenden
Verfahrensschritten: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen
Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem
Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge aus dem gefilterten
Codebuch, wobei diese Folge durch einen Codebuchindex in dem Eingangssignal
spezifrziert ist, das Einstellen der Amplitude der selektierten vorbestimmten Folge in
Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des
Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex
und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch
wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen
eines Sprachsignals.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8918677A GB2235354A (en) | 1989-08-16 | 1989-08-16 | Speech coding/encoding using celp |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69029232D1 DE69029232D1 (de) | 1997-01-09 |
DE69029232T2 true DE69029232T2 (de) | 1997-04-30 |
Family
ID=10661702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69029232T Expired - Fee Related DE69029232T2 (de) | 1989-08-16 | 1990-08-10 | System und Methode zur Sprachkodierung |
Country Status (11)
Country | Link |
---|---|
US (1) | US5140638B1 (de) |
EP (1) | EP0413391B1 (de) |
JP (1) | JP3392412B2 (de) |
KR (1) | KR100275054B1 (de) |
AU (1) | AU648479B2 (de) |
BR (1) | BR9003987A (de) |
CA (1) | CA2023167C (de) |
DE (1) | DE69029232T2 (de) |
FI (1) | FI903990A0 (de) |
GB (1) | GB2235354A (de) |
HU (1) | HUT58157A (de) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5451951A (en) * | 1990-09-28 | 1995-09-19 | U.S. Philips Corporation | Method of, and system for, coding analogue signals |
DE69233502T2 (de) * | 1991-06-11 | 2006-02-23 | Qualcomm, Inc., San Diego | Vocoder mit veränderlicher Bitrate |
US5694519A (en) * | 1992-02-18 | 1997-12-02 | Lucent Technologies, Inc. | Tunable post-filter for tandem coders |
CA2105269C (en) * | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
JP2953238B2 (ja) * | 1993-02-09 | 1999-09-27 | 日本電気株式会社 | 音質主観評価予測方式 |
FR2702590B1 (fr) * | 1993-03-12 | 1995-04-28 | Dominique Massaloux | Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP. |
JP3224955B2 (ja) * | 1994-05-27 | 2001-11-05 | 株式会社東芝 | ベクトル量子化装置およびベクトル量子化方法 |
TW271524B (de) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US6263307B1 (en) | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
JP3616432B2 (ja) * | 1995-07-27 | 2005-02-02 | 日本電気株式会社 | 音声符号化装置 |
FR2742568B1 (fr) * | 1995-12-15 | 1998-02-13 | Catherine Quinquis | Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application |
EP0788091A3 (de) * | 1996-01-31 | 1999-02-24 | Kabushiki Kaisha Toshiba | Verfahren und Vorrichtung zur Sprachkodierung und -dekodierung |
WO1997030524A1 (en) * | 1996-02-15 | 1997-08-21 | Philips Electronics N.V. | Reduced complexity signal transmission system |
TW317051B (de) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
KR100341398B1 (ko) * | 2000-01-27 | 2002-06-22 | 오길록 | 씨이엘피형 보코더의 코드북 검색 방법 |
US6879955B2 (en) * | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
JP2010034794A (ja) * | 2008-07-28 | 2010-02-12 | Fujitsu Ltd | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化方法 |
DE602008000303D1 (de) * | 2008-09-03 | 2009-12-31 | Svox Ag | Sprachsynthese mit dynamischen Einschränkungen |
EP2737479B1 (de) * | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive sprachverständlichkeitsverbesserung |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3335358A1 (de) * | 1983-09-29 | 1985-04-11 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur bestimmung von sprachspektren fuer die automatische spracherkennung und sprachcodierung |
DE3779351D1 (de) * | 1986-03-28 | 1992-07-02 | American Telephone And Telegraph Co., New York, N.Y., Us | |
IT1195350B (it) * | 1986-10-21 | 1988-10-12 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale |
GB8630820D0 (en) * | 1986-12-23 | 1987-02-04 | British Telecomm | Stochastic coder |
-
1989
- 1989-08-16 GB GB8918677A patent/GB2235354A/en not_active Withdrawn
-
1990
- 1990-08-06 US US07563473 patent/US5140638B1/en not_active Expired - Lifetime
- 1990-08-10 EP EP90202178A patent/EP0413391B1/de not_active Expired - Lifetime
- 1990-08-10 DE DE69029232T patent/DE69029232T2/de not_active Expired - Fee Related
- 1990-08-13 FI FI903990A patent/FI903990A0/fi not_active Application Discontinuation
- 1990-08-13 CA CA002023167A patent/CA2023167C/en not_active Expired - Lifetime
- 1990-08-13 HU HU904991A patent/HUT58157A/hu unknown
- 1990-08-13 BR BR909003987A patent/BR9003987A/pt not_active Application Discontinuation
- 1990-08-13 JP JP21490090A patent/JP3392412B2/ja not_active Expired - Lifetime
- 1990-08-14 AU AU61000/90A patent/AU648479B2/en not_active Expired
- 1990-08-14 KR KR1019900012501A patent/KR100275054B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2023167A1 (en) | 1991-02-17 |
FI903990A0 (fi) | 1990-08-13 |
HUT58157A (en) | 1992-01-28 |
US5140638A (en) | 1992-08-18 |
CA2023167C (en) | 2002-01-29 |
JPH0395600A (ja) | 1991-04-19 |
GB2235354A (en) | 1991-02-27 |
KR100275054B1 (ko) | 2000-12-15 |
AU6100090A (en) | 1991-02-21 |
BR9003987A (pt) | 1991-09-03 |
EP0413391A3 (en) | 1991-07-24 |
EP0413391B1 (de) | 1996-11-27 |
KR910005589A (ko) | 1991-03-30 |
AU648479B2 (en) | 1994-04-21 |
GB8918677D0 (en) | 1989-09-27 |
EP0413391A2 (de) | 1991-02-20 |
JP3392412B2 (ja) | 2003-03-31 |
HU904991D0 (en) | 1991-01-28 |
US5140638B1 (en) | 1999-07-20 |
DE69029232D1 (de) | 1997-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE19647298C2 (de) | Kodiersystem | |
DE69531471T2 (de) | Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung | |
DE69828725T2 (de) | Sprachcodier- und -decodiersystem | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69214969T2 (de) | Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte | |
DE69309557T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE19604273C5 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69814517T2 (de) | Sprachkodierung | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE602004004950T2 (de) | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren | |
DE69023411T2 (de) | Vektorquantizierungskodierer und Dekodierer. | |
DE4320990A1 (de) | Verfahren zur Redundanzreduktion | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE68913691T2 (de) | System zur Sprachcodierung und -decodierung. | |
DE69727256T2 (de) | Sprachkodierer hoher Qualität mit niedriger Bitrate | |
DE69028434T2 (de) | System zur Codierung von Breitbandaudiosignalen | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE68914147T2 (de) | Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung. | |
DE19743662A1 (de) | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N |
|
8339 | Ceased/non-payment of the annual fee |