DE69512323T2 - Methode zur Verbesserung der Eigenschaften von Sprachkodierern - Google Patents

Methode zur Verbesserung der Eigenschaften von Sprachkodierern

Info

Publication number
DE69512323T2
DE69512323T2 DE69512323T DE69512323T DE69512323T2 DE 69512323 T2 DE69512323 T2 DE 69512323T2 DE 69512323 T DE69512323 T DE 69512323T DE 69512323 T DE69512323 T DE 69512323T DE 69512323 T2 DE69512323 T2 DE 69512323T2
Authority
DE
Germany
Prior art keywords
excitation
signal
synthetic
objective function
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69512323T
Other languages
English (en)
Other versions
DE69512323D1 (de
Inventor
Silvio Cucchi
Marco Fratti
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel SA filed Critical Alcatel SA
Application granted granted Critical
Publication of DE69512323D1 publication Critical patent/DE69512323D1/de
Publication of DE69512323T2 publication Critical patent/DE69512323T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

    1. BESCHREIBUNG DES STANDES DER TECHNIK
  • Sprachcodierung (Sprachverschlüsselung) wird in vielen Kommunikationsbereichen angewendet: von einer Übertragung über Satellit zum Mobilfunk, speichervermittelnden Systemen, automatische Antwortsender usw.
  • Insbesondere besteht ein starkes Bedürfnis nach wirksamen Techniken für die Sprachsignalcodierung dort, wo erkennbare Bandbegrenzungen vorhanden sind (betrachte die "begrenzte" Verfügbarkeit von Bandbreite in dem Äther); deshalb ist es wichtig, in der Lage zu sein, die zu übertragende Bitrate drastisch zu reduzieren und dabei weiterhin eine hohe Qualität des empfangenen Signals aufrecht zu erhalten.
  • Zu diesem Zweck werden verschiedene Sprachsignal- Codiertechniken verwendet; die üblichsten (die eine hohe Qualität des empfangenen Signals unter verschiedenen Bitraten sicherstellen) basieren auf den LP (Linear Prediction: lineare Vorhersage) und Ab- S (Analysis-by-Synthesis: Analyse durch Synthese)- Prinzipien (P. Kroon, E. F. Deprettere "A class of analysis-by-synthesis predictive coders for high quality speech coding at rates between 4.8 and 16 Kbits/s", IEEE Journal an SeTected Areas in Communications, Bd. 6, Nr. 2, Seiten 353-363, Februar 1988).
  • Die vorliegende Beschreibung offenbart einige Techniken zur Verbesserung der Eigenschaften von auf den vorstehend erwähnten Techniken basierenden Sprachcodierern. Nach einem Aspekt der Erfindung ist ein Anregungsparameter-Berechnungsverfahren gemäß Anspruch 1 angegeben. Nach einem weiteren Aspekt der Erfindung ist ein Toncodierer gemäß Anspruch 6 geschaffen.
  • Die Sprachcodierer, die auf der linearen Vorhersage (LP) basieren, sind parametrische Codierer; typischerweise werden Analyse durch-Synthese-(A-b-S)- Techniken für eine korrekte Bestimmung der Parameter des Systems verwendet. Solche Codierer synthetisieren die Sprache durch die Verwendung einer geeigneten Eingangsanregung bei einem Synthese-LP- Filter.
  • Insbesondere sollte die Anregung die Charakteristiken der "physischen" Anregungssignalform aufweisen, die von der Stimmritze kommend dann als Funktion der Charakteristiken des Systems, das das Sprachsegment simuliert (LP-Filter), spektral modifiziert wird.
  • Die modernsten A-b-S-Codierer verwenden eine Anregungsstruktur, die sich aus einem Adaptiven Codebuch und aus einem (eventuell strukturierten) Festen Codebuch zusammensetzen. Ohne Beeinträchtigung der Allgemeinheit kann angenommen werden, daß sich das Feste Codebuch aus unabhängigen Vektoren aus Zufallszahlen zusammensetzt, wie dies bei CELP- Codierern der Fall ist (M. R. Schroeder, B. S. Atal, "Code Excited Linear Prediction (CELP): high-quality speech at very low bit rates", Proc. ICASSP, '85, Seiten 937-940.
  • In Fig. 1 ist ein Blockdiagramm eines typischen CELP-Sprachsynthesizers dargestellt; Block LPC-IIR bezeichnet das Synthesizerfilter zur Rekonstruktion der Sprachsignalform; ea(n) ist der adaptive Codebuch-Vektor (und Ga ist der entsprechende Skalierungsfaktor) und es(n) ist der feste Codelisten-Vektor (und Gs ist der entsprechende Skalierungsfaktor); e(n) ist der zusammengesetzte Anregungsvektor. Für eine detaillierte Beschreibung des Synthesizers kann auf W. B. Kleijn, D. J. Krasinski, R. H. Ketchum "Improved Speech Quality and Efficient Vector Quantization in SELP", Proc. ICASSP '88, Seiten 155-158 Bezug genommen werden.
  • Im allgemeinen werden ea(n) und es(n) aus einem geeigneten Satz von Vektoren gewählt und werden mit jeweiligen Ga und Gs gleichzeitig bestimmt. Die Bestimmung erfolgt in einem Zeitintervall von etwa 5 bis 10 ms (Analyserahmen) und basiert auf der Minimierung der Zielfunktion nach dem gut bekannten Kriterium des wahrnehmungsmäßig gewichteten quadratischen Mittelwertfehlers (siehe M. R. Schroeder, B. S. Atal, "Code Excited Linear Prediction (CELP): high-quality speech at very low bit-rates", Proc. ICASSP, '85, Seiten 937-940, gemäß dem folgenden Ausdruck:
  • wobei N die Länge des Zeitintervalls für die Minimierung ist; ui(n) die Null-Zustand-Synthesefilterantwort an dem i-ten Eingang des Codebuches (entweder adaptiv oder fest) und G die entsprechende Verstärkung ist; schließlich ist rs(n) das Referenzsignal oder "Ziel"-Signal (d. h. das ur sprüngliche Sprachsegment, von dem der Beitrag des Rekonstruktionsfilterspeichers, abgeleitet von einer vorhergehenden Synthese, subtrahiert wurde).
  • Obgleich häufig verwendet, kann die bei (1) beschriebene Zielfunktion für die Wahl der Parameter nicht optimal sein. Insbesondere ist zu beachten, daß das System zufällig ist: dies bringt es mit sich, daß der von den Anregungsabtastungen in der Nähe von n = 0 herrührende Beitrag zu dem Synthesesignal im allgemeinen größer als der Beitrag ist, der von den Anregungsabtastungen in der Nähe von n = N - 1 herrührt. Diese Tatsache kann eine schlechte Näherung der idealen Anregung während Segmenten von Sprachsignalen bewirken. Unter diesen Umständen zeigt die ideale Anregung die Charakteristik von quasi-periodischen "Teilungsimpulsen". Diese synthetische Anregung soll in diesem Fall die Teilungsimpulse mit der richtigen zeitlichen Ausrichtung und der richtigen Amplitude beinhalten. In dem Fall, in dem sich die Impulse der idealen Anregung (üblicherweise als "Vorhersage- Rückstand" bezeichnet) an dem Ende des Minimierungsintervalls (d. h. für n in der Nähe von N - 1) befinden, wird ihre Rekonstruktion problematischer, da ihr Beitrag innerhalb des Minimierungsintervalls weniger "wiegt".
  • Dieses Phänomen wird während den Signaltransienten, d. h. in den Übergängen von sprachfreien Segmenten zu Sprachsegmenten und innerhalb der Sprachabschnitte in den Segmenten, in denen die ideale Anregung aufgrund der Vorhersagefiltervariationen ihre Form ändert (wobei weiterhin die "quasi-periodische" Charakteristik aufrechterhalten wird) noch deutlicher.
  • Im Folgenden werden zwei mögliche Vorgehensweisen zur Überwindung der vorstehend beschriebenen Probleme beschrieben; diese Vorgehensweisen können sowohl entweder einzeln als auch gemeinsam verwendet werden und ermöglichen, daß die Charakteristiken der bei verschiedenen Bitraten arbeitenden A-b-S-Codierer verbessert werden.
  • 2. AUF FREIER ENTWICKLUNG BASIERENDE VORGEHENSWEISE
  • Eine erste Vorgehensweise besteht darin, als ein Referenzsignal der Zielfunktion (d. h. dem Signal rs(n) der Gleichung (1)) ein Signal rsel(n) zu verwenden, das länger als N Abtastungen ist. Ein solches Signal wird aus der zeitlichen Verknüpfung der Signale rs(n) (für n = 0... N - 1) und aus der freien Entwicklung eines solchen Signals erhalten, und dieses freie Entwicklungs-el(n) wird erhalten, indem die letzten p Abtastungen von rs(n) in dem Synthesefilterspeicher LPC-IIR (wobei p die Ordnung des Filters ist) geladen werden und indem das Filter "entladen" wird, d. h. indem es seinen Ausgang entsprechend einem Null-Eingang berechnet. Demzufolge wird erhalten:
  • rsel(n) = rs(n), n - 0 .. N - 1 (2)
  • rsel(n) = el(n), n = N .. N - 1 + M (3)
  • wobei M die freie Entwicklungslänge ist.
  • Eine solche Vorgehensweise kann in folgender Weise gerechtfertigt werden: Die Sprache kann stets als von einer idealen Anregung erhalten betrachtet werden, was den Eingang eines Allpol-Synthesefilters (des in Fig. 1 mit LPC-IIR bezeichneten Filters) repräsentiert. Eine derartige ideale Anregung ist nichts anderes als die Vorhersageverzögerung, die durch eine Filterung der Sprache durch das "inverse Filter", d. h. das von LPC-IIR abgeleitete All-Null-(Dauer-Null)-Filter, erhalten wird.
  • Angenommen, man führt eine strichweise stationäre Analyse des Sprachsignals durch: Dann bildet die ideale Anregung innerhalb des Analyseintervalls den Zwangsausdruck für das Synthesefilter. Wenn jedoch am Ende des Analyseintervalls der Eingang des Filters "ausgeschaltet" wird (d. h. die ideale Anregung auf Null gesetzt wird), wird das Synthesefilter gemäß einer Signalform entladen, die von seinen Polen und von den Abtastungen der idealen Anregung (insbesondere jenen, die dem Zeitpunkt n = N - 1 gerade vorhergehen) abhängt.
  • Es ist deshalb offensichtlich, daß in dem Fall, in dem die letzten Abtastungen der idealen Anregung wesentlich sind (beispielsweise wenn ein Tonteilungsimpuls vorhanden ist) und das Filter sich nahe einer Instabilität befindet (beispielsweise während Segmenten von Sprachsignalen), die freie Entwicklung des Filters aufgrund der idealen Anregung typischerweise sinusförmige Oszillationen zeigen wird, die ziemlich langsam abklingen werden und deshalb der Ausdruck el(n) der Gleichung (3) einen beträchtlichen Beitrag bilden wird.
  • Für eine hohe Qualität des rekonstruierten Signals ist es sehr wichtig, daß die synthetische Anregung spektrale und Zeitpunkt- (beispielsweise der Teilungsimpuls) Charakteristiken ähnlich jener der idealen Anregung hat. Es ist deshalb offensichtlich, daß durch Hinzunahme der Beiträge der sowohl auf die ideale Anregung als auch auf die syntheti sche Anregung zurückgehenden freien Entwicklungen in die Zielfunktion es möglich ist, eine korrektere Wahl der letzteren durchzuführen. Abhängig von den spektralen/zeitlichen Charakteristiken des Signals kann die Differenz zwischen der idealen freien Entwicklung und der synthetischen ein vorherrschendes Gewicht in der modifizierten Zielfunktion haben.
  • In Gleichungen können die vorstehend erwähnten Konzepte gemäß der umgeschriebenen Zielfunktion ausgedrückt werden:
  • in welcher
  • uiel (n) = ui(n), n = 0 .. N - 1 (5)
  • uiel (n) eli(n), n = N .. N - 1 + M (6)
  • wobei ui(n) die (Null-Zustand)-Synthesefilterantwort an dem i-ten Eingang und eli(n) die entsprechende "synthetische" freie Entwicklung ist.
  • Die Anregungsparameter (d. h. der i-te Index und die entsprechende Verstärkung G) werden dann in solcher Weise gewählt, um die modifizierte Zielfunktion (4) zu minimieren.
  • Um beispielsweise die "ursprüngliche" freie Entwicklung el(n) zu erhalten, kann man in der folgenden Weise vorgehen:
  • - inverses Filtern (durch ein Sämtliche-Null-Filter) des Sprachsignals während des Intervalls 0 ... N - 1, wobei die ideale Anregung (Vorhersage-Rückstand), begrenzt auf das Zeitintervall 0 ... N - 1, erhalten wird.
  • - An dem Eingang des Synthesefilters LPC-IIR die dabei erhaltene ideale Anregung bereitstellen, und an dem Ausgang wieder das ursprüngliche Sprachsignal innerhalb des Zeitintervalls 0 .. - 1 erhalten.
  • - Ausgehend von dem auf diese Weise erhaltenen Endstatus des Synthesefilters Bereitstellen eines Nulleingangs an dem Eingang des Synthesefilters, und das Filter für eine Anzahl M von Abtastungen gleich der Länge der zu erhaltenden freien Entwicklung "entladen" lassen.
  • Aus der vorstehend beschriebenen Prozedur wird sofort ersichtlich, daß keine Notwendigkeit besteht, den Vorhersage-Rückstand zu berechnen. Um die gewünschte freie Entwicklung zu erhalten, ist es ausreichend, die letzten p Abtastungen (p stellt die Ordnung des Filters dar) des ursprünglichen Sprachsignals (d. h. der Abtastungen N - 1, N - 2, N - p) in den Zustand des Synthesefilters zu zwingen und das Filter mit Nulleingang entladen zu lassen. Offensichtlich kann man für die Berechnung der synthetischen freien Entwicklung in ähnlicher Weise vorgehen.
  • Schließlich ist zu beachten, daß diese Vorgehensweise keine Zunahme der Codierverzögerung mit sich bringt, da in der Zielfunktion die Sprachabtastungen jenseits des Zeitintervalls 0 ... N - 1 nicht verwendet werden.
  • 3. DIE GEWICHTUNGS-BASIERENDE VORGEHENSWEISE
  • In dem vorhergehenden Abschnitt wurde dargelegt, daß es zur Erzielung einer hohen Qualität des rekonstruierten Signals sehr wichtig ist, daß die synthetische Anregung spektrale und Zeitpunkt-(beispielsweise Teilungsimpuls)-Charakteristiken aufweist, die ähnlich zu jenen sind, die bei der idealen Anregung vorliegen. Daraus folgt, daß es wichtig sein kann, nicht nur eine gute Ähnlichkeit zwischen der ursprünglichen Sprache und der syn thetischen Sprache zu erhalten, sondern auch eine gute Übereinstimmung zwischen der idealen Anregung und der synthetischen Anregung zu erhalten.
  • Durch Verwendung einer Vorgehensweise der minimalen Quadrate in der klassischen Zielfunktion ermöglichen es die Parameter der rekonstruierten Anregung tatsächlich, eine synthetische Sprache zu erzielen, die "im Durchschnitt" ähnlich zu der ursprünglichen Sprache ist.
  • Unter dem Gesichtspunkt der Wahrnehmung ist es tatsächlich manchmal wichtiger, daß die synthetische Sprache nur lokal der ursprünglichen Sprache ähnlich ist (beispielsweise ist es sehr wichtig, die Verbindung von einem sprachfreien Segment zu einem Sprachsegment innerhalb der richtigen zeitlichen Ausrichtung und mit der korrekten Dynamik zu rekonstruieren. Es ist nicht ungewöhnlich, Verbindungstransienten zu finden, deren Zeitdauer sehr viel kürzer als die Zeitdauer des Syntheserahmens ist). Dann ist es für eine ziemlich lokale Rekonstruktion wichtig, einen gewissen Grad an Ähnlichkeit auch mit der idealen Anregung aufrecht zu erhalten.
  • Die Zielfunktion kann sich dann aus zwei Beiträgen, als Funktion der ursprünglichen Sprache bzw. der idealen Anregung, zusammensetzen und nimmt den folgenden Ausdruck an:
  • E2 = αE + (1 - α)E3 (7)
  • wobei:
  • In Gleichung (9) ist es(n) der von dem Referenzsignal rs(n) erhaltene Vorhersage-Rückstand und ei(n) ist die Codebuch-Anregung, die das synthetische Signal ui(n) erzeugt. Es ist zu beachten, daß der Vorhersage-Rückstand es(n) ausgehend von rs(n) durch eine inverse Filterung (mit einem Sämtlich-Null-Filter) mit einem ursprünglichen Null- Zustand berechnet werden muß. Wie bekannt ist, wurde die Referenz tatsächlich aus dem Sprachsignal durch Subtraktion ihrer Rekonstruktionsfilter-Spei cherermittlung, abgeleitet von der vorhergehenden Synthese, erhalten. Das Referenzsignal ist dann "frei" von jeglichem auf den Filterspeicher zurückgehenden Beitrag und kann als von einer geeigneten idealen Anregung es(n) erhalten betrachtet werden, die mit einem anfänglichen Null-Zustand in das Synthesefilter einläuft.
  • In Gleichung (7) ist α ein Parameter, dessen Wert zwischen 0 und 1 liegt und die Bedeutung steuert, die der Minimierung im Hinblick auf das Referenzsignal zukommt. Bei α = 1 wird die ursprüngliche Zielfunktion wieder erhalten.
  • Die Anregungsparameter (d. h. der i-te Index und die entsprechende Verstärkung G) werden dann derart gewählt, um die in den Gleichungen (7), (8), (9) beschriebene Zielfunktion zu minimieren. Der Parameter α kann entweder fest oder sogar adaptiv (d. h. zeitlich variierend) sein, beispielsweise als Funktion bestimmter Charakteristiken des Signals, das a priori geschätzt werden kann (beispielsweise: Schätzung von sprachbehaftet/sprachfrei, Schätzung der Transienten, Schätzung der Teilungsperiode oder des Synthesefilters, usw.).
  • Schließlich ist zu beachten, daß der in dem vorhergehenden Abschnitt beschriebene, auf die freie Entwicklung zurückgehende Beitrag in der durch die Gleichungen (7), (8), (9) beschriebenen Zielfunktion mit einbezogen werden kann. In diesem Fall wird der Ausdruck (8) der Zielfunktion gemäß der Beschreibung in dem vorhergehenden Abschnitt modifiziert.

Claims (6)

1. Verfahren zum Berechnen der Anregungsparameter in Sprachcodierern basierend auf linearen Vorhersage- und Analyse-durch-Synthese-Techniken, die eine zu minimierende Zielfunktion verwenden, dadurch gekennzeichnet, daß die Zielfunktion gemeinsam oder alternativ a) die freie Entwicklung des Zielsignals und des synthetischen Signals und b) eine Gewichtung im Hinblick auf den Fehler zwischen dem Vorhersage-Rückstand und der synthetischen Anregung umfaßt.
2. Verfahren nach Anspruch 1 in den Alternativen a) oder a) und b), dadurch gekennzeichnet, daß die Zielfunktion:
Ex = αE1 + (1 - α)E3 (10)
verwendet wird, wobei die Funktion E1 neben dem Fehler zwischen den Zielsignalen und den synthetischen Signalen auch den Fehler zwi schen den relativen freien Entwicklungen berücksichtigt, und die Funktion E3 den Fehler zwischen dem Vorhersage-Rückstand und der synthetischen Anregung berücksichtigt, und 0 < &alpha; < 0 ist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Funktion E1 gegeben ist durch:
wobei N die Länge des Zeitintervalls für die Minimierung ist, M die freie Entwicklungslänge ist, rsel(n) das durch eine freie Entwicklung erhaltene erweiterte Referenzsignal ist, uiel(n) die erweiterte Null-Zustands-Synthesefilterantwort an dem i-ten Eingang des Codebuches ist, und G die entsprechende Verstärkung ist.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Funktion E3 gegeben ist durch:
wobei es(n) der von dem Referenzsignal erhaltene Vorhersage-Rückstand ist und ei(n) das Codebuch-Anregungssignal ist.
5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Gewichtsfaktor zeitlich variierbar ist.
6. Toncodierer, der umfaßt:
Mittel zum Ausführen einer linearen Vorhersage,
Mittel zum Ausführen einer Analyse durch-Synthese, und
Mittel zum Berechnen der Anregungsparameter unter Verwendung einer zu minimierenden Zielfunktion,
dadurch gekennzeichnet, daß die Zielfunktion gemeinsam oder alternativ
a) die freie Entwicklung des Zielsignals und des synthetischen Signals, und
b) eine Gewichtung im Hinblick auf den Fehler zwischen dem Vorhersage-Rückstand und der synthetischen Anregung umfaßt.
DE69512323T 1994-06-20 1995-06-08 Methode zur Verbesserung der Eigenschaften von Sprachkodierern Expired - Lifetime DE69512323T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITMI941283A IT1271182B (it) 1994-06-20 1994-06-20 Metodo per migliorare le prestazioni dei codificatori vocali

Publications (2)

Publication Number Publication Date
DE69512323D1 DE69512323D1 (de) 1999-10-28
DE69512323T2 true DE69512323T2 (de) 2000-07-06

Family

ID=11369140

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69512323T Expired - Lifetime DE69512323T2 (de) 1994-06-20 1995-06-08 Methode zur Verbesserung der Eigenschaften von Sprachkodierern

Country Status (4)

Country Link
EP (1) EP0689189B1 (de)
AU (1) AU698340B2 (de)
DE (1) DE69512323T2 (de)
IT (1) IT1271182B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JPH06138896A (ja) * 1991-05-31 1994-05-20 Motorola Inc 音声フレームを符号化するための装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung

Also Published As

Publication number Publication date
ITMI941283A1 (it) 1995-12-20
AU2175395A (en) 1996-01-04
EP0689189B1 (de) 1999-09-22
DE69512323D1 (de) 1999-10-28
IT1271182B (it) 1997-05-27
EP0689189A1 (de) 1995-12-27
ITMI941283A0 (it) 1994-06-20
AU698340B2 (en) 1998-10-29

Similar Documents

Publication Publication Date Title
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69314389T2 (de) Zweimoden langzeitprädiktion in sprechkodierung
DE69604729T2 (de) Verfahren zur sprachkodierung mittels linearer prädiktion und anregung durch algebraische kodes
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60316396T2 (de) Interoperable Sprachkodierung
DE69900786T2 (de) Sprachkodierung
DE602004003610T2 (de) Halbrätiger Vocoder
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69828709T2 (de) Erhöhung der Dichte von kodierten Sprachsignalen
DE69017801T2 (de) Codierung unter Anwendung von beschränkter stochastischer Anregung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: ALCATEL LUCENT, PARIS, FR