DE69317958T2 - Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken - Google Patents

Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken

Info

Publication number
DE69317958T2
DE69317958T2 DE69317958T DE69317958T DE69317958T2 DE 69317958 T2 DE69317958 T2 DE 69317958T2 DE 69317958 T DE69317958 T DE 69317958T DE 69317958 T DE69317958 T DE 69317958T DE 69317958 T2 DE69317958 T2 DE 69317958T2
Authority
DE
Germany
Prior art keywords
prediction
signal
synthesis
order
filters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69317958T
Other languages
English (en)
Other versions
DE69317958D1 (de
Inventor
Rosario Rocca Imperiale Marina Drogo De Iacovo (Cs)
Roberto Torino Montagna
Daniele Torino Sereno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIM Telecom Italia Mobile SpA
Original Assignee
Telecom Italia Mobile SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia Mobile SpA filed Critical Telecom Italia Mobile SpA
Publication of DE69317958D1 publication Critical patent/DE69317958D1/de
Application granted granted Critical
Publication of DE69317958T2 publication Critical patent/DE69317958T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Stereophonic System (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

  • Die Erfindung bezieht sich auf ein Kodiersystem für Audiosignale und betrifft speziell ein Kodiersystem niedriger Verzögerung, das Analyse-durch-Synthese-Techniken anwendet. Das System ist vorzugsweise beabsichtigt zum Kodieren von Breitband-Audiosignalen.
  • Der Ausdruck "Breitband" wird im Gebiet der Sprachkodierung dazu verwendet, anzuzeigen, dass das zu kodierende Signal eine Bandbreite über den etwa 3 kHz des üblichen Telefonbands hat, insbesondere ein Band zwischen etwa 50 Hz und 7 kHz Die Verwendung eines breiteren Bands als das üblichen Telefonband erlaubt das Erzielen einer höheren Qualität des kodierten Signals, wie es für bestimmte Dienste gefordert oder gewünscht wird, die von künftigen dienste-integrierenden digitalen Netzen geboten werden, wie beispielsweise Audiokonferenz, Videophon, Erläuterungskanäle usw. und auch für schnurloses Telefon.
  • Für Fälle, bei denen das kodierte Signal mit relativ niedrigen Bitraten (beispielsweise 16 bis 32 kbits/s) übertragen werden muss, ist die Anwendung der Analyse-durch-Synthese-Kodiertechnik bereits vorgeschlagen worden. Diese Technik ergibt den höchsten Kodierungsgewinn bei diesen Bitraten. Insbesondere beschreiben der Artikel "Experiments on 7 kHz audio coding at 16 kbits/s", vorgelegt von R. Drogo de Iacovo u.a. auf der ICASSP '89, Glasgow (UK), 23. - 26. Mai 1989, Papier S4.19, und die Europäische Patentanmeldung EP-A- 396 121 ein System, bei dem das zu kodierende Signal in zwei Teilbänder geteilt ist, deren Signale gleichzeitig kodiert werden, und es werden Beispiele von Kodierern gegeben, bei denen eine Multiimpuls-Erregung oder eine aus Vektoren, die in einem passenden Codebuch ausgewählt sind (CELP = Codebook Excited Linear Prediction technique), bestehende Erregung ausgewertet wird.
  • Bei diesem bekannten System arbeiten die Kodierer der beiden Teilbänder anhand von Gruppen oder Rahmen von Abtastwerten mit einer Dauer von 15 bis 20 ms, was erkennbar eine Kodierungsverzögerung mit sich bringt, die mindestens gleich der Dauer der Rahmen ist. Für bestimmte Anwendungen wie die schnurlose Telefonie, die audiografische Konferenz usw. ist es wesentlich, eine niedrige Kodierverzögerung zu haben, um so die Effekte akustischer und elektrischer Echos zu reduzieren. Zum Erzielen der niedrigen Verzögerung kann man sich aber bei einem Schema wie dem in der europäischen Patentanmeldung gezeigten nicht ausschließlich auf die Verwendung sehr kurzer Rahmen (einige wenige ms) stützen, da dies eine häufige Fortschreibung der Kodierparameter notwendig machen würde, mit entsprechender Erhöhung der zum Decoder zu übertragenden Information und somit der Bitrate.
  • Zum Verwirklichen von Kodierern niedriger Verzögerung, die Rahmen einer kurzen Dauer verwenden, ohne Erhöhung der Bitrate wurde vorgeschlagen, CELP-Techniken anzuwenden, bei denen die Spektralparameter ausgehend von dem Signal, das am Sender rekonstruiert wird, berechnet werden (rückwärtsgerichtete CELP-Technik, "backward" CELP technique). Gemäß diesen Techniken empfangen für jeden Rahmen die Vorhersageeinheiten die Gruppe von Parametern, die im vorhergehenden Rahmen bestimmt worden ist, sie schätzen bei jedem neuen Abtastwert einen möglichen fortgeschriebenen Wert von Parametern und liefern als tatsächliche Werte die, die nach dem Empfang des letzten Abtastwerts geschätzt worden sind. Ein Beispiel dieser Art von Kodierern niedriger Verzögerung ist beschrieben im CCITT Empf ehlungsentwurf G728 "Coding of Speech at 16 kbit/s Using Low-Delay Code Excited Linear Prediction", in EP 0 379 296 und im Artikel "High-quality 16 kb/s speech coding with a one-way delay less than 2 ms" vorgelegt von J.H. Chen auf der ICASSP '90, Albuquerque (USA), 3. - 6. April 1990, Papier S9.1. Bei diesem Kodierer, der zum Kodieren von Audiosignalen mit dem konventionellen Fernsprechband entworfen wurde, werden rückwärtsgerichtete Adap-tionstechniken verwendet, um die Vorhersage-Koeffizienten in den Synthesefiltern (die nur Kurzzeit-Vorhersager enthalten) und die Verstärkung, mit der Erregungsvektoren multipliziert werden, fortzuschreiben. Speziell werden die Vorhersage-Koeffizienten der Synthesefilter mit Hilfe einer LPC-Analyse der zuvor guantisierten Sprache fortgeschrieben; die Koeffizienten der Gewichtungsfilter werden mit Hilfe einer LPC-Analyse des Eingangssignals fortgeschrieben; und die Vektorverstärkung wird durch Verwendung der Verstärkungsinformation fortgeschrieben, die in der vorher quantisierten Erregung inkorporiert ist. Auf diese Weise muss nur der Index des Worts im Codebuch (strukturiert in Erregungsverstärkung und Form) übertragen werden, da die Vorhersage-Koeffizieten des Synthesefilters und die rückwärtsgerichtete angepaßte Verstärkung im Empfänger durch Rückwärtsadaptationsschaltungen bestimmt werden kann, die den im Sender verwendeten Schaltungen entsprechen.
  • Der Qualitätsverlust, der dadurch erfolgen könnte, dass ein Langzeit-Vorhersager weggelassen ist, wird durch die Verwendung einer relativ hohen Vorhersage-Ordnung für die Kurzzeit-Vorhersager ausgeglichen, insbesondere eine Vorhersage-Ordnung gleich 50. In jedem Fall kann die Kurzzeit-Vorhersage-Ordnung nicht über eine bestimmte Grenze hinaus angehoben werden, und zwar aus Gründen der Rechnungskomplexität.
  • Für den Fall der Teilbandkodierung ist die Verwendung unterschiedlicher Vorhersage-Ordnungen in den verschiedenen Teilbändern vorgeschlagen worden. Speziell beim Kodierer, der im Artikel von R. Drogo de Iacovo u.a. beschrieben wurde (und in dem Langzeitkorrelationen ausgewertet werden), werden Filter mit einer Vorhersage- Ordnung von 10 für das untere Teilband und mit einer Ordnung 4 für das obere Teilband verwendet. Diese Vorhersage-Ordnungen sind festgelegt. Auf diese Weise werden für tatsächliche Sprache gute Ergebnisse erzielt, nicht jedoch für Signale mit sehr variablen Charakteristiken wie z.B. Musik.
  • Das Ziel der Erfindung ist es, einen Kodierer niedriger Verzögerung zu schaffen, bei dem ein rekonstruiertes Signal guter Qualität auch dann erhalten wird, wenn die Eingangssignale sehr variable Charakteristiken zeigen.
  • Gemäß der Erfindung wird bei einem Verfahren zum Kodieren/Dekodieren von Audiosignalen mit Hilfe von Analyse-durch- Synthese-Techniken kodierungsseitig das Audiosignal in Blöcken von digitalen Abtastwerten organisiert und für jeden Abtastwert-Block die Synthesefilterung für die Gruppe der Erregungssignale und die Wahrnehmungs-Gewichtungsfilterung des Eingangssignals und der synthetisierten Signale durchgeführt, indem man die Spektralparameter der Synthese- und Gewichtungsfilter mit Rückwärtsvorhersage- Techniken anpasst, ausgehend von einem rekonstruierten Audiosignak, das als Ergebnis der Synthesefilterung eines Optimum-Erregungssignals erhalten wird, und wird dekodierungsseitig das Audiosignal rekonstruiert, indem man das in der Kodierungsphase identifizierte Optimum-Erregungssignal einer Synthesefilterung unterwirft, während derer die Spektralparameter des Synthesefilters mit rückwärtsgerichteten Vorhersagetechniken angepasst werden, und zwar in einer Weise, die der in der Kodierungsphase durchgeführten Anpassung entspricht, wobei für jeden zu kodierenden Block von Abtastwerten oder für jedes zu dekodierende Signal auch eine Anpassung der Vorhersage-Ordnung der Synthesefilter sowohl kodierungsseitig als auch dekodierungsseitig, ebenso wie eine Anpassung der Vorhersage-Ordnung der Wahrnehmungs-Gewichtungsfilter kodierungsseitig durchgeführt wird, und zwar ausgehend von den Spektralcharakteristiken des rekonstruierten Signals relativ zum vorhergehenden Block von Abtastwerten; wobei die Anpasung der Vorhersage-Ordnung mit den folgenden Operationen bewirkt wird:
  • in Funktion der Vorhersage-Ordnung und bis zu einer vorgegebenen Maximal-Ordnung, Berechnen der Vorhersage-Verstärkung der Synthesefilter, die das rekonstruierte Signal erzeugen, und ihrer inkrementellen Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um eine Einheit erhöht wird, wobei diese Vorhersage-Verstärkungen jeweils durch die folgenden Beziehungen gegeben sind:
  • wobei KJ die Reflexionskoeffizienten eines den Stimmtrakt modellierenden akustischen Rohrs sind; in einem Intervall der Vorhersage- Ordnung zwischen einer Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der Werte, für die die inkrementelle Vorhersage-Verstärkung G (p/p-1) ein relatives Maximum aufweist und höher ist als eine erste vorgegebene Schwelle; Durchführen der Synthese- und Gewichtungsfilterungen mit der höchsten Vorhersage-Ordnung unter den im verhergehenden Schritt bestimmten Ordnungen, wenn die der Maximum-Vorhersage-Ordnung entsprechende Vorhersage-Verstärkung nicht niedriger ist als eine zweite vorgegebene Schwelle; und Durchführen der Synthese- und Gewichtungsfilterungen unter Verwendung der Minimum-Vorhersage-Ordnung, wenn die der Maximum-Vorhersage-Ordnung entsprechende Vorhersage-Verstärkung niedriger ist als die zweite vorgegebene Schwelle.
  • Es ist zu beachten, dass Modelle von akustischen Rohren in der Fachtechnik bekannt sind. Ein akustisches Rohr modelliert oder simuliert den Vokaltrakt vom Stimmband bis zur Zunge durch eine Gruppe zylindrischer Elemente gleicher Länge und unterschiedlichen Durchmessers. Die Reflextionskoeffizienten geben also die Reflexion wieder, die von der Luft an den Verbindungen zwischen benachbarten Elementen durchgeführt wird.
  • Gemäß einer bevorzugten Charakteristik der Erfindung wird die Anpaßung der Spektralparameter mit Gittertechniken durchgeführt. Diese Techniken zeigen eine verminderte Empfindlichkeit gegenüber Fehlern in der endlichen arithmetischen Implementierung und eine leichtere Steuerung der Filterstabilität; außerdem erleichtern sie die Anpassung der Vorhersage-Ordnung.
  • Vorzugsweise ist die Kodiertechnik eine CELP-Technik, in der eine Anpassung mit Techniken der rückwärtsgerichteten Vorhersage der Vektorverstärkung auch durchgeführt wird.
  • Vorteilhafterweise ist das zu kodierende Signal in eine bestimmte Zahl von Teilbändern unterteilt und wird das erfindungsgemäße Kodierverfahren in jedem dieser Teilbänder durchgeführt. Die Teilbandstruktur erlaubt eine Reduktion der Berechnungskomplexität und ein besseres Formen des Quantisierungsrauschens.
  • In diesem Fall wird es bevorzugt, dynamisch die verfügbaren Bits unter den verschiedenen Teilbändern aufzuteilen, und zwar gemäß einer Technik, die die Charakteristiken von Gewichtungsfiltern berücksichtigt.
  • Die Vorrichtung zur Durchführung des Verfahrens gemäß Anspruch 8 ist ebenfalls ein Gegenstand der Erfindung.
  • Die Erfindung ist durch Bezugnahme auf die anliegenden Zeichnungen besser verständlich. Es zeigen:
  • - Fig. 1 einen Blockschaltplan eines Breitband-Sprach-Kodiersystems, das die Erfindung verwendet;
  • - Fig. 2 einen Schlatplan des erfidnungsgemäßen Kodierers;
  • - Fig. 3 einen Blockschaltplan des Dekodierers;
  • - Fig. 4 ein Flussdiagramm des Algorithmus der Anpassung der Vorhersage-Ordnung.
  • Fig. 1 zeigt ein System zum Kodieren von Audiosignalen mit einem Band von 7 kHz bei Teilung des Signals in zwei Teilbänder in der in der EP-A-O 396 121 beschriebenen Art. Das auf einer Leitung 1 vorhandene 7-kHz-Band-Signal, das mit Hilfe einer geeigneten Analogfilterung in nicht dargestellten Filtern erhalten wird, wird einer ersten Tastschaltung CM eingespeist, die beispielsweise mit 16 kHz arbeitet und deren Ausgang 2 mit zwei Filtern FQA1und FQB1 verbunden ist, von denen eines (beispielsweise FQA1) ein Hochpassfilter ist, während das andere ein Tiefpassfilter ist. Die beiden Filter haben im wesentlichen die gleiche Bandbreite.
  • Über Verbindungen 3A und 3B geben die Filter FQA1 und FQB1 die Signale des jeweiligen Teilbands an Tastschaltungen CMA bzw. CMB, die mit der Nyquist-Rate für diese Signale arbeiten, also 8 kHz, wenn die Tastschaltung CM mit 16 kHz arbeitet. Die so erhaltenen Abtastwerte werden über Verbindungen 4A und 48 an Audiokodierer CDA bzw. CDB gegeben, die Analyse-durch-Synthese-Techniken anwenden. Kodierte Signale, die auf Verbindungen 5A und 5B auftreten, werden zu einer Übertragungsleitung 6 über Einheiten gesendet, die durch einen Multiplexer MX schematisch angegeben sind und die auch noch das Einführen möglicher weiterer Signale (z. B. von Videosignalen), falls vorhanden, die auf einer Verbindung 7 kommen, auf die Leitung ermöglichen.
  • Am anderen Ende der Leitung 6 sendet ein Demultiplexer DMX über Verbindungen 8A und 8B die kodierten Audiosignale zu Decodern DA und DB, die die Signale der beiden Teilbändern rekonstruieren. Die Verarbeitung der anderen Signale, die am Ausgang 9 des Demultiplexers DMX abgegeben werden, ist für die vorliegende Erfindung ohne Interesse und deshalb sind Einheiten, die für diese Verarbeitung vorgesehen sind, nicht gezeigt. Ausgänge 10A und 10B von DA und DB werden mit jeweiligen Interpolatoren INA und INB verbunden, die das Signal bei 16 kHz rekonstruieren. Diese rekonstruierten Signale werden ihrerseits über Verbindungen 11A und 11B Filtern FQA2 und FQB2 (analog den Filtern FQA1 und FQBL) eingespeist, was die Faltungs-Verzerrung der interpolierten Signale beseitigt. Die auf die beiden Teilbänder bezogenen gefilterten Signale, die auf Verbindungen 12A und 12B auftreten, werden dann rekombiniert, um ein Signal mit dem gleichen Band zu erzeugen wie das ursprüngliche Signal (wie schematisch durch einen Addierer SOM dargestellt ist), und werden dann über eine Leitung 13 den Anwendungsvorrichtungen zugeleitet.
  • Gemäß der Erfindung sind die Kodierer CDA und CDB aus den angegebenen Gründen Kodierer niedriger Verzögerung, die mit Rahmen arbeiten können, die nur wenige ms dauern. Bei der praktischen Ausführung erfindungsgemäßer Kodierer werden für Übertragungen mit 16 kbit/s Rahmen von 10 oder 20 Abtastwerten verwendet, die bei der für die Tastschaltungen CMA und CMB angegebenen Abtastrate von 8 kHz 1,25 bis 2,5 ms des Audiosignals entsprechen.
  • Kodierbits können den beiden Teilbändern in festgelegter Weise zugeordnet werden: bei einem Ausführungsbeispiel wird ein 10- Abtastwert-Rahmen für das untere Teilband verwendet, das mit 12 kbit/s kodiert wird, und ein 20-Abtastwert-Rahmen für das obere Teilband verwendet, das mit 4 kbit/s kodiert wird.
  • Die Zuordnung kann dynamisch stattfinden, um so die nicht stationäre Natur des Audiosignais zu berücksichtigen. In diesem zweiten Fall sind die Kodierer CDA und CDB über Verbindungen 14A und 14B mit einer Einheit UAD verbunden, die gemäß der Erfindung die Bits zwischen den beiden Teilbändern so aufteilt, dass die Gesamtverzerrung minimiert wird, wobei außerdem das Vorhandensein spektraler Gewichtungsfilter in den Kodierern berücksichtigt wird. Die Zuordnungsprozedur ist die folgende.
  • Die gesamte Verzerrung kann angegeben werden als D = D1 + D2, wobei D1 und D2 die Verzerrungen sind, die sich auf die einzelnen Teilbänder beziehen und die, wie schon bekannt, von der Leistung des Restsignals abhängen. In einem Analyse-durch-Synthese-Kodierer, bei dem eine spektrale Gewichtung des Eingangssignals bewirkt wird, wird die Verzerrung durch diese Gewichtung beeinflusst und kann angenähert durch die folgende Beziehung angegeben werden:
  • wobei: bi = Zahl der Bits, die dem Teilband i zugeordnet sind; i = der mittlere Quadratwert (Leistung) des Restsignals des Teilbands i; Wi&supmin;¹ (ω) = invertierte Transferfunktion des Spektralgewichtungsfilters, ausgedrückt als eine Funktion der Winkelfrequenzen ω. Wird mit Xi das Produkt ωiπ Wi&supmin;¹(ω) dω/2π bezeichnet, so kann unmittelbar abgeleitet werden, dass die gesamte Verzerrung minimalisiert wird, wenn dem Teilband i eine Anzahl von bits bi zugeordnet wird, wobei dieser Wert gegeben ist durch
  • wobei: R = Gesamtzahl von Bits. Der Fachmann hat keine Schwierigkeit, eine Schaltung zu entwerfen, die durch Anwendung der angegebenen Beziehung b. bestimmen kann.
  • Bei einem praktischen Beispiel eines Kodierers mit dynamischer Bit-Zuordnung zu den beiden Teilbändern konnte jedes Teilband mit Bit-Raten arbeiten, die von 12 bis 4 kbit/s variieren, und zwar in Schritten von 1,6 kbit/s; dem Teilband, das mit Raten über oder gleich 8,8 kbit/s übertragen wird, ist ein Rahmen mit zehn Abtastwerten zugeordnet worden und dem Teilband, das mit Raten unter oder gleich 7,2 kbit/s übertragen wird, ist ein Rahmen mit zwanzig Abtastwerten zugeordnet worden.
  • Fig. 2 zeigt das Schema eines der Blöcke CDA, CDB von Fig. 1 für den als nicht begrenzendes Beispiel angegeben Fall, das die Kodierung mit der CELP-Technik durchgeführt wird. Wird als gegeben angenommen, daß sich die verschiedenen Kodiertechniken mit Analyse- durch-Synthese im wesentlichen nur in der Natur des Erregungssignals unterscheiden, so hat der Fachmann keine Schwierigkeit, das Beschriebene für eine andere Technik als die CELP-Technik anzuwenden. Beim gewählten Schema wird die Langzeitsynthese nicht durchgeführt, so dass die Komplexität des Algorithmus niedrig gehalten wird, und es gibt eine Adaptation mit Rückwärts-Vorhersagetechniken sowohl der Synthesefilter-Koeffizienten als auch der Gewichtungsfilterkoeffizienten und der Verstärkung. Darüberhinaus ist die Vorhersage-Ordnung der Synthese- und Gewichtungsfilter ebenfalls angepasst.
  • Auf diesen Grundlagen wird das in digitaler Form zu kodierende Signal in Vektoren organisiert, die aus der gewünschten Zahl von Abtastwerten (beispielsweise 10 bis 20, wie bereits dargelegt) in einem Puffer BU bestehen. Im Fall der dynamischen Zuordnung der Kodierbits, in dem die Wahl der Rahmenlänge von der Bitrate abhängt, wird der Puffer BU von der Einheit UAD (Fig. 1) über eine Leitung 140 gesteuert, die einen Teil der Verbindung 14A oder 14B von Fig. 1 bildet. Jeder Vektor 5(n) wird in einem Wahrnehmungs- Gewichtungsfilter FP (Fig. 2), wie er für alle Analyse-durch- Synthese-Kodiersysteme typisch ist, spektral geformt. Während dieser Gewichtungsoperation wird, wie bekannt ist, eine inverse Filterung mit linearer Vorhersage durchgeführt, wodurch das Restsignal gebildet wird, das über eine Leitung 141 an die Einheit UAD geliefert wird. Die Leitung 141 ist ebenfalls ein Teil der Verbindungen 14A oder 14B von Fig. 1. Jeder gewichtete Eingangsvektor Sw(n) wird, nachdem man den Beitrag w0 des Speichers der vorhergehenden Filterungen subtrahiert hat, mit allen den Vektoren, die durch Filterung der E-Vektoren ex des Erregungs-Codebuchs (die in einem Speicher VC gespeichert sind) erhalten werden, verglichen, und zwar in der Kaskade eines Kurzzeit-Synthesefilters und eines Gewichtungsfilters, wobei diese Vektoren mit einer passenden Verstärkung in einer Multipliziereinheit MC maßtäblich verändert, also multipliziert werden. Bei Vervollständigung dieser Vergleiche wird diejenige Kombination Erregungsvektor - Verstärkung, die den mittleren quadratischen Fehler zwischem dem ursprünglichen Signal und dem synthetisierten Signal minimiert, bestimmt. Die multiplizierten Vektoren werden der Kaskade der beiden Filter über eine Verbindung 20 eingespeist. Die Zahl E der in einem Rahmen verwendeten Vektoren hängt von der Zahl der dem Teilband in diesem Rahmen zugeordneten Bits ab.
  • Das Gewichtungsfilter FP hat eine Transferfunktion W(z), die üblicherweise ausgedrückt wird als W(z) A(z)/A(z/γ) (wobei 0 ≤ γ ≤ 1 der Wahrnehmungs-Gewichtungsfaktor ist, der berücksichtigt, wie das menschliche Ohr empfindlich für Rauschen ist). Das Kurzzeit-Synthesefilter hat die Transierfunktion H(z) = 1/A(z). Der Ausdruck der Funktionen A(z) und A(z/γ) hängt von der Filterstruktur ab: speziell dann, wenn die Filter rekursive Filter sind, sind A(z) und A(z/γ) die konventionellen Funktionen der linearen Vorhersagekoeffizienten, nämlich:
  • wobei: ai = die linearen Vorhersagekoeffizienten, und p = die Filterordnung; sind die Filter Gitterfilter, so sind A(z) und A(z/γ) Funktionen der Reflexionskoeffizienten des akustischen Rohrs und werden beispielsweise in der in der CEPT/GSM-Empfehlung 06.10 beschriebenen Weise bestimmt, worin die Struktur von Filtern mit der Transferfunktion A(z) und 11A(z) für den Fall p = 8 angegeben wird.
  • Die Anwendung dessen, was in dieser Empfehlung beschrieben ist, auf Fälle beliebiger Ordnung p und der Funktion A(Z/γ) ist für den Fachmann Routine. Mit den oben angegebenen Transferfunktionen ist die Kaskade des Synthesefilters und des Gewichtungsfilters, mit denen die multiplizierten Erregungsvektoren durchgelassen werden, äquivalent einem einzigen Filter SP (gewichtetes Kurzzeitsynthesefilter) mit der Transferfunktion 1/A(z/γ).
  • Für die Bestimmung des Fehlersignals wird, wie schon dargelegt wurde, der Beitrag des Speichers der Erregungssignalfilterungen, die in den vorhergehenden Rahmen bewirkt wurden, getrennt vom Eingangssignal subtrahiert, und zwar außerhalb der Analyse-durch- Synthese-Schleife. Das einzelne Filter SP wird somit mit zwei parallelen und gleichen Filtern SP1 und SP2 schematisiert. Das erste dieser beiden Filter hat einen Eingang 0 und lädt für jeden zu kodierenden Vektor s(n) das am Ausgang 26 eines Gewichtungs- Kurzzeitsynthesefilters 5P3 vorliegende Signal, wobei dieses Filter ebenfalls die Transferfunktion 1/A(z/γ) hat und am Ende des Suchvorgangs der optimalen Erregung den Optimumvektor empfängt, der mit der Optimum-Verstärkung multipliziert ist, die am Ausgang 20 von MC anliegt; das Ausgangssignal von SP1 ist das Signal w, das vorher genannt wurde. Das zweite Filter SP2 führt andererseits die tatsächliche Filterung ohne Speicher des multiplizierten Vektors aus. Das Filter SP3 mit dem Speicher VC und der Multipliziereinheit MC bildet einen simulierten Dekoder, der zum Fortschreiben der Speicher des Filters SP1 verwendet wird. Es ist auch ein weiteres Kurzzeitsynthesefilter SYC vorhanden, mit der Transferfunktion 1/A(z); auch dieses Filter empfängt am Ende des Suchvorgangs der optimalen Erregung den Optimumvektor, der mit der Optimum-Verstärkung multipliziert ist, und bildet mit dem Speicher VC und der Multipliziereinheit MC einen simulierten Decoder, der zum Anpassen der Spektralparameter und der Filtervorhersage-Ordnung des Decoders dient.
  • Das Ausgangssignal w0 (n) von SPI wird in einem Addierer SM1 vom Ausgangssignal sw(n) von FP subtrahiert und das Ausgangssignal we(n)von SP2 wird in SM2 vom resultierenden Signal subtrahiert. Der Ausgang 22 von SM2 führt das Signal dw (gewichteter Fehler), das dann an die Verarbeitungseinheit EL gegeben wird, die alle zum Identifizieren des Optimumvektors und der Optimum-Verstärkung (also des Vektors und der Verstärkung, die den Fehler minimieren) notwendigen Operationen durchführen. Diese Operationen sind im wesentlichen identisch denen des konventionellen CELP-Kodierers. Im Fall der dynamischen Bitzuordnung zu den Teilbändern empfängt EL von UAD über eine Verbindung 142, die ebenfalls einen Teil der Verbindung 14A oder 14B von Fig. 1 bildet, die Information über die der Erregung in diesem Rahmen zugeordnete Bitzahl, d. h. eine Information, die die Zahl von Vektoren betrifft, unter denen die Suche in diesem Rahmen bewirkt werden soll.
  • Der verstärkungsmultiplizierenden Einheit MC ist eine Verstärkungsanpassungseinheit AGC zugeordnet, und die Filter FP, SP1, SP2, SP3 und SYC sind mit einer Filteranpassungseinheit AFC verbunden. Diese Anpassungseinheiten arbeiten gemäß Rückwärtsvorhersagetechniken, wobei sie den in einem Rahmen zu verwendenden Wert für die jeweilige Größe aus dem sich auf den vorhergehenden Rahmen beziehenden synthetisierten Signal erhalten.
  • Die Verstärkung besteht aus dem Produkt von zwei Faktoren βm und βv. erste Faktor, βm, berücksichtigt die mittlere Leistung im Signal und wird von AGC über eine Verbindung 23 geliefert. AGC empfängt über die Verbindung 20 den Optimum-Erregungsvektor, der mit der relativen totalen Optimum-Verstärkung multipliziert ist, und entwickelt hieraus den Wert βm, der zum Kodieren des nächsten Vektors verwendet wird, indem ein Verfahren wie das von J. I. Makhoul und L. K. Cosell in "Adaptive Lattice Analysis of Speech", IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-29, Nr. 3, June 1981, beschriebene angewandt wird. Der Faktor βv ist typisch für den Vektor und ist aus einem passenden Verstärkungs-Codebuch ausgewählt, wie in üblichen CELP-Kodierern; dieser Faktor wird deshalb durch die Suche nach der Optimumerregung betroffen, so dass das kodierte Signal aus Indizes x&sub0; und v&sub0; des Vektors ex bzw. des Optimumfaktors βv besteht. Zur Vereinfachung der Zeichnung ist der Speicher, der das Verstärkungscodebuch speichert, in den Speicher VC einbezogen, der die Erregungsvektoren ex speichert.
  • Die multiplizierende Einheit MC enthält deshalb zwei Multiplizierer MC1 und MC2 in Serie miteinander. Der erste Multiplizierer erzeugt das Produkt mit dem Faktor βv und der zweite das Produkt mit dem Faktor βm, der für MC während der gesamten Suche nach der Optimum-Erregung bezüglich eines zu kodierenden Vektors verfügbar gehalten wird. Es ist bemerkbar, dass beim beschriebenen Beispiel die Zahl der zum Kodieren von βv verfügbaren Bits als konstant angenommen wird, auch im Fall der dynamischen Bitzuordnung.
  • Die Filteranpassungseinheit AFC besteht ihrerseits aus einer Serienschaltung von zwei Einheiten: die erste Einheit, ACC, adaptiert die Filterkoeffizienten und die zweite Einheit, APC, adaptiert die Vorhersage-Ordnung. Im Rahmen der Erfindung sind die Filter FP, SP1 bis SP3 und SYC Gitterfilter, die direkt die Reflexionskoeffizienten des akustischen Rohrs verwenden, und leitet die Einheit ACC diese Koeffizienten von dem am Ausgang 21 des Filters SYC auftretenden Signal durch die Vorgehensweisen ab, die im Artikel von J. I. Makhoul und L. K. Cosell beschrieben sind. Die Koeffizienten werden an die verschiedenen Filter durch eine Verbindung 24 geliefert. Im Fall der dynamischen Bitzuordnung werden die Koeffizienten außerdem der Einheit UAD (Fig. 1) über einen Zweig 143 der Verbindung 24 zugeleitet, um die für diese Zuordnung verwendete Funktion W. fortzuschreiben. Dieser Zweig bildet einen Teil der Verbindung 14 in Fig. 1. Diese Filterwahl wird u. a. durch die Tatsache diktiert, dass die Anpassungseinheit APC für die Vorhersage-Ordnung außerdem unmittelbar die Reflexionskoeffizienten verwertet, wie im einzelnen noch beschrieben wird. Jedenfalls können auch andere Arten von Spektralparametern verwendet werden. Die Einheit APC bestimmt den Wert p der Vorhersage-Ordnung, die für einen Kodiervektor in einem durch eine Minimum-Vorhersage- Ordnung und eine Maximum-Vorhersage-Ordnung definierten Intervall zu verwenden ist. Der gefundene Wert wird den verschiedenen Filtern über eine Verbindung 25 geliefert, deren Zweig 144 (der einen Teil der Verbindung 14 in Fig. 1 darstellt) zum Fortschreiben des Werts p in Wi mit der Einheit UAD (Fig. 1) verbunden ist.
  • Für diese Bestimmung werden die Vorhersage-Verstärkung des Synthesefilters SYC und die inkrementelle Verstärkung, die durch Erhöhung der Vorhersage-Ordnung einer Einheit erhalten wird, herangezogen. Die Vorhersage-Ordnung ist für jede Ordnung p definiert durch
  • wobei: KJ = Reflexionskoeffizienten, die durch die Vorhersageoperation in ACC bestimmt werden; die inkrementelle Verstärkung ist gegebenen durch das Verhältnis G(p)/G(p-1) und wird somit ausgedrückt durch die Beziehung
  • Gemäß der Erfindung ist die für alle Filter im Kodierer zu verwendende Vorhersage-Ordnung der höchste Wert unter den Werten von p, für den die inkrementelle Verstärkung ein örtliches Maximum ist, und ist höher als eine gegebene erste Schwelle T1, sofern die absolute Verstärkung, die der maximalen Vorhersage-Ordnung entspricht, nicht weniger ist als eine zweite Schwelle T2; wird diese Bedingung für die Verstärkung nicht erfüllt, so wird die verwendete Vorhersage-Ordnung die Minimum-Ordnung.
  • Die Wahl für die höchste Ordnung unter denen, für die die inkrementelle Verstärkung ein örtliches Maximum zeigt, beruht auf der Tatsache, dass die Verstärkung dazu neigt, zusammen mit der Erhöhung der Vorhersage-Ordnung anzusteigen. Eine solche Wahl stellt deshalb eine Optimum-Bedingung sicher; die Überprüfung des Überschreitens der Schwelle stellt sicher, dass die größere Rechenkomplexität, die der Wahl der hohen Vorhersage-Ordnung folgt, tatsächlich einer wesentlichen Verbesserung des Betriebsverhaltens entspricht.
  • Die auf die absolute Verstärkung bezogene Bedingung dient dazu, zu verhindern, dass eine hohe Vorhersage-Ordnung verwendet wird, wenn das Signal ein relativ flaches Spektrum aufweist; unter diesen Bedingungen erhöht die Anwendung einer hohen Vorhersage-Ordnung die Rechenkomplexität nutzloserweise.
  • Geeignete Minimumwerte der Vorhersage-Ordnung können für die unteren Teilbänder die Werte 10 bis 15 und für die oberen Teilbänder die Werte 5 bis 8 sein; die Maximalwerte können 50 bis 60 bzw. 15 bis 20 betragen. Geeignete Schwellenwerte können im Bereich von 1,001 bis 1,01 für die erste Schwelle und von 1 bis 2 für die zweite Schwelle liegen. Diese Bereiche gelten für beide Teilbänder. Vorzugsweise werden Werte in der zweiten Hälfte dieser Bereiche verwendet. Jede Schwelle kann in beiden Teilbändern den gleichen Wert haben, muss es aber nicht.
  • Der oben beschriebene Algorithmus ist in Fig. 4 in Form eines Fließdiagramms dargestellt, wobei
  • - MAX, MIN der Maximum- bzw. der Minimumwert der Vorhersage- Ordnung p sind;
  • - GMAX die Vorhersage-Verstärkung ist, wenn p = MAX;
  • - T1, T2 jeweils eine der oben genannten Schwellen sind. Ein Fachmann hat keine Schwierigkeit, den beschriebenen Algorithmus zu implementieren, wobei er u.a. berücksichtigt, dass die beschriebenen Funktionen allgemein mit Hilfe digitaler Sprachprozessoren realisiert werden.
  • Das Variieren der Filtervorhersage-Ordnung entspricht allein dem Variieren der Zahl von in mathematischen Operationen, die der digitalen Filterung entsprechen, zu verwendenden Koeffizienten.
  • Fig. 3 zeigt den Aufbau des Decoders, der dem Aufbau des simulierten Decoders entspricht, welcher im Kodierer enthalten ist; dieser simulierte Decoder enthält:
  • - einen dem Speicher VC (Fig. 2) identischen Speicher VD, der durch Indizes x&sub0; und v&sub0; des Optimum-Verstärkungsfaktors bzw. des Vektors, die vom Kodierer übertragen werden und auf den Leitern 8' und 8" liegen, die die Verbindung 8 bilden, adressiert wird;
  • - eine Multipliziereinheit MD, die mit einer Anpassungseinheit AGD verbunden ist (mit einer Arbeitsweise wie ACC, Fig. 2) und die Multiplizierer MD1, MD2 enthält, die den Multiplizierern der kodiererseitigen Multipliziereinheit entsprechen; diese beiden Multiplizierer bilden somit das Produkt des in VD gelesenen Vektors exo mit dem ebenfalls in VD gelesenen Faktor und mit dem Faktor ß'm, der für jedes neue zu dekodierende Signal durch die Einheit AGD angepasst wird;
  • - einen Synthetisierer SYD, der mit einer Anpassungseinheit AFD verbunden ist, die ebenfalls eine Koeffizientenanpassungsein heit ACD und eine Vorhersage-Ordnung-Anpassungseinheit APD enthält, die wie ACC und APC (Fig. 2) arbeiten. Speziell arbeitet die Einheit APD gemäß einem Programm, das gleich dem durch das Fließdiagramm von Fig. 4 gezeigten Programm ist, wobei es für die Maximum-Ordnung und die Minimum-Ordnung sowie für die Schwellen die gleichen Werte verwendet, wie sie im Kodierer verwendet wurden.
  • Es ist klar, dass das Beschriebene nur als nicht beschränkendes Beispiel angegeben wurde und dass Variationen und Modifikationen möglich sind, ohne den Umfang der anliegenden Ansprüche zu verlassen. So kann, obwohl die Erfindung unter Bezugnahme auf die CELP- Technik beschrieben wurde, die Anpassung der Vorhersage-Ordnung auf jede beliebige Analyse-durch-Synthese-Kodiertechnik angewandt werden. Es ist klar, dass die Verstärkungsanpassung nur im Fall von Techniken durchgeführt wird, bei denen die Erregung für die Synthesefilter aus Vektoren besteht. Die Erfindung kann außerdem auch in Fällen angewandt werden, in denen die Kodierung am gesamten 8- kHz-Band erfolgt, und nicht an partiellen Teilbändern, oder auch anhand einer Zahl von Teilbändern ungleich zwei, oder im Fall von Signalen mit dem üblichen Telefonband von 300 Hz bis 3,4 kHz Im Fall von mehr als zwei Teilbändern können die Betrachtungen, die sich auf die dynamische Bitzuteilung beziehen, unmittelbar verallgemeinert werden.

Claims (12)

1. Verfahren zum Kodieren/Dekodieren von Audiosignalen mit Hilfe von Analyse-durch-Synthese-Techniken, bei dem kodierungsseitig das Audiosignal in Blöcken [s(n)] von digitalen Abtastwerten organisiert wird und für jeden Abtastwert-Block [s(n)] die Synthesefilterung für die Gruppe der Erregungssignale (ex) und die Wahrnehmungs-Gewichtungsfilterung des Eingangssignals und der synthetisierten Signale durchgeführt werden, indem man die Spektralparameter der Synthese- und Gewichtungsfilter (SP, 5P3, FP, SYC) mit Rückwärtsvorhersage-Techniken anpasst, ausgehend von einem rekonstruierten Audiosignal, das als Ergebnis der Synthesefilterung eines Optimum-Erregungssignals erhalten wird, und dekodierungsseitig das Audiosignal rekonstruiert wird, indem man das in der Kodierungsphase identifizierte Optimum- Erregungssignal (exo) einer Synthesefilterung unterwirft, während derer die Spektralparameter des Synthesefilters (SYD) mit Rückwärts-Vorhersagetechniken angepasst werden, und zwar in einer Weise, die der in der Kodierungsphase durchgeführten Anpassung entspricht, dadurch gekennzeichnet, dass für jeden zu kodierenden Block von Abtastwerten oder für jedes zu dekodierende Signal auch eine Anpassung der Vorhersage-Ordnung der Synthesefilter (SP, SP3, SYC, SYD) sowohl kodierungsseitig als auch dekodierungsseitig, ebenso wie eine Anpassung der Vorhersage-Ordnung der Wahrnehmungs-Gewichtungsfilter (SP, SP3, FP) kodierungsseitig durchgeführt wird, und zwar ausgehend von den Spektralcharakteristiken des rekonstruierten Signals relativ zum vorhergehenden Block von Abtastwerten; wobei die Anpassung der Vorhersage-Ordnung mit den folgenden Operationen bewirkt wird:
a) in Funktion der Vorhersage-Ordnung und bis zu einer vorgegebenen Maximal-Ordnung, Berechnen der Vorhersage-Verstärkung der Synthesefilter (SYC, SYD), die das rekonstruierte Signal erzeugen, und ihrer inkrementellen Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um eine Einheit erhöht wird, wobei diese Vorhersage-Verstärkungen jeweils durch die folgenden Beziehungen gegeben sind:
wobei KJ die Reflexionskoeffizienten eines den Stimmtrakt modellierenden akustischen Rohrs sind;
b) in einem Intervall der Vorhersage-Ordnung zwischen einer Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der Werte, für die die inkrementelle Vorhersage-Verstärkung G (p/p-1) ein relatives Maximum aufweist und höher ist als eine erste vorgegebene Schwelle;
c1) Durchführen der Synthese- und Gewichtungsfilterungen mit der höchsten Vorhersage-Ordnung unter den im Schritt (b) bestimmten Ordnungen, wenn die der Maximum-Vorhersage- Ordnung entsprechende Vorhersage-Verstärkung nicht niedriger ist als eine zweite vorgegebene Schwelle;
c2) Durchführen der Synthese- und Gewichtungsfilterungen unter Verwendung der Minimum-Vorhersage-Ordnung, wenn die der Maximum-Vorhersage-Ordnung entsprechende Vorhersage- Verstärkung niedriger ist als die zweite vorgegebene Schwelle.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anpassung der spektralen Filterparameter mit adaptiven Gittertechniken durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Erregungssignale (ex) aus Vektoren bestehen, die vor der Synthesefilterung mit einer Verstärkung multipliziert werden, die aus einem ersten Faktor βv, der für den Vektor typisch ist, und einem zweiten Faktor βm, der die mittlere Leistung im zu kodierenden signals berücksichtigt, besteht; und dass für jeden Block von zu kodierenden Abtastwerten oder für jedes zu dekodierende kodierte Signal auch eine Anpassung des zweiten Faktors βm mit adaptiven Gittertechniken durchgeführt wird, ausgehend vom Optimum-Erregungsvektor (exo), der mit der gesamten Verstärkung multipliziert ist, für das Kodieren des vorhergehenden Blocks von Abtastwerten identifiziert ist oder zum Dekodieren eines vorhergehenden Signals verwendet worden ist.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die zu kodierenden Signale Breitbandsignale (50 Hz - 7 kHz) sind und das Band in wenigstens zwei Teilbänder unterteilt ist, deren Signale getrennt kodiert werden, dadurch gekennzeichnet, dass die Kodierbits den verschiedenen Teilbändern dynamisch so zugeteilt werden, dass die Gesamtverzerrung minimalisiert wird, unter Berücksichtigung der durch die Wahrnehmungs-Gewichtungsfilterung eingeführten Verzerrung.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Minimum-Vorhersage-Ordnung für das obere Teilband zwischen 5 und 8 liegt und für das untere Teilband zwischen 10 und 15 liegt, und dass die Maximum-Vorhersage-Ordnung zwischen 15 und 20 bzw. zwischen 50 und 60 liegt.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die erste Schwelle zwischen 1,001 und 1,01 und die zweite Schwelle zwischen 1 und 2 liegt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Werte der ersten Schwelle und der zweiten Schwelle innerhalb der zweiten Hälfte der jeweiligen Intervalle liegen.
8. Vorrichtung zum Kodieren/Dekodieren von Audiosignalen mit Hilfe von Analyse-durch-Synthese-Techniken, bei der den Synthesefiltern (SP, SP3, SYC, SYD) im Kodierer (CDA, CDB) und im Dekodierer (DA, DB) und den Wahrnehmungs-Gewichtungsfiltern (SP, SP3, FP) im Kodierer (CDA, CDB) Einheiten (ACC, ACD) zur Anpassung von Spektralparametern zugeordnet sind, die die Anpassung jedes Blocks von Abtastwerten des zu kodierenden Audiosignals oder für jedes zu kodierende Signal für die Rekonstruktion eines Blocks von Abtastwerten durchführen, dadurch gekennzeichnet, dass die Anpassungseinheiten (ACC, ACD) für die Spektralparameter außerdem die für einen Block von zu kodierenden Abtastwerten bzw. für ein zu dekodierendes Signal bestimmten Parameter an eine Anpassungseinheit (APC, APD) der Vorhersage-Ordnung der Synthesefilter und der Wahrnehmungs- Gewichungsfilter (FP, SP, SP3, SYC, SYD) liefern, wobei diese Einheit diese Vorhersage-Ordnung, ausgehend von den Spektralcharakteristiken des rekonstruierten Signals, relativ zu dem vorhergehenden Block von Abtastwerten fortschreibt, mit den folgenden Operationen:
a) als Funktion der Vorhersage-Ordnung und bis zu einer vorgegebenen Maximal-Ordnung, Berechnen der Vorhersage- Verstärkung der Synthesefilter (SYC, SYD), die das rekonstruierte Signal erzeugen, und ihrer inkrementellen Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um eine Einheit erhöht wird, wobei diese Vorhersage-Verstärkungen jeweils durch die folgenden Beziehungen gegeben sind:
wobei KJ die Reflexionskoeffizienten des akustischen Rohrs sind;
b) in einem Intervall der Vorhersage-Ordnung zwischen einer Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der Werte, für die die inkrementelle Vorhersage-Verstärkung G (p/p-1) ein relatives Maximum aufweist und höher ist als eine erste vorgegebene Schwelle;
c1) Durchführen der Synthese- und Gewichtungsfilterung mit der höchsten Vorhersage-Ordnung unter den im Schritt b) bestimmten Ordnungen, wenn die der Maximum-Vorhersage- Ordnung entsprechende Vorhersage-Verstärkung nicht niedriger ist als eine zweite vorgegebene Schwelle;
c2) Durchführen der Synthese- und Gewichtungsfilterung unter Verwendung der Minimum-Vorhersage-Ordnung, wenn die der Maximum-vorhersage-ordnung entsprechende Vorhersage-Verstärkung niedriger ist als die zweite vorgegebene Schwel le.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die Filter (SP, SP3, FP, SYC, SYD) Gitterfilter sind und die Anpassungseinheiten (ACC, ACD) für die Spektralparameter die Reflexionskoeffizienten des akustischen Rohrs, die mit adaptiven Gittertechniken bestimmt sind, liefern.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die Synthesefilter (SP, SP3, SYC, SYD) im Kodierer (CDA, CDB) und im Dekodierer (DA, DB) als Erregungssignale Vektoren empfangen, die mit einer Verstärkung multipliziert sind, die aus einem ersten Faktor βv, der für den Vektor typisch ist, und einem zweiten Faktor βm, der die mittlere Leistung des zu kodierenden Signals berücksichtigt, besteht; und dass eine Einrichtung (AGC, AGD) vorhanden ist zum Anpassen des zweiten Faktors mit adaptiven Gittertechniken für jeden zu kodierenden Block von Abtastwerten oder für jedes zu dekodierende kodierte Signal, ausgehend vom Optimum-Erregungsvektor (exo), der mit der gesamten Verstärkung multipliziert ist, zum Kodieren des vorhergehenden Blocks von Abtastwerten identifiziert ist oder zum Dekodieren eines vorhergehenden Signals verwendet worden ist.
11. Vorrichtung nach einem der Ansprüche 8 bis 10 zum Kodieren von Breitbandsignalen (50 Hz - 7 kHz), mit einer Einrichtung (FQA1, FQB1) zum Teilen des Signalbands in wenigstens zwei Teilbänder und mit individuellen Kodierern (CDA, CDB) und Dekodierern (DA, DB) für jedes Teilband, dadurch gekennzeichnet, dass die Gewichtungs- und Synthesefilter (SYC, SYD, SP, SP3, FP) im Kodierer und im Dekodierer des oberen Bands (CDA, DA) eine Vorhersage-Ordnung aufweisen, die durch die Vorhersage-Ordnung- Anpassungseinheit (APC, APD) zwischen einem Minimumwert von 5 bis 8 und einem Maximumwert von 15 bis 20 verändert wird, und dass die Gewichtungs- und Synthesefilter (SYC, SYD, SP, SP3, FP) im Kodierer und im Dekodierer des unteren Bands (CDB, DB) eine Vorhersage-Ordnung aufweisen, die durch die Vorhersage- Ordnung-Anpassungseinheit (APC, APD) zwischen einem Minimumwert von 10 bis 15 und einem Maximumwert von 50 bis 60 verändert wird.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass den Kodierern (CDA, CDB) der verschiedenen Teilbänder eine Einrichtung (UAD) zum dynamischen Verteilen der Kodierbits unter den Teilbändern für jeden zu kodlerenden Block von Abtastwerten zugeordnet ist, um so die Gesamtverzerrung auch unter Berücksichtigung der von den Wahrnehmungs-Gewichtungsfiltern eingeführten Verzerrung zu minimalisieren.
DE69317958T 1992-07-31 1993-07-30 Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken Expired - Fee Related DE69317958T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITTO920658A IT1257065B (it) 1992-07-31 1992-07-31 Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.

Publications (2)

Publication Number Publication Date
DE69317958D1 DE69317958D1 (de) 1998-05-20
DE69317958T2 true DE69317958T2 (de) 1998-09-17

Family

ID=11410652

Family Applications (2)

Application Number Title Priority Date Filing Date
DE0582921T Pending DE582921T1 (de) 1992-07-31 1993-07-30 Kodierer von Tonsignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken.
DE69317958T Expired - Fee Related DE69317958T2 (de) 1992-07-31 1993-07-30 Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE0582921T Pending DE582921T1 (de) 1992-07-31 1993-07-30 Kodierer von Tonsignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken.

Country Status (9)

Country Link
US (1) US5321793A (de)
EP (1) EP0582921B1 (de)
JP (1) JPH0683395A (de)
AT (1) ATE165183T1 (de)
CA (1) CA2101700C (de)
DE (2) DE582921T1 (de)
ES (1) ES2068172T3 (de)
GR (2) GR950300011T1 (de)
IT (1) IT1257065B (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69309557T2 (de) * 1992-06-29 1997-10-09 Nippon Telegraph & Telephone Verfahren und Vorrichtung zur Sprachkodierung
AU675322B2 (en) * 1993-04-29 1997-01-30 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
JP3092653B2 (ja) * 1996-06-21 2000-09-25 日本電気株式会社 広帯域音声符号化装置及び音声復号装置並びに音声符号化復号装置
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
JP3266178B2 (ja) * 1996-12-18 2002-03-18 日本電気株式会社 音声符号化装置
EP0878790A1 (de) * 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
FI116992B (fi) 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US7260523B2 (en) * 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US7050545B2 (en) * 2001-04-12 2006-05-23 Tallabs Operations, Inc. Methods and apparatus for echo cancellation using an adaptive lattice based non-linear processor
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
EP1423847B1 (de) 2001-11-29 2005-02-02 Coding Technologies AB Wiederherstellung von hochfrequenzkomponenten
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
EP1851866B1 (de) * 2005-02-23 2011-08-17 Telefonaktiebolaget LM Ericsson (publ) Adaptive bitzuweisung für die mehrkanal-audiokodierung
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
EP2227682A1 (de) * 2007-11-06 2010-09-15 Nokia Corporation Ein kodierer
EP2212884B1 (de) * 2007-11-06 2013-01-02 Nokia Corporation Codierer
CN102007534B (zh) * 2008-03-04 2012-11-21 Lg电子株式会社 用于处理音频信号的方法和装置
RU2475868C2 (ru) * 2008-06-13 2013-02-20 Нокиа Корпорейшн Способ и устройство для маскирования ошибок кодированных аудиоданных
RU2586841C2 (ru) * 2009-10-20 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9626983B2 (en) 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
NZ728080A (en) 2014-07-29 2018-08-31 Ericsson Telefon Ab L M Estimation of background noise in audio signals

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5921039U (ja) * 1982-07-30 1984-02-08 いすゞ自動車株式会社 内燃機関
JPS6097743A (ja) * 1983-11-02 1985-05-31 Canon Inc 適応型線形予測装置
CA2005115C (en) * 1989-01-17 1997-04-22 Juin-Hwey Chen Low-delay code-excited linear predictive coder for speech or audio
JPH02214899A (ja) * 1989-02-15 1990-08-27 Matsushita Electric Ind Co Ltd 音声符号化装置
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
JP2939999B2 (ja) * 1989-05-24 1999-08-25 日本電気株式会社 可変長フレーム型ボコーダ
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding

Also Published As

Publication number Publication date
CA2101700C (en) 1997-02-25
EP0582921A3 (de) 1995-01-04
IT1257065B (it) 1996-01-05
DE69317958D1 (de) 1998-05-20
ES2068172T3 (es) 1998-06-01
ES2068172T1 (es) 1995-04-16
ITTO920658A1 (it) 1994-01-31
US5321793A (en) 1994-06-14
DE582921T1 (de) 1995-06-08
ITTO920658A0 (it) 1992-07-31
ATE165183T1 (de) 1998-05-15
GR3026673T3 (en) 1998-07-31
CA2101700A1 (en) 1994-02-01
GR950300011T1 (en) 1995-03-31
EP0582921B1 (de) 1998-04-15
EP0582921A2 (de) 1994-02-16
JPH0683395A (ja) 1994-03-25

Similar Documents

Publication Publication Date Title
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69219718T2 (de) Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit
EP2022043B1 (de) Informationssignalcodierung
DE602004010188T2 (de) Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60013785T2 (de) VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION
DE60207061T2 (de) Audiokompression
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE69633944T2 (de) Verfahren und gerät zum kodieren von digitalen daten
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
DE19742655A1 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee