DE69317958T2 - Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken - Google Patents
Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-TechnikenInfo
- Publication number
- DE69317958T2 DE69317958T2 DE69317958T DE69317958T DE69317958T2 DE 69317958 T2 DE69317958 T2 DE 69317958T2 DE 69317958 T DE69317958 T DE 69317958T DE 69317958 T DE69317958 T DE 69317958T DE 69317958 T2 DE69317958 T2 DE 69317958T2
- Authority
- DE
- Germany
- Prior art keywords
- prediction
- signal
- synthesis
- order
- filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Stereophonic System (AREA)
- Time-Division Multiplex Systems (AREA)
Description
- Die Erfindung bezieht sich auf ein Kodiersystem für Audiosignale und betrifft speziell ein Kodiersystem niedriger Verzögerung, das Analyse-durch-Synthese-Techniken anwendet. Das System ist vorzugsweise beabsichtigt zum Kodieren von Breitband-Audiosignalen.
- Der Ausdruck "Breitband" wird im Gebiet der Sprachkodierung dazu verwendet, anzuzeigen, dass das zu kodierende Signal eine Bandbreite über den etwa 3 kHz des üblichen Telefonbands hat, insbesondere ein Band zwischen etwa 50 Hz und 7 kHz Die Verwendung eines breiteren Bands als das üblichen Telefonband erlaubt das Erzielen einer höheren Qualität des kodierten Signals, wie es für bestimmte Dienste gefordert oder gewünscht wird, die von künftigen dienste-integrierenden digitalen Netzen geboten werden, wie beispielsweise Audiokonferenz, Videophon, Erläuterungskanäle usw. und auch für schnurloses Telefon.
- Für Fälle, bei denen das kodierte Signal mit relativ niedrigen Bitraten (beispielsweise 16 bis 32 kbits/s) übertragen werden muss, ist die Anwendung der Analyse-durch-Synthese-Kodiertechnik bereits vorgeschlagen worden. Diese Technik ergibt den höchsten Kodierungsgewinn bei diesen Bitraten. Insbesondere beschreiben der Artikel "Experiments on 7 kHz audio coding at 16 kbits/s", vorgelegt von R. Drogo de Iacovo u.a. auf der ICASSP '89, Glasgow (UK), 23. - 26. Mai 1989, Papier S4.19, und die Europäische Patentanmeldung EP-A- 396 121 ein System, bei dem das zu kodierende Signal in zwei Teilbänder geteilt ist, deren Signale gleichzeitig kodiert werden, und es werden Beispiele von Kodierern gegeben, bei denen eine Multiimpuls-Erregung oder eine aus Vektoren, die in einem passenden Codebuch ausgewählt sind (CELP = Codebook Excited Linear Prediction technique), bestehende Erregung ausgewertet wird.
- Bei diesem bekannten System arbeiten die Kodierer der beiden Teilbänder anhand von Gruppen oder Rahmen von Abtastwerten mit einer Dauer von 15 bis 20 ms, was erkennbar eine Kodierungsverzögerung mit sich bringt, die mindestens gleich der Dauer der Rahmen ist. Für bestimmte Anwendungen wie die schnurlose Telefonie, die audiografische Konferenz usw. ist es wesentlich, eine niedrige Kodierverzögerung zu haben, um so die Effekte akustischer und elektrischer Echos zu reduzieren. Zum Erzielen der niedrigen Verzögerung kann man sich aber bei einem Schema wie dem in der europäischen Patentanmeldung gezeigten nicht ausschließlich auf die Verwendung sehr kurzer Rahmen (einige wenige ms) stützen, da dies eine häufige Fortschreibung der Kodierparameter notwendig machen würde, mit entsprechender Erhöhung der zum Decoder zu übertragenden Information und somit der Bitrate.
- Zum Verwirklichen von Kodierern niedriger Verzögerung, die Rahmen einer kurzen Dauer verwenden, ohne Erhöhung der Bitrate wurde vorgeschlagen, CELP-Techniken anzuwenden, bei denen die Spektralparameter ausgehend von dem Signal, das am Sender rekonstruiert wird, berechnet werden (rückwärtsgerichtete CELP-Technik, "backward" CELP technique). Gemäß diesen Techniken empfangen für jeden Rahmen die Vorhersageeinheiten die Gruppe von Parametern, die im vorhergehenden Rahmen bestimmt worden ist, sie schätzen bei jedem neuen Abtastwert einen möglichen fortgeschriebenen Wert von Parametern und liefern als tatsächliche Werte die, die nach dem Empfang des letzten Abtastwerts geschätzt worden sind. Ein Beispiel dieser Art von Kodierern niedriger Verzögerung ist beschrieben im CCITT Empf ehlungsentwurf G728 "Coding of Speech at 16 kbit/s Using Low-Delay Code Excited Linear Prediction", in EP 0 379 296 und im Artikel "High-quality 16 kb/s speech coding with a one-way delay less than 2 ms" vorgelegt von J.H. Chen auf der ICASSP '90, Albuquerque (USA), 3. - 6. April 1990, Papier S9.1. Bei diesem Kodierer, der zum Kodieren von Audiosignalen mit dem konventionellen Fernsprechband entworfen wurde, werden rückwärtsgerichtete Adap-tionstechniken verwendet, um die Vorhersage-Koeffizienten in den Synthesefiltern (die nur Kurzzeit-Vorhersager enthalten) und die Verstärkung, mit der Erregungsvektoren multipliziert werden, fortzuschreiben. Speziell werden die Vorhersage-Koeffizienten der Synthesefilter mit Hilfe einer LPC-Analyse der zuvor guantisierten Sprache fortgeschrieben; die Koeffizienten der Gewichtungsfilter werden mit Hilfe einer LPC-Analyse des Eingangssignals fortgeschrieben; und die Vektorverstärkung wird durch Verwendung der Verstärkungsinformation fortgeschrieben, die in der vorher quantisierten Erregung inkorporiert ist. Auf diese Weise muss nur der Index des Worts im Codebuch (strukturiert in Erregungsverstärkung und Form) übertragen werden, da die Vorhersage-Koeffizieten des Synthesefilters und die rückwärtsgerichtete angepaßte Verstärkung im Empfänger durch Rückwärtsadaptationsschaltungen bestimmt werden kann, die den im Sender verwendeten Schaltungen entsprechen.
- Der Qualitätsverlust, der dadurch erfolgen könnte, dass ein Langzeit-Vorhersager weggelassen ist, wird durch die Verwendung einer relativ hohen Vorhersage-Ordnung für die Kurzzeit-Vorhersager ausgeglichen, insbesondere eine Vorhersage-Ordnung gleich 50. In jedem Fall kann die Kurzzeit-Vorhersage-Ordnung nicht über eine bestimmte Grenze hinaus angehoben werden, und zwar aus Gründen der Rechnungskomplexität.
- Für den Fall der Teilbandkodierung ist die Verwendung unterschiedlicher Vorhersage-Ordnungen in den verschiedenen Teilbändern vorgeschlagen worden. Speziell beim Kodierer, der im Artikel von R. Drogo de Iacovo u.a. beschrieben wurde (und in dem Langzeitkorrelationen ausgewertet werden), werden Filter mit einer Vorhersage- Ordnung von 10 für das untere Teilband und mit einer Ordnung 4 für das obere Teilband verwendet. Diese Vorhersage-Ordnungen sind festgelegt. Auf diese Weise werden für tatsächliche Sprache gute Ergebnisse erzielt, nicht jedoch für Signale mit sehr variablen Charakteristiken wie z.B. Musik.
- Das Ziel der Erfindung ist es, einen Kodierer niedriger Verzögerung zu schaffen, bei dem ein rekonstruiertes Signal guter Qualität auch dann erhalten wird, wenn die Eingangssignale sehr variable Charakteristiken zeigen.
- Gemäß der Erfindung wird bei einem Verfahren zum Kodieren/Dekodieren von Audiosignalen mit Hilfe von Analyse-durch- Synthese-Techniken kodierungsseitig das Audiosignal in Blöcken von digitalen Abtastwerten organisiert und für jeden Abtastwert-Block die Synthesefilterung für die Gruppe der Erregungssignale und die Wahrnehmungs-Gewichtungsfilterung des Eingangssignals und der synthetisierten Signale durchgeführt, indem man die Spektralparameter der Synthese- und Gewichtungsfilter mit Rückwärtsvorhersage- Techniken anpasst, ausgehend von einem rekonstruierten Audiosignak, das als Ergebnis der Synthesefilterung eines Optimum-Erregungssignals erhalten wird, und wird dekodierungsseitig das Audiosignal rekonstruiert, indem man das in der Kodierungsphase identifizierte Optimum-Erregungssignal einer Synthesefilterung unterwirft, während derer die Spektralparameter des Synthesefilters mit rückwärtsgerichteten Vorhersagetechniken angepasst werden, und zwar in einer Weise, die der in der Kodierungsphase durchgeführten Anpassung entspricht, wobei für jeden zu kodierenden Block von Abtastwerten oder für jedes zu dekodierende Signal auch eine Anpassung der Vorhersage-Ordnung der Synthesefilter sowohl kodierungsseitig als auch dekodierungsseitig, ebenso wie eine Anpassung der Vorhersage-Ordnung der Wahrnehmungs-Gewichtungsfilter kodierungsseitig durchgeführt wird, und zwar ausgehend von den Spektralcharakteristiken des rekonstruierten Signals relativ zum vorhergehenden Block von Abtastwerten; wobei die Anpasung der Vorhersage-Ordnung mit den folgenden Operationen bewirkt wird:
- in Funktion der Vorhersage-Ordnung und bis zu einer vorgegebenen Maximal-Ordnung, Berechnen der Vorhersage-Verstärkung der Synthesefilter, die das rekonstruierte Signal erzeugen, und ihrer inkrementellen Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um eine Einheit erhöht wird, wobei diese Vorhersage-Verstärkungen jeweils durch die folgenden Beziehungen gegeben sind:
- wobei KJ die Reflexionskoeffizienten eines den Stimmtrakt modellierenden akustischen Rohrs sind; in einem Intervall der Vorhersage- Ordnung zwischen einer Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der Werte, für die die inkrementelle Vorhersage-Verstärkung G (p/p-1) ein relatives Maximum aufweist und höher ist als eine erste vorgegebene Schwelle; Durchführen der Synthese- und Gewichtungsfilterungen mit der höchsten Vorhersage-Ordnung unter den im verhergehenden Schritt bestimmten Ordnungen, wenn die der Maximum-Vorhersage-Ordnung entsprechende Vorhersage-Verstärkung nicht niedriger ist als eine zweite vorgegebene Schwelle; und Durchführen der Synthese- und Gewichtungsfilterungen unter Verwendung der Minimum-Vorhersage-Ordnung, wenn die der Maximum-Vorhersage-Ordnung entsprechende Vorhersage-Verstärkung niedriger ist als die zweite vorgegebene Schwelle.
- Es ist zu beachten, dass Modelle von akustischen Rohren in der Fachtechnik bekannt sind. Ein akustisches Rohr modelliert oder simuliert den Vokaltrakt vom Stimmband bis zur Zunge durch eine Gruppe zylindrischer Elemente gleicher Länge und unterschiedlichen Durchmessers. Die Reflextionskoeffizienten geben also die Reflexion wieder, die von der Luft an den Verbindungen zwischen benachbarten Elementen durchgeführt wird.
- Gemäß einer bevorzugten Charakteristik der Erfindung wird die Anpaßung der Spektralparameter mit Gittertechniken durchgeführt. Diese Techniken zeigen eine verminderte Empfindlichkeit gegenüber Fehlern in der endlichen arithmetischen Implementierung und eine leichtere Steuerung der Filterstabilität; außerdem erleichtern sie die Anpassung der Vorhersage-Ordnung.
- Vorzugsweise ist die Kodiertechnik eine CELP-Technik, in der eine Anpassung mit Techniken der rückwärtsgerichteten Vorhersage der Vektorverstärkung auch durchgeführt wird.
- Vorteilhafterweise ist das zu kodierende Signal in eine bestimmte Zahl von Teilbändern unterteilt und wird das erfindungsgemäße Kodierverfahren in jedem dieser Teilbänder durchgeführt. Die Teilbandstruktur erlaubt eine Reduktion der Berechnungskomplexität und ein besseres Formen des Quantisierungsrauschens.
- In diesem Fall wird es bevorzugt, dynamisch die verfügbaren Bits unter den verschiedenen Teilbändern aufzuteilen, und zwar gemäß einer Technik, die die Charakteristiken von Gewichtungsfiltern berücksichtigt.
- Die Vorrichtung zur Durchführung des Verfahrens gemäß Anspruch 8 ist ebenfalls ein Gegenstand der Erfindung.
- Die Erfindung ist durch Bezugnahme auf die anliegenden Zeichnungen besser verständlich. Es zeigen:
- - Fig. 1 einen Blockschaltplan eines Breitband-Sprach-Kodiersystems, das die Erfindung verwendet;
- - Fig. 2 einen Schlatplan des erfidnungsgemäßen Kodierers;
- - Fig. 3 einen Blockschaltplan des Dekodierers;
- - Fig. 4 ein Flussdiagramm des Algorithmus der Anpassung der Vorhersage-Ordnung.
- Fig. 1 zeigt ein System zum Kodieren von Audiosignalen mit einem Band von 7 kHz bei Teilung des Signals in zwei Teilbänder in der in der EP-A-O 396 121 beschriebenen Art. Das auf einer Leitung 1 vorhandene 7-kHz-Band-Signal, das mit Hilfe einer geeigneten Analogfilterung in nicht dargestellten Filtern erhalten wird, wird einer ersten Tastschaltung CM eingespeist, die beispielsweise mit 16 kHz arbeitet und deren Ausgang 2 mit zwei Filtern FQA1und FQB1 verbunden ist, von denen eines (beispielsweise FQA1) ein Hochpassfilter ist, während das andere ein Tiefpassfilter ist. Die beiden Filter haben im wesentlichen die gleiche Bandbreite.
- Über Verbindungen 3A und 3B geben die Filter FQA1 und FQB1 die Signale des jeweiligen Teilbands an Tastschaltungen CMA bzw. CMB, die mit der Nyquist-Rate für diese Signale arbeiten, also 8 kHz, wenn die Tastschaltung CM mit 16 kHz arbeitet. Die so erhaltenen Abtastwerte werden über Verbindungen 4A und 48 an Audiokodierer CDA bzw. CDB gegeben, die Analyse-durch-Synthese-Techniken anwenden. Kodierte Signale, die auf Verbindungen 5A und 5B auftreten, werden zu einer Übertragungsleitung 6 über Einheiten gesendet, die durch einen Multiplexer MX schematisch angegeben sind und die auch noch das Einführen möglicher weiterer Signale (z. B. von Videosignalen), falls vorhanden, die auf einer Verbindung 7 kommen, auf die Leitung ermöglichen.
- Am anderen Ende der Leitung 6 sendet ein Demultiplexer DMX über Verbindungen 8A und 8B die kodierten Audiosignale zu Decodern DA und DB, die die Signale der beiden Teilbändern rekonstruieren. Die Verarbeitung der anderen Signale, die am Ausgang 9 des Demultiplexers DMX abgegeben werden, ist für die vorliegende Erfindung ohne Interesse und deshalb sind Einheiten, die für diese Verarbeitung vorgesehen sind, nicht gezeigt. Ausgänge 10A und 10B von DA und DB werden mit jeweiligen Interpolatoren INA und INB verbunden, die das Signal bei 16 kHz rekonstruieren. Diese rekonstruierten Signale werden ihrerseits über Verbindungen 11A und 11B Filtern FQA2 und FQB2 (analog den Filtern FQA1 und FQBL) eingespeist, was die Faltungs-Verzerrung der interpolierten Signale beseitigt. Die auf die beiden Teilbänder bezogenen gefilterten Signale, die auf Verbindungen 12A und 12B auftreten, werden dann rekombiniert, um ein Signal mit dem gleichen Band zu erzeugen wie das ursprüngliche Signal (wie schematisch durch einen Addierer SOM dargestellt ist), und werden dann über eine Leitung 13 den Anwendungsvorrichtungen zugeleitet.
- Gemäß der Erfindung sind die Kodierer CDA und CDB aus den angegebenen Gründen Kodierer niedriger Verzögerung, die mit Rahmen arbeiten können, die nur wenige ms dauern. Bei der praktischen Ausführung erfindungsgemäßer Kodierer werden für Übertragungen mit 16 kbit/s Rahmen von 10 oder 20 Abtastwerten verwendet, die bei der für die Tastschaltungen CMA und CMB angegebenen Abtastrate von 8 kHz 1,25 bis 2,5 ms des Audiosignals entsprechen.
- Kodierbits können den beiden Teilbändern in festgelegter Weise zugeordnet werden: bei einem Ausführungsbeispiel wird ein 10- Abtastwert-Rahmen für das untere Teilband verwendet, das mit 12 kbit/s kodiert wird, und ein 20-Abtastwert-Rahmen für das obere Teilband verwendet, das mit 4 kbit/s kodiert wird.
- Die Zuordnung kann dynamisch stattfinden, um so die nicht stationäre Natur des Audiosignais zu berücksichtigen. In diesem zweiten Fall sind die Kodierer CDA und CDB über Verbindungen 14A und 14B mit einer Einheit UAD verbunden, die gemäß der Erfindung die Bits zwischen den beiden Teilbändern so aufteilt, dass die Gesamtverzerrung minimiert wird, wobei außerdem das Vorhandensein spektraler Gewichtungsfilter in den Kodierern berücksichtigt wird. Die Zuordnungsprozedur ist die folgende.
- Die gesamte Verzerrung kann angegeben werden als D = D1 + D2, wobei D1 und D2 die Verzerrungen sind, die sich auf die einzelnen Teilbänder beziehen und die, wie schon bekannt, von der Leistung des Restsignals abhängen. In einem Analyse-durch-Synthese-Kodierer, bei dem eine spektrale Gewichtung des Eingangssignals bewirkt wird, wird die Verzerrung durch diese Gewichtung beeinflusst und kann angenähert durch die folgende Beziehung angegeben werden:
- wobei: bi = Zahl der Bits, die dem Teilband i zugeordnet sind; i = der mittlere Quadratwert (Leistung) des Restsignals des Teilbands i; Wi&supmin;¹ (ω) = invertierte Transferfunktion des Spektralgewichtungsfilters, ausgedrückt als eine Funktion der Winkelfrequenzen ω. Wird mit Xi das Produkt ωiπ Wi&supmin;¹(ω) dω/2π bezeichnet, so kann unmittelbar abgeleitet werden, dass die gesamte Verzerrung minimalisiert wird, wenn dem Teilband i eine Anzahl von bits bi zugeordnet wird, wobei dieser Wert gegeben ist durch
- wobei: R = Gesamtzahl von Bits. Der Fachmann hat keine Schwierigkeit, eine Schaltung zu entwerfen, die durch Anwendung der angegebenen Beziehung b. bestimmen kann.
- Bei einem praktischen Beispiel eines Kodierers mit dynamischer Bit-Zuordnung zu den beiden Teilbändern konnte jedes Teilband mit Bit-Raten arbeiten, die von 12 bis 4 kbit/s variieren, und zwar in Schritten von 1,6 kbit/s; dem Teilband, das mit Raten über oder gleich 8,8 kbit/s übertragen wird, ist ein Rahmen mit zehn Abtastwerten zugeordnet worden und dem Teilband, das mit Raten unter oder gleich 7,2 kbit/s übertragen wird, ist ein Rahmen mit zwanzig Abtastwerten zugeordnet worden.
- Fig. 2 zeigt das Schema eines der Blöcke CDA, CDB von Fig. 1 für den als nicht begrenzendes Beispiel angegeben Fall, das die Kodierung mit der CELP-Technik durchgeführt wird. Wird als gegeben angenommen, daß sich die verschiedenen Kodiertechniken mit Analyse- durch-Synthese im wesentlichen nur in der Natur des Erregungssignals unterscheiden, so hat der Fachmann keine Schwierigkeit, das Beschriebene für eine andere Technik als die CELP-Technik anzuwenden. Beim gewählten Schema wird die Langzeitsynthese nicht durchgeführt, so dass die Komplexität des Algorithmus niedrig gehalten wird, und es gibt eine Adaptation mit Rückwärts-Vorhersagetechniken sowohl der Synthesefilter-Koeffizienten als auch der Gewichtungsfilterkoeffizienten und der Verstärkung. Darüberhinaus ist die Vorhersage-Ordnung der Synthese- und Gewichtungsfilter ebenfalls angepasst.
- Auf diesen Grundlagen wird das in digitaler Form zu kodierende Signal in Vektoren organisiert, die aus der gewünschten Zahl von Abtastwerten (beispielsweise 10 bis 20, wie bereits dargelegt) in einem Puffer BU bestehen. Im Fall der dynamischen Zuordnung der Kodierbits, in dem die Wahl der Rahmenlänge von der Bitrate abhängt, wird der Puffer BU von der Einheit UAD (Fig. 1) über eine Leitung 140 gesteuert, die einen Teil der Verbindung 14A oder 14B von Fig. 1 bildet. Jeder Vektor 5(n) wird in einem Wahrnehmungs- Gewichtungsfilter FP (Fig. 2), wie er für alle Analyse-durch- Synthese-Kodiersysteme typisch ist, spektral geformt. Während dieser Gewichtungsoperation wird, wie bekannt ist, eine inverse Filterung mit linearer Vorhersage durchgeführt, wodurch das Restsignal gebildet wird, das über eine Leitung 141 an die Einheit UAD geliefert wird. Die Leitung 141 ist ebenfalls ein Teil der Verbindungen 14A oder 14B von Fig. 1. Jeder gewichtete Eingangsvektor Sw(n) wird, nachdem man den Beitrag w0 des Speichers der vorhergehenden Filterungen subtrahiert hat, mit allen den Vektoren, die durch Filterung der E-Vektoren ex des Erregungs-Codebuchs (die in einem Speicher VC gespeichert sind) erhalten werden, verglichen, und zwar in der Kaskade eines Kurzzeit-Synthesefilters und eines Gewichtungsfilters, wobei diese Vektoren mit einer passenden Verstärkung in einer Multipliziereinheit MC maßtäblich verändert, also multipliziert werden. Bei Vervollständigung dieser Vergleiche wird diejenige Kombination Erregungsvektor - Verstärkung, die den mittleren quadratischen Fehler zwischem dem ursprünglichen Signal und dem synthetisierten Signal minimiert, bestimmt. Die multiplizierten Vektoren werden der Kaskade der beiden Filter über eine Verbindung 20 eingespeist. Die Zahl E der in einem Rahmen verwendeten Vektoren hängt von der Zahl der dem Teilband in diesem Rahmen zugeordneten Bits ab.
- Das Gewichtungsfilter FP hat eine Transferfunktion W(z), die üblicherweise ausgedrückt wird als W(z) A(z)/A(z/γ) (wobei 0 ≤ γ ≤ 1 der Wahrnehmungs-Gewichtungsfaktor ist, der berücksichtigt, wie das menschliche Ohr empfindlich für Rauschen ist). Das Kurzzeit-Synthesefilter hat die Transierfunktion H(z) = 1/A(z). Der Ausdruck der Funktionen A(z) und A(z/γ) hängt von der Filterstruktur ab: speziell dann, wenn die Filter rekursive Filter sind, sind A(z) und A(z/γ) die konventionellen Funktionen der linearen Vorhersagekoeffizienten, nämlich:
- wobei: ai = die linearen Vorhersagekoeffizienten, und p = die Filterordnung; sind die Filter Gitterfilter, so sind A(z) und A(z/γ) Funktionen der Reflexionskoeffizienten des akustischen Rohrs und werden beispielsweise in der in der CEPT/GSM-Empfehlung 06.10 beschriebenen Weise bestimmt, worin die Struktur von Filtern mit der Transferfunktion A(z) und 11A(z) für den Fall p = 8 angegeben wird.
- Die Anwendung dessen, was in dieser Empfehlung beschrieben ist, auf Fälle beliebiger Ordnung p und der Funktion A(Z/γ) ist für den Fachmann Routine. Mit den oben angegebenen Transferfunktionen ist die Kaskade des Synthesefilters und des Gewichtungsfilters, mit denen die multiplizierten Erregungsvektoren durchgelassen werden, äquivalent einem einzigen Filter SP (gewichtetes Kurzzeitsynthesefilter) mit der Transferfunktion 1/A(z/γ).
- Für die Bestimmung des Fehlersignals wird, wie schon dargelegt wurde, der Beitrag des Speichers der Erregungssignalfilterungen, die in den vorhergehenden Rahmen bewirkt wurden, getrennt vom Eingangssignal subtrahiert, und zwar außerhalb der Analyse-durch- Synthese-Schleife. Das einzelne Filter SP wird somit mit zwei parallelen und gleichen Filtern SP1 und SP2 schematisiert. Das erste dieser beiden Filter hat einen Eingang 0 und lädt für jeden zu kodierenden Vektor s(n) das am Ausgang 26 eines Gewichtungs- Kurzzeitsynthesefilters 5P3 vorliegende Signal, wobei dieses Filter ebenfalls die Transferfunktion 1/A(z/γ) hat und am Ende des Suchvorgangs der optimalen Erregung den Optimumvektor empfängt, der mit der Optimum-Verstärkung multipliziert ist, die am Ausgang 20 von MC anliegt; das Ausgangssignal von SP1 ist das Signal w, das vorher genannt wurde. Das zweite Filter SP2 führt andererseits die tatsächliche Filterung ohne Speicher des multiplizierten Vektors aus. Das Filter SP3 mit dem Speicher VC und der Multipliziereinheit MC bildet einen simulierten Dekoder, der zum Fortschreiben der Speicher des Filters SP1 verwendet wird. Es ist auch ein weiteres Kurzzeitsynthesefilter SYC vorhanden, mit der Transferfunktion 1/A(z); auch dieses Filter empfängt am Ende des Suchvorgangs der optimalen Erregung den Optimumvektor, der mit der Optimum-Verstärkung multipliziert ist, und bildet mit dem Speicher VC und der Multipliziereinheit MC einen simulierten Decoder, der zum Anpassen der Spektralparameter und der Filtervorhersage-Ordnung des Decoders dient.
- Das Ausgangssignal w0 (n) von SPI wird in einem Addierer SM1 vom Ausgangssignal sw(n) von FP subtrahiert und das Ausgangssignal we(n)von SP2 wird in SM2 vom resultierenden Signal subtrahiert. Der Ausgang 22 von SM2 führt das Signal dw (gewichteter Fehler), das dann an die Verarbeitungseinheit EL gegeben wird, die alle zum Identifizieren des Optimumvektors und der Optimum-Verstärkung (also des Vektors und der Verstärkung, die den Fehler minimieren) notwendigen Operationen durchführen. Diese Operationen sind im wesentlichen identisch denen des konventionellen CELP-Kodierers. Im Fall der dynamischen Bitzuordnung zu den Teilbändern empfängt EL von UAD über eine Verbindung 142, die ebenfalls einen Teil der Verbindung 14A oder 14B von Fig. 1 bildet, die Information über die der Erregung in diesem Rahmen zugeordnete Bitzahl, d. h. eine Information, die die Zahl von Vektoren betrifft, unter denen die Suche in diesem Rahmen bewirkt werden soll.
- Der verstärkungsmultiplizierenden Einheit MC ist eine Verstärkungsanpassungseinheit AGC zugeordnet, und die Filter FP, SP1, SP2, SP3 und SYC sind mit einer Filteranpassungseinheit AFC verbunden. Diese Anpassungseinheiten arbeiten gemäß Rückwärtsvorhersagetechniken, wobei sie den in einem Rahmen zu verwendenden Wert für die jeweilige Größe aus dem sich auf den vorhergehenden Rahmen beziehenden synthetisierten Signal erhalten.
- Die Verstärkung besteht aus dem Produkt von zwei Faktoren βm und βv. erste Faktor, βm, berücksichtigt die mittlere Leistung im Signal und wird von AGC über eine Verbindung 23 geliefert. AGC empfängt über die Verbindung 20 den Optimum-Erregungsvektor, der mit der relativen totalen Optimum-Verstärkung multipliziert ist, und entwickelt hieraus den Wert βm, der zum Kodieren des nächsten Vektors verwendet wird, indem ein Verfahren wie das von J. I. Makhoul und L. K. Cosell in "Adaptive Lattice Analysis of Speech", IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-29, Nr. 3, June 1981, beschriebene angewandt wird. Der Faktor βv ist typisch für den Vektor und ist aus einem passenden Verstärkungs-Codebuch ausgewählt, wie in üblichen CELP-Kodierern; dieser Faktor wird deshalb durch die Suche nach der Optimumerregung betroffen, so dass das kodierte Signal aus Indizes x&sub0; und v&sub0; des Vektors ex bzw. des Optimumfaktors βv besteht. Zur Vereinfachung der Zeichnung ist der Speicher, der das Verstärkungscodebuch speichert, in den Speicher VC einbezogen, der die Erregungsvektoren ex speichert.
- Die multiplizierende Einheit MC enthält deshalb zwei Multiplizierer MC1 und MC2 in Serie miteinander. Der erste Multiplizierer erzeugt das Produkt mit dem Faktor βv und der zweite das Produkt mit dem Faktor βm, der für MC während der gesamten Suche nach der Optimum-Erregung bezüglich eines zu kodierenden Vektors verfügbar gehalten wird. Es ist bemerkbar, dass beim beschriebenen Beispiel die Zahl der zum Kodieren von βv verfügbaren Bits als konstant angenommen wird, auch im Fall der dynamischen Bitzuordnung.
- Die Filteranpassungseinheit AFC besteht ihrerseits aus einer Serienschaltung von zwei Einheiten: die erste Einheit, ACC, adaptiert die Filterkoeffizienten und die zweite Einheit, APC, adaptiert die Vorhersage-Ordnung. Im Rahmen der Erfindung sind die Filter FP, SP1 bis SP3 und SYC Gitterfilter, die direkt die Reflexionskoeffizienten des akustischen Rohrs verwenden, und leitet die Einheit ACC diese Koeffizienten von dem am Ausgang 21 des Filters SYC auftretenden Signal durch die Vorgehensweisen ab, die im Artikel von J. I. Makhoul und L. K. Cosell beschrieben sind. Die Koeffizienten werden an die verschiedenen Filter durch eine Verbindung 24 geliefert. Im Fall der dynamischen Bitzuordnung werden die Koeffizienten außerdem der Einheit UAD (Fig. 1) über einen Zweig 143 der Verbindung 24 zugeleitet, um die für diese Zuordnung verwendete Funktion W. fortzuschreiben. Dieser Zweig bildet einen Teil der Verbindung 14 in Fig. 1. Diese Filterwahl wird u. a. durch die Tatsache diktiert, dass die Anpassungseinheit APC für die Vorhersage-Ordnung außerdem unmittelbar die Reflexionskoeffizienten verwertet, wie im einzelnen noch beschrieben wird. Jedenfalls können auch andere Arten von Spektralparametern verwendet werden. Die Einheit APC bestimmt den Wert p der Vorhersage-Ordnung, die für einen Kodiervektor in einem durch eine Minimum-Vorhersage- Ordnung und eine Maximum-Vorhersage-Ordnung definierten Intervall zu verwenden ist. Der gefundene Wert wird den verschiedenen Filtern über eine Verbindung 25 geliefert, deren Zweig 144 (der einen Teil der Verbindung 14 in Fig. 1 darstellt) zum Fortschreiben des Werts p in Wi mit der Einheit UAD (Fig. 1) verbunden ist.
- Für diese Bestimmung werden die Vorhersage-Verstärkung des Synthesefilters SYC und die inkrementelle Verstärkung, die durch Erhöhung der Vorhersage-Ordnung einer Einheit erhalten wird, herangezogen. Die Vorhersage-Ordnung ist für jede Ordnung p definiert durch
- wobei: KJ = Reflexionskoeffizienten, die durch die Vorhersageoperation in ACC bestimmt werden; die inkrementelle Verstärkung ist gegebenen durch das Verhältnis G(p)/G(p-1) und wird somit ausgedrückt durch die Beziehung
- Gemäß der Erfindung ist die für alle Filter im Kodierer zu verwendende Vorhersage-Ordnung der höchste Wert unter den Werten von p, für den die inkrementelle Verstärkung ein örtliches Maximum ist, und ist höher als eine gegebene erste Schwelle T1, sofern die absolute Verstärkung, die der maximalen Vorhersage-Ordnung entspricht, nicht weniger ist als eine zweite Schwelle T2; wird diese Bedingung für die Verstärkung nicht erfüllt, so wird die verwendete Vorhersage-Ordnung die Minimum-Ordnung.
- Die Wahl für die höchste Ordnung unter denen, für die die inkrementelle Verstärkung ein örtliches Maximum zeigt, beruht auf der Tatsache, dass die Verstärkung dazu neigt, zusammen mit der Erhöhung der Vorhersage-Ordnung anzusteigen. Eine solche Wahl stellt deshalb eine Optimum-Bedingung sicher; die Überprüfung des Überschreitens der Schwelle stellt sicher, dass die größere Rechenkomplexität, die der Wahl der hohen Vorhersage-Ordnung folgt, tatsächlich einer wesentlichen Verbesserung des Betriebsverhaltens entspricht.
- Die auf die absolute Verstärkung bezogene Bedingung dient dazu, zu verhindern, dass eine hohe Vorhersage-Ordnung verwendet wird, wenn das Signal ein relativ flaches Spektrum aufweist; unter diesen Bedingungen erhöht die Anwendung einer hohen Vorhersage-Ordnung die Rechenkomplexität nutzloserweise.
- Geeignete Minimumwerte der Vorhersage-Ordnung können für die unteren Teilbänder die Werte 10 bis 15 und für die oberen Teilbänder die Werte 5 bis 8 sein; die Maximalwerte können 50 bis 60 bzw. 15 bis 20 betragen. Geeignete Schwellenwerte können im Bereich von 1,001 bis 1,01 für die erste Schwelle und von 1 bis 2 für die zweite Schwelle liegen. Diese Bereiche gelten für beide Teilbänder. Vorzugsweise werden Werte in der zweiten Hälfte dieser Bereiche verwendet. Jede Schwelle kann in beiden Teilbändern den gleichen Wert haben, muss es aber nicht.
- Der oben beschriebene Algorithmus ist in Fig. 4 in Form eines Fließdiagramms dargestellt, wobei
- - MAX, MIN der Maximum- bzw. der Minimumwert der Vorhersage- Ordnung p sind;
- - GMAX die Vorhersage-Verstärkung ist, wenn p = MAX;
- - T1, T2 jeweils eine der oben genannten Schwellen sind. Ein Fachmann hat keine Schwierigkeit, den beschriebenen Algorithmus zu implementieren, wobei er u.a. berücksichtigt, dass die beschriebenen Funktionen allgemein mit Hilfe digitaler Sprachprozessoren realisiert werden.
- Das Variieren der Filtervorhersage-Ordnung entspricht allein dem Variieren der Zahl von in mathematischen Operationen, die der digitalen Filterung entsprechen, zu verwendenden Koeffizienten.
- Fig. 3 zeigt den Aufbau des Decoders, der dem Aufbau des simulierten Decoders entspricht, welcher im Kodierer enthalten ist; dieser simulierte Decoder enthält:
- - einen dem Speicher VC (Fig. 2) identischen Speicher VD, der durch Indizes x&sub0; und v&sub0; des Optimum-Verstärkungsfaktors bzw. des Vektors, die vom Kodierer übertragen werden und auf den Leitern 8' und 8" liegen, die die Verbindung 8 bilden, adressiert wird;
- - eine Multipliziereinheit MD, die mit einer Anpassungseinheit AGD verbunden ist (mit einer Arbeitsweise wie ACC, Fig. 2) und die Multiplizierer MD1, MD2 enthält, die den Multiplizierern der kodiererseitigen Multipliziereinheit entsprechen; diese beiden Multiplizierer bilden somit das Produkt des in VD gelesenen Vektors exo mit dem ebenfalls in VD gelesenen Faktor und mit dem Faktor ß'm, der für jedes neue zu dekodierende Signal durch die Einheit AGD angepasst wird;
- - einen Synthetisierer SYD, der mit einer Anpassungseinheit AFD verbunden ist, die ebenfalls eine Koeffizientenanpassungsein heit ACD und eine Vorhersage-Ordnung-Anpassungseinheit APD enthält, die wie ACC und APC (Fig. 2) arbeiten. Speziell arbeitet die Einheit APD gemäß einem Programm, das gleich dem durch das Fließdiagramm von Fig. 4 gezeigten Programm ist, wobei es für die Maximum-Ordnung und die Minimum-Ordnung sowie für die Schwellen die gleichen Werte verwendet, wie sie im Kodierer verwendet wurden.
- Es ist klar, dass das Beschriebene nur als nicht beschränkendes Beispiel angegeben wurde und dass Variationen und Modifikationen möglich sind, ohne den Umfang der anliegenden Ansprüche zu verlassen. So kann, obwohl die Erfindung unter Bezugnahme auf die CELP- Technik beschrieben wurde, die Anpassung der Vorhersage-Ordnung auf jede beliebige Analyse-durch-Synthese-Kodiertechnik angewandt werden. Es ist klar, dass die Verstärkungsanpassung nur im Fall von Techniken durchgeführt wird, bei denen die Erregung für die Synthesefilter aus Vektoren besteht. Die Erfindung kann außerdem auch in Fällen angewandt werden, in denen die Kodierung am gesamten 8- kHz-Band erfolgt, und nicht an partiellen Teilbändern, oder auch anhand einer Zahl von Teilbändern ungleich zwei, oder im Fall von Signalen mit dem üblichen Telefonband von 300 Hz bis 3,4 kHz Im Fall von mehr als zwei Teilbändern können die Betrachtungen, die sich auf die dynamische Bitzuteilung beziehen, unmittelbar verallgemeinert werden.
Claims (12)
1. Verfahren zum Kodieren/Dekodieren von Audiosignalen mit Hilfe
von Analyse-durch-Synthese-Techniken, bei dem kodierungsseitig
das Audiosignal in Blöcken [s(n)] von digitalen Abtastwerten
organisiert wird und für jeden Abtastwert-Block [s(n)] die
Synthesefilterung für die Gruppe der Erregungssignale (ex) und
die Wahrnehmungs-Gewichtungsfilterung des Eingangssignals und
der synthetisierten Signale durchgeführt werden, indem man die
Spektralparameter der Synthese- und Gewichtungsfilter (SP, 5P3,
FP, SYC) mit Rückwärtsvorhersage-Techniken anpasst, ausgehend
von einem rekonstruierten Audiosignal, das als Ergebnis der
Synthesefilterung eines Optimum-Erregungssignals erhalten wird,
und dekodierungsseitig das Audiosignal rekonstruiert wird,
indem man das in der Kodierungsphase identifizierte Optimum-
Erregungssignal (exo) einer Synthesefilterung unterwirft,
während derer die Spektralparameter des Synthesefilters (SYD)
mit Rückwärts-Vorhersagetechniken angepasst werden, und zwar
in einer Weise, die der in der Kodierungsphase durchgeführten
Anpassung entspricht, dadurch gekennzeichnet, dass für jeden
zu kodierenden Block von Abtastwerten oder für jedes zu
dekodierende Signal auch eine Anpassung der Vorhersage-Ordnung der
Synthesefilter (SP, SP3, SYC, SYD) sowohl kodierungsseitig als
auch dekodierungsseitig, ebenso wie eine Anpassung der
Vorhersage-Ordnung der Wahrnehmungs-Gewichtungsfilter (SP, SP3, FP)
kodierungsseitig durchgeführt wird, und zwar ausgehend von den
Spektralcharakteristiken des rekonstruierten Signals relativ
zum vorhergehenden Block von Abtastwerten; wobei die Anpassung
der Vorhersage-Ordnung mit den folgenden Operationen bewirkt
wird:
a) in Funktion der Vorhersage-Ordnung und bis zu einer
vorgegebenen Maximal-Ordnung, Berechnen der
Vorhersage-Verstärkung der Synthesefilter (SYC, SYD), die das
rekonstruierte Signal erzeugen, und ihrer inkrementellen
Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um
eine Einheit erhöht wird, wobei diese
Vorhersage-Verstärkungen
jeweils durch die folgenden Beziehungen
gegeben sind:
wobei KJ die Reflexionskoeffizienten eines den Stimmtrakt
modellierenden akustischen Rohrs sind;
b) in einem Intervall der Vorhersage-Ordnung zwischen einer
Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der
Werte, für die die inkrementelle Vorhersage-Verstärkung
G (p/p-1) ein relatives Maximum aufweist und höher ist
als eine erste vorgegebene Schwelle;
c1) Durchführen der Synthese- und Gewichtungsfilterungen mit
der höchsten Vorhersage-Ordnung unter den im Schritt (b)
bestimmten Ordnungen, wenn die der Maximum-Vorhersage-
Ordnung entsprechende Vorhersage-Verstärkung nicht
niedriger ist als eine zweite vorgegebene Schwelle;
c2) Durchführen der Synthese- und Gewichtungsfilterungen
unter Verwendung der Minimum-Vorhersage-Ordnung, wenn die
der Maximum-Vorhersage-Ordnung entsprechende Vorhersage-
Verstärkung niedriger ist als die zweite vorgegebene
Schwelle.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die
Anpassung der spektralen Filterparameter mit adaptiven
Gittertechniken durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass
die Erregungssignale (ex) aus Vektoren bestehen, die vor der
Synthesefilterung mit einer Verstärkung multipliziert werden,
die aus einem ersten Faktor βv, der für den Vektor typisch ist,
und einem zweiten Faktor βm, der die mittlere Leistung im zu
kodierenden signals berücksichtigt, besteht; und dass für jeden
Block von zu kodierenden Abtastwerten oder für jedes zu
dekodierende
kodierte Signal auch eine Anpassung des zweiten
Faktors βm mit adaptiven Gittertechniken durchgeführt wird,
ausgehend vom Optimum-Erregungsvektor (exo), der mit der
gesamten Verstärkung multipliziert ist, für das Kodieren des
vorhergehenden Blocks von Abtastwerten identifiziert ist oder
zum Dekodieren eines vorhergehenden Signals verwendet worden
ist.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die
zu kodierenden Signale Breitbandsignale (50 Hz - 7 kHz) sind
und das Band in wenigstens zwei Teilbänder unterteilt ist,
deren Signale getrennt kodiert werden, dadurch gekennzeichnet,
dass die Kodierbits den verschiedenen Teilbändern dynamisch so
zugeteilt werden, dass die Gesamtverzerrung minimalisiert wird,
unter Berücksichtigung der durch die
Wahrnehmungs-Gewichtungsfilterung eingeführten Verzerrung.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die
Minimum-Vorhersage-Ordnung für das obere Teilband zwischen 5
und 8 liegt und für das untere Teilband zwischen 10 und 15
liegt, und dass die Maximum-Vorhersage-Ordnung zwischen 15 und
20 bzw. zwischen 50 und 60 liegt.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch
gekennzeichnet, dass die erste Schwelle zwischen 1,001 und 1,01 und
die zweite Schwelle zwischen 1 und 2 liegt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die
Werte der ersten Schwelle und der zweiten Schwelle innerhalb
der zweiten Hälfte der jeweiligen Intervalle liegen.
8. Vorrichtung zum Kodieren/Dekodieren von Audiosignalen mit Hilfe
von Analyse-durch-Synthese-Techniken, bei der den
Synthesefiltern (SP, SP3, SYC, SYD) im Kodierer (CDA, CDB) und im
Dekodierer (DA, DB) und den Wahrnehmungs-Gewichtungsfiltern
(SP, SP3, FP) im Kodierer (CDA, CDB) Einheiten (ACC, ACD) zur
Anpassung von Spektralparametern zugeordnet sind, die die
Anpassung jedes Blocks von Abtastwerten des zu kodierenden
Audiosignals oder für jedes zu kodierende Signal für die
Rekonstruktion eines Blocks von Abtastwerten durchführen,
dadurch gekennzeichnet, dass die Anpassungseinheiten (ACC, ACD)
für die Spektralparameter außerdem die für einen Block von zu
kodierenden Abtastwerten bzw. für ein zu dekodierendes Signal
bestimmten Parameter an eine Anpassungseinheit (APC, APD) der
Vorhersage-Ordnung der Synthesefilter und der Wahrnehmungs-
Gewichungsfilter (FP, SP, SP3, SYC, SYD) liefern, wobei diese
Einheit diese Vorhersage-Ordnung, ausgehend von den
Spektralcharakteristiken des rekonstruierten Signals, relativ zu dem
vorhergehenden Block von Abtastwerten fortschreibt, mit den
folgenden Operationen:
a) als Funktion der Vorhersage-Ordnung und bis zu einer
vorgegebenen Maximal-Ordnung, Berechnen der Vorhersage-
Verstärkung der Synthesefilter (SYC, SYD), die das
rekonstruierte Signal erzeugen, und ihrer inkrementellen
Vorhersage-Verstärkung, wenn die Vorhersage-Ordnung um
eine Einheit erhöht wird, wobei diese
Vorhersage-Verstärkungen jeweils durch die folgenden Beziehungen
gegeben sind:
wobei KJ die Reflexionskoeffizienten des akustischen
Rohrs sind;
b) in einem Intervall der Vorhersage-Ordnung zwischen einer
Minimum-Ordnung und der Maximum-Ordnung, Bestimmen der
Werte, für die die inkrementelle Vorhersage-Verstärkung
G (p/p-1) ein relatives Maximum aufweist und höher ist
als eine erste vorgegebene Schwelle;
c1) Durchführen der Synthese- und Gewichtungsfilterung mit
der höchsten Vorhersage-Ordnung unter den im Schritt b)
bestimmten Ordnungen, wenn die der Maximum-Vorhersage-
Ordnung entsprechende Vorhersage-Verstärkung nicht
niedriger ist als eine zweite vorgegebene Schwelle;
c2) Durchführen der Synthese- und Gewichtungsfilterung unter
Verwendung der Minimum-Vorhersage-Ordnung, wenn die der
Maximum-vorhersage-ordnung entsprechende
Vorhersage-Verstärkung niedriger ist als die zweite vorgegebene Schwel
le.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die
Filter (SP, SP3, FP, SYC, SYD) Gitterfilter sind und die
Anpassungseinheiten (ACC, ACD) für die Spektralparameter die
Reflexionskoeffizienten des akustischen Rohrs, die mit
adaptiven Gittertechniken bestimmt sind, liefern.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet,
dass die Synthesefilter (SP, SP3, SYC, SYD) im Kodierer (CDA,
CDB) und im Dekodierer (DA, DB) als Erregungssignale Vektoren
empfangen, die mit einer Verstärkung multipliziert sind, die
aus einem ersten Faktor βv, der für den Vektor typisch ist, und
einem zweiten Faktor βm, der die mittlere Leistung des zu
kodierenden Signals berücksichtigt, besteht; und dass eine
Einrichtung (AGC, AGD) vorhanden ist zum Anpassen des zweiten
Faktors mit adaptiven Gittertechniken für jeden zu
kodierenden Block von Abtastwerten oder für jedes zu dekodierende
kodierte Signal, ausgehend vom Optimum-Erregungsvektor (exo),
der mit der gesamten Verstärkung multipliziert ist, zum
Kodieren des vorhergehenden Blocks von Abtastwerten identifiziert
ist oder zum Dekodieren eines vorhergehenden Signals verwendet
worden ist.
11. Vorrichtung nach einem der Ansprüche 8 bis 10 zum Kodieren von
Breitbandsignalen (50 Hz - 7 kHz), mit einer Einrichtung (FQA1,
FQB1) zum Teilen des Signalbands in wenigstens zwei Teilbänder
und mit individuellen Kodierern (CDA, CDB) und Dekodierern (DA,
DB) für jedes Teilband, dadurch gekennzeichnet, dass die
Gewichtungs- und Synthesefilter (SYC, SYD, SP, SP3, FP) im
Kodierer und im Dekodierer des oberen Bands (CDA, DA) eine
Vorhersage-Ordnung aufweisen, die durch die Vorhersage-Ordnung-
Anpassungseinheit (APC, APD) zwischen einem Minimumwert von 5
bis 8 und einem Maximumwert von 15 bis 20 verändert wird, und
dass die Gewichtungs- und Synthesefilter (SYC, SYD, SP, SP3,
FP) im Kodierer und im Dekodierer des unteren Bands (CDB, DB)
eine Vorhersage-Ordnung aufweisen, die durch die Vorhersage-
Ordnung-Anpassungseinheit (APC, APD) zwischen einem Minimumwert
von 10 bis 15 und einem Maximumwert von 50 bis 60 verändert
wird.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass den
Kodierern (CDA, CDB) der verschiedenen Teilbänder eine
Einrichtung (UAD) zum dynamischen Verteilen der Kodierbits unter
den Teilbändern für jeden zu kodlerenden Block von Abtastwerten
zugeordnet ist, um so die Gesamtverzerrung auch unter
Berücksichtigung der von den Wahrnehmungs-Gewichtungsfiltern
eingeführten Verzerrung zu minimalisieren.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ITTO920658A IT1257065B (it) | 1992-07-31 | 1992-07-31 | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69317958D1 DE69317958D1 (de) | 1998-05-20 |
| DE69317958T2 true DE69317958T2 (de) | 1998-09-17 |
Family
ID=11410652
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE0582921T Pending DE582921T1 (de) | 1992-07-31 | 1993-07-30 | Kodierer von Tonsignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken. |
| DE69317958T Expired - Fee Related DE69317958T2 (de) | 1992-07-31 | 1993-07-30 | Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE0582921T Pending DE582921T1 (de) | 1992-07-31 | 1993-07-30 | Kodierer von Tonsignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken. |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US5321793A (de) |
| EP (1) | EP0582921B1 (de) |
| JP (1) | JPH0683395A (de) |
| AT (1) | ATE165183T1 (de) |
| CA (1) | CA2101700C (de) |
| DE (2) | DE582921T1 (de) |
| ES (1) | ES2068172T3 (de) |
| GR (2) | GR950300011T1 (de) |
| IT (1) | IT1257065B (de) |
Families Citing this family (32)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69309557T2 (de) * | 1992-06-29 | 1997-10-09 | Nippon Telegraph & Telephone | Verfahren und Vorrichtung zur Sprachkodierung |
| AU675322B2 (en) * | 1993-04-29 | 1997-01-30 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
| US5550543A (en) * | 1994-10-14 | 1996-08-27 | Lucent Technologies Inc. | Frame erasure or packet loss compensation method |
| FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
| JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
| FR2742568B1 (fr) * | 1995-12-15 | 1998-02-13 | Catherine Quinquis | Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application |
| JP3092653B2 (ja) * | 1996-06-21 | 2000-09-25 | 日本電気株式会社 | 広帯域音声符号化装置及び音声復号装置並びに音声符号化復号装置 |
| US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
| GB2318029B (en) * | 1996-10-01 | 2000-11-08 | Nokia Mobile Phones Ltd | Audio coding method and apparatus |
| JP3266178B2 (ja) * | 1996-12-18 | 2002-03-18 | 日本電気株式会社 | 音声符号化装置 |
| EP0878790A1 (de) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Sprachkodiersystem und Verfahren |
| SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
| FI116992B (fi) | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
| US7260523B2 (en) * | 1999-12-21 | 2007-08-21 | Texas Instruments Incorporated | Sub-band speech coding system |
| SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
| US7050545B2 (en) * | 2001-04-12 | 2006-05-23 | Tallabs Operations, Inc. | Methods and apparatus for echo cancellation using an adaptive lattice based non-linear processor |
| US8605911B2 (en) | 2001-07-10 | 2013-12-10 | Dolby International Ab | Efficient and scalable parametric stereo coding for low bitrate audio coding applications |
| SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
| EP1423847B1 (de) | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Wiederherstellung von hochfrequenzkomponenten |
| SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
| US7619995B1 (en) * | 2003-07-18 | 2009-11-17 | Nortel Networks Limited | Transcoders and mixers for voice-over-IP conferencing |
| EP1851866B1 (de) * | 2005-02-23 | 2011-08-17 | Telefonaktiebolaget LM Ericsson (publ) | Adaptive bitzuweisung für die mehrkanal-audiokodierung |
| PL2118889T3 (pl) * | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
| EP2227682A1 (de) * | 2007-11-06 | 2010-09-15 | Nokia Corporation | Ein kodierer |
| EP2212884B1 (de) * | 2007-11-06 | 2013-01-02 | Nokia Corporation | Codierer |
| CN102007534B (zh) * | 2008-03-04 | 2012-11-21 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
| RU2475868C2 (ru) * | 2008-06-13 | 2013-02-20 | Нокиа Корпорейшн | Способ и устройство для маскирования ошибок кодированных аудиоданных |
| RU2586841C2 (ru) * | 2009-10-20 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему |
| US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
| US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
| US9626983B2 (en) | 2014-06-26 | 2017-04-18 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
| NZ728080A (en) | 2014-07-29 | 2018-08-31 | Ericsson Telefon Ab L M | Estimation of background noise in audio signals |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5921039U (ja) * | 1982-07-30 | 1984-02-08 | いすゞ自動車株式会社 | 内燃機関 |
| JPS6097743A (ja) * | 1983-11-02 | 1985-05-31 | Canon Inc | 適応型線形予測装置 |
| CA2005115C (en) * | 1989-01-17 | 1997-04-22 | Juin-Hwey Chen | Low-delay code-excited linear predictive coder for speech or audio |
| JPH02214899A (ja) * | 1989-02-15 | 1990-08-27 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
| IT1232084B (it) * | 1989-05-03 | 1992-01-23 | Cselt Centro Studi Lab Telecom | Sistema di codifica per segnali audio a banda allargata |
| JP2939999B2 (ja) * | 1989-05-24 | 1999-08-25 | 日本電気株式会社 | 可変長フレーム型ボコーダ |
| IT1241358B (it) * | 1990-12-20 | 1994-01-10 | Sip | Sistema di codifica del segnale vocale con sottocodice annidato |
| US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
-
1992
- 1992-07-31 IT ITTO920658A patent/IT1257065B/it active IP Right Grant
-
1993
- 1993-05-21 US US08/065,990 patent/US5321793A/en not_active Expired - Fee Related
- 1993-06-15 JP JP5167370A patent/JPH0683395A/ja active Pending
- 1993-07-30 EP EP93112293A patent/EP0582921B1/de not_active Expired - Lifetime
- 1993-07-30 DE DE0582921T patent/DE582921T1/de active Pending
- 1993-07-30 CA CA002101700A patent/CA2101700C/en not_active Expired - Fee Related
- 1993-07-30 ES ES93112293T patent/ES2068172T3/es not_active Expired - Lifetime
- 1993-07-30 DE DE69317958T patent/DE69317958T2/de not_active Expired - Fee Related
- 1993-07-30 AT AT93112293T patent/ATE165183T1/de active
-
1995
- 1995-03-31 GR GR950300011T patent/GR950300011T1/el unknown
-
1998
- 1998-04-16 GR GR980400728T patent/GR3026673T3/el unknown
Also Published As
| Publication number | Publication date |
|---|---|
| CA2101700C (en) | 1997-02-25 |
| EP0582921A3 (de) | 1995-01-04 |
| IT1257065B (it) | 1996-01-05 |
| DE69317958D1 (de) | 1998-05-20 |
| ES2068172T3 (es) | 1998-06-01 |
| ES2068172T1 (es) | 1995-04-16 |
| ITTO920658A1 (it) | 1994-01-31 |
| US5321793A (en) | 1994-06-14 |
| DE582921T1 (de) | 1995-06-08 |
| ITTO920658A0 (it) | 1992-07-31 |
| ATE165183T1 (de) | 1998-05-15 |
| GR3026673T3 (en) | 1998-07-31 |
| CA2101700A1 (en) | 1994-02-01 |
| GR950300011T1 (en) | 1995-03-31 |
| EP0582921B1 (de) | 1998-04-15 |
| EP0582921A2 (de) | 1994-02-16 |
| JPH0683395A (ja) | 1994-03-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69317958T2 (de) | Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken | |
| DE69608947T2 (de) | Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals | |
| DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
| DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
| DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
| DE69219718T2 (de) | Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit | |
| EP2022043B1 (de) | Informationssignalcodierung | |
| DE602004010188T2 (de) | Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal | |
| EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
| DE60013785T2 (de) | VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION | |
| DE60207061T2 (de) | Audiokompression | |
| DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
| DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
| DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
| DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
| DE60214027T2 (de) | Kodiervorrichtung und dekodiervorrichtung | |
| DE69633944T2 (de) | Verfahren und gerät zum kodieren von digitalen daten | |
| DE69810361T2 (de) | Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung | |
| DE602004006211T2 (de) | Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem | |
| DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
| DE69028434T2 (de) | System zur Codierung von Breitbandaudiosignalen | |
| EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
| DE69533259T2 (de) | Nichtlineares quantisieren eines informationssignales | |
| DE19742655A1 (de) | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals | |
| DE68913691T2 (de) | System zur Sprachcodierung und -decodierung. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |