DE60309651T2 - Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens - Google Patents

Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens Download PDF

Info

Publication number
DE60309651T2
DE60309651T2 DE60309651T DE60309651T DE60309651T2 DE 60309651 T2 DE60309651 T2 DE 60309651T2 DE 60309651 T DE60309651 T DE 60309651T DE 60309651 T DE60309651 T DE 60309651T DE 60309651 T2 DE60309651 T2 DE 60309651T2
Authority
DE
Germany
Prior art keywords
signal
filter
block
frame
subframe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60309651T
Other languages
English (en)
Other versions
DE60309651D1 (de
Inventor
Balaes Kovesi
Dominique Massaloux
Claude Lamblin
Yang Mission Viejo GAO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Mindspeed Technologies LLC
Original Assignee
France Telecom SA
Mindspeed Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA, Mindspeed Technologies LLC filed Critical France Telecom SA
Application granted granted Critical
Publication of DE60309651D1 publication Critical patent/DE60309651D1/de
Publication of DE60309651T2 publication Critical patent/DE60309651T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

  • Die vorliegende Erfindung betrifft die Codierung durch Verfahren, die Sprachcodierung nach dem Prinzip der verallgemeinerten Analyse durch Synthese verwenden, und spezieller das unter der Bezeichnung Relaxed Code-Excited Linear Prediction (RCELP) bekannte Verfahren und Ähnliches.
  • Eine umfangreiche Klasse von Paradigmen der Sprachcodierung beruht auf dem Konzept der prädiktiven Codierung. Prädiktive Sprachcodierer werden von Kommunikations- und Speichersystemen mit mittleren bis niedrigen Bitraten sehr häufig verwendet.
  • Die gebräuchlichste und praktischste Vorgehensweise zur prädiktiven Sprachcodierung ist das Schema der linearen Prädiktion (Linear Prediction, LP), bei welchem die aktuellen Signalwerte durch eine Linearkombination der zuvor gesendeten und decodierten Signalabtastwerte geschätzt werden. Zunächst wurde eine kurzzeitige (Short-Term, ST) lineare Prädiktion, welche eng mit der Spektralform des Eingangssignals zusammenhängt, für die Codierung von Sprache verwendet. Darüber hinaus wurde eine langzeitige (Long-Term, LT) lineare Prädiktion eingeführt, um die harmonische Struktur des Sprachsignals zu erfassen, insbesondere für stimmhafte Sprachsegmente.
  • Der Ansatz "Analyse durch Synthese" (Analysis-by-Synthesis, AbS) hat effiziente Mittel für eine optimale Analyse und Codierung des Restfehlersignals der kurzzeitigen LP zur Verfügung gestellt, welche die langzeitige lineare Prädiktion und eine Codebook-Excitation-Suche (Codebuch-Anregungs-Suche) verwenden. Das Schema der AbS ist die Grundlage für eine umfangreiche Familie von Sprachcodierern, darunter Code-Excited Linear Prediction (CELP) Codierer und Vocoder mit Selbsterregung (Self-Excited Vocoders) (A. Gersho, "Advances in Speech and Audio Compression", Proc. of the IEEE, Bd. 82, Nr. 6, S. 900–918, Juni 1994).
  • Die Langzeit-LP-Analyse, auch als "Pitch-Prädiktion" bezeichnet, am Codierer und die Langzeit-LP-Synthese am Decoder haben sich im Einklang mit den erzielten Fortschritten bei den Sprachcodierungsverfahren weiter entwickelt. Zunächst als ein Single-Tap-Filter (Filter mit einem Abgriff) modelliert, wurde die Langzeit-LP dahingehend erweitert, dass Multi-Tap-Filter (Filter mit mehreren Abgriffen) verwendet werden (R.P. Ramachandran und P. Kabal, "Stability and Performance Analysis of Pitch Filters in Speech Coders", IEEE Trans. on ASSP, Bd. 35, Nr. 7, S. 937–948, Juli 1987). Danach wurden "partielle Verzögerungen" (Fractional Delays) eingeführt, unter Verwendung von Oversampling und Subsampling mit Interpolationsfiltern (P. Kroon und B.S. Atal, "Pitch Predictors with High Temporal Resolution", Proc. ICASSP Bd. 2, April 1990, S. 661–664).
  • Diese Verallgemeinerungen des ursprünglichen Single-Tap-Filters waren dazu bestimmt, die Erfassung der Langzeit-Redundanzen zu verbessern, die durch die glottale Quelle bei stimmhafter Sprache hervorgerufen werden. Je besser die Langzeitanpassung und je besser die LP-Anregungs-Codierung ist, desto besser ist die Leistungsfähigkeit insgesamt. Die Genauigkeit der Anpassung kann auch durch häufige Auffrischungen der Langzeitparameter verbessert werden. Ein Multi-Tap-Langzeit-Prädiktor oder eine höhere Aktualisierungsrate für die Langzeitfilter erfordert jedoch die Übertragung einer großen Anzahl von Bits für ihre Darstellung und bewirkt eine beträchtliche Erhöhung der Bitrate. Diese Kosten können im Falle von Codierern mit niedriger Bitrate unzulässig hoch werden, so dass hier andere Lösungen erforderlich werden.
  • Um einige der Einschränkungen des oben beschriebenen Ansatzes für die Langzeitprädiktion zu überwinden, wurde das Konzept der Codierung nach dem Prinzip der Verallgemeinerten Analyse durch Synthese (Generalized Analysis-by-Synthesis Coding) eingeführt (W.E. Kleijn et al., "Generalized Analysis-by-Synthesis Coding and its Application to Pitch Prediction", Proc. ICASSP, Bd. 1, 1992, S. 337–340). Bei diesem Schema wird das ursprüngliche Signal vor dem Codieren modifiziert, mit der Nebenbedingung, dass das modifizierte Signal dem ursprünglichen Signal perzeptual nahe kommt oder mit diesem identisch ist. Die Modifikation erfolgt derart, dass die Parameter des Codierers, genauer, die Parameter der Pitch-Prädiktion, Nebenbedingungen unterworfen werden, um sie an eine spezifische Grundperioden-Kontur (Pitch-Kontur) anzupassen. Die Pitch-Kontur wird durch Interpolation der Parameter der Pitch-Prädiktion erhalten, die Frame für Frame erfolgt, unter Verwendung einer Darstellung mit niedriger Auflösung für den Pitch-Lag, was die für die Darstellung der Parameter der Langzeitprädiktion benötigte Bitrate begrenzt.
  • Die Modifikation, die zur Anpassung an die Pitch-Kontur vorgenommen wird, wird Zeitskalamodifikation oder "Zeitanpassung" (Time Warping) genannt (W.E. Kleijn et al., "Interpolation of the Pitch Predictor Parameters in Analysis-by-Synthesis Speech Coders", IEEE Trans. on SAP, Bd. 2, Nr. 1, Teil I, Januar 1994, S. 42–54). Das Ziel der Prozedur der Zeitskalamodifikation ist es, die hauptsächlichen Merkmale des ursprünglichen Signals mit denjenigen des Beitrags der Langzeitprädiktion zum Anregungssignal in Einklang zu bringen.
  • RCELP-Codierer sind von den herkömmlichen CELP-Codierern unter Verwendung des oben beschriebenen Konzepts der Verallgemeinerten Analyse durch Synthese in Anwendung auf die Pitch-Parameter abgeleitet, wie in W.B. Kleijn et al., "The RCELP Speech-Coding Algorithm", European Trans. in Telecommunications, Bd. 4, Nr. 5, September-Oktober 1994, S. 573–582 beschrieben ist.
  • Die Hauptmerkmale der RCELP-Codierer sind folgende. Wie bei CELP-Codierern werden zuerst Kurzzeit-LP-Koeffizienten geschätzt (im Allgemeinen einmal in jedem Frame, manchmal mit zwischenzeitlichen Auffrischungen). Die Frame-Länge kann normalerweise zwischen 10 und 30 ms variieren. In RCELP-Codierern wird die Grundperiode (Pitch-Periode) ebenfalls Frame für Frame geschätzt, mit einem robusten Algorithmus der Pitch-Detektion. Danach wird eine Grundperioden-Kontur (Pitch-Kontur) durch Interpolieren der Frame für Frame ermittelten Grundperioden erhalten. Das ursprüngliche Signal wird so modifiziert, dass es an diese Pitch-Kontur angepasst ist. Bei älteren Implementierungen (US-Patentschrift Nr. 5,704,003) wurde dieser Prozess der Zeitskalamodifikation an dem Restfehlersignal der Kurzzeit-LP durchgeführt. Eine bevorzugte Lösung ist jedoch, ein perzeptual gewichtetes Eingangssignal zu verwenden, das durch Filtern des Eingangssignals durch ein perzeptuales Gewichtungsfilter erhalten wird, wie in J. Thyssen et al., "A candidate for the ITU-T 4 kbit/s Speech Coding Standard", PROC. ICASSP, Bd. 2, Salt Lake City, Utah, USA, Mai 2001, S. 681–684, oder in Yang Gao et al., "EX-CELP: A Speech Coding Paradigm", PROC. ICASSP, Bd. 2, Salt Lake City, Utah, USA, Mai 2001, S. 689–893 beschrieben ist.
  • Das modifizierte Sprachsignal kann dann durch inverses Filtern unter Verwendung des inversen Vorverarbeitungs-Filters erhalten werden, während die nachfolgenden Codierungsvorgänge mit denjenigen identisch sein können, die in einem herkömmlichen CELP-Codierer ausgeführt werden.
  • Es ist anzumerken, dass das modifizierte Eingangssignal tatsächlich in Abhängigkeit von der Art der Filterung, die vor der Zeitskalamodifikation durchgeführt wird, und in Abhängigkeit von der in dem CELP-Codierer, welcher sich dem Zeitskalamodifikations-Modul anschließt, gewählten Struktur berechnet werden kann.
  • Wenn das perzeptuale Gewichtungsfilter, das für die feste Codebuchsuche des CELP-Codierers verwendet wird, die Form A(z)/A(z/γ) hat, wobei A(z) das LP-Filter und γ ein Gewichtungsfaktor ist, beinhaltet die Ziel-Berechnung nur eine rekursive Filterung. Für die Codebuchsuche wird daher nur das Restfehlersignal benötigt. Im Falle der RCELP-Codierung ist eine Berechnung des modifizierten ursprünglichen Signals möglicherweise nicht erforderlich, falls die Zeitskalamodifikation an diesem Restfehlersignal durchgeführt worden ist. Perzeptuale Gewichtungsfilter der Form A(z/γ1)/A(z/γ2) mit Gewichtungsfaktoren γ1 und γ2 liefern bekanntlich eine bessere Leistung, und insbesondere adaptive perzeptuale Filter, d.h. mit variablen γ1 und γ2, wie in der US-Patentschrift Nr. 5,845,244 beschrieben ist. Wenn solche Gewichtungsfilter in der CELP-Prozedur verwendet werden, werden durch die Zielberechnung zwei rekursive Filter eingeführt.
  • Bei vielen CELP-Strukturen (z.B. R. Salami et al., "Design and description of CS-ACELP: a toll quality 8 kb/s speech coder", IEEE Trans. on Speech and Audio Processing, Bd. 6, Nr. 2, März 1998) speist der Prozess der Zwischenfilterung das aktuelle Restfehlersignal in das LP-Synthesefilter mit dem vergangenen gewichteten Fehlersignal als Speicher ein. Das Eingangssignal wird sowohl in die Berechnung des Restfehlers als auch in die Aktualisierung des Fehlersignals am Ende der Frame-Verarbeitung einbezogen.
  • Im Falle von RCELP führt eine geradlinige Implementierung dieses Schemas zu der Notwendigkeit, den modifizierten ursprünglichen Eingang zu berechnen. Es können jedoch äquivalente Schemata abgeleitet werden, bei denen das modifizierte Eingangssignal nicht benötigt wird. Diese basieren auf der Verwendung entweder des modifizierten Restfehlersignals, falls eine Zeitskalamodifikation auf das Restfehlersignal angewendet wurde, oder des modifizierten gewichteten Eingangs, falls die Zeitskalamodifikation auf die gewichtete Sprache angewendet wurde.
  • In der Praxis berechnen die meisten RCELP-Codierer nicht wirklich das modifizierte ursprüngliche Signal unter Verwendung der oben dargestellten Art von Struktur.
  • Ein Blockschaltbild eines bekannten RCELP-Codierers ist in 1 dargestellt. Ein Analysemodul 1 der linearen prädiktiven Codierung (LPC) verarbeitet zuerst das Eingangsaudiosignal S, um LPC-Parameter zu liefern, die von einem Modul 2 verwendet werden, um die Koeffizienten des Vorverarbeitungs-Filters 3 zu berechnen, dessen Übertragungsfunktion mit F(z) bezeichnet wird. Dieses Filter 3 empfängt das Eingangssignal S und führt ein vorverarbeitetes Signal FS einem Pitch-Analysemodul 4 zu. Die so geschätzten Pitch-Parameter werden von einem Modul 5 verarbeitet, um eine Pitch-Trajektorie abzuleiten.
  • Der gefilterte Eingang FS in ein Zeitskalamodifikations-Modul 6 eingespeist, welches auf der Basis der vom Modul 5 erhaltenen Pitch-Trajektorie das modifizierte gefilterte Signal MFS liefert. Auf das modifizierte gefilterte Signal MFS wird eine inverse Filterung unter Verwendung eines Filters 7 mit der Übertragungsfunktion F(z)–1 angewendet, was ein modifiziertes Eingangssignal MS liefert, das in einen herkömmlichen CELP-Codierer 8 eingespeist wird.
  • Der Strom digitaler Ausgangsdaten Φ des RCELP-Codierers, der von einem Multiplexer 9 zusammengesetzt wird, enthält normalerweise Quantifizierungsdaten für die LPC-Parameter und den Pitch-Lag, die von den Modulen 1 und 4 berechnet wurden, CELP-Codebuch-Indizes, die von dem Codierer 8 erhalten wurden, und Quantifizierungsdaten für mit der Langzeitprädiktion und der CELP-Anregung zusammenhängende Verstärkungen, die ebenfalls von dem Codierer 8 erhalten wurden.
  • Anstelle einer Funktion 7 der direkten inversen Filterung kann eine Konvertierung des modifizierten gefilterten Signals in einen anderen Wertebereich durchgeführt werden. Diese Bemerkung gilt für den hier erörterten Stand der Technik und auch für die vorliegende Erfindung, die weiter unten erörtert wird. Beispielsweise kann ein solcher Wertebereich der Restsignalbereich (Residual Domain) sein, wobei das inverse Vorverarbeitungs-Filter F(z)–1 in Verbindung mit einer anderen Verarbeitung verwendet wird, wie etwa der Kurzzeit-LP-Filterung des CELP-Codierers. Um das Problem konkreter zu fassen, wird in der nachfolgenden Erörterung der Fall betrachtet, in dem das modifizierte Eingangssignal tatsächlich berechnet wird, d.h. wenn das inverse Vorverarbeitungs-Filter 7 explizit verwendet wird.
  • Bei den meisten AbS-Sprachcodierungsverfahren wird die Sprachverarbeitung an Sprach-Frames durchgeführt, die eine typische Länge von 5 bis 30 ms aufweisen, welche der Periode der Kurzzeit-LP-Analyse entspricht. Innerhalb eines Frames wird das Signal als stationär angenommen, und die mit dem Frame verknüpften Parameter werden konstant gehalten. Dies gilt normalerweise auch für das Filter F(z), und die Koeffizienten desselben werden daher Frame für Frame aktualisiert. Es ist klar, dass die LP-Analyse mehr als einmal in einem Frame durchgeführt werden kann, und dass das Filter F(z) auch Subframe für Subframe variieren kann. Dies ist zum Beispiel der Fall, wenn eine Interpolation der LP-Filter innerhalb eines Frames angewendet wird.
  • Im Folgenden wird der Begriff "Block" als der Periodizität der Aktualisierung der Parameter des Vorverarbeitungs-Filters entsprechend verwendet. Für Fachleute ist klar, dass ein solcher "Block" normalerweise aus einem LP-Analyse-Frame, einem Subframe eines solchen LP-Analyse-Frames usw. bestehen kann, in Abhängigkeit von der Architektur des Codecs.
  • Die zu einem linearen Filter gehörende Verstärkung ist als das Verhältnis der Energie seines Ausgangssignals zur Energie seines Eingangssignals definiert. Es ist klar, dass eine hohe Verstärkung eines linearen Filters einer niedrigen Verstärkung des inversen linearen Filters entspricht, und umgekehrt.
  • Es kann der Fall eintreten, dass die Vorverarbeitungs-Filter 3, die für zwei aufeinanderfolgende Blöcke berechnet wurden, signifikant unterschiedliche Verstärkungen aufweisen, während die Energien der ursprünglichen Sprache S in beiden Blöcken ähnlich sind. Da die Filterverstärkungen verschieden sind, sind die Energien der gefilterten Signale FS für die zwei Blöcke ebenfalls signifikant verschieden. Ohne Zeitskalamodifikation werden alle Samples (Stichproben) des gefilterten Blockes mit höherer Energie einer inversen Filterung durch das inverse lineare Filter 7 mit niedrigerer Verstärkung unterzogen, während alle Samples des gefilterten Blockes mit niedrigerer Energie einer inversen Filterung durch das inverse lineare Filter 7 mit höherer Verstärkung unterzogen werden. In diesem Falle spiegelt das Energieprofil des modifizierten Signals MS das der Eingangssprache S korrekt wider.
  • Die Prozedur der Zeitskalamodifikation bewirkt jedoch, dass in der Nähe der Blockgrenze ein Abschnitt eines ersten Blockes, welcher mehrere Samples (Stichproben) enthalten kann, zu einem zweiten, benachbarten Block verschoben werden kann. Die Samples in dem betreffenden Abschnitt des ersten Blockes werden dann von einem für den zweiten Block berechneten inversen Filter gefiltert, welches eine signifikant verschiedene Verstärkung aufweisen könnte. Falls Samples eines modifizierten gefilterten Signals MFS von hoher Energie somit einem inversen Filter 7 zugeführt werden, das eine hohe Verstärkung anstelle einer niedrigen Verstärkung aufweist, tritt eine plötzliche Energieerhöhung in dem modifizierten Signal auf. Ein Zuhörer nimmt eine solche Energieerhöhung als ein unangenehmes "Klick"-Geräusch wahr.
  • 2 veranschaulicht dieses Problem, wobei N eine Blocknummer, gd(N) die Verstärkung des Vorverarbeitungs-Filters 3 für Block N und gi(N) = 1/gd(N) die Verstärkung des inversen Filters 7 für Block N bezeichnet.
  • Eine Aufgabe der vorliegenden Erfindung ist es, eine Lösung bereitzustellen, um die oben erörterte Fehlanpassung zwischen inversen Vorverarbeitungs-Filtern (die explizit oder implizit vorhanden sind) und dem einer Zeitskalamodifikation unterzogenen Signal zu vermeiden, wobei diese Lösung durch den unabhängigen Verfahrensanspruch 1 und den unabhängigen Vorrichtungsanspruch 9 beschrieben wird.
  • Die vorliegende Erfindung wird auf der Codiererseite eines Sprachcodecs verwendet, der eine Vorgehensweise vom Typ EX-CELP oder RCELP anwendet, wobei das Eingangssignal durch einen Prozess der Zeitskalamodifikation modifiziert wurde. Die Zeitskalamodifikation wird auf eine perzeptual gewichtete Version des Eingangssignals angewendet. Danach wird das modifizierte gewichtete Signal in einen anderen Wertebereich konvertiert, z.B. zurück zum Sprachbereich oder zum Restsignalbereich (Residual Domain), wobei ein entsprechendes inverses Filter verwendet wird, direkt oder indirekt, z.B. kombiniert mit einem anderen Filter.
  • Die vorliegende Erfindung beseitigt Artefakte, die aus einer Fehlabstimmung zwischen der einer Zeitskalamodifikation unterzogenen Sprache und der Aktualisierung der Parameter des inversen Filters resultieren, indem die zeitliche Steuerung der Aktualisierungen des inversen Filters, das an der oben erwähnten Konvertierung in einen anderen Bereich beteiligt ist, angepasst wird.
  • Bei der Prozedur der Zeitskalamodifikation wird vorteilhafterweise eine Zeitverschiebungsfunktion berechnet, um die Blockgrenzen innerhalb des modifizierten gefilterten Signals festzulegen, an welchen die Aktualisierungen der Parameter des inversen Filters stattfinden sollen. Die Prozedur der Zeitskalamodifikation verschiebt im Allgemeinen diese Blockgrenzen bezüglich ihrer Positionen in dem ankommenden gefilterten Signal. Die Zeitverschiebungsfunktion berechnet die Positionen der Samples in dem modifizierten gefilterten Signal, welche den Blockgrenzen des ursprünglichen Signals entsprechen, um die Aktualisierungen der Parameter des inversen Vorverarbeitungs-Filters an den geeignetsten Positionen durchzuführen. Durch das Aktualisieren der Filterparameter an diesen Positionen wird die Synchronität zwischen dem inversen Filter und dem einer Zeitskalamodifikation unterzogenen gefilterten Signal aufrechterhalten, und die Artefakte werden beseitigt, wenn das modifizierte gefilterte Signal in den anderen wertebereich konvertiert wird.
  • Die Erfindung schlägt somit ein Sprachcodierungsverfahren mit den folgenden Schritten vor:
    • – Auswerten eines Eingangsaudiosignals zur Bestimmung eines entsprechenden Satzes von Filterparametern für jeden Block einer Folge von Blöcken des Audiosignals;
    • – Filtern des Eingangssignals durch ein perzeptuales Gewichtungsfilter, das für jeden Block durch den bestimmten Satz von Filterparametern zur Erzeugung eines perzeptual gewichteten Signals definiert wurde;
    • – Modifizieren einer Zeitskala des perzeptual gewichteten Signals auf Basis der Informationen über den grundlegenden Zeitraum des Signals zur Erzeugung eines modifizierten gefilterten Signals;
    • – Festlegen von Blockgrenzen innerhalb des modifizierten gefilterten Signals; und
    • – Verarbeiten des modifizierten gefilterten Signals, um Codierungsparameter zu erhalten.
  • Das letztgenannte Verarbeiten beinhaltet einen dem perzeptualen Gewichtungsfilter entsprechenden inversen Filtervorgang. Der inverse Filtervorgang wird durch die aufeinanderfolgenden Sätze von Filterparametern definiert, die an den festgelegten Blockgrenzen aktualisiert wurden.
  • Bei einer Ausführungsform des Verfahrens beinhaltet der Schritt des Auswertens des Eingangssignals eine lineare Prädiktionsanalyse, die auf aufeinanderfolgenden Signalframes ausgeführt wird, wobei jeder Frame aus einer Anzahl p von aufeinanderfolgenden Subframes (p ≥ 1) besteht. Jeder der "Blöcke" kann dann aus einem dieser Subframes bestehen. Der Schritt des Festlegens von Blockgrenzen beinhaltet dann das Bestimmen eines Vektors von p + 1 Werten für jeden Frame zum Festlegen der Grenzen seiner p Subframes innerhalb des modifizierten gefilterten Signals.
  • Die lineare Prädiktionsanalyse wird vorzugsweise an jedem der p Subframes mittels einer auf diesen Subframe zentrierten Analysenfensterfunktion ausgeführt, wobei der Schritt des Auswertens des Eingangssignals für den laufenden Frame ferner eine vorausschauende lineare Prädiktionsanalyse mittels einer asymmetrischen vorausschauenden Analysenfensterfunktion beinhaltet, die eine Stütze aufweist, die sich hinsichtlich der Stütze der Analysenfensterfunktion, die auf den letzten Subframe des laufenden Frames zentriert ist, nicht weiter in die Zukunft erstreckt, und die ein auf einen Zeitpunkt ausgerichteten Maximum aufweist, der hinsichtlich des Mittelpunkts dieses letzten Subframes vorauseilend festgelegt ist. Als Reaktion darauf, dass der (p + 1)-te Wert des Vektors, der für den laufenden Frame bestimmt wurde, vor dem Ende des Frames ankommt, wird der inverse Filtervorgang vorteilhafterweise an der durch diesen (p + 1)-ten Wert festgelegten Blockgrenze aktualisiert, der durch einen Satz von Filterkoeffizienten, die aus der vorausschauenden Analyse bestimmt werden, zu definieren ist.
  • Ein weiterer Aspekt der vorliegenden Erfindung betrifft einen Sprachcodierer, der Mittel aufweist, die so beschaffen sind, dass mit ihnen das oben umrissene Verfahren implementiert werden kann.
  • Weitere Merkmale und Vorteile der Erfindung werden aus der nachfolgenden Beschreibung nicht einschränkender beispielhafter Ausführungsformen derselben in Verbindung mit den beigefügten Zeichnungen ersichtlich, wobei:
  • 1, die bereits erörtert wurde, ein Blockschaltbild eines RCELP-Codierers entsprechend dem Stand der Technik ist;
  • 2, die bereits erörtert wurde, ein Zeitablaufdiagramm ist, welches das Problem des "Klick-Geräusches" veranschaulicht, das bei manchen RCELP-Codierern des unter Bezugnahme auf 1 beschriebenen Typs auftritt;
  • 3 ein zu 2 ähnliches Diagramm ist, das die Funktionsweise eines RCELP-Codierers gemäß der vorliegenden Erfindung zeigt;
  • 4 ein Blockschaltbild eines Beispiels eines RCELP-Codierers gemäß der vorliegenden Erfindung ist;
  • 5 ein Zeitablaufdiagramm ist, das Analysenfenster zeigt, die bei einer speziellen Ausführungsform der Erfindung verwendet werden.
  • 3 zeigt, wie das aus 2 ersichtliche Problem der Fehlanpassung verringert werden kann.
  • Anstelle von Blöcken der inversen Filterung von einer konstanten Länge, die mit der Länge des Frames oder Subframes des Eingangssignals zusammenhängt, wird eine inverse Filterung mit variabler Länge angewendet. Die Grenze, an welcher das inverse Filter F(z, N + 1) das inverse Filter F(z, N) ersetzt, hängt von der Prozedur der Zeitskalamodifikation ab. Wenn T0 die Position des ersten Samples (Stichprobe) des Frames N + 1 in dem gefilterten Signal FS vor der Zeitskalamodifikation bezeichnet, wird die entsprechende Sample-Position in dem modifizierten gefilterten Signal in 3 mit T1 bezeichnet. Diese Position T1 wird als ein Ausgang der Prozedur der Zeitskalamodifikation bereitgestellt. Bei dem vorgeschlagenen Verfahren wird während des inversen Filtervorgangs das inverse Filter F(z, N)–1 durch das nächste inverse Filter F(z, N + 1)–1 beim Sample T1 anstelle des Samples T0 ersetzt. Daher wird jedes Sample einer inversen Filterung durch das Filter unterzogen, das dem perzeptualen Gewichtungs-Vorverarbeitungs-Filter entspricht, welches verwendet wurde, um das Sample zu erzeugen, was das Risiko einer Fehlanpassung der Verstärkung verringert.
  • Falls eine Verschiebung nach links festgestellt wird (T1 < T0), müssen die Samples des modifizierten Signals nach T1 durch das inverse Filter gefiltert werden, das dem nächsten Frame des Eingangssignals entspricht. Im Allgemeinen ist eine gute Approximation dieses Filters bereits aufgrund einer vorausschauenden Analyse bekannt, die im Stadium der LPC-Analyse durchgeführt wurde. Durch die Verwendung des aus der vorausschauenden Analyse resultierenden Filters wird in diesem Falle bei Anwendung der vorliegenden Erfindung verhindert, dass eine zusätzliche Verzögerung hervorgerufen wird.
  • Eine solche Verbesserung des RCELP-Schemas wird in einem Codierer auf die in 4 beispielhaft dargestellte Art und Weise erreicht. Die Änderungen gegenüber dem in 1 dargestellten bekannten Aufbau betreffen die Module der Zeitskalamodifikation und der inversen Filterung 16, 17. Die anderen Elemente 15 und 89 wurden mit denselben Bezugszeichen dargestellt, da sie im Wesentlichen dieselben sein können wie bei dem bekannten RCELP-Codierer.
  • Beispielsweise kann der Codierer gemäß der Erfindung, der in 4 dargestellt ist, ein Schmalband-Sprachcodierer mit niedriger Bitrate sein, der die folgenden Merkmale aufweist:
    • – Die Frame-Länge beträgt 20 ms, d.h. 160 Samples bei einer Samplingrate von 8 kHz;
    • – jeder Frame ist in p = 3 Subframes (Blöcke) von 53, 53 bzw. 54 Samples unterteilt, mit einem Vorausschau-Fenster von 90 Samples. 5 zeigt die verschiedenen Analysenfenster, die im LPC-Analyse-Modul 1 verwendet werden. Die durchgehenden vertikalen Linien sind die Frame- Grenzen, während die gestrichelten vertikalen Linien die Subframe-Grenzen sind. Die symmetrischen, mit durchgehenden Linien dargestellten Kurven entsprechen den Subframe-Analysenfenstern, und die symmetrische, mit einer Strichpunktlinie dargestellte Kurve stellt das Analysenfenster für den vorausschauenden Teil dar. Dieses vorausschauende Analysenfenster weist dieselbe Stütze auf wie das zu dem dritten Subframe des Frames gehörende Analysenfenster, ist jedoch auf den Vorausschaubereich zentriert (d.h. sein Maximum ist nach vorn verschoben, so dass es auf den Mittelpunkt des ersten Subframes des nächsten Frames ausgerichtet ist);
    • – von dem LPC-Analyse-Modul 1 wird ein Modell der Kurzzeit-LP der Ordnung 10 verwendet, um die Spektralhülle des Signals darzustellen. Das entsprechende LP-Filter A(z) wird für jeden Subframe berechnet;
    • – das Vorverarbeitungs-Filter 3 ist ein adaptives perzeptuales Gewichtungsfilter der Form F(z) = A(z/γ1)/A(z/γ2), mit
      Figure 00150001
      wobei die ai die Koeffizienten des unquantisierten LP-Filters 10-ter Ordnung sind. Der Betrag der perzeptualen Gewichtung, der durch γ1 und γ2 gesteuert wird, ist adaptiv abhängig von der Spektralform des Signals, wie z.B. in der US-Patentschrift Nr. 5,845,244 beschrieben ist.
  • Es wurde bereits darauf hingewiesen, dass eine der Ursachen der Beeinträchtigung des Signals die Differenz zwischen den Verstärkungen von zwei aufeinanderfolgenden perzeptualen Gewichtungsfiltern ist. Je größer die Differenz ist, desto größer ist das Risiko einer hörbaren Beeinträchtigung. Obwohl eine signifikante Änderung der Verstärkung sogar dann eintreten könnte, wenn ein nicht adaptives Gewichtungsfilter verwendet wird, d.h. konstante Werte von γ1 und γ2, erhöht das adaptive Gewichtungsfilter die Wahrscheinlichkeit dafür, dass die zwei aufeinanderfolgenden Filterverstärkungen signifikant verschieden sind, da sich die Werte von γ1 und γ2 recht schnell ändern können, was eine signifikante Änderung der Verstärkung von einem Frame zum nächsten verursachen kann. Die vorgeschlagene Erfindung ist daher von besonderem Interesse, wenn ein adaptives Gewichtungsfilter verwendet wird.
  • Die gewichtete Sprache wird erhalten, indem das Eingangssignal S mittels des perzeptualen Filters 3 gefiltert wird, dessen Koeffizienten, die durch die ai, γ1 und γ2 definiert sind, an den ursprünglichen Subframe-Grenzen aktualisiert werden, d.h. an den digitalen Sample-Positionen 0, 53, 106 und 160. Die Langzeitanalyse, die vom Modul 4 an der gewichteten Sprache vorgenommen wird, beinhaltet eine Klassifizierung jedes Frames entweder als stationär stimmhaft oder nicht. Für stationäre stimmhafte Frames wird die Pitch-Trajektorie zum Beispiel vom Modul 5 mittels einer linearen Interpolation des Pitch-wertes, der dem letzten Sample des Frames entspricht, und des Pitch-Wertes des Endes des vorhergehenden Frames berechnet. Für nichtstationäre Frames kann die Pitch-Trajektorie auf irgendeinen konstanten Pitch-Wert gesetzt werden.
  • Das Modul der Zeitskalamodifikation 16 kann, falls erforderlich, die Zeitskalamodifikation der gewichteten Sprache auf der Basis von Grundperioden vornehmen, wie es bei RCELP-Codierern oft der Fall ist. Die Grenze zwischen zwei Perioden wird in einem Bereich niedriger Energie zwischen den zwei Pitch-Impulsen gewählt. Danach wird ein Zielsignal für die gegebene Periode durch fraktionale Langzeitfilterung der vorhergehenden gewichteten Sprache gemäß der gegebenen Pitch- Trajektorie berechnet. Die modifizierte gewichtete Sprache sollte mit diesem Zielsignal übereinstimmen. Die Zeitskalamodifikation der gewichteten Sprache besteht aus zwei Schritten. Im ersten Schritt wird der Impuls der gewichteten Sprache verschoben, so dass er mit dem Impuls des Zielsignals übereinstimmt. Der optimale Wert der Verschiebung wird bestimmt, indem die normierte Kreuzkorrelation zwischen dem Zielsignal und der gewichteten Sprache maximiert wird. Im zweiten Schritt werden die Samples, die dem gegebenen Impuls vorangehen und welche sich zwischen den letzten zwei Impulsen befinden, einer Zeitskalamodifikation auf der gewichteten Sprache unterzogen. Die Positionen dieser Samples werden in Abhängigkeit von dem Verschiebungsvorgang des ersten Schrittes proportional komprimiert oder gestreckt. Die kumulierte Verzögerung wird auf der Basis des erhaltenen Wertes der lokalen Verschiebung aktualisiert und wird am Ende jedes Subframes gespeichert.
  • Die Ausgänge des Moduls der Zeitskalamodifikation 16 sind (1) das der Zeitskalamodifikation unterzogene gewichtete Sprachsignal MFS und (2) die modifizierten Subframe-Grenzen, die in einem Vektor i0 mit p + 1 = 4 Elementen i0[0], i0[1], i0[2], i0[3] dargestellt sind. Diese modifizierten Subframe-Grenzen werden unter Verwendung der gespeicherten kumulierten Verzögerungen berechnet, mit der Nebenbedingung: 0 ≤ i0[0] < i0[1] < i0[2] < i0[3] ≤ 160. Falls die kumulierten Verzögerungen alle null sind, sind die ursprünglichen Positionen der Grenzen unverändert, d.h. i0[0] = 0, i0[1] = 53, i0[2] = 106, i0[3] = 159.
  • Bei der dargestellten Ausführungsform erfolgt die Rückkehr zum Sprachbereich mittels des inversen Filters 17, dessen Übertragungsfunktion F(z)–1 = A(z/γ2)/A(z/γ1) ist, wobei die Koeffizienten ai, γ1 und γ2 an den durch den Vektor i0 gegebenen Sample-Positionen auf die folgende Art und Weise geändert werden:
    • – Für die Sample-Positionen 0 bis i0[0] – 1 werden die Filterkoeffizienten des dritten Subframes des vorhergehenden Frames verwendet. Daher müssen die Filter des dritten Subframes für die Dauer wenigstens eines weiteren Subframes gespeichert werden;
    • – für die Sample-Positionen i0[0] bis i0[1] – 1 werden die Filterkoeffizienten des ersten Subframes des aktuellen Frames verwendet;
    • – für die Sample-Positionen i0[1] bis i0[2] – 1 werden die Filterkoeffizienten des zweiten Subframes des aktuellen Frames verwendet;
    • – für die Sample-Positionen i0[2] bis i0[3] – 1 werden die Filterkoeffizienten des dritten Subframes des aktuellen Frames verwendet; und
    • – für die Sample-Positionen i0[3] bis 159 (falls i0[3] < 160) werden die Filterkoeffizienten verwendet, die dem vorausschauenden Analysenfenster entsprechen. Das so modulierte Filter ist eine gute Approximation des Filters des ersten Subframes des nächsten Frames, da beide Filter auf Analysenfenstern berechnet werden, die auf den nächsten Subframe zentriert sind. Durch die Verwendung dieser Approximation wird die Notwendigkeit umgangen, eine zusätzliche Verzögerung einzuführen. Andernfalls sind 54 zusätzliche Samples nötig, um die LP-Analyse des ersten Subframes des nächsten Frames durchzuführen.
  • Dementsprechend wird jeder Bereich der gewichteten Sprache einer inversen Filterung durch die richtigen Filter 17 unterzogen, d.h. durch die inversen Filter der Filter, welche für die Analyse verwendet wurden.
  • Dadurch werden plötzliche Energiestöße aufgrund einer Fehlabstimmung der Filter (wie in 2) vermieden.

Claims (16)

  1. Sprachcodierungsverfahren mit folgenden Schritten: Auswerten eines Eingangsaudiosignals (S) zur Bestimmung eines entsprechenden Satzes von Filterparametern für jeden Block einer Folge von Blöcken eines Audiosignals; Filtern des Eingangssignals durch einen perzeptualen Gewichtungsfilter (3), das für jeden Block durch den bestimmten Satz von Filterparametern zur Erzeugung eines perzeptual gewichteten Signals (FS) definiert wurde; Modifizieren einer Zeitskala des perzeptual gewichteten Signals auf Basis der Informationen über den grundlegenden Zeitraum des Signals zur Erzeugung eines modifizierten gefilterten Signals (MSF); Festlegen der Blockgrenzen innerhalb des modifizierten gefilterten Signals entsprechend der Grenzen der Blöcke des Audiosignals; und Verarbeiten des modifizierten gefilterten Signals zum Erhalt von Codierungsparametern, wobei das Verarbeiten einen dem perzeptualen Gewichtungsfilter entsprechenden invertierten Filtervorgang beinhaltet, und wobei der invertierte Filtervorgang durch die aufeinanderfolgenden Sätze von Filterparametern definiert wird, die an den festgelegten Blockgrenzen aktualisiert wurden.
  2. Verfahren nach Anspruch 1, wobei das perzeptuale Gewichtungsfilter ein adaptives perzeptuales Gewichtungsfilter (3) ist.
  3. Verfahren nach Anspruch 2, wobei das perzeptuale Gewichtungsfilter (3) eine Übertragungsfunktion der Form A(z/γ1)/A(z/γ2), aufweist, wobei A(z) eine Übertragungsfunktion eines linearen Prädiktionsfilters ist, das im Schritt des Auswertens des Eingangssignals (S) geschätzt wurde, und γ1 und γ2 adaptive Koeffizienten zur Kontrolle einer perzeptualen Gewichtungsgrad sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Festlegens der Blockgrenzen das Kumulieren einer sich aus der Zeitskalamodifikation ergebenden Verzögerung, die an Stichproben jedes Blocks des perzeptual gewichteten Signals (FS) angelegt wurde, und das Sichern des Wertes von den kumulierten Verzögerung am Ende des Blocks beinhaltet, um eine Blockgrenze innerhalb des modifizierten gefilterten Signals (MFS) festzulegen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Auswertens des Eingangssignals (S) eine lineare Prädiktionsanalyse beinhaltet, die auf aufeinanderfolgenden Signalframes ausgeführt wurde, wobei jeder Frame aus einer Anzahl p von aufeinanderfolgenden Subframes besteht, wobei p eine Ganzzahl von mindestens gleich 1 ist, wobei jeder der Blöcke aus einem entsprechenden der Subframes besteht, und wobei der Schritt des Festlegens der Blockgrenzen das Bestimmen eines Vektors von p + 1 Werten für jeden Frame zum Festlegen der Grenzen der p Subframes des besagten Frames innerhalb des modifizierten gefilterten Signals (MFS) beinhaltet.
  6. Verfahren nach Anspruch 5, wobei die lineare Prädiktionsanalyse an jeden Subframe mittels einer auf den Subframe zentrierten Analysenfensterfunktion ausgeführt wird, wobei der Schritt des Auswertens des Eingangssignals (S) für einen laufenden Frame ferner eine vorausschauende lineare Prädiktionsanalyse mittels einer asymmetrischen den laufenden Frame vorausschauenden Analysenfensterfunktion beinhaltet, die eine Stütze aufweist, die sich hinsichtlich der Stütze der Analysenfensterfunktion, die auf den letzten Subframe des laufenden Frames zentriert ist, nicht weiter in die Zukunft erstreckt, und die ein auf einen Zeitpunkt ausgerichteten Maximum aufweist, der hinsichtlich des Mittelpunkts des letzten Subframes vorauseilend festgelegt ist, und wobei als Reaktion darauf, dass der (p + 1)te Wert des Vektors, der für den laufenden Frame bestimmt wurde, vor dem Ende des Frames ankommt, der invertierte Filtervorgang an der durch den (p + 1)ten Wert festgelegten Blockgrenze aktualisiert wird, der durch einen Satz von Filterkoeffizienten, die aus der vorausschauenden Analyse bestimmt werden, zu definieren ist.
  7. Verfahren nach Anspruch 6, wobei das Maximum der vorausschauenden Analysenfensterfunktion auf den Mittelpunkt des ersten Subframes des auf den laufenden Frame folgenden Frames ausgerichtet ist.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Codierungsparameter, die im Schritt der Verarbeitung des modifizierten gefilterten Signals erhalten wurden, CELP-Codierungsparameter beinhalten.
  9. Sprachcodierer mit folgenden Mitteln: Mittel (1) zum Auswerten eines Eingangsaudiosignals (S) zur Bestimmung eines entsprechenden Satzes von Filterparametern für jeden einer Folge von Blöcken des Audiosignals; ein perzeptuales Gewichtungsfilter (3), das für jeden Block durch den bestimmten Satz von Filterparametern definiert wurde, zum Filtern des Eingangssignals und Erzeugen eines perzeptual gewichteten Signals (FS); Mittel (16) zum Modifizieren einer Zeitskala des perzeptual gewichteten Signals auf Basis der Informationen über den grundlegenden Zeitraum des Signals zur Erzeugung eines modifizierten gefilterten Signals (MFS); Mittel (16) zum Festlegen der Blockgrenzen innerhalb des modifizierten gefilterten Signals entsprechend der Grenzen der Blöcke des Audiosignals; und Mittel (17, 8) zum Verarbeiten des modifizierten gefilterten Signals zum Erhalt von Codierungsparametern, wobei das Verarbeiten einen dem perzeptualen Gewichtungsfilter entsprechenden invertierten Filtervorgang beinhaltet, und wobei der invertierte Filtervorgang durch die aufeinanderfolgenden Sätze von Filterparametern definiert wird, die an den festgelegten Blockgrenzen aktualisiert wurden.
  10. Sprachcodierer nach Anspruch 9, wobei das perzeptuale Gewichtungsfilter, (3) ein adaptives perzeptuales Gewichtungsfilter ist.
  11. Sprachcodierer nach Anspruch 10, wobei das perzeptuale Gewichtungsfilter (3) eine Übertragungsfunktion der Form A(z/γ1)/A(z/γ2). aufweist, wobei A(z) eine Übertragungsfunktion eines linearen Prädiktionsfilters ist, das durch das Mittel (1) zum Auswerten des Eingangssignals geschätzt wurde, und γ1 und γ2 adaptive Koeffizienten zur Kontrolle einer perzeptualen Gewichtungsgrad sind.
  12. Sprachcodierer nach einem der Ansprüche 9 bis 11, wobei das Mittel (16) zum Festlegen der Blockgrenzen Mittel zum Kumulieren einer sich aus der Zeitskalamodifikation ergebenden Verzögerung, die an Stichproben jedes Blocks des perzeptual gewichteten Signals (FS) angelegt wurde, und zum Sichern des Wertes von den kumulierten Verzögerung am Ende des Blocks beinhaltet, um eine Blockgrenze innerhalb des modifizierten gefilterten Signals (MFS) festzulegen.
  13. Sprachcodierer nach einem der Ansprüche 9 bis 12, wobei die Mittel (1) zum Auswerten des Eingangssignals Mittel zum Ausführen einer linearen Prädiktionsanalyse auf aufeinanderfolgenden Signalframes beinhalten, wobei jeder Frame aus einer Anzahl p von aufeinanderfolgenden Subframes besteht, wobei p eine Ganzzahl von mindestens gleich 1 ist, wobei jeder der Blöcke aus einem der Subframes besteht, und wobei die Mittel (16) zum Festlegen der Blockgrenzen für jeden Frame Mittel zum Bestimmen eines Vektors von p + 1 werten zum Festlegen der Grenzen der p Subframes des besagten Frames innerhalb des modifizierten gefilterten Signals (MFS) beinhalten.
  14. Sprachcodierer nach Anspruch 13, wobei die linearen Prädiktionsanalysenmittel (1) auf die Verarbeitung jedes Subframes mittels einer auf besagtem Subframe zentrierten Analysenfensterfunktion eingerichtet sind, wobei die Mittel (1) zum Auswerten des Eingangssignals (S) ferner ein vorausschauendes lineares Prädiktionsanalysenmittel zur Verarbeitung eines laufenden Frames mittels einer asymmetrischen den laufenden Frame vorausschauenden Analysenfensterfunktion beinhalten, die eine Stütze aufweist, die sich hinsichtlich der Stütze der Analysenfensterfunktion, die auf den letzten Subframe des laufenden Frames zentriert ist, nicht weiter in die Zukunft erstreckt, und die ein auf einen Zeitpunkt ausgerichteten Maximum aufweist, der hinsichtlich des Mittelpunkts des letzten Subframes vorauseilend festgelegt ist, und wobei die Mittel (17) zum Verarbeiten des modifizierten gefilterten Signals darauf eingerichtet sind, den invertierte Filtervorgang an der durch den (p + 1)ten wert festgelegten Blockgrenze des für den laufenden Frame bestimmten Vektors zu aktualisieren als Reaktion darauf, dass dieser (p + 1)te Wert vor dem Ende des laufenden Frames ankommt, um den aktualisierten invertierten Filtervorgang durch einen Satz von Filterkoeffizienten, die durch die vorausschauende Analyse bestimmt wurden, zu definieren.
  15. Sprachcodierer nach Anspruch 14, wobei das Maximum der vorausschauenden Analysenfensterfunktion auf den Mittelpunkt des ersten Subframes des auf den laufenden Frame folgenden Frames ausgerichtet ist.
  16. Sprachcodierer nach einem der Ansprüche 9 bis 15, wobei die Codierungsparamater, die durch das Mittel (8) zum Verarbeiten des modifizierten gefilterten Signals erhalten wurden, CELP-Codierungsparameter beinhalten.
DE60309651T 2002-11-14 2003-10-30 Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens Expired - Fee Related DE60309651T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US294923 2002-11-14
US10/294,923 US20040098255A1 (en) 2002-11-14 2002-11-14 Generalized analysis-by-synthesis speech coding method, and coder implementing such method

Publications (2)

Publication Number Publication Date
DE60309651D1 DE60309651D1 (de) 2006-12-28
DE60309651T2 true DE60309651T2 (de) 2007-09-13

Family

ID=32176196

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60309651T Expired - Fee Related DE60309651T2 (de) 2002-11-14 2003-10-30 Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens

Country Status (12)

Country Link
US (1) US20040098255A1 (de)
EP (1) EP1420391B1 (de)
JP (1) JP2004163959A (de)
KR (1) KR20040042903A (de)
CN (1) CN1525439A (de)
AT (1) ATE345565T1 (de)
BR (1) BR0305195A (de)
CA (1) CA2448848A1 (de)
DE (1) DE60309651T2 (de)
ES (1) ES2277050T3 (de)
HK (1) HK1067911A1 (de)
MX (1) MXPA03010360A (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1869673B1 (de) 2005-04-01 2010-09-22 Qualcomm Incorporated Verfahren und vorrichtungen zum kodieren und dekodieren eines hochbandteils eines sprachsignals
EP1875464B9 (de) * 2005-04-22 2020-10-28 Qualcomm Incorporated Verfahren, speichermedium und vorrichtung zur verstärkungsfaktor-dämpfung
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
FR2911227A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2413314A4 (de) * 2009-03-24 2012-02-01 Huawei Tech Co Ltd Verfahren und einrichtung zum umschalten einer signalverzögerung
CN102884573B (zh) * 2010-03-10 2014-09-10 弗兰霍菲尔运输应用研究公司 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器及方法
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
EP2761616A4 (de) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M Verbessertes verfahren und vorrichtung für einen adaptiven multiraten-codec
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
EP2980796A1 (de) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Verarbeitung eines Audiosignals, Audiodecodierer und Audiocodierer
CN105974416B (zh) * 2016-07-26 2018-06-15 零八一电子集团有限公司 积累互相关包络对齐的8核dsp片上并行实现方法
US11197032B2 (en) 2018-11-08 2021-12-07 Telefonaktiebolaget Lm Ericsson (Publ) Asymmetric deblocking in a video encoder and/or video decoder

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3222130B2 (ja) * 1989-10-06 2001-10-22 トムソン コンシューマー エレクトロニクス セイルズ ゲゼルシャフト ミット ベシュレンクテル ハフツング オーディオ信号の符号化方法、ディジタルオーディオ信号の伝送方法、復号化方法、及び、符号化装置、復号化装置
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information

Also Published As

Publication number Publication date
KR20040042903A (ko) 2004-05-20
ATE345565T1 (de) 2006-12-15
EP1420391B1 (de) 2006-11-15
HK1067911A1 (en) 2005-04-22
DE60309651D1 (de) 2006-12-28
CA2448848A1 (en) 2004-05-14
CN1525439A (zh) 2004-09-01
JP2004163959A (ja) 2004-06-10
ES2277050T3 (es) 2007-07-01
MXPA03010360A (es) 2005-07-01
EP1420391A1 (de) 2004-05-19
BR0305195A (pt) 2004-08-31
US20040098255A1 (en) 2004-05-20

Similar Documents

Publication Publication Date Title
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69934320T2 (de) Sprachkodierer und verfahren zur codebuch-suche
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69934608T2 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69928288T2 (de) Kodierung periodischer sprache
DE69900786T2 (de) Sprachkodierung
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE60011051T2 (de) Celp-transkodierung
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE69314389T2 (de) Zweimoden langzeitprädiktion in sprechkodierung
DE69223335T2 (de) Sprachkodiersystem
DE69615870T2 (de) Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE60028500T2 (de) Sprachdekodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee