DE60017880T2 - Adaptive postfiltertechnik auf basis eines yule-walkerfilters - Google Patents

Adaptive postfiltertechnik auf basis eines yule-walkerfilters Download PDF

Info

Publication number
DE60017880T2
DE60017880T2 DE60017880T DE60017880T DE60017880T2 DE 60017880 T2 DE60017880 T2 DE 60017880T2 DE 60017880 T DE60017880 T DE 60017880T DE 60017880 T DE60017880 T DE 60017880T DE 60017880 T2 DE60017880 T2 DE 60017880T2
Authority
DE
Germany
Prior art keywords
filter
formants
estimating
poles
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60017880T
Other languages
English (en)
Other versions
DE60017880D1 (de
Inventor
Azhar Mustapha
Suat Yeldener
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Application granted granted Critical
Publication of DE60017880D1 publication Critical patent/DE60017880D1/de
Publication of DE60017880T2 publication Critical patent/DE60017880T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Processing Of Color Television Signals (AREA)
  • Picture Signal Circuits (AREA)
  • Noise Elimination (AREA)

Description

  • Hintergrund der Erfindung
  • Eine perfekte Postfiltertechnik sollte die Formanteninformation nicht ändern und sollte nichtssagende bzw. nichtige Information in dem Sprachspektrum abschwächen, um eine Rauschreduktion zu erreichen und dadurch eine bessere Sprachqualität zu erzeugen. Herkömmliche Postfiltertechnik im Zeitbereich nutzt eine modifizierte LPC-Synthese, inverse und Hochpass-Filter, welche von einem LPC-Spektrum abgeleitet werden und welche durch die Konstanten konfiguriert sind: α (für ein modifiziertes Synthesefilter), β (für ein modifiziertes inverses Filter) und μ (für ein Hochpassfilter). Siehe Juiun-Hwey Chen, Allen Gersho "Adaptive Post-filtering For Quality Enhancement of Coded Speech", IEEE Trans. Speech & Aduio Proc., Band 3, Nr. 1, S. 59–71, 1995. Ein derartiges Filter wurde erfolgreich bei Codierern mit niedriger Bitrate angewendet, es ist jedoch sehr schwer, die Koeffizienten von einem Frame bzw. Rahmen zu einem anderen zu adaptieren und dennoch eine Postfilterfrequenzantwort ohne spektrales Kippen bzw. Neigen zu erzeugen. Das Ergebnis ist Nach- bzw. Postfiltern im Zeitbereich, welches das Variieren und ein unvorhersagbares spektrales Kippen von einem Frame zu einem anderen erzeugt, welches unnötiges Abschwächen oder Verstärken von einigen Frequenzkomponenten und ein Dämpfen der Sprachqualität auslöst. Dieser Effekt nimmt zu, wenn Sprachcodierer im Tandem zusammengeschaltet sind. Es ist jedoch sehr schwierig, diese Koeffizienten von einem Frame zu einem anderen zu adaptieren und weiterhin eine Postfilterfrequenzantwort ohne spektrales Kippen zu erzeugen. Herkömmliches Postfiltern im Zeitbereich er zeugt variierendes spektrales Kippen von einem Frame zu einem anderen, was die Sprachqualität beeinflusst.
  • Ein weiteres Problem bei herkömmlichem Postfiltern im Zeitbereich besteht darin, dass die Frequenzantwort, wenn zwei Formanten dicht beieinander sind, eher einen Spitzenwert als einen Nullwert zwischen den zwei Formanten aufweisen kann, wodurch die Formanteninformation verändert wird. Noch ein weiterer Effekt besteht darin, dass in der Originalsprache der erste Formant einen viel höheren Spitzenwert als der zweite Formant aufweisen kann, jedoch die Frequenzantwort des Postfilters einen zweiten Formanten mit einem höheren Spitzenwert als der erste Formant aufweisen kann. Diese Phänomene sind vollkommen unerwünscht, da sie die Ausgangssprachqualität beeinträchtigen.
  • Eine andere Vorgehensweise zum Gestalten eines Postfilters wird von R. McAulay, T. Parks, T. Quatieri, M. Sabin, "Sine-Wave Amplitude Coding At Low Data Rates", Advances in Speech Coding, Kluwer Academic Pub., 1991, herausgegeben von B. S. Atal, V. Cuperman und A. Gersho, S. 203–214, beschrieben. Mit dieser Technik wurde eine gute Leistungsfähigkeit ohne spektrales Kippen erzeugt, sie kann jedoch nur bei Sprachcodierung auf sinusförmiger Basis benutzt werden.
  • Zusammenfassung der Erfindung
  • Es ist deshalb eine Aufgabe der Erfindung, eine neue, zeitbasierte Postfiltertechnik zu liefern, welche die obigen Probleme eliminiert, speziell das Problem des spektralen Kippens im Sprachspektrum, und welche auf verschiedene Sprachcodierer angewendet werden kann, wobei sowohl Sprachcodierer für den Zeit- als auch Frequenzbereich beinhaltet sind.
  • Diese und andere Aufgaben werden entsprechend der vorliegenden Erfindung, wie in den Ansprüchen 1-1 beansprucht, mit der Gestaltung eines Postfilters erreicht, welcher die Pole-Information in dem LPC-Spektrum nutzt und die Beziehung zwischen Polen und Formanten findet.
  • Die Orte der Pole eines LPC-Spektrums des Sprachsignals werden bestimmt, der Ort und die Bandbreite der Formanten des Sprachsignals werden basierend auf der Polinformation geschätzt, indem zunächst die Pole in einer vorher festgelegten Ordnung bzw. Reihenfolge (z.B. entsprechend zunehmendem Radius) angeordnet werden und indem ein Schätz-Algorithmus auf die geordneten Pole angewandt wird. Die Filterkoeffizienten werden geschätzt, eine gewünschte Filterantwort-Charakteristik wird mit der Filterantwort-Charakteristik, welche aus den geschätzten Filterkoeffizienten resultiert, verglichen, um einen Differenzwert zu erhalten, die Filterkoeffizienten werden justiert bzw. eingestellt, um den Differenzwert entsprechend wenigstens einer Fehlerquadratanpassung zu minimieren.
  • Entsprechend einer bevorzugten Ausführungsform der Erfindung weist der Formanten-Schätzalgorithmus auf: Berechnen der Größe bzw. Amplitude und der Flanke des LPC-Spektrums bei wenigstens einigen der angeordneten Pole, Berechnen von jeweils ersten und zweiten Flanken m1 und m2 des LPC-Spektrums auf jeder Seite der angeordneten Pole, und dann (i) Abschätzen erster und zweiter benachbarter Pole, um unterschiedliche Formanten zu repräsentieren, wenn m1 kleiner als null ist und wenn m2 größer als null ist, (ii) Abschätzen erster und zweiter benachbarter Pole, um einen gewöhnlichen Formanten zu repräsentieren, wenn die Kriterien des Schrittes (i) nicht eingehalten werden und wenn eine Differenz in den Größen bzw. Amplituden des LPC-Spektrums kleiner als ein Schwellwert ist, z.B. 3 dB, und (iii) Abschätzen des größeren der ersten und zweiten Pole, um einen Formanten zu repräsentieren, falls die Kriterien der Schritte (i) und (ii) nicht eingehalten werden. Falls die Bandbreiten, welche benachbarten Formanten zugeordnet sind, bei diesem Vorgang überlappen, werden die Formanten in einer einzelnen Bandbreite kombiniert.
  • Entsprechend der vorliegenden Erfindung ist das Filter ein Modifiziertes Yule-Walker-(MYW-)Filter mit einer Filterantwort, welche gegeben ist durch:
    Figure 00040001
    wobei N die Ordnung des MYW-Filters darstellt. Die (MYW-)Filterkoeffizienten werden geschätzt, wobei wenigstens eine Fehlerquadratanpassung in dem Zeitbereich benutzt wird. Die Divisorkoeffizienten des Filters (a(1), a(2), ..., a(N)) werden durch die Modifizierten Yule-Walker-Gleichungen berechnet, wobei nicht-rekursive Korrelationskoeffizienten benutzt werden, welche durch inverse Fourier-Transformation der spezifizierten Frequenzantwort des Postfilters berechnet werden. Die Zählerkoeffizienten des Filters (b(1), b(2), ..., b(N)) werden durch eine Vorgehensweise in vier Schritten berechnet: Zuerst wird ein Zählerpolynom entsprechend einer additiven Dekomposition der Leistungsfrequenzantwort berechnet. Die vollständige Frequenzantwort entsprechend den Zähler- und Divisorpolynomen wird dann ausgewertet. Als Ergebnis wird eine spektrale Faktorenzerlegungstechnik benutzt, um die Impulsantwort des Filters zu erhalten. Schließlich wird das Zählerpolynom durch eine abschließende Fehlerquadratanpassung an dieser Impulsantwort erhalten.
  • Die Testergebnisse zeigen, dass das Postfilter entsprechend der vorliegenden Erfindung das herkömmliche Postfilter sowohl in den Fällen einer Einer- als auch einer Zweier-Tandemverbindung von Sprachcodierern übertrifft.
  • Kurze Beschreibung der Zeichnungen
  • Die Erfindung wird klarer aus der folgenden Beschreibung in Verbindung mit den beigefügten Zeichnungen verstanden, worin:
  • 1 ein Diagramm von Polen und Formaten in einem typischen LPC-Sprachspektrum ist;
  • 2 ein Diagramm von Polen des Spektrums ist, welches in 1 gezeigt wird;
  • 3 eine Darstellung der Frequenzantwort eines Postfilters entsprechend der vorliegenden Erfindung ist, verglichen mit einem gewünschten Postfilter und einem herkömmlichen Postfilter;
  • 4 eine Zeichnung des Gestaltungsprozesses des Filters ist, entsprechend der vorliegenden Erfindung;
  • 5 eine Darstellung der postgefilterten LPC-Spektren ist, entsprechend mit einem Filter dieser Erfindung und im Vergleich mit einem herkömmlichen Postfilter; und
  • 6 und 7 einen HE-LPC-Codierer und -Decodierer darstellt, mit welchen die vorliegende Erfindung genutzt werden kann.
  • Detaillierte Beschreibung der bevorzugten Ausführungsform
  • Das Filter entsprechend der vorliegenden Erfindung nutzt eine neue Postfiltertechnik in der Zeitdomäne bzw. im Zeitbereich und besitzt eine flache Frequenzantwort an den Formanten-Spitzenwerten des Sprachspektrums. Anstatt auf die modifizierte LPC-Synthese, auf inverses und Hochpass-Filtern in der herkömmlichen Zeitdomänetechnik zu sehen, sammelt die Technik entsprechend dieser Erfindung Information über die Pole des LPC-Spektrums, nutzt diese Information, um die Formanten und Nulldurchgänge zu schätzen, nutzt dann die abgeschätzten Orte der Formanten und die Anzahl der Pole für jeden Formanten, um die Bandbreiten der Formanten und eventuell die Frequenzantwort des gewünschten Postfilters zu berechnen.
  • Im Allgemeinen besitzen die Polwinkel in einem LPC-Spektrum Information über die Formanten-Orte und die damit verbundenen Bandbreiten. Wenn gegeben ist, dass ein LPC-Spektrum als 1/(1 – A(z)) definiert ist, wobei
    Figure 00060001
    der i-te LPC-Koeffizient ist und M die Ordnung des LPC-Predictors bzw. -„Vorhersagers" ist, so kann man die Pole durch Lösen der Wurzeln von 1 – A(z) finden. In der bevorzugten Ausführungsform wird ein LPC-Filter der 14-ten Ordnung angenommen. Zum Lösen der Wurzeln wird 1 – A(z) in eine dazu passende Matrix gewandelt, wie dies z.B. durch J. H. Wilkinson und C. Reinsch, in "Linear Algebra: Hand Book for Automatic Computation", Springer-Verlag New York, Heidelberg, Berlin, 1971, beschrieben wird. Die dazu passende Matrix wird benutzt, um die Eigenwerte zu finden, welche die Wurzeln aus 1 – A(z) sind. Durch das Finden der Eigenwerte kann der QR (Q = orthogonale Spalten, und R = oberer dreieckiger bzw. Dreiecks-)-Algorithmus für reale Hessenberg-Matrizen implementiert werden, wie dies durch Wilkinson et al. beschrieben wird.
  • Natürlich existieren die Pole in konjugierten Paaren, obwohl zwei reale Pole existieren können. Wenn zwei reale Pole existieren, besitzen sie jeweils einen Winkel von 0 und von π. Wenn man diese symmetrische Eigenschaft beachtet, können die Pole in eine Gruppe von positiven Winkeln und eine Gruppe von negativen Winkeln eingeteilt werden. Für jede Gruppe können die Radien in absteigender Ordnung angeordnet werden, so dass r1 der längste Radius in der positiven Gruppe und r8 der längste Radius in der negativen Gruppe ist. Man beachte auch, dass der längste Radius die kürzeste Entfernung zum Einheitskreis besitzt, da all die Radien kleiner als 1 sind. Mit dieser Anordnung besitzen r1 und r8 den gleichen Radius und treten in konjugierten Winkeln auf.
  • Um die Beziehung zwischen Polen und Formanten zu analysieren, wird ein typisches LPC-Spektrum, mit den Polwinkeln auf der normierten Frequenzachse platziert, ausgedruckt, wie dies in 1 gezeigt wird. In dieser Figur werden die Orte der Pole 1 bis 7 durch P1 bis P7 gekennzeichnet. Die Pole P1, P2 und P3 zeigen die exakten Orte der Formanten-Spitzenwerte an. Jedoch sind die ersten 3 Pole nicht immer bei den Spitzenwerten lokalisiert, wie dies in diesem Beispiel gezeigt wird. Im Allgemeinen besitzt eine breite Formantenbandbreite zwei oder drei Pole, welche dicht beieinander liegen. Diese Tatsache kann in 1 beobachtet werden, wo die Bandbreite des ersten Formanten breiter als die des zweiten Formanten ist. Der erste Formant besitzt Pole P4 und P5, welche dicht beieinander liegen, während die anderen Formanten nur einen einzelnen Pol aufweisen. Aus der Beobachtung in diesem Beispiel geht hervor, dass 5 Pole beachtet werden müssen, um die Orte von Formanten und die damit verbundenen Bandbreiten abzuschätzen. Es werden jedoch auch noch die Pole P6 und P7 beachtet, da diese Pole einen Teil eines Formanten selbst darstellen können. Mit der Kenntnis der Orte der sieben Pole kann die Abschätzung der Formanten und Nulldurchgänge beginnen.
  • Um die Formanten und Nulldurchgänge abzuschätzen, folgen folgende Schritte aufeinander. Zuerst werden die positiven Winkel der Pole in aufsteigender Ordnung angeordnet. Die negativen Winkel werden aufgrund der symmetrischen Eigenschaft der Winkel, wie dies vorher erwähnt wurde, weggelassen. Diese Anordnung kann so sein, wie dies im Allgemeinen in 2 dargestellt wird. Die Aplitudenantwort für irgendeinen gegebenen Winkel ω wird dann berechnet als:
    Figure 00080001
    wobei ri der Radius des Poles Pi und ϕ = ωi ist; ω ist ein beliebiger gegebener Winkel, ϕi ist der Winkel des Poles Pi und 14 ist die Ordnung des Filters. Im nächsten Schritt werden die rückwärtigen und vorwärts gerichteten Flanken der benachbarten Winkel berechnet als: m1 = H(θi + δω) – H(θi) m2 = H(θi+1) – H(θi+1 – δω) (2)wobei m1 und m2 die i-te vorwärts gerichtete und (i + 1)-te rückwärts gerichtete Flanke der jeweiligen beiden benachbarten Winkel sind und δω der Störfaktor für jeden Winkel ist. Die berechneten Flanken der benachbarten Winkel werden dann verglichen. Falls m1 < 0 und m1 > 0, wird angenommen, dass eine Nullstelle zwischen zwei Winkeln vorliegt, und diese beiden Pole werden als zwei unabhängige Formanten behandelt. Wenn obige Bedingung nicht erfüllt wird, werden die Mplitudenantworten der Winkel verglichen. Falls in diesem Fall |H(θi) – (H(θi+1)| < 3 dB, dann werden diese beiden Pole als ein Formant behandelt. Anderenfalls wird der Pol mit einer größeren Amplitudenantwort als ein Formant behandelt. Experimentell wurde 3 dB als optimaler Schwellwert ermittelt. Dieser Vorgang wird für alle positiven Winkel wiederholt, und hieraus werden alle Formanten und Nullstellen abgeschätzt.
  • Die abgeschätzten der Formanten-Orte und die Anzahl von Polen für jeden Formanten werden dann benutzt, um die Bandbreiten der Formanten und schließlich die Frequenzantwort des gewünschten Postfilters zu berechnen. Im Falle eines Formanten mit einem einzelnen Pol wird die Bandbreite des entsprechenden Formanten auf 2δb gesetzt, wobei δb = 0,04π. Wenn z.B. für den Formantenpol angenommen wird, dass er bei θ1 ist, dann wird die Bandbreite des entsprechenden Formanten den Frequenzbereich von θ1 – δb bis θ1 + δb abdecken. In dem in 1 gezeigten Beispiel sind die Pole P1, P2 und P3 die Einzelpol-Formanten.
  • Im Falle eines Formanten mit vielfachen Polen (2 oder 3 Polen) sollte die Bandbreite des entsprechenden Formanten alle entsprechenden Polorte abdecken. Entsprechend dem Beispiel, welches in 1 gegeben wird, entsprechen die Pole P4 und P5 dem ersten Formanten des Spektrums, und die Bandbreite dieses Formanten beträgt von θ4 – δb bis θ5 + δb, wobei θ4 und θ5 die Orte der jeweiligen Pole P4 und P5 sind. Während der Abschätzung der Formanten und deren Bandbreite kann sich die Bandbreite von 2 Formanten gegenseitig überlappen, wenn 2 Formanten sehr dicht zueinander liegen. Dieses Überlappen erzeugt ein Problem beim Gestalten dieses Postfilters. Um dieses Problem zu vermeiden, werden die Bandbreiten dieser beiden Formanten miteinander kombiniert, um nur ein Band zu bilden.
  • Das Ziel ist es, in diesem Postfilter die Formanteninformation zu bewahren. Deshalb wird das Postfilter eine Einheitsverstärkung bei den Formantenbereichen des Spektrums besitzen. Das Ziel ist es, außerhalb der Formantenbereiche einen gewissen kontrollierbaren Dämpfungsfaktor τ zu haben, welcher die Tiefe des Postfilterns steuert. In unserem Beispiel setzen wir τ = 0,6. Jedoch kann τ von einem Frame zum anderen adaptiert werden, abhängig davon, wie viel Postfiltern benötigt wird, und abhängig vom Typ des Sprachcodierers, welcher benutzt wird. Die Frequenzantwort des gewünschten Postfilters wird in 3 für die Hüllkurve bzw. Einhüllende gezeigt, welche in 1 dargestellt wird.
  • Um ein Postfilter zu gestalten, welches die oben erwähnten Merkmale besitzt, ist ein adaptives Vielfach-Bandpassfilter erforderlich. Ein derartiges adaptives Vielfach-Bandpassfilter kann durch Benutzen eines Modifizierten Yule-Walker-(MYW-)Rekursivfilters implementiert werden. Die Gestalt dieses Filters kann wie folgt formuliert werden:
    Figure 00100001
    wobei N die Ordnung des MYW-Filters ist. Die (MYW)-Filterkoeffizienten werden geschätzt, wobei wenigstens Fehlerquadratanpassung in der Zeitdomäne benutzt wird. Die Divisorkoeffizienten des Filters (a(1), a(2), ..., a(N)) werden durch die Modifizierten Yule-Walker-Gleichungen berechnet, wobei nicht-rekursive Korrelationskoeffizienten benutzt werden, welche durch inverse Fourier-Transformation der spezifizierten Frequenzantwort des Postfilters berechnet werden, wie dies durch Friedlander und Porat, wie oben erwähnt, beschrieben wird. Die Zählerkoeffizienten des Filters (b(1), b(2), ..., b(N)) werden durch eine Vorgehensweise in vier Schritten berechnet: Zuerst wird ein Zählerpolynom entsprechend einer additiven Zerlegung der Leistungs- bzw. Potenzfrequenzantwort berechnet. Die vollständige Frequenzantwort entsprechend den Zähler- und Divisorpolynomen wird dann ermittelt. Als Ergebnis wird eine spektrale Faktorenzerlegungstechnik benutzt, um die Impulsantwort des Filters zu erhalten. Schließlich wird das Zählerpolynom durch wenigstens eine Fehlerquadratanpassung an diese Impulsantwort erhalten. Eine detailliertere Beschreibung dieses Algorithmus wird durch Friedlander und Porat gegeben.
  • 4 stellt das Verfahren entsprechend dieser Erfindung dar, in welchem die gewünschte Frequenzantwort spezifiziert wird, die Divisorkoeffizienten A(z) entsprechend wenigstens einer quadratischen Näherung bei 106 bestimmt werden, basierend auf nicht-rekursiven Korrelationskoeffizienten Rw(n), welche durch inverse Fourier-Transformation (IFFT) der spezifizierten Frequenzantwort berechnet werden. Das Zählerpolynom wird durch additive Zerlegung bei 108 spektral berechnet; die Faktorenzerlegung wird bei 110 angewendet, um zu gestatten, dass die Impulsantwort bei 112 berechnet werden kann, und das Verfahren kleinster Quadratzahlen wird benutzt, um das endgültige Zählerpolynom B(z) bei 114 zu bestimmen.
  • Das oben beschrieben Postfilter hat eine flache Frequenzantwort, welche das spektrale Kippen und andere Probleme, welche in herkömmlichen Postfiltern vorhanden sind, wie hier vorher erwähnt, bewältigt. Um die Unterschiede zwischen diesen und herkömmlichen Postfiltern zu betrachten, werden die Frequenzantworten dieser Filter, welche auf das LPC-Spektrum, welches in 1 gezeigt wird, angewendet werden, in 5 wiedergegeben.
  • Das herkömmliche Postfilter nutzt α = 0,8, β = 0,5 und μ = 0,5, wie dies durch Chen vorgeschlagen wird, wie oben erwähnt. Aus 3 wird klar, dass die Formanten-Spitzenwerte als flache in der Frequenzantwort des neuen MYW-Postfilters erhalten werden. Jedoch ist das herkömmliche Postfilter bei den Formanten-Spitzenwerten nicht flach. Die neuen und die herkömmlichen postgefilterten LPC-Spektren werden in 5 gezeigt: Es ist klar, dass für das herkömmliche Postfilter ein spektrales Kippen verglichen mit dem originalen LPC-Spektrum besteht. Für das neue Postfilter gibt es überhaupt kein spektrales Kippen. Das neue Filter bewahrt die Formanten-Spitzenwerte und vermindert die Nulldurchgänge, was das gewünschte Phänomen darstellt. Zusätzlich kann das Vermindern der Nulldurchgänge in dem neuen Postfilter besser gesteuert werden als in dem herkömmlichen Postfilter.
  • Das Postfilter entsprechend dieser Erfindung wurde in einen 4-kb/s-Harmonic-Excitation-Linear-Predictive-Coder (HE-LPC) bzw. -Harmonischen-Anregungs-Linear-Vorhersage-Codierer eingebaut. In dem HE-LPC-Codierer besteht die Vorgehensweise, um die Sprachsignale s(n) wiederzugeben, darin, das Spracherzeugungsmodell zu benutzen, in welchem die Sprache als das Ergebnis des Durchlaufens einer Anregung, e(n) durch ein lineares zeitvariierendes Filter (LPC), h(n), welches die Resonanzcharakteristika der spektralen Spracheinhüllenden modelliert, betrachtet wird. Dies wird ferner durch S. Yeldener, A. M. Kondoz und B. G. Evans, "Multi-Band Linear Predictive Speech coding at Very Low Bit rates", IEEE Proc. Vis. Image and Signal Processing", Oktober 1994, Band 141, Nr. 5, S. 289–295, und von S. Yeldener, A. M. Kondoz und B. G. Evans, "Sine Wave Excited Linear Predictive Coding of Speech", Proc. Int. Conf. On Spoken Language Processing, Kobe, Japan, November 1990, S. 4.2.1–4.2.4, beschrieben. Das h(n) wird durch 14 LPC-Koeffizienten dargestellt, welche in Form von Line-Spectral-Frequency-(LSF-)- bzw. linearen Spektralfrequenzparametern quantisiert sind. In dem HE-LPC-Sprachcodierer wird das Anregungssignal e(n) durch eine Fundamentalfrequenz oder Tonhöhe, durch deren spektrale Größen bzw. Amplituden und eine Sprachwahrscheinlichkeit spezifiziert. Die Sprachwahrscheinlichkeit definiert eine Grenzfrequenz, welche niedrige Frequenzanteile als gesprochen und Hochfrequenzanteile als nicht gesprochen trennt. Die berechneten Modellparameter werden quantisiert und für die Übertragung codiert. Am Empfangsende werden die Informationsbits decodiert, und daraus werden die Modellparameter wiederhergestellt. Am Decodierer wird der gesprochene Teil des Anregungsspektrums als die Summe von harmonischen Sinuswellen bestimmt. Die harmonischen Phasen der Sinuswellen werden durch Nutzen der Phaseninformation der vorherigen Frames bzw. Rahmen vorhergesagt. Für den ungesprochenen Teil des Anregungsspektrums wird ein weißes Rauschspektrum, welches auf ungesprochene anregungsspektralharmonische Amplituden normiert ist, benutzt. Die gesprochenen und ungesprochenen Anregungssignale werden dann zusammenaddiert, um das gesamte synthetisierte Anregungssignal zu bilden. Die sich ergebende Anregung wird dann durch das lineare zeitveränderliche Filter h(n) geformt, um die endgültige synthetisierte Sprache zu bilden. Schließlich wird die synthetisierte Sprache durch das neue und herkömmliche Postfilter geschickt, um die Leistungsfähigkeit jedes dieser Filter zu ermitteln. Die Gesamtanordnung des HE-LPC-Codierers wird in 6 dargestellt, wobei der Decodierer in 7 dargestellt wird.
  • Um die subjektive Leistungsfähigkeit des neuen und des herkömmlichen Postfilters zu messen, wurden verschiedene Hörtests ausgeführt. Zu diesem Zweck wurden zwei Postfilter getrennt in dem gleichen 4-kb/s-HE-LPC-Codierer zur Ermittlung der subjektiven Leistungsfähigkeit benutzt. In dem ersten Experiment wurde ein MOS-Test durchgeführt. In diesem Test werden 8 Satzpaare von 4 Sprechern (2 männlichen und 2 weiblichen Sprechern) durch die beiden 4-kb/s-Codierer bearbeitet. Insgesamt führten 24 Hörer diesen Test aus. Sowohl eine als auch zwei Tandem-Verbindungen dieser Codierer wurden ermittelt, und die MOS-Ergebnisse werden in Tabelle 1 wiedergegeben.
  • Tabelle 1:
    Figure 00130001
  • Aus diesen Testergebnissen wird klar, dass der 4-kb/s-Codierer mit dem neuen Postfilter besser funktionierte als der Codierer mit herkömmlichem Postfilter. Die Verbesserung der Sprachqualität, die dem neuen Postfilter zuzuordnen ist, ist im Falle der 2-Tandem-Verbindung sehr wesentlich. Um ferner die Leistungsfähigkeit des neuen Postfilters zu verifizieren, wurde ein paarweiser Hörtest ausgeführt, um die 4-kb/s-Codierer mit herkömmlichen und mit neuen Postfiltern zu vergleichen. Für diesen Test wurden 12 Satzpaare von 6 Sprechern (3 männlichen und 3 weiblichen Sprechern) von den zwei 4-kb/s-Codierern (bei einer 1- und einer 2-Tandem-Verbindungsbedingung) durchgeführt, und die Satzpaare wurden Hörern in einer zufälligen Reihenfolge vorgestellt. Sechzehn Hörer führten diesen Test aus. Die gesamten Testergebnisse für die 1- und 2-Tandem-Verbindung werden in den Tabellen 2 und 3 jeweils dargestellt.
  • Figure 00140001
    Tabelle 2: Paarweise Testergebnisse für die 1-Tandem-Verbindung
  • Figure 00150001
    Tabelle 3: Paarweise Testergebnisse für die 2-Tandem-Verbindung
  • Die Ergebnisse sind sehr schlüssig. Im Falle der 1-Tandem-Verbindung wurde das neue Postfilter für geringfügig besser als das herkömmliche Postfilter gehalten. Im Falle der 2-Tandem-Verbindung wurde das neue Postfilter als wesentlich besser als das herkömmliche Postfilter gehalten.
  • Es wird erkannt werden, dass verschiedene Änderungen und Modifikationen an dem oben beschriebenen Filter durchgeführt werden können, ohne vom Umfang der Erfindung abzuweichen, wie sie in den angehängten Ansprüchen definiert sind.

Claims (17)

  1. Verfahren zum Gestalten eines Filters zum Filtern eines Sprachsignals, wobei das Verfahren die Schritte aufweist: Bestimmen der Polinformation, welche die Orte der Pole eines LPC-Spektrums des Sprachsignals aufweist; Abschätzen des Ortes und der Bandbreite der Formanten des Sprachsignals basierend auf der Polinformation, um eine Filterantwort auf ein gewünschtes Filter zu bilden; Abschätzen der Filterkoeffizienten; Vergleichen der gewünschten Filterantwortcharakteristik mit einer Filterantwortcharakteristik, welche aus den geschätzten Filterkoeffizienten resultiert, um einen Differenzwert zu erhalten; und Einstellen der Filterkoeffizienten, um den Differenzwert zu minimieren.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Justierens das Minimieren des Differenzwertes entsprechend einer Fehlerquadratmethode aufweist.
  3. Verfahren nach Anspruch 1, wobei der Schritt des Abschätzens des Ortes und der Bandbreite der Formanten aufweist: Anordnen von wenigstens einigen der Pole in einer vorher festgelegten Ordnung; Berechnen einer Größe des LPC-Spektrums bei wenigstens einigen der angeordneten Pole; Berechnen der ersten und zweiten jeweiligen Flanken m1 und m2 des LPC-Spektrums auf beiden Seiten der wenigstens einigen der angeordneten Pole; und Abschätzen des Ortes und der Bandbreite der Formanten, basierend auf dem Ort, der Größe und der benachbarten Flanken der LPC-Spektrumspole.
  4. Verfahren nach Anspruch 3, wobei der Schritt des Abschätzens des Ortes und der Bandbreite der Formanten aufweist: (i) Abschätzen erster und zweiter benachbarter Pole, um verschiedene Formanten zu repräsentieren, wenn die Flanke an dem ersten Pol negativ in einer ersten Richtung auf den zweiten Pol zu ist und wenn die Flanke an dem zweiten Pol positiv in der ersten Richtung ist, welche von dem ersten Pol kommt.
  5. Verfahren nach Anspruch 4, wobei der Schritt des Abschätzens des Ortes und der Bandbreite der Formanten ferner aufweist: (ii) Abschätzen erster und zweiter benachbarter Pole, um einen gewöhnlichen Formanten darzustellen, wenn die Kriterien des Schrittes (i) nicht eingehalten werden bzw. nicht zutreffen und wenn eine Differenz in den Größen des LPC-Spektrums kleiner als ein Schwellwert ist.
  6. Verfahren nach Anspruch 5, wobei der Schwellwert ungefähr 3 dB beträgt.
  7. Verfahren nach Anspruch 5, wobei der Schritt des Abschätzens des Ortes und der Bandbreite der Formanten ferner aufweist: (iii) Abschätzen des größeren des ersten und zweiten Poles, um einen Formanten zu darzustellen, wenn die Kriterien der Schritte (i) und (ii) nicht eingehalten werden bzw. zutreffen.
  8. Verfahren nach Anspruch 7, wobei der Schritt des Abschätzens des Ortes und der Bandbreite der Formanten ferner aufweist: Zuweisen einer Bandbreite für jeden Formanten; und Kombinieren von zwei Formanten in einem Formanten mit geschätztem Signal, wenn deren zugewiesene Bandbreiten einander überlappen.
  9. Verfahren nach Anspruch 1, wobei das Filter ein modifiziertes Yule-Walker-Filter ist, welches eine Impulsantwort der Form besitzt:
    Figure 00180001
    wobei N die Ordnung des Filters und (a(1), a(2), ..., a(N)) und (b(1), b(2), ..., b(N)) Filterkoeffizienten sind.
  10. Verfahren nach Anspruch 9, wobei der Schritt des Abschätzens der Filterkoeffizienten das Abschätzen der Koeffizienten (a(1), a(2), ..., a(N)) entsprechend den Modifizierten Yule-Walker-Gleichungen aufweist, welche nicht-rekursive Korrelationskoeffizienten nutzen, welche durch inverse Fourier-Transformation der gewünschten Filterfrequenzantwort berechnet sind.
  11. Verfahren nach Anspruch 9, wobei der Schritt des Abschätzens der Filterkoeffizienten das Abschätzen der Koeffizienten (b(1), b(2), ..., b(N)) entsprechend der Schritte aufweist: Berechnen eines Dividenden-Polynoms, entsprechend einer additiven Zerlegung der Leistungsfrequenzantwort; Auswerten einer vollständigen Frequenzantwort des Filters; Abschätzen einer Impulsantwort des Filters; und Einstellen des Dividendenpolynoms entsprechend einer Fehlerquadratanpassung an die Impulsantwort.
  12. Verfahren nach Anspruch 11, wobei die Impulsantwort des Filters entsprechend einer spektralen Faktorenzerlegungstechnik abgeschätzt wird.
  13. Verfahren nach Anspruch 1, wobei der Schritt des Abschätzens der Filterkoeffizienten das Zuweisen eines Einheitsverstärkungsfaktors für das Filter in dem Bereich jedes Formanten aufweist.
  14. Verfahren nach Anspruch 13, wobei der Schritt des Abschätzens der Filterkoeffizienten ferner das Zuweisen eines Dämpfungs- bzw. Abschwächungsfaktors τ für das Filter außerhalb eines Bereiches jedes Formanten aufweist.
  15. Verfahren nach Anspruch 14, wobei der Dämpfungsfaktor τ ungefähr 0,6 ist.
  16. Verfahren nach Anspruch 14, wobei der Dämpfungsfaktor τ sich von einem Frame bzw. Rahmen zum anderen des Sprachsignals ändern kann.
  17. Filter, welches in Übereinstimmung mit dem Verfahren entsprechend einem der Ansprüche 1 bis 6 gestaltet ist.
DE60017880T 1999-03-12 2000-03-13 Adaptive postfiltertechnik auf basis eines yule-walkerfilters Expired - Lifetime DE60017880T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US266770 1994-06-28
US09/266,770 US6233552B1 (en) 1999-03-12 1999-03-12 Adaptive post-filtering technique based on the Modified Yule-Walker filter
PCT/US2000/003718 WO2000055845A1 (en) 1999-03-12 2000-03-13 An adaptive post-filtering technique based on the modified yule-walker filter

Publications (2)

Publication Number Publication Date
DE60017880D1 DE60017880D1 (de) 2005-03-10
DE60017880T2 true DE60017880T2 (de) 2006-01-12

Family

ID=23015937

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60017880T Expired - Lifetime DE60017880T2 (de) 1999-03-12 2000-03-13 Adaptive postfiltertechnik auf basis eines yule-walkerfilters

Country Status (6)

Country Link
US (1) US6233552B1 (de)
EP (1) EP1163668B1 (de)
AT (1) ATE288616T1 (de)
AU (1) AU3858200A (de)
DE (1) DE60017880T2 (de)
WO (1) WO2000055845A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3785542B2 (ja) * 2003-02-25 2006-06-14 よこはまティーエルオー株式会社 パルス波形の生成方法
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
EP2737479B1 (de) * 2011-07-29 2017-01-18 Dts Llc Adaptive sprachverständlichkeitsverbesserung
US9576590B2 (en) * 2012-02-24 2017-02-21 Nokia Technologies Oy Noise adaptive post filtering
US20150162014A1 (en) * 2013-12-06 2015-06-11 Qualcomm Incorporated Systems and methods for enhancing an audio signal

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4764963A (en) 1983-04-12 1988-08-16 American Telephone And Telegraph Company, At&T Bell Laboratories Speech pattern compression arrangement utilizing speech event identification
US5054085A (en) * 1983-05-18 1991-10-01 Speech Systems, Inc. Preprocessing system for speech recognition
NL8603163A (nl) * 1986-12-12 1988-07-01 Philips Nv Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
UA41913C2 (uk) 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
WO1995018523A1 (en) 1993-12-23 1995-07-06 Philips Electronics N.V. Method and apparatus for encoding multibit coded digital sound through subtracting adaptive dither, inserting buried channel bits and filtering, and encoding and decoding apparatus for use with this method
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6026357A (en) * 1996-05-15 2000-02-15 Advanced Micro Devices, Inc. First formant location determination and removal from speech correlation information for pitch detection
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations

Also Published As

Publication number Publication date
AU3858200A (en) 2000-10-04
EP1163668A4 (de) 2004-03-31
DE60017880D1 (de) 2005-03-10
US6233552B1 (en) 2001-05-15
ATE288616T1 (de) 2005-02-15
EP1163668A1 (de) 2001-12-19
WO2000055845A1 (en) 2000-09-21
EP1163668B1 (de) 2005-02-02

Similar Documents

Publication Publication Date Title
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69726525T2 (de) Verfahren und Vorrichtung zur Vektorquantisierung und zur Sprachkodierung
DE69029120T2 (de) Stimmenkodierer
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE60226308T2 (de) Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69832195T2 (de) Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69932460T2 (de) Sprachkodierer/dekodierer
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE112010005020B4 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60124079T2 (de) Sprachverarbeitung
DE69827313T2 (de) Verfahren zur Kodierung des Zufallskomponenten-Vektors in einem ACELP-Kodierer
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE69921066T2 (de) Verfahren und Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition