DE60102975T2 - Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen - Google Patents

Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen Download PDF

Info

Publication number
DE60102975T2
DE60102975T2 DE60102975T DE60102975T DE60102975T2 DE 60102975 T2 DE60102975 T2 DE 60102975T2 DE 60102975 T DE60102975 T DE 60102975T DE 60102975 T DE60102975 T DE 60102975T DE 60102975 T2 DE60102975 T2 DE 60102975T2
Authority
DE
Germany
Prior art keywords
band
speech
low
khz
broadband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60102975T
Other languages
English (en)
Other versions
DE60102975D1 (de
Inventor
Alan V Mccree
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of DE60102975D1 publication Critical patent/DE60102975D1/de
Application granted granted Critical
Publication of DE60102975T2 publication Critical patent/DE60102975T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Description

  • Technisches Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf elektronische Geräte und genauer gesagt auf Verfahren und Systeme zur Kodierung, Übertragung, Speicherung und Dekodierung/Synthese von Sprache.
  • Hintergrund der Erfindung
  • Die Leistung digitaler Sprachsysteme, die niedrige Bitraten anwenden, ist für den aktuellen und absehbaren digitalen Kommunikationsbereich immer wichtiger geworden. Sowohl Übertragungen mit zugewiesenen Kanälen als auch paketiert-über-Netzwerk (VoIP) profitieren von der Komprimierung von Sprachsignalen. Das häufig verwendete lineare prädiktive (LP) Sprach-Kodierungs-Komprimierungs-Verfahren formt den Vokaltrakt als ein zeitvariables Filter und eine zeitvariable Erregung des Filters, um menschliche Sprache nachzuahmen. Die lineare Vorhersageanalyse stellt LP-Koeffizienten a(j), j = 1, 2,..., M für einen Eingaberahmen digitaler Sprachabtastwerte {s(n)} fest, und zwar durch das Setzen von r(n) = s(n) – ΣM≥j≥1 a(j)s(n–j) (1)und das Minimieren von Σr(n)2. Üblicherweise wird M, die Größenordnung des linearen Vorhersagefilters, zwischen ca. 10–12 gewählt; für die Abtastrate für das Bilden der Abtastwerte s(n) wird üblicherweise 8 kHz gewählt (die gleiche Rate, wie die für das Abtasten für digitale Übertragung im Fernsprechnetz); und die Anzahl von Abtastwerten {s(n)} in einem Rahmen beträgt häufig 80 oder 160 (10 oder 20 ms Rahmen). Diverse Fenstertechnikoperationen können auf die Abtastwerte des Eingabesprachrahmens angewendet werden. Der Name „lineare Vorhersage" ergibt sich aus der Interpretation von r(n) = s(n) – ΣM≥j≥1 a(j)s(n–j) als Fehler aus der Vorhersage von s(n) durch die lineare Kombination von vorhergehenden Sprachabtastwerten ΣM≥j≥1 a(j)s(n–j). Folglich ergeben sich aus einer Minimierung von Σr(n)2 die Koeffizienten{a(j)}, die die beste lineare Vorhersage liefern. Die Koeffizienten{a(j)} können zur Quantisierung und Übertragung oder Speicherung zu Linienspektralfrequenzen (LSF) konvertiert werden.
  • Die {r(n)} bilden den LP-Restwert für den Rahmen und im Idealfall wäre der LP-Restwert die Erregung für den Synthesefilter 1/A(z), wobei A(z) die Übertragungsfunktion der Gleichung (1) ist. Natürlich ist der LP-Restwert am Dekodierer nicht verfügbar; daher ist es die Aufgabe der Kodiereinrichtung, den LP-Restwert darzustellen, so dass die Dekodiereinrichtung eine LP-Erregung aus den kodierten Parametern erzeugen kann. Physiologisch weist die Erregung für stimmhafte Rahmen in etwa die Form einer Reihe von Impulsen mit der Tonhöhenfrequenz auf, und für stimmlose Rahmen weist die Erregung in etwa die Form von weißem Rauschen auf.
  • Der LP-Komprimierungsansatz überträgt/speichert im Grunde nur Aktualisierungen für die (quantisierten) Filterkoeffizienten, den (quantisierten) Restwert (Wellenform oder Parameter, wie z.B. Tonlage), und die (quantisierte) Verstärkung. Ein Receiver erstellt die Sprache neu, und zwar mit denselben wahrnehmbaren Eigenschaften wie die eingegebene Sprache. 9 zeigt die Blöcke in einem LP-System. Ein periodisches Aktualisieren der quantisierten Elemente erfordert weniger Bits, als eine direkte Darstellung der Sprachsignale, also kann eine angemessene LP-Kodiereinrichtung mit so niedrigen Bitraten arbeiten, die nur bei 2–3 kb/s (Kilobit pro Sekunde) liegen.
  • Tatsächlich verwendet der ITU Standard G.729 Annex E mit einer Bitrate von 11,8 kb/s für das Komprimieren von Voiceband-Sprache eine LP-Analyse mit Codebuch-Erregung (CELP) und erreicht eine Leistung, die vergleichbar mit den 64 kb/s PCM ist, die für die digitale Übertragung im Fernsprechnetz verwendet wird.
  • Nicht einmal die Qualität des G.729 Annex E Standards erfüllt jedoch die Anforderungen an Hochqualitätssprachsysteme, und diverse Vorschläge erweitern die Kodierung auf Breitbandsprache (d.h. 0–7 kHz), ohne eine zu starke Erhöhung der Übertragungsbitrate.
  • Der direkte Ansatz, die LP-Kodierung auf das komplette 0–8 kHz Breitband anzuwenden, erhöht die Bitrate zu sehr oder verschlechtert die Qualität. Ein alternativer Ansatz extrapoliert einfach aus dem (kodierten) 0–4 kHz Niedrigband, um ein 4–8 kHz Hochbandsignal zu erzeugen; siehe Chan et al, Quality Enhancement of Narrowband CELP-Coded Speech via Wideband Harmonic Re-Synthesis, IEEE ICASSP 1997, Seiten 1187–1190. Ein weiterer Ansatz verwendet Split-Band-CELP oder MPLPC, indem ein 4–8 kHz Hochband separat vom 0–4 kHz Niedrigband kodiert wird und dem Hochband weniger Bits zugeordnet werden; siehe Drogo de Jacovo et al, Some Experiments of 7 kHz Audio Coding at 16 kbit/s, IEEE ICASSP 1989, Seiten 192–195. Auf ähnliche Weise liefert Tucker, Low Bit-Rate Frequency Extension Coding, IEE Colloquium on Audio and Music Technology 1998, Seiten 3/1–3/5 eine Standardkodierung des Niedrigbands 0–4 kHz und eine Kodierung lediglich der stimmlosen Rahmen (wie im Niedrigband festgestellt) der 4–8 kHz Hochbandsprache, wobei ein LP-Filter der Größenordnung 2–4 mit Rauscherregung verwendet wird. Diese Ansätze leiden jedoch entweder unter einer zu hohen Bitrate oder unter einer zu niedrigen Qualität.
  • Split-Band-Kodierung wird auch in Paulus et al, "6kbit/s Wideband Speech Coding Based on Unequal Subbands ICASSP '96, Seiten 255–258 offenbart. Hierin wird das höhere Subband durch einfaches weißes Rauschen mit Anpassung der kurzfristigen Energie dargestellt.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung liefert ein Verfahren für Breitbandsprachkodierung, das folgendes umfasst: (a) Aufteilen eines Rahmens digitaler Sprache in ein Niedrigband und ein Hochband; (b) Kodierung des Niedrigbands; (c) Kodierung des Hochbands unter Anwendung einer linearen Vorhersageerregung aus einem Rauschen, das von einem Anteil des Niedrigbands moduliert wird; und (d) Kombination des kodierten Niedrigbands mit dem kodierten Hochband, um eine kodierte Breitbandsprache zu schaffen.
  • Gemäß einem zweiten Aspekt wird ein Verfahren für Breitbandsprachdekodierung geliefert, das folgendes umfasst: (a) Dekodierung eines ersten Anteils eines Eingangssignals als Niedrigband-Sprachsignal; (b) Dekodierung eines zweiten Anteils eines Eingangssignals als eine geräuschmodulierte Erregung einer linearen Vorhersagekodierung, wobei die Geräuschmodulation der geräuschmodulierten Erregung durch einen Anteil der Ergebnisse des Dekodierens als ein Niedrigband-Sprachsignal aus dem vorhergehenden Schritt (a) stattfindet; und (c) Kombination der Ergebnisse der vorhergehenden Schritte (a) und (b), um ein dekodiertes Breitbandsprachsignal zu schaffen.
  • Gemäß einem dritten Aspekt wird eine Breitbandsprachkodiereinrichtung geliefert, die folgendes umfasst: (a) ein Niedrigbandfilter und ein Hochbandfilter für digitale Sprache; (b) eine erste Kodiereinrichtung, die Eingabesignale vom Niedrigbandfilter erhält; (c) eine zweite Kodiereinrichtung, die Eingabesignale vom Hochbandfilter und vom Niedrigbandfilter erhält, wobei die zweite Kodiereinrichtung eine Erregung aus einem Rauschen verwendet, das von einem Anteil der Ausgabe des Niedrigbandfilters moduliert wird; und (d) einen Kombinator, damit die Ausgänge der ersten Kodiereinrichtung und der zweiten Kodiereinrichtung kodierte Breitbandsprache ausgeben.
  • Gemäß einem vierten Aspekt der Erfindung wird eine Breitbandsprachdekodiereinrichtung geliefert, die folgendes umfasst: (a) einen ersten Sprachdekodierer mit einem Eingang für kodierte Schmalbandsprache; (b) einen zweiten Sprachdekodierer, mit einem Eingang für kodierte Hochbandsprache und einem Eingang für die Ausgabe des ersten Sprachdekodierers, wobei der zweite Sprachdekodierer eine Erregung aus einem Rauschen verwendet, das von einem Anteil der Ausgabe des ersten Sprachdekodierers moduliert wird; und (c) einen Kombinator, damit die Ausgänge des ersten Sprachdekodierers und des zweiten Sprachdekodierers dekodierte Breitbandsprache ausgeben.
  • Dies bietet Vorteile, wie zum Beispiel das erfassen der Qualität von Breitbandsprache bei niedrigen Bitraten und das Einbetten der Voicebandkodierung in die Breitbandkodierung, um eine Auswahl der Dekodierungsbitrate zuzulassen.
  • Kurze Beschreibung der Zeichnungen
  • Bevorzugte und exemplarische Ausführungsbeispiele der vorliegenden Erfindung werden nun, lediglich als Beispiel, ausführlicher beschrieben unter Bezugnahme auf die Figuren der beigefügten Zeichnungen, in denen:
  • 1a1c erste bevorzugte Ausführungsbeispiele zeigen.
  • 2a2b veranschaulichen Frequenzbereichsrahmen.
  • 3a3b zeigen die Filterung.
  • 4a4b sind Blockdiagramme von G.729 Kodiereinrichtungen und Dekodiereinrichtungen.
  • 5 zeigt eine Umkehr des Spektrums.
  • 67 stellen die hohen Anteile eines Niedrigbands für einen stimmhaften Rahmen und den Tonumfang dar.
  • 89 sind Blockdiagramme von Systemen.
  • Ausführliche Beschreibung der bevorzugten Ausführungsbeispiele
  • 1. Überblick
  • Die bevorzugten Ausführungsbeispielsysteme beinhalten bevorzugte Ausführungsbeispiel-Kodiereinrichtungen und Dekodiereinrichtungen, die einen Breitbandsprachrahmen als Summe eines Niedrigbandsignals und eines Hochbandsignals verarbeiten, wobei das Niedrigbandsignal selbständige Sprachkodierungs/-dekodierungsinformationen aufweist und das Hochbandsignal integrierte Kodierungs-/Dekodierungsinformationen vom Niedrigband aufweist, um eine Rauscherregung zu modulieren. Dies ermöglicht es, dass eine minimale Anzahl an Bits für die ausreichende Kodierung des Hochbands verwendet werden kann, und es wird ein eingebetteter Dekodierer geliefert.
  • 2. Erste bevorzugte Ausführungsbeispielsysteme
  • 1a zeigt ein Blockschaltbild eines ersten bevorzugten Ausführungsbeispielsystems für Breitbandsprachkodierung, Übertragung (Speicherung) und Dekodierung, inklusive erste bevorzugte Ausführungsbeispiele für Kodiereinrichtungen und Dekodiereinrichtungen. Die Kodiereinrichtungen und Dekodiereinrichtungen verwenden CELP Niedrigbandkodierung und -dekodierung zuzüglich integrierter Hochbandkodierungs- und -dekodierungsinformationen vom (dekodierten) Niedrigband für die Modulation einer Rauscherregung mit LP-Kodierung.
  • Wie in 1b veranschaulicht, gehen erste bevorzugte Ausführungsbeispiele für Kodiereinrichtungen wie folgt vor. Halbbandfilterung einer 0–8 kHz Breitbandsprache (16 kHz Abtastrate) in ein 0–4 kHz Niedrigbandsignal und ein 4–8 kHz Hochbandsignal und Dezimierung der Ausgangsabtastrate von 16kHz mit einem Faktor von 2 sowohl des Niedrigbands als auch des Hochbands, um zwei Basisbandsignale jeweils mit einer Abtastrate von 8 kHz zu erzeugen. (Es gilt zu beachten, dass das Basisband des dezimierten Hochbands ein umgekehrtes Spektrum aufweist, da das Basisband eine Alias-Abbildung darstellt; siehe 3b). Als nächstes Kodierung des ersten Basisbandsignals (dezimiertes Niedrigband) mit einer (Standard-) Niedrigbandkodiereinrichtung. Der ITU G.729 Standard mit 8 kb/s verwendet zum Beispiel 18 Bit für quantisierte LP-Koeffizienten (drei Codebücher) pro 10 ms-Rahmen (80 Abtastwerte), 14 Bit für Tonlagenverzögerung (adaptives Codebuch), 34 Bit für verzögertes Erregungsdifferential (Codebuch mit festen Einträgen) sowie 14 Bit für Verstärkungen. Die 4a4b zeigen Blockdiagramme der Kodier- und Dekodiereinrichtungen. G.729, Anhang E bietet eine höhere Qualität mit einer höheren Bitrate (11,8 kb/s).
  • Dann Umkehr des Spektrums des zweiten Basisbands (dezimiertes Hochbandabbild) wie in 5 und Kodierung des Signals mit LP-Filterkoeffizienten und Geräuscherregungsverstärkung für eine (modulierte) Geräuscherregung. Einige der ersten bevorzugten Ausführungsbeispiele verwenden tonlagenmodulierte Geräuscherregung, wobei die tonlagenmodulierte Geräuscherregung vom Niedrigband durch Multiplikation des Rauschens mit (dem Tonumfang des) 2,8–3,8 kHz Subbands des ersten Basisbandsignals abgeleitet wird. In diesem Fall ersetzt die normalisierte (durch die 2,8–3,8 kHz Subbandenergie geteilte) Erregungsverstärkung die Erregungsverstärkung im Code.
  • Schließlich Kombinierung der Niedrigband- und Hochbandcodes in einen einzelnen Bitfluss, der den Niedrigbandcode als einen eingebetteten Subfluss enthält. Die folgenden Abschnitte liefern ausführlichere Beschreibungen.
  • Die Dekodierung dreht den Kodierungsprozess dadurch um, dass die Hochband- und Niedrigbandcodes getrennt werden, Informationen vom dekodierten Niedrigband für die Unterstützung der Dekodierung des Hochbands verwendet werden und das dekodierte Hochband zur dekodierten Niedrigbandsprache zugefügt wird, um Breitbandsprache zu erzeugen. Siehe 1c. Dieser Split-Band-Ansatz erlaubt es, die meisten der Codebits dem Niedrigband zuzuordnen; das Niedrigband kann zum Beispiel 11,8 kb/s verbrauchen und das Hochband kann 2,2 kb/s hinzufügen, um eine Summe von 14 kb/s zu ergeben.
  • Durch die Unabhängigkeit des Niedrigbandcodes von jeglicher Hochbandinformation erlaubt es, dass die Bits des Niedrigbandkodierers im Gesamt-Kodier-Bitfluss eingebettet sein können, und durch eine Dekodiereinrichtung mit niedrigerer Bitrate für eine separate Dekodierung extrahiert werden können. Dieser Split-Band-Ansatz stellt auch sicher, dass ein analoges Niedrigbandeingangssignal, wie zum Beispiel von einer herkömmlichen Telefonleitung (Bandbreitenbeschränkung auf 3,4 kHz) auch problemlos mit der Breitbandkodierung des bevorzugten Ausführungsbeispiels kodiert werden kann.
  • 3. Einzelheiten über die Kodiereinrichtung
  • Die 2a2b veranschaulichen die typischen Größenordnungen stimmhafter bzw. stimmloser Sprache als Funktionen über den Frequenzbereich von 0–8 kHz. Wie aus 2a ersichtlich ist, befindet sich der Großteil der Energie in stimmhafter Sprache im 0–3 kHz Band. Des Weiteren taucht die Tonlagenstruktur (die Grundfrequenz in 2a beträgt ca. 125 Hz) klar in der Spanne von 0–3,5 kHz auf und bleibt (wenn auch durcheinander) auch bei höheren Frequenzen erhalten. Die wahrnehmbare kritische Bandbreite bei höheren Frequenzen beträgt jedoch ca. 10% einer Band-Mittenfrequenz, so dass die einzelnen Tonlagenoberschwingungen nicht mehr auseinander gehalten werden können und weniger Bits im Hochbandcode benötigt werden sollten.
  • Im Gegensatz dazu zeigt 2b Energiespitzen stimmloser Sprache im 3,5-6,5 kHz Band. Die genaue Beschaffenheit dieser Hochbandsignale enthält jedoch wenig wahrnehmbare Informationen.
  • Folglich sollte das höhere Band (über 4 kHz) weniger Bits für die Kodierung erfordern, als das niedrigere Band (0–4 kHz). Die Verfahren gemäß den bevorzugten Ausführungsbeispielen für die Aufteilung von Breitbandsprache (0–8 kHz) in ein Niedrigband (0–4 kHz) und ein Hochband (4–8 kHz) beruhen auf diesem Grundsatz, wobei erkannt wird, dass das Niedrigband durch eine beliebige Niedrigbandkodiereinrichtung kodiert werden kann und das Hochband separat mit einer relativ niedrigen Anzahl an Bits kodiert wird, wie in den folgenden Abschnitten beschrieben.
  • 1b veranschaulicht den Ablauf eines ersten bevorzugten Ausführungsbeispiels für eine Sprachenkodiereinrichtung, die durch die folgenden Schritte mit einer Bitrate von 14 kb/s kodiert.
    • (1) Abtasten eines Eingangs-Breitband-Sprachsignals (dessen Band auf 8 kHz beschränkt ist) bei 16 kHz, um eine Folge von Breitband-Abtastwerten, wb(n), zu erhalten. Aufteilung des digitalen Stroms in Rahmen mit 160 Abtastwerten (10ms).
    • (2) Tiefpassfilterung von wb(n) mit einem Durchlassband von 0–4 kHz, um ein Niedrigbandsignal lb(n) zu erzeugen, und (später) auch eine Hochpassfilterung von wb(n) mit einem Durchlassband von 4–8 kHz, um ein Hochbandsignal hb(n) zu erzeugen; hierbei handelt es sich nur um eine Halbband-Filterung. Da sowohl lb(n) als auch hb(n) eine Bandbreite von 4 kHz haben, kann die Abtastrate von lb(n) und hb(n) mit dem Faktor 2 auf eine Abtastrate von 8 kHz dezimiert werden, ohne Auftreten von Informationsverlust. Folglich kann lbd(m) die Basisbandversion (0–4 kHz) von lb(n) nach der Dezimierung der Abtastrate mit dem Faktor 2 angeben, und auf ähnliche Weise kann hbdr(m) Basisbandversion (0–4 kHz) von hb(n) nach der Dezimierung der Abtastrate mit dem Faktor 2 angeben. 3a3b veranschaulichen die Bildung von lbd(m) bzw. hbdr(m) in der Frequenzdomäne bei einem stimmhaften Rahmen; es gilt zu beachten, dass Π auf der Frequenzskala der Hälfte der Abtastrate entspricht. Die Dezimierung mit 2 erzeugt spektral umgekehrte Bilder und das Basisband hbdr(m) ist im Vergleich zu hb(n) umgekehrt. Natürlich entspricht lbd(m) dem herkömmlichen Abtasten mit 8 kHz von Sprache bei der Digitalisierung von analogen Voiceband-Telefonsignalen (0,3–3,4 kHz).
    • (3) Kodierung von lbd(m) mit einer Schmalbandkodiereinrichtung, zum Beispiel die Kodiereinrichtung nach ITU-Standard 11,8 kb/s G.729 Annex E, die eine sehr hohe Sprachqualität bei relativ guter Leistung für Musiksignale liefert. Diese Kodiereinrichtung kann Rahmen mit 80 Abtastwerten (10 mx bei einer Abtastrate von 8 kHz) verwenden, die einem Rahmen mit 160 Abtastwerten (10 ms bei einer Abtastrate von 16 kHz) von wb(n) entspricht. Diese Kodiereinrichtung verwendet lineare Vorhersagekodierung (LP) sowohl mit Vorwärts- als auch Rückwärtsmodus und kodiert einen Rahmen im Vorwärtsmodus mit 18 Bit für Codebuch-quantisierte LP-Koeffizienten, 14 Bit für Codebuch-quantisierte Verstärkung (7 Bit in jedem der zwei Unterrahmen), 70 Bit für Codebuch-quantisierte differential-verzögerte Erregung (35 Bit in jedem Unterrahmen) und 16 bit für Codebuch-quantisierte pitch delay und Modusanzeige, was insgesamt 118 Bit für einen 10-ms-Rahmen ergibt. Ein Rahmen im Rückwärtsmodus ist ähnlich, außer, dass die 18 LP-Koeffizienten-Bits statt dessen dafür verwendet werden, die Erregungs-Codebuch-Bits auf 88 zu erhöhen.
    • (4) Unter Verwendung von lbd(m) Vorbereitung einer Tonhöhen-Modulations-Wellenform, die derjenigen, die von der Hochband-Dekodiereinrichtung wie folgt verwendet wird, ähnelt. Zuerst Anwendung eines 2,8–3,8 kHz Durchlassfilters auf das Basisbandsignal lbd(m), um dessen hohen Anteil lbdh(m) zu erzeugen. Dann Verwendung des absoluten Wertes |lbdh(m)|; ein ähnliches Signal wird von der Dekodiereinrichtung als Multiplizierer eines Weißrauschsignals verwendet, das die Erregung für das Hochband darstellt. Der Dekodierungsschritt (5) im folgenden Abschnitt liefert nähere Einzelheiten.
    • (5) Sofern nicht schon in Schritt (2) geschehen, Hochpassfilterung von wb(n) mit einem Durchlassband von 4–8 kHz, um das Hochbandsignal hb(n) zu erzeugen, und dann Dezimierung der Abtastrate mit 2, um hbdr(m) zu erhalten. Diese Hochband-Verarbeitung kann nach der Tiefband-Verarbeitung (vorhergehende Schritte (2)–(4)) erfolgen, um die Speicheranforderungen eines digitalen Signalverarbeitungssystems herabzusetzen.
    • (6) Anwendung von LP-Analyse auf hbdr(m) und Feststellung der (Hochband-) LP-Koeffizienten aHB(j) für ein Filter der Größenordnung M = 10 und Schätzung der Energie des Rests rHB(m). Die Energie von rHB skaliert die tonhöhenmodulierte Weißrauscherregung des Filters für die Synthese.
    • (7) Umkehrung der Zeichen der alternativen Hochband-LP-Koeffizienten: dies entspricht der Umkehrung des Spektrums von hbdr(m) zu hbd(m), wodurch der Anteil mit höherer Energie von stimmhaften Rahmen in die tieferen Frequenzen, wie in 5 veranschaulicht, verschoben wird. Energie in den tieferen Frequenzen ermöglicht eine effektive Verwendung derselben Codebuch-Quantisierung, die von der Niedrigbandkodiereinrichtung für lbd(m) verwendet wird. Genauer gesagt haben stimmhafte Rahmen eine Tiefpass-Eigenschaft, und die Codebuch-Quantisierungs-Effizienz für LSFs hängt von einer solchen Eigenschaft ab: G.729 verwendet eine Quantisierung von LSFs mit geteilten Vektoren, wobei die niedrigeren Koeffizienten mehr Bits aufweisen. Folglich Bestimmung von LSFs aus dem (umgekehrten) LP-Koeffzienten ±aHB(j), und Quantisierung mit dem Quantisierungsverfahren der Niedrigbandkodiereinrichtung für lbd(m) in Schritt (4). Alternativ zuerst eine Umkehrung des Spektrums von hbdr(m), um hbd(m) zu erhalten, indem eine Rechteckwelle mit 4 kHz moduliert wird, und dann Durchführung der LP-Analyse und LSF-Quantisierung. Beide Ansätze haben dieselben Ergebnisse.
    • (8) Die Erregung für die Hochbandsynthese wird geräuschmoduliert skaliert (multipliziert) mit einem Schätzwert von |lbdh(m)|, wobei die Skalierung so gewählt ist, dass die Erregungsenergie gleich der Energie des verbleibenden Hochbands rHB(m) ist. Folglich Normalisierung des verbleibenden Energiepegels, indem die Energie des verbleibenden Hochbands durch die Energie von |lbdh(m)|, die in Schritt 4 bestimmt wurde, geteilt wird. Schließlich Quantisierung dieser normalisierten Energie des verbleibenden Hochbands an Stelle der (nicht normalisierten) Energie des verbleibenden Hochbands, die für die Erregung verwendet werden würde, wenn die Tonhöhenmodulation ausgelassen wird. Das heißt, dass die Verwendung von Tonhöhenmodulation für die Hochbanderregung keine Erhöhung der Kodierungsbits erfordert, da die Dekodiereinrichtung die Tonhöhenmodulation aus dem dekodierten Niedrigbandsignal ableitet, und die Energie des verbleibenden Hochbands dieselbe Anzahl an Kodierungsbits verwendet, unabhängig davon, ob eine Normalisierung angewendet wurde oder nicht.
    • (9) Vereinigung der Ausgabebits der Basisbandkodierung lbd(m) aus Schritt (4) und der Ausgabebits der hbd(m)-Kodierung aus Schritt (7–8) in einen einzigen Bitstrom.
  • Es gilt zu beachten, dass alle quantisierten Elemente normalerweise Differenzwerte wären, und zwar dahingehend, dass die Werte der vorhergehenden Rahmen als Prädiktoren verwendet würden und nur die Unterschiede zwischen den tatsächlichen und den vorhergesagten Werten kodiert würden.
  • 4. Einzelheiten über den Dekodierer
  • Ein erstes bevorzugtes Ausführungsbeispiel des Dekodierverfahrens kehrt im Falle eines durch das erste bevorzugte Ausführungsbeispiel-Verfahren kodierten Bitstroms im Wesentlichen die Kodierungsschritte um. Insbesondere gilt für einen kodierten Rahmen im Bitstream:
    • (1) Extrahierung der Niedrigband-Codebits aus dem Bitstrom und Dekodierung (unter Verwendung des G.729-Dekoders), um das Niedrigband-Sprachsignal lbd'(m) zu synthetisieren, das einen Schätzwert von lbd(m) darstellt.
    • (2) Durchlassfilterung (2,8–3,8 kHz Band) von lbd'(m), um lbdh'(m) zu erhalten; und Berechnung des absoluten Wertes |lbdh'(m)|, wie bei der Kodierung.
    • (3) Extrahierung der Hochband-Codebits, Dekodierung der quantisierten Hochband-LP-Koeffizienten (abgeleitet von hbd(m)) und des quantisierten normalisierten Erregungsenergiepegels (Skalierungsfaktor). Frequenzumkehr der LP-Koeffizienten (Vertauschen der Zeichenumkehr), um die Filterkoeffizienten für einen Schätzwert von hbdr(m) zu erhalten.
    • (4) Erzeugung von weißem Rauschen und Skalierung mit dem Skalierungsfaktor. Der Skalierungsfaktor kann jeden Unterrahmen mit 20 Abtastwerten interpoliert werden (unter Verwendung des Skalierungsfaktors des Nachbarrahmens), um einen glatteren Skalierungsfaktor zu erhalten.
    • (5) Modulierung (Multiplizierung) des skalierten weißen Rauschens aus (4) mit der Wellenform |lbdh'(m)| aus (2), um die Hochbanderregung zu bilden. 6 veranschaulicht ein Beispiel eines lbdh'(m) für einen stimmhaften Rahmen. Im Falle von stimmloser Sprache würde die Periodizität im Allgemeinen fehlen und lbdh'(m) wäre eher einheitlich und würde die Weißrausch-Erregung nicht wesentlich modulieren. Die Periodizität von lbdh'(m) spiegelt die restliche Periodizität wider, die im Hochbandanteil aus 2a sichtbar ist und in 2b fehlt. Diese Tonhöhenmodulierung kompensiert ein wahrgenommenes Rauschen von Sprache, die aus einer reinen Geräuscherregung für hbd(m) in stark stimmhaften Rahmen synthetisiert wurde. Für den Schätzwert wird die Periodizität im 2,8–3,8 kHz Band von lbd'(m) verwendet, da die Periodizität bei stark stimmhafte Rahmen mit etwas Periodizität im Hochband tendenziell in den höheren Frequenzbereichen des Niedrigbands auftritt.
    • (6) Synthetisierung des Hochbandsignals hbdr'(m) durch die Verwendung der frequenzumgekehrten Hochband-LP-Koeffizienten aus (3) gemeinsam mit dem modulierten skalierten Geräusch aus (5) als Erregung. Die LP-Koeffizienten können in der LSP-Domäne alle 20 Abtastwerte interpoliert werden, um wechselnde Artifakte zu verringern.
    • (7) Upsampling (Interpolation mit 2) des synthetisierten (dekodierten) Niedrigbandsignals lbd'(m) auf eine Abtastrate mit 16 kHz und Niedrigpassfilterung (0–4 kHz Band), um lb'(n) zu erhalten. Es gilt zu beachten, dass eine Interpolation mit 2 ein spektral umgekehrtes Bild von lbd'(m) im 4–8 kHz Band liefert, das durch die Niedrigpassfilterung entfernt wird.
    • (8) Upsampling (Interpolation mit 2) des synthetisierten (dekodierten) Hochbandsignals hbd'(m) auf eine Abtastrate mit 16 kHz und Hochpassfilterung (4–8 kHz Band), um hb'(n) zu erhalten, das das Spektrum zurück zur Ausgangsform umkehrt. Die Hochpassfilterung entfernt das 0–4 kHz Bild.
    • (9) Addierung der zwei upgesampelten Signale, um die synthetisierten (dekodierten) Breitbandsprachsignale zu erhalten: wb'(n) = lb'(n) + hb'(n).
  • 5. Bevorzugte Ausführungsbeispiel-Systeme
  • 89 zeigen bevorzugte Ausführungsbeispiel-Systeme, die die Kodierung und Dekodierung des bevorzugten Ausführungsbeispiels verwenden, als Funktionsblock. Die Kodierung und Dekodierung kann mit Hilfe von digitalen Signalprozessoren (DSPs) durchgeführt werden oder mit programmierbaren Universalprozessoren oder mit anwendungsspezifischen Schaltungen oder Systemen auf einem Chip, wie z.B. sowohl ein DSP als auch ein RISC-Prozessor auf demselben Chip, wobei der RISC-Prozessor für die Steuerung zuständig ist. Codebücher würden im Speicher der Kodier- sowie der Dekodiereinrichtung gespeichert und ein gespeichertes Programm in einem On-Board ROM oder einem externen Flash-EEPROM für einen DSP oder eine programmierbaren Prozessor könnte die Signalverarbeitung übernehmen. Analog-Digital-Wandler und Digital-Analog-Wandler liefern die Schnittstelle zur realen Welt und Modulatoren und Demodulatoren (zuzüglich Antennen für Luft-Schnittstellen) liefern die Schnittstelle für Übertragungswellenformen. Die kodierte Sprache kann in Pakete aufgeteilt und über Netzwerke, wie zum Beispiel das Internet, übertragen werden.
  • 6. Zweite bevorzugte Ausführungsbeispiele
  • Zweite bevorzugte Ausführungsbeispiele für Kodier- und Dekodiereinrichtungen ähneln den ersten bevorzugten Ausführungsbeispielen für Kodier- und Dekodiereinrichtungen und teilen die abgetasteten Eingangssignale in ein Niedrigband und ein Hochband ein, downsamplen diese und wenden einen Schmalbanddekodierer auf das Niedrigband an. Die zweiten bevorzugten Ausführungsbeispiele variieren die Kodierung des Hochbands mit modulierter geräuscherregter LP durch die Ableitung der Modulation aus dem Tonumfang von lbdh(m) an Statt dessen absoluten Wertes. Insbesondere wird der Tonumfang en(m) von lbdh(m) durch Niedrigpassfilterung (0–1 kHz) des absoluten Wertes |lbdh(m)| plus Notch-Filterung, um dc zu entfernen, gefunden. 7 veranschaulicht en(m) der stimmhaften Sprache aus 6 im Zeitbereich.
  • 7. Modifikationen
  • Die bevorzugten Ausführungsbeispiele können auf verschieden Arten modifiziert werden, während die Merkmale der separaten Kodierung eines Niedrigbandsignals von einem Breitbandsignal beibehalten werden und Informationen vom Niedrigband verwendet werden, um bei der Kodierung des Hochbandes (Rest des Breitbandes) zu helfen, und/oder Verwendung von Spektrum-Umkehr für dezimierte Hochband-LP-Koeffizienten-Quantisierung, um eine Effizienz zu erhalten, die vergleichbar mit der Niedrigband-LP-Koeffizienten-Quantisierung ist.
  • Der obere Teil (2,8–3,8 kHz) des Niedrigbands (0–4 kHz) könne zum Beispiel durch einen oder mehrere andere Teile des Niedrigbands ersetzt werden, um für eine Modulierung der Hochbanderregung verwendet zu werden.
  • Außerdem können die Hochband-Kodier-/Dekodiereinrichtungen ihre eigene LP-Analyse und Quantisierung haben, wodurch die spektrale Umkehrung nicht erforderlich wäre; das Breitband kann in ein Niedrigband und zwei oder mehrere Hochbänder aufgeteilt werden; die Niedrigbandkodiereinrichtung könnte eine parametrische oder sogar nicht-LP-Kodiereinrichtung sein und eine Hochbandkodiereinrichtung könnte eine Wellenformkodiereinrichtung sein; und so weiter. Der Umfang der Erfindung wird hiermit nur durch die beigefügten Ansprüche eingeschränkt.

Claims (4)

  1. Verfahren für Breitbandsprachkodierung, das folgendes umfasst: (a) Aufteilen eines Rahmens digitaler Sprache in ein Niedrigband und ein Hochband; (b) Kodierung des Niedrigbands (c) Kodierung des Hochbands unter Anwendung einer linearen Vorhersageerregung aus einem Rauschen, das von einem Anteil des Niedrigbands moduliert wird; und (d) Kombination des kodierten Niedrigbands mit dem kodierten Hochband, um eine kodierte Breitbandsprache zu schaffen.
  2. Verfahren für Breitbandsprachdekodierung, das folgendes umfasst: (a) Dekodierung eines ersten Anteils eines Eingangssignals als Niedrigband-Sprachsignal; (b) Dekodierung eines zweiten Anteils eines Eingangssignals als eine geräuschmodulierte Erregung einer linearen Vorhersagekodierung, wobei die Geräuschmodulation der geräuschmodulierten Erregung durch einen Anteil der Ergebnisse des Dekodierens als ein Niedrigband-Sprachsignal aus dem vorhergehenden Schritt (a) stattfindet; und (c) Kombination der Ergebnisse der vorhergehenden Schritte (a) und (b), um ein dekodiertes Breitbandsprachsignal zu schaffen.
  3. Breitbandsprachkodiereinrichtung, die folgendes umfasst: (a) ein Niedrigbandfilter und ein Hochbandfilter für digitale Sprache; (b) eine erste Kodiereinrichtung, die Eingabesignale vom Niedrigbandfilter erhält; (c) eine zweite Kodiereinrichtung, die Eingabesignale vom Hochbandfilter und vom Niedrigbandfilter erhält, wobei die zweite Kodiereinrichtung eine Erregung aus einem Rauschen verwendet, das von einem Anteil der Ausgabe des Niedrigbandfilters moduliert wird; und (d) einen Kombinator, damit die Ausgänge der ersten Kodiereinrichtung und der zweiten Kodiereinrichtung kodierte Breitbandsprache ausgeben.
  4. Breitbandsprachdekodiereinrichtung, die folgendes umfasst: (a) einen ersten Sprachdekodierer mit einem Eingang für kodierte Schmalbandsprache; (b) einen zweiten Sprachdekodierer, mit einem Eingang für kodierte Hochbandsprache und einem Eingang für die Ausgabe des ersten Sprachdekodierers, wobei der zweite Sprachdekodierer eine Erregung aus einem Rauschen verwendet, das von einem Anteil der Ausgabe des ersten Sprachdekodierers moduliert wird; und (c) einen Kombinator, damit die Ausgänge des ersten Sprachdekodierers und des zweiten Sprachdekodierers dekodierte Breitbandsprache ausgeben.
DE60102975T 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen Expired - Lifetime DE60102975T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US20615600P 2000-05-22 2000-05-22
US206156P 2000-05-22

Publications (2)

Publication Number Publication Date
DE60102975D1 DE60102975D1 (de) 2004-06-03
DE60102975T2 true DE60102975T2 (de) 2005-05-12

Family

ID=22765216

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60118627T Expired - Lifetime DE60118627T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
DE60102975T Expired - Lifetime DE60102975T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE60118627T Expired - Lifetime DE60118627T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen

Country Status (4)

Country Link
EP (1) EP1158495B1 (de)
JP (1) JP2001337700A (de)
AT (1) ATE265732T1 (de)
DE (2) DE60118627T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004085604A (ja) * 2002-08-22 2004-03-18 Alpine Electronics Inc デジタルオーディオ信号伝送方法及びオーディオシステム
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
JPWO2006025313A1 (ja) * 2004-08-31 2008-05-08 松下電器産業株式会社 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
BRPI0515453A (pt) 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
JP4781272B2 (ja) * 2004-09-17 2011-09-28 パナソニック株式会社 音声符号化装置、音声復号装置、通信装置及び音声符号化方法
KR100721537B1 (ko) 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
RU2008121724A (ru) 2005-11-30 2009-12-10 Панасоник Корпорэйшн (Jp) Устройство субполосного кодирования и способ субполосного кодирования
GB2461185B (en) * 2006-12-25 2011-08-17 Kyushu Inst Technology High-frequency signal interpolation device and high-frequency signal interpolation method
MY164748A (en) * 2010-10-25 2018-01-30 Voiceage Corp Coding Generic Audio Signals at Low Bitrates and Low Delay

Also Published As

Publication number Publication date
EP1158495A3 (de) 2002-01-30
EP1158495A2 (de) 2001-11-28
EP1158495B1 (de) 2004-04-28
DE60118627T2 (de) 2007-01-11
DE60118627D1 (de) 2006-05-18
JP2001337700A (ja) 2001-12-07
DE60102975D1 (de) 2004-06-03
ATE265732T1 (de) 2004-05-15

Similar Documents

Publication Publication Date Title
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60011051T2 (de) Celp-transkodierung
DE60013785T2 (de) VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60216214T2 (de) Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60038279T2 (de) Beitband Sprachkodierung mit parametrischer Kodierung des Hochfrequenzanteils
DE60100813T2 (de) Verbesserte spektrale übersetzung/faltung im subband-bereich
DE69821089T2 (de) Verbesserung von quellenkodierung unter verwendung von spektralbandreplikation
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE69934608T2 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE60012760T2 (de) Multimodaler sprachkodierer
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
EP1979899B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60102975T2 (de) Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition